ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВЫХ СООБЩЕНИЙ НА ОСНОВЕ ПРАВИЛ EBNF КАНИЩЕВА ОЛЬГА ВАЛЕРЬЕВНА, ДОРОШЕНКО АНАСТАСИЯ ЮРЬЕВНА Национальный технический университет "Харьковский политехнический институт" Харьков, Украина [email protected], [email protected] Извлечение информации из текстов и представление ее в виде формальной системы знаний – важная задача в области автоматической обработки текстов на естественном языке. Извлечение информации (Information Extraction) – это подход, который позволяет сузить круг задач, требующих специфического предметно-ориентированного решения при анализе текста. В рамках этого подхода задача обработки текста ограничена распознаванием множества классов ключевых понятий конкретной предметной области. Большинство современных систем извлечения информации из текстовых сообщений не являются универсальными. Они частично решают задачу извлечения из текста именованных сущностей (географические названия, имена людей, должности, звания, названия организаций и т.д.). Наиболее перспективным и практически самым востребованным является извлечение из текста сложных структур, более сложных, чем просто объекты. Необходимо связать извлеченные уже на первом этапе анализа объекты отношениями, информация о которых тоже должна быть извлечена из текста. Например, сбор информации об организациях или учреждениях – кто возглавляет, где находятся филиалы, когда они были открыты, кто ими руководит, информация о выданных указах и распоряжениях, о принятых законах, результатах выборов и референдумов и т.п. В данной работе описывается подход извлечения именованных сущностей (семантических единиц) из текстовых англоязычных сообщений. Это такие семантические единицы, как местоположение, человек, организация, указатели времени, финансы. Авторами для извлечения семантических единиц используется метод, основанный на правилах с использованием расширенной формы Бэкуса-Наура (EBNF). Для этого метода была получена программная реализация извлечения семантических сущностей, которая позволяет выделить большое количество вариативных сочетаний слов с семантической единицей. Рассмотренный подход основан на правилах, которые задают шаблоны. Дальше в тексте происходит поиск фрагментов, которые отвечают шаблону. К преимуществам данного подхода можно отнести точность настраивания на конкретную задачу, видимость и ясность правил, отсутствие необходимости создавать большой размеченный корпус текстов для учебного множества. Недостатки – скорость работы системы часто бывает неоправданно низкой, правил набирается довольно много, перенастраивать систему на другую задачу практически невозможно, поэтому приходится переписывать всю систему правил. Кроме того, метод шаблонов больше подходит для языков с фиксированным порядком слов (таких, как большинство западноевропейских языков), а для русского или украинского языков этот метод является довольно трудным в реализации. Предложенное решение для извлечения знаний позволяет извлекать семантические единицы из коротких текстов произвольной тематики на английском языке.