Разработка средств автоматического синтаксического анализа

advertisement
Лахути Д.Г., Баталина А.М., Епифанов М.Е., Кобзарева Т.Ю.
Разработка средств автоматического синтаксического анализа
как модуля системы понимания текста
В докладе будет рассказано о ходе разработки средств автоматического
синтаксического анализа (АСА) русского текста, проводимой в Институте лингвистики
(ИЛ) РГГУ. Автоматический синтаксический анализ мыслится как самостоятельная
составная часть (модуль) системы автоматического понимания естественноязыкового
текста, работающая после модулей графематического и морфологического анализа и
перед модулем семантического анализа текста. Ее задача – построить все синтаксически
правильные (альтернативные) представления текста для передачи модулю семантического
анализа, отсеивающего семантически недопустимые альтернативы.
Модуль АСА также должен состоять из последовательно работающих модулей:
постморфологии (выделение составных предлогов, наречий, вводных словосочетаний,
словосочетаний, обозначающих числа и собственные имена и нек. др.), снятия
частеречной омонимии, предсегментации (выделение предложных и атрибутивных
именных групп, конструкции с числами и собственными именами), сегментации
(выделение в предложении самостоятельных фрагментов – простых главных и
придаточных предложений, обособленных причастных и деепричастных оборотов,
вводных конструкций), внутрисегментного анализа (установление синтаксических
отношений (синтагм) между словами предложения), межсегментного анализа,
кореференции (установление синтаксически выраженной контекстной синонимии слов
внутри одного или в разных предложениях). Ключевую роль здесь играет модуль
сегментации, основанный на предложенной Т.Ю. Кобзаревой идее рекурсивного анализа,
позволяющего анализировать предложения любой синтаксической сложности. Всего в
системе АСА св. 60 лингвистических алгоритмов.
Сложность задачи программной реализации системы АСА, проявившаяся в неудаче
ряда попыток решения ее традиционными средствами программирования, привела к
осознанию необходимости создания специальной программной среды для ее решения.
Такой средой стала инструментальная среда для экспериментов с лингвистическими
алгоритмами ЭСЛА, разработанная А.М. Баталиной и М.Е. Епифановым.
К настоящему времени с использованием системы ЭСЛА с участием ряда
студентов и аспирантов Отделения интеллектуальных систем ИЛ РГГУ программно
реализованы в экспериментальном режиме модули АСА вплоть до модуля
внутрисегментного анализа (включительно). В настоящее время основной задачей
является, наряду с программной реализацией оставшихся модулей, отладка
запрограммированных модулей на открытом множестве текстов (предложений) для
выяснения устойчивости разрабатываемой системы, т.е. проверки того, что подключение
новых и совершенствование имеющихся модулей не портит результатов работы системы
на уже освоенном материале. Для этой цели разработана система пакетного тестирования
модулей, реализующих лингвистические алгоритмы, сравнивающая результаты работы
новых или модифицированных алгоритмов с результатами предыдущих экспериментов. В
настоящее время пакетное тестирование подготовлено для модулей постморфологии и
снятия омонимии.
Будут продемонстрированы результаты работы модулей АСА на примерах.
Download