Лахути Д.Г., Баталина А.М., Епифанов М.Е., Кобзарева Т.Ю. Разработка средств автоматического синтаксического анализа как модуля системы понимания текста В докладе будет рассказано о ходе разработки средств автоматического синтаксического анализа (АСА) русского текста, проводимой в Институте лингвистики (ИЛ) РГГУ. Автоматический синтаксический анализ мыслится как самостоятельная составная часть (модуль) системы автоматического понимания естественноязыкового текста, работающая после модулей графематического и морфологического анализа и перед модулем семантического анализа текста. Ее задача – построить все синтаксически правильные (альтернативные) представления текста для передачи модулю семантического анализа, отсеивающего семантически недопустимые альтернативы. Модуль АСА также должен состоять из последовательно работающих модулей: постморфологии (выделение составных предлогов, наречий, вводных словосочетаний, словосочетаний, обозначающих числа и собственные имена и нек. др.), снятия частеречной омонимии, предсегментации (выделение предложных и атрибутивных именных групп, конструкции с числами и собственными именами), сегментации (выделение в предложении самостоятельных фрагментов – простых главных и придаточных предложений, обособленных причастных и деепричастных оборотов, вводных конструкций), внутрисегментного анализа (установление синтаксических отношений (синтагм) между словами предложения), межсегментного анализа, кореференции (установление синтаксически выраженной контекстной синонимии слов внутри одного или в разных предложениях). Ключевую роль здесь играет модуль сегментации, основанный на предложенной Т.Ю. Кобзаревой идее рекурсивного анализа, позволяющего анализировать предложения любой синтаксической сложности. Всего в системе АСА св. 60 лингвистических алгоритмов. Сложность задачи программной реализации системы АСА, проявившаяся в неудаче ряда попыток решения ее традиционными средствами программирования, привела к осознанию необходимости создания специальной программной среды для ее решения. Такой средой стала инструментальная среда для экспериментов с лингвистическими алгоритмами ЭСЛА, разработанная А.М. Баталиной и М.Е. Епифановым. К настоящему времени с использованием системы ЭСЛА с участием ряда студентов и аспирантов Отделения интеллектуальных систем ИЛ РГГУ программно реализованы в экспериментальном режиме модули АСА вплоть до модуля внутрисегментного анализа (включительно). В настоящее время основной задачей является, наряду с программной реализацией оставшихся модулей, отладка запрограммированных модулей на открытом множестве текстов (предложений) для выяснения устойчивости разрабатываемой системы, т.е. проверки того, что подключение новых и совершенствование имеющихся модулей не портит результатов работы системы на уже освоенном материале. Для этой цели разработана система пакетного тестирования модулей, реализующих лингвистические алгоритмы, сравнивающая результаты работы новых или модифицированных алгоритмов с результатами предыдущих экспериментов. В настоящее время пакетное тестирование подготовлено для модулей постморфологии и снятия омонимии. Будут продемонстрированы результаты работы модулей АСА на примерах.