Exactus Expert система интеллектуального поиска и анализа научных публикаций Г.С.Осипов,И.В.Смирнов,И.В.Соченков,А.О.Шелман ов, А.В.Швец Институт системного анализа РАН [email protected] 1 Назначение системы • Информационно-аналитическая поддержка научно-технической деятельности • Помощь исследователям при выполнении НИР • Анализ состояния дел в заданной научной области • Выявление научных коллективов • Оценка качества научных публикаций 2 Основные решаемые системой задачи(1) • Автоматическое наполнение коллекций научных публикаций, в том числе из открытых источников • Автоматическое извлечение метаинформации – авторов, названия, года публикации • Релевантный семантический поиск научных публикаций по запросу на естественном языке • Поиск близких к заданной тематике публикации Все задачи решаются на основе поиска и анализа полных текстов научных публикаций 3 Основные решаемые системой задачи(2) Выделение научных направлений Выделение научных коллективов Анализ динамики различных показателей для направлений и коллективов • Резюме – составление краткого изложения публикации 4 Основные решаемые системой задачи(3) • Определение качества текстов научных публикаций: – проверка соответствия структуры публикации формальным требованиям – проверка наличия разделов «постановка проблемы», «методы решения», «эксперименты» и т.д. – выявление наличия квазинаучной и лженаучной лексики и словосочетаний – выявление семантических дефектов • Выделение авторских терминов • Выделение результатов 5 Общий алгоритм работы системы • Шаг 1. Загрузка научнотехнических документов • Шаг 2. Лингвистическая обработка текстов документов. Извлечение полезной информации • Шаг 3. Выполнение методов поиска, кластеризации, классификации и других методов анализа текстов 6 Лингвистическая обработка • Коммуникативная грамматика русского языка (применима для других языков) • Морфологический, синтаксический, семантический анализ текста • Лингвистические ресурсы – словари и правила • Реляционно-ситуационная модель текста, формализующая семантику текста в виде неоднородной 7 семантической сети 8 9 10 11 12 13 14 15 16 17 Выявление семантических дефектов(1) • Правило 1: если предложение содержит причастный оборот, выделенный запятыми, и причастие не согласуется ни с одним из существительных, местоимений, прилагательных и числительных, стоящих перед оборотом, в роде, числе и падеже в ед. ч. и в числе и падеже во мн. ч. (и не согласуется с однородными членами в падеже во мн. ч.), то такое предложение содержит признак нарушения • Пример.«Существует возможность превращения идиолекта в некий субстрат с аморфным содержанием и «экономной» формой, не дающих реальных шансов для диагностики говорящего» 18 Выявление семантических дефектов(2) • Правило 2: если выполнено, по крайней мере, одно из условий: • второй элемент пары встретился в тексте раньше, чем первый; • между однотипными элементами определенной пары отсутствует элемент другого типа, т.е. был пропущен один из элементов; • после первого элемента пары в оставшейся части текста отсутствует второй элемент. • Пример. «Нашим восприятием знаков, напоминающих нам об истории, репрезентирующих те или иные события в актуальном настоящем, управляют несколько важных механизмов. Во-первых, это «распознавание имени»... 19 • Выделение авторских терминов Первый шаг: графематический, морфологический, синтаксический и реляционно-ситуационный анализ. • Второй шаг: расширение контекстов синтаксической и семантической информацией. 20 Шаблоны контекстов определений • Сервис CORBA2ODBC – это менеджер ORB объектов СУБД. ЧР(Сущ.)&Падеж(И м.) + * + НФ(«этот») + * выделения результатов +ЧР(сущ.)&Падеж( Им.) • Биссектрисой • ЧР(Сущ.)&Знач.Си нт.(эстиматив) + НФ(«называться»). называется прямая, делящая угол между двумя прямыми пополам 21 Выделение результатов • 1. Выявление предикатных слов • 2. Синтаксема употреблена в роли объекта, делибератива или каузатива. 22 Выделение результатов • • • • • • • проведен анализ + делибератив дополнен + делибератив изложен + делибератив изучен + делибератив обеспечено + каузат введен + объект выделен + объект 23 24 24 expert.exactus.ru Институт системного анализа Российской академии наук 117312, Москва, пр-т. 60-летия Октября, 9 Телефон/факс: +7 (499) 135-42-22 e-mail: [email protected] 25