Осипов Г.С., Смирнов И.В., Соченков И.В., Шелманов А.О., Швец

реклама
Exactus Expert система интеллектуального
поиска и анализа научных
публикаций
Г.С.Осипов,И.В.Смирнов,И.В.Соченков,А.О.Шелман
ов, А.В.Швец
Институт системного анализа РАН
[email protected]
1
Назначение системы
• Информационно-аналитическая
поддержка научно-технической
деятельности
• Помощь исследователям при
выполнении НИР
• Анализ состояния дел в заданной
научной области
• Выявление научных коллективов
• Оценка качества научных публикаций
2
Основные решаемые
системой задачи(1)
• Автоматическое наполнение коллекций
научных публикаций, в том числе из открытых
источников
• Автоматическое извлечение метаинформации –
авторов, названия, года публикации
• Релевантный семантический поиск научных
публикаций по запросу на естественном языке
• Поиск близких к заданной тематике
публикации
Все задачи решаются на основе поиска и анализа полных текстов научных
публикаций
3
Основные решаемые
системой задачи(2)
Выделение научных
направлений
Выделение научных
коллективов
Анализ динамики различных
показателей для направлений
и коллективов
• Резюме – составление
краткого изложения
публикации
4
Основные решаемые
системой задачи(3)
• Определение качества текстов научных
публикаций:
– проверка соответствия структуры
публикации формальным требованиям –
проверка наличия разделов «постановка
проблемы», «методы решения»,
«эксперименты» и т.д.
– выявление наличия квазинаучной и
лженаучной лексики и словосочетаний
– выявление семантических дефектов
• Выделение авторских терминов
• Выделение результатов
5
Общий алгоритм
работы системы
• Шаг 1. Загрузка научнотехнических документов
• Шаг 2. Лингвистическая обработка
текстов документов. Извлечение
полезной информации
• Шаг 3. Выполнение методов
поиска, кластеризации,
классификации и других методов
анализа текстов
6
Лингвистическая
обработка
• Коммуникативная грамматика
русского языка (применима для других
языков)
• Морфологический, синтаксический,
семантический анализ текста
• Лингвистические ресурсы – словари и
правила
• Реляционно-ситуационная модель
текста, формализующая семантику
текста в виде неоднородной
7
семантической сети
8
9
10
11
12
13
14
15
16
17
Выявление семантических
дефектов(1)
• Правило 1: если предложение содержит причастный
оборот, выделенный запятыми, и причастие не
согласуется ни с одним из существительных,
местоимений, прилагательных и числительных, стоящих
перед оборотом, в роде, числе и падеже в ед. ч. и в
числе и падеже во мн. ч. (и не согласуется с
однородными членами в падеже во мн. ч.), то такое
предложение содержит признак нарушения
• Пример.«Существует возможность
превращения идиолекта в некий субстрат с
аморфным содержанием и «экономной»
формой, не дающих реальных шансов для
диагностики говорящего»
18
Выявление семантических
дефектов(2)
• Правило 2: если выполнено, по крайней мере, одно из
условий:
• второй элемент пары встретился в тексте раньше, чем
первый;
• между однотипными элементами определенной пары
отсутствует элемент другого типа, т.е. был пропущен
один из элементов;
• после первого элемента пары в оставшейся части
текста отсутствует второй элемент.
• Пример. «Нашим восприятием знаков,
напоминающих нам об истории,
репрезентирующих те или иные события в
актуальном настоящем, управляют несколько
важных механизмов. Во-первых, это
«распознавание имени»...
19
•
Выделение
авторских
терминов
Первый шаг: графематический,
морфологический, синтаксический
и реляционно-ситуационный
анализ.
• Второй шаг: расширение
контекстов синтаксической и
семантической информацией.
20
Шаблоны контекстов
определений
• Сервис
CORBA2ODBC –
это менеджер ORB
объектов СУБД.
ЧР(Сущ.)&Падеж(И
м.) + * +
НФ(«этот») + *
выделения результатов
+ЧР(сущ.)&Падеж(
Им.)
• Биссектрисой
• ЧР(Сущ.)&Знач.Си
нт.(эстиматив) +
НФ(«называться»).
называется
прямая, делящая
угол между двумя
прямыми пополам
21
Выделение результатов
• 1. Выявление предикатных слов
• 2. Синтаксема употреблена в роли
объекта, делибератива или
каузатива.
22
Выделение результатов
•
•
•
•
•
•
•
проведен анализ + делибератив
дополнен + делибератив
изложен + делибератив
изучен + делибератив
обеспечено + каузат
введен + объект
выделен + объект
23
24
24
expert.exactus.ru
Институт системного анализа
Российской академии наук
117312, Москва, пр-т. 60-летия Октября, 9
Телефон/факс: +7 (499) 135-42-22
e-mail: [email protected]
25
Скачать