М.И. ЗВЯГИНА Научный руководитель – А.В. БОРИСОВ , старший инженер-

advertisement
М.И. ЗВЯГИНА1,2
Научный руководитель – А.В. БОРИСОВ2, старший инженерпрограммист
1Национальный
исследовательский ядерный университет «МИФИ»
2АО "МЦСТ"
РАЗРАБОТКА СИСТЕМЫ ПОИСКА И ОТСЛЕЖИВАНИЯ
НАУЧНЫХ СТАТЕЙ НА ОСНОВЕ СЕМАНТИЧЕСКОГО
АНАЛИЗА
В данной работе рассматриваются основные принципы семантического анализа, их использование при работе с научными статьями и актуальность системы,
работающей в соответствии с представленными принципами.
Проблема поиска информации является актуальной в настоящее время.
Для удовлетворения потребности в знаниях необходимо узнавать что-то
новое, поэтому мы просматриваем десятки сайтов каждый день. Как правило, чтобы найти нужные данные, приходится тратить ценное время на
отсеивание бесполезных страниц. Это приводит к изменению восприятия
информационных ресурсов человеком. Процесс поиска становится похож
на сканирование новостной ленты без осмысления содержимого страниц.
Многие люди жалуются на то, что после целого дня, проведенного за просмотром электронной почты и веб-серфингом, они перестают воспринимать книги и даже большие тексты. Чтобы автоматизировать процесс поиска и уменьшить затрачиваемое время, нужно разработать систему, которая будет производить поиск не по словам, встречающимся в тексте, а
по его содержанию.
Для осуществления поиска текстов, относящихся к одной тематике,
используется семантический анализ[1]. Данный вид анализа определяет
схожесть текстов по содержанию, используя при этом ключевые слова,
являющиеся главными для рассматриваемой тематики, а также их синонимы. Анализ текстов происходит относительно всего контекста, а не для
отдельных слов. Для реализации семантического анализа научного текста
может применяться большое число алгоритмов. Рассмотрим более подробно тот, который будет использоваться для поиска статей.
Поиск основывается на извлечении из текста слов и словосочетаний
для построения терминологических словарей. Для извлечения словосочетаний, играющих ключевую роль в тексте, необходимо определить тематику, которую ищет пользователь. С каждой тематикой сопоставляются
так называемые лексико-синтаксические шаблоны[2], которые представляют собой граф связей элементов словосочетаний на основе их морфологических характеристик. По мере работы система накапливает собранные
данные для ускорения построения словарей.
Существующие семантические анализаторы текстов способны определить лишь тематику текста с нужной точностью, а сопоставление их содержания до сих пор является не решенной задачей. Также стоит отметить, что среди мобильных приложений нет систем, занимающихся поиском научных статей и применяющих семантический анализ.
Представленные на данный момент программы используют собственные базы данных, которая пополняется разработчиками, в то время как
данная система будет использовать все доступные Интернет-ресурсы, что
существенно увеличит количество информации.
С помощью разрабатываемой системы будет выполняться поиск научных статей с выбором из нескольких схожих наиболее подходящей под
запрос, а также отслеживание новостей на интересующую пользователя
тему. Для пользователей будет доступно комментирование статей и внесение правок (на источниках это не отразится), что поможет людям со
всего мира обмениваться мнением по поводу различных достижений
науки и техники.
Будет добавлена возможность упорядочения по дате, степени схожести
с запросом и т.д. полученных в результате поиска статей. Для более комфортного использования приложение сможет запоминать действия пользователя для ускорения работы системы на разных устройствах. Для переносимости системы необходимо будет разработать систему авторизации.
Основным преимуществом при использовании системы будет уменьшение затрачиваемого времени на поиск информации. Также можно будет
составить список тем, по которым вы хотите получать уведомления, и
даже если в данный момент интересующей вас тематики нет, то при её
появлении, приложение сообщит вам об этом, и вы не пропустите нужную
информацию. А благодаря возможности сортировки по дате и коэффициенту схожести текста, пользоваться приложением будет еще удобнее.
Список литературы
1.
2.
Thomas Landauer, Peter W. Foltz, Darrell Laham Introduction to Latent Semantic
Analysis, 1998. pp. 259–284.
М.Ю. Загорулько, Е.А. Сидорова. Система извлечения предметной терминологии из текста на основе лексико-синтаксических шаблонов. Институт систем информатики им. А.П. Ершова СО РАН, 2012. –511 с.
Download