Автоматическоe аннотирование документов в

advertisement
УДК 001(06) Телекоммуникации и новые информационные технологии…
М.С. МИТРОФАНОВ, И.Е. ЧИЖЕВСКИЙ
Национальный исследовательский ядерный университет «МИФИ»
АВТОМАТИЧЕСКОE АННОТИРОВАНИЕ ДОКУМЕНТОВ
В МНОГОКОМПОНЕНТНОЙ СИСТЕМЕ ПОИСКА
И АНАЛИЗА ЕСТЕСТВЕННО-ЯЗЫКОВОЙ ИНФОРМАЦИИ
Разработана система, позволяющая производить интеллектуальный поиск в корпусе документов и анализ
полученной выборки документов на основе смыслового анализа их содержимого. Тестирование проведено в
рамках работы с файловым архивом Международной конференции «Информационные технологии в образовании».
Для автоматизированной системы интеллектуального отбора, поиска и анализа естественно-языковой
информации компонент автоматического аннотирования каждого документа, присутствующего в общем
массиве, является одним из наиболее важных, поскольку способствует анализу больших объёмов текстовой
информации. Автоматическое построение аннотации предполагает выбор небольшого количества предложений из аннотируемого документа. Такими предложениями при минимальной избыточности представляют
максимальное количество тем, которые являются наиболее репрезентативными.
В работе применен метод TRM построения аннотации, основанный на использовании карты текстовых отношений (ТRМ — Техt Relationship Мар). Идея метода заключается в представлении текста в виде графа
G = (Р,Е),
где Р = {p1, р2, ... , pk, ... , рп} — взвешенные векторы слов, соответствующие фрагментам документа. Вектор
включает в себя веса составляющих его слов. Например, k-й фрагмент будет представлен вектором:
{ωk,1, ω k,2, ... , ω k,i, ... ω k,m}
где ω k,i , — вес слова, находящегося в позиции i фрагмента k; Е — множество дуг между узлами графа:
Е = {(p k , p b ), p k , p b е V}.
На рис. 1 изображен пример такой карты. Каждый узел на карте соответствует некоторому фрагменту текста (предложению, абзацу, разделу, параграфу) и представляется взвешенным вектором термов. Связи создаются между двумя узлами, если они имеют высокую меру подобия между параграфами, которая обычно вычисляется как скалярное произведение между векторами, представляющими эти фрагменты.
Если имеется связь между двумя узлами, то говорят, что соответствующие фрагменты "семантически
близки". Количество входящих в узел дуг на карте соответствует важности фрагмента.
Рис. 1. Пример карты текстовых отношений
Например, на рис. 1 узел Р5 своим содержанием может покрыть фрагменты, соответствующие связанным с
ним узлам, и он должен быть помещен в аннотацию. Чем больше дополнительных семантических связей входят
в вершину, являющуюся структурной единицей, тем больше семантических связей данная единица имеет с различными фрагментами документа — то есть тем большее число тем затронуто в данной структурной единице
документа. Отсортировав структурные единицы в данном графе по убыванию числа дополнительных семантических связей, можно получить список структурных единиц, являющихся наиболее репрезентативным представлением частей документа.
Поскольку аннотация пишется для целого кластера, все фрагменты текстов, составляющих кластер, в целях построения аннотации условно сводятся в один большой документ. При помощи графа, описывающего
корпус документов, строятся вектора в пространстве термов для структурных единиц документов, попавших
в кластер.
Количество предложений, выбираемых для аннотации из отсортированного списка, может быть выбрано
двумя различными способами: созданием минимального и максимального ограничения на количество предложений в аннотации, а также указанием минимального количества дополнительных семантических рёбер, входящих в каждый из узлов, выбираемых в качестве репрезентативного.
Данная система позволяет осуществлять смысловой анализ документов, содержащихся в файловом архиве, производить на основании смыслового анализа введенного пользователем запроса поиск близких по
_______________________________________________________________________
ISBN 978-5-7262-1230-2. XIV выставка-конференция
1
УДК 001(06) Телекоммуникации и новые информационные технологии…
смыслу документов в файловом архиве, выполнять разбиение найденных документов на объединенные общей тематикой группы, озаглавливать эти группы и автоматически аннотировать находящиеся в них документы.
Реализация системы проведена с использованием методологии SOA (Service Oriented Architecture), применен один из базовых протоколов для организации SOA-систем SOAP (Simple Object Access Protocol). Данный протокол является стандартным протоколом транспортного уровня для взаимодействия различных сервисов друг с другом в рамках SOA-архитектуры.
Интерфейсы каждого из компонентов описаны в виде WSDL-файлов. Документ WSDL является XMLдокументом, описывающим web-сервис. Он определяет расположение сервиса и операции (или методы),
предоставляемые им. Каждый из web-сервисов, создающих сущности в системе, знает, как работать с другими web-сервисами, обеспечивающими создание и получение информации о сущностях, на которые опирается web-сервис в своей работе. Добавление каждого из узлов производится соответствующим webсервисом, который также вызывает основной SystemService для регистрации сущностей в общем графе.
Основным форматом является формат XHTML.
В настоящий момент модуль автоматического аннотирования проходит апробацию на файловом архиве
конференции ИТО.
В базе данных, обслуживающую конференцию ИТО, информация о файлах хранится в виде отдельной
таблицы. Сам файловый архив располагается на отдельном сетевом диске. Способ хранения файлового архива, используемый в базе данных конференции ИТО, не был рассчитан на хранение векторов, соответствующим документам в созданном системой пространстве термов. По этой причине для осуществления
поиска на основе смыслового анализа документов была реализована вспомогательная база данных.
В целом выполненное моделирование системы позволяет проводить ее адаптацию для применения в различных научных подразделениях, а также для управления персоналом в распределенной среде исследовательского университета.
Авторы благодарны Ю.В.Калмыкову за постановку задачи, помощь в работе и руководителю Научнопедагогической группы «Интегрированные системы» Степановой Е.Б. за внимание.
_______________________________________________________________________
ISBN 978-5-7262-1230-2. XIV выставка-конференция
2
Download