алгоритм расчета семантической близости

реклама
В.А. ФЕДОРОВА
Научный руководитель – О.Л. ГОЛИЦЫНА, к.т.н., доцент
Национальный исследовательский ядерный университет «МИФИ»
АЛГОРИТМ РАСЧЕТА СЕМАНТИЧЕСКОЙ БЛИЗОСТИ
ДЕСКРИПТОРОВ
Рассматриваются подходы к измерению семантической близости между дескрипторами поисковых образов с использованием парадигматических связей в политематической лексикографической БД.
Меры семантической близости широко применяются в области обработки естественного языка [1]. Расчет семантической близости дескрипторов тезауруса в основном учитывает длину пути, соединяющего дескрипторы (с учетом или без ассоциативных связей), или положение дескрипторов в иерархии [1-3].
В настоящей работе решалась задача сопоставления поисковых образов,
представленных множествами дескрипторов тезауруса, с целью построения их пересечения с учетом меры семантической близости дескрипторов.
Индексирование проводилось с использованием лексикографической БД,
содержащей тезаурусы различных предметных областей: науковедение,
информатика, лингвистика, экономика и др.
В связи с тем, что тезаурусы, входящие в состав базы данных, имеют
неравномерное иерархическое развитие, оказалось неэффективным применять меры, не позволяющие адекватно рассчитать семантическую близость
для коротких иерархических цепочек [4].
Мера, предложенная в [3], позволяет рассчитывать семантическую близость даже для иерархических цепочек, состоящих из двух дескрипторов.
Для расчета вводится множество суперпонятий 𝑈𝐶(𝑐𝑖 , 𝐻 𝑐𝑖 ), содержащее
само понятие 𝑐𝑖 , а также всех его предков в иерархической цепочке этого
понятия – 𝐻 𝑐𝑖 :
𝑈𝐶(𝑐𝑖 , 𝐻 𝑐𝑖 ) = {с𝑗 ∈ 𝐻 𝑐𝑖 | ∃𝑚 = (𝑐𝑖 , 𝑥𝑖1 , 𝑥𝑖2 … , 𝑥𝑖𝑘 , 𝑐𝑗 ) ∪ (𝑐𝑖 = 𝑐𝑗 )},
где m – маршрут, соединяющий понятия 𝑐𝑖 и 𝑐𝑗 , в котором используются
переходы 𝑥𝑖1 , 𝑥𝑖2 ,…, 𝑥𝑖𝑘 к вышестоящим понятиям.
Мера семантической близости рассчитывается при этом как отношение
числа общих суперпонятий к числу всех суперпонятий дескрипторов:
|𝑈𝐶(𝑐1 , 𝐻 𝑐1 ) ∩ 𝑈𝐶(𝑐2 , 𝐻 𝑐2 )|
𝑆(𝑐1 , 𝑐2 ) =
|𝑈𝐶(𝑐1 , 𝐻 𝑐1 ) ∪ 𝑈𝐶(𝑐2 , 𝐻 𝑐2 )|
Однако при формировании множества суперпонятий в лексикографической БД необходимо было учесть существование полисемии, порожденной
объединением тезаурусов нескольких предметных областей [4]. Были
сформулированы и реализованы в алгоритме правила построения иерархических цепочек для дескрипторов, входящих более чем в один тезаурус.
При построении пересечения двух поисковых образов A и B как множеств дескрипторов 𝐷𝐴 = (𝑎1 , 𝑎2 , … , 𝑎𝑛 ) и 𝐷𝐵 = (𝑏1 , 𝑏2 , … , 𝑏𝑛 ) рассчитывается матрица семантической близости 𝑊 размерности 𝑛 × 𝑚: 𝑊 = (𝑤𝑖𝑗 ),
где 𝑤𝑖𝑗 = 𝑆(𝑎𝑖 , 𝑏𝑗 ), 𝑖 = 1. . 𝑚, 𝑗 = 1. . 𝑛. Множество дескрипторов пересечения формируется из тех дескрипторов, для которых выполняется условие:
max(wij ) = max (𝑤ij )
̅̅̅̅
j=1,n
̅̅̅̅̅
i=1,m
Такой алгоритм определяет достаточное значение меры семантической
близости для включения дескрипторов в пересечение не через фиксированное пороговое значение, а на основании контекста, задаваемого дескрипторами каждого поискового образа. Так, для пар дескрипторов «Инновационный менеджмент» – «Наука управления», «Инновационный менеджмент»
– «Стратегическое управление», «Стратегическое управление» – «Государственное управление», «Коммерческий кредит» – «Денежные средства»,
«Заемный капитал» – «Коммерческий кредит», «Заемный капитал» – «Источник финансирования» получены ненулевые значения мер семантической близости. Однако сформулированному ограничению удовлетворяют
только пары дескрипторов «Инновационный менеджмент» – «Стратегическое управление», «Коммерческий кредит» – «Заемный капитал». Также в
пересечении оказались такие пары понятий, как «Сырьевые ресурсы» –
«Стратегические ресурсы», «Муниципальный бюджет» – «Бюджетная система», «Техническое перевооружение» – «Приоритеты развития», «Фонд
заработной платы» – «Материальные ресурсы», «Высшее образование» «Образование взрослых».
Список литературы
1. Лукашевич Н.В., Добров Б.В. Разрешение лексической многозначности на основе тезауруса предметной области //Компьютерная лингвистика и интеллектуальные технологии:
Тр. междунар. конф. «Диалог 2007». –М.,2007-с.400-406
2. Lin D. An information-theoretic defenition of similarity // Proc. Of the Int’l Conference on
Machine Learning - 1998
3. Maedche A., Zacharias V. Clustering Ontology-Based Metadata in the Semantic Web / Proceedings PKDD-2002, LNAI 2431, 2002. — P. 348-360
4. Голицына, О. Л. Сравнительный структурно-статистический анализ лексики и связей
информационно-поисковых тезаурусов/О. Л. Голицына, Н. В. Максимов // Научно-техническая информация. Сер. 2, Информационные процессы и системы.-2015.-№ 6.- С. 14-28
Скачать