Лукашевич Н.В., Логачев Ю.М. Использование методов

advertisement
УДК 004.853
ИСПОЛЬЗОВАНИЕ
МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ
ДЛЯ ИЗВЛЕЧЕНИЯ СЛОВ-ТЕРМИНОВ
Н.В. Лукашевич (louk_nat@mail.ru)
НИВЦ МГУ, Москва
Ю.М. Логачев (yulogachev@gmail.com)
ВМиК МГУ, Москва
Извлечение знаний из текстов, извлечение терминов, машинное обучение
В статье описывается метод для автоматического извлечения
однословных терминов. Отдельные признаки слов извлекаются на
основе обработки текстовой коллекции и анализа поисковой выдачи
на запросы глобальной поисковой машины. Полученные признаки
комбинируются с помощью методов машинного обучения.
Показано, что путем комбинирования признаков удается достичь
наилучшего качества извлечения однословных терминов.
Введение
Важным аспектом создания прикладных систем в конкретных
предметных областях является учет терминологии предметной области.
Поэтому одним из важных направлений исследований в области создания
понятийных моделей предметных областей, прикладных онтологий
являются технологии извлечения из текстов терминов предметной
области.
При извлечении терминов предметной области большое внимание
уделяется извлечению терминологических словосочетаний, и значительно
меньшее исследований посвящено извлечению отдельных слов-терминов
[Zhang et.al., 2008].
Вместе с тем известно, что список самых частотных
словосочетаний, извлеченных из текстов предметной области, содержит
очень высокую долю терминологических словосочетаний. В то время как
подавляющее число наиболее частотных слов, извлеченных из коллекции
текстов предметной области, представляют собой слова литературного
языка, и, следовательно, не являются терминами. Применение
статистических мер, позволяющих оценить особенность употребления
слов в данной коллекции по сравнению с некоторой контрастной
коллекцией документов таких, как tf.idf или странность (weirdness) [Zhang
et.al., 2008] повышает долю слов-терминов, получивших высокие веса по
этим мерам, однако все еще остается относительно низкой.
Другой мерой, которая может применяться для выделения
терминологических слов, является мера, оценивающая их вхождение как
фрагмента в объемлющие словосочетания [Ananiadou, 1994].
В данной работе мы рассмотрим различные признаки выявления
терминологичности
отдельного
слова
(прилагательных
и
существительных), оценим их качество на основе меры средней точности,
заимствованной из информационного поиска. Используемые нами
признаки могут быть разделены на три типа:
- признаки, построенные на основе текстовой коллекции
предметной области;
- признаки, полученные на основе информации глобальной
поисковой машины,
- признаки, полученные на основе заданного тезауруса предметной
области. Здесь мы моделируем ситуацию развития существующего
тезауруса и хотим выяснить, насколько знания, описанные в текущей
версии тезауруса, могут улучшить качество автоматического извлечения
следующих терминов.
Далее мы применяем методы машинного обучения для наилучшего
комбинирования
выделенных
признаков
с
целью
получения
терминологических слов. Как показано в ряде публикаций,
комбинирование
признаков
для
выделения
терминологических
словосочетаний, устойчивых словосочетаний других видов позволяет
значительно улучшить качество их извлечения [Pecina et.al., 2006; Zhang
et.al., 2008].
Эксперименты проводятся в широкой области естественных наук.
Качество методов определения терминологичности слов признаков
оценивается на создаваемой вручную Онтологии по естественным наукам
и технологиям ОЕНТ [Добров и др., 2005].
1. Текстовая коллекция и способ оценки качества извлечения
терминов
В качестве базы для экспериментов по извлечению слов-терминов
мы используем текстовую коллекцию, которая была собрана в начале
работы над онтологией ОЕНТ [Добров и др., 2005].
Онтология ОЕНТ представляет собой так называемую
лингвистическую онтологию, то есть онтологию, понятия в которой
основаны на значениях существующих языковых выражений – в данном
случае естественнонаучных терминов. Одновременно онтология ОЕНТ
может
рассматриваться
как
тезаурус,
поскольку
описывает
формализованные отношения между терминами предметной области.
В настоящее время онтология ОЕНТ включает 56 тысяч понятий и
150 тысяч различных терминов математики, химии, физики, геологии,
биологии.
На первом шаге разработки онтологии ОЕНТ (в 2004 году) были
собраны коллекции текстов по таким наукам как, математика, физика,
химия, геология (от 3000 до 8000 документов, от 50 до 90 Мб по каждой
из наук). Автоматически извлеченные слова и словосочетания из
собранных коллекций текстов можно использовать для тестирования
различных методов извлечения и упорядочения терминов-кандидатов,
поскольку за это время Онтология ОЕНТ выросла, и включенные в ее
состав термины могут служить хорошей основой для оценки качества
методов.
Эксперименты проводились на пяти тысячах наиболее частотных
слов, извлеченных из этой коллекции. Задачей применения методов
является переупорядочение исходного списка слов (первоначально
упорядоченного по мере снижения частотности) так, чтобы в начало
списка попало как можно больше слов-терминов. Таким образом,
наилучшее переупорядочение списка снизит трудозатраты эксперта по
вводу терминов в онтологию - эксперт будет меньше просматривать слова,
не являющиеся терминами.
Для оценки качества такого упорядочения используется мера,
заимствованная из информационного поиска – так называемая средняя
точность - AvP [Агеев и др., 2004].
Характеристика средней точности AvP в задаче извлечения словтерминов вычисляется следующим образом. Пусть в упорядоченном
списке слов имеется k терминов, и pos(i) - позиция i-го термина от начала
списка. Тогда точность на уровне i-го термина PrecTermi в
упорядоченном списке равна PrecTerm(pos(i)), то есть величина точности
PrecTermi подсчитывается в момент поступления в список i-го термина и
равна доле терминов в списке от 1 до i позиции. Средняя точность для
данного упорядочения списка слов равна среднему значению величины
PrecTermi:
AvP =
Данная мера позволяет оценить качество извлечения терминов с
помощью одной числовой величины за счет того, что, чем большая доля
терминов из списка сосредоточена в начале списка, тем эта мера выше.
2. Используемые признаки слов
Рассмотрим подробнее признаки, которые можно использовать для
выявления терминологичности слова, встретившегося в коллекции текстов
предметной области.
2.1. Частотность (Freq). Частотность употребления слова
коллекции.
в
2.2.Частотность с учетом частоты употребления в объемлющей
коллекции (Tf*idf)
Данный признак широко употребляется в информационнопоисковых системах и позволяет снижать вес употребительных слов. Tf –
это просто частотность слова в текущей коллекции.
Tf*Idf (w) =
,
где n – размер контрастной коллекции, b – число документов, в
которых употреблялось слово w в контрастной коллекции.
В качестве контрастной коллекции для данного признака была
выбрана коллекция Интернет-страниц белорусского Интернета, которая
распространяется в качестве базовой коллекции для экспериментов в
Интернет-поиске в рамках семинара РОМИП [Некрестьянов и др., 2008].
2.3. Признак Странность (Weirdness)
Данный признак учитывает пропорциональное соотношение
частотности употребления слова в рабочей текстовой коллекции по
сравнению с контрастной коллекцией [Ahmad et.al., 1999].
Пусть w – слово. Тогда
,
где
Ws - частотность слова в коллекции предметной области;
Ts – совокупная частотность слов в коллекции предметной области;
Wg - частотность слова в контрастной коллекции белорусского
интернета;
Tg – совокупная частотность слов в контрастной коллекции
белорусского интернета.
2.4. Признак С-Value
Данный признак основывает рейтинг терминологичности слов с
учетом частотности объемлющих словосочетаний, в которое входит
данное слово [Ananiadou, 1994]. Пусть w – слово. Тогда
C-Value(w) =
,
где Ta – множество всех словосочетаний в коллекции, содержащих
слово w; P(Ta) – мощность множества Ta.
2.5. Наиболее частотное объемлющее словосочетание (Inside)
Данный признак учитывает частотность наиболее частотного
словосочетания, в состав которого входит данное слово.
Пусть w – слово. Среди всех словосочетаний, содержащих слово w,
выберем наиболее частотное. Пусть Fmax – его частота. Тогда
Данный признак проверяет, не употребляется ли данное слово в
составе одного и того же словосочетания. Чем выше значение признака,
тем ниже вероятность того, что слово является самостоятельным
значимым элементом предметной области, а, скорее, является
компонентом более длинного устойчивого словосочетания.
2.6. Признаки употребления слова в наборе словосочетаний (Sum3,
Sum10, Sum50)
Данные признаки проверяют, насколько данное слово было
продуктивным в образовании словосочетаний предметной области.
Пусть w – слово. Среди всех словосочетаний, содержащих слово w,
выберем k наиболее частотных. Пусть Sum – cумма их частотностей.
Тогда
2.7. Признаки, полученные на основе выдачи глобальной
поисковой машины
Для вычисления следующих двух признаков были использованы
контексты
употребления слов. В качестве таких контекстов мы
используем сниппеты (аннотации документов в выдаче), получаемые от
поисковой машины Яндекс через xml-интерфейс. Для вычисления
признаков использовалось по 100 сниппетов из выдачи. Сниппеты,
получаемые по одному запросу, соединяются в один документ и
обрабатываются программой морфологического анализа. В результате для
каждого набора сниппетов может быть определена совокупность лемм
(слов в словарной форме) и их частотность встречаемости в данном
наборе сниппетов.
Для терминов существенным является принадлежность к
предметной области. Простейший способ учесть фактор принадлежности
к предметной области является задание списка маркеров предметной
области, включающих некую совокупность (от нескольких единиц до
нескольких десятков) наиболее характерных слов предметной области.
Признак Markers учитывает количество таких слов, встретившихся в
сниппетах, полученных для исходного слова. В данном случае в качестве
маркеров мы использовали названия основных наук и образованных от
них прилагательных: математика, математический, физика, физический,
химия, химический и др.
Другим признаком, получаемым на основе сниппетов, является
количество слов-определений в сниппете слова. Смысл признака
Neardefwords (количество слов-определений в сниппетах) заключается в
том, что если в сниппетах рядом с исходным словом встречаются слова,
характерные для определения в терминологических словарях (это, тип,
вид, класс и др.), то, скорее всего, это термин, для которого вводится
определение. Признак Neardefwords равен количеству таких слов,
появившихся непосредственно рядом (слева или справа) с исходным
словом в сниппетах, полученных по запросу, совпадающему с исходным
словом.
2.8 Признак встречаемости слова в терминах тезауруса
Предположим, что разработка тезауруса предметной области уже
начата, и в тезаурус внесена некоторая совокупность терминов. Тогда как
дополнительный признак для определения терминологичности слова
можно
использовать
признак
количества
терминологических
словосочетаний, в которые входит данное слово – признак FreqByThes.
В текущем эксперименте мы использовали полную совокупность
многословных терминов онтологии ОЕНТ и, таким образом, пытались
оценить, насколько можно предсказать терминологичность отдельного
слова на этой основе.
3. Результаты эксперимента
Все эксперименты проводились с выборкой величиной 5 тысяч
слов, для которых были обсчитаны все вышеперечисленные признаки.
В качестве эталонного множества терминов использовались
однословные термины, включенные в состав Онтологии ОЕНТ. Табл.1
представляет характеристику средней точности AvP для отдельных
характеристик слов. Отметим, что в качестве базового уровня, в котором
не было сделано реально никакого разумного упорядочения,
для
эксперимента можно взять простое упорядочение по алфавиту, для
которого величина средней точности оказалась равной 22%.
Табл.1
Признак
AvP
Частотность
46%
Tf*idf
C-value
Странность
Наиболее частотное словосочетание Inside
Sum3
Sum10
Sum50
Близкие слова-определения NearDefWords
Ключевые слова Markers
Частотность по терминам FreqByThes
51%
46%
52%
51%
52%
54%
54%
54%
46%
66%
Как видно в таблице 1, такие признаки как Tf*idf и Странность,
которые учитывают контрастные коллекции, показали более хорошие
значения средней точности по сравнению с простым признаком
частотности, однако очевидно, что их использование не решает проблему
определения терминологичности отдельных слов.
Предложенные нами признаки Sum10 и Sum50 показали самые
высокие показатели средней точности среди признаков, полученных на
коллекции документов.
Самые высокие результаты по предсказанию однословных
терминов показал признак частотности по многословным терминам
FreqByThes.
Поскольку можно предположить, что вычисленные признаки
отражают разные особенности однословных терминов, то является
важным подобрать оптимальную комбинацию этих признаков. Для поиска
наилучшей комбинации были использованы алгоритмы машинного
обучения. При этом выборка слов случайным образом разбивалась на две
части (обучающая выборка и контрольная выборка) в соотношении 3 к 1.
Для подбора алгоритма комбинирования полученных признаков
был использован программный пакет алгоритмов машинного обучения
RapidMiner (www.rapidminer.com). Наилучшим методом по величине
средней точности оказался метод логистической регрессии W-Logistic, на
основе которого было достигнуто значение средней точности AvP=72%.
Таким образом, мы видим, что комбинация всех признаков дала
результат по мере средней точности, почти на 40% превышающий
наиболее известный способ упорядочения слов-кандидатов в термины
tf*idf
Заключение
В данной статье было предложено для извлечения однословных
терминов использовать три различных типа признаков слов. Помимо
наиболее известного способа формирования признаков слов на основе
обработки текстовой коллекции предметной области используются также
признаки, порожденные на основе выдачи глобальных поисковых машин,
а также признак, вычисляемый на основе известных терминологических
словосочетаний предметной области.
Кроме того, мы предложили новые признаки, основанные на
коллекции текстов предметной области. Это признаки, которые
учитывают частотность употребления данного слова в заданном числе
наиболее частотных словосочетаний.
Наконец, было выполнено комбинирование всех собранных признаков
посредством использования методов машинного обучения, и был получен
результат средней точности по упорядочению слов-терминов в
упорядоченном списке, который на 40% превышает результат по наиболее
часто используемому признаку – tf*idf.
Список литературы
[Агеев и др., 2004] Агеев М.С., Кураленок И.Е. Официальные метрики
РОМИП’2004 // Российский семинар по Оценке Методов Информационного
Поиска (РОМИП 2004. Пущино, 2004.
[Браславский и др., 2006] Браславский П.И., Соколов Е.А. Сравнение
четырёх методов автоматического извлечения двусловных терминов из текста //
Компьютерная
лингвистика
и
интеллектуальные
технологии
Труды
международной конференции «Диалог 2006». М.: Изд-во РГГУ, 2006. 88-94.
[Добров и др., 2005] Добров Б.В., Лукашевич Н.В., Синицын М.Н., Шапкин
В.Н. Разработка лингвистической онтологии по естественным наукам для решения
задач информационного поиска. // Труды 7-ой Всероссийской научной
конференции «Электронные библиотеки: перспективные методы и технологии,
электронные коллекции» - RCDL-2005.
[Некрестьянов и др., 2008] Некрестьянов И., Некрестьянова М. Особенности
организации
и
проведения
РОМИП
2008.
Код
доступа:
http://romip.ru/romip2008/2008_01_organizers.pdf
[Ahmad et.al., 1999] Ahmad K., Gillam L., Tostevin L. University of Surrey
participation in Trec8: Weirdness indexing for logical documents extrapolation and
retrieval // In the Proceedings of Eigth Text Retrieval Conference (Trec-8). 1999.
[Ananiadou, 1994] Ananiadou S. A methodology for automatic term recognition //
In the Proceedings of COLING-1994, 1994. pp. 1034-1038.
[Pecina et.al., 2006] Pecina P., Schlesinger P. Combining association measures for
collocation extraction // Annual Meeting of the Association for Computational
Linguistics, ACL 2006. ACM: 2006.
[Zhang et.al., 2008] Zhang Z., Iria J., Brewster Ch., Ciravegna F. A Comparative
Evaluation of Term Recognition Algorithms // In Proceedings of the Sixth International
Language Resources and Evaluation (LREC'08). 2008.
Download