Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках

advertisement
Компьютерный анализ
естественно-языкового текста
Кафедра информационных систем в
искусстве и гуманитарных науках
Компьютерный анализ естественно-языкового текста
СТРУКТУРА КУРСА
1. Введение в дисциплину
2. Автоматический анализ текста на
морфологическом уровне
3. Автоматический анализ текста на
синтаксическом уровне
4. Семантический компонент в системах
автоматического анализа текста
Компьютерный анализ естественно-языкового текста
СТРУКТУРА КУРСА
2.
Автоматический анализ текста на
морфологическом уровне
1. Морфологический уровень в ЛИТ
2. Основные понятия морфологии в
компьютерной морфологии
3. Основные процедуры компьютерной
морфологии
4. Компьютерная морфология русского языка
5. Технологии морфологического анализа
6. «Предсказание» (типизация)
7. Вопросы, смежные с синтаксисом
ПЛАН ЛЕКЦИЙ 9-11
1.
Xerox Tools:
•
•
•
альтернативные инструменты
операции высокого уровня
дополнительные функциональные возможности
Резюме по морфологии
2.
•
•
специальные функции: технология ISpell
«предсказание» в АОТ
Частеречная разметка
3.
•
•
•
•
разметка в Национальном корпусе
типы омонимии
данные о русских омоформах
методы снятия грамматической неоднозначности
АЛГОРИТМ ПРЕДСКАЗАНИЯ В АОТ:
СОДЕРЖАНИЕ
• Функциональное назначение
предсказания – морфологический
анализ слов (словоформ),
отсутствующих в словаре
• Метод предсказания – выявление
аналогий со словоформами,
распознаваемыми имеющимся
словарем
АЛГОРИТМ ПРЕДСКАЗАНИЯ В АОТ:
ЭТАПЫ
1) предсказание префиксального
образования
2) предсказание по концовке, взятой из
известных словоформ
ПРЕДСКАЗАНИЕ В АОТ: ПРЕДСКАЗАНИЕ
ПРЕФИКСАЛЬНОГО ОБРАЗОВАНИЯ
• попытка найти существующую словоформу
языка, которая максимально совпадала бы
справа со входным словом. Если левая часть
(потенциальный префикс) не длиннее M
символов (пяти), а правая часть (совпавшая с
известной словоформой) не короче N
символов (четырех), то слово разбирается по
образцу известной словоформы.
[евро]технологию, [супер]коньками
ПРЕДСКАЗАНИЕ В АОТ: ПРЕДСКАЗАНИЕ ПО
КОНЦОВКЕ ИЗ ИЗВЕСТНОЙ СЛОВОФОРМЫ
создается конечный автомат, построенный на строках вида:
ReverseSuffix(X)|Annot(X),
где ReverseSuffix(Х) – инвертированная концовка известной
словоформы длины K (пять букв), Annot(X) – аннотация
словоформы X (анкод), например:
меина|ед
где аннотация «ед» интерпретируется как «ср. род, ед. ч., тв. пад.»
Такая строка заносится в исходный лексикон, если она
встречается:
• не менее L раз (трех) и
• чаще конкурентов (строк с таким же ReverseSuffix(X), но
другим Annot(X) ) в пределах одной части речи
ВСЕГДА предусматривается разбор именем
существительным, хотя бы неизменяемым.
ПРЕДСКАЗАНИЕ В АОТ: ОЦЕНКА
КАЧЕСТВА
• В новостных текстах наугад выбраны 150
неповторяющихся предсказанных слов.
Исключались слова, у которых все буквы в верхнем
регистре (аббревиатуры).
• Все слова оказались либо существительными, либо
прилагательными.
• Для 131 слова в результатах предсказания был хотя
бы один правильный результат (одновременно
лемма, часть речи, род, число и падеж). Т.е. точность
предсказания – 87%.
• Результат вполне сравним с известными
результатами для английского языка - 85 % или для
французского – 88%.
ЧАСТЕРЕЧНАЯ РАЗМЕТКА: НАЗНАЧЕНИЕ
•
Частеречная разметка, морфологическая
разметка (грамматическая разметка):
a) информация о морфологических
(грамматических) характеристиках
словоформ текста, включаемая в
электронное представление этого текста (в
виде тегов)
b) процедура добавления такой информации в
электронное представление текста (как
правило, частично или – редко – полностью
автоматизированная)
ЧАСТЕРЕЧНАЯ РАЗМЕТКА: НАЗНАЧЕНИЕ
• Разметка корпусов текстов
• Подготовка учебных текстовых
материалов
• (В некоторых технологиях обработки
текстовой информации) формирование
результата морфологического этапа
обработки входного текста
ФРАГМЕНТ МОРФОЛОГИЧЕСКОЙ РАЗМЕТКИ
В НАЦ. КОРПУСЕ РУССКОГО ЯЗЫКА
•
Я сидел на барском сиденье, дышал горячим ветром, бившим в лицо,
ощущая в то же время не истребимую никакими сквозняками пыль и
легкий запах духов -- катафалк с хорошей скоростью мчался по шоссе
на юг. (Ю. Трифонов)
•
<s>Я{я=S,ед,од=им} сидел{сидеть=V,несов=изъяв,прош,ед,муж}
на{на=PR} барском{барский=A=ед,сред,пр}
сиденье{сиденье=S,сред,неод=ед,пр},
дышал{дышать=V,несов=изъяв,прош,ед,муж}
горячим{горячий=A=ед,муж,твор} ветром{ветер=S,муж,неод=ед,твор},
бившим{бить=V,несов=прич,прош,ед,муж,твор} в{в=PR}
лицо{лицо=S,сред,неод=ед,вин},
ощущая{ощущать=V=несов,деепр,непрош} в{в=PR}
то{тот=A=ед,сред,вин} же{же=PART}
время{время=S,сред,неод=ед,вин} не{не=PART}
истребимую{истребимый=A=ед,жен,вин}
никакими{никакой=A=мн,твор}
сквозняками{сквозняк=S,муж,неод=мн,твор}
пыль{пыль=S,жен,неод,ед=вин} и{и=CONJ}
легкий{легкий=A=ед,муж,вин,неод} запах{запах=S,муж,неод=ед,вин}…
РАЗМЕТКА В НАЦИОНАЛЬНОМ КОРПУСЕ
РУССКОГО ЯЗЫКА
www.ruscorpora.ru
• Создавался с 2003 г., публичный доступ
открыт с 2004 г.
• Более 140 млн. словоупотреблений
• Разметка:
– морфологическая
– семантическая
СОДЕРЖАНИЕ ПРОЦЕДУРЫ ЧАСТЕРЕЧНОЙ
РАЗМЕТКИ
• Морфологический анализ всех
словоформ текста
• Снятие неоднозначностей (или
исправление ошибок)
• Добавление информации о результатах
в электронное представление текста
ПРОЦЕДУРА РАЗМЕТКИ В НАЦИОНАЛЬНОМ
КОРПУСЕ РУССКОГО ЯЗЫКА
• Автоматический морфологический
анализ (Mystem, Dialing)
• Промежуточная обработка –
фильтрация маловероятных вариантов,
принудительное введение синкретичных
вариантов разбора (Grambat)
• Снятие омонимии – диалоговая утилита
(макрос Gramedit)
ТИПЫ ОМОНИМИИ
• лексическая – грамматическая
• на уровне слов (лексем) – на уровне
словоформ
• омография – омофония
• Ни одно из этих противопоставлений не задает жесткого
разбиения всего круга явлений омонимии на два
непересекающихся класса.
ЛЕКСИЧЕСКАЯ И ГРАММАТИЧЕСКАЯ
ОМОНИМИЯ
• лексическая (различные лексические значения, могут
совпадать грамматические значения):
ключ (для открывания замка и родник), топить
(обогревать и погружать)
• грамматическая (различные грамматические
значения, могут совпадать лексические значения):
новости (р., д., пр. п. ед. ч. и им., в. п. мн.ч.), течь
(гл. и сущ.)
• комбинированные формы
трём (числительное и глагол), мели (повел. накл. гл.,
прош. вр. гл., ряд форм сущ.)
ОМОНИМИЯ НА УРОВНЕ ЛЕКСЕМ И НА
УРОВНЕ СЛОВОФОРМ
• на уровне лексем (как совокупностей словоформ):
– полная
ключ (для открывания замка и родник), бор (лес и для бурения)
– частичная с включением
бор (лес и химический элемент; формы боры, боров … только у
первого сущ.), рабочий (прил. и сущ.; формы рабочая, рабочей …
только у прил.)
– частичная с пересечением
печь (гл. и сущ. – пересекаются в нач. формах), простой (прил. и сущ.
– пересекаются в нач. формах, а также в форме простою), полк –
полка (пересекаются в формах полка, полки, полку, полкам, полками,
полках)
• на уровне словоформ – те же явления могут
рассматриваться как отношения не между
лексемами, а между отдельными словоформами
ОМОФОНИЯ И ОМОГРАФИЯ
A. Совпадение в
написании,
расхождение в
звучании
з’амок – зам’ок,
вп’устите –
впуст’ите, б’егу –
бег’у
B. Совпадение в
звучании и написании
ключ, бор, печь,
трём…
C. Совпадение в
звучании,
расхождение в
написании
компания – кампания,
(в) течение – (в)
течении, странная –
странное
• Узкое (более распространенное) понимание омофонии и
омографии:
омофония охватывает только случаи C, омография
охватывает только случаи A.
• Широкое (более практичное) понимание омофонии и
омографии:
омофония охватывает случаи C и B, омография
охватывает случаи A и B.
ОМОНИМИЯ КАК ОБЪЕКТ ОБРАБОТКИ ПРИ
ЧАСТЕРЕЧНОЙ РАЗМЕТКЕ
• В связи с частеречной разметкой
уместно говорить о разрешении:
– грамматической омонимии
– на уровне словоформ
– не являющейся омофонией в узком смысле
(= разрешение омографии в широком
смысле)
РЕКОМЕНДОВАННАЯ ЛИТЕРАТУРА
• Сокирко А. В. Морфологические модули на сайте
www.aot.ru // Компьютерная лингвистика и
интеллектуальные технологии. Тр. Междунар. конф.
Диалог 2004 (Верхневолжский, 2–6 июня 2004). М.,
2004 (http://www.dialog-21.ru/Archive/2004/Sokirko.htm).
• Сичинава Д. В. К задаче создания корпусов русского
языка // Научно-техническая информация. 2002. Сер.
2. Информационные процессы и системы. № 11.
(варианты статьи - http://corpora.narod.ru/article.html и
http://www.mccme.ru/ling/mitrius/article.html)
Download