Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1. Введение в дисциплину 2. Автоматический анализ текста на морфологическом уровне 3. Автоматический анализ текста на синтаксическом уровне 4. Семантический компонент в системах автоматического анализа текста Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 2. Автоматический анализ текста на морфологическом уровне 1. Морфологический уровень в ЛИТ 2. Основные понятия морфологии в компьютерной морфологии 3. Основные процедуры компьютерной морфологии 4. Компьютерная морфология русского языка 5. Технологии морфологического анализа 6. «Предсказание» (типизация) 7. Вопросы, смежные с синтаксисом ПЛАН ЛЕКЦИЙ 9-11 1. Xerox Tools: • • • альтернативные инструменты операции высокого уровня дополнительные функциональные возможности Резюме по морфологии 2. • • специальные функции: технология ISpell «предсказание» в АОТ Частеречная разметка 3. • • • • разметка в Национальном корпусе типы омонимии данные о русских омоформах методы снятия грамматической неоднозначности АЛГОРИТМ ПРЕДСКАЗАНИЯ В АОТ: СОДЕРЖАНИЕ • Функциональное назначение предсказания – морфологический анализ слов (словоформ), отсутствующих в словаре • Метод предсказания – выявление аналогий со словоформами, распознаваемыми имеющимся словарем АЛГОРИТМ ПРЕДСКАЗАНИЯ В АОТ: ЭТАПЫ 1) предсказание префиксального образования 2) предсказание по концовке, взятой из известных словоформ ПРЕДСКАЗАНИЕ В АОТ: ПРЕДСКАЗАНИЕ ПРЕФИКСАЛЬНОГО ОБРАЗОВАНИЯ • попытка найти существующую словоформу языка, которая максимально совпадала бы справа со входным словом. Если левая часть (потенциальный префикс) не длиннее M символов (пяти), а правая часть (совпавшая с известной словоформой) не короче N символов (четырех), то слово разбирается по образцу известной словоформы. [евро]технологию, [супер]коньками ПРЕДСКАЗАНИЕ В АОТ: ПРЕДСКАЗАНИЕ ПО КОНЦОВКЕ ИЗ ИЗВЕСТНОЙ СЛОВОФОРМЫ создается конечный автомат, построенный на строках вида: ReverseSuffix(X)|Annot(X), где ReverseSuffix(Х) – инвертированная концовка известной словоформы длины K (пять букв), Annot(X) – аннотация словоформы X (анкод), например: меина|ед где аннотация «ед» интерпретируется как «ср. род, ед. ч., тв. пад.» Такая строка заносится в исходный лексикон, если она встречается: • не менее L раз (трех) и • чаще конкурентов (строк с таким же ReverseSuffix(X), но другим Annot(X) ) в пределах одной части речи ВСЕГДА предусматривается разбор именем существительным, хотя бы неизменяемым. ПРЕДСКАЗАНИЕ В АОТ: ОЦЕНКА КАЧЕСТВА • В новостных текстах наугад выбраны 150 неповторяющихся предсказанных слов. Исключались слова, у которых все буквы в верхнем регистре (аббревиатуры). • Все слова оказались либо существительными, либо прилагательными. • Для 131 слова в результатах предсказания был хотя бы один правильный результат (одновременно лемма, часть речи, род, число и падеж). Т.е. точность предсказания – 87%. • Результат вполне сравним с известными результатами для английского языка - 85 % или для французского – 88%. ЧАСТЕРЕЧНАЯ РАЗМЕТКА: НАЗНАЧЕНИЕ • Частеречная разметка, морфологическая разметка (грамматическая разметка): a) информация о морфологических (грамматических) характеристиках словоформ текста, включаемая в электронное представление этого текста (в виде тегов) b) процедура добавления такой информации в электронное представление текста (как правило, частично или – редко – полностью автоматизированная) ЧАСТЕРЕЧНАЯ РАЗМЕТКА: НАЗНАЧЕНИЕ • Разметка корпусов текстов • Подготовка учебных текстовых материалов • (В некоторых технологиях обработки текстовой информации) формирование результата морфологического этапа обработки входного текста ФРАГМЕНТ МОРФОЛОГИЧЕСКОЙ РАЗМЕТКИ В НАЦ. КОРПУСЕ РУССКОГО ЯЗЫКА • Я сидел на барском сиденье, дышал горячим ветром, бившим в лицо, ощущая в то же время не истребимую никакими сквозняками пыль и легкий запах духов -- катафалк с хорошей скоростью мчался по шоссе на юг. (Ю. Трифонов) • <s>Я{я=S,ед,од=им} сидел{сидеть=V,несов=изъяв,прош,ед,муж} на{на=PR} барском{барский=A=ед,сред,пр} сиденье{сиденье=S,сред,неод=ед,пр}, дышал{дышать=V,несов=изъяв,прош,ед,муж} горячим{горячий=A=ед,муж,твор} ветром{ветер=S,муж,неод=ед,твор}, бившим{бить=V,несов=прич,прош,ед,муж,твор} в{в=PR} лицо{лицо=S,сред,неод=ед,вин}, ощущая{ощущать=V=несов,деепр,непрош} в{в=PR} то{тот=A=ед,сред,вин} же{же=PART} время{время=S,сред,неод=ед,вин} не{не=PART} истребимую{истребимый=A=ед,жен,вин} никакими{никакой=A=мн,твор} сквозняками{сквозняк=S,муж,неод=мн,твор} пыль{пыль=S,жен,неод,ед=вин} и{и=CONJ} легкий{легкий=A=ед,муж,вин,неод} запах{запах=S,муж,неод=ед,вин}… РАЗМЕТКА В НАЦИОНАЛЬНОМ КОРПУСЕ РУССКОГО ЯЗЫКА www.ruscorpora.ru • Создавался с 2003 г., публичный доступ открыт с 2004 г. • Более 140 млн. словоупотреблений • Разметка: – морфологическая – семантическая СОДЕРЖАНИЕ ПРОЦЕДУРЫ ЧАСТЕРЕЧНОЙ РАЗМЕТКИ • Морфологический анализ всех словоформ текста • Снятие неоднозначностей (или исправление ошибок) • Добавление информации о результатах в электронное представление текста ПРОЦЕДУРА РАЗМЕТКИ В НАЦИОНАЛЬНОМ КОРПУСЕ РУССКОГО ЯЗЫКА • Автоматический морфологический анализ (Mystem, Dialing) • Промежуточная обработка – фильтрация маловероятных вариантов, принудительное введение синкретичных вариантов разбора (Grambat) • Снятие омонимии – диалоговая утилита (макрос Gramedit) ТИПЫ ОМОНИМИИ • лексическая – грамматическая • на уровне слов (лексем) – на уровне словоформ • омография – омофония • Ни одно из этих противопоставлений не задает жесткого разбиения всего круга явлений омонимии на два непересекающихся класса. ЛЕКСИЧЕСКАЯ И ГРАММАТИЧЕСКАЯ ОМОНИМИЯ • лексическая (различные лексические значения, могут совпадать грамматические значения): ключ (для открывания замка и родник), топить (обогревать и погружать) • грамматическая (различные грамматические значения, могут совпадать лексические значения): новости (р., д., пр. п. ед. ч. и им., в. п. мн.ч.), течь (гл. и сущ.) • комбинированные формы трём (числительное и глагол), мели (повел. накл. гл., прош. вр. гл., ряд форм сущ.) ОМОНИМИЯ НА УРОВНЕ ЛЕКСЕМ И НА УРОВНЕ СЛОВОФОРМ • на уровне лексем (как совокупностей словоформ): – полная ключ (для открывания замка и родник), бор (лес и для бурения) – частичная с включением бор (лес и химический элемент; формы боры, боров … только у первого сущ.), рабочий (прил. и сущ.; формы рабочая, рабочей … только у прил.) – частичная с пересечением печь (гл. и сущ. – пересекаются в нач. формах), простой (прил. и сущ. – пересекаются в нач. формах, а также в форме простою), полк – полка (пересекаются в формах полка, полки, полку, полкам, полками, полках) • на уровне словоформ – те же явления могут рассматриваться как отношения не между лексемами, а между отдельными словоформами ОМОФОНИЯ И ОМОГРАФИЯ A. Совпадение в написании, расхождение в звучании з’амок – зам’ок, вп’устите – впуст’ите, б’егу – бег’у B. Совпадение в звучании и написании ключ, бор, печь, трём… C. Совпадение в звучании, расхождение в написании компания – кампания, (в) течение – (в) течении, странная – странное • Узкое (более распространенное) понимание омофонии и омографии: омофония охватывает только случаи C, омография охватывает только случаи A. • Широкое (более практичное) понимание омофонии и омографии: омофония охватывает случаи C и B, омография охватывает случаи A и B. ОМОНИМИЯ КАК ОБЪЕКТ ОБРАБОТКИ ПРИ ЧАСТЕРЕЧНОЙ РАЗМЕТКЕ • В связи с частеречной разметкой уместно говорить о разрешении: – грамматической омонимии – на уровне словоформ – не являющейся омофонией в узком смысле (= разрешение омографии в широком смысле) РЕКОМЕНДОВАННАЯ ЛИТЕРАТУРА • Сокирко А. В. Морфологические модули на сайте www.aot.ru // Компьютерная лингвистика и интеллектуальные технологии. Тр. Междунар. конф. Диалог 2004 (Верхневолжский, 2–6 июня 2004). М., 2004 (http://www.dialog-21.ru/Archive/2004/Sokirko.htm). • Сичинава Д. В. К задаче создания корпусов русского языка // Научно-техническая информация. 2002. Сер. 2. Информационные процессы и системы. № 11. (варианты статьи - http://corpora.narod.ru/article.html и http://www.mccme.ru/ling/mitrius/article.html)