ppt, 2,1M - Летняя лингвистическая школа

advertisement
Компьютерные модели
значения
Что предлагает лингвистика, и что
используется в компьютерной
лингвистике…
Владимир П. Селегей
РГГУ, МФТИ, ABBYY
ЛЛШ, июль 2014
Чем занимается компьютерная
лингвистика










Компьютерная лингвистика это автоматическая обработка (анализ,
синтез) Естественного Языка в научных или прикладных целях.
Например:
подсчет частоты встречаемости (поиск примеров употребления) тех
или иных языковых конструкций в текстах;
автоматическое построение (верификация) языковой структуры;
классификация текста по различным параметрам: характеристики
автора, жанр, языковая сложность
машинный перевод звучащей речи (распознавание + перевод +
синтез).
обработка запросов на Естественном Языке (ответ на вопрос, поиск
релевантных документов);
генерация репортажа по изображению (фото или видео);
голосовое управление программой или техническим устройством;
автоматический анализ потока новостей, выявление в нем
ключевых событий и формирование дайджеста;
и т.д.
Мастерская лингвиста
Компьютерная лингвистика:
взгляд лингвиста и инженера


Цель лингвиста – объяснить, как язык справляется
со всем разнообразием своих функций. По идее
может дать КоЛинг теорию языка,
формализованную, полную и логически
непротиворечивую до такой степени, что она
сможет использоваться для компьютерного
моделирования всех процессов
функционирования языка.
Цель инженера – создание устройств (программ),
для обработки естественного языка. КоЛинг – это
методы решения конкретных полезных задач,
возникающих из практики использования языка на
современных компьютерах (включая
исследовательские). Название области: Natural
Language Processing (NLP)
Компьютерная и некомпьютерная
лингвистика

В идеале отношения взаимной пользы:
Модели языка

Методы получения
языковых данных
Как на самом деле? В частности, как
должны выглядеть семантические описания
в системах NLP, чтобы успешно решать
прикладные задачи?
Как моделировать то, что нельзя увидеть
или измерить


Язык – это устройство для «кодирования» значений
с помощью системы специальных средств в целях
коммуникации.
Но что такое «значение», которое нужно передавать
и распознавать?
Как моделировать то, что нельзя увидеть
или измерить


Язык – это устройство для «кодирования» значений
с помощью системы специальных средств в целях
коммуникации.
Но что такое «значение», которое нужно передавать
и распознавать?
Средства описания значения

Какова математическая модель значения:



Деревья (аналог синтаксической структуры),
графы, семантические сети?
Сколько уровней представления?
Что является конечным результатом
языкового анализа:



Глубина описания.
Язык описания значений.
Связь с неязыковыми структурами.
Система уровней языка и
последовательность этапов анализа
Этапы анализа соответствуют уровням структуры языка:





Лексический анализ текста: выделение слов, знаков
препинания, цифр, и прочих текстовых единиц.
Морфологический анализ: определение грамматических
характеристик лексем.
Синтаксический анализ: установление структуры
предложения -- системы связей между словами.
Семантический анализ: построение структуры,
ассоциированной непосредственно с передаваемым
значением - в границах языка.
Прагматический анализ: интерпретация семантической
структуры в контексте модели текста, общих знаний об
устройстве мира (онтологии) и частных знаниях,
составляющих контекст высказывания.
Классика NLP: треугольник перевода
Уровни представления

Стул;
Символьный уровень
 Морфология
 Синтаксис
 Семантика: физический объект,
изготовлен, неодушевленный, находится
в одном классе с табуреткой и креслом.
 Онтология: что делает стул стулом
[Пригодный для сиденья. С ножками и
спинкой?].

Значение именной группы


N-cкий стул. (где N – географическое название).
Семантика, варианты интерпретации:
1.
2.
3.
4.
5.

находится в N (N-ские стулья быстро ломаются из-за сырой
погоды в городе N);
сделан в N;
предназначен для отправки в N;
сделан способом (в стиле), принятом в N;
сделан кем-то или при каких-то обстоятельствах, связанных с N;
Контекст может сделать более вероятным или исключить тот
или иной вариант: сегодня в Вене не осталось ни одного
венского стула (2, 4, 5);

Онтология.

Венская мебель — легкая и прочная мебель, изготовленная из
гнутого под паром букового дерева. Массовое производство
началось в Вене в 1850-е годы (вариант 5).
Синтаксическая структура (Compreno)
Семантическая структура Compreno
Лингвистические и
экстралингвистические значения
Значениях двух типов:









Создаваемых языковыми средствами:
Мать любила покурить перед сном
Недоперевыполнить
Километров пять
Существующих вне языка, по отношени к которым слово и
словосочетание выступает просто как «бирка». Например,
«бозон Хигса», «секвойя», «интегрировать», «Обама».
К какому типу отнести:
Синонимия
Механизм образования переносных значений («Хвост
распределения», «липовые документы», «ядро языка»)
Композициональность и редукция
Значение сложного выражения
является композицией значений его
частей.
 Любое сложное выражение можно
свести к формальному выражению
над элементарными значениями,
имеющими прямую интерпретацию в
онтологии.

Классический подход к
лингвистической семантике (анализ)
Последовательное «декодирование» элементов значения,
создаваемых разными языковыми средствами:







Интерпретация грамматических значений ( словоизменения,
словобразование)
Интерпретация синтаксических отношений
Интерпретация значений слов (лексическая семантика)
В результате получается (логическая) структура, лишенная
языковой специфики, имеющая (не всегда) истинностное
значение, содержащая элементарные значения, имеющие
онтологический статус.
Семантическая структура являтся основой для различных
операций: накоплению фактов, логическому выводу и т.п.
Дважды два четыре (два раза по два получается/будет
четыре) -> 2 + 2 = 4
Но: Ему все как дважды два четыре!
Проблематика формальной
семантики
Каждый гость, имеющей кредитную
карту, должен расплачиваться ей.
 Каждый гость, имеющий кредитную
карту, должен хранить ее в сейфе.
 Если у гостя несколько карт, к каким
из них относятся эти указания:
 Только к одной?
 Ко всем?

Лексическая семантика: толкования
Он что, шутит? vs. Он разве шутит?
 Толкование (И.Б. Левонтина и др. Диалог 2014):
‘говорящий воспринял какую-то
информацию, которая заставляет его
счесть, что имеет место ситуация Р. Он не
ожидал, что Р, …
 (для что): но склонен, хотя и с некоторым
усилием, признать, что Р имеет место’
 (для разве): и не готов сразу признать, что
Р имеет место’

Мастерская лингвиста
Представление лексической
системы
«Линейный» словарь с семантическими
признаками
 Синонимический словарь, в котором
значения слов сгруппированы в т.н.
лексико-семантические поля
 Лексико-семантические иерархии, в
которых установлены родо-видовые
отношения между значениями (WordNet,
Compreno)
 Описание может быть усилено
толкованиями

English
German
Chinese
Благорастворение воздухов
откладывается





Язык скверно устроен
Еще более неуклюже выглядят наши
попытки его описать
Даже таких плохих описаний у нас
недостаточно
Внутри системы языка все равно ничего
нельзя объяснить
Лингвисты субъективны, спорят друг с
другом и вечно все усложняют
Важность знаний о мире
Проанализируем такой диалог:











Джейн была приглашена к Джеку на день рождения.
Она подумала,
сколько будет 2х2?
понравится ли ему воздушный змей?
Она пошла в свою комнату и
…. легла спать
… потрясла копилку.
Из копилки не донеслось ни звука.
… (позже – разговор с другим приятеле)
У него уже есть воздушный змей
Он заставит тебя отнести его обратно.
Некоторые неудобные свойства языка

Неоднозначность: одно и то же выражение,
форма, конструкция может означать разное.
Разрешение может требовать знаний о мире,
контекста и т.п.
Например:





Ассанж раскритиковал Обаму перед Генассамблеей ООН
Управление № 8 Пенсионного фонда переехало.
Переезд поездом из Москвы в Кострому стоит 200 рублей.
Его семью хлебами не прокормишь
Читай, что на коробочке написано: «по одной таблетке,
после приема пищи».
Виды неоднозначности:
Морфология
 Синтаксис







Мужу изменять нельзя.
Лексика
Иванов замочил курицу в уксусе.
Сколько голов у Месси?
Семантика
Дети идут в школу.



Прагматика

Как снять такую неоднозначность?
Так значит завтра, на том же месте, в тот же час
Пример:
Крым Россия не вернет, но может его разыграть (февраль 2014, июль
2014).
Общественное телевидение сняло программу с шуткой про развод
Путина
Некоторые неудобные свойства языка
Несимметричность: разные языки часто
имеют принципиально различающие
способы «кодирования» некоторого
смысла. Например,


В русском языке значение приблизительности
может быть передано порядком слов («человек
пять»). То есть, вместо лексического способа
может быть использован синтаксический.
Грамматические значения являются
обязательными для выражения (не можем не
указать число существительного или вид глагола в
русском языке). Соответствующие смыслы могут
выражаться в других языках лексически и быть
необязательными.
Некоторые неудобные свойства языка


Избыточность (вариативность): В языке как
правило имеется множество способов выразить
некоторый смысл (который можно таким образом
рассматривать как инвариант синонимических
преобразований).
Пример:
Вы отвечаете за успех мероприятия ->
На Вас лежит ответственность/ Вы несете
ответственность/ Вы ответственны
… за то, чтобы мероприятие было успешным /прошло с
успехом
плюс все возможные варианты линейного порядка.
Некоторые неудобные свойства языка




Конвенциональность: часто правильным и даже
единственно возможным способом выражения
некоторого смысла является лишь один из
теоретически возможных:
Терминология: railroad in English vs. “iron road” in
Russian (железная дорога), German (Eisenbahn),
Chinese (铁路) vs. ~“ironry” in Ukrainian (залізниця)
Cвеча (рус)  candle (англ)
 la chandelle (сальная свеча),
(франц) la bougie (стеариновая)
le cierge (восковая) .
культурные ритуалы:
(* Идет суд, просьба к присутствующим встать).
Некоторые неудобные свойства языка
 Эллиптичность: в языке действует
множество умолчаний. Понимание
требует восстановления опущенной
информации
 Some people go to priests; others to
poetry; I to my friends. (Virginia Woolf)
Некоторые неудобные свойства языка
 Непрозрачность: язык активно
использует сложные средства
референции (указания на объекты в
описываемом мире).
 Референция
 Фразеология: «вешать лапшу»
 Паремии: не дождетесь», «146%»
Некоторые неудобные свойства языка
Неоднозначность:
 Несимметричность:
 Избыточность (вариативность):
 Конвенциональность:
 Эллиптичность
 Непрозрачность
 Вероятностный характер многих
ограничений

Проблема различимости или «сколько
бывает вопросов?»
Обращение, требующее ответа.
Задать вопрос докладчику. Ответы на вопросы ЕГЭ по русскому
языку .
2. То или иное положение, обстоятельство как предмет изучения и
суждения, задача, требующая решения, проблема. Национальный
вопрос. Поднять вопрос. Вопрос ребром поставить. Оставить
вопрос открытым. Изучить вопрос. Вопрос ясен.
3. Дело, обстоятельство, касающееся, зависящее от чего-н.
Положительное решение - вопрос времени. Вопрос чести. Вопрос
жизни и смерти.
4. Нечто неясное, до конца неизвестное (разг.).
Поедем или нет - это еще вопрос
5. Разберем: Быть или не быть - вот в чем вопрос.
1.
Вывод:
Проблема в том, что разведение разных значений слова
по разным областям описания противоречит интуиции.
Какие альтернативы: инварианты, вектор
10.09.2012
Введение в КоЛинг. Магистратура МФТИ/РГГУ
33
Куда ж нам плыть…
Подведем итоги:
У нас нет доверия к интуиции
исследователя (лингвиста, аннотатора)
 Мы не можем решить задачи NLP,
оставаясь в сфере чистого языка
(проблемы неоднозначности и
неразличимости).
 У нас нет достаточного количества данных
о языке.
 Где их взять, как сделать исследование
объективным?


Вариант 1: в голове!
Нейрокомпьютерная лингвистика
Мастерская лингвиста
Вариант 2: непосредственно из самих
языковых произведений




Появление Интернета создало новую среду для
создания и хранения текстов и новые
коммуникационные возможности:
Объем доступных для изучения текстов и
количество авторов увеличилось на 4-5 порядков
Возникли новые жанры, например т.н. социальные
медиа.
В центре внимания (от науки до рекламы)
оказываются различия в языковом поведении: мы
ищем языковые корреляты мнений и поведения, и
мы хотим точно доставлять наши «мессиджи» - в
частности, рекламные
Анализ, управляемый данными
(корпусные методы)
 «Символьный» подход (статистический, дистрибуционный
и т.п.)
 Язык – это устройство неизвестной структуры
(черный ящик), производящий огромное количество
образцов в виде цепочек символов, слов,
предложений, текстов (спасибо Интернету!).
Анализ языка: два подхода
 «Символьный» подход (статистический,
дистрибуционный и т.п.)
 Язык
– это устройство неизвестной структуры
(черный ящик), производящий огромное количество
образцов в виде цепочек символов, слов,
предложений, текстов (спасибо Интернету!).
 Возможно (математически) анализировать тексты,
не обращаясь к их «смыслу»
(например, изучать
сходство текстов
на основании
распределения в них слов).
Всегда хромающие аналогии
Как научиться летать: авиастроение
vs. орнитология:
 Как обыграть чемпиона мира по
шахматам: IBM Deep Blue vs. теория
Ботвинника
 Как сделать машинный перевод:
статистический метод IBM/Google vs.
лингвистическая теория перевода
 Языковые игры

Два взгляда на текст: лингвистика и NLP


В теории уровни языка связываются с
максимальной единицей уровня: так, морфология –
это уровень слова, синтаксис – предложения.
Текст – это метауровень, организуемыей уже
совсем иными средствами (лишь отчасти –
лингвистическими)
В компьютерной лингвистике любой уровень может
оказаться “текстовым”. Так текст может
рассматриваться как поток символов,
последовательность или даже ранжированный по
частоте список (bag of words) слов или лексических
значений.
5.04.2011
40
Что дают data driven подходы?
Тематическая временная диаграмма
Мастерская лингвиста
Дистрибуционная семантика
Геометрическая семантика
Разрешение неоднозначности
Языковые игры как полигон






Мерой адекватности семантической модели является
возможность установление отношения семантического
сходства.
Корпусной подход позволяет эффективно играть в Свою Игру
Вопрос: В Большом дворце Петергофа отделанные этим
печи на золочёных ножках украшают почти каждый зал
Образец: Или пройдите, ну, к примеру, по Большому дворцу
Петергофа. В большинстве из залов Вы найдете фигурную
изразцовую печь на золоченых ножках с колонками и
расписанную кобальтом.
Вопрос: Именно это нужно сделать с нефтью, чтобы
получить из неё керосин
Образец: Путем перегонки из нее получают различные
продукты нефти: бензин, реактивное топливо,
осветительный керосин, дизельное топливо, мазут
Своя игра (Jeopardy!)








NEW YORK TIMES HEADLINES
An exclamation point was warranted for the "end of"
this! In 1918
W: sentence
WW1
MILESTONES
In 1994, 25 years after this event, 1 participant said,
"For one crowning moment, we were creatures of the
cosmic ocean”
W: the Big Bang
Apollo 11 moon landing
Сопоставление с образцом
In May 1898 Portugal celebrated
the 400th anniversary of this
explorer’s arrival in India.
In May, Gary arrived in
India after he celebrated his
anniversary in Portugal.
arrived in
celebrated
In May
1898
Term Matching
Term Matching
400th
anniversary
Portugal
celebrated
In May
Term Matching
anniversary
Term Matching
in Portugal
arrival in
India
explorer
Term Matching
India
Gary
Сопоставление с образцом
In May 1898 Portugal celebrated
the 400th anniversary of this
explorer’s arrival in India.
On the 27th of May 1498, Vasco da
Gama landed in Kappad Beach
celebrated
landed in
Portugal
May 1898
400th anniversary
Temporal
Reasoning
27th May 1498
Date
Math
arrival
in
India
Statistical
Paraphrasing
GeoSpatial
Reasoning
Paraphrase
s
Kappad Beach
GeoKB
explorer
Vasco da Gama
Игра игре рознь
Watson хорошо играет в Jeopardy
 А как с Шляпой, с «Что, Где, Когда»?
 Вопрос: В одном из словарей русского
языка ЭТО находится после Главного
управления рудной промышленности.
Напишите ЭТО так, как было
произнесено 1 января 1925 г.
 Ответ: «абырвалг»

Все ли в порядке с корпусами
Гендерное варьирование: блоги
Cтатистика
«импрессионистических» и
сопоставительных
оценок
ЖЖ
жен муж
так мало
1—25.01
970 615
12—31.12 973 568
гораздо меньше
01—03
641 904
5.10—12
695 970
раз(а) меньше
01—03
381 699
10—12
503 886
ж/м
1,58
1,71
0,71
0,72
0,55
0,57
Мастерская лингвиста
Мастерская лингвиста
Мастерская лингвиста
Вместо заключения



При очевидном различии лингвистических и
корпусных (data driven) подходов они оказались
сегодня нужными друг-другу.
В частности, в рамках «символьного» подхода
были разработаны эффективные методы анализа
языка, которые могут применяться для создания и
верификации собственно лингвистических
описаний, и должны входить в арсенал
исследовательских инструментов каждого
лингвиста.
К ним относятся:



корпусные методы анализа языка
методы машинного обучения
методы экспертной оценки (краудсорсинг и проч.)
Мастерская лингвиста
Спасибо за внимание!
Мастерская лингвиста
Корпус как язык (масштабирование)



Предполагается возможность создания
универсальных корпусов языка L, которые
содержали бы языковой материал, адекватный (по
замыслу создателей) для любых
исследовательских задач.
«Национальный корпус Русского Языка
представляет данный язык на определенном этапе
(или этапах) его существования и во всём
многообразии жанров, стилей, территориальных
и социальных вариантов и т. п.» (из авторского
описания НКРЯ).
Гипотеза: Национальный корпус языка L и есть
универсальный корпус языка L.
Мастерская лингвиста
Типы различий, которые должны
отражатсья в корпусе

Характеристики авторов:
Региональные
 Гендерные
 Возрастные
 Социальные
 Профессиональные


Характеристики текстов:

По назначению -- жанровые отличия
(функциональные стиль, регистр и проч.)
По тематике -- тематические отличия

Мастерская лингвиста
Проект Генерального Интернеткорпуса Русского Языка (ГИКРЯ)





ГИКРЯ – проект создания корпуса для целей
дифференциальной лингвистики и лексикографии, объемом
ок. 50 миллиардов словоупотреблений (посредине между
НКРЯ и Рунетом).
В ГИКРЯ будут представлены все существенные
социальные, жанровые, тематические сегменты Интернета.
Одна из основных целей проекта – разработка
соответствующих методов классификации
Совместный проект Института Лингвистики РГГУ, МФТИ,
ABBYY, университета Лидса.
Корпус будет размещен на сайте www.webcorpora.ru (там
можно найти связанные работы)
Участники проекта: В. И. Беликов, Н.В. Копылов, А.Ч.
Пиперски, В. П. Селегей, С. А. Шаров
Мастерская лингвиста
Глубина погружения реально
работающей системы
Google Translator
 Watson
 Этап; Compreno (кратко рассказать)

Зависимость данных от корпуса
Spell-checker
Закон Ципфа (какой объем корпуса,
необходим для чисто статистического
спеллинга)
 Пример: форма подскакивающему
(по этому запросу ничего не найдено в
корпусе на 250 млн.
словоупотреблений)

блок I
 а) Простейшее грузоподъёмное
устройство, вращающееся на оси
колесо с жёлобом, через которое
перекинут канат, цепь и т.п.
 Установить блок для подъёма
кирпичей.
 б) О приспособлении для подъёма
занавесей, закрывания дверей и т.п.
Дверной блок.
Мастерская лингвиста

Ассерция и пресуппозиция
(угадай толкование)
бояться Х-а =
 ‘считать наступление Х-а вероятным’
<презумпция>;
 ‘считать наступление Х-а
нежелательным’ <ассерция>;
 надеяться на Х =
 ‘считать наступление Х-а вероятным’
<ассерция>;
 ‘считать наступление Х-а

Мастерская лингвиста
Перефразирование
Внезапно заговорил
 Внезапно начал говорить
 Внезапно начал речь
 Внезапно прервал молчание
 Внезапно приступил к изложению
 Стал докладывать
 ?Вдруг забубнил
 ?Остапа понесло

Мастерская лингвиста
Запрос и результат поиска

Поэтому, чтобы заверить гостей в своем миролюбии, хозяин
не только наливал немного вина сначала в свой бокал и
выпивал его, но и все гости в ходе застолья неоднократно
"обменивались вином", то есть отливали из своего бокала в
бокал соседа, а затем символически соединяли бокалы чокались (!)
Мастерская лингвиста
Дерево разбора (система Compreno)
Мастерская лингвиста
День рождения
Пример
 Фрейм – культурные ритуалы
(элементы онтологии). День рождения
– это не только дата но и ритуал.
 Факты: знания, описываемые
онтологическими средставами.
 Земля вращается вокруг солнца и
имеет диаметр 12 тыс. км.

Корпусные беды
Неактуальность
 Недостаточность данных
 Несбаланстрованность
(дифференциальная неполнота)
 Малый объем размеченных текстов

Мастерская лингвиста
Еще об актуальности
Цитаты:
Куда пойти молодым стартаперам? Выбор в
Москве большой: хайкспейсы, антикафе,
коворкинги.
 Хакспейс — это в первую очередь социальный
институт, в составе которого коворкинг —
лишь одна из функций
 Коворкинг – это пространство для
круглосуточной работы, встреч и переговоров в
легком неформальном стиле в домике с
высокими потолками, и панорамными окнами в
Нескучном саду.


Мастерская лингвиста
О достаточности объема
корпусных данных
Мастерская лингвиста
О ценности температуры, средней по корпусу
Привлечение к исследованию огромного языкового
материала требует ясного понимания его
принципиальной неоднородности как гарантии
объективности полученных результатов.
 Опирающаяся на корпусные исследования
лингвистика должна быть дифференциальной:
основываться на тщательно проработанных
моделях жанровых, социолингвистических,
региональных различий.

Мастерская лингвиста
Download