острый нож

advertisement
Модели дистрибутивной
семантики в лексической
типологии
Даша Рыжова
Маша Кюсева
23.01.2015
Лексическая типология:
Фреймовый подход
Идеология
• Значение через призму сочетаемости
• Восходит к традициям МСШ (Апресян 1974)
Значение = сочетаемость:
Глубокий колодец
Глубокая симпатия
Глубокая река
Глубокое впечатление
Глубокая тарелка
Глубокое горе
глубокий + ‘контейнер’ =>
размер
глубокий + ‘эмоция’ =>
интенсификация
Расширение в типологию:
списки словосочетаний (окно +1)
English
Deep well
Russian
Глубокий колодец
Deep river
Deep sympathy
Deep grief
Deep blue
Глубокая река
Глубокая симпатия
Глубокое горе
- *глубокий синий
Deep red
- *deep old age
- *deep autumn
- *глубокий красный
Глубокая старость
Глубокая осень
…
…
Типологическая анкета
Situations
‘deep well’
‘deep river’
‘deep sympathy’
‘deep grief ’
‘deep blue’
‘deep red’
‘extreme old age’
‘late autumn’
…
English
deep
deep
deep
deep
deep
deep
-deep
-deep
Russian
глубокий
глубокий
глубокий
глубокий
-глубокий
-глубокий
глубокий
глубокий
French
profond
profond
profond
profond
profond
profond
profond
-profond
Типологическая анкета: ‘острый’
‘острый нож’
‘острый меч’
‘острая сабля’
‘острая иголка’
‘острая стрела’
‘острый нос’
‘острый локоть’
‘острый клюв’
‘колючий куст’
‘колючая борода’
‘колючее одеяло’
русский
острый
1
1
1
1
1
1
1
1
0
0
0
китайский венгерский
jianrui
szuros
0
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
0
1
0
1
0
1
французский
pointu
tranchant
0
1
0
1
0
1
1
0
1
0
1
0
1
0
1
0
0
0
0
0
0
0
сербский
oštar
1
1
1
1
1
1
1
1
1
1
1
Фреймы
‘острый нож’
‘острый меч’
‘острая сабля’
‘острая иголка’
‘острая стрела’
‘острый нос’
‘острый локоть’
‘острый клюв’
‘колючий куст’
‘колючая борода’
‘колючее одеяло’
русский
острый
1
1
1
1
1
1
1
1
0
0
0
китайский венгерский
jianrui
szuros
0
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
0
1
0
1
0
1
французский
pointu
tranchant
0
1
0
1
0
1
1
0
1
0
1
0
1
0
1
0
0
0
0
0
0
0
сербский
oštar
1
1
1
1
1
1
1
1
1
1
1
Фреймы: база для сравнения
Режущие
инструменты
(‘нож’, ‘меч’, ‘бритва’)
oštar
Serbian
tranchant
Колющие
инструменты
(‘игла’, ‘стрела’)
aigu
Острая форма
(‘нос’, ‘локоть’)
pointu
Колючие поверхности
(‘куст’, ‘борода’,
‘одеяло’)
piquant
French
Гипотеза
Фреймы универсальны
Фреймовая структура поля должна как-то проявляться в
каждом языке
Словосочетания из одного фрейма должны появляться в
более близких (похожих) контекстах, чем словосочетания
из разных фреймов
Векторные модели
• Хороший способ проверки гипотезы
• Если будут хорошо себя вести, их можно будет
использовать для автоматизации тех или иных
этапов лексико-типологического исследования
Что сделано в магистратуре:
• Показано, что векторные модели ведут себя неплохо
• Предпринята попытка с их помощью частично
автоматизировать процесс составления анкеты
Что сделано (и делается) сейчас:
• Верификация результатов на другом типологическом
материале
• Подбор оптимальных для наших задач параметров
векторных моделей
Векторные модели
(= модели дистрибутивной семантики = DSModels)
в лексической типологии
Суть экспериментов:
• Два типа данных:
• Типологические (собраны вручную, «Золотой стандарт»)
• Векторные модели (считаются автоматически)
• Между двумя наборами данных – коэффициент
корреляции Пирсона
Золотой стандарт:
Типологически ориентированная база
данных признаковой лексики
• Коллекция типологических анкет (~ для 20 признаковых
полей)
• Анкеты заполнены материалами разных языков (5-25 языков
на каждую анкету)
• Для каждой строки анкеты дополнительно указывается:
• К какому семантическому полю относится
• Какой фрейм иллюстрирует (+ прямой vs. переносный)
Золотой стандарт: данные
•
•
•
•
•
15 языков, 33 лексемы
•
150 строк в анкете
•
34 фрейма (из них 4 прямых) •
Поле ‘острый’
Поле ‘гладкий’
9 языков, 32 лексемы
89 строк в анкете
22 фрейма (из них 11 прямых)
Метрика типологической близости
‘острый нож’
‘острый меч’
‘острая сабля’
‘острая иголка’
‘острая стрела’
‘острый нос’
‘острый локоть’
‘острый клюв’
‘колючий куст’
‘колючая борода’
‘колючее одеяло’
русский
острый
1
1
1
1
1
1
1
1
0
0
0
китайский венгерский
jianrui
szuros
0
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
0
1
0
1
0
1
Мера близости - косинус
французский
pointu
tranchant
0
1
0
1
0
1
1
0
1
0
1
0
1
0
1
0
0
0
0
0
0
0
сербский
oštar
1
1
1
1
1
1
1
1
1
1
1
Метрика типологической близости
‘острый нож’
‘острый меч’
‘острая сабля’
‘острая иголка’
‘острая стрела’
‘острый нос’
‘острый локоть’
‘острый клюв’
‘колючий куст’
‘колючая борода’
‘колючее одеяло’
русский
острый
1
1
1
1
1
1
1
1
0
0
0
китайский венгерский
jianrui
szuros
0
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
0
1
0
1
0
1
Мера близости – косинус
французский
pointu
tranchant
0
1
0
1
0
1
1
0
1
0
1
0
1
0
1
0
0
0
0
0
0
0
сербский
oštar
1
1
1
1
1
1
1
1
1
1
1
Золотой стандарт
(типологическая близость)
Строка анкеты 1
Строка анкеты 2
Метрика близости
‘острый нож’
‘острый меч’
1
‘острый нож’
‘острая сабля’
1
‘острый нож’
‘острая игла’
0,42
‘острый нож’
‘острое копьё’
0,53
‘острый нож’
‘острый нос’
0,4
‘острый нож’
‘острый локоть’
0,5
‘острый нож’
‘острый клюв’
0,45
‘острый нож’
‘острый соус’
0,4
‘острый нож’
‘острый перец’
0,4
Векторные модели
• Только русский материал
• Словосочетания, соответствующие строкам анкеты, и их векторные
представления
Микрофрейм
Словосочетание
‘острый нож’
острый нож
‘острая игла’
острая игла
‘колючий куст’
колючий куст
Векторные модели:
неизменяемые параметры
• Окно: ±5 знаменательных слов
• Измерения: 10 000 самых частотных
знаменательных слов
• Значения измерений: частота совместной
встречаемости
• Мера близости: косинус
Векторные модели:
переменные параметры
• Объём (и жанровая характеристика) корпуса
• Тип вектора: наблюдаемый vs. скомпонированный
• Модель взвешивания
• Фреймы прямых vs. переносных значений
Сравнение данных
(оценка параметров векторной модели)
• Корреляция Пирсона:
• Типологические вектора (косинусы)
• Вектора сочетаемости (косинусы)
типология
Вектора
сочетаемости
‘острый нож’
‘острый меч’
острый нож
острый меч
‘острый нож’
‘острый меч’
1
0,99
Объём и жанр текстов корпуса
объём
жанр
корреляция Пирсона
‘острый'
‘гладкий'
0.057
-0.04
200 mln
публиц. (газ. НКРЯ)
220 mln
сбаланс. (осн. НКРЯ)
0.086
0.079
440 mln
осн. + газ. НКРЯ
0.086
0.061
1 mlrd
интернет-тексты (РУВАК)
0.087
0.052
1,2 mlrd
газ. НКРЯ + РУВАК
0.089
0.052
1,22 mlrd
осн. НКРЯ + РУВАК
0.088
0.074
1,44 mlrd
все вместе
0.09
0.073
Тип вектора:
наблюдаемый vs. компонированный
‘гладкий’
‘острый’
observed
0.079
0.086
WeightedAdditive
0.346
0.319
Multiplicative
0.357
0.238
Dilation
WeightedAdditive
with training
0.296
0.207
0.589
0.443
0.296
0.207
осн.НКРЯ Dilation with training
Взвешивание
‘гладкий’
‘острый’
-
0.589
0.443
plog
0.477
0.387
epmi
0.59
0.462
Weighted
ppmi
Additive with
thraining
plmi
0.604
0.42
0.603
0.443
Прямые vs. переносные значения
‘гладкий’
plmi
ppmi
epmi
все фреймы
только прямые
все фреймы
только прямые
все фреймы
только прямые
все фреймы
только прямые
‘острый’
0.589
0.849
0.603
0.791
0.604
0.905
0.59
0.865
0.443
0.754
0.443
0.762
0.42
0.764
0.462
0.763
Выводы
• Лучший набор параметров:
• Основной подкорпус НКРЯ
• Композиция: сумма с тренировкой
• Модель взвешивания: ppmi
• Векторные модели лучше «берут» прямые значения
• Для двух различных семантических полей – одни и те же
закономерности
Планы на ближайшее будущее
• Другие части речи (для начала – одноместные
глаголы)
Download