КМАТ 06 Извлечение фактов и отношений (Information extraction) Компьютерные методы анализа текста Кирилл Александрович Маслинский НИУ ВШЭ Санкт-Петербург 14.02.2014 / 06 КМАТ 06 Outline Извлечение информации Распознавание именованных сущностей Извлечение отношений Методы Выбор признаков для машинного обучения КМАТ 06 Извлечение информации Outline Извлечение информации Распознавание именованных сущностей Извлечение отношений Методы Выбор признаков для машинного обучения КМАТ 06 Извлечение информации Извлечение информации На площадь Восстания могут вернуть конный памятник императору Александру III, который стоял там до 1937, а сейчас расположен во дворе Мраморного дворца. Письмо с просьбой обсудить целесообразность или нецелесообразность возвращения памятника на одну из городских площадей написал в ЗакС вице-губернатор Василий Кичеджи. КМАТ 06 Извлечение информации Information extraction Information extraction: I I текст −→ структурированные данные (БД) комбинирование методов анализа текста: I I I вероятностные языковые модели конечные автоматы частичный синтаксический анализ КМАТ 06 Извлечение информации Подзадачи извлечения информации I Named entity recognition and classification I Reference resolution I Relation detection and classification I Event detection and classification I Temporal expression detection and Temporal analysis I Template-filling КМАТ 06 Извлечение информации Извлечение и классификация именованных сущностей Named entity recognition and classification На [LOC площадь Восстания ] могут вернуть конный памятник императору [PERS Александру III ], который стоял там до 1937, а сейчас расположен во дворе Мраморного дворца. Письмо с просьбой обсудить целесообразность или нецелесообразность возвращения памятника на одну из городских площадей написал в [ORG ЗакС ] вице-губернатор [PERS Василий Кичеджи ]. КМАТ 06 Извлечение информации Кластеризация именованных сущностей Reference resolution У берегов [LOC Камчатки ] произошло землетрясение, магнитуда подземных толчков составила 5. Об этом сообщил «Интерфаксу-Дальний Восток» представитель камчатского филиала Геофизической службы РАН. Колебания земной коры зафиксированы в [LOC Тихом океане ] в [LOC 340 км юго-восточнее Петропавловска-Камчатского ] на глубине 49 км. По данным МЧС, в населённых пунктах региона землетрясение не ощущалось, разрушений нет, угроза цунами не объявлялась. КМАТ 06 Извлечение информации Извлечение и классификация отношений Relation detection and classification Компания [ORG Thomson Reuters ] уволила заместителя редактора социальных сетей портала reuters.com [PERS Мэттью Киза ] ([PERS Matthew Keys ]), обвиненного в сотрудничестве с группой хакеров [ORG Anonymous ]. быть сотрудником PERS → ORG Бинарные отношения сотрудничать с PERS → ORG КМАТ 06 Извлечение информации Извлечение событий Event detection and classification Компания [ORG Thomson Reuters ] [EVENT уволила ] заместителя редактора социальных сетей портала reuters.com [PERS Мэттью Киза ] ([PERS Matthew Keys ]), обвиненного в сотрудничестве с группой хакеров [ORG Anonymous ]. КМАТ 06 Извлечение информации Анализ дат Temporal expression detection and Temporal analysis Мамонтенка Женю, найденного на Таймыре, привезут в петербургский Зоологический институт Российской академии наук (РАН) в [DATE понедельник ], сообщил в [DATE воскресенье ] РИА Новости заместитель директора Зоологического института Алексей Тихонов. Останки Сопкаргинского мамонта нашел в [DATE конце августа 2012 года ] на Таймыре одиннадцатилетний Евгений Салиндер. Столь крупных и с хорошо сохранившимися тканями находок не было с [DATE 1901 года ]. КМАТ 06 Извлечение информации Извлечение данных по шаблону Template-filling По последним данным, число жертв [DISEASE «птичьего гриппа» H7N9 ], впервые выявленного у человека в [LOC Китае ] в [DATE конце марта ], достигло [VICTIMS 20 ]. По обобщенным сведениям, число заболевших вирусом [DISEASE «птичьего гриппа» ] в [LOC Китае ] составило [VICTIMS 101 ]. Из них, по меньшей мере, [VICTIMS четыре человека ] находятся в критическом состоянии. Случаи заболевания гриппом птиц [DISEASE H7N9 ] зарегистрированы среди граждан, проживающих в провинциях [LOC Цзянсу ], [LOC Чжэцзян ], [LOC Аньхой ] и [LOC Хэнань ], а также в [LOC Шанхае ] и [LOC Пекине ]. КМАТ 06 Извлечение информации Извлечение данных по шаблону Сообщение об эпидемической вспышке: Заболевание «птичий грипп», H7N9 Число жертв 20, 101, 4 Локализация случаев Китай, Цзянсу, Чжэцзян, Аньхой, Хэнань, Шанхай, Пекин КМАТ 06 Извлечение информации У берегов [LOC Камчатки ] произошло землетрясение, магнитуда подземных толчков составила 5. Об этом сообщил «[ORG Интерфаксу-Дальний Восток ]» представитель [ORG камчатского филиала Геофизической службы РАН ]. Колебания земной коры зафиксированы в [LOC Тихом океане ] в 340 км юго-восточнее [LOC Петропавловска-Камчатского ] на глубине 49 км. По данным [ORG МЧС ], в населённых пунктах региона землетрясение не ощущалось, разрушений нет, угроза цунами не объявлялась. КМАТ 06 Распознавание именованных сущностей Outline Извлечение информации Распознавание именованных сущностей Извлечение отношений Методы Выбор признаков для машинного обучения КМАТ 06 Распознавание именованных сущностей Распознавание именованных сущностей Named entity recognition: I I выделить в тексте имена собственные классифицировать их: I I I I I I имена лиц топонимы названия организаций названия песен и исполнителей названия товаров и брэндов etc. КМАТ 06 Распознавание именованных сущностей Способы определения имен собственных I Специфические для языка и жанра текстовые сигналы: I I I I орфографическая форма слова (большие буквы) слова-маркеры г-н, прибыл в, характерные суффиксы/префиксы Списки имен собственных: I I Gazetteers (словари географических названий) Списки имен и фамилий (по данным переписей) КМАТ 06 Распознавание именованных сущностей Орфографическая форма слова строчные с заглавной заглавные смешанный регистр инициал с точкой оканчивается на цифру и т.п. камчатский филиал Интерфакс МЧС ЗакС П. С7 КМАТ 06 Распознавание именованных сущностей Омонимия имен собственных I омонимия имён — Ленина: I I I I I I омонимия аббревиатур — ПТК: I I I исторический деятель памятник улица государственная награда и т.п. Петербургская топливная компания Первая транспортная компания метонимия — Кремль: I I ORG LOC КМАТ 06 Распознавание именованных сущностей Статистический подход к распознаванию именованных сущностей I рассмотрим задачу распознавания именованных сущностей как расстановку тегов к словам I ArgmaxP(Tags|Words) I задача аналогична POS tagging (расстановке частей речи)! КМАТ 06 Распознавание именованных сущностей Схема аннотации IOB Слово Компания Thomson Reuters уволила заместителя ... Тег O BORG IORG O O B Begin — первое слово именованной сущности I Inside — слово внутри именованной сущности O Outside — слово, не входящее ни в одну именованную сущность КМАТ 06 Распознавание именованных сущностей Интеграция дополнительных признаков для классификации Слово Компания Thomson Reuters уволила заместителя ... Тег O BORG IORG O O PoS N N N V N chunk BNP INP INP BVP BNP орф. форма cap cap cap low low КМАТ 06 Распознавание именованных сущностей Sequence labeling При наличии обучающей выборки с размеченными именованными сущностями: I оптимизация с использованием цепей Маркова: I I I HMM, Hidden Markov Model MEMM, maximum-entropy Markov Model классификация токена с использованием скользящего окна: I I I I Naive Bayes decision trees Maximum Entropy classifier SVM КМАТ 06 Распознавание именованных сущностей Практический подход 1. Выделить однозначные упоминания именованных сущностей с помощью регулярных выражений (высокая точность, низкая полнота). 2. Искать строки, близкие к выделенным в пункте (1) сущностям. 3. Поискать сущности из специализированных словарей имен. 4. Применить вероятностные алгоритмы классификации последовательностей, используя теги, полученные на предыдущих этапах. КМАТ 06 Извлечение отношений Outline Извлечение информации Распознавание именованных сущностей Извлечение отношений Методы Выбор признаков для машинного обучения КМАТ 06 Извлечение отношений Извлечение и классификация отношений I отношения, специфические для предметной области: I I рожать в (PERS, ORG) общие отношения: I I I I I семья работа часть—целое членство пространственные КМАТ 06 Извлечение отношений Примеры общих отношений Класс Принадлежность Персональные Организационные Предметные Примеры Тип мать, женат на директор, оф. представитель владеть, производить PERS → PERS PERS → ORG (PERS|ORG) → OBJ Пространственные Близость Направление рядом с к югу от LOC → LOC LOC → LOC КМАТ 06 Извлечение отношений Методы Outline Извлечение информации Распознавание именованных сущностей Извлечение отношений Методы Выбор признаков для машинного обучения КМАТ 06 Извлечение отношений Методы Supervised approaches 1. Кодировщики аннотируют тексты: I I I текстовые фрагменты, соответствующие двум сущностям типы сущностей тип отношения 2. Обучение классификатора. Подзадачи: I I Определить наличие/отсутствие отношений между парой сущностей Определить тип отношения КМАТ 06 Извлечение отношений Методы Supervised approaches В обучающей выборке: I рассматриваются только пары сущностей, встречающиеся в одном предложении; I размеченные кодировщиками отношения служат положительными примерами; I все прочие возможные пары сущностей в рамках предложения — отрицательными примерами. КМАТ 06 Извлечение отношений Методы Lightly Supervised approaches Bootstrapping 1. Начнем с нескольких известных примеров искомого отношения: HeadquarteredIn (Google, Mountain View) 2. В большом корпусе найдем примеры употребления этих сущностей в пределах небольшого окна. 3. Используем найденные примеры для выделения шаблонов: ORG’s headquarters in LOC, LOC-based ORG 4. Используем шаблоны для поиска новых пар сущностей в корпусе. 5. С расширенным набором пар сущностей вернемся к шагу (1). КМАТ 06 Извлечение отношений Методы Lightly Supervised approaches Distant supervision I Источники данных: Википедия, Freebase I Большие наборы пар сущностей, состоящих в искомом отношении. I Предположение: любое предложение, содержащее такую пару сущностей, выражает искомое отношение. I Извлекаем признаки таких предложений для использования при обучении классификатора. КМАТ 06 Извлечение отношений Методы Unsupervised approaches Relation discovery I Есть корпус текстов из определенной предметной области I В нем выделены именованные сущности I Нет заранее данных типов отношений I Задача: выявить значимые типы отношений КМАТ 06 Извлечение отношений Методы Unsupervised approaches Relation discovery I Входные данные: пары сущностей + контексты I Кластеризовать пары на непересекающие группы, где каждая группа представляет одно отношение (k-средних или аггломеративная кластеризация). I Отдельный «мусорный» кластер для несвязанных пар сущностей и несущественных отношений. КМАТ 06 Извлечение отношений Методы Unsupervised approaches Template induction информационный шаблон: I несколько слотов I разные семантические роли Идея: I кластеризовать сущности I каждый кластер соответствует одной роли КМАТ 06 Извлечение отношений Методы Unsupervised approaches Template induction Chambers and Jurafsky Двухступенчатая кластеризация: I Сгруппировать лексические шаблоны, описывающие сходные события. I Сгруппировать потенциальных заполнителей слотов для каждого типа события. Интерпретируемые метки слотов: Person/Organization who raids, questions, discovers, investigates, diffuses, arrests КМАТ 06 Извлечение отношений Методы Unsupervised approaches Open information extraction Идея: I существует небольшой набор синтаксических шаблонов, охватывающих большинство разных типов бинарных отношений I главное не использовать лексические признаки Эвристики: I Фраза, содержащая отношение, должна начинаться с глагола, заканчиваться предлогом и быть неразрывной. I Фраза, содержащая бинарное отношение, должна встречаться не менее чем с пороговым числом разных пар аргументов. КМАТ 06 Извлечение отношений Выбор признаков для машинного обучения Outline Извлечение информации Распознавание именованных сущностей Извлечение отношений Методы Выбор признаков для машинного обучения КМАТ 06 Извлечение отношений Выбор признаков для машинного обучения Признаки самих сущностей Сущности — аргументы отношения I тип обоих аргументов I главные слова каждого аргумента I множество слов обоих аргументов КМАТ 06 Извлечение отношений Выбор признаков для машинного обучения Лексические контекстуальные признаки Рассматриваемые фрагменты текста: I фиксированное окно до первого аргумента I текст между аргументами I фиксированное окно после второго аргумента Возможные признаки: I множество слов и биграмм (или их лемматизированные версии) I слова непосредственно предшествующие и следующие за аргументами I расстояние между аргументами в словах I количество сущностей между аргументами КМАТ 06 Извлечение отношений Выбор признаков для машинного обучения Синтаксические контекстуальные признаки I наличие в тексте определенных синтаксических конструкций I множество главных слов синтаксических групп I расстояние между аргументами в синтаксическом дереве I путь между аргументами в синтаксическом дереве КМАТ 06 Извлечение отношений Выбор признаков для машинного обучения Фоновые знания I Википедия: если аргументы совместно встречаются в одной статье Википедии, текст статьи можно использовать для оценки отношения между аргументами I Кластеризация слов: возможность выделить более дробные группы, чем стандартный тип сущности (напр., организация) КМАТ 06 Извлечение отношений Выбор признаков для машинного обучения Извлечение отношений У берегов Камчатки произошло землетрясение, магнитуда подземных толчков составила 5. Об этом сообщил «Интерфаксу-Дальний Восток» представитель камчатского филиала Геофизической службы РАН. Колебания земной коры зафиксированы в Тихом океане в 340 км юго-восточнее Петропавловска-Камчатского на глубине 49 км. По данным МЧС, в населённых пунктах региона землетрясение не ощущалось, разрушений нет, угроза цунами не объявлялась. КМАТ 06 Извлечение отношений Выбор признаков для машинного обучения Summary: State-of-the-Art I Распознавание именованных сущностей: I I Алгоритмы статистической разметки последовательностей (Sequence labeling) Извлечение отношений: I I I тщательный подбор признаков стандартные алгоритмы классификации тенденция к поиску методов машинного обучения без учителя