синтез текстов под управлением предметных онтологий

advertisement
Ефименко И.В.
Irina.Efimenko@avicomp.ru
ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ
КРОСС-ЯЗЫКОВОГО РЕФЕРИРОВАНИЯ:
СИНТЕЗ ТЕКСТОВ
ПОД УПРАВЛЕНИЕМ ПРЕДМЕТНЫХ ОНТОЛОГИЙ
План презентации
Введение
Системы семейства OntosMiner
Shallow-подход
Общие принципы и схема алгоритма кросс-языкового
реферирования
 Генерация текста: пример
 Заключение




КИИ-2006, Обнинск
Введение


Анализ под управлением предметных онтологий
Синтез под управлением предметных онтологий

Кросс-языковое реферирование
Автоматическое реферирование
 Машинный перевод


Проблема создания универсального семантического языка – «переходной»
репрезентации между языком-целью и языком-источником
Когнитивные карты (С-Маps)
КИИ-2006, Обнинск
Введение
Отсутствие необходимости построения дополнительного
(исходного) реферата на языке-источнике.
 Онтология в основе системы - «гарант» релевантности:



С точки зрения предметной области (сфера
экстралингвистики)
С точки зрения текста (сфера лингвистики)
в процессе генерации итогового текста используется набор
лингвистических шаблонов, аналогичных формальным конструкциям,
положенным в основу анализа
КИИ-2006, Обнинск
Введение
Системы типа Information Extraction.
Извлечение экземпляров объектов и связей между ними

КИИ-2006, Обнинск
Введение:
80-20
Текст
МОСКВА, 15 мая - РИА Новости.
Руководитель Росатома Сергей
Кириенко 19-23 мая в ходе поездки
в США проведет ряд рабочих
встреч, посвященных
двустороннему сотрудничеству в
области мирного использования
атомной энергии, говорится в
сообщении пресс-службы Росатома.
Планируется, что Кириенко 22 мая
проведет переговоры с министром
энергетики США Самюэлом
Бодманом и руководителем
комиссии по ядерному
регулированию США Нильсом
Диазом.
Модель
Структурированные данные
типы объектов и
типы отношений
РАБОТАТЬ В ОРГАНИЗАЦИИ
ОРГАНИЗАЦИЯ
ПЕРСОНА
Руководитель Росатома Сергей Кириенко 19-23
мая в ходе поездки в США проведет ряд рабочих
встреч…
КИИ-2006, Обнинск
Введение
Тексты
МОСКВА, 15 мая - РИА Новости.
Руководитель Росатома Сергей
Кириенко 19-23 мая в ходе поездки
в США проведет ряд рабочих
встреч, посвященных
двустороннему сотрудничеству в
области мирного использования
атомной энергии, говорится в
сообщении пресс-службы Росатома.
Планируется, что Кириенко 22 мая
проведет переговоры с министром
энергетики США Самюэлом
Бодманом и руководителем
комиссии по ядерному
регулированию США Нильсом
Диазом.
МОСКВА, 15 мая - РИА Новости.
Руководитель Росатома Сергей
Кириенко 19-23 мая в ходе поездки
в США проведет ряд рабочих
встреч, посвященных
двустороннему сотрудничеству в
области мирного использования
атомной энергии, говорится в
сообщении пресс-службы Росатома.
Планируется, что Кириенко 22 мая
проведет переговоры с министром
энергетики США Самюэлом
Бодманом и руководителем
комиссии по ядерному
регулированию США Нильсом
Диазом.
КИИ-2006, Обнинск
Отдельные графы
База знаний
Системы OntosMiner:
примеры онтологий
КИИ-2006, Обнинск
КИИ-2006, Обнинск
Системы OntosMiner:
примеры онтологий
КИИ-2006, Обнинск
Цели и задачи
настоящей работы
КИИ-2006, Обнинск
Системы OntosMiner:
Фрагмент текста в среде GATE
КИИ-2006, Обнинск
Системы OntosMiner:
Фрагмент когнитивной карты
КИИ-2006, Обнинск
Системы OntosMiner:
Когнитивная карта множества сводок
КИИ-2006, Обнинск
Shallow-подход:
Общие принципы

Использование системы шаблонов, ориентированных
на извлечение сущностей и связей между ними,
являющихся экземплярами представленных в
онтологии типов.

Применение аналогичных принципов при генерации
текстов
автоматическое реферирование на основе
лингвистических шаблонов под управлением предметных
онтологий.

КИИ-2006, Обнинск
Все промежуточные операции могут выполняться на
формальных конструкциях-шаблонах, а не на реальных
предложениях. Генерация естественноязыковых фрагментов
происходит на самом последнем этапе, когда системой получены
все данные, необходимые для порождения гладкого и семантически
насыщенного текста.
Shallow-подход:
От NLP к NLP
«Полиция расстреляла демонстрацию чернокожих»
«Во время демонстрации застрелено двое чернокожих»
«Гибель участников демонстрации»
«Трагический случай»
Данный принцип помогает «исчислить» множество различных структур,
используемых в языке для описания той или иной ситуации: (пассив-актив,
эллиптические конструкции, синтаксические нули...)
«И.И. Иванов пришел работать в РАО ЕЭС», «И.И. Иванов был принят на работу в
РАО ЕЭС», «И.И. Иванов – сотрудник РАО ЕЭС», «После прихода И.И. Иванова в
РАО ЕЭС»...
КИИ-2006, Обнинск
Кросс-языковое реферирование:
Схема алгоритма
Онтология
Система шаблонов
1.Исх.
текст
2.СЕ (на
основе
шаблонов)
5.Формальное
представление
отдельных
фрагментов
конечного текста
6.Лингв. (в т.ч.
стилист.) операции
на отдельных
фрагментах
формальных
представлений
КИИ-2006, Обнинск
3.CMap
4. Извлечение
данных о
шаблоне (для
узлов и дуг)
11.Лингв. (в т.ч. стилист.) операции
на формальном представлении
конечного текста в целом
(анафорические замены,
«переходные» фрагменты и т.д.)
7.Использование метрик
8.Выбор
дискурс.
схемы
9.Применение
системы весов
10.Расположение
отдельных фрагментов в
необходимом порядке
12. Конечный
текст
Кросс-языковое реферирование:
«Центры кристаллизации»
Система метрик
(оценка релевантности объектов и связей)
RANLP-2005,
[V.Khoroshevsky]
КИИ-2006, Обнинск
Кросс-языковое реферирование:
Анализ корпуса языка-источника
Cхема шаблона (с комментариями и атрибутами)
Примеры
соответствующих
фрагментов текста
(
Previously, Mr. Curts was Perot
Systems’ North American Chief
Financial Officer, and also served
as Treasurer/Head of Business
Development.
He was with Goldman Sachs & Co.,
New York and London from 1980
- 1983 in the Corporate Finance
Department.
Along with Vision, Mr. Jain also cofounded and served as head of
operations for Brigade
Corporation, a customer support
company with 1,300 customer
support employees across centers
in the U.S., Europe and India.
{prepOrg}: одна из возможных конструкций с предлогом
({Organization }): экземпляр объекта типа «Организация»
)?
(({Period} | {StartPoint})?) : экземпляр объекта типа «Время»
({Person}): экземпляр объекта типа «Лицо»
(
{beVG} |
{becomeVG} |
({servVG} {As})
): PAST, ACTIVE, INDICATIVE, SG, 3rd PERS, : одна из возможных
для данного шаблона глагольных конструкций
(({Organization }): экземпляр объекта типа «Организация»)?
({JobTitle})): экземпляр объекта типа «Должность»
( {prepOrg}: одна из возможных конструкций с предлогом
({Organization }):}): экземпляр объекта типа «Организация»)?
({Period}|{StartPoint})? : экземпляр объекта типа «Время»
Отсутствие необходимости работать с
фиксированной языковой парой
КИИ-2006, Обнинск
Кросс-языковое реферирование:
Сопоставление шаблонов языка-источника
и языка-цели
Cхемы шаблонов (с комментариями и
атрибутами)
Примеры соответствующих фрагментов текста
(({Period} | {StartPoint})?)
({Person})
(
{beVG} |
({servVG} {As})
): ACTIVE, INDICATIVE
({JobTitle}))
( {prepOrg} ({Organization })}) )?
С декабря 2001 года г-н Клишас является председателем
правления компании «Интеррос».
(Since 2001, Mr. Klishas is the chairman of the “Interros” board of
directors.)
В течение последующих нескольких лет служил в структуре
МВД в качестве эксперта-криминалиста. (During the next several
years he has been serving in the Ministry of Interior sub-division as
a forensic expert)
(({Date} | {StartPoint})?)
({Person})
({becomeVG}): ACTIVE,
INDICATIVE
({JobTitle})
(({Organization } )?
В середине 2003-2004 финансового года Хайнц Шиммельбуш
становится исполнительным директором. (In 2003-2004 financial
year, Hainz Schimmelbush becomes CEO)
ETC…
КИИ-2006, Обнинск
Кросс-языковое реферирование:
Значения атрибутов в шаблоне, специфицирующем
фрагмент исходного текста, и варианты конструкций в
языке-цели
Английский (язык-источник)
Атрибуты
Mr. Smith was employed by the
Cukurova Group.
•
“Employ” Relation {base = “employ”, tense = “past”, voice =
“passive”, etc…}
Атрибуты
Русский (язык-цель)
“Employ” Relation {base = “employ”, tense = “past”, voice = “passive”,
etc…}
Г-н Смит был принят на
работу в Cukurova Group.
“Employ” Relation {base = “employ”, tense = “past”, voice = “active ”,
etc…}
(конструкция в изъявительном наклонении, определенная в рамках
подготовительного этапа как нейтральная)
Г-н Смит работал в Cukurova
Group.
“Employ” Relation {base = “employ”, tense = “-”, voice = “- ”, etc…}
(предикат редуцирован до номинативной конструкции)
В числе сотрудников Cukurova
Group можно назвать г-на
Смита.


Разрешение конфликтов атрибутов
Набор «нейтральных» конструкций
КИИ-2006, Обнинск
Генерация текста:
исходный текст и C-Map

КИИ-2006, Обнинск
Sergey Brin, a native of Moscow, received a bachelor
of science degree with honors in mathematics and
computer science from the University of Maryland at
College Park. Brin is a recipient of a National Science
Foundation Graduate Fellowship as well as an
honorary MBA from Instituto de Empresa . It was at
Stanford where he met Larry Page and worked on the
project that became Google. Together they founded
Google Inc., and Brin continues to share
responsibility for day-to-day operations with Larry
Page and Eric Schmidt.
Генерация текста:
Объекты, связи и шаблоны, извлеченные из исходного текста
и представленные в когнитивной карте
N
Экземпляры
объектов
Атрибуты
1
Person1
{name = “Sergey Brin”, number = “singular”, gender = “male” (в
данном случае вычислено на основе сведений о первом
имени, информация словарного характера)}
2
Person2
{name = “Larry Page”, number = “singular”, gender = “male”
(вычислено на основе сведений о первом имени,
информация словарного характера)}
3
Organization1
{name = “University of Maryland”, number = “singular”, keyword =
“University”}
4
Organization2
{name = “Instituto de Empresa”, number = “singular”, keyword =
“Instituto”}
5
Organization3
{name = “Google Inc.”, number = “singular”, keyword =
“Incorporation”}
6
Location1
{name = “College Park ”, number = “singular”}
КИИ-2006, Обнинск
Генерация текста:
Исходное представление, (1)
Экземпляр объекта “Лицо”
{Person1, syntactic role = “subject” (определяет не только синт. роль как таковую, но и ряд
других характеристик, например, значение падежа)}
Глагол-ядро экземпляра онтологического предиката “получать
научную степень”
{base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”}
Экземпляр объекта “Научная степень” (атрибут отношения
“получать научную степень”)
{base = “bachelor of science”, number = “singular”, honors = “yes”, speciality = [“mathematics”, “computer science”],
subspeciality = “-”, organization = “Organization1”,
/Вложенный экземпляр онтологического предиката
“Располагаться”:
“Organization” object {Organization1}
“Located In” Relation prepositional construction {name = “at”}
“Location” object {Location1}/}
КИИ-2006, Обнинск
Генерация текста:
Исходное представление, (2)
Экземпляр объекта “Лицо”
{Person1, syntactic role = “subject”}
Глагол-ядро экземпляра онтологического предиката
“получать научную степень”
{base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”}
Экземпляр объекта “Научная степень” (атрибут
отношения “получать научную степень”)
{base = “MBA”, honors = “yes”, number = “singular”, speciality = “-”, subspeciality = “-”, organization =
“Organization2”}
КИИ-2006, Обнинск
Генерация текста:
Исходное представление, (3)
Список объектов типа “Лицо”
{[Person1, Person2], syntactic role = “subject”}
Глагол-ядро экземпляра онтологического предиката
“быть основателем”
{base = “found”, tense = “past simple”, gender = any, number = any, voice = “active”}
Экземпляр объекта “Организация”
{Organization3, syntactic role = “object”} – необходима спецификация синтаксической
роли, поскольку в рамках рассматриваемой онтологии данный тип
объекта может в данном сем. отношении играть различные роли; кроме
того, роли определяются грамматическими характеристиками
«ядерных» конструкций
КИИ-2006, Обнинск
Генерация текста:
Предварительные трансформации

Трансформация 1. Объединение связей:


общий узел-источник («первый актант»),
идентичность шаблонов (с точностью до набора и значений атрибутов).

В случае, если результирующая конструкция недостаточно элегантна,
возможна генерация двух текстовых фрагментов, соединенных
искусственно созданной «переходной» структурой.
Экземпляр объекта “Лицо”
{Person1, syntactic role = “subject”}
Глагол-ядро экземпляра онтологического предиката “получать научную степень”
{base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”}
Список объектов типа “Научная степень”
{[{base1 = “bachelor of science”, number = “singular”, honors1 = “yes”, speciality1 =
[“mathematics”, “computer science”], subspeciality1 = “-”, organization1 = “Organization1”
/ Вложенный экземпляр онтологического предиката “Располагаться”:
“Organization” object {name = “Organization1”}
“Located In” Relation prepositional construction {name = “at”}
“Location” object {name = “Location1”}/} ,
{ base2 = “MBA”, number2 = “singular”, honors2 = “yes”, speciality2 = “-”, subspeciality2 = “-”,
organization2 = “Organization2”}]}
КИИ-2006, Обнинск
Генерация текста:
Предварительные трансформации

Трансформация 2. Формирование списочной структуры и
перемещение фокуса на следующий экземпляр объекта того же
типа:
Экземпляр объекта “Лицо”
{pronoun, number = “singular”, gender = “male, syntactic role = “subject”}
Глагол-ядро экземпляра онтологического предиката “быть основателем”
{base = “found”, tense = “past simple”, gender = any, number = any, voice = “active”}
Экземпляр объекта “Организация”
{Organization3, syntactic role = “object”}
Элемент-связка
{name = “together with”}
Экземпляр объекта “Лицо”
{Person2, syntactic role = “indirect object”}
КИИ-2006, Обнинск
Генерация текста:
Итоговые трансформации, (1)
Экземпляр объекта “Лицо”
{Person1, name = “Сергей Брин” (первое имя – словарный аналог
исходного, значение фамилии - результат транслитерации),
синтаксическая роль = “subject”, падеж = “nom” (следствие синт.роли)}
→ результирующий фрагмент текста: “Сергей Брин”
Глагол-ядро экземпляра онтологического предиката “получать
научную степень”
{base = “получить”, tense = “past”, aspect = “perfective” (информация,
заданная на подготовительном этапе при формировании шаблонованалогов, см. раздел 3), род = “male” (на основе рода субъекта), число
= “singular”(на основе числа субъекта), залог = “active”} →
результирующий фрагмент текста: “получил”
КИИ-2006, Обнинск
Генерация текста:
Итоговые трансформации, (2)
Список объектов типа “Научная степень”
1ый элемент списка
{name = “степень (base {case = “gen”, number = “singular” }) (в области (speciality {case =
“gen”}))? (специализация: (subspeciality {case = “nom”)}))? (honors {case = “instr”}) (organization
{case = “prep”, number = “singular”}) ” (констукция в целом и атрибуты ее фрагментов
заданы в процессе нахождения шаблонов-аналогов, раздел 3), number = “singular”, case =
“acc” (задано управлением глагола), base = “бакалавр”, honors = “yes”, speciality =
[“математика”, “кибернетика”], subspeciality = “-”, organization = {Organization1, name
=“Университет Мэриленда” (здесь может фигурировать словарный аналог и/или результат
транслитерации/перевода)},
/ Вложенный экземпляр онтологического предиката “Располагаться”:
“Organization” object {name = null}
“Located In” Relation prepositional construction {name = “расположенный в”, case = “prep”
(задано падежом организации в объекте “Научная степеньt), number = “singular”}
“Location” object {Location1, name = “Колледж Парк” (здесь может фигурировать словарный
аналог и/или результат транслитерации/перевода), case = “prep” (задано моделью
управления предлога)}/ } → результирующий фрагмент текста: “степень бакалавра в области
математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж
Парке ”
Элемент-связка
{name = “а также”} → результирующий фрагмент текста: “а также ”
2ой элемент списка
{...} → результирующий фрагмент текста: “степень MBA с отличием в Институте Эмпреса ”
КИИ-2006, Обнинск
Генерация текста:
Текст реферата

Вариант 1. Сергей Брин получил степень бакалавра в области математики и
кибернетики с отличием в Университете Мэриленда, расположенном в Колледж
Парке, а также степень MBA с отличием в Институте Эмпреса. Он основал
корпорацию Гугл вместе с Ларри Пейджем.

Вариант 2. Сергей Брин получил степень бакалавра в области математики и
кибернетики с отличием в Университете Мэриленда, расположенном в Колледж
Парке. Кроме того (искусственно сгенерированный фрагмент), он
(анафорическая замена) получил степень MBA c отличием в Институте Эмпреса.
Он основал корпорацию Гугл вместе с Ларри Пейджем.

Смещение фокуса

Генерация последующих фрагментов
КИИ-2006, Обнинск
Генерация текста:
Текущее состояние
Генерация Реферата
об Объекте в виде
текста по коллекции
документов
КИИ-2006, Обнинск
Заключение

Постановка задачи синтеза под управлением
предметных онтологий.

Использование принципов онтологического
подхода при решении задачи моно- и кроссязыкового реферирования.

Основная задача: расширение спектра порождаемых
естественноязыковых конструкций
КИИ-2006, Обнинск
Спасибо за внимание!
Thank (аналог ключевой лексемы связи) You (генерация эксплицитного представления
актанта) for (информация по модели управления) Your (генерация эксплицитного
представления актанта) Attention (аналог ключевой лексемы объекта)
КИИ-2006, Обнинск
Download