Ефименко И.В. Irina.Efimenko@avicomp.ru ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ КРОСС-ЯЗЫКОВОГО РЕФЕРИРОВАНИЯ: СИНТЕЗ ТЕКСТОВ ПОД УПРАВЛЕНИЕМ ПРЕДМЕТНЫХ ОНТОЛОГИЙ План презентации Введение Системы семейства OntosMiner Shallow-подход Общие принципы и схема алгоритма кросс-языкового реферирования Генерация текста: пример Заключение КИИ-2006, Обнинск Введение Анализ под управлением предметных онтологий Синтез под управлением предметных онтологий Кросс-языковое реферирование Автоматическое реферирование Машинный перевод Проблема создания универсального семантического языка – «переходной» репрезентации между языком-целью и языком-источником Когнитивные карты (С-Маps) КИИ-2006, Обнинск Введение Отсутствие необходимости построения дополнительного (исходного) реферата на языке-источнике. Онтология в основе системы - «гарант» релевантности: С точки зрения предметной области (сфера экстралингвистики) С точки зрения текста (сфера лингвистики) в процессе генерации итогового текста используется набор лингвистических шаблонов, аналогичных формальным конструкциям, положенным в основу анализа КИИ-2006, Обнинск Введение Системы типа Information Extraction. Извлечение экземпляров объектов и связей между ними КИИ-2006, Обнинск Введение: 80-20 Текст МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом. Модель Структурированные данные типы объектов и типы отношений РАБОТАТЬ В ОРГАНИЗАЦИИ ОРГАНИЗАЦИЯ ПЕРСОНА Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч… КИИ-2006, Обнинск Введение Тексты МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом. МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом. КИИ-2006, Обнинск Отдельные графы База знаний Системы OntosMiner: примеры онтологий КИИ-2006, Обнинск КИИ-2006, Обнинск Системы OntosMiner: примеры онтологий КИИ-2006, Обнинск Цели и задачи настоящей работы КИИ-2006, Обнинск Системы OntosMiner: Фрагмент текста в среде GATE КИИ-2006, Обнинск Системы OntosMiner: Фрагмент когнитивной карты КИИ-2006, Обнинск Системы OntosMiner: Когнитивная карта множества сводок КИИ-2006, Обнинск Shallow-подход: Общие принципы Использование системы шаблонов, ориентированных на извлечение сущностей и связей между ними, являющихся экземплярами представленных в онтологии типов. Применение аналогичных принципов при генерации текстов автоматическое реферирование на основе лингвистических шаблонов под управлением предметных онтологий. КИИ-2006, Обнинск Все промежуточные операции могут выполняться на формальных конструкциях-шаблонах, а не на реальных предложениях. Генерация естественноязыковых фрагментов происходит на самом последнем этапе, когда системой получены все данные, необходимые для порождения гладкого и семантически насыщенного текста. Shallow-подход: От NLP к NLP «Полиция расстреляла демонстрацию чернокожих» «Во время демонстрации застрелено двое чернокожих» «Гибель участников демонстрации» «Трагический случай» Данный принцип помогает «исчислить» множество различных структур, используемых в языке для описания той или иной ситуации: (пассив-актив, эллиптические конструкции, синтаксические нули...) «И.И. Иванов пришел работать в РАО ЕЭС», «И.И. Иванов был принят на работу в РАО ЕЭС», «И.И. Иванов – сотрудник РАО ЕЭС», «После прихода И.И. Иванова в РАО ЕЭС»... КИИ-2006, Обнинск Кросс-языковое реферирование: Схема алгоритма Онтология Система шаблонов 1.Исх. текст 2.СЕ (на основе шаблонов) 5.Формальное представление отдельных фрагментов конечного текста 6.Лингв. (в т.ч. стилист.) операции на отдельных фрагментах формальных представлений КИИ-2006, Обнинск 3.CMap 4. Извлечение данных о шаблоне (для узлов и дуг) 11.Лингв. (в т.ч. стилист.) операции на формальном представлении конечного текста в целом (анафорические замены, «переходные» фрагменты и т.д.) 7.Использование метрик 8.Выбор дискурс. схемы 9.Применение системы весов 10.Расположение отдельных фрагментов в необходимом порядке 12. Конечный текст Кросс-языковое реферирование: «Центры кристаллизации» Система метрик (оценка релевантности объектов и связей) RANLP-2005, [V.Khoroshevsky] КИИ-2006, Обнинск Кросс-языковое реферирование: Анализ корпуса языка-источника Cхема шаблона (с комментариями и атрибутами) Примеры соответствующих фрагментов текста ( Previously, Mr. Curts was Perot Systems’ North American Chief Financial Officer, and also served as Treasurer/Head of Business Development. He was with Goldman Sachs & Co., New York and London from 1980 - 1983 in the Corporate Finance Department. Along with Vision, Mr. Jain also cofounded and served as head of operations for Brigade Corporation, a customer support company with 1,300 customer support employees across centers in the U.S., Europe and India. {prepOrg}: одна из возможных конструкций с предлогом ({Organization }): экземпляр объекта типа «Организация» )? (({Period} | {StartPoint})?) : экземпляр объекта типа «Время» ({Person}): экземпляр объекта типа «Лицо» ( {beVG} | {becomeVG} | ({servVG} {As}) ): PAST, ACTIVE, INDICATIVE, SG, 3rd PERS, : одна из возможных для данного шаблона глагольных конструкций (({Organization }): экземпляр объекта типа «Организация»)? ({JobTitle})): экземпляр объекта типа «Должность» ( {prepOrg}: одна из возможных конструкций с предлогом ({Organization }):}): экземпляр объекта типа «Организация»)? ({Period}|{StartPoint})? : экземпляр объекта типа «Время» Отсутствие необходимости работать с фиксированной языковой парой КИИ-2006, Обнинск Кросс-языковое реферирование: Сопоставление шаблонов языка-источника и языка-цели Cхемы шаблонов (с комментариями и атрибутами) Примеры соответствующих фрагментов текста (({Period} | {StartPoint})?) ({Person}) ( {beVG} | ({servVG} {As}) ): ACTIVE, INDICATIVE ({JobTitle})) ( {prepOrg} ({Organization })}) )? С декабря 2001 года г-н Клишас является председателем правления компании «Интеррос». (Since 2001, Mr. Klishas is the chairman of the “Interros” board of directors.) В течение последующих нескольких лет служил в структуре МВД в качестве эксперта-криминалиста. (During the next several years he has been serving in the Ministry of Interior sub-division as a forensic expert) (({Date} | {StartPoint})?) ({Person}) ({becomeVG}): ACTIVE, INDICATIVE ({JobTitle}) (({Organization } )? В середине 2003-2004 финансового года Хайнц Шиммельбуш становится исполнительным директором. (In 2003-2004 financial year, Hainz Schimmelbush becomes CEO) ETC… КИИ-2006, Обнинск Кросс-языковое реферирование: Значения атрибутов в шаблоне, специфицирующем фрагмент исходного текста, и варианты конструкций в языке-цели Английский (язык-источник) Атрибуты Mr. Smith was employed by the Cukurova Group. • “Employ” Relation {base = “employ”, tense = “past”, voice = “passive”, etc…} Атрибуты Русский (язык-цель) “Employ” Relation {base = “employ”, tense = “past”, voice = “passive”, etc…} Г-н Смит был принят на работу в Cukurova Group. “Employ” Relation {base = “employ”, tense = “past”, voice = “active ”, etc…} (конструкция в изъявительном наклонении, определенная в рамках подготовительного этапа как нейтральная) Г-н Смит работал в Cukurova Group. “Employ” Relation {base = “employ”, tense = “-”, voice = “- ”, etc…} (предикат редуцирован до номинативной конструкции) В числе сотрудников Cukurova Group можно назвать г-на Смита. Разрешение конфликтов атрибутов Набор «нейтральных» конструкций КИИ-2006, Обнинск Генерация текста: исходный текст и C-Map КИИ-2006, Обнинск Sergey Brin, a native of Moscow, received a bachelor of science degree with honors in mathematics and computer science from the University of Maryland at College Park. Brin is a recipient of a National Science Foundation Graduate Fellowship as well as an honorary MBA from Instituto de Empresa . It was at Stanford where he met Larry Page and worked on the project that became Google. Together they founded Google Inc., and Brin continues to share responsibility for day-to-day operations with Larry Page and Eric Schmidt. Генерация текста: Объекты, связи и шаблоны, извлеченные из исходного текста и представленные в когнитивной карте N Экземпляры объектов Атрибуты 1 Person1 {name = “Sergey Brin”, number = “singular”, gender = “male” (в данном случае вычислено на основе сведений о первом имени, информация словарного характера)} 2 Person2 {name = “Larry Page”, number = “singular”, gender = “male” (вычислено на основе сведений о первом имени, информация словарного характера)} 3 Organization1 {name = “University of Maryland”, number = “singular”, keyword = “University”} 4 Organization2 {name = “Instituto de Empresa”, number = “singular”, keyword = “Instituto”} 5 Organization3 {name = “Google Inc.”, number = “singular”, keyword = “Incorporation”} 6 Location1 {name = “College Park ”, number = “singular”} КИИ-2006, Обнинск Генерация текста: Исходное представление, (1) Экземпляр объекта “Лицо” {Person1, syntactic role = “subject” (определяет не только синт. роль как таковую, но и ряд других характеристик, например, значение падежа)} Глагол-ядро экземпляра онтологического предиката “получать научную степень” {base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”} Экземпляр объекта “Научная степень” (атрибут отношения “получать научную степень”) {base = “bachelor of science”, number = “singular”, honors = “yes”, speciality = [“mathematics”, “computer science”], subspeciality = “-”, organization = “Organization1”, /Вложенный экземпляр онтологического предиката “Располагаться”: “Organization” object {Organization1} “Located In” Relation prepositional construction {name = “at”} “Location” object {Location1}/} КИИ-2006, Обнинск Генерация текста: Исходное представление, (2) Экземпляр объекта “Лицо” {Person1, syntactic role = “subject”} Глагол-ядро экземпляра онтологического предиката “получать научную степень” {base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”} Экземпляр объекта “Научная степень” (атрибут отношения “получать научную степень”) {base = “MBA”, honors = “yes”, number = “singular”, speciality = “-”, subspeciality = “-”, organization = “Organization2”} КИИ-2006, Обнинск Генерация текста: Исходное представление, (3) Список объектов типа “Лицо” {[Person1, Person2], syntactic role = “subject”} Глагол-ядро экземпляра онтологического предиката “быть основателем” {base = “found”, tense = “past simple”, gender = any, number = any, voice = “active”} Экземпляр объекта “Организация” {Organization3, syntactic role = “object”} – необходима спецификация синтаксической роли, поскольку в рамках рассматриваемой онтологии данный тип объекта может в данном сем. отношении играть различные роли; кроме того, роли определяются грамматическими характеристиками «ядерных» конструкций КИИ-2006, Обнинск Генерация текста: Предварительные трансформации Трансформация 1. Объединение связей: общий узел-источник («первый актант»), идентичность шаблонов (с точностью до набора и значений атрибутов). В случае, если результирующая конструкция недостаточно элегантна, возможна генерация двух текстовых фрагментов, соединенных искусственно созданной «переходной» структурой. Экземпляр объекта “Лицо” {Person1, syntactic role = “subject”} Глагол-ядро экземпляра онтологического предиката “получать научную степень” {base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”} Список объектов типа “Научная степень” {[{base1 = “bachelor of science”, number = “singular”, honors1 = “yes”, speciality1 = [“mathematics”, “computer science”], subspeciality1 = “-”, organization1 = “Organization1” / Вложенный экземпляр онтологического предиката “Располагаться”: “Organization” object {name = “Organization1”} “Located In” Relation prepositional construction {name = “at”} “Location” object {name = “Location1”}/} , { base2 = “MBA”, number2 = “singular”, honors2 = “yes”, speciality2 = “-”, subspeciality2 = “-”, organization2 = “Organization2”}]} КИИ-2006, Обнинск Генерация текста: Предварительные трансформации Трансформация 2. Формирование списочной структуры и перемещение фокуса на следующий экземпляр объекта того же типа: Экземпляр объекта “Лицо” {pronoun, number = “singular”, gender = “male, syntactic role = “subject”} Глагол-ядро экземпляра онтологического предиката “быть основателем” {base = “found”, tense = “past simple”, gender = any, number = any, voice = “active”} Экземпляр объекта “Организация” {Organization3, syntactic role = “object”} Элемент-связка {name = “together with”} Экземпляр объекта “Лицо” {Person2, syntactic role = “indirect object”} КИИ-2006, Обнинск Генерация текста: Итоговые трансформации, (1) Экземпляр объекта “Лицо” {Person1, name = “Сергей Брин” (первое имя – словарный аналог исходного, значение фамилии - результат транслитерации), синтаксическая роль = “subject”, падеж = “nom” (следствие синт.роли)} → результирующий фрагмент текста: “Сергей Брин” Глагол-ядро экземпляра онтологического предиката “получать научную степень” {base = “получить”, tense = “past”, aspect = “perfective” (информация, заданная на подготовительном этапе при формировании шаблонованалогов, см. раздел 3), род = “male” (на основе рода субъекта), число = “singular”(на основе числа субъекта), залог = “active”} → результирующий фрагмент текста: “получил” КИИ-2006, Обнинск Генерация текста: Итоговые трансформации, (2) Список объектов типа “Научная степень” 1ый элемент списка {name = “степень (base {case = “gen”, number = “singular” }) (в области (speciality {case = “gen”}))? (специализация: (subspeciality {case = “nom”)}))? (honors {case = “instr”}) (organization {case = “prep”, number = “singular”}) ” (констукция в целом и атрибуты ее фрагментов заданы в процессе нахождения шаблонов-аналогов, раздел 3), number = “singular”, case = “acc” (задано управлением глагола), base = “бакалавр”, honors = “yes”, speciality = [“математика”, “кибернетика”], subspeciality = “-”, organization = {Organization1, name =“Университет Мэриленда” (здесь может фигурировать словарный аналог и/или результат транслитерации/перевода)}, / Вложенный экземпляр онтологического предиката “Располагаться”: “Organization” object {name = null} “Located In” Relation prepositional construction {name = “расположенный в”, case = “prep” (задано падежом организации в объекте “Научная степеньt), number = “singular”} “Location” object {Location1, name = “Колледж Парк” (здесь может фигурировать словарный аналог и/или результат транслитерации/перевода), case = “prep” (задано моделью управления предлога)}/ } → результирующий фрагмент текста: “степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке ” Элемент-связка {name = “а также”} → результирующий фрагмент текста: “а также ” 2ой элемент списка {...} → результирующий фрагмент текста: “степень MBA с отличием в Институте Эмпреса ” КИИ-2006, Обнинск Генерация текста: Текст реферата Вариант 1. Сергей Брин получил степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке, а также степень MBA с отличием в Институте Эмпреса. Он основал корпорацию Гугл вместе с Ларри Пейджем. Вариант 2. Сергей Брин получил степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке. Кроме того (искусственно сгенерированный фрагмент), он (анафорическая замена) получил степень MBA c отличием в Институте Эмпреса. Он основал корпорацию Гугл вместе с Ларри Пейджем. Смещение фокуса Генерация последующих фрагментов КИИ-2006, Обнинск Генерация текста: Текущее состояние Генерация Реферата об Объекте в виде текста по коллекции документов КИИ-2006, Обнинск Заключение Постановка задачи синтеза под управлением предметных онтологий. Использование принципов онтологического подхода при решении задачи моно- и кроссязыкового реферирования. Основная задача: расширение спектра порождаемых естественноязыковых конструкций КИИ-2006, Обнинск Спасибо за внимание! Thank (аналог ключевой лексемы связи) You (генерация эксплицитного представления актанта) for (информация по модели управления) Your (генерация эксплицитного представления актанта) Attention (аналог ключевой лексемы объекта) КИИ-2006, Обнинск