Статистический анализ связности текстов по общественно- политической тематике

реклама
Статистический анализ
связности текстов по
общественнополитической тематике
RCDL 2011
19- 22 октября 2011 г.
________________________________
к.т.н. Абрамова Н.Н., к.т.н. Абрамов В.Е., Некрасова Е.В, Росс Г.Н.
ФГУП «НИЦИ при МИД России», ЗАО СКБ «ТЭЛКА»
1
[email protected], [email protected], [email protected], [email protected]
Цель работы
Исследование законов связности общественнополитических текстов, разработка методов и
алгоритмов выявления межфразовых связей с
целью усовершенствования технологии
реферирования текстов.
Основные понятия

Для получения связного текста реферата необходимо анализировать
связи между предложениями - межфразовые связи.

Согласно законам связности текста, межфразовые связи можно
определить через понятие замещения (анафоры), т.е. повторения
смысла какого-либо отрезка текста с помощью особых языковых
средств.

Заместители или показатели связи – это слова и словосочетания,
обозначающие понятия, повторяющиеся в тексте,

Замещаемое (антецедент) – это обозначение того же понятия в
предшествующем предложении.

Между замещаемым и заместителем существует анафорическая
связь. Сами заместители могут выступать как антецеденты по
отношению к своим заместителям.

Существует много способов выражения анафорических
Различают лексическую и местоименную анафору.
связей.
Типы замещения в текстах







Буквальный повтор - совпадение замещаемого и заместителя с точностью до
словоформ.
Морфо-синтаксический повтор - совпадение происходит с точностью до
словообразования (например, «консульство» - «консульский») или на уровне
опорных слов, определители которых могут трансформироваться (например,
«журналисткое расследование» – «расследование журналиста»).
Синонимия, вызванная изменением состава слов и словосочетаний антецедента и
заместителя («безвизовый режим» - «полная отмена виз»), или аббревиацией или
сокращением слов («Содружество независимых государств» – «СНГ»,
«генеральное консульство» – «генконсульство»).
Гипонимия («информационная безопасность» – «международная информационная
безопасность») и гиперонимия («заместитель министра» – «руководство
министерства»).
Эллипсис – повторение смысла с некоторыми опущенными элементами, не
сводимого к отношению род-вид («Комиссия по правам человека» - «Комиссия»).
Местоименная анафора – замена слова или словосочетания предшествующего
предложения замещающими его местоимениями (личными - «он», «она», «они»,
«его»…; указательными – «это», «то»,..; относительными – «который», «где»,
«что», …) или местоименными наречиями («куда», «там», «туда»,…).
Вводные слова, наречия и союзы («таким образом», «в связи с изложенным»,
«выше», «далее», «поэтому», ...).
Современное состояние проблемы




Методы разрешения анафоры описаны в работах Е. Рича,
Д. Карбонеллы, Р. Брауна, С. Рико Перез, Ш. Лаппина, Г.
Лисса . Г.Хирста, Р.Миткова и М.Поэсио.
Современные подходы базируются на интегрируемой
модели разрешения анафоры, использующей комбинацию
традиционных лингвистических методов с новым
статистическим подходом.
Подход Ермакова А.Е. используется для решения задачи
извлечения фактографической информации из текстовых
документов особого стиля (биографий, протоколов, сводок
и т.д.).
Метод Толпегина П. В. предназначен для автоматического
разрешения анафоры личных местоимений третьего лица
на основе методов машинного обучения.
5
Исходные данные для анализа
Вид текста
Суммарная
длина текстов
(в байтах)
Средняя длина
текста
(в байтах)
Сообщения
информационных
агентств
59913
1712
Газетные статьи
179580
5131
Брифинги
79219
2264
Всего было обработано 105 текстов общим объемом 319 Кб.
Пример установления межфразовых связей
7
Распределение частот встречаемости различных
типов связей в общественно-политических
текстах
Вид
связи
Лексический
повтор
Сообщения
информ.
агентств
Эллипсис
Местоим.
анафора
Другие
связи
Кол-во
связей на
док-т
0,16
0,09
0,15
0,12
9,8
0,13
0,04
0,15
0,17
0,08
27,5
0,2
0,15
0,07
0,16
0,06
12,3
Синонимия
Гипонимия,
гиперонимия
0,28
0,2
Газеты
0,43
Брифинги
0,36
Вид
текста
8
Частота встречаемости различных типов
связей в общественно-политических
текстах
Автоматическое разрешение местоименной
анафоры
Цель работы: разработать алгоритм выявления межфразовых
местоименных анафорических связей.
Основные ограничения:
1.
Между анафорой и антецедентом имеется явная кореферентность.
Анафорическое местоимение обозначает один и тот же объект
действительности (имеет один и тот же референт).
2.
Случаи катафоры не анализируются: Когда бортпроводники преградили
ему дорогу, Гаев набросился на них.
3.
Предполагается, что в тексте нет референциальных конфликтов
(неоднозначностей), т.е. для каждого референта существует только один
антецедент.
Пример конфликта: Сотрудник выполнил свою работу. Затем его вызвал
начальник отдела . Он изложил план работы на ближайшее время.
4.
Предсказуемость антецедента зависит от “референциального расстояния”,
поэтому кореферентным считается ближайший по тексту антецедент.
10
Метод распознавания межфразовых
местоименных анафор
Этап 1. Выявление предложений текста, подлежащих
анализу на предмет обнаружения анафор.
Этап 2. Выявление слов, грамматически не связанных с
членами предложения, т.е. вводных слов, вставных
предложений и оборотов.
Этап 3. Определение вида предложения: простое,
сложное или предложение с прямой речью.
Этап 4. Определение межфразовых местоименных
анафорических связей.
11
Входная информация
Исходный текст, каждая словоформа которого сопровождается:
• сведениями о ее месторасположении (номере предложения, в котором она
находится, порядковом номере в этом предложении);
• признаком буквы, с которой она начинается (большая или маленькая);
• набором грамматической информации (часть речи, род, число, падеж и т.д.).
1#3#1#по 00/156/03
2#3#0#поступающей 02/105/10/32333536
3#3#0#информации
01/061/10/1213162124
4#3#0#, 00/2000/01
5#3#0#23 00/2000/01
6#3#0#марта 01/001/01/12
7#3#0#примерно 00/152/01
8#3#0#в 00/164/046
9#3#0#15 00/2000/01
10#3#0#. 00/2000/01
11#3#0#00 00/2000/01
12#3#0#по 00/156/03
13#3#0#местному 03/103/01/1323
14#3#0#времени 01/076/01/121316
15#3#0#в 00/164/046
16#3#1#районе 01/001/01/16
17#3#0#автовокзала 01/125/10/3
18#3#0#в 00/164/046
19#3#1#иерусалиме 01/001/01/16
20#3#0#было 01/125/10/2
21#3#0#приведено 00/147/01
22#3#0#в 00/164/046
23#3#0#действие 01/073/10/1114
24#3#0#самодельное 02/103/01/2124
25#3#0#взрывное 02/107/01/2124
26#3#0#устройство 01/070/01/1114
27#3#0#. 00/2000/01
Принципы выявления предложений для анализа
межфразовых связей
1. В предложении встретилось хотя бы одно слово с признаком
местоименности.
2. Найденное слово должно распознаваться в словаре личных,
указательных и притяжательных местоимений и уточняющих
прилагательных (он, этот, тот, его, им, указанный, данный,
последний и т.д.).
3. Распознанное в словаре слово не должно входить во
«временные» словосочетания, например, «этой неделе»,
«тот же год», «этот месяц» и т.д.
4. Указательное местоимение тот (во всех падежах) не должно
использоваться для связи в сложном предложении ( «в том,
что…», «в том случае, если», «до того, как» и т.п.).
5. Предложение оставляется для дальнейшего анализа, если в
него не входят слова, указанные в пунктах 3 и 4.
Выявление в предложении вводных конструкций
1. Учет
особенностей расположения и пунктуационного оформления вводных
конструкций:
• вводные слова и обороты находятся в начале предложения и выделяются на
письме запятыми: либо справа, либо с двух сторон (пример: Вместе с тем,
французские журналисты выяснили, что ее зовут Нафиссатоу Диалло);
• вставные элементы заключаются в круглые, квадратные или косые скобки
(пример: Вместе эти страны располагают огромной ресурсной базой, самыми
большими трудовыми резервами, большими внутренними рынками (общая
численность населения стран БРИКС – 2,939 миллиарда человек).
2. Распознавание вводных конструкций с помощью словаря вводных слов и словаря
оборотов.
3. Вставные элементы не могут быть средством межфразовой связи.
4. Вводные слова и обороты могут быть средством межфразовой связи, если
включают в себя местоимения или уточняющие прилагательные (например, «по его
словам», «в связи с вышеизложенным»). Для выявления этой связи проводился поиск
местоимений и уточняющих прилагательных в словаре личных, указательных и
притяжательных местоимений и уточняющих прилагательных (он, этот, тот, его, им,
указанный, данный, последний и т.д.).
5. Вводные слова и обороты, не содержащие местоимений и уточняющих
прилагательных, а также вставные элементы не учитываются при дальнейшем анализе.
Определение вида предложения
1.Вид предложения определяется на основе
анализа синтаксической
структуры предложения.
2.Опорные слова структуры - это слова, относящиеся к грамматическим
классам глаголов, кратких причастий и кратких прилагательных с признаком
отглагольности. К классу глаголов относятся: глаголы в личной форме,
глаголы прошедшего времени, инфинитив, модальный глагол.
3.Признаки простого предложения:
− отсутствуют глаголы;
− имеется только один глагол или группа рядом стоящих глаголов;
− имеется несколько глаголов, связанных сочинительными союзами, перед
которыми не стоит знак препинания;
− имеется несколько глаголов, не разделенных знаками препинания.
4. Граница простого предложения проходит по знакам препинания,
непосредственно предшествующим опорным словам, при условии
нахождения слева от знака препинания хотя бы одного опорного слова.
5.Сложные предложения расчленяются на простые, но для анализа
выбираются только два первых простых предложения из состава сложного.
Распознавание прямой речи
Анализируются конструкции четырех типов:
1. Прямая речь после слов автора. Пример: Он спросил: «Что ты
делаешь?».
2. Прямая речь перед словами автора.. Пример: «Что ты
делаешь?» - спросил он.
3. Прямая речь прерывается словами автора. Признаком ее
являются внешние открывающиеся и закрывающиеся кавычки и
наличие внутри комбинаций двух «тире», «запятой» или «точки».
Пример: «Что ты делаешь вечером? - спросил он, - я хочу к тебе
придти.» или «Что ты делаешь вечером? - спросил он. - Я хочу к
тебе придти.»
4. Прямая речь стоит внутри авторских слов. Она распознается по
признакам первого шаблона с той лишь разницей, что после
закрывающихся кавычек авторские слова продолжаются после
«тире». Пример: Он спросил: «К вам можно?» - и вошел в
комнату.
Выявление анафор в простом предложении
Последовательно выбираются слова с признаками местоименности от начала до
границы предложения (за исключением местоимений, входящих во вводные конструкции,
обороты и «временные» словосочетания) и ищутся в словаре личных, указательных и
притяжательных местоимений и уточняющих прилагательных . Далее анализ проводится
согласно следующим принципам:
1. Местоименная анафора отсутствует, если встречается местоимение «это»,
непосредственно перед которым стоит тире : «БРИКС – это площадка для
диалога».
2. Если местоимение входит в именную группу, состоящую из однородных
членов предложения, связанных союзами «и»/»или» (например,
«министры и их постоянные представители», «ООН и ее работники»), то
межфразовой связи нет.
3. Если местоимение не входит в именную группу и находится не далее
третьего места от начала предложения, то существует межфразовая
связь: По ее итогам было принято совместное коммюнике.
4. Межфразовая связь отсутствует, если слева от местоимения стоит
согласованное с ним в роде и числе существительное
(субстантивированное прилагательное): На странице юноши (м.р., ед.ч.)
размещены также его (м. р., ед. ч.) фотографии.
5. Межфразовая связь существует, если слева от местоимения нет
согласованных с ним в роде и числе существительных:
Содержание (ср.р., ед.ч.) радиоактивных веществ (мн.,ч.) в ней (ж.р., ед.ч.)
составляет около 1,9 беккерелей на кубический сантиметр.
Принципы выявления анафор в сложных
предложениях
1.
2.
3.
В сложных
предложениях всех видов (с сочинительной и
подчинительной связью и бессоюзных) анализируются только два
первых простых предложения.
Первая часть сложного предложения анализируется согласно
принципам 1 – 5, как обычное простое предложение (предыдущий
слайд). При этом, если межфразовая связь не выявляется в
первом предложении, то поиск ее должен быть продолжен во
втором предложении.
Во второй части сложного предложения сначала ищутся личные и
притяжательные местоимения. Если слева от местоимения стоит
согласованное с ним в роде и числе существительное
(субстантивированное прилагательное), то считается, что
межфразовая связь отсутствует. Если такое существительное не
находится, то его поиск продолжается в первой части
предложения, начиная от конца.
Принципы выявления анафор в сложных
предложениях
4. Межфразовая связь отсутствует, если слева от знака препинания,
разделяющего
простые
предложения,
стоит
существительное
(субстантивированное прилагательное), согласованное в роде и числе с
найденным во второй части местоимением.
Главный редактор агентства Reuters Стивен Адлер (м.р., ед.ч.) сообщил ,
что он (м.р., ед.ч.) связался с сирийскими властями с просьбой о помощи в
поиске пропавших коллег.
5. Межфразовая связь существует, если слева от знака препинания,
разделяющего простые предложения, нет
существительных,
согласованных в роде и числе с найденным во второй части местоимением,
или встречается дейктическое местоимение («я», «мы», «ты», «вы»).
Думаю, что они должны активно подключиться к выработке оптимального
курса, по которому пойдет БРИКС.
6. Межфразовая связь существует, если во второй части сложного
предложения отсутствуют личные и притяжательные местоимения, но есть
указательное местоимение («этот», «тот», «такой»).
Маркин сообщил, что эти решения Генпрокуратуры будут обжалованы….
Оценка работы алгоритма
Тестирование проводилось на случайной
выборке из 30 текстов.
В каждом документе определялась количество
найденных
и
правильно
определенных
межфразовых связей.
Отношение числа правильно определенных
связей к
количеству всех найденных
межфразовых связей, выраженное в процентах,
- точность алгоритма. Она составила ~80%.
21
С п а с и б о з а в н и м а н и е!
Скачать