Исследование близости политических позиций методом

advertisement
Исследование близости политических позиций методом латентно-семантического анализа
А.П.Петров, Е.Д.Корнилина
Институт прикладной математики им.М.В.Келдыша РАН
Введение. В настоящем докладе представлена методика определения близости
политических позиций, заявленных в таких текстах, как предвыборные программы партий,
выступления политических деятелей, записи в блогах и пр.
В качестве примера применения предлагаемой методики проанализированы
предвыборные программы политических партий, принимавших участие в выборах в
Государственную Думу V созыва в 2007 году. Показано, в частности, что позиции,
заявленные в программах Единой России и КПРФ близки друг к другу в большей степени,
чем каждая из них близка с позицией, заявленной в программе партии «Яблоко». При этом
выявлено, что программах некоторых партий можно выделить относительно слабо
связанные части, каждая из которых обладает высокой связностью в том смысле, что
входящие в одну и ту же часть фрагменты текста близки друг к другу, а фрагменты из
разных частей относительно далеки друг от друга.
В другой серии экспериментов рассмотрены записи некоторых блогеров Живого
Журнала. Показано, что, как правило, близкими (синтагматически близкими, см. далее) друг
к другу являются записи блогеров, выражающих близкие в общеупотребительном смысле
политические позиции.
Возможные применения предлагаемой методики включают в себя, в частности,
изучение такого вопроса, как изменение соотношений близости между позициями партий с
течением времени.
Описание
методики.
Основой
предлагаемой
методики
является
латентно-
семантический анализ (ЛСА), предложенный группой американских ученых в 1988 году, и
представляющий собой реализуемый на современных вычислительных средствах метод
анализа текстов естественного языка. Основной сферой применения ЛСА являются задачи
интеллектуального поиска. Среди других приложений отметим эпизодические исследования
произведений художественной литературы.
Работы, использующие ЛСА в целях политического анализа, нам неизвестны.
Входной информацией для ЛСА является единый текст, скомпонованный из
последовательно расположенных анализируемых текстов, например – предвыборных
программ политических партий. После предварительной обработки этот текст разбивается
на отдельные фрагменты, и составляется матрица «фрагмент-слово», строки которой
соответствуют фрагментам, столбцы – словам, а элемент матрицы имеет смысл количества
употреблений данного слова в данном фрагменте. Матрица подвергается специальной
математической процедуре (основой которой является так называемое сингулярное
разложение, singular value decomposition, SVD), результатом которой является новая
матрица, строки которой по-прежнему соответствуют фрагментам, а столбцы – словам
исходного единого текста.
Соотношение близости между фрагментами исходного текста понимается как
соотношение близости между векторами – строками этой новой матрицы; при этом будем
говорить о синтагматической близости фрагментов. В свою очередь, в качестве
синтагматического расстояния (меры близости между векторами) мы выбрали косинус угла
между ними.
Фактически, наша основная гипотеза заключается в том, что близость политических
позиций связана с синтагматической близостью текстов, выражающих эти позиции.
Изложенная методика была реализована нами в виде программного продукта для
персонального компьютера; с ее помощью был исследован ряд конкретных текстов.
Результаты. Один из способов представления результатов анализа – это диаграммы,
подобные изображенным на Рис.1 и Рис.2. Каждому фрагменту соответствуют одна строка и
один столбец диаграммы. Ячейка, находящаяся на пересечении, например, 10-ой строки и
45-ого столбца (так же, как ячейка 45-ой строки и 10-ого столбца) описывает степень
синтагматической близости 10-ого и 45-ого фрагментов. При этом, чем более близкими
синтагматически близкими являются два фрагмента, тем более темным цветом закрашена
ячейка.
На Рис.1 фрагменты 1-52 принадлежат программе Единой России, 53-107 –
программе партии «Яблоко». Темный квадрат, составленный из строк и столбцов 1-53,
свидетельствует о высокой синтагматической близости этих фрагментов, и в соответствии с
нашей гипотезой – о близости высказанных в этих фрагментах политических позиций.
Заметим, что фрагмент 53 оказался близок не к программе Яблока (которой он
принадлежит), а программе Единой России. Причина, видимо, заключается в том, что
первый абзац программы Яблока – это преамбула, в которой, в целом, признаются
достижения путинского периода. В том же время, текст остальных фрагментов программы
Яблока выдержан в
критическом духе, вследствие чего эти фрагменты оказались
синтагматически далекими от фрагментов 1-53 (и близкими друг к другу). Более подробный
анализ диаграммы, представленной на Рис.1, выходит за рамки настоящей работы.
Рис.1
Рис.2
В качестве другого примера рассмотрим Рис.2, составленный на основе анализа
записей двух блогеров Ш и Б, первый из которых известен как либеральный публицист,
колумнист сайта Грани.Ру, а второй – как сотрудник аппарата Молодой гвардии Единой
России. Подписи вида Ш1 или Б2 означают, соответственно, первую запись блогера Ш, и
вторую запись блогера Б. Диаграмма показывает, что три рассмотренных записи блогера Ш
выражают более целостную позицию, хотя тематика этих записей была совершенно
различной (сериал «Школа», Россия и мир, российская политика в отношении Украины).
Записи блогера Б также посвящены различным вопросам (заседание Госсовета, милиция и
журналисты, блоги губернаторов), и вероятно, в большей степени являются «текстами на
разные темы», чем «текстами с общей платформой». При этом запись Б1 оказалась
синтагматически более близкой к блогеру Ш, чем к другим записям блогера Б. Вероятно, это
связано с несколько ироничным стилем записи (речь идет о выступлениях С.Митрохина,
В.Жириновского и Г.Зюганова на заседании Госсовета), контрастирующей с более
серьезным стилем записей Б2 и Б3.
В целом, результаты многочисленных экспериментов показывают, что предлагаемая
методика действительно позволяет выявлять близость заявленных в текстах политических
позиций. При этом результаты являются тем более качественными, чем более стилистически
схожими являются рассматриваемые тексты.
Download