Входной информацией для ЛСА является единый текст

Исследование близости политических позиций методом латентно-семантического анализа А.П.Петров1,2, Е.Д.Корнилина1 1 Институт прикладной математики им. М.В.Келдыша РАН 2 МГУ им. М.В.Ломоносова, Социологический ф-т [email protected], [email protected] Введение. В настоящем докладе представлена методика определения близости политических позиций, заявленных в таких текстах, как предвыборные программы партий, выступления политических деятелей, записи в блогах и пр. Основой предлагаемой методики является латентно-семантический анализ (ЛСА), разработанный группой американских ученых в 1988 году, и представляющий собой реализуемый на современных вычислительных средствах метод анализа текстов естественного языка (см., напр., [Landauer et al, 1998]). Основной сферой применения ЛСА являются задачи интеллектуального поиска. Среди других приложений отметим эпизодические исследования произведений художественной литературы [Nakov, 2001a, 2001b, 2001c]. Работы, использующие ЛСА в целях политического анализа, нам неизвестны. В качестве примеров применения предлагаемой методики проанализированы предвыборные программы политических партий, принимавших участие в выборах в Государственную Думу V созыва в 2007 году, а также политические блоги некоторых пользователей Живого Журнала. Показано, в частности, что позиции, заявленные в программах Единой России и КПРФ близки друг к другу в большей степени, чем каждая из них близка с позицией, заявленной в программе партии «Яблоко». При этом выявлено, что программах некоторых партий можно выделить относительно слабо связанные части, каждая из которых обладает высокой связностью в том смысле, что входящие в одну и ту же часть фрагменты текста близки друг к другу, а фрагменты из разных частей относительно далеки друг от друга. Политические блоги являются сравнительно новым феноменом, полностью обязанным своим появлением так называемому Web 2.0, более точно - принципу наполнения веб-сайтов самими пользователями. Возникающие при этом коммуникации несут определенные черты как межличностных, так и массовых коммуникаций. Хотя доля политизированных пользователей в Интернете не очень велика, их значение трудно переоценить. Ограничиваясь лишь самыми явными примерами, укажем на высокую роль политических блогеров, и более широко – Интернет-пользователей в президентской компании Б.Обамы (как в плане формирования дискуссии, так и в плане фандрайзинга) [Асадова, 2000], и череду непрекращающихся Твиттер-революций (начиная, вероятно, с апрельских событий 2009 года Молдавии). Как сама политическая блогосфера, так и изучающая ее область науки находятся на раннем этапе развития. В нашей работе предлагаемая методика применяется для определения близости политических позиций, высказанных в записях блогеров Живого Журнала. Показано, что, как правило, близкими (синтагматически близкими, см. далее) друг к другу являются записи блогеров, выражающих близкие в общеупотребительном смысле политические позиции. Возможные применения предлагаемой методики включают в себя, в частности, изучение такого вопроса, как изменение соотношений близости между позициями партий с течением времени. Описание методики. ЛСА основан на «гипотезе о том, что между отдельными словами и обобщенным контекстом (предложениями, абзацами и целыми текстами), в которых они встречаются, существуют неявные (латентные) взаимосвязи, обуславливающие совокупность взаимных ограничений» [Митрофанова, 2005]. Наше предположение состоит в том, что данные взаимосвязи являются различными в текстах, выражающих различные политические позиции. Так, нетрудно представить себе, что фамилия политического деятеля употребляется, как правило, в положительном контексте его сторонниками, и в негативном – противниками. Это относится не только к фамилиям и названиям партий, но также к отдельным политическим событиям, проектам и т.д. Тем самым, выражающие политические позиции тексты могут быть классифицированы путем выделения контекста, в который эти тексты погружают отдельные слова. Вероятно, возможности ЛСА еще шире – как свидетельствуют наши эксперименты, не обязательно сравнивать различные тексты, посвященные одному и тому же узкому, локализованному вопросу. Например, при сопоставлении партийных программ нет необходимости сравнивать отдельно экономические разделы программ, отдельно – армейский вопрос и т.д. Различия между партийными программами оказываются достаточно явными и при сравнении программ «в целом». Наш оптимизм основан на известных результатах [Nakov, 2001a, 2001b, 2001c], свидетельствующих о том, что ЛСА способен улавливать довольно тонкие особенности текста – например, различия между произведениями Пушкина, Гоголя и Булгакова, различия между отдельными произведениями Гоголя и пр. Контекст, в понимании ЛСА – это слова, близкие к данному слову по расположению в тексте. Более конкретно: исследуемый текст в целях проведения анализа нарезается на фрагменты, и контекст образуется всеми словами, входящими в один фрагмент с данным. Далее, ЛСА устанавливает для каждых двух фрагментов меру их близости, которую мы называем синтагматической близостью. Фактически, наша основная гипотеза заключается в том, что близость политических позиций связана с синтагматической близостью текстов (фрагментов, образующих тексты), выражающих эти позиции. Остановимся более подробно на технологии ЛСА, точнее его варианта, реализованного в нашей работе. Входной информацией для ЛСА является единый текст, скомпонованный из последовательно расположенных анализируемых текстов, например – предвыборных программ политических партий. В ходе предварительной обработки из этого текста изымаются так называемые стоп-слова (местоимения, предлоги, слова «конечно», «возможно», и пр.), а также слова, встречающиеся в нем лишь один раз. После предварительной обработки текст разбивается на отдельные фрагменты, и составляется матрица «фрагмент-слово», строки которой соответствуют фрагментам, столбцы – словам, а элемент матрицы имеет смысл количества употреблений данного слова в данном фрагменте. Заметим, что в анализе данных ее, как правило, называют матрицей «документ-терм» (в ранних работах, напр. [Landauer et al, 1998] – «word by context»), однако, имея в виду политологические приложения, мы предпочитаем избегать применения слова «документ» в смысле, отличном от «партийный документ», «закон» и т.д. Типичная размерность матрицы составляет, например, при попарном анализе партийных программ, немногим более 100 строк (при разбиении на фрагменты длиной несколько десятков слов) и несколько тысяч столбцов (количество различных слов, встречающихся более одного раза в текстах программ двух партий, за вычетом стоп-слов). Матрица построчно нормируется на энтропию, и затем подвергается специальной математической процедуре, состоящей из (а) ее декомпозиции, сингулярного разложения (singular value decomposition, SVD), (б) обнуления младших сингулярных значений, (в) композиции, т.е. перемножения матриц – множителей. Результатом является новая матрица, строки которой по-прежнему соответствуют фрагментам, а столбцы – словам исходного единого текста. Суть данной математической процедуры можно пояснить на основе информационного подхода. Содержащаяся в том или ином сигнале (например, радиосигнале) полезная информация бывает, как правило, загрязнена шумом. Очистка сигнала проводится на основе предположения о том, что этот шум существенно слабее полезной информации. Проводится разложение сигнала по базису в некотором пространстве, затем малые компоненты отождествляются с шумом и обнуляются. Оставшиеся компоненты агрегируются в сигнал, который оказывается близким к изначальному, но очищенным от шума. С точки зрения данного подхода, ЛСА рассматривает матрицу «фрагмент-слово» как сигнал, а указанную математическую процедуру – как очистку этого сигнала от шума. Таким образом, новая матрица содержит в себе связи между различными фрагментами текста (анализ «фрагмент-фрагмент»), между различными словами (анализ «словослово»), и между фрагментами и словами (анализ из «фрагмент-слово»), в значительной мере очищенные от статистического шума. Соотношение близости между фрагментами исходного текста понимается как соотношение близости между векторами – строками этой новой матрицы; при этом будем говорить о синтагматической близости фрагментов. В свою очередь, в качестве синтагматического расстояния (меры близости между векторами) мы выбрали косинус угла между ними. Изложенная методика была реализована нами в виде программного продукта; с ее помощью был исследован ряд конкретных текстов. Отметим, что анализ «фрагмент-фрагмент» не исчерпывает возможностей ЛСА в вопросе определения близости высказанных в текстах политических позиций. Представляет интерес, например, анализ «слово-слово», проведенный раздельно для различных текстов. Можно ожидать, что слова, синтагматически близкие в одном тексте, окажутся не близкими в другом (например, фамилия политического деятеля и слово «коррупция» будут близки лишь в текстах, написанных оппонентами этого политика). Результаты исследования предвыборных программ политических партий. Одним из способов представления результатов анализа являются диаграммы, подобные изображенным на Рис.1 и Рис.2. Каждому фрагменту соответствуют одна строка и один столбец диаграммы. Ячейка, находящаяся на пересечении, например, 10-ой строки и 45ого столбца (так же, как ячейка 45-ой строки и 10-ого столбца) описывает степень синтагматической близости 10-ого и 45-ого фрагментов. При этом, чем более синтагматически близкими являются два фрагмента, тем более темным цветом закрашена ячейка. На Рис.1 фрагменты 1-52 принадлежат программе Единой России, фрагменты 53107 – программе партии «Яблоко». Темный квадрат, составленный из строк и столбцов 153, свидетельствует о высокой синтагматической близости этих фрагментов, и в соответствии с нашей гипотезой – о близости высказанных в этих фрагментах политических позиций. Заметим, что фрагмент 53 оказался близок не к программе Яблока (которой он принадлежит), а программе Единой России. Причина, видимо, заключается в том, что первый абзац программы Яблока – это преамбула, в которой, в целом, признаются достижения путинского периода. В том же время, текст остальных фрагментов программы Яблока выдержан в критическом духе, вследствие чего эти фрагменты оказались синтагматически далекими от фрагментов 1-53 (и близкими друг к другу). Более подробный анализ диаграммы, представленной на Рис.1, выходит за рамки настоящей работы. Рис.1 Результаты исследования записей политических блогеров. В качестве материала для исследования были выбраны записи двух активных пользователей Живого Журнала - блогеров Ш и Б, первый из которых известен как либеральный публицист, колумнист сайта Грани.Ру, а второй – как активист сотрудник аппарата Молодой гвардии Единой России. На Рис.2 подписи вида Ш1 или Б2 означают, соответственно, первую запись блогера Ш, и вторую запись блогера Б. Диаграмма показывает, что три рассмотренных записи блогера Ш синтагматически достаточно близки друг к другу. Как мы полагаем, что это связано с тем, что они выражают достаточно целостную позицию, хотя тематика этих записей была совершенно различной (сериал «Школа», Россия и мир, российская политика в отношении Украины). Записи блогера Б также посвящены различным вопросам (заседание Госсовета, отношения милиции и журналистов, блоги губернаторов), и как показывает Рис.2, синтагматически далеки друг от друга. Вероятно, они в большей степени являются «текстами на разные темы», чем «текстами с общей платформой». При этом запись Б1 оказалась синтагматически более близкой к записям блогера Ш, чем к другим записям блогера Б. Вероятно, это связано с несколько ироничным стилем записи (речь идет о выступлениях С.Митрохина, В.Жириновского и Г.Зюганова на заседании Госсовета), контрастирующей с более серьезным стилем записей Б2 и Б3. Рис.2 В целом, результаты многочисленных экспериментов показывают, что предлагаемая методика действительно позволяет выявлять близость заявленных в текстах политических позиций. При этом результаты являются тем более качественными, чем более стилистически схожими являются рассматриваемые тексты. Работа выполнена при поддержке РФФИ (проект 10-01-00332-а). Список литературы T. Landauer, P.W. Foltz, D. Laham. Introduction to Latent Semantic Analysis. Discourse Processes 25: 259–284 (1998). Nakov P. Latent Semantic Analysis for German literature investigation. // Proceedings of the 7th Fuzzy Days'01, International Conference on Computational Intelligence. B. Reusch (Ed.): LNCS 2206. pp. 834-641. Dortmund, Germany. October 1-3, 2001a. Nakov P. Latent Semantic Analysis for Bulgarian Literature. In Proceedings of the Spring Conference of Bulgarian Mathematicians Union. pp. 279-284. Borovetz, Bulgaria. 2001b. Nakov P. Latent Semantic Analysis for Russian literature investigation. In Proceedings of the Naval Scientific Forum, vol. 4 (Mechanical Engineering and Mathematics. Information Technology), pp. 292-299. Varna, Bulgaria. 2001c. Асадова Н. Обама_президент.com // F5, с.8-9, №00 (02.02.09-22.02.09), 2009. Митрофанова О.А. Семантические расстояния: проблемы и перспективы // XXXIV Международная филологическая конференция: Вып. 21. Прикладная и математическая лингвистика. СПб., 2005.

Входной информацией для ЛСА является единый текст

Похожие документы

Разделы

Поддержка

Входной информацией для ЛСА является единый текст

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib