Возможно ли изучение психических состояний при помощи

advertisement
Возможно ли изучение психических состояний при помощи анализа коротких
текстовых сообщений?
Контент-анализ сообщений публикуемых в Интернет является сравнительно новым
подходом в сборе данных, который благодаря успехам в области математической
обработки текстов на естественном языке, привлекает к себе внимание исследователей.
Однако для применения данного подхода в экономике, менеджменте и других областях
знания необходимо проведение исследования валидности использования контент-анализа
сообщений в качестве методики выявления психического состояния.
Данные предоставляемые пользователями в Интернет являются одним из интереснейших
источников информации. Анализируя данные о запросах в Google, Чой и Вариан смогли
оценить заболеваемость гриппом и получить результаты сопоставимые с данными
официальной статистики в США (Choi, H., Varian, H. 2009). Аналогичные результаты
были получены Пауле и Дрезде, которые провели контент-анализ сообщений
пользователей Твиттер с помощью тематической модели аспектов болезни (Ailment Topic
Aspect Model). Корреляция с официальными данными центров по контролю болезней и
профилактике США (Сenters fo Disease Control and Prevention) составила 0.966. О’Коннор
и его коллеги из университета Карнеги Меллон изучая отношение к политикам и уровень
доверия потребителей отметили высокий уровень корреляции (0.8) между результатами
опросов общественного мнения и результатами анализа сообщений в Твиттер (O'Connor et
al., 2010). Азур и Хаберман, используя данные в Твиттер, смогли предсказать кассовые
доходы фильмов (Asur and Huberman 2010). Стоит отметить, что были сделаны также
попытки не только изучения мнений, но и мониторинга настроений. Миславе совместно с
коллегами опубликовал результаты анализа настроений – «Пульс нации - США»
(http://www.ccs.neu.edu/home/amislove/twittermood/). Боллен и его соавторы, сумели
повысить точность прогноза индекса Доу Джонса за счет контент-анализа сообщений в
Твиттер и выявления эмоциональных состояний пользователей (Bollen et al., 2010).
Однако,
несмотря
на
впечатляющие
результаты,
полученные
исследователями,
анализирующими сообщения пользователей Интернет, нельзя с уверенностью судить о
возможности валидной оценки психических состояний по тональности высказываний. Вопервых это связано с тем, что анализ тональности высказывания производится на основе
употребления эмоционально окрашенных слов – таких – счастье, надежда. По мнению
исследователей в области анализа текстов они могут служить маркерами состояний. При
этом возникает вопрос, будет ли человек писать, что он счастлив, когда он или она
чувствует себя счастливым. Вторая проблема связана с методикой создания золотого
стандарта, который используется для обучения и тестирования алгоритмов определения
тональности сообщений. Классический подход к созданию алгоритмов выглядит
следующим образом: загружается достаточно большое число сообщений (например, около
10000), потом приглашаются эксперты, которые оценивают каждое сообщение определяя
тональность. Для оценки отзывов о технике или другом продукте данных подход вполне
оправдан, однако его используют и для определения эмоциональной окраски сообщений,
однако возможность эксперта определить эмоциональное состояние автора в момент
написания текста вызывает серьезные сомнения. Наше исследование направлено на
восполнение данного пробела. В ходе нашего исследования, мы использовали оценки
психологических состояний данных самими авторами текстов, для чего были загружены
сообщения публикуемые в Живом Журнале (LiveJournal) и имеющие пометку (тэг) –
текущее настроение (Current Mood).
Основные гипотезы:
1. Есть значимые различия в частоте встречаемости слов в сообщениях с разными тэгами
текущего настроения.
2. Существуют слова, которые могут служить маркерами психологического состояния.
Методология исследования
Для сбора данных был построен список сообщений опубликованных в Живом Журнале,
которые имели тэг – настроение автора, затем данные страницы сообщений были
загружены в базу данных. При создании базы данных были использованы следующие
ресурсы DuckDuckGo, GoogleScraper, import.io. Стоит отметить, что наш анализ был
ограничен только сообщениями опубликованными на английском языке. В итоге было
загружено 14800 документов. Хотя документы были промаркированных одним из 800
тэгов текущего настроения доступных пользователям Живого Журнала, стоит отметить,
что большинство сообщений (60%) содержало один из 48 основных тэгов. Наиболее
популярными были тэги "завершил" ("accomplished"), "веселый" ("cheerful"), "устал"
(“tired”) и "позабавило" ("amused"). Облако категорий приведено на рисунке 1.
Загруженные документы состояли в среднем из 420 слов. Примерное число сообщений
одного автора было равно 5.
Рисунок 1. Облако частот встречаемости тэгов-настроений в загруженных документах
После загрузки документов была проведена подготовка: были удалены сообщения не на
английском языке или содержащие только ссылки, слова были приведены к нормальному
виду, убраны стоп-слов (например, предлоги) и числа. Для анализа слова были
объединены с отрицанием (“not happy” стало not_happy). Повторяющие буквы были
сокращены до трех (“haaaaappy” стало “haaappy”)
Далее был проведен анализ частот слов, который показал, что на основе его сложно
однозначно определить к какой категории относится документ. Так 15 наиболее часто
встречаемых слов для 8 наиболее частых категорий приведены на рисунке 2.
Рисунок 2. 15 наиболее часто встречаемых слов для 8 основных категорий отмеченных
тэгами-настроениями.
Для того, чтобы
определить наиболее важные слова для каждой категории был
использован коэффициент TF IDF (частота слова * на обратную частоту документов в
которых данное слово встречается).
Применение данного коэффициента позволило выявить ключеые слов для кажой
категории (стоит отметить, что были отброшены именованные сущености -имена людей,
бренды, места и т.д.). Во многих случаях слова подходили к категории. Так например, для
слово “finally” имеет высокое значение коэфициента в категориях with "accomplished",
"work" in "tired". Однако, были выявлены контр-интуитивные случаи, например слово
“bed” встречается в категориях "accomplished", "bouncy", "cheerful", "busy", но отсутствует
в категории "sleepy". Наиболее весомые слова в соотвествии с коэффициентом TF IDF
приведены на рисунке 3.
Рисунок 3. ". Наиболее весомые слова в соответствии с коэффициентом TF IDF для 8
наиболее часто встречаемых категорий
Таким образом, можно отметить, что наши гипотезы 1 и 2 находят свое подтверждение.
При этом, слова часто ассоциированные с данным типов настроения не всегда являются
его индикатором.
Мы предполагаем, что разработанная методика позволит различать психические
состояния респондентов и данные, получаемые с ее помощью, будут коррелировать с
результатами, полученными с помощью других психологических методик. Однако это
потребует проведения дополнительных исследований.
Download