Возможно ли изучение психических состояний при помощи анализа коротких текстовых сообщений? Контент-анализ сообщений публикуемых в Интернет является сравнительно новым подходом в сборе данных, который благодаря успехам в области математической обработки текстов на естественном языке, привлекает к себе внимание исследователей. Однако для применения данного подхода в экономике, менеджменте и других областях знания необходимо проведение исследования валидности использования контент-анализа сообщений в качестве методики выявления психического состояния. Данные предоставляемые пользователями в Интернет являются одним из интереснейших источников информации. Анализируя данные о запросах в Google, Чой и Вариан смогли оценить заболеваемость гриппом и получить результаты сопоставимые с данными официальной статистики в США (Choi, H., Varian, H. 2009). Аналогичные результаты были получены Пауле и Дрезде, которые провели контент-анализ сообщений пользователей Твиттер с помощью тематической модели аспектов болезни (Ailment Topic Aspect Model). Корреляция с официальными данными центров по контролю болезней и профилактике США (Сenters fo Disease Control and Prevention) составила 0.966. О’Коннор и его коллеги из университета Карнеги Меллон изучая отношение к политикам и уровень доверия потребителей отметили высокий уровень корреляции (0.8) между результатами опросов общественного мнения и результатами анализа сообщений в Твиттер (O'Connor et al., 2010). Азур и Хаберман, используя данные в Твиттер, смогли предсказать кассовые доходы фильмов (Asur and Huberman 2010). Стоит отметить, что были сделаны также попытки не только изучения мнений, но и мониторинга настроений. Миславе совместно с коллегами опубликовал результаты анализа настроений – «Пульс нации - США» (http://www.ccs.neu.edu/home/amislove/twittermood/). Боллен и его соавторы, сумели повысить точность прогноза индекса Доу Джонса за счет контент-анализа сообщений в Твиттер и выявления эмоциональных состояний пользователей (Bollen et al., 2010). Однако, несмотря на впечатляющие результаты, полученные исследователями, анализирующими сообщения пользователей Интернет, нельзя с уверенностью судить о возможности валидной оценки психических состояний по тональности высказываний. Вопервых это связано с тем, что анализ тональности высказывания производится на основе употребления эмоционально окрашенных слов – таких – счастье, надежда. По мнению исследователей в области анализа текстов они могут служить маркерами состояний. При этом возникает вопрос, будет ли человек писать, что он счастлив, когда он или она чувствует себя счастливым. Вторая проблема связана с методикой создания золотого стандарта, который используется для обучения и тестирования алгоритмов определения тональности сообщений. Классический подход к созданию алгоритмов выглядит следующим образом: загружается достаточно большое число сообщений (например, около 10000), потом приглашаются эксперты, которые оценивают каждое сообщение определяя тональность. Для оценки отзывов о технике или другом продукте данных подход вполне оправдан, однако его используют и для определения эмоциональной окраски сообщений, однако возможность эксперта определить эмоциональное состояние автора в момент написания текста вызывает серьезные сомнения. Наше исследование направлено на восполнение данного пробела. В ходе нашего исследования, мы использовали оценки психологических состояний данных самими авторами текстов, для чего были загружены сообщения публикуемые в Живом Журнале (LiveJournal) и имеющие пометку (тэг) – текущее настроение (Current Mood). Основные гипотезы: 1. Есть значимые различия в частоте встречаемости слов в сообщениях с разными тэгами текущего настроения. 2. Существуют слова, которые могут служить маркерами психологического состояния. Методология исследования Для сбора данных был построен список сообщений опубликованных в Живом Журнале, которые имели тэг – настроение автора, затем данные страницы сообщений были загружены в базу данных. При создании базы данных были использованы следующие ресурсы DuckDuckGo, GoogleScraper, import.io. Стоит отметить, что наш анализ был ограничен только сообщениями опубликованными на английском языке. В итоге было загружено 14800 документов. Хотя документы были промаркированных одним из 800 тэгов текущего настроения доступных пользователям Живого Журнала, стоит отметить, что большинство сообщений (60%) содержало один из 48 основных тэгов. Наиболее популярными были тэги "завершил" ("accomplished"), "веселый" ("cheerful"), "устал" (“tired”) и "позабавило" ("amused"). Облако категорий приведено на рисунке 1. Загруженные документы состояли в среднем из 420 слов. Примерное число сообщений одного автора было равно 5. Рисунок 1. Облако частот встречаемости тэгов-настроений в загруженных документах После загрузки документов была проведена подготовка: были удалены сообщения не на английском языке или содержащие только ссылки, слова были приведены к нормальному виду, убраны стоп-слов (например, предлоги) и числа. Для анализа слова были объединены с отрицанием (“not happy” стало not_happy). Повторяющие буквы были сокращены до трех (“haaaaappy” стало “haaappy”) Далее был проведен анализ частот слов, который показал, что на основе его сложно однозначно определить к какой категории относится документ. Так 15 наиболее часто встречаемых слов для 8 наиболее частых категорий приведены на рисунке 2. Рисунок 2. 15 наиболее часто встречаемых слов для 8 основных категорий отмеченных тэгами-настроениями. Для того, чтобы определить наиболее важные слова для каждой категории был использован коэффициент TF IDF (частота слова * на обратную частоту документов в которых данное слово встречается). Применение данного коэффициента позволило выявить ключеые слов для кажой категории (стоит отметить, что были отброшены именованные сущености -имена людей, бренды, места и т.д.). Во многих случаях слова подходили к категории. Так например, для слово “finally” имеет высокое значение коэфициента в категориях with "accomplished", "work" in "tired". Однако, были выявлены контр-интуитивные случаи, например слово “bed” встречается в категориях "accomplished", "bouncy", "cheerful", "busy", но отсутствует в категории "sleepy". Наиболее весомые слова в соотвествии с коэффициентом TF IDF приведены на рисунке 3. Рисунок 3. ". Наиболее весомые слова в соответствии с коэффициентом TF IDF для 8 наиболее часто встречаемых категорий Таким образом, можно отметить, что наши гипотезы 1 и 2 находят свое подтверждение. При этом, слова часто ассоциированные с данным типов настроения не всегда являются его индикатором. Мы предполагаем, что разработанная методика позволит различать психические состояния респондентов и данные, получаемые с ее помощью, будут коррелировать с результатами, полученными с помощью других психологических методик. Однако это потребует проведения дополнительных исследований.