Возможно ли изучение психических состояний при помощи

Возможно ли изучение психических состояний при помощи анализа коротких текстовых сообщений? Контент-анализ сообщений публикуемых в Интернет является сравнительно новым подходом в сборе данных, который благодаря успехам в области математической обработки текстов на естественном языке, привлекает к себе внимание исследователей. Однако для применения данного подхода в экономике, менеджменте и других областях знания необходимо проведение исследования валидности использования контент-анализа сообщений в качестве методики выявления психического состояния. Данные предоставляемые пользователями в Интернет являются одним из интереснейших источников информации. Анализируя данные о запросах в Google, Чой и Вариан смогли оценить заболеваемость гриппом и получить результаты сопоставимые с данными официальной статистики в США (Choi, H., Varian, H. 2009). Аналогичные результаты были получены Пауле и Дрезде, которые провели контент-анализ сообщений пользователей Твиттер с помощью тематической модели аспектов болезни (Ailment Topic Aspect Model). Корреляция с официальными данными центров по контролю болезней и профилактике США (Сenters fo Disease Control and Prevention) составила 0.966. О’Коннор и его коллеги из университета Карнеги Меллон изучая отношение к политикам и уровень доверия потребителей отметили высокий уровень корреляции (0.8) между результатами опросов общественного мнения и результатами анализа сообщений в Твиттер (O'Connor et al., 2010). Азур и Хаберман, используя данные в Твиттер, смогли предсказать кассовые доходы фильмов (Asur and Huberman 2010). Стоит отметить, что были сделаны также попытки не только изучения мнений, но и мониторинга настроений. Миславе совместно с коллегами опубликовал результаты анализа настроений – «Пульс нации - США» (http://www.ccs.neu.edu/home/amislove/twittermood/). Боллен и его соавторы, сумели повысить точность прогноза индекса Доу Джонса за счет контент-анализа сообщений в Твиттер и выявления эмоциональных состояний пользователей (Bollen et al., 2010). Однако, несмотря на впечатляющие результаты, полученные исследователями, анализирующими сообщения пользователей Интернет, нельзя с уверенностью судить о возможности валидной оценки психических состояний по тональности высказываний. Вопервых это связано с тем, что анализ тональности высказывания производится на основе употребления эмоционально окрашенных слов – таких – счастье, надежда. По мнению исследователей в области анализа текстов они могут служить маркерами состояний. При этом возникает вопрос, будет ли человек писать, что он счастлив, когда он или она чувствует себя счастливым. Вторая проблема связана с методикой создания золотого стандарта, который используется для обучения и тестирования алгоритмов определения тональности сообщений. Классический подход к созданию алгоритмов выглядит следующим образом: загружается достаточно большое число сообщений (например, около 10000), потом приглашаются эксперты, которые оценивают каждое сообщение определяя тональность. Для оценки отзывов о технике или другом продукте данных подход вполне оправдан, однако его используют и для определения эмоциональной окраски сообщений, однако возможность эксперта определить эмоциональное состояние автора в момент написания текста вызывает серьезные сомнения. Наше исследование направлено на восполнение данного пробела. В ходе нашего исследования, мы использовали оценки психологических состояний данных самими авторами текстов, для чего были загружены сообщения публикуемые в Живом Журнале (LiveJournal) и имеющие пометку (тэг) – текущее настроение (Current Mood). Основные гипотезы: 1. Есть значимые различия в частоте встречаемости слов в сообщениях с разными тэгами текущего настроения. 2. Существуют слова, которые могут служить маркерами психологического состояния. Методология исследования Для сбора данных был построен список сообщений опубликованных в Живом Журнале, которые имели тэг – настроение автора, затем данные страницы сообщений были загружены в базу данных. При создании базы данных были использованы следующие ресурсы DuckDuckGo, GoogleScraper, import.io. Стоит отметить, что наш анализ был ограничен только сообщениями опубликованными на английском языке. В итоге было загружено 14800 документов. Хотя документы были промаркированных одним из 800 тэгов текущего настроения доступных пользователям Живого Журнала, стоит отметить, что большинство сообщений (60%) содержало один из 48 основных тэгов. Наиболее популярными были тэги "завершил" ("accomplished"), "веселый" ("cheerful"), "устал" (“tired”) и "позабавило" ("amused"). Облако категорий приведено на рисунке 1. Загруженные документы состояли в среднем из 420 слов. Примерное число сообщений одного автора было равно 5. Рисунок 1. Облако частот встречаемости тэгов-настроений в загруженных документах После загрузки документов была проведена подготовка: были удалены сообщения не на английском языке или содержащие только ссылки, слова были приведены к нормальному виду, убраны стоп-слов (например, предлоги) и числа. Для анализа слова были объединены с отрицанием (“not happy” стало not_happy). Повторяющие буквы были сокращены до трех (“haaaaappy” стало “haaappy”) Далее был проведен анализ частот слов, который показал, что на основе его сложно однозначно определить к какой категории относится документ. Так 15 наиболее часто встречаемых слов для 8 наиболее частых категорий приведены на рисунке 2. Рисунок 2. 15 наиболее часто встречаемых слов для 8 основных категорий отмеченных тэгами-настроениями. Для того, чтобы определить наиболее важные слова для каждой категории был использован коэффициент TF IDF (частота слова * на обратную частоту документов в которых данное слово встречается). Применение данного коэффициента позволило выявить ключеые слов для кажой категории (стоит отметить, что были отброшены именованные сущености -имена людей, бренды, места и т.д.). Во многих случаях слова подходили к категории. Так например, для слово “finally” имеет высокое значение коэфициента в категориях with "accomplished", "work" in "tired". Однако, были выявлены контр-интуитивные случаи, например слово “bed” встречается в категориях "accomplished", "bouncy", "cheerful", "busy", но отсутствует в категории "sleepy". Наиболее весомые слова в соотвествии с коэффициентом TF IDF приведены на рисунке 3. Рисунок 3. ". Наиболее весомые слова в соответствии с коэффициентом TF IDF для 8 наиболее часто встречаемых категорий Таким образом, можно отметить, что наши гипотезы 1 и 2 находят свое подтверждение. При этом, слова часто ассоциированные с данным типов настроения не всегда являются его индикатором. Мы предполагаем, что разработанная методика позволит различать психические состояния респондентов и данные, получаемые с ее помощью, будут коррелировать с результатами, полученными с помощью других психологических методик. Однако это потребует проведения дополнительных исследований.

Возможно ли изучение психических состояний при помощи

Похожие документы

Разделы

Поддержка

Возможно ли изучение психических состояний при помощи

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib