Возможно ли изучение психических состояний при помощи анализа коротких текстовых сообщений?

Возможно ли изучение психических состояний при помощи анализа коротких текстовых сообщений? Аннотация исследования Контент-анализ сообщений в Твиттер является сравнительно новым подходом в сборе данных, который благодаря успехам в области математической обработки текстов на естественном языке, привлекает к себе внимание исследователей. Однако для применения данного подхода в экономике, менеджменте и других областях знания необходимо проведение исследования валидности использования контент-анализа сообщений в качестве методики выявления психического состояния. Данные предоставляемые пользователями в Интернет являются одним из интереснейших источников информации. Анализируя данные о запросах в Google, Чой и Вариан смогли оценить заболеваемость гриппом и получить результаты сопоставимые с данными официальной статистики в США (Choi, H., Varian, H. 2009). Аналогичные результаты были получены Пауле и Дрезде, которые провели контент-анализ сообщений пользователей Твиттер с помощью тематической модели аспектов болезни (Ailment Topic Aspect Model). Корреляция с официальными данными центров по контролю болезней и профилактике США (Сenters fo Disease Control and Prevention) составила 0.966. О’Коннор и его коллеги из университета Карнеги Меллон изучая отношение к политикам и уровень доверия потребителей отметили высокий уровень корреляции (0.8) между результатами опросов общественного мнения и результатами анализа сообщений в Твиттер (O'Connor et al., 2010). Азур и Хаберман, используя данные в Твиттер, смогли предсказать кассовые доходы фильмов (Asur and Huberman 2010). Стоит отметить, что были сделаны также попытки не только изучения мнений, но и мониторинга настроений. Миславе совместно с коллегами опубликовал результаты анализа настроений – «Пульс нации - США» (http://www.ccs.neu.edu/home/amislove/twittermood/). Боллен и его соавторы, сумели повысить точность прогноза индекса Доу Джонса за счет контент-анализа сообщений в Твиттер и выявления эмоциональных состояний пользователей (Bollen et al., 2010). Однако, несмотря на впечатляющие результаты, полученные исследователями, анализирующими сообщения пользователей Интернет, нельзя с уверенностью судить о возможности валидной оценки психических состояний по тональности высказываний. Наше исследование направлено на восполнение данного пробела. В ходе проекта, мы планируем разработать методику контент-анализа сообщений в Твиттере для оценки психических состояний пользователей Интернет и провести изучение ее валидности. Мы предполагаем, что разработанная методика позволит различать психические состояния респондентов и данные, получаемые с ее помощью, будут коррелировать с результатами, полученными с помощью других психологических методик. Контент-анализ сообщений направлен на выявление объекта сообщения, его эмоциональной составляющей, полярности и интенсивности. Для решения задач по контент-анализу использованы методы и алгоритмы математической лингвистики и машинного обучения. Разработанная методика анализа психических состояний может быть использована для решения широкого круга задач: изучение динамики настроений и эмоций пользователей Интернет; исследование возможности предсказания российского фондового рынка; изучение психических состояний сотрудников компаний и т.д. В исследованиях Твиттер и других социальных медиа для изучения настроения и эмоциональных состояний применяются методы автоматической обработки текста, однако их психологическая валидность не доказана ни в одном исследовании. В связи с этим, исследование будет посвящено проблеме оценке валидности использования методов анализа тональностей сообщений на естественном языке (контент анализа) для выявления психологических состояний. Основные гипотезы: 1. Результаты, получаемые с помощью методики оценки психических состояний коррелируют с результатами, получаемые по другим методикам (конструктная валидность) 2. Разработанная методика позволяет различать психические состояния респондентов, вызванные условиями проведения эксперимента (совпадающая валидность) В ходе разработки методики контент-анализа с использованием данных загруженных из Живого Журнала использована классическая схема автоматического анализа текстов (обучение с учителем). Загружены тексты из Живого Журнала для которых авторы указали свое состояние (более 80000 сообщений). Созданная таким образом база данных разбита на два набора - обучающий и тестирующий (случайным образом, в соотношении 90%-10%). Обучающий набор использован для определения параметров алгоритмов машинного обучения (нейронные сети, метод опорных векторов и т.д.) при которых они наиболее качественно классифицируют сообщения обучающей выборки. Тестирующий набор использован для проверки работы алгоритмов с заданными параметрами на новых данных. По результатам тестирования будет определены параметры алгоритма наиболее качественно классифицирующие сообщения (определяющего эмоции автора текста по его содержанию). Отдельный алгоритм будет построен для каждой из 6 базовых эмоций. Сбор и анализ текстовых данных осуществлялся с помощью программ на языке Python. Вычисления и обработка данных проводились в свободно распространяемых пакетах RapidMiner, R.

Возможно ли изучение психических состояний при помощи анализа коротких текстовых сообщений?

Похожие документы

Разделы

Поддержка

Возможно ли изучение психических состояний при помощи анализа коротких текстовых сообщений?

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib