Е.С. Котырло СОЦИАЛЬНЫЕ СЕТИ: О ЧЕМ И КОМУ ПИШУТ ИХ ПОЛЬЗОВАТЕЛИ? МЕТОДОЛОГИЯ АНАЛИЗА Котырло Е.С. – доктор экономических наук, профессор кафедры региональной экономики и географии РУДН. E-mail: kotyrlo@mail.ru Доступность Интернет (табл. 1) и рост популярности социальных сетей позволяют рассматривать социальные сети как новый источник данных в маркетинге, политических исследованиях и других сферах деятельности. 48% пользователей Интернет являются пользователями социальных сетей (www.statista.com). Методология анализа социальных сетей находится в стадии формирования как и исследование пределов его возможностей. Изучение пользователей и сообществ, сегментация акторов на основе проявляемых интересов и характера внутрисетевого взаимодействия – это те уникальные возможности, которые предоставляют соцсети. Ниже представлен подход, который, на наш взгляд, помогает проиллюстрировать перспективы использования данных социальных сетей в решении коммерческих и управленческих задач. В качестве предмета анализа может выступать бренд, политик, компания, товар и т.д. Для соблюдения коммерческой тайны предмет анализа не может быть связан с представленными в статье результатами и называется далее «Интерес пользователей». Тем не менее представленные результаты позволяют продемонстрировать структуру методологии и ее возможности в исследовании социальных сетей. Таблица 1 – Пользователи Интернет и социальных сетей в России Доля пользователей Интернет во взрослом населении* Число пользователей социальных сетей (млн. чел.)** 2006 2007 2008 2009 2010 2011 2012 2013 2014 18 24,7 26,8 29 43 49,0 63,8 68,0 70,5 65,5 69,2 2015 72,4 Источник: *World Bank. http://data.worldbank.org/indicator/IT.NET.USER.P2 ** Number of social network users in Russia from 2013 to 2019 (in millions) http://www.statista.com/statistics/278410/number-of-social-network-users-in-russia/ Методология состоит из двух составляющих: анализа контента, то есть того, о чем пишут пользователи, и анализа структуры социальных сетей, то есть построения и анализа социальных графов, сегментации пользователей и исследования особенностей их взаимодействия в сети. Как правило, специальные средства анализа фокусируются на одной из этих частей. Таким образом, исследовательский вклад состоит в их объединении. 2 Проведенное модельное исследование охватывает 800 участников одной из популярных социальных сетей, проживающих в 150 городах, объединенных общим «Интересом пользователей». Анализ охватывает 2010-2015 гг. Пользователи, являясь членами различных групп, получали рассылку от 50 тыс. сообществ, имели 150 тыс. друзей и разместили на своих страницах почти 3 млн собщений. Исследование выполнено в статистическом пакете R. Контент-анализ социальных медиа или анализ упоминания слов и словосочетаний позволяет выявить темы, интересующие пользователей из сотен и тысяч страниц текста. Для этого разработаны специальные программные средства. Статистические программы, находязиеся в открытом доступе, например, Python, R также содержат пакеты text mining, которые позволяют провести такой анализ (подробнее, например, Feinerer, 2015). Полученные частотные характеристики вхождения слов позволяют установить темы, популярные среди отобранных пользователей, а затем сопоставить маркеры сообщениям пользователей, служащих единицей анализа: 1 – есть слово или целая тема, скомпонованная по ключевым словам, 0 – нет. Каждая из выделенных тем дополняется синонимическим рядом. Проведенное с помощью маркеров структурирование сообщений позволяет далее перейти к традиционным методам статистической обработки данных. Для каждого участника выборки проводится частотный анализ сообщений на содержание слов и словоформ, характерных той или иной теме (табл. 2). Таблица 2 – Количество сообщений по группам интересов Тема Всего Тема1 – Интерес пользователя Тема2 Тема 3 Тема 4 Тема 5 Тема 6 ... Медиана Максимальное Всего количество сообщений сообщений на одного пользователя Все Женщины Мужчины 800 85 900 165 210 8 116330 80183 2637599 1148038 2 1 3 1 40 4 2 3 1 40 0 0 4 1 14 750 390 11571 7546 6452 12260 1960 40535 23922 166337 Благодаря этому можно получить характеристики распределения сообщений по пользователям и темам, установить профили пользователей как совокупности устойчивых интересов и социально-демографических характеристик с помощью корреляционного, регрессионного, кластерного анализа и т.д. Вкупе с метриками 3 сообщения, пользователя и групп, в которых пользователь подписан, они дают возможность понять какова динамика интереса к той или иной теме, кто (возраст, пол, география, семейное положение) в наибольшей степени интересуется темой, как транслируется информация. Например, можно показать, насколько медиа поле интересуется товарными свойствами вообще и конкретным брендом (политиком) в частности, выявить скрытые PR акции конкурирующего «Интереса пользователей». По динамике упоминания ключевых слов можно понять проявлялся ли интерес к объекту в течение долгого времени или появился внезапно, ситуативно; переключился ли интерес с какого-то другого бренда, оценить регулярность интереса к объекту по частоте сообщений в единицу времени и т.д. (рис. 1). Кластерный и регрессионный анализ позволяют установить профили пользователей и разбить их на сегменты, которые помогут провести сфокусированное продвижение товара или бренда. Анализ структуры социальных сетей дает возможность понять как транслируется информация. Он предполагает исследование взаимодействия пользователей между собой. В R такой анализ реализуется в паакетах sna, statnet, network и др. В частности, можно сделать качественные и количественные выводы об эффективности передачи и распространения информации в социальных сообществах, сравнить их между собой, как информационные каналы. Помимо общих характеристик социальной сети, таких как ее плотность, центральность и пр., метрики, определяющие статус в сети отдельных пользователей, могут быть включены в качестве характиристик для их кластеризации. Таким образом, к социально-демографическим характеристикам анализ соцсетей позволяет добавить вектор интересов пользователя и его потенциал в продвижении идей, товаров, брендов. 350 300 250 200 150 100 50 10/2010 12/2010 2/2011 4/2011 6/2011 8/2011 10/2011 12/2011 2/2012 4/2012 6/2012 8/2012 10/2012 12/2012 2/2013 4/2013 6/2013 8/2013 10/2013 12/2013 2/2014 4/2014 6/2014 8/2014 10/2014 12/2014 2/2015 4/2015 6/2015 0 Рисунок 1 – Динамика количества сообщений с упоминаниями двух конкурирующих брендов Индексы центральности могут быть рассчитаны для графа в целом и для пользователя в отдельности. Неравноправность акторов по получению и передаче информации характеризуется следующими показателями. Ориентированность характеризует наличие направленности информации от источника к получателю. Социальная сеть может быть неориентированной, если источник и приемник 4 равноправны. Иерархичность отражает долю акторов, которые являются только источниками. Возможности обмена информацией характеризуется отношением числа имеющихся прямых связей к числу потенциально возможных прямых связей – плотность графа. Высокая плотность связей указывает на то, что между пользователями ведется активное общение. Связность подразумевает существование пути между двумя акторами через какое-либо число посредников. Транзитивность характеризует взаимосвязи между акторами через одного посредника. Эффективность позволяет оценить неизбыточность связей. Чем ближе этот показатель к единице, тем более эффективна сеть. Среднее число путей из одной вершины в другую через различные возможные варианты может служить показателем диаметра сети. Центральные вершины сети – это наиболее популярные акторы. Наибольшей центральностью обладает тот актор, который связан с максимально большим количеством акторов – степень. Наиболее центральным в смысле близости является актор, от которого путь ко всем остальным акторам группы минимален. Посредничество характеризует центральность по числу контактов, обеспечивающих обмен информации между другими акторами при участии данного. Доминирование одного пользователя и низкая плотность сети свидетельствуют об использовании сети скорее, как механизма направленной трансляции информации, чем в качестве форума, где пользователи равноправны. Рис. 2 иллюстрирует, как можно комплексно визуализировать и оценить характеристики пользователя соцсети. Узлы – это акторы, ребра – контакты (друг, подписчик группы). Цветом можно показать пол пользователя (возраст, географию, образование). Число сообщений данного актора по исследуемой теме можно показать размером узла, а количеством вершин узла – его положение в сети, например, соответствующее значение собственного вектора центральности в сети (подробнее в Butts 2014). Рисунок 2 – Взаимодействие пользователей в сети Рис. 3 отражает распределение участников по территоррии России. На нем хорошо видно, что несмотря на возможности поддерживать контакты через Интернет 5 со всем миром, большая часть общающихся через сети пользователей проживает в относительной близости друг к другу (в одном федеральном округе). Анализ положения, занимаемого в сети пользователями, размещающими информацию об «Интересе пользователя», свидетельствует о том, что это либо участники с большим, хотя и не наибольшим, числом контактов (табл. 3) и возможностью распространения информации, либо их друзья. Они объединены в общий кластер по признаку близости, то есть имеют возможности обмена информацией. С помощью кластерного и регрессионного анализа можно проверить гипотезы о том, как «Интерес пользователя» определяется интересом к другим темам, влияет ли пол на это распределение, существенно ли географическое распределение пользователей, важно ли положение пользователя в социальной сети в распространении информации о ключевой теме. Рисунок 3 – География пользователей. Размер точки – число сообщений по исследуемой теме данного актора. Цвет – регистрация в федеральном округе. Таблица 3 – Характеристики положения в социальной сети для наиболее активных пользователей Идент ифика тор пользо вателя Числ о прям ых конт актов Посре дничес тво Собс твен ный векто р Число контакт ов через одного посредн ика Число контакт ов через двух посредн иков id1 35 4716 0,30 51 417 id2 6 588 0,02 9 id3 15 3883 0,03 id4 3 0 0,00 121 44996 0,30 Макси Число контакт ов через трех посредн иков Класт ер по близос ти друг к другу 4600 Число контак тов через пять посредн иков 47552 Число сообще ние по ключев ой теме 1 504 8 34 297 1 54 21 49 327 1926 1 227 4 3 5 7 1 27 171 501 5749 59437 35 504 6 мум Медиа на 3 0 0,00 4 0 0 0 1 0 Табл. 4 иллюстрирует возможности регрессионного анализа как комплексной оценки интересов пользователя, его социально-демографических характеристик и положения в сети как факторов, определяющих интерес к теме, бренду и т.д. Предполагается, что исследуемый интерес – это новый интерес, а другие темы – долговременные предпочтения пользователя. В частности, по значимости оценок параметров регрессии можно установить является ли тот или иной интерес ассоциированным с «Интересом пользователя» и насколько такая взаимосвязь существенна, принимая во внимание широкий спектр возможных интересов. Представленный результат показывает, что чем выше у пользователя статус в сети, тем больше он транслирует сообщений по теме «Интерес пользователя». Под статусом в данном случае выступает комплексная оценка количества контаков, посредничества и близости (собственный вектор). Среди двадцати тем только пять связаны с «Интересом пользователя», причем один из них обратной связью. Возможно, это интересконкурент. Таблица 4 – Регрессионный анализ взаимосвязи между интересом к ключевой теме для исследования и другими темами с учетом пола, статуса в сети и региона Показатели Пол Положение в сети Количество сообщений по теме 1 Количество сообщений по теме 2 Количество сообщений по теме 3 Количество сообщений по теме 4 Количество сообщений по теме 5 ... Количество сообщений по теме 20 Регион 1 Коэффициент ыи стандартные отклонения Влияет на интерес к ключевой теме -0,017 (0,111) 2,772*** (0,795) 0,223*** (0,033) 1,013*** (0,069) 0,140** (0,067) -0,131** (0,056) 0,007 (0,088) Нет -0,014 (0,071) -0,162 (0,219) Нет 0,149 (0,161) Нет Характер влияния Коэффициен т эластичност и Доверительна я вероятность Да Положительно 2,961 99% Да Положительно 0,138 99% Да Положительно 1,025 99% Да Положительно 0,120 95% Да Отрицательно -0,107 95% Нет Нет ... Регион 10 Примечание: Анализ включает характеристики 380 пользователей. R2=0,68, R2adjusted=0,65. Статистическая значимость **p<0.05; ***p<0.01. В скобках указаны стандартные отклонения коэффициентов. Количество сообщений по теме представлено в оценке в форме log(x+1). Коэффициент эластиности показывает на сколько в среднем меняется число сообщений по теме «Интерес пользователя» при изменении значения показателя на 1%. 7 Дополнительным инструментом анализа социальных медиа служит кластеризация, с помощью которой можно понять механизмы взаимодействия, создания и пополнения тематических групп в социальных сетях, оценить роль отдельных акторов в формировании тематических кластеров. Характер трансляции информации можно установить по общим характеристикам сети как социального графа и дополнить их сведениями о количестве сообщений по той или иной теме. Успешно можно применить такие популярные в экономике измерения неравенства по доходам и его концентрации как индекс Джини и кривую Лоренца. Возможность применения показателей концентрации для социальных сетей обоснована в (Kelly, 2012). В случае с передачей информации в сети, эти показатели демонстрируют, насколько равноправны пользователи в распространении информации. Те темы, которые анализировались, имеют высокие коэффициенты Джини (более 0,7), что, возможно, свидетельствует о незрелости сети. Примерная интерпретация коэффициента следующая: «небольшое число участников соцсетей (10%) играет ключевую роль в распространении информации, передавая 70-80% сообщений». Максимальное количество соообщений одного участника по теме «Интерес пользователя» достигает 80 тыс. (табл. 2). Несмотря на широкие возможности использования информации о том, что и кому пишут пользователи социальных сетей, существуют ограничения, которые накладывают на выводы исследования некоторые рамки условности. В отличие от опросов, располагаемые данные регистрируют не ответ пользователя на поставленный вопрос, а некоторое поведение. При этом вряд ли можно установить причинноследственную связь почему было написано сообщение по некоторой теме и продиктовано ли это другими интересами пользователя. Нельзя достоверно сказать, было ли сообщение прочитано другими пользователями. Заходы на страницу с сообщением и лайки могут лишь приблизительно показать интерес к нему. Очень важный момент - это отбор тем и соответствующих им слов по результатам контентанализа. Любой язык, в том числе русский, богат синонимами и омонимами, к тому же продолжает непрерывно изменяться. Поэтому ошибочная ассоциация слова с той или иной темой может существенно исказить интерпретацию исследуемых взаимосвязей. Литература: Butts C.T. (2014) Tools for Social Network Analysis Package ‘sna’ Version 2.3-2. – http://www.statnet.org Feinerer I. (2015) Introduction to the tm Package Text Mining in R – cran.rproject.org/web/packages/tm/vignettes/tm.pdf. Kelly G. (2012) Gini Coefficients, social network analysis and Markov Chains: Quantitative methods for analyzing the distribution of benefits in natural resource dependent communities. Simon Fraser University. Project 538. mimeo. 8 World Bank. http://data.worldbank.org/indicator/IT.NET.USER.P2 Number of social network users in Russia. www.statista.com