Е.С. Котырло СОЦИАЛЬНЫЕ СЕТИ: О ЧЕМ И КОМУ ПИШУТ ИХ

advertisement
Е.С. Котырло
СОЦИАЛЬНЫЕ СЕТИ: О ЧЕМ И КОМУ ПИШУТ ИХ ПОЛЬЗОВАТЕЛИ?
МЕТОДОЛОГИЯ АНАЛИЗА
Котырло Е.С. – доктор экономических наук, профессор кафедры региональной
экономики и географии РУДН. E-mail: kotyrlo@mail.ru
Доступность Интернет (табл. 1) и рост популярности социальных сетей
позволяют рассматривать социальные сети как новый источник данных в маркетинге,
политических исследованиях и других сферах деятельности. 48% пользователей
Интернет являются пользователями социальных сетей (www.statista.com). Методология
анализа социальных сетей находится в стадии формирования как и исследование
пределов его возможностей. Изучение пользователей и сообществ, сегментация
акторов на основе проявляемых интересов и характера внутрисетевого взаимодействия
– это те уникальные возможности, которые предоставляют соцсети. Ниже представлен
подход, который, на наш взгляд, помогает проиллюстрировать перспективы
использования данных социальных сетей в решении коммерческих и управленческих
задач. В качестве предмета анализа может выступать бренд, политик, компания, товар
и т.д. Для соблюдения коммерческой тайны предмет анализа не может быть связан с
представленными в статье результатами и называется далее «Интерес пользователей».
Тем не менее представленные результаты позволяют продемонстрировать структуру
методологии и ее возможности в исследовании социальных сетей.
Таблица 1 – Пользователи Интернет и социальных сетей в России
Доля
пользователей
Интернет во
взрослом
населении*
Число
пользователей
социальных сетей
(млн. чел.)**
2006
2007
2008
2009
2010
2011
2012
2013
2014
18
24,7
26,8
29
43
49,0
63,8
68,0
70,5
65,5
69,2
2015
72,4
Источник: *World Bank. http://data.worldbank.org/indicator/IT.NET.USER.P2
** Number of social network users in Russia from 2013 to 2019 (in millions)
http://www.statista.com/statistics/278410/number-of-social-network-users-in-russia/
Методология состоит из двух составляющих: анализа контента, то есть того, о
чем пишут пользователи, и анализа структуры социальных сетей, то есть построения и
анализа социальных графов, сегментации пользователей и исследования особенностей
их взаимодействия в сети. Как правило, специальные средства анализа фокусируются
на одной из этих частей. Таким образом, исследовательский вклад состоит в их
объединении.
2
Проведенное модельное исследование охватывает 800 участников одной из
популярных социальных сетей, проживающих в 150 городах, объединенных общим
«Интересом пользователей». Анализ охватывает 2010-2015 гг. Пользователи, являясь
членами различных групп, получали рассылку от 50 тыс. сообществ, имели 150 тыс.
друзей и разместили на своих страницах почти 3 млн собщений. Исследование
выполнено в статистическом пакете R.
Контент-анализ социальных медиа или анализ упоминания слов и
словосочетаний позволяет выявить темы, интересующие пользователей из сотен и
тысяч страниц текста. Для этого разработаны специальные программные средства.
Статистические программы, находязиеся в открытом доступе, например, Python, R
также содержат пакеты text mining, которые позволяют провести такой анализ
(подробнее, например, Feinerer, 2015).
Полученные частотные характеристики вхождения слов позволяют установить
темы, популярные среди отобранных пользователей, а затем сопоставить маркеры
сообщениям пользователей, служащих единицей анализа: 1 – есть слово или целая
тема, скомпонованная по ключевым словам, 0 – нет. Каждая из выделенных тем
дополняется синонимическим рядом. Проведенное с помощью маркеров
структурирование сообщений позволяет далее перейти к традиционным методам
статистической обработки данных. Для каждого участника выборки проводится
частотный анализ сообщений на содержание слов и словоформ, характерных той или
иной теме (табл. 2).
Таблица 2 – Количество сообщений по группам интересов
Тема
Всего
Тема1 – Интерес пользователя
Тема2
Тема 3
Тема 4
Тема 5
Тема 6
...
Медиана
Максимальное
Всего
количество
сообщений
сообщений на
одного
пользователя
Все
Женщины
Мужчины
800
85
900
165
210
8
116330
80183
2637599
1148038
2
1
3
1
40
4
2
3
1
40
0
0
4
1
14
750
390
11571
7546
6452
12260
1960
40535
23922
166337
Благодаря этому можно получить характеристики распределения сообщений по
пользователям и темам, установить профили пользователей как совокупности
устойчивых интересов и социально-демографических характеристик с помощью
корреляционного, регрессионного, кластерного анализа и т.д. Вкупе с метриками
3
сообщения, пользователя и групп, в которых пользователь подписан, они дают
возможность понять какова динамика интереса к той или иной теме, кто (возраст, пол,
география, семейное положение) в наибольшей степени интересуется темой, как
транслируется информация. Например, можно показать, насколько медиа поле
интересуется товарными свойствами вообще и конкретным брендом (политиком) в
частности, выявить скрытые PR акции конкурирующего «Интереса пользователей».
По динамике упоминания ключевых слов можно понять проявлялся ли интерес к
объекту в течение долгого времени или появился внезапно, ситуативно; переключился
ли интерес с какого-то другого бренда, оценить регулярность интереса к объекту по
частоте сообщений в единицу времени и т.д. (рис. 1). Кластерный и регрессионный
анализ позволяют установить профили пользователей и разбить их на сегменты,
которые помогут провести сфокусированное продвижение товара или бренда.
Анализ структуры социальных сетей дает возможность понять как
транслируется информация. Он предполагает исследование взаимодействия
пользователей между собой. В R такой анализ реализуется в паакетах sna, statnet,
network и др. В частности, можно сделать качественные и количественные выводы об
эффективности передачи и распространения информации в социальных сообществах,
сравнить их между собой, как информационные каналы. Помимо общих характеристик
социальной сети, таких как ее плотность, центральность и пр., метрики, определяющие
статус в сети отдельных пользователей, могут быть включены в качестве
характиристик для их кластеризации. Таким образом, к социально-демографическим
характеристикам анализ соцсетей позволяет добавить вектор интересов пользователя и
его потенциал в продвижении идей, товаров, брендов.
350
300
250
200
150
100
50
10/2010
12/2010
2/2011
4/2011
6/2011
8/2011
10/2011
12/2011
2/2012
4/2012
6/2012
8/2012
10/2012
12/2012
2/2013
4/2013
6/2013
8/2013
10/2013
12/2013
2/2014
4/2014
6/2014
8/2014
10/2014
12/2014
2/2015
4/2015
6/2015
0
Рисунок 1 – Динамика количества сообщений с упоминаниями двух конкурирующих
брендов
Индексы центральности могут быть рассчитаны для графа в целом и для
пользователя в отдельности. Неравноправность акторов по получению и передаче
информации характеризуется следующими показателями. Ориентированность
характеризует наличие направленности информации от источника к получателю.
Социальная сеть может быть неориентированной, если источник и приемник
4
равноправны. Иерархичность отражает долю акторов, которые являются только
источниками. Возможности обмена информацией характеризуется отношением числа
имеющихся прямых связей к числу потенциально возможных прямых связей –
плотность графа. Высокая плотность связей указывает на то, что между
пользователями ведется активное общение. Связность подразумевает существование
пути между двумя акторами через какое-либо число посредников. Транзитивность
характеризует взаимосвязи между акторами через одного посредника. Эффективность
позволяет оценить неизбыточность связей. Чем ближе этот показатель к единице, тем
более эффективна сеть. Среднее число путей из одной вершины в другую через
различные возможные варианты может служить показателем диаметра сети.
Центральные вершины сети – это наиболее популярные акторы. Наибольшей
центральностью обладает тот актор, который связан с максимально большим
количеством акторов – степень. Наиболее центральным в смысле близости является
актор, от которого путь ко всем остальным акторам группы минимален.
Посредничество характеризует центральность по числу контактов, обеспечивающих
обмен информации между другими акторами при участии данного. Доминирование
одного пользователя и низкая плотность сети свидетельствуют об использовании сети
скорее, как механизма направленной трансляции информации, чем в качестве форума,
где пользователи равноправны.
Рис. 2 иллюстрирует, как можно комплексно визуализировать и оценить
характеристики пользователя соцсети. Узлы – это акторы, ребра – контакты (друг,
подписчик группы). Цветом можно показать пол пользователя (возраст, географию,
образование). Число сообщений данного актора по исследуемой теме можно показать
размером узла, а количеством вершин узла – его положение в сети, например,
соответствующее значение собственного вектора центральности в сети (подробнее в
Butts 2014).
Рисунок 2 – Взаимодействие пользователей в сети
Рис. 3 отражает распределение участников по территоррии России. На нем
хорошо видно, что несмотря на возможности поддерживать контакты через Интернет
5
со всем миром, большая часть общающихся через сети пользователей проживает в
относительной близости друг к другу (в одном федеральном округе).
Анализ положения, занимаемого в сети пользователями, размещающими
информацию об «Интересе пользователя», свидетельствует о том, что это либо
участники с большим, хотя и не наибольшим, числом контактов (табл. 3) и
возможностью распространения информации, либо их друзья. Они объединены в
общий кластер по признаку близости, то есть имеют возможности обмена
информацией.
С помощью кластерного и регрессионного анализа можно проверить гипотезы о
том, как «Интерес пользователя» определяется интересом к другим темам, влияет ли
пол на это распределение, существенно ли географическое распределение
пользователей, важно ли положение пользователя в социальной сети в
распространении информации о ключевой теме.
Рисунок 3 – География пользователей. Размер точки – число сообщений по
исследуемой теме данного актора. Цвет – регистрация в федеральном округе.
Таблица 3 – Характеристики положения в социальной сети для наиболее активных
пользователей
Идент
ифика
тор
пользо
вателя
Числ
о
прям
ых
конт
актов
Посре
дничес
тво
Собс
твен
ный
векто
р
Число
контакт
ов через
одного
посредн
ика
Число
контакт
ов через
двух
посредн
иков
id1
35
4716
0,30
51
417
id2
6
588
0,02
9
id3
15
3883
0,03
id4
3
0
0,00
121
44996
0,30
Макси
Число
контакт
ов через
трех
посредн
иков
Класт
ер по
близос
ти
друг к
другу
4600
Число
контак
тов
через
пять
посредн
иков
47552
Число
сообще
ние по
ключев
ой теме
1
504
8
34
297
1
54
21
49
327
1926
1
227
4
3
5
7
1
27
171
501
5749
59437
35
504
6
мум
Медиа
на
3
0
0,00
4
0
0
0
1
0
Табл. 4 иллюстрирует возможности регрессионного анализа как комплексной
оценки интересов пользователя, его социально-демографических характеристик и
положения в сети как факторов, определяющих интерес к теме, бренду и т.д.
Предполагается, что исследуемый интерес – это новый интерес, а другие темы –
долговременные предпочтения пользователя. В частности, по значимости оценок
параметров регрессии можно установить является ли тот или иной интерес
ассоциированным с «Интересом пользователя» и насколько такая взаимосвязь
существенна, принимая во внимание широкий спектр возможных интересов.
Представленный результат показывает, что чем выше у пользователя статус в сети, тем
больше он транслирует сообщений по теме «Интерес пользователя». Под статусом в
данном случае выступает комплексная оценка количества контаков, посредничества и
близости (собственный вектор). Среди двадцати тем только пять связаны с «Интересом
пользователя», причем один из них обратной связью. Возможно, это интересконкурент.
Таблица 4 – Регрессионный анализ взаимосвязи между интересом к ключевой
теме для исследования и другими темами с учетом пола, статуса в сети и региона
Показатели
Пол
Положение в сети
Количество сообщений по
теме 1
Количество сообщений по
теме 2
Количество сообщений по
теме 3
Количество сообщений по
теме 4
Количество сообщений по
теме 5
...
Количество сообщений по
теме 20
Регион 1
Коэффициент
ыи
стандартные
отклонения
Влияет на
интерес к
ключевой
теме
-0,017
(0,111)
2,772***
(0,795)
0,223***
(0,033)
1,013***
(0,069)
0,140**
(0,067)
-0,131**
(0,056)
0,007
(0,088)
Нет
-0,014
(0,071)
-0,162
(0,219)
Нет
0,149
(0,161)
Нет
Характер
влияния
Коэффициен
т
эластичност
и
Доверительна
я вероятность
Да
Положительно
2,961
99%
Да
Положительно
0,138
99%
Да
Положительно
1,025
99%
Да
Положительно
0,120
95%
Да
Отрицательно
-0,107
95%
Нет
Нет
...
Регион 10
Примечание: Анализ включает характеристики 380 пользователей. R2=0,68, R2adjusted=0,65.
Статистическая значимость **p<0.05; ***p<0.01. В скобках указаны стандартные отклонения
коэффициентов. Количество сообщений по теме представлено в оценке в форме log(x+1).
Коэффициент эластиности показывает на сколько в среднем меняется число сообщений по
теме «Интерес пользователя» при изменении значения показателя на 1%.
7
Дополнительным
инструментом
анализа
социальных
медиа
служит
кластеризация, с помощью которой можно понять механизмы взаимодействия,
создания и пополнения тематических групп в социальных сетях, оценить роль
отдельных акторов в формировании тематических кластеров.
Характер трансляции информации можно установить по общим характеристикам
сети как социального графа и дополнить их сведениями о количестве сообщений по
той или иной теме. Успешно можно применить такие популярные в экономике
измерения неравенства по доходам и его концентрации как индекс Джини и кривую
Лоренца. Возможность применения показателей концентрации для социальных сетей
обоснована в (Kelly, 2012). В случае с передачей информации в сети, эти показатели
демонстрируют, насколько равноправны пользователи в распространении информации.
Те темы, которые анализировались, имеют высокие коэффициенты Джини (более 0,7),
что, возможно, свидетельствует о незрелости сети. Примерная интерпретация
коэффициента следующая: «небольшое число участников соцсетей (10%) играет
ключевую роль в распространении информации, передавая 70-80% сообщений».
Максимальное количество соообщений одного участника по теме «Интерес
пользователя» достигает 80 тыс. (табл. 2).
Несмотря на широкие возможности использования информации о том, что и кому
пишут пользователи социальных сетей, существуют ограничения, которые
накладывают на выводы исследования некоторые рамки условности. В отличие от
опросов, располагаемые данные регистрируют не ответ пользователя на поставленный
вопрос, а некоторое поведение. При этом вряд ли можно установить причинноследственную связь почему было написано сообщение по некоторой теме и
продиктовано ли это другими интересами пользователя. Нельзя достоверно сказать,
было ли сообщение прочитано другими пользователями. Заходы на страницу с
сообщением и лайки могут лишь приблизительно показать интерес к нему. Очень
важный момент - это отбор тем и соответствующих им слов по результатам контентанализа. Любой язык, в том числе русский, богат синонимами и омонимами, к тому же
продолжает непрерывно изменяться. Поэтому ошибочная ассоциация слова с той или
иной темой может существенно исказить интерпретацию исследуемых взаимосвязей.
Литература:
Butts C.T. (2014) Tools for Social Network Analysis Package ‘sna’ Version 2.3-2. –
http://www.statnet.org
Feinerer I. (2015) Introduction to the tm Package Text Mining in R – cran.rproject.org/web/packages/tm/vignettes/tm.pdf.
Kelly G. (2012) Gini Coefficients, social network analysis and Markov Chains: Quantitative
methods for analyzing the distribution of benefits in natural resource dependent communities.
Simon Fraser University. Project 538. mimeo.
8
World Bank. http://data.worldbank.org/indicator/IT.NET.USER.P2
Number of social network users in Russia. www.statista.com
Download