Презентация МИ 616-637

реклама
Углубленный анализ данных:
кластерный анализ
Кластерный анализ – класс методов, используемых для
классификации объектов или событий в относительно однородные
группы, называемые кластерами. Объекты в каждом кластере должны
быть похожи между собой и отличаться от объектов других кластеров.
Последовательность кластерного анализа
1. Формулировка
проблемы. На этом этапе необходимо выбрать
переменные, которые послужат основой для кластеризации. Набор
переменных должен полно описывать сходство между объектами с
точки зрения признаков, имеющих отношение к рассматриваемой
проблеме маркетингового исследования.
2. Выбор способа измерения расстояния или меры сходства. В процессе
кластеризации необходимо сгруппировать схожие объекты. Для
оценки сходства (различия) нужно использовать измеритель. Чаще
всего в качестве измерителя рассматривают расстояние между
объектами. Чем меньше расстояние, тем больше похожи объекты.
Чаще всего в виде меры сходства используют Евклидово
расстояние. Перед кластеризацией респондентов необходимо
нормализовать данные, изменив шкалу измерения каждой переменной
таким образом, чтобы среднее равнялось нулю, а стандартное
отклонение – единице.
Углубленный анализ данных:
кластерный анализ
3.Выбор метода кластеризации. Методы кластеризации подразделяются
на иерархические и неиерархические. Иерархическая кластеризация –
метод кластеризации, характеризующийся построением иерархической
или древовидной структуры. Неиерархические методы кластеризации –
методы, которые в начале определяют центр кластера, а затем
группируют все объекты в пределах заданного от центра порогового
значения. Иерархические методы могут быть объединительными и
разделяющими. Объединительные методы кластеризации – это
иерархические методы, при которых каждый объект первоначально
находится в отдельном кластере. Кластеры формируют, группируя
объекты каждый раз во все более и более крупные кластеры.
Разделяющая
кластеризация
–
это
иерархический
метод
кластеризации, при котором все объекты первоначально находятся в
одном кластере. Кластеры формируют делением большого кластера на
мелкие. К объединительным методам относят:
– методы связи (объединяющие методы иерархической кластеризации,
которые объединяют объекты в кластер, исходя из вычисленного
расстояния между ними),
– дисперсионные (объединяющий метод иерархической кластеризации, в
котором
кластеры
формируют
так,
чтобы
минимизировать
внутрикластерную дисперсию),
Углубленный анализ данных:
кластерный анализ
4.
–центроидные
методы
(дисперсионный
метод
иерархической
кластеризации, в котором расстояние между двумя кластерами
представляет собой расстояние между их центроидами (средними для
всех переменных) ),
–метод Варда (дисперсионный метод, в котором кластеры
формируются таким образом, чтобы минимизировать квадраты
евклидовых расстояний до кластерных средних).
Принятие решения о количестве кластеров. При определении количества
кластеров необходимо учитывать следующие рекомендации:
–учитывать теоретические и практические соображения (главное –
цель анализа);
–в иерархической кластеризации в качестве критерия количества
кластеров учитывают расстояние, при котором объединяются
кластеры;
–в неиерархической кластеризации стоят график зависимости
отношения суммарной внутригрупповой дисперсии к межгрупповой
дисперсии от числа кластеров; точка на этом построении, в которой
наблюдается изгиб, показывает оптимальное количество кластеров;
–относительные размеры кластеров должны быть выразительными, то
есть число случаев в каждом кластере должно быть больше 1.
Углубленный анализ данных:
кластерный анализ
5. Интерпретация
и профилирование кластеров. Эта процедура состоит в
проверке кластерных центроидов (средние значения объектов,
содержащихся в кластере по каждой из переменных). Значения этого
показателя позволит отобрать респондентов со схожим восприятием
торговой марки. Высокое значение кластерных центроидов по
определенным переменным, показывает существенную роль этих
переменных в кластере.
6. Оценка надежности и достоверности. Для обеспечения надежности и
достоверности кластерного анализа необходимо:
–
выполнять кластерный анализ на основе одних и тех же
переменных, но с использованием различных способов
измерения расстояния (следует сравнивать результаты
анализа, полученные на основе различных мер расстояния);
–
использовать разные методы кластерного анализа и
сравнивать результаты;
–
разбивать данные на две равные части случайным образом;
выполнять кластерный анализ для каждой части и сравнивать
кластерные центроиды для этих частей;
Углубленный анализ данных:
кластерный анализ
– случайным образом удалять некоторые
переменные;
выполнять
кластерный
анализ
по
сокращенному
набору
переменных; сравнивать результаты с
итогами, полученными на основе полного
набора переменных;
– в неиерархическом кластерном анализе
решение зависит от порядка случаев, в
наборе данных, поэтому следует провести
анализ несколько раз, меняя порядок
случаев, и продолжать эту процедуру до
получения стабильного решения.
Углубленный анализ данных:
совместный анализ
1.
Совместный анализ – метод анализа, с помощью которого
определяют относительную важность, придаваемую потребителями
ясно выраженным характеристикам, а так же полезность, которую
они связывают с уровнем характеристик.
Последовательность проведения совместного анализа
Определение проблемы совместного анализа. На этом этапе нужно
определить характеристики, используемые в конструкции изделий и
атрибутивные уровни характеристик. Характеристики должны быть
явно выраженными и вносить основной вклад в предпочтения
потребителей. Чаще всего исследование с применением совместного
анализа включает шесть – семь характеристик объектов. Для каждой
характеристики выделяется определенное количество уровней.
Количество уровней зависит от числа оцениваемых параметров и
численности объектов, оцениваемых респондентами. Не следует
использовать атрибутивные уровни, несоответствующие требованиям
потребителей, так как это снижает достоверность оценок, а в
некоторых случаях приводит к бесполезности совместного анализа.
Выбирать атрибутивные уровни следует так, чтобы их диапазоны
были шире, чем рыночные диапазоны. Вместе с тем очень широкие
диапазоны атрибутивных уровней могут снизить достоверность
оценок.
Углубленный анализ данных:
совместный анализ
2. Построение
объектов. Исследователь может выбрать два подхода
к построению объектов:
 попарный подход (метод построения объектов, при котором
респонденты одновременно оценивают по две характеристики до
тех пор, пока не оценят все возможные пары характеристик);
 метод полного профиля (метод построения объектов в
совместном анализе, при котором для всех характеристик строят
полные профили. Каждый профиль описывают на отдельной
индексной карте).
Чаще используют первый метод. Приведем пример. Для
реализации метода составим матрицы совместных оценок для
каждой пары характеристик: размер экрана – цена; разрешение
экрана – цена; размер экрана – разрешение экрана. Попарный
подход легче для респондентов, так как легче производить
сравнение. Однако в данном случае необходимо сделать больше
оценок, чем при полнопрофильном методе. В нашем случае при
наличии трех характеристик и двух уровней можно получить 8
профилей. Однако прежде, чем получить исходные данные
необходимо решить вопрос о форме их представления.
Углубленный анализ данных:
совместный анализ
Пример попарного подхода к построению объектов в
совместном анализе
54 см
34 см
23 000 10 000 5 000
Цена
23 000 10 000 5 000
Цена
72 см
нормальное
Размер экрана
Разрешение экрана
нормальное
Размер
экрана
34 см
54 см
72 см
среднее
сверхточное
среднее
сверхточное
Разрешение экрана
Углубленный анализ данных:
совместный анализ
3. Решение
о форме представления данных. Исходные данные для
совместного анализа могут быть представлены метрическими и
неметрическими данными. Для получения неметрических данных
респондентов просят дать оценки в виде рангов. При попарном подходе
респонденты ранжируют все ячейки каждой матрицы, определяя их
желательность. В совместном анализе зависимая переменная – это
предпочтение варианта или намерение совершить покупку. Если
используются метрические переменные, то респонденты выстраивают
рейтинги вариантов. В настоящее время чаще используется именно
второй способ. Для получения рейтинговых оценок можно применять
шкалу Лайкерта. В расчет принимаются лишь такие варианты, которые
возможны с точки зрения технических и экономических возможностей.
4. Выбор метода совместного анализа. Базовая модель совместного анализа
имеет вид выражения:
m
ki
U(X) – полная полезность
U  X     a ij  xij
i 1
j 1
альтернативного варианта;
a ij - вклад частной ценности, m –количество характеристик;
соответствующей j–му уровню i- xy=1, если j-й уровень i-ой характеристики
го
варианта;
присутствует или = 0, если j-й уровень i-ой
k i – количество уровней
характеристики не присутствует.
характеристики i;
Углубленный анализ данных:
совместный анализ
Важность характеристики Ii определяют через диапазон полезности aij
по всем уровням этой характеристики, то есть по формуле:
I i  max a i j   min a i j 
для каждого i. Важность характеристики нормируют для уточнения ее
m
важности относительно других характеристик Wi .
Wi  I i   I i
так что m W  1 .
i 1

i 1
i
Самый простой способ использования базовой модели – регрессионный
анализ с фиктивными переменными. При этом зависимая переменная –
это рейтинги предпочтений. Независимыми переменными являются
фиктивные переменные. Фиктивные переменные вводятся на основе
следующего принципа: если характеристика имеет k уровней, то ее
кодируют через (ki -1) фиктивную переменную. В нашем примере
уровней характеристики 3, следовательно, для каждой характеристики
водится по две фиктивных переменных.
Углубленный анализ данных:
совместный анализ
Значения рангов преобразуются в 0 или 1 после выполнения попарного
сравнения между вариантами. Модель для вычисления полезности
варианта телевизора можно представить в виде формулы:
U  b0  b1  X 1  b2  X 2  b3  X 3  b4  X 4  b5  X 5  b6  X 6
Х1; Х2 - фиктивные переменные, представляющие характеристику размер
экрана;
Х3; Х4 - фиктивные переменные, представляющие характеристику
разрешение экрана;
Х5; Х6 - фиктивные переменные, представляющие характеристику цена.
b0 - отрезок прямой, отсекаемый на оси ОУ;
b1; b2 ; b3 ; b4 ; b5 ; b6 - угловые коэффициенты.
Для характеристики
закодировать так:
размер
экрана атрибутивные уровни
Х1
Х2
уровень 1: 1
0
уровень 2: 0
1
уровень 3: 0
0
Аналогично для характеристик разрешение экрана и цена.
можно
Углубленный анализ данных:
совместный анализ
Параметры b1; b2 ; b3 ; b4 ; b5 ; b6 вычисляют из регрессионного уравнения. При
условии кодировки фиктивными переменными, в которой уровень 3
является базовым, коэффициенты можно связать с полезностями.
Коэффициент фиктивной переменной представляет собой разность
полезности для этого уровня и полезности для базового уровня. Так,
для характеристики размер экрана получим: a11  a13  b1 ;
a12  a13  b2
Чтобы определить значение полезностей, введем дополнительное
ограничение: a11  a12  a13  0 . Решаем эти уравнения при определенных
значениях параметров b1; b2 ; b3 ; b4 ; b5 ; b6
. Определяем значения
.а11 ; а12 ; а13 . Аналогичные уравнения и ограничения вводим для других
характеристик: разрешение экрана и цена. Определяем для других
характеристик а21 ; а22 ; а23 и а31; а32 ; а33 . Определяем сумму значений
полезностей Ii. Относительную важность каждой характеристики
m
рассчитаем по формуле:
Wi  I i   I i
i 1
Углубленный анализ данных:
совместный анализ
5. Интерпретация
результатов.
Для
интерпретации
результатов
выстраивают графики функций полезности. Значения полезности по
каждой характеристике и каждому уровню определяют по формуле:
U  b0  b1  X1  b2  X 2  b3  X 3  b4  X 4  b5  X 5  b6  X 6
Для примера построим такой график по характеристике размер экрана
(значения по осям условные).
График функции полезности по характеристике размер экрана
Полезность
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
34
54
Размер экрана
72
Углубленный анализ данных:
совместный анализ
Аналогичные построения можно сделать для других характеристик.
Далее на основе графиков делают выводы о тенденциях, которые
характерны для предпочтений респондентов. Например, в нашем
случае,
очевидно,
что
чем
больше
размер
экрана,
тем
предпочтительнее телевизор для респондентов. Кроме того, из
графиков станет понятно, какая из характеристик является самой
главной для участников опроса. Если полученные данные
проанализировать с помощью метода кластерного анализа, то можно
сформировать
сегменты
потребителей
чувствительных
и
не
чувствительных к цене; отдающих предпочтение различным
качественным параметрам.
6. Оценка надежности и достоверности результатов совместного анализа.
Для решения вопроса о надежности и достоверности результатов
совместного анализа можно использовать несколько методов:
 определяют критерий соответствия вычисленной модели исходным
данным через расчет коэффициента множественной детерминации; он
изменяется от 0 до 1 и определяется по формуле:
- полная вариация;
SS регрессии - вариация, объясняемая линией
регрессии;
SS y
R 2  SS регрессии  SS y
Углубленный анализ данных:
совместный анализ



используют метод «проверка – повторная проверка»; при
этом респондентов просят в конце интервью повторно
оценить выбранные объекты; в последствии оценки
сравнивают и делают вывод о достоверности оценок;
оценивают
внутреннюю
достоверность
результатов
анализа; для этого проводят факторный эксперимент и
определяют два набора данных: набор вычисления
(используют для вычисления функций полезности для
различных уровней) и набор проверки достоверности
(используют для оценки достоверности и надежности);
затем сопоставляют данные из разных наборов и делают
выводы о достоверности и надежности;
метод разделения выборки предполагает, что исходную
выборку подразделяют на несколько подвыборок и на их
основе проводят расчеты, в последствии сравнивают
результаты,
полученные
по
подвыборкам;
если
расхождений нет, то модель надежна.
Вопросы для обсуждения по теме
«Углубленный анализ данных»
1.
2.
3.
4.
5.
6.
7.
Какие одномерные методы углубленного анализа данных Вам
известны? Охарактеризуйте их.
Какие многомерные методы углубленного анализа данных Вам
известны? Охарактеризуйте их.
Что такое вариационный ряд? Какие возможности для анализа он
обеспечивает?
Охарактеризуйте
статистики,
связанные
с
распределением частот.
Перечислите
этапы
проверки
гипотез
и
приведите
их
характеристику.
Что такое нулевая и альтернативная гипотезы? Какие правила
существуют для их формулировки?
Что такое таблица сопряженности признаков? Для реализации каких
задач она используется?
Охарактеризуйте двумерную таблицу сопряженности признаков. В
чем ее отличия от трехмерной? Приведите примеры двумерных
таблиц сопряженности признаков.
Вопросы для обсуждения по теме
«Углубленный анализ данных»
8.
9.
10.
11.
12.
13.
14.
Охарактеризуйте трехмерную таблицу сопряженности признаков. В
чем ее отличия от двумерной? Какие цели позволяет реализовать
трехмерная таблица сопряженности признаков? Приведите примеры
использования трехмерных таблиц сопряженности признаков.
Охарактеризуйте
статистику,
определяемую
по
таблицам
сопряженности признаков.
Что такое критерий Хи-квадрат? Для реализации каких задач
используется этот показатель? Какие выводы на его основе можно
сделать?
Что такое Фи - коэффициент? Какие значения он может принимать?
Для реализации каких задач используется этот показатель? Какие
выводы на его основе можно сделать?
Что такое V-коэффициент Крамара? Какие значения он может
принимать? Для реализации каких задач используется этот
показатель? Какие выводы на его основе можно сделать?
Охарактеризуйте этапы проверки проведения кросс-табуляции.
Какие методы проверки гипотез Вам известны? Охарактеризуйте их.
От каких факторов зависит выбор метода проверки гипотез?
Вопросы для обсуждения по теме
«Углубленный анализ данных»
15.
16.
17.
18.
19.
20.
21.
22.
Охарактеризуйте основные параметрические методы проверки
гипотез.
Какие этапы процедуры проверки гипотез в случае использования tкритерия Вам известны? Охарактеризуйте их.
Расскажите о процедуре проверки гипотез о различиях с
использованием параметрических критериев при наличии одной
выборки.
Расскажите о процедуре проверки гипотез о различиях с
использованием параметрических критериев при наличии двух
независимых выборок.
Расскажите о процедуре проверки гипотез о различиях с
использованием параметрических критериев при наличии парных
выборок.
Охарактеризуйте основные непараметрические критерии проверки
гипотез.
Расскажите о процедуре проверки гипотез о различии с
использованием непараметрических критериев при наличии одной
выборки.
Расскажите о процедуре проверки гипотез о различии с
использованием непараметрических критериев при наличии двух
независимых выборок.
Вопросы для обсуждения по теме
«Углубленный анализ данных»
23.
24.
25.
26.
27.
28.
29.
30.
Расскажите о процедуре проверки гипотез о различии с
использованием непараметрических критериев при наличии парных
выборок.
Что
такое
дисперсионный
анализ?
Охарактеризуйте
последовательность его проведения.
В чем сущность корреляционного анализа? Расскажите о
последовательности его проведения. Какие выводы позволяет сделать
корреляционный анализ?
Что
какое
регрессионный
анализ?
Охарактеризуйте
последовательность его проведения. Какие способы можно
использовать для оценки точности модели регрессионного анализа?
В
чем
сущность
дискриминантного
анализа?
Какова
последовательность его проведения? Как оценить достоверность
дискриминантного анализа?
Что такое факторный анализ? Охарактеризуйте последовательность
его проведения.
Что такое кластерный анализ? Охарактеризуйте последовательность
его проведения.
Что такое совместный анализ? Охарактеризуйте последовательность
его проведения.
Рекомендуемая литература по теме
«Углубленный анализ данных»
ОСНОВНАЯ ЛИТЕРАТУРА
1. Аакер, Д. Маркетинговые исследования / Д. Аакер, В. Кумар, Дж. Дэй. –
СПб.: Питер, 2004. – 848 с.
2. Божук, С.Г. Маркетинговые исследования / С.Г. Божук. – СПб.: Питер,
2004. – 325 с.
3. Гелберт А. Черчилль. Маркетинговые исследования. СПб.: изд-во “Питер”,
2004.- 752 с.
4. Голубков,
Е.П. Маркетинговые исследования: теория, методология,
практика / Е.П. Голубков. - М.: Изд-во «ДИС», 2003. - 496 с.
5. Данько Т.,Косоруков О., Самыловский А., Скоробогатых И. Количественные
методы анализа в маркетинге. – СПб.: Питер, 2005.
6. Ковалик Л.И., Божук С.Г. Маркетинговые исследования. 1-е изд., СПб.: издво «Питер», 2003.
7. Коротков, А.В. Маркетинговые исследования / А.В. Коротков. – М.:
ЮНИТИ-ДАНА, 2005. – 304 с.
8. Малхотра, Н.К. Маркетинговые исследования. Практическое руководство /
Н.К. Малхотра. - М.: Издательский дом «Вильямс», 2002. - 960 с.
9. Токарев, Б.Е. Маркетинговые исследования / Б.Токарев. - М.: Издательство
«Экономистъ», 2005. - 624 с.
10.Токарев, Б.Е. Методы сбора и обработки информации: практическое
пособие / Б.Токарев. - М.: Издательство «Экономистъ», 2005. - 541 с.
Рекомендуемая литература по теме
«Углубленный анализ данных»
1.
2.
3.
4.
5.
6.
7.
8.
9.
ДОПОЛНИТЕЛЬНАЯ ЛИТЕРАТУРА
Анурин, В. Маркетинговые исследования потребительского рынка /
В.Анурин, И. Муромкина, Е.Евтушенко. – СПб.: Питер, 2004. - 270 с.
Беляевский, И. Маркетинговые исследования: информация, анализ,
прогноз / И. Беляевский. – М.: Финансы и статистика, 2001. - 356 с.
Дейан, А. Изучение рынка / Пер с фр. Под ред. С.Г. Божук. – СПб:
издательский дом «Нева», 2003.- 217 с.
Дэвид, Д. Принципы и практика маркетинговых исследований. – М.:
Издательский дом «Вильямс», 2000. – 459 с.
Дэвис, Джоэл Дж. Исследования в рекламной деятельности: теория и
практика: Пер. с англ.-М.: Издательский дом «Вильямс», 2003.
Елисеева И. И., Юзбашев М. М.. Общая теория статистики. М., Финансы
и статистика, 1996.
Таганов, Д.Н. SPSS: статистический анализ в маркетинговых
исследованиях. – СПб.: Питер, 2005. – 192 с.
Таганов, Д.Н. Выявление зависимостей между параметрами выборки с
помощью корреляционного анализа // Маркетинг и маркетинговые
исследования. – 2005 - №3.- С.23-28.
Наследов, А.Д. SPSS: компьютерный анализ данных в психологии и
социальных науках. – СПб.: Питер, 2005. – 416 с.
Скачать