Презентация МИ 556-586

реклама
Углубленный анализ данных: таблицы
сопряженности признаков
Опровержение исходной связи между двумя переменными.
Рассмотрим пример зависимости между владением дорогим автомобилем
и уровнем образования.
2.
Наличие дорогого
автомобиля
Образование
высшее
среднее
Имею
32
21
Не имею
68
79
Итого
100
100
Количество
респондентов, чел.
250
750
Итак, существует взаимосвязь между образованием и владением дорогим
автомобилем. С увеличением образовательного уровня большее число
респондентов владеет дорогим автомобилем. Введем третью переменную
– доход.
Углубленный анализ данных: таблицы
сопряженности признаков
Наличие дорогого
автомобиля
Доход
низкий
высокий
образование
высшее
среднее
высшее
среднее
Имею
20
20
40
40
Не имею
80
80
60
60
Итого
100
100
100
100
Количество
100
700
150
50
респондентов, чел.
Таким образом, связь между уровнем образования и владением
дорогим автомобилем отсутствует, хотя первоначально она была
установлена.
Углубленный анализ данных: таблицы
сопряженности признаков
Введение третей переменной позволяет выявить подавленную
связь между двумя переменными.
Рассмотрим взаимосвязь между желанием совершить туристскую
поездку и возрастом.
3.
Желание совершить туристскую
поездку
Возраст
до 45
старше 45
Желаю совершить поездку
50
50
Не желаю совершить поездку
50
50
Итого
100
100
Количество респондентов, чел.
500
500
Из таблицы следует, что никакой связи между исследуемыми
факторами не существует. Введем в анализ третью переменную
– пол.
Углубленный анализ данных: таблицы
сопряженности признаков
Желание совершить
туристскую поездку
пол
мужчины
женщины
до 45
старше
45
до 45
старше 45
Желаю совершить
поездку
60
40
35
65
Не желаю совершить
поездку
40
60
65
35
Итого
100
100
100
100
Количество респондентов,
чел.
300
300
200
200
Итак, связь между желанием путешествовать и возрастом различна
для мужчин и женщин.
Причем существует противоположная
направленность в этих зависимостях. До тех пор, пока мы не ввели
третью переменную эта связь была скрыта.
Углубленный анализ данных: таблицы
сопряженности признаков
Отсутствие изменений в первоначальной связи. В некоторых случаях
третья переменная не изменяет первоначально наблюдаемую связь. Это
означает, что третья переменная не влияет на связь между двумя
переменными. Рассмотрим связь между частотой посещения ресторанов
быстрого питания и размером семьи.
4.
Частота посещения ресторанов
быстрого питания
Размер семьи
до 3 человек
более 3 человек
Высокая
65
65
Низкая
35
35
Итого
100
100
Количество респондентов, чел.
500
500
Данные таблицы показывают, что никакой связи между переменными не
наблюдалось. После введения в анализ третей переменной – уровня
дохода, связь между переменными так и не обнаружилась.
Углубленный анализ данных: таблицы
сопряженности признаков
Частота
посещения
ресторанов
быстрого питания
доход
семьи с низким
доходом
семьи с высоким
доходом
до 3
человек
более 3
человек
до 3
человек
более 3
человек
Высокая
65
65
65
65
Низкая
35
35
35
35
Итого
100
100
100
100
Количество
респондентов, чел.
250
250
250
250
Углубленный анализ данных: таблицы
сопряженности признаков
1.
Статистика, определяемая по таблицам
сопряженности признаков
Критерий
хи-квадрат
это
критерий,
используемый
для
проверки
статистической
значимости наблюдаемых связей в таблицах
сопряженности признаков. Он помогает определить
наличие или отсутствие систематической связи
между двумя переменными. При этом в нулевой
гипотезе утверждается, что между переменными нет
никакой связи. Проверка этой гипотезы выполняется
вычислением частот распределения признаков
анализируемых переменных в ячейках таблицы,
которые можно было бы ожидать, если бы не
существовало зависимости между переменными, и
при данных итоговых числах в каждом ряду и
колонке.
Углубленный анализ данных: таблицы
сопряженности признаков
Для проведения проверки нужно определить ожидаемую частоту по
формуле:
e
r
c
f  n n n
nr – итоговое число в строке;
nc – итоговое число в столбце;
n – объем выборки.
Тогда критерий хи-квадрат будет определен по формуле:
Х 2 - критерий Хи-квадрат;
X2 
  f0 
fe   fe
2
fe - ожидаемые частоты;
в сеячейки
f o – фактически наблюдаемые частоты распределения признаков.
Важной характеристикой хи-квадрат является число степеней свободы –
df.: df  r  1  c  1
r – количество рядов;
c – количество колонок;
df – число степеней свободы.
Углубленный анализ данных: таблицы
сопряженности признаков
Нулевая гипотеза должна быть отклонена тогда, когда
расчетное значение хи-квадрат больше, чем критическое
значение хи-квадрат распределения с соответствующим
числом степеней свободы. Распределение хи-квадрат –
асимметричное распределение, форма которого зависит от
числа степеней свободы. С ростом числа степеней свободы хиквадрат распределение более симметрично. Статистику хиквадрат можно применять для проверки степени согласия,
чтобы определить, согласуется ли модель с наблюдаемыми
данными. Хи-квадрат вычисляют только для числовых
значений (при этом относительные величины нужно
переводить в абсолютные, а затем проводить вычисления).
Проверку по критерию хи-квадрат нельзя выполнять,
если ожидаемое значение частоты в любой из ячеек
меньше пяти. Если количество наблюдений в ячейке меньше
10 или таблица имеет два ряда и две колонки, то необходимо
использовать поправочный коэффициент. Он равен 2,133, что
не является значимым при уровне значимости равном 0,05.
Углубленный анализ данных: таблицы
сопряженности признаков
Фи- коэффициент – это мера тесноты связи переменных для
конкретного формата таблицы: с двумя рядами и с двумя колонками. Фикоэффициент определяют по формуле:
2
2

Х
п
критерий
хи-квадрат;
Х
2.

n - размер выборки;
ф - фи- коэффициент.


Фи- коэффициент принимает значение равное 0, если связь отсутствует,
на что так же указывает и равное 0 значение хи-квадрат. При сильной
связи между переменными фи- коэффициент имеет значение 1 и все
наблюдения находятся на главной или второстепенной диагонали.
3. Коэффициент сопряженности признаков –
это мера тесноты
связи в таблицах любого формата. Его определяют по формуле:
Значение коэффициента сопряженности
2
2
С

X

X
n
находится в пределах от 0 до 1.
При отсутствии связи он равен 0, но своего максимального значения он
никогда не достигает. Он используется для сравнения таблиц
одинакового размера.


Углубленный анализ данных:
таблицы сопряженности признаков
4.
V- коэффициент Крамера – это мера тесноты связи,
используемая в таблицах, больших по размеру, чем 2х2.
Коэффициент Крамера получают путем корректировки фикоэффициента по числу рядов или по числу колонок в
таблице. Причем из двух значений выбирают меньшее.
Корректировку осуществляют так, что значение V –
коэффициента находится в диапазоне от 0 до 1. Большее
значение указывает на более сильную связь, но не указывает
как связаны переменные. Коэффициент Крамера можно
определить по следующей формуле:
V 
X
2

 n  min r  1c  1
r – количество строк в таблице;
с – количество столбцов в таблице.
Углубленный анализ данных:
таблицы сопряженности признаков
5. Коэффициент
«лямбда» используется в том случае,
если переменные измерены с помощью номинальной
шкалы. Асимметричный коэффициент «лямбда» – это
мера
выраженного
в
процентах
улучшения
прогнозирования значения зависимой переменной при
данном значении независимой переменной. Его
значение находится в пределах от 0 до 1. Если он равен
0, то никакого улучшения в прогнозировании не
наблюдается. Если значение равно 1, то прогноз может
быть сделан без ошибки. Это происходит тогда, когда
каждая категория независимой переменной связана с
одной категорией зависимой переменной. Так же
определяют симметричный коэффициент «лямбда». Он
не дает предположения о том, какая из переменных
зависимая,
но
измеряет
общее
улучшение
прогнозирования, когда прогноз уже сделан в обоих
направлениях.
Углубленный анализ данных: таблицы
сопряженности признаков
6.



Другие статистики. Для измерения связи между порядковыми
переменными применяют другие статистики:
тау b (вычисляемая статистика, которая измеряет связь между
двумя порядковыми переменными. Она вычисляется с учетом
числа связанных рангов, и ее лучше использовать для
квадратных таблиц). Ее значение изменяется от –1 до +1. Она
позволяет определить направление и силу связи.
Для прямоугольной таблицы лучше использовать тау с
(вычисляемая статистика, измеряющая связь между двумя
порядковыми переменными. Она вычисляется с учетом числа
связанных рангов).
Статистика «гамма» не учитывает ни связанные ранги, ни
размер таблицы. Ее значение находится в пределах –1;+1. И
обычно имеет большее числовое значение, чем тау b и тау с.
Статистика «гамма» – это вычисляемая статистика, измеряющая
связь между двумя порядковыми переменными. Она не делает
поправку на связанные ранги.
Углубленный анализ данных: таблицы
сопряженности признаков
1.
2.
3.
4.
Этапы проверки проведения кросс-табуляции
Проверка нулевой гипотезы о том, что отсутствует связь
между переменными с использованием критерия хи-квадрат.
Если не удалось отклонить нулевую гипотезу, связь между
переменными отсутствует.
Если нулевая гипотеза отклонена, то определяют тесноту
связи, используя подходящие статистики (фи- коэффициент,
коэффициент
сопряженности
признаков,
коэффициент
Крамера, коэффициент «лямбда» и т.д.).
Если нулевая гипотеза отклонена, то поясняют характер связи,
вычислив проценты в направлении независимой переменной
через зависимую переменную.
Используют в качестве проверяемых статистик тау b и тау с
или «гамму» для обработки порядковых, а не номинальных
переменных. Если нулевая гипотеза отклонена, то определяют
тесноту связи, используя величину и направление связи, а так
же учитывая знак проверяемой статистики.
Углубленный анализ данных: проверка
гипотез о различиях
Классификация методов проверки гипотез о различиях
Методы проверки гипотез
Параметрические методы проверки
гипотез (метрические данные)
Одна
выборка:
• t-критерий;
• Z-критерий
Независимые
выборки:
• Двухгрупповой
t-критерий;
• z-критерий
Две выборки
Парные
выборки:
• Парный tкритерий;
• z-критерий
Непараметрические методы проверки
гипотез (неметрические данные)
Две выборки
Одна выборка:
• Критерий хиквадрат;
• Критерий
Колмогорова –
Смирнова;
• Критерий
серий;
• Биномиальный
критерий
Независимые
выборки:
Парные
выборки:
• Критерий хиквадрат;
• Критерий
знаков;
•Критерий
Манна-Уитни;
• Критерий
Вилкоскона;
• Медианы;
•Критерий
МакНемара;
• Критерий
Колмогорова Смирнова
•Критерий хиквадрат
Углубленный анализ данных:
проверка гипотез о различиях




Пояснения к классификации методов проверки
гипотез о различиях
Параметрические
методы
проверки
гипотез
предполагают, что изучаемые переменные измерены с
помощью интервальной шкалы.
Непараметрические
методы
проверки
гипотез
предполагают, что переменные измерены с помощью
номинальной или порядковой шкал.
Выборки независимы в том случае, если взяты
случайным
образом
из
различных
генеральных
совокупностей.
Выборки являются парными, когда данные двух
выборок имеют отношение к одной и той же группе
респондентов.
Углубленный анализ данных:
проверка гипотез о различиях –
параметрические методы
1.
2.
3.
Основные параметрические критерии:
T-критерий одномерный метод проверки гипотез, использующий tраспределение. Применяется, если стандартное отклонение
неизвестно и размер выборки мал.
Т-статистика – статистика, подразумевающая, что переменная
имеет колоколообразное распределение, среднее известно (или
предполагается, что известно) и дисперсия генеральной
совокупности определена по данным выборки:

t  ( X  )  sx
Траспределение
–
симметричное
колоколообразное
распределение, используемое для проверки выборок небольшого
размера (n ‹ 30). По внешнему виду оно похоже на нормальное
распределение, но хвостовые части графика по площади больше,
а центральная часть меньше, что обусловлено тем, что дисперсия
совокупности неизвестна и ее оценивают по выборочной
дисперсии. Для выборок большого размера (более 120 элементов)
t- распределение и нормальное распределение не отличаются.
Углубленный анализ данных:
проверка гипотез о различиях –
параметрические методы
Процедура проверки гипотезы в случае использования t-критерия
включает этапы:
1. Сформулировать нулевую и альтернативную гипотезы.
2. Выбрать формулу для вычисления t- статистики.
3. Выбрать уровень значимости α для проверки нулевой гипотезы. Обычно
этот уровень = 0,05.
4. Взять одну или две выборки и для каждой вычислить среднее и
стандартное отклонение.
5. Вычислить значение t- статистики, приняв, что нулевая гипотеза верна.
6. Вычислить число степеней свободы и оценить вероятность получения
большего значения статистики (альтернативно вычисляют критическое
значение t- статистики).
7. Если вероятность, рассчитанная на 6 этапе меньше, чем уровень
значимости нулевой гипотезы, то ее нужно отклонить и наоборот.
(Альтернативно, если значение, вычисленное на 5 этапе t-статистики,
больше критического значения, определенного на этапе 6, то отклонить
нулевую гипотезу и наоборот).
8. Выразить
полученный результат с точки зрения маркетинговой
проблемы.
Углубленный анализ данных:
проверка гипотез о различиях –
параметрические методы
Маркетинговое исследование может быть проведено с использованием
одной выборки, двух независимых выборок или парных выборок.
Процедуры проверки гипотезы о различиях во всех этих случаях будут
различаться. Рассмотрим этот вопрос более подробно.
Одна выборка
В этой ситуации используют t-статистику и z-статистику. Т-статистику
определяют формуле:

t  ( X  )  sx
t – статистика;
μ – среднее значение, заданное в утверждении нулевой гипотезы;
X - генеральное среднее.
Выборочная стандартная ошибка среднего s x
рассчитывается по
формуле:
sx  s 
n
S - выборочное среднеквадратическое отклонение. Число степеней
свободы для проверки гипотезы равно n – 1.
Углубленный анализ данных:
проверка гипотез о различиях –
параметрические методы
Если нам известно стандартное отклонение
генеральной
совокупности,
то
лучше
использовать z- критерий. z- критерий – это
одномерный метод проверки гипотезы,
использующий
стандартное
нормальное
распределение.
Этот показатель определяют по формуле:

z  ( X  )   x
- стандартное отклонение генеральной
совокупности.
x
Углубленный анализ данных: проверка
гипотез о различиях – параметрические
методы
Две независимые выборки
Независимые выборки – это две выборки, экспериментально не
связанные между собой. Измерения, проведенные в одной выборке, не
оказывают влияние на значения переменных в другой.
1) Проверка гипотез может проводиться на основе средних значений.
При этом из двух совокупностей берут выборки и вычисляют значения
средних и дисперсий для выборок n1 и n2 . Если значения дисперсий
совпадают, то значение объединенной дисперсии определяют по
n
формуле: 2
2
2 
 n
Стандартное
формуле:

  X i1  X 1
 i 1
i
s
отклонение
s x1  x2 


 X
2
i 1
проверяемой
i2
 X2

статистики
  n1  n2  2

определяется
по
s 2  1  n1  1  n2 
Тогда значение t-статистики вычисляется по формуле:
Число степеней свободы будет = ( n1 + n2 – 2).
t  X 1  X 2   1   2   s x1  x 2
Углубленный анализ данных: проверка
гипотез о различиях – параметрические
методы
Если неизвестно, равны ли дисперсии двух совокупностей, то для
проверки выборочной дисперсии используют F – критерий
(критерий Фишера). Критерий Фишера – это статистический
критерий для проверки равенства двух дисперсий из двух
совокупностей. Его определяют по формуле:
Fn1 1n2 1  s12  s 22
– размер выборки 1;
n2
– размер выборки 2;
n1  1 – степени свободы для выборки 1;
n 2  1 – степени свободы для выборки 2;
n1
s12
s
2
2
– выборочная дисперсия для выборки 1;
– выборочная дисперсия для выборки 2.
Углубленный анализ данных:
проверка гипотез о различиях –
параметрические методы
F – статистика – это отношение двух
выборочных дисперсий. F- распределение –
это распределение частот, зависящее от
значений степеней свободы: числа степеней
свободы в числителе и знаменателе. Если
вероятность
F – статистики выше уровня
значимости α, то нулевая гипотеза не
отклоняется и используют t- критерий, в основе
которого лежит оценка отдельных дисперсий.
Если F- критерий имеет вероятность меньше
0,05, то нулевую гипотезу отклоняют.
Углубленный анализ данных:
проверка гипотез о различиях –
параметрические методы
Проверка гипотез может проводиться на основе долей двух
независимых выборок. Для одной выборки используют zкритерий и статистику, заложенную в основе критерия
вычисляют по формуле:
2)
z  P1  P2   s p1  p2
В числителе представлена разность долей в двух выборках. В
знаменателе - стандартная ошибка разности двух долей. Она
вычисляется по формуле:
s p1  p2 
При этом
P  (1  P  1  n1  1  n2 
P  n1  P1  n2  P2   n1  n2
Углубленный анализ данных:
проверка гипотез о различиях –
параметрические методы
Парные выборки
Выборки называют парными, если два набора наблюдений
относятся к одним и тем же респондентам. Для проверки
различий в данном случае используют t- критерий парных
выборок ( то есть критерий для различий средних значений
парных выборок). Для проведения таких расчетов вводят
переменную разности D и вычисляют ее среднее значение и
дисперсию. После этого вычисляют t – статистику, число
степеней свободы в данном случае n – 1, где n – число пар.
Используют следующие формулы:
t n 1 
D

D 
s
D
где
D 
n
D
i
i 1
sD 
 D
n
i 1
i
 D

2

n

Углубленный анализ данных:
проверка гипотез о различиях –
непараметрические методы
Если в процессе исследований получают независимые непараметрические
переменные, то применяют непараметрические методы проверки гипотез
о различиях. Маркетинговое исследование может быть проведено с
использованием одной выборки, двух независимых выборок или парных
выборок. Процедуры проверки гипотезы о различиях во всех этих случаях
будут различаться. Рассмотрим этот вопрос более подробно.
Одна выборка
1) В данном случае используют критерий согласия Колмогорова Смирнова для одной выборки, то есть непараметрический метод
проверки степени согласия эмпирической функции распределения
переменной с определенным теоретическим законом распределения. Он
позволяет сравнить эмпирическую функцию распределения переменной с
определенным теоретическим законом распределения. Введем некоторые
А
переменные.
– кумулятивная частость для каждой категории
O
теоретического распределения;
– сравниваемое значение
выборочной частости. Сам критерий определяют по формуле:
i
i
К
 Max Ai
 Oi
Чем больше значение К, тем больше уверенности, что нулевая гипотеза
не верна.
Углубленный анализ данных:
проверка гипотез о различиях –
непараметрические методы
В отношении одной переменной можно выполнять проверку
гипотезы по критерию хи-квадрат. Он показывает
действительно ли существует статистически значимая разница
между наблюдаемым числом случаев в каждой категории и
ожидаемым.
3) Критерий
серий – это критерий случайности для
дихотомической (двузначной) переменной. Эту проверку
выполняют, определяя, действительно ли порядок или
последовательность, в которой получены наблюдения,
случайны.
4) Биномиальный критерий – это статистический критерий
согласия для дихотомических переменных. Он проверяет
степень согласия наблюдаемого числа наблюдений в каждой
категории с числом наблюдений, ожидаемым в условиях
конкретного биномиального распределения.
2)
Углубленный анализ данных:
проверка гипотез о различиях –
непараметрические методы
1)
Две независимые выборки
Если необходимо сравнить различия в показателях центральной
тенденции двух генеральных совокупностей, исходя из наблюдений из
двух независимых выборок, а переменная измерена на основе
порядковой шкалы, то используют U – критерий Манна – Уитни.
Критерий Манна – Уитни – это статистический критерий для
переменной, измеренной с помощью порядковой шкалы, который
сравнивает различия в показателях положения двух совокупностей,
исходя из наблюдений, взятых из двух независимых выборок. При его
использовании две выборки объединяют и наблюдения ранжируют в
порядке возрастания. Критерий вычисляют как число повторений рангов
из одной выборки, которое стоит впереди рангов второй выборки. Если
выборки взяты из одной совокупности, распределение рангов из двух
выборок в ранжированном перечне должно быть случайным. Для малых
выборок вычисляют точное значение критерия, а для выборок большого
размера U распределение преобразуют в нормальное распределение Zстатистику, которую можно скорректировать с учетом совпадений
внутри рангов. Экспериментальное распределение U- статистики
свидетельствует о неслучайном характере, указывая на неравенство
двух групп.
Углубленный анализ данных:
проверка гипотез о различиях –
непараметрические методы
2)
3)
Двухвыборочный медиальный критерий – это
непараметрический
метод
проверки,
который
определяет, действительно ли две группы взяты из
совокупностей с одной и той же медианой. Он
использует
показатель
положения
каждого
наблюдения относительно медианы, а не ранг
каждого наблюдения.
Двухвыборочный критерий Колмогорова –
Смирнова – это непараметрический метод проверки,
относительно
того
действительно
ли
две
совокупности подчиняются одному и тому же закону
распределения. Этот критерий учитывает любые
различия между двумя распределениями, включая
медиану, вариацию, асимметрию.
Углубленный анализ данных:
проверка гипотез о различиях –
непараметрические методы
1)
2)
Парные выборки
Критерий парных сравнений Уилкоксона – это непараметрический
метод проверки, посредством которого анализируют разности между
наблюдениями, учитывая их величину. При его использовании
вычисляют разности между парами переменных и ранжируют
абсолютные значения разностей. На следующем этапе суммируют
положительные и отрицательные ранги и на основе положительных и
отрицательных рангов рассчитывают Z – статистику. В соответствии с
нулевой гипотезой z случайная величина, распределяемая по
нормальному закону. Значение медианы = 0, а дисперсии – 1 для
выборок большого размера. Этот критерий соответствует парному tкритерию.
Критерий знаков – это непараметрический критерий для изучения
разностей в показателях центральной тенденции двух генеральных
совокупностей на основе парных наблюдений, который только
сравнивает знаки разностей между парами переменных, но не
учитывает величину разностей. В случае двоичной переменной при
необходимости проверить разности в долях, можно использовать
критерий МакНемара или критерий хи-квадрат.
Скачать