Дисперсионный анализ: t – тест. Дисперсионный анализ представляет собой совокупность методов, предназначенных для сравнения средних значений по различным наборам данных (выборкам). Суть анализа заключается в том, что если средние значения по выборкам (т.е. средние значения по результатам наблюдений) равны между собой, то влияние факторов, вызвавших эти результаты по группам, одинаково. Если же средние по выборкам не равны между собой, это убедительно доказывает различное влияние факторов на сформированные группы и, соответственно, результаты по этим группам. Дисперсионный анализ позволяет ответить на вопросы следующего характера: 1. Различаются ли разные сегменты с точки зрения потребления товара? 2. Имеется ли различие в оценках торговой марки среди разных групп респондентов? 3. Зависят ли намерения потребителей приобрести товар от разницы в уровнях цен? 4. Влияет ли осведомленность потребителей о магазине на их предпочтения к данному магазину? 5. Различается ли отношение разных категорий посредников к политике распределения компании? 6. Какому из партнеров отдать предпочтение, исходя их показателей качества поставляемой продукции? В зависимости от количества рассматриваемых данных, используются различные методы дисперсионного анализа. 1. t – тест для одной выборки. 2. t – тест для двух зависимых выборок. 3. t – тест для двух независимых выборок. 4. Для трех и более выборок применяется однофакторный или многофакторный дисперсионный анализ. Дисперсионный анализ Одна выборка Две зависимые выборки Две независимые выборки t – тест для одной выборки, двух зависимых или двух независимых выборок Три и более выборок, один фактор Три и более выборок, несколько факторов одно- или много- факторный дисперсионный анализ t – тест состоит в расчете t- статистики (коэффициента Стьюдента) по имеющимся данным, сравнение его с табличным значением и формулированием вывода о равенстве средних. 1. t – тест для одной выборки. Для проведения t – теста необходимо рассчитать среднее значение по выборке (X) и стандартную ошибку выборки (Sx). t- статистика находится по формуле: Для среднего t Для доли признака t Стандартная ошибка среднего Стандартная ошибка доли SХ = Sр = n р(1 - р) n X Sx S σ – ст. отклонение n - объем выборки ρ - доля изучаемого признака где μ – задаваемое для сравнения среднее значение генеральной совокупности; π – задаваемое для сравнения значение доли признака в генеральной совокупности; Для сравнения с табличным значением используется абсолютное значение t, т.е. «по модулю». t - статистика показывает на сколько стандартных ошибок отличаются между собой средние значения по выборке (Х) и генеральной совокупности (μ). Поскольку при 95% уровне достоверности значение t =1,96, то существует эмпирическое правило, что «при t >2 нулевая гипотеза отклоняется», т.е. существует убедительное доказательство того, что среднее значение по выборке отличается от среднего значения генеральной совокупности. Фактически, t – тест для одной выборки сводится к процедуре проверки гипотезы о равенстве выборочного среднего среднему генеральной совокупности (см. «Проверка гипотез»). 2. t – тест для двух зависимых выборок. t – тест в данном случае проводится для сравнения средних значений по двум выборкам (двум наборам данных), при условии, что эти данные «связаны между собой естественным образом». Такая ситуация возникает в исследованиях типа «до и после», где результаты измерения рассматриваются «до» и «после» некоторого вмешательства (например, просмотр рекламы, проведение тренинга, регулировка оборудования и т.д.), причем в обеих ситуациях в исследовании принимают участие те же самые респонденты (или то же самое оборудование). В случае с двумя зависимыми выборками t – тест можно свести к проверке для одной выборки. Для этого нужно перейти к работе с «разностями», т.е. свести разности значений результатов «до и после» свести в одну группу (выборку). Далее вычисляются среднее значение по «разности (ХΔ)», стандартная ошибка для «разности (Sx)» и рассчитывается t – статистика. t X Sx Если вычисленное значение t – статистики по абсолютному значению больше t – значения по таблице, то это является убедительным доказательство того, что различие в средних имеет место, т.е. подтверждается влияние внешнего фактора. Пример. Оценка эффективности рекламы. С выборкой респондентов из 15 человек провели опрос до и после показа рекламного ролика с целью выяснения наличия в нем положительного эмоционального эффекта. Респонденты отмечали свои ощущения по шкале от 1 до 5, что означало «безразличное» и «восторженное» отношение от просмотра. Результаты опроса указаны в таблице: Респондент № 1 №2 №3 №4 №5 №6 №7 №8 №9 № 10 № 11 № 12 № 13 № 14 № 15 До 3 2 2 4 2 2 1 3 3 2 5 2 4 3 4 После 2 2 2 5 4 1 1 5 4 4 5 3 5 5 4 Решение. Поскольку выборки являются «зависимыми», то влияние рекламы на респондентов оценивается через «разности» результатов наблюдений. До После Разность, (Δ) Респондент № 1 3 2 -1 №2 2 2 0 №3 2 2 0 №4 4 5 1 №5 2 4 2 №6 2 1 -1 №7 1 1 0 №8 3 5 2 №9 3 4 1 № 10 2 4 2 № 11 5 5 0 № 12 2 3 1 № 13 4 5 1 № 14 3 5 2 № 15 4 4 0 Объем выборки n = 15 Среднее ХΔ= 0,667 Ст. отклонение σ=1,047 Ст. ошибка Sх =0,27 Вычисляем t - статистику: t X 0,667 2,47 Sx 0,27 t – значение (коэффициент Стьюдента) по таблице для выборки n = 15 и уровне достоверности 95% составляет 2,145. Результат вычисления в Excel. Парный двухвыборочный t-тест для средних Переменная 1 Среднее Дисперсия Наблюдения Корреляция Пирсона Гипотетическая разность средних df t-статистика Переменная 2 2,8 3,466666667 1,171428571 2,266666667 15 15 0,718892706 0 14 -2,467175819 P(T<=t) одностороннее 0,013565808 t критическое одностороннее 1,761310115 P(T<=t) двухстороннее 0,027131615 t критическое двухстороннее 2,144786681 Поскольку tстат > tтабл , можно сделать вывод, что рекламный ролик имел влияние (эффективность) на респондентов. Т.е. по результатам t – теста нулевая гипотеза отклоняется и принимается альтернативная гипотеза. Команды на выполнение t-теста в Excel: «Сервис» - «Анализ данных» - «Парный двухвыборочный t-тест для средних». 3. t – тест для двух независимых выборок. t – тест в данном случае проводится для сравнения средних значений по двум выборкам (двум наборам данных), в ситуации, когда результаты в выборках не могут быть «естественным образом сведены в пары». Например, имеются данные по предприятиям различных отраслей, результаты по респондентам разных специальностей или возрастных групп, оценки качества продукции разных технологических линий. В таких случаях нельзя сводить значения в одну группу, необходимо работать с двумя выборками. Расчет t – статистики для независимых выборок: t X X 1 X 2 , Sx Sx где S x 12 22 n1 n2 - для выборок большого размера (более 30). Имеет широкое применение на практике. (n 1 - 1) * 12 (n2 1) * 22 или S x n1 n2 2 1 1 * - для выборок n1 n2 малого размера (< 30). В дальнейшем tстат и tтабл , сравниваются между собой и делается вывод о равенстве средних двух независимых выборок. Пример. Рассмотрите стоимость ухода за одним ребенком в дошкольных учреждениях в центре города и за его пределами. Сделайте вывод о соотношении этих показателей. В центре города, $ В других районах города, $ 400 500 625 425 440 300 550 350 600 550 500 475 325 350 350 Решение. В данном случае изучаются две независимые выборки малого размера. Предварительные вычисления: В центре города, $ В других районах города, $ 400 500 625 425 440 300 550 350 600 550 500 475 325 350 350 Объем выборки n1 = 6 n2 = 9 Среднее Х1 = 519,16 Х2 = 402,77 Ст. отклонение σ1 = 88,91 σ2 = 87,9 (n 1 - 1) * 12 (n2 1) * 22 Таким образом, S x n1 n2 2 (6 - 1) * 88,912 (9 1) * 87,92 1 1 Sx * 46,53 692 6 9 Следовательно, X X 1 X 2 519,16 402,77 2,501 Sx Sx 46,53 Табличное значение tтабл = 2,160 t 1 1 * n1 n2 Поскольку tстат > tтабл , можно сделать вывод, что цены по уходу за ребенком в центре города и в других районах значимо отличаются (в центре города цены выше). Результат вычисления в Excel. Двухвыборочный t-тест с одинаковыми дисперсиями Переменная 1 Переменная 2 Среднее 519,1666667 402,7777778 Дисперсия 7904,166667 7725,694444 6 9 Наблюдения Объединенная дисперсия Гипотетическая разность средних df 7794,337607 0 13 t-статистика 2,501342522 P(T<=t) одностороннее 0,013260775 t критическое одностороннее 1,770933383 P(T<=t) двухстороннее 0,026521551 t критическое двухстороннее 2,160368652 Команды на выполнение t-теста в Excel: 1. Для малых выборок: «Сервис» - «Анализ данных» - «Двухвыборочный одинаковыми дисперсиями». 2. Для больших выборок: «Сервис» - «Анализ данных» - «Двухвыборочный различными дисперсиями». t-тест с t-тест с