Дисперсионный анализ

Дисперсионный анализ 1.1 Однофакторный дисперсионный анализ 1.1.1 Параметрический однофакторный дисперсионный анализ Пусть требуется проверить наличие влияния на результативный признак одного контролируемого фактора А, имеющего m уровней A j , j  1,2,...m . Наблюдаемые значения результативного признака Y на каждом из фиксированных уровней A j обозначим yij , i  1, n j , где n j - число объектов наблюдения. Можно также рассмотреть эту задачу как задачу проверки однородности нескольких генеральных совокупностей, а именно случайных величин 𝜉1 , 𝜉2 , … , 𝜉𝑚 , 𝐹𝜉1 (𝑥1 − 𝛼1 ), 𝐹𝜉2 (𝑥2 − 𝛼2 ), … , 𝐹𝜉𝑚 (𝑥𝑚 − 𝛼𝑚 ), где 𝛼1 . . 𝛼𝑚 −параметры сдвига. Для изучения случайных величин 𝜉1 , 𝜉2 , … , 𝜉𝑚 рассматриваем априорные выборки 𝜉1,𝑛1 , 𝜉2, 𝑛2 , … , 𝜉𝑚,𝑛𝑚 , где 𝜉𝑗,𝑛𝑗 , 𝑗 = 1. . 𝑚 Реализации априорных выборок представлены матрице: 𝑦11 𝑦21 y=( … 𝑦𝑛1 𝑦12 𝑦22 … 𝑦𝑛2 … 𝑦1𝑛 … 𝑦2𝑛 ) … … 𝑦𝑛𝑛 Где yij -Наблюдаемые значения результативного признака Y на каждом из фиксированных уровней A j . Любое наблюдение yij можно представить в виде: Апостериорная модель однофакторного дисперсионного анализа: 𝑦𝑖𝑗 = 𝑎 + 𝛼𝑗 + 𝑧𝑖𝑗 , 𝑗 = ̅̅̅̅̅̅ 1, 𝑚, 𝑖 = ̅̅̅̅̅̅ 1, 𝑛𝑗 где 𝑎 – некоторое общее среднее, 𝛼𝑗 – отклонение от среднего, вызванное влиянием фактора на j уровень, 𝑧𝑖𝑗 – величина отклонения 𝑦𝑖𝑗 от 𝑎 + 𝛼𝑗 Априорная модель: 𝑀1 – уровни фактора А фиксированы 𝑚 𝜉𝑖𝑗 = 𝑎 + 𝛼𝑗 + 𝜀𝑖𝑗 , где ∑ 𝛼𝑗 = 0 − отклонение 𝑗=1 𝑀2 – уровни фактора А случайны 𝜉𝑖𝑗 = 𝑎 + 𝛿𝑗 + 𝜀𝑖𝑗 Требования к 𝛿: 𝑀𝛿𝑗 = 0 𝑐𝑜𝑣(𝛿𝑗 , 𝛿𝑠 ) = 𝑀 ((𝛿𝑗 − 𝑀𝛿𝑗 )(𝛿𝑠 − 𝑀𝛿𝑠 )) = 𝑀𝛿𝑗 ∙ 𝛿𝑠 = 0, ∀ 𝑗 ≠ 𝑠 𝐷𝛿𝑗 = 𝑀𝛿𝑗2 = 𝜎 2 (один для всех уровней) 𝑐𝑜𝑣(𝛿𝑠 , 𝜀𝑖𝑗 ) = 𝑀𝛿𝑠 ∙ 𝜀𝑖𝑗 = 0 𝐷𝜉𝑖𝑗 = 𝜎𝜀2 𝐷𝛿𝑗 = 𝜎𝛿2 Требования на остаточную компоненту: Относительно  ij будем предполагать, что они распределены нормально и удовлетворяют следующим условиям: M ij  0 ; M ij  i ' j '  0 i  i' или j  j ' ; M ij2   2 - остаточная дисперсия. В зависимости от изучаемой модели относительно  j предполагаем: модель М1 –  j - фиксированные величины, такие что  j n j  0 и основная гипотеза H0:  j  0 j  1, m , то есть нет влияния фактора А на результативный признак; модель М2 –  j - случайные величины, удовлетворяющие условиям M j  0 ; M j j '  0 j  j ' ; M j  ij  0 i, j ; M 2j   2 - факторная дисперсия и основная гипотеза H0:  2  0 , то есть нет влияния фактора А на результативный признак. Для проверки основной гипотезы дисперсионного анализа, утверждающей, что нет влияние фактора А (уровней фактора А) на изменение результативного признака, вычислим следующие средние: 1 𝑛𝑗 𝑦̅∗𝑗 (𝑦𝑗,𝑛𝑗 ) = 𝑛 ∑𝑖=1 𝑦𝑖𝑗 - групповые средние (средние уровней A j ); 𝑗 𝑛 1 1 𝑗 𝑚 𝑦̅∗∗ (𝑦1,𝑛1 , 𝑦2,𝑛2 , … , 𝑦𝑚,𝑛𝑚 ) = 𝑦̅∗∗ = 𝑛 ∑𝑚 ̅∗𝑗 - общая средняя 𝑗=1 ∑𝑖=1 𝑦𝑖𝑗 = 𝑛 ∑𝑗=1 𝑛𝑗 ∗ 𝑦 m результативного признака, где N   n j . j 1 Определим две дисперсии: межгрупповую (дисперсию групповых средних) или факторную, обусловленную влиянием изучаемого фактора и внутригрупповую (остаточную), величина которой рассматривается как случайная. Необходимые суммы квадратов отклонений обозначим: Апостериорные суммы квадратов отклонений: 𝑛𝑗 𝑄факт (𝑦1,𝑛1 , 𝑦2,𝑛2 , … , 𝑦𝑚,𝑛𝑚 ) = ∑𝑚 ̅∗𝑗 − 𝑦̅∗∗ )2 = ∑𝑚 ̅∗𝑗 − 𝑦̅∗∗ )2𝑗=1 ∑𝑖=1(𝑦 𝑗=1 𝑛𝑗 ∗ (𝑦 факторная сумма квадратов отклонений; 𝑛𝑗 𝑄ост (𝑦1,𝑛1 , 𝑦2,𝑛2 , … , 𝑦𝑚,𝑛𝑚 ) = ∑𝑚 ̅∗𝑗 )2- остаточная сумма квадратов 𝑗=1 ∑𝑖=1(𝑦𝑖𝑗 − 𝑦 отклонений; 𝑛𝑗 𝑄общ (𝑦1,𝑛1 , 𝑦2,𝑛2 , … , 𝑦𝑚,𝑛𝑚 ) = ∑𝑚 ̅∗∗ )2 - общая сумма квадратов 𝑗=1 ∑𝑖=1(𝑦𝑖𝑗 − 𝑦 отклонений. Априорные суммы квадратов отклонений: 𝑛 𝑗 𝑄факт (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) = ∑𝑚 ̅∗𝑗(𝜉1,𝑛 𝑗=1 ∑𝑖=1(𝑦 1 ,𝜉2,𝑛2 , …,𝜉𝑚,𝑛𝑚 ) − 𝑦̅∗∗ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ))2 = ∑𝑚 ̅∗𝑗 (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) − 𝑗=1 𝑛𝑗 ∗ (𝑦 2 𝑦̅∗∗ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 )) - факторная сумма квадратов отклонений; 𝑛𝑗 𝑄ост (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) = ∑𝑚 ̅∗𝑗 (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ))2- остаточная 𝑗=1 ∑𝑖=1(𝜉𝑖𝑗 − 𝑦 сумма квадратов отклонений; 𝑛 𝑗 𝑄общ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) = ∑𝑚 ̅∗∗ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ))2𝑗=1 ∑𝑖=1(𝜉𝑖𝑗 − 𝑦 общая сумма квадратов отклонений. Легко проверить Qобщ  Qфакт  Qост Несмещенные оценки общей, факторной и остаточной дисперсий: 𝑄 𝑆 ^2 общ(𝜉 1,𝑛1 ,𝜉2,𝑛2 , …,𝜉𝑚,𝑛𝑚 ) 𝑆 ^2 факт(𝜉1,𝑛 ,𝜉2,𝑛 , …,𝜉𝑚,𝑛𝑚 ) 1 = общ(𝜉1,𝑛 ,𝜉2,𝑛 , …,𝜉𝑚,𝑛 ) 1 2 𝑚 𝑁−1 𝑄 = факт(𝜉1,𝑛 ,𝜉2,𝑛 , …,𝜉𝑚,𝑛 ) 1 2 𝑚 𝑚−1 2 𝑆 ^2 ост(𝜉 1,𝑛1 ,𝜉2,𝑛2 , …,𝜉𝑚,𝑛𝑚 ) = ; 𝑄ост (𝜉1,𝑛 ,𝜉2,𝑛 , …,𝜉𝑚,𝑛 ) Если влияние фактора отсутствует, то 1 2 𝑁−𝑚 2 S факт 2 𝑚 ; . и 2 S ост можно рассматривать как независимые оценки дисперсии  всей совокупности. Наоборот, если фактор оказывает существенное влияние на результативный 2 2 признак, то отношение S факт : S ост будет расти и превзойдет некоторый критический предел. Таким образом, первоначальную гипотезу Н0 можно 2 2 заменить такой Н0:  факт =  ост . Для проверки нулевой гипотезы рассмотрим статистику: 1 𝑄факт (𝜉1,𝑛1 , … , 𝜉𝑚,𝑛𝑚 ) 𝑚 𝐹(𝜉1,𝑛1 , … , 𝜉𝑚,𝑛𝑚 ) = − 1 = 1 𝑄 (𝜉 , … , 𝜉 ) 𝑚,𝑛𝑚 𝑛 − 𝑚 ост 1,𝑛1 = 𝑆^2 факт(𝜉1,𝑛1 ,𝜉2,𝑛2,…,𝜉𝑚,𝑛𝑚 ) ~𝐹(𝑚 − 1; 𝑛 − 𝑚) 𝑆^2 ост(𝜉1,𝑛1 ,𝜉2,𝑛2,…,𝜉𝑚,𝑛𝑚 ) распределенную, очевидно, по закону Фишера-Снедекора со  1  m  1 и  2  N  m степенями свободы. 𝑃(𝐹(𝜉) > 𝐹крит ) = 𝛼 𝑃(𝐹(𝜉) < 𝐹крит ) = 1 − 𝛼 𝐹крит представляет собой квантиль уровня 1 − 𝛼 Если Fнабл  Fкр ( , m  1, N  m) , то гипотеза не отвергается, то есть влияние фактора А на результативный признак не доказано. Если Fнабл  Fкр , то Н0 отвергается и с вероятностью ошибки  можно утверждать: влияние фактора А на результативный признак существенно. Если влияние фактора доказано, то можно проверить гипотезы: 1) Н0:  j   j ' - о равенстве двух средних выбранных уровней с помощью статистики 𝐹(𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) = (𝑦∗𝑗(𝜉1,𝑛 ,𝜉2,𝑛 − 𝑦∗𝑗′(𝜉1,𝑛 ,𝜉2,𝑛 , …,𝜉𝑚,𝑛 ) )2 𝑚 1 2 1 𝑄ост (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) 𝑛−𝑚 ~ 𝐹(1; 𝑛 − 𝑚) 1 = ∗ 2) 𝑛𝑗 𝑛𝑗′ 𝑛𝑗 + 𝑛𝑗′ 2 , …,𝜉𝑚,𝑛𝑚 ) , распределенной по закону Фишера-Снедекора с  1  1 и  2  N  m При проверке гипотезы Н0: а=а0 не пользуется: в случае модели М1 статистика 𝐹(𝜉1,𝑛 1 ,𝜉2,𝑛2 , …,𝜉𝑚,𝑛𝑚 ) = 𝑛(𝑦∗∗ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) − 𝑎0 )2 𝑄факт (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) 𝑛−𝑚 ~ 𝐹(1; 𝑛 − 𝑚) имеющая F – распределение с  1  1 и  2  N  m ; в случае модели М2 и nj  n 𝐹(𝜉1,𝑛 1 ,𝜉2,𝑛2 , …,𝜉𝑚,𝑛𝑚 ) = 𝑁(𝑦∗∗ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) − 𝑎0 )2 𝑄факт (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) 𝑚−1 статистика ~ 𝐹(1; 𝑚 − 1) имеющая F – распределение с  1  1 и  2  m  1 . Несмещенную точечную оценку для факторной дисперсии, в случае отклонения нулевой гипотезы, можно уточнить N (m  1) 2 2 2 . Sˆфакт  ( Sˆфакт  Sˆост ) 2 N   n 2j уточ Интервальная оценка для D( ij )   2 с надежностью  Qост Qост .  2  2 1  2 1  x ( , N  m) x ( , N  m) 2 2 Практическая реализация Предполагая, что фактор имеет случайные уровни, а значения результативного признака распределены нормально, требуется: А) проверить при α=0,05 существенность влияния фактора на результативный признак; Б) проверить при α=0,05 существенность влияния фактора на втором и третьем уровнях на результативный признак; В) проверить при α=0,05 гипотезу относительно равенства общей средней заданному номиналу. Исследовалась зависимость объема выручки (млн. руб.) от расходов на рекламу (тыс. руб.). Были получены следующие данные: Таблица 1 - Исходные данные Номер исследования 1 150-200 6,6 2 3 4 5,9 6,4 7,1 Расходы на рекламу 200-250 250-300 6,0 8,4 6,8 7,4 8,1 5 7,5 6,9 7,3 300-400 8,7 7,8 7,1 7,6 7,7 Для проверки существенности влияния расходов на рекламу на объем выручки выдвинем гипотезу 𝐻0 и альтернативную 𝐻1 : 2 2 (нет влияния расходов на рекламу на объем выручки); H 0 :  факт   ост В основе проверки гипотезы лежит сравнение факторной и остаточной дисперсий. Для проверки нулевой гипотезы воспользуемся статистикой Qфакт (1n1 , 2 n2 ,...,  m ,nm ) 2 Sˆфакт (1n1 , 2 n2 ,...,  m,nm ) m 1 F (1n1 , 2 n2 ,...,  m,nm )   2  , где m  4, N  17 , Q (  S ост (1n1 , 2 n2 ,...,  m,nm ) ост 1n1 , 2 n2 ,...,  m , nm ) N m которая при справедливости гипотезы 𝐻0 имеет распределение Фишера-Снедекора со 𝜈1 = 3 𝜈2 = 13 степенями свободы. Если Fнабл  Fкр (m  1, N  m) , то гипотеза не отвергается, то есть влияние расходов на рекламу на объем выручки не доказано. Если Fнабл  Fкр , то Н0 отвергается и с вероятностью ошибки  можно утверждать, что влияние расходов на рекламу на объем выручки существенно. Для проверки гипотезы рассчитаем оценки факторной, остаточной и общей дисперсий. Qфакт  4,06 Qост  5,69 Qобщ  9,75 2 Sˆфакт  2 Sˆост  Fнабл  1 1 Qфакт   4,06  1,35 m 1 4 1 1 1 Qост   5,69  0,43 N m 17  4 1,35  3,09 0,43 Fкр  3,41(0,05;3;17) Так как Fнабл.  Fкр . , следовательно, нулевая гипотеза принимается, то есть, нет влияния расходов на рекламу на объем выручки. Проверим результаты в пакете STATISTICA. Для реализации однофакторного непараметрического дипсперионного анализа в пакете STATISTICA воспользуемся функцией One-way ANOVA – Quick specs dialog.Результаты представлены в таблице 2 а так же в приложении 1. Таблица 2-Результаты проверки нулевой гипотезы об отсутствии влияния расходов на рекламу от объема выручки. Effect SS a 4,063 Degr. Of MS freedom 3 1,354 F p 3,089 0,064 Здесь приведены факторная сумма квадратов 4,063, несмещенная оценка факторной дисперсии 1,354, выборочное значение статистики 3,089 и достигаемый уровень значимости 0,064. Поскольку 0,064 > 0,05, то нулевая гипотеза об отсутствии влияния фактора на результат принимается (Приложение А, рисунок 1, таблица 2) На рисунке 2 показан график оценок средних на каждом уровне факторе вместе с доверительными интервалами для них Таблица 3-Результаты дисперсионного анализа представленные на рисунке 3. 𝑅̂ y 0,645 ̂2 𝑅 2 𝑅̂несм 0,416 0,281 SS Df 4,063 3 MS SS Df MS F Model Residual Residual Residual 1,354 5,7 13 0,44 3,089 p 0,065 Такая форма дает возможность вывести факторную и остаточную суммы квадратов (𝑄факт = SS Model = 4,063 и 𝑄ост =SS Residual = 5,7 соответственно), несмещенные оценки факторной и остаточной дисперсий 2 2 (𝑆̂факт =MS Model =1,354 и 𝑆̂ост =MS Residual =0,44), значение статистики F = 3,089 и достигаемый уровень значимости p=0,064. Таблица 4-Наиболее полный результат дисперсионного анализа представленный в приложении 4 . Degr. Of y SS y MS yF yP Intercept a Error Total Freedom 1 3 13 16 881,3 4,06 5,7 9,76 881,3 1,354 0,44 2010,16 3,09 0,000 0,064 Для реализации однофакторного дисперсионного анализа в пакете STATA воспользуемся функцией Statistics – Linear models and related – ANOVA/MANOVA – One –way ANOVA. Таблица 5-Результаты выполнения однофакторного дисперсионного анализа представленные на рисунке 5 Var2 1 2 3 4 Total Mean 6,5 7,075 7,559 7,8 7,253 Std. Dev. 0,4966 0,892 0,555 0,668 0,78 Freq. 4 4 5 4 17 В столбце Mean приведены средние на каждом уровне фактора y*1=6,5, y*2=7,075, y*3=7,56, y*4=7,8; Std. Dev. – оценки среднеквадратических отклонений; Freq. – количество наблюдений на каждом уровне фактора n1=4, n2=4, n3=5, n4=4. В строке Total приведены оценки среднего y**=7,253, оценка среднеквадратического отклонения 0,78 и общее число наблюдений N = 17. В строке Between groups приведены факторная сумма квадратов (обозначена SS) и несмещенная оценка факторной дисперсии (обозначена MS). В строке Within groups приведены остаточная сумма квадратов (обозначена SS) и несмещенная оценка остаточной дисперсии (обозначена MS). В строке Total приведены общая сумма квадратов (обозначена SS) и несмещенная оценка общей дисперсии (обозначена MS). Значение статистики Фишера-Снедекора составило 3,09, достигаемый уровень значимости 0,0645. Поскольку 0,0645> 0,05, то на уровне значимости 5% нулевая гипотеза об отсутствии влияния фактора на результат принимается. Таблица 6-Результаты выполнения команды anova представленные на рисунке 6 source Partial ss df ms f Prob>f Model 3,988 3 1,33 2,83 0,0836 Var2 3,988 3 1,33 2,83 0,836 Residual Total 5,646 9,63 13 15 0,47 0,64 1.2 Двухфакторный дисперсионный анализ 1.2.1 Параметрический двухфакторный дисперсионный анализ (без повторений) Будем исследовать влияние двух факторов А и В на результативный нормально распределенный признак Y; Ai , i  1, m ; B j , j  1, l - уровни факторов. Рассмотрим два случая. Пусть каждой паре уровней факторов Ai и B j соответствует одно наблюдаемое значение результативного признака yij , то есть наблюденные значение можно представить в виде матрицы с двумя входами. 𝐵1 𝑦11 𝑦 y=( 21 … 𝑦𝑛1 𝐵2 𝐵3 𝑦12 … 𝑦1𝑛 𝐴 1 𝑦22 … 𝑦2𝑛 ) 𝐴2 … … 𝑦𝑛2 … 𝑦𝑛𝑛 𝐴3 Где yij наблюдаемое значение результативного признака для каждой пары уровней факторов Ai и B j . В этом случае апостериорная модель дисперсионного анализа будем рассматривать в виде: 𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝑧𝑖𝑗 𝑖 = ̅̅̅̅̅̅ 1, 𝑚, 𝑗 = ̅̅̅̅ 1, 𝑙 Априорная модель: 𝜂𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝜀𝑖𝑗 , где а – общая генеральная средняя;  ij - независимые нормально распределенные остатки, с M ij  0 и D ij   2 , i  1, m ; j  1, l ;  i ,  j - отклонения от а, обусловленные влиянием соответствующих уровней факторов А и В. Если уровни факторов Ai и B j фиксированные (модель М1), то  i и  j есть неслучайные величины, удовлетворяющие очевидным условиям m  i  0 ; i 1 l  j  0. j 1 Ненулевые гипотезы формулируются в виде: Н0:  i  0 , i  1, m ; Н0:  j  0 , j  1, l ; Если уровни факторов Ai и B j случайные, то  i и  j будем считать независимыми между собой и с  ij случайными величинами распределенными нормально. M j  M j  0 и D i   2 ; D j   2 . Отсутствие влияния уровней факторов на изменения результативного признака – нулевые гипотезы – формально записывается в виде: Н0:  2  0 ; Н0:  2  0 . Если уровни фактора А – случайные, а В – фиксированные (смешанная модель), то  i независимые между собой и с  ij случайные величины с M j  0 , D i   2 ;  j - неслучайные величины, удовлетворяющие условию  j  0. Нулевые гипотезы об отсутствии влияния уровней факторов на изменения результативного признака формулируются в виде: Н0:  2  0 ; Н0:  j  0 , j  1, l . Аналогично строиться смешанная модель, в которой фактор А имеет фиксированные уровни, а фактор В – случайные. Построим разложение для: m l m l Qобщ    ( yij  y** )    ( yij  y* j  yi *  y* j  yi *  y**  y**  y** ) 2  2 i 1 j 1 m i 1 j 1 l    (( y* j  y** )  ( yi *  y** )  ( yij  y* j  yi *  y** )) 2  i 1 j 1 m l    (( y* j  y** ) 2  ( yi*  y** ) 2  ( yij  y* j  yi*  y** ) 2  i 1 j 1  2( y* j  y** )( yi*  y** )  2( y* j  y** )( yij  y* j  yi*  y** )  l l i 1 j 1  2( yi *  y** )( yij  y* j  yi *  y** ))  m ( y* j  y** ) 2  l  ( yi *  y** ) 2  m l    ( yij  y* j  yi *  y** )  QB  Q A  Qост i 1 j 1 m где QA  l  ( yi *  y** ) 2 ; i 1 l QB  m  ( y* j  y** ) 2 ; j 1 m l Qост    ( yij  y* j  yi *  y** ) 2 i 1 j 1 В случае двухфакторного дисперсионного анализа с повторениями для каждого сочетания уровней А и В имеется ровно 𝑝 наблюдений матрица 11: 𝐵1 𝑦111 , 𝑦112 , … 𝑦11𝑝 … ( 𝑦𝑚11 , 𝑦𝑚12 , … 𝑦𝑚1𝑝 𝑦𝑖𝑗𝑘 𝐵2 𝑦121 , 𝑦122 , … 𝑦12𝑝 … 𝑦𝑚21 , 𝑦𝑚22 , … 𝑦𝑚2𝑝 𝐵3 … 𝑦1𝑙1 , 𝑦1𝑙2 , … 𝑦1𝑙𝑝 𝐴1 … ) 𝐴2 … 𝑦𝑚𝑙1 , 𝑦𝑚𝑙2 , … 𝑦𝑚𝑙𝑝 𝐴3 Апостериорная модель 𝑖 = ̅̅̅̅̅̅ 1, 𝑚 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + (𝛼𝛽)𝑖𝑗 + 𝑧𝑖𝑗𝑘 𝑗 = ̅̅̅̅ 1, 𝑙 𝑘 = ̅̅̅̅̅ 1, 𝑝 Априорная модель 𝜂𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝜀𝑖𝑗 Для проверки нулевой гипотезы об отсутствии влияния одного из факторов D  A; B рассматриваем статистику QD m, D  A n 1 , где nD   F D Qост l , D  B N  nD распределенную, очевидно, по закону Фишера-Снедекора с  1  nD  1 и  2  N  n D степенями свободы. 1.2.2 Параметрический двухфакторный дисперсионный анализ (без повторений) В общем случае, когда для каждой пары уровней Ai и B j имеется n(n>1) наблюдений. 𝐵1 𝐵2 𝐵3 y111, y112, … , y11n y121, y122, … , y12n … y1𝑛1, y1n2, … , y1nn 𝐴 … y2l1, y2l2, … , y2ln 𝐴1 y211, y212, … , y21n y221, y222, … , y22n ( ) 2 … … 𝐴3 ym11, ym12, … , ym1n ym21, ym22, … , ym2n … yml1, yml2, … , ymln Где yijk - к-ое наблюдение результативного признака для i-го уровня фактора А и j-го уровня фактора В; Модель дисперсионного анализа представим в виде yijk  a   i   j  ( )ij   ijk , i  1, m j  1, l , k  1, n , а – общая генеральная средняя;  i ,  j - отклонения от а, обусловленные влиянием соответствующих уровней Аi и Вj; ( )ij - отклонения от а, обусловленные совместным влиянием уровней факторов А и В;  ijk  (0, ) и независимы между собой. Если уровни факторов Аi и Вj фиксированные (модель М1), то отклонения  i ,  j и ( )ij - неслучайные величины, удовлетворяющие условиям: m l m l i 1 j 1 i 1 j 1  i  0 ;   j  0 ;  ( )ij  0 ;  ( )ij  0 . Сформулируем гипотезы об отсутствии влияния: фактора А – Н0:  i  0 ; i  1, m ; фактора В – Н0:  j  0 ; j  1, l ; совместного влияния факторов А и В – Н0: ( ) ij  0 ; i  1, m ; j  1, l . В случае модели М2  i ,  j и ( )ij есть независимые между собой и с  ijk случайные величины, распределенные нормально с нулевым 2 математическим ожиданием и с дисперсиями  2 ,  2 и   . Сформулируем нулевые гипотезы от отсутствии влияния: фактора А – Н0:  2  0 ; фактора В – Н0:  2  0 ; совместного влияния 2 факторов А и В – Н0:    0. Для смешанной модели, когда, к примеру, уровни фактора А случайные, а фактора В – фиксированные, отклонения  i и ( )ij независимые между собой и с  ijk нормально распределены случайные величины с нулевыми математическими ожиданиями, с дисперсиями  2 и 2 , при этом   m  ( )ij  0 , а i 1 l  ( )ij  0 ; j 1 l  j  0. j 1 Нулевые гипотезы об отсутствии влиянием факторов имеют вид: Фактора А – Н0:  2  0 ; Фактора В – Н0:  j  0 ; j  1, l ; 2 совместного влияния факторов А и В – Н0:    0 .` Аналогично строится другая смешанная модель. Разложив, как и при n=1, общую сумму квадратов на составляющие: Qобщ  QA Q B QAB  Qост , где m l n 2 Qобщ     ( y ijk  y***) ; i 1 j 1k 1 m QA  l  n   ( y i 1 l 2 ; i** y***) 2 Q B  m  n   ( y * j * y ***) ; m j 1 l Q AB  n    ( y i 1 j 1 m l n ij *  y i**  y* j* y***) 2 ; 2 Qост     ( y ijk  y* j *) ; i 1 j 1k 1 Практическая реализация Двухфакторный дисперсионный анализ без повторений По данным индивидуального задания при α=0,05: А) проверить нулевую гипотезу об отсутствии влияния первого фактора на результативный признак; Б) проверить нулевую гипотезу об отсутствии влияния второго фактора на результативный признак; В) проверить нулевую гипотезу об отсутствии совместного влияния факторов на результативный признак В двухфакторном комплексе приводится сменная выработка рабочего в зависимости от типа станка (А) и стажа его работы (В). При α=0,01 проверить влияние факторов А и В на сменную выработку рабочего: Таблица 12-Исходные данные. В1 В2 В3 А1 122 128 162 А2 128 118 160 А3 126 116 165 Для реализации двухфакторного дисперсионного анализа без повторений в пакете STATISTICA воспользуемя функцией Statistics – Nonparametrics-Comparing multiple dep. Samples (variables)-Variables (var1-var3)-Summary. Таблица 13-Проверка влияния фактора A (рисунок 7): Average rank Sum of ranks mean Std. Dev. Var1 3,0000 27,0000 136,1111 20,12737 Var2 1,5000 13,0000 2,00000 0,86603 Var3 1,5000 13,5000 2,00000 0,86603 Фактор А (тип станка) оказывает влияние на результативный признак, так как значимость (0,04979) меньше заданного уровня 0,05, то нулевая гипотеза об отсутствии влияния фактора на результат принимается Для реализации двухфакорного диспреснионного анализа в пакете STATA вопользуемся функцией Statistics – Lineat models and related – ANOVA/MANOVA – Analysis of variance and covariances (рисунок 8, таблица 14). Таблица 14-Реализация двухфакторного дисперсионного анализа в пакете STATA source Model Partial SS DF 3133,77778 4 MS 783,44444 f 29,26 Prob>f 0,0032 Var2 Var3 Residual Total 6,88889 3126,8889 107,1111 3240,88889 3,444444 0,13 1563,44444 58,39 26,777778 405,11111 0,8828 0,0011 2 2 4 8 В строке var2 приведены факторная сумма квадратов по фактору стаж работы (фактор B) 𝑄𝐵 = 6,88889 (обозначена Partial SS) и несмещенная оценка факторной дисперсии по фактору А 𝑆̂𝐵2 = 3,444444 (обозначена MS). В строке var3 приведены факторная сумма квадратов по фактору тип станка (фактор A) 𝑄А =3126,8889 и несмещенная оценка факторной дисперсии по фактору А 𝑆̂А2 = 1563,44444. В строке Residual приведены остаточная сумма квадратов 𝑄ост = 107,1111 (обозначена Partial SS) и несмещенная оценка остаточной 2 дисперсии 𝑆̂ост = 26,777778 (обозначена MS). В строке Total приведены общая сумма квадратов 𝑄общ = 3240,88889 2 (обозначена SS) и несмещенная оценка общей дисперсии 𝑆̂общ = 405,11111 (обозначена MS). Значение статистики Фишера-Снедекора для проверки гипотезы об отсутствии влияния фактора А приведено в строке Столбцы, столбец F – оно составило 58,39. В столбце Prob > F приведено соответствующее p-value (достигаемый уровень значимости) 0,0011< 0,05, нулевая гипотеза об отсутствии влияния отвергается, есть влияние фактора А. Значение статистики Фишера-Снедекора для проверки гипотезы об отсутствии влияния фактора В приведено в строке Строки, столбец F – оно составило 0,13. В столбце Prob > F приведено соответствующее p-value (достигаемый уровень значимости) 0,8828>0,05, нулевая гипотеза об отсутствии влияния принимается, нет влияния фактора В. Двухфакторный дисперсионный анализ с повторениями Изучается зависимость заработной платы выпускника вуза (тыс. руб.) на первом месте работы в зависимости от направления подготовки и способностей студента Таблица 15- Исходные данные Низкие На 50; 40;30;20;25;60 правлен ие 1 На 15;20;15;15;20;15;16;16; правлен 17;20;21;22 ие 2 На 15;15;15;16;17;19;9;8;10 правлен ;10;12 ие 3 На 20;25;25;25;25;24;22;24 правлен ие 4 Средние 45;60;50;50;50;50 Высокие 50;45;70;80;100;120; 120; 20;20;25;30;35;35 ;35; 30;35;35;30;20;12;15; 15;16;17;18 10;12;15;17;16;18 ;30;30;24 15;20;30;30;32;25;25 25;22;30;30;30 25;22;24;26;23;30;29; 30;35; 40;35;33;34;36;36;38 Для реализации двухфакторного дисперсионного анализа с повторениями в пакете STATA воспользуемся функцией anova var1 var2 var3#var3 (рисунок 9, таблица 16). Таблица 16-Реализация двухфакторного дисперсионного анализа с повторениями в пакете STATA source Model Var2 Var3 Partial ss 25194,2405 20369,5811 3845,94951 df 5 3 2 MS 5038,84809 6789,86036 1922,97476 F 34,42 46,38 13,14 Prob>F 0,000 0,000 0,000 Residual Total 14493,15 99 39687,3905 104 146,395455 381,609524 В столбце Prob > F приведено соответствующее p-value (достигаемый уровень значимости) 0,000 < 0,05. Значит, есть влияние стажа работы, влияние вида станка, а так же эффекта их взаимодействия. Приложение А Рисунок 1 Рисунок 2 Рисунок 3 Рисунок 4 Рисунок 5 Рисунок 6 Рисунок 7 Рисунок 8 Рисунок 9

Дисперсионный анализ

Похожие документы

Разделы

Поддержка

Дисперсионный анализ

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib