Uploaded by Мур Мяф

Дисперсионный анализ

advertisement
Дисперсионный анализ
1.1 Однофакторный дисперсионный анализ
1.1.1 Параметрический однофакторный дисперсионный анализ
Пусть требуется проверить наличие влияния на результативный признак
одного контролируемого фактора А, имеющего m уровней A j , j  1,2,...m .
Наблюдаемые значения результативного признака Y на каждом из
фиксированных уровней A j обозначим yij , i  1, n j , где n j - число объектов
наблюдения. Можно также рассмотреть эту задачу как задачу проверки
однородности нескольких генеральных совокупностей, а именно случайных
величин
𝜉1 , 𝜉2 , … , 𝜉𝑚 ,
𝐹𝜉1 (𝑥1 − 𝛼1 ), 𝐹𝜉2 (𝑥2 − 𝛼2 ), … , 𝐹𝜉𝑚 (𝑥𝑚 − 𝛼𝑚 ),
где
𝛼1 . . 𝛼𝑚 −параметры сдвига.
Для изучения случайных величин 𝜉1 , 𝜉2 , … , 𝜉𝑚 рассматриваем априорные
выборки 𝜉1,𝑛1 , 𝜉2, 𝑛2 , … , 𝜉𝑚,𝑛𝑚 , где 𝜉𝑗,𝑛𝑗 , 𝑗 = 1. . 𝑚
Реализации априорных выборок представлены матрице:
𝑦11
𝑦21
y=(
…
𝑦𝑛1
𝑦12
𝑦22
…
𝑦𝑛2
… 𝑦1𝑛
… 𝑦2𝑛
)
…
… 𝑦𝑛𝑛
Где yij -Наблюдаемые значения результативного признака Y на каждом
из фиксированных уровней A j .
Любое наблюдение yij можно представить в виде:
Апостериорная модель однофакторного дисперсионного анализа:
𝑦𝑖𝑗 = 𝑎 + 𝛼𝑗 + 𝑧𝑖𝑗 , 𝑗 = ̅̅̅̅̅̅
1, 𝑚, 𝑖 = ̅̅̅̅̅̅
1, 𝑛𝑗
где 𝑎 – некоторое общее среднее, 𝛼𝑗 – отклонение от среднего,
вызванное влиянием фактора на j уровень, 𝑧𝑖𝑗 – величина отклонения 𝑦𝑖𝑗 от
𝑎 + 𝛼𝑗
Априорная модель:
𝑀1 – уровни фактора А фиксированы
𝑚
𝜉𝑖𝑗 = 𝑎 + 𝛼𝑗 + 𝜀𝑖𝑗 , где ∑ 𝛼𝑗 = 0 − отклонение
𝑗=1
𝑀2 – уровни фактора А случайны
𝜉𝑖𝑗 = 𝑎 + 𝛿𝑗 + 𝜀𝑖𝑗
Требования к 𝛿:
𝑀𝛿𝑗 = 0
𝑐𝑜𝑣(𝛿𝑗 , 𝛿𝑠 ) = 𝑀 ((𝛿𝑗 − 𝑀𝛿𝑗 )(𝛿𝑠 − 𝑀𝛿𝑠 )) = 𝑀𝛿𝑗 ∙ 𝛿𝑠 = 0, ∀ 𝑗 ≠ 𝑠
𝐷𝛿𝑗 = 𝑀𝛿𝑗2 = 𝜎 2 (один для всех уровней)
𝑐𝑜𝑣(𝛿𝑠 , 𝜀𝑖𝑗 ) = 𝑀𝛿𝑠 ∙ 𝜀𝑖𝑗 = 0
𝐷𝜉𝑖𝑗 = 𝜎𝜀2
𝐷𝛿𝑗 = 𝜎𝛿2
Требования на остаточную компоненту:
Относительно  ij будем предполагать, что они распределены нормально
и удовлетворяют следующим условиям: M ij  0 ; M ij  i ' j '  0 i  i' или
j  j ' ; M ij2   2 - остаточная дисперсия.
В зависимости от изучаемой модели относительно  j предполагаем:
модель М1 –  j - фиксированные величины, такие что
 j n j  0
и
основная гипотеза H0:  j  0 j  1, m , то есть нет влияния фактора А на
результативный признак;
модель М2 –  j - случайные величины, удовлетворяющие условиям M j  0 ; M j j '  0 j  j ' ; M j  ij  0 i, j ; M 2j   2 - факторная
дисперсия и основная гипотеза H0:  2  0 , то есть нет влияния фактора А на
результативный признак.
Для проверки основной гипотезы дисперсионного анализа,
утверждающей, что нет влияние фактора А (уровней фактора А) на изменение
результативного признака, вычислим следующие средние:
1 𝑛𝑗
𝑦̅∗𝑗 (𝑦𝑗,𝑛𝑗 ) = 𝑛 ∑𝑖=1
𝑦𝑖𝑗 - групповые средние (средние уровней A j );
𝑗
𝑛
1
1
𝑗
𝑚
𝑦̅∗∗ (𝑦1,𝑛1 , 𝑦2,𝑛2 , … , 𝑦𝑚,𝑛𝑚 ) = 𝑦̅∗∗ = 𝑛 ∑𝑚
̅∗𝑗 - общая средняя
𝑗=1 ∑𝑖=1 𝑦𝑖𝑗 = 𝑛 ∑𝑗=1 𝑛𝑗 ∗ 𝑦
m
результативного признака, где N   n j .
j 1
Определим две дисперсии: межгрупповую (дисперсию групповых
средних) или факторную, обусловленную влиянием изучаемого фактора и
внутригрупповую (остаточную), величина которой рассматривается как
случайная. Необходимые суммы квадратов отклонений обозначим:
Апостериорные суммы квадратов отклонений:
𝑛𝑗
𝑄факт (𝑦1,𝑛1 , 𝑦2,𝑛2 , … , 𝑦𝑚,𝑛𝑚 ) = ∑𝑚
̅∗𝑗 − 𝑦̅∗∗ )2 = ∑𝑚
̅∗𝑗 − 𝑦̅∗∗ )2𝑗=1 ∑𝑖=1(𝑦
𝑗=1 𝑛𝑗 ∗ (𝑦
факторная сумма квадратов отклонений;
𝑛𝑗
𝑄ост (𝑦1,𝑛1 , 𝑦2,𝑛2 , … , 𝑦𝑚,𝑛𝑚 ) = ∑𝑚
̅∗𝑗 )2- остаточная сумма квадратов
𝑗=1 ∑𝑖=1(𝑦𝑖𝑗 − 𝑦
отклонений;
𝑛𝑗
𝑄общ (𝑦1,𝑛1 , 𝑦2,𝑛2 , … , 𝑦𝑚,𝑛𝑚 ) = ∑𝑚
̅∗∗ )2 - общая сумма квадратов
𝑗=1 ∑𝑖=1(𝑦𝑖𝑗 − 𝑦
отклонений.
Априорные суммы квадратов отклонений:
𝑛
𝑗
𝑄факт (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) = ∑𝑚
̅∗𝑗(𝜉1,𝑛
𝑗=1 ∑𝑖=1(𝑦
1 ,𝜉2,𝑛2 , …,𝜉𝑚,𝑛𝑚 )
−
𝑦̅∗∗ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ))2 = ∑𝑚
̅∗𝑗 (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) −
𝑗=1 𝑛𝑗 ∗ (𝑦
2
𝑦̅∗∗ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 )) - факторная сумма квадратов отклонений;
𝑛𝑗
𝑄ост (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) = ∑𝑚
̅∗𝑗 (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ))2- остаточная
𝑗=1 ∑𝑖=1(𝜉𝑖𝑗 − 𝑦
сумма квадратов отклонений;
𝑛
𝑗
𝑄общ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) = ∑𝑚
̅∗∗ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ))2𝑗=1 ∑𝑖=1(𝜉𝑖𝑗 − 𝑦
общая
сумма квадратов отклонений.
Легко проверить Qобщ  Qфакт  Qост
Несмещенные оценки общей, факторной и остаточной дисперсий:
𝑄
𝑆 ^2 общ(𝜉
1,𝑛1 ,𝜉2,𝑛2 , …,𝜉𝑚,𝑛𝑚 )
𝑆
^2
факт(𝜉1,𝑛 ,𝜉2,𝑛 , …,𝜉𝑚,𝑛𝑚 )
1
=
общ(𝜉1,𝑛 ,𝜉2,𝑛 , …,𝜉𝑚,𝑛 )
1
2
𝑚
𝑁−1
𝑄
=
факт(𝜉1,𝑛 ,𝜉2,𝑛 , …,𝜉𝑚,𝑛 )
1
2
𝑚
𝑚−1
2
𝑆 ^2 ост(𝜉
1,𝑛1 ,𝜉2,𝑛2 , …,𝜉𝑚,𝑛𝑚 )
=
;
𝑄ост (𝜉1,𝑛 ,𝜉2,𝑛 , …,𝜉𝑚,𝑛 )
Если влияние фактора отсутствует, то
1
2
𝑁−𝑚
2
S факт
2
𝑚
;
.
и
2
S ост
можно
рассматривать как независимые оценки дисперсии  всей совокупности.
Наоборот, если фактор оказывает существенное влияние на результативный
2
2
признак, то отношение S факт
: S ост
будет расти и превзойдет некоторый
критический предел. Таким образом, первоначальную гипотезу Н0 можно
2
2
заменить такой Н0:  факт
=  ост
.
Для проверки нулевой гипотезы рассмотрим статистику:
1
𝑄факт (𝜉1,𝑛1 , … , 𝜉𝑚,𝑛𝑚 )
𝑚
𝐹(𝜉1,𝑛1 , … , 𝜉𝑚,𝑛𝑚 ) = − 1
=
1
𝑄
(𝜉
,
…
,
𝜉
)
𝑚,𝑛𝑚
𝑛 − 𝑚 ост 1,𝑛1
=
𝑆^2 факт(𝜉1,𝑛1 ,𝜉2,𝑛2,…,𝜉𝑚,𝑛𝑚 )
~𝐹(𝑚 − 1; 𝑛 − 𝑚)
𝑆^2 ост(𝜉1,𝑛1 ,𝜉2,𝑛2,…,𝜉𝑚,𝑛𝑚 )
распределенную, очевидно, по закону Фишера-Снедекора со  1  m  1 и
 2  N  m степенями свободы.
𝑃(𝐹(𝜉) > 𝐹крит ) = 𝛼
𝑃(𝐹(𝜉) < 𝐹крит ) = 1 − 𝛼
𝐹крит представляет собой квантиль уровня 1 − 𝛼
Если Fнабл  Fкр ( , m  1, N  m) , то гипотеза не отвергается, то есть
влияние фактора А на результативный признак не доказано. Если Fнабл  Fкр ,
то Н0 отвергается и с вероятностью ошибки  можно утверждать: влияние
фактора А на результативный признак существенно.
Если влияние фактора доказано, то можно проверить гипотезы:
1)
Н0:  j   j ' - о равенстве двух средних выбранных уровней с
помощью статистики
𝐹(𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) =
(𝑦∗𝑗(𝜉1,𝑛 ,𝜉2,𝑛
− 𝑦∗𝑗′(𝜉1,𝑛 ,𝜉2,𝑛 , …,𝜉𝑚,𝑛 ) )2
𝑚
1
2
1
𝑄ост (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 )
𝑛−𝑚
~ 𝐹(1; 𝑛 − 𝑚)
1
=
∗
2)
𝑛𝑗 𝑛𝑗′
𝑛𝑗 + 𝑛𝑗′
2 , …,𝜉𝑚,𝑛𝑚 )
,
распределенной по закону Фишера-Снедекора с  1  1 и  2  N  m
При проверке гипотезы Н0: а=а0 не пользуется:
в случае модели М1 статистика
𝐹(𝜉1,𝑛
1 ,𝜉2,𝑛2 , …,𝜉𝑚,𝑛𝑚 )
=
𝑛(𝑦∗∗ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) − 𝑎0 )2
𝑄факт (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 )
𝑛−𝑚
~ 𝐹(1; 𝑛 − 𝑚)
имеющая F – распределение с  1  1 и  2  N  m ;
в
случае
модели
М2
и
nj  n
𝐹(𝜉1,𝑛
1 ,𝜉2,𝑛2 , …,𝜉𝑚,𝑛𝑚 )
=
𝑁(𝑦∗∗ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) − 𝑎0 )2
𝑄факт (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 )
𝑚−1
статистика
~ 𝐹(1; 𝑚 − 1)
имеющая F – распределение с  1  1 и  2  m  1 .
Несмещенную точечную оценку для факторной дисперсии, в случае
отклонения нулевой гипотезы, можно уточнить
N (m  1)
2
2
2
.
Sˆфакт
 ( Sˆфакт
 Sˆост
) 2
N   n 2j
уточ
Интервальная оценка для D( ij )   2 с надежностью 
Qост
Qост
.
 2 
2 1 
2 1 
x (
, N  m)
x (
, N  m)
2
2
Практическая реализация
Предполагая, что фактор имеет случайные уровни, а значения
результативного признака распределены нормально, требуется:
А) проверить при α=0,05 существенность влияния фактора на
результативный признак;
Б) проверить при α=0,05 существенность влияния фактора на втором и
третьем уровнях на результативный признак;
В) проверить при α=0,05 гипотезу относительно равенства общей
средней заданному номиналу.
Исследовалась зависимость объема выручки (млн. руб.) от расходов на
рекламу (тыс. руб.). Были получены следующие данные:
Таблица 1 - Исходные данные
Номер
исследования
1
150-200
6,6
2
3
4
5,9
6,4
7,1
Расходы на рекламу
200-250
250-300
6,0
8,4
6,8
7,4
8,1
5
7,5
6,9
7,3
300-400
8,7
7,8
7,1
7,6
7,7
Для проверки существенности влияния расходов на рекламу на объем
выручки выдвинем гипотезу 𝐻0 и альтернативную 𝐻1 :
2
2
(нет влияния расходов на рекламу на объем выручки);
H 0 :  факт
  ост
В основе проверки гипотезы лежит сравнение факторной и остаточной
дисперсий. Для проверки нулевой гипотезы воспользуемся статистикой
Qфакт (1n1 , 2 n2 ,...,  m ,nm )
2
Sˆфакт (1n1 , 2 n2 ,...,  m,nm )
m 1
F (1n1 , 2 n2 ,...,  m,nm )   2

, где m  4, N  17 ,
Q
(

S ост (1n1 , 2 n2 ,...,  m,nm )
ост
1n1 , 2 n2 ,...,  m , nm )
N m
которая при справедливости гипотезы 𝐻0 имеет распределение
Фишера-Снедекора со 𝜈1 = 3 𝜈2 = 13 степенями свободы.
Если Fнабл  Fкр (m  1, N  m) , то гипотеза не отвергается, то есть влияние
расходов на рекламу на объем выручки не доказано. Если Fнабл  Fкр , то Н0
отвергается и с вероятностью ошибки  можно утверждать, что влияние
расходов на рекламу на объем выручки существенно.
Для проверки гипотезы рассчитаем оценки факторной, остаточной и
общей дисперсий.
Qфакт  4,06 Qост  5,69 Qобщ  9,75
2
Sˆфакт 
2
Sˆост 
Fнабл 
1
1
Qфакт 
 4,06  1,35
m 1
4 1
1
1
Qост 
 5,69  0,43
N m
17  4
1,35
 3,09
0,43
Fкр  3,41(0,05;3;17)
Так как Fнабл.  Fкр . , следовательно, нулевая гипотеза принимается, то
есть, нет влияния расходов на рекламу на объем выручки.
Проверим результаты в пакете STATISTICA.
Для реализации однофакторного непараметрического дипсперионного
анализа в пакете STATISTICA воспользуемся функцией One-way ANOVA –
Quick specs dialog.Результаты представлены в таблице 2 а так же в
приложении 1.
Таблица 2-Результаты проверки нулевой гипотезы об отсутствии влияния
расходов на рекламу от объема выручки.
Effect
SS
a
4,063
Degr.
Of MS
freedom
3
1,354
F
p
3,089
0,064
Здесь приведены факторная сумма квадратов 4,063, несмещенная оценка
факторной дисперсии 1,354, выборочное значение статистики 3,089 и
достигаемый уровень значимости 0,064. Поскольку 0,064 > 0,05, то нулевая
гипотеза об отсутствии влияния фактора на результат принимается
(Приложение А, рисунок 1, таблица 2)
На рисунке 2 показан график оценок средних на каждом уровне
факторе вместе с доверительными интервалами для них
Таблица 3-Результаты дисперсионного анализа представленные на
рисунке 3.
𝑅̂
y
0,645
̂2
𝑅
2
𝑅̂несм
0,416 0,281
SS
Df
4,063
3
MS
SS
Df
MS
F
Model Residual Residual Residual
1,354 5,7
13
0,44
3,089
p
0,065
Такая форма дает возможность вывести факторную и остаточную
суммы квадратов (𝑄факт = SS Model = 4,063 и 𝑄ост =SS Residual = 5,7
соответственно), несмещенные оценки факторной и остаточной дисперсий
2
2
(𝑆̂факт
=MS Model =1,354 и 𝑆̂ост
=MS Residual =0,44), значение статистики F
= 3,089 и достигаемый уровень значимости p=0,064.
Таблица 4-Наиболее полный результат дисперсионного анализа
представленный в приложении 4 .
Degr.
Of y SS
y MS
yF
yP
Intercept
a
Error
Total
Freedom
1
3
13
16
881,3
4,06
5,7
9,76
881,3
1,354
0,44
2010,16
3,09
0,000
0,064
Для реализации однофакторного дисперсионного анализа в пакете
STATA воспользуемся функцией Statistics – Linear models and related –
ANOVA/MANOVA – One –way ANOVA.
Таблица 5-Результаты выполнения однофакторного дисперсионного
анализа представленные на рисунке 5
Var2
1
2
3
4
Total
Mean
6,5
7,075
7,559
7,8
7,253
Std. Dev.
0,4966
0,892
0,555
0,668
0,78
Freq.
4
4
5
4
17
В столбце Mean приведены средние на каждом уровне фактора y*1=6,5,
y*2=7,075, y*3=7,56, y*4=7,8; Std. Dev. – оценки среднеквадратических
отклонений; Freq. – количество наблюдений на каждом уровне фактора n1=4,
n2=4, n3=5, n4=4.
В строке Total приведены оценки среднего y**=7,253, оценка
среднеквадратического отклонения 0,78 и общее число наблюдений N = 17.
В строке Between groups приведены факторная сумма квадратов
(обозначена SS) и несмещенная оценка факторной дисперсии (обозначена
MS).
В строке Within groups приведены остаточная сумма квадратов
(обозначена SS) и несмещенная оценка остаточной дисперсии (обозначена
MS).
В строке Total приведены общая сумма квадратов (обозначена SS) и
несмещенная оценка общей дисперсии (обозначена MS).
Значение статистики Фишера-Снедекора составило 3,09, достигаемый
уровень значимости 0,0645. Поскольку 0,0645> 0,05, то на уровне значимости
5% нулевая гипотеза об отсутствии влияния фактора на результат
принимается.
Таблица 6-Результаты выполнения команды anova представленные на
рисунке 6
source
Partial ss
df
ms
f
Prob>f
Model
3,988
3
1,33
2,83
0,0836
Var2
3,988
3
1,33
2,83
0,836
Residual
Total
5,646
9,63
13
15
0,47
0,64
1.2 Двухфакторный дисперсионный анализ
1.2.1 Параметрический двухфакторный дисперсионный анализ (без
повторений)
Будем исследовать влияние двух факторов А и В на результативный
нормально распределенный признак Y; Ai ,
i  1, m ; B j , j  1, l - уровни
факторов. Рассмотрим два случая.
Пусть каждой паре уровней факторов Ai и B j соответствует одно
наблюдаемое значение результативного признака yij , то есть
наблюденные значение можно представить в виде матрицы с двумя
входами.
𝐵1
𝑦11
𝑦
y=( 21
…
𝑦𝑛1
𝐵2
𝐵3
𝑦12 … 𝑦1𝑛 𝐴
1
𝑦22 … 𝑦2𝑛
) 𝐴2
…
…
𝑦𝑛2 … 𝑦𝑛𝑛 𝐴3
Где yij наблюдаемое значение результативного признака для каждой
пары уровней факторов Ai и B j .
В этом случае апостериорная модель дисперсионного анализа будем
рассматривать в виде:
𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝑧𝑖𝑗 𝑖 = ̅̅̅̅̅̅
1, 𝑚, 𝑗 = ̅̅̅̅
1, 𝑙
Априорная модель: 𝜂𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝜀𝑖𝑗 ,
где а – общая генеральная средняя;
 ij - независимые нормально распределенные остатки, с M ij  0 и
D ij   2 , i  1, m ; j  1, l ;
 i ,  j - отклонения от а, обусловленные влиянием соответствующих
уровней факторов А и В.
Если уровни факторов Ai и B j фиксированные (модель М1), то  i и  j
есть неслучайные величины, удовлетворяющие очевидным условиям
m
 i  0 ;
i 1
l
 j  0.
j 1
Ненулевые гипотезы формулируются в виде:
Н0:  i  0 , i  1, m ;
Н0:  j  0 , j  1, l ;
Если уровни факторов Ai и B j случайные, то  i и  j будем считать
независимыми между собой и с  ij случайными величинами
распределенными нормально.
M j  M j  0 и D i   2 ; D j   2 . Отсутствие влияния уровней
факторов на изменения результативного признака – нулевые гипотезы –
формально записывается в виде:
Н0:  2  0 ;
Н0:  2  0 .
Если уровни фактора А – случайные, а В – фиксированные (смешанная
модель), то  i независимые между собой и с  ij случайные величины с
M j  0 , D i   2 ;  j - неслучайные величины, удовлетворяющие условию
 j  0.
Нулевые гипотезы об отсутствии влияния уровней факторов на
изменения результативного признака формулируются в виде:
Н0:  2  0 ;
Н0:  j  0 , j  1, l .
Аналогично строиться смешанная модель, в которой фактор А имеет
фиксированные уровни, а фактор В – случайные.
Построим разложение для:
m
l
m
l
Qобщ    ( yij  y** )    ( yij  y* j  yi *  y* j  yi *  y**  y**  y** ) 2 
2
i 1 j 1
m
i 1 j 1
l
   (( y* j  y** )  ( yi *  y** )  ( yij  y* j  yi *  y** )) 2 
i 1 j 1
m
l
   (( y* j  y** ) 2  ( yi*  y** ) 2  ( yij  y* j  yi*  y** ) 2 
i 1 j 1
 2( y* j  y** )( yi*  y** )  2( y* j  y** )( yij  y* j  yi*  y** ) 
l
l
i 1
j 1
 2( yi *  y** )( yij  y* j  yi *  y** ))  m ( y* j  y** ) 2  l  ( yi *  y** ) 2 
m
l
   ( yij  y* j  yi *  y** )  QB  Q A  Qост
i 1 j 1
m
где QA  l  ( yi *  y** ) 2 ;
i 1
l
QB  m  ( y* j  y** ) 2 ;
j 1
m l
Qост    ( yij  y* j  yi *  y** ) 2
i 1 j 1
В случае двухфакторного дисперсионного анализа с повторениями
для каждого сочетания уровней А и В имеется ровно 𝑝 наблюдений матрица
11:
𝐵1
𝑦111 , 𝑦112 , … 𝑦11𝑝
…
(
𝑦𝑚11 , 𝑦𝑚12 , … 𝑦𝑚1𝑝
𝑦𝑖𝑗𝑘
𝐵2
𝑦121 , 𝑦122 , … 𝑦12𝑝
…
𝑦𝑚21 , 𝑦𝑚22 , … 𝑦𝑚2𝑝
𝐵3
… 𝑦1𝑙1 , 𝑦1𝑙2 , … 𝑦1𝑙𝑝 𝐴1
…
) 𝐴2
… 𝑦𝑚𝑙1 , 𝑦𝑚𝑙2 , … 𝑦𝑚𝑙𝑝 𝐴3
Апостериорная модель
𝑖 = ̅̅̅̅̅̅
1, 𝑚
= 𝜇 + 𝛼𝑖 + 𝛽𝑗 + (𝛼𝛽)𝑖𝑗 + 𝑧𝑖𝑗𝑘 𝑗 = ̅̅̅̅
1, 𝑙
𝑘 = ̅̅̅̅̅
1, 𝑝
Априорная модель
𝜂𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝜀𝑖𝑗
Для проверки нулевой гипотезы об отсутствии влияния одного из
факторов D  A; B рассматриваем статистику
QD
m, D  A
n 1
, где nD  
F D
Qост
l , D  B
N  nD
распределенную, очевидно, по закону Фишера-Снедекора с  1  nD  1
и  2  N  n D степенями свободы.
1.2.2 Параметрический двухфакторный дисперсионный анализ (без
повторений)
В общем случае, когда для каждой пары уровней Ai и B j имеется
n(n>1) наблюдений.
𝐵1
𝐵2
𝐵3
y111, y112, … , y11n
y121, y122, … , y12n … y1𝑛1, y1n2, … , y1nn
𝐴
… y2l1, y2l2, … , y2ln 𝐴1
y211, y212, … , y21n
y221, y222, … , y22n
(
) 2
…
…
𝐴3
ym11, ym12, … , ym1n ym21, ym22, … , ym2n … yml1, yml2, … , ymln
Где yijk - к-ое наблюдение результативного признака для i-го уровня фактора
А и j-го уровня фактора В;
Модель дисперсионного анализа представим в виде
yijk  a   i   j  ( )ij   ijk , i  1, m j  1, l , k  1, n ,
а – общая генеральная средняя;
 i ,  j - отклонения от а, обусловленные влиянием соответствующих
уровней Аi и Вj;
( )ij - отклонения от а, обусловленные совместным влиянием
уровней факторов А и В;
 ijk  (0, ) и независимы между собой.
Если уровни факторов Аi и Вj фиксированные (модель М1), то
отклонения  i ,  j и ( )ij - неслучайные величины, удовлетворяющие
условиям:
m
l
m
l
i 1
j 1
i 1
j 1
 i  0 ;   j  0 ;  ( )ij  0 ;  ( )ij  0 .
Сформулируем гипотезы об отсутствии влияния:
фактора А – Н0:  i  0 ; i  1, m
;
фактора В – Н0:  j  0 ; j  1, l ;
совместного влияния факторов А и В – Н0: ( ) ij  0 ; i  1, m ; j  1, l .
В случае модели М2  i ,  j и ( )ij есть независимые между собой и с
 ijk
случайные
величины,
распределенные
нормально
с
нулевым
2
математическим ожиданием и с дисперсиями  2 ,  2 и  
. Сформулируем
нулевые гипотезы от отсутствии влияния:
фактора А – Н0:  2  0 ; фактора В – Н0:  2  0 ; совместного влияния
2
факторов А и В – Н0:  
 0.
Для смешанной модели, когда, к примеру, уровни фактора А
случайные, а фактора В – фиксированные, отклонения  i и ( )ij
независимые между собой и с  ijk нормально распределены случайные
величины с нулевыми математическими ожиданиями, с дисперсиями  2 и
2
, при этом
 
m
 ( )ij  0 , а
i 1
l
 ( )ij  0 ;
j 1
l
 j  0.
j 1
Нулевые гипотезы об отсутствии влиянием факторов имеют вид:
Фактора А – Н0:  2  0 ;
Фактора В – Н0:  j  0 ; j  1, l ;
2
совместного влияния факторов А и В – Н0:  
 0 .`
Аналогично строится другая смешанная модель. Разложив, как и при
n=1, общую сумму квадратов на составляющие:
Qобщ  QA Q B QAB  Qост ,
где
m
l
n
2
Qобщ     ( y ijk  y***) ;
i 1 j 1k 1
m
QA  l  n   ( y
i 1
l
2
;
i** y***)
2
Q B  m  n   ( y * j * y ***) ;
m
j 1
l
Q AB  n    ( y
i 1 j 1
m l n
ij *

y i**  y* j* y***)
2
;
2
Qост     ( y ijk  y* j *) ;
i 1 j 1k 1
Практическая реализация
Двухфакторный дисперсионный анализ без повторений
По данным индивидуального задания при α=0,05:
А) проверить нулевую гипотезу об отсутствии влияния первого
фактора на результативный признак;
Б) проверить нулевую гипотезу об отсутствии влияния второго фактора
на результативный признак;
В) проверить нулевую гипотезу об отсутствии совместного влияния
факторов на результативный признак
В двухфакторном комплексе приводится сменная выработка рабочего в
зависимости от типа станка (А) и стажа его работы (В). При α=0,01 проверить
влияние факторов А и В на сменную выработку рабочего:
Таблица 12-Исходные данные.
В1
В2
В3
А1
122
128
162
А2
128
118
160
А3
126
116
165
Для реализации двухфакторного дисперсионного анализа без
повторений в пакете STATISTICA воспользуемя функцией Statistics –
Nonparametrics-Comparing multiple dep. Samples (variables)-Variables
(var1-var3)-Summary.
Таблица 13-Проверка влияния фактора A (рисунок 7):
Average rank
Sum of ranks
mean
Std. Dev.
Var1
3,0000
27,0000
136,1111
20,12737
Var2
1,5000
13,0000
2,00000
0,86603
Var3
1,5000
13,5000
2,00000
0,86603
Фактор А (тип станка) оказывает влияние на результативный признак,
так как значимость (0,04979) меньше заданного уровня 0,05, то нулевая
гипотеза об отсутствии влияния фактора на результат принимается
Для реализации двухфакорного диспреснионного анализа в пакете STATA
вопользуемся функцией Statistics – Lineat models and related –
ANOVA/MANOVA – Analysis of variance and covariances (рисунок 8,
таблица 14).
Таблица 14-Реализация двухфакторного дисперсионного анализа в
пакете STATA
source
Model
Partial SS
DF
3133,77778 4
MS
783,44444
f
29,26
Prob>f
0,0032
Var2
Var3
Residual
Total
6,88889
3126,8889
107,1111
3240,88889
3,444444
0,13
1563,44444 58,39
26,777778
405,11111
0,8828
0,0011
2
2
4
8
В строке var2 приведены факторная сумма квадратов по фактору стаж
работы (фактор B) 𝑄𝐵 = 6,88889 (обозначена Partial SS) и несмещенная
оценка факторной дисперсии по фактору А 𝑆̂𝐵2 = 3,444444 (обозначена MS).
В строке var3 приведены факторная сумма квадратов по фактору тип станка
(фактор A) 𝑄А =3126,8889 и несмещенная оценка факторной дисперсии по
фактору А 𝑆̂А2 = 1563,44444.
В строке Residual приведены остаточная сумма квадратов 𝑄ост =
107,1111 (обозначена Partial SS) и несмещенная оценка остаточной
2
дисперсии 𝑆̂ост
= 26,777778 (обозначена MS).
В строке Total приведены общая сумма квадратов 𝑄общ = 3240,88889
2
(обозначена SS) и несмещенная оценка общей дисперсии 𝑆̂общ
=
405,11111 (обозначена MS).
Значение статистики Фишера-Снедекора для проверки гипотезы об
отсутствии влияния фактора А приведено в строке Столбцы, столбец F – оно
составило 58,39. В столбце Prob > F приведено соответствующее p-value
(достигаемый уровень значимости) 0,0011< 0,05, нулевая гипотеза об
отсутствии влияния отвергается, есть влияние фактора А.
Значение статистики Фишера-Снедекора для проверки гипотезы об
отсутствии влияния фактора В приведено в строке Строки, столбец F – оно
составило 0,13. В столбце Prob > F приведено соответствующее p-value
(достигаемый уровень значимости) 0,8828>0,05, нулевая гипотеза об
отсутствии влияния принимается, нет влияния фактора В.
Двухфакторный дисперсионный анализ с повторениями
Изучается зависимость заработной платы выпускника вуза (тыс. руб.)
на первом месте работы в зависимости от направления подготовки и
способностей студента
Таблица 15- Исходные данные
Низкие
На 50; 40;30;20;25;60
правлен
ие 1
На 15;20;15;15;20;15;16;16;
правлен 17;20;21;22
ие 2
На 15;15;15;16;17;19;9;8;10
правлен ;10;12
ие 3
На 20;25;25;25;25;24;22;24
правлен
ие 4
Средние
45;60;50;50;50;50
Высокие
50;45;70;80;100;120;
120;
20;20;25;30;35;35
;35;
30;35;35;30;20;12;15;
15;16;17;18
10;12;15;17;16;18
;30;30;24
15;20;30;30;32;25;25
25;22;30;30;30
25;22;24;26;23;30;29;
30;35;
40;35;33;34;36;36;38
Для реализации двухфакторного дисперсионного анализа с
повторениями в пакете STATA воспользуемся функцией anova var1 var2
var3#var3 (рисунок 9, таблица 16).
Таблица 16-Реализация двухфакторного дисперсионного анализа с
повторениями в пакете STATA
source
Model
Var2
Var3
Partial ss
25194,2405
20369,5811
3845,94951
df
5
3
2
MS
5038,84809
6789,86036
1922,97476
F
34,42
46,38
13,14
Prob>F
0,000
0,000
0,000
Residual
Total
14493,15
99
39687,3905 104
146,395455
381,609524
В столбце Prob > F приведено соответствующее p-value (достигаемый
уровень значимости) 0,000 < 0,05. Значит, есть влияние стажа работы,
влияние вида станка, а так же эффекта их взаимодействия.
Приложение А
Рисунок 1
Рисунок 2
Рисунок 3
Рисунок 4
Рисунок 5
Рисунок 6
Рисунок 7
Рисунок 8
Рисунок 9
Download