Uploaded by Дмитрий Ковригин

Двухфакторный дисперсионный анализ в EXCEL

advertisement
Двухфакторный дисперсионный анализ в EXCEL
Пусть имеется случайная переменная Y , значения которой мы можем измерять.
Исследователь предполагает, что эта переменная зависит от 2-х факторов, значения
которых мы можем контролировать, т.е. задавать с требуемой точностью. Методом
дисперсионного анализа проверяется гипотеза о наличии или об отсутствии влияния
указанных факторов на зависимую переменную Y .
Дисперсионный анализ позволяет проверить гипотезу о равенстве средних значений
выборок. Данная задача возникает, например, когда необходимо исследовать
зависимость некоторой количественной величины Y от одной или нескольких
переменных или факторов, которые можно контролировать, изменяя их значения.
Действительно, если фактор оказывает существенное влияние на зависимую переменную
Y , то при разных уровнях или значениях фактора должны получаться различные значения
Y , существенно отличающиеся средние значения выборок.
Обозначения
Отдельные значения каждого фактора называются уровнями. Уровни фактора A
обозначаются индексом i  1...a , а уровни фактора B – индексом j  1...b . Каждой паре
уровней факторов соответствует одна выборка, которая состоит из m измерений,
обозначаемых индексом k  1...m . Измеренные значения Y при уровне i фактора A и
уровне j фактора B обозначаются yijk . Всего имеется ab выборок. Предполагается, что
выборочная дисперсия постоянна, но неизвестна.
Пример
Рассматривается двухфакторный дисперсионный анализ.
В компании механообработки, необходимо исследовать влияние на качество изделия
двух факторов: метода изготовления и материала изделия.
Метод изготовления это фактор A , который может принимать три значения (Метод 1,
Метод 2, Метод 3), а материал изделия – фактор B , принимающий два значения (№ 1, №
2). Качество изделий определяется количеством дефектных изделий в партии – это
зависимая переменная Y .
Всего различных комбинаций факторов A и B равно ab  3 2  6 . Для каждой из шести
комбинации проведено по 3 измерения (т.е. m  3 ). Исходные данные приведены в табл.
1.
Табл. 1
Фактор В
Фактор А
Метод №1
№1
58.2
53.7
№2
55.7
52.5
Среднее по всем
уровням фактора А
55.80
Метод №2
Метод №3
Среднее по всем
уровням фактора В
55.8
73.0
78.1
75.4
52.4
49.7
50.9
58.9
76.2
78.4
82.1
54.0
52.1
49.9
60.80
77.20
51.50
62.20
Другими словами, имеется шесть выборок по три значения в каждой. Средние этих
выборок для каждой комбинации факторов i , j вычисляются по формуле:
yij 
1 m
 yijk .
m k 1
Для дальнейших вычислений потребуется определить еще несколько средних значений.
Вычисляется среднее всех измерений, относящихся к каждому уровню i фактора A
yi 
1 b m
 yijk ,
bm j 1 k 1
и среднее всех измерений, относящихся к каждому уровню j фактора B
yj 
1 a m
 yijk .
a  m i 1 k 1
Взаимодействие факторов
Среднее значение повторений
Уровни фактора А
Метод №1
Метод №2
Метод №3
Уровни фактора В
№1
№2
55.9
75.5
51.0
55.7
78.9
52.0
Теперь, используя эти 6 средних значений, построим диаграмму, которая состоит из 2-х
рядов.
Среднее
значение
переменной Y
90,0
80,0
70,0
60,0
50,0
40,0
30,0
20,0
10,0
0,0
78,9
55,7
75,5
52,0
55,9
1
Уровень №1 Фактора В
51,0
2
3
Уровни фактора A
Уровень №2 Фактора В
По оси X (абсцисс) отложены уровни Фактора A , а по оси ординат отложены средние
значения переменной Y (среднее количество дефектов для заданных уровней факторов).
Средние значения сгруппированы по 2-м уровням Фактора B . Синяя и красная линии
представляют собой отдельный ряд диаграммы.
Как видно из диаграммы – синяя и красная линии практически параллельны друг другу.
Это означает, что взаимодействие между факторами практически отсутствует (они не
влияют друг на друга). Действительно, выбор метода обработки никак не может влиять на
выбор конкретного исходного материала.
Среднее значение повторений
Уровни Фактора А
Метод №1
Метод №2
Метод №3
Уровни Фактора В
№1
№2
55.9
75.5
51.0
Вот еще одна диаграмма, демонстрирующая независимость 2-х факторов.
65.7
86.1
62.0
Среднее
значение
переменной Y
100,0
80,0
86,1
65,7
40,0
62,0
75,5
60,0
55,9
51,0
20,0
0,0
1
2
Уровень №1 Фактора В
3
Уровни Фактора А
Уровень №2 Фактора В
Среднее значение повторений
Уровни Фактора B
№1
Уровни Фактора A
Метод №1
Метод №2
Метод №3
№2
55.9
75.5
51.0
80.0
51.3
82.0
Обратная ситуация показана на диаграмме ниже, когда оба фактора взаимодействуют.
Среднее
значение
переменной Y
90,0
80,0
70,0
60,0
50,0
40,0
30,0
20,0
10,0
0,0
80,0
55,9
1
Уровень №1 Фактора В
75,5
51,3
2
82,0
51,0
3
Уровни Фактора А
Уровень №2 Фактора В
Из этой диаграммы видно, что при уровне №1 фактора B (синяя линия) количество
дефектов сначала возрастает, затем снижается (когда мы переходим от метода №1 к №2,
затем к №3). Мы наблюдаем противоположную ситуацию при уровне №2 фактора B
(красная линия): количество дефектов сначала снижается, а затем возрастает. В этом
случае говорят о наличии взаимодействия факторов.
В случае взаимодействия факторов A и B , эффект от их взаимодействия может быть
рассмотрен как некий «третий фактор» AB .
Взаимодействие факторов было рассмотрено столь подробно, так как отсутствие или
наличие взаимодействия принципиально влияет на ход дисперсионного анализа. При
отсутствии взаимодействия влияние каждого фактора на переменную Y может быть
рассмотрено по отдельности. При наличии взаимодействия анализировать влияние
каждого фактора по отдельности нельзя. Альтернативным вариантом анализа в этом
случае является однофакторный дисперсионный анализ, целью которого может быть
поиск оптимального сочетания 2-х факторов.
Возвращаемся к диаграммам взаимодействия. Очевидно, что делать заключение о
наличии или отсутствии взаимодействия факторов невозможно лишь по взаимному
расположению линий на диаграмме. Для формулирования утверждения о
взаимодействии требуется составить математическое выражение. Это выражение должно
вычисляться на основании исходных данных, а результат должен сравниваться с неким
критическим значением. Займемся этим в следующем разделе.
Определяем причины изменчивости исходных данных
По аналогии с однофакторным дисперсионным анализом общую изменчивость (разброс)
значений Y относительно общего среднего SST определим как сумму нескольких
компонентов, в данном случае 4-х:
SST  SSA SSB SSint  SSE




SSA – изменчивость, которую можно объяснить выбором метода обработки (фактор A )
SSB - изменчивость обусловленная выбором материала детали (фактор B )
SSint - изменчивость обусловленная взаимодействием 2-х факторов
SSE - ошибка модели.
SST и все 4 компонента вычисляются на основании имеющихся исходных данных:
SST    yijk  y 
b
a
m
j 1 i 1 k 1
2
a
2
i 1
j 1
SSint    yij  y j  yi  y  , SSE     yijk  yij 
b
a
j 1 i 1
b

, SSA  bm  yi  y  , SSB  am y j  y
2
b
a
m

2
,
2
j 1 i 1 k 1
Примечание: Вычисления SST и всех 4-х компонентов выполнены в файле примера .
Также в дисперсионном анализе используется понятие среднего квадрата отклонений
(Mean Square) или сокращенно MS. Соответственно для SST имеем MST  SST/ ( N  1) ,
где N  a  b  m является общим количеством измерений (18). Для других SS степени
свободы приведены в таблице ниже.
Таким образом, MS имеет смысл средней изменчивости на 1 наблюдение (с некоторой
поправкой). Эта поправка отражает тот факт, что MS должна вычисляться не делением SS
на соответствующее количество наблюдений, а делением на число степеней свободы
(degrees of freedom, DF). Например, чтобы вычислить MST , мы из N (общего количества
наблюдений) должны вычесть 1, т.к. в выражении SST присутствует одно (1) среднее
значение (аналогично тому, как мы делали при вычислении дисперсии ).
SST    yijk  y 
b
a
m
df  a  b  m  1
2
j 1 i 1 k 1
a
SSA  bm  yi  y 
df  a  1
2
i 1
SSB  am  y j  y 
b
df  b  1
2
j 1
SSint    yij  y j  yi  y 
b
a
2
df   a  1  b  1
j 1 i 1
SSE     yijk  yij 
b
a
m
2
df  a  b   m 1
j 1 i 1 k 1
В случае двухфакторного дисперсионного анализа формируется 3 нулевых гипотезы .

Гипотеза H0int об отсутствии взаимодействия Фактора A и Фактора B . Альтернативная
гипотеза H1int формулируется о наличии взаимодействия.

гипотеза H0A заключается в том, что уровень фактора A (метод обработки поверхности) не
влияет на измеренные значения Y (количество дефектов), т.е. средние значения выборок,
относящиеся к различным уровням Фактора A не отличаются статистически значимо (их
различие может быть объяснено лишь случайностью выборок).

гипотеза H0B заключается в том, что уровень фактора B (Исходный материал) не влияет на
измеренные значения Y (количество дефектов), т.е. средние значения выборок,
относящиеся к различным уровням Фактора B не отличаются статистически значимо.
Сначала тестируют гипотезу об отсутствии взаимодействия между факторами. Мы можем
отклонить H0int в пользу H1int при заданном уровне значимости α (альфа), если
вычисленное значение тестовой статистики F= MS взаим /MSE больше F критич альфа –
значения случайной величины F имеющей распределение Фишера с (b  1)  (a  1) и
a  b  (m  1) степенями свободы.
Если взаимодействие между факторами отсутствует, то можно начинать тестировать
гипотезы H0A и H0B . При наличии взаимодействия анализировать влияние каждого
фактора по отдельности нельзя. Альтернативным вариантом анализа в этом случае
является однофакторный дисперсионный анализ , целью которого может быть поиск
оптимального сочетания 2-х факторов.
Чтобы проверить гипотезы необходимо вычислить значения тестовых статистик и
сравнить их с соответствующими критическими значениями F крит ич , вычисленными для
заданного уровня значимости альфа . Если вычисленное значение F 01 = MSА/MSE
больше F 1крит ич , то нулевую гипотезу H0A об отсутствии влияния уровней Фактора А
отклоняют. Аналогичные умозаключения справедливы и для Фактора В.
Проверить гипотезу H0A можно и через вычисление p -значения, которое представляет
собой вероятность того, что случайная величина F 1 = MSА/MSE примет значение более F
01 . Далее p -значение сравнивают с уровнем значимости. Если p -значение менее уровня
значимости, то нулевую гипотезу отклоняют. Действительно, если вычисленное значение
F 01 получить маловероятно, то это ставит под сомнение справедливость того, что
случайная величина F 1 = MSА/MSE имеет распределение Фишера с a 1 и a  b  (m  1)
степенями свободы, а следовательно и саму нулевую гипотезу. В этом случае мы можем
считать, что справедлива альтернативная гипотеза: уровни фактора А влияют на
зависимую переменную Y .
Вычисления в MS EXCEL
В файле примера приведено решение вышеуказанной задачи: вычислены средние
значения выборок, суммы квадратов (SS), степеней свобод, средние квадратов
отклонений (MS).
Для вычислений критических значений в MS EXCEL имеется специальная функция =
F.ОБР.ПХ()
Формула для вычисления F 1критич = F.ОБР.ПХ(a-1; a*b*(m-1);альфа)
В MS EXCEL первое p -значение (вероятность того, что случайная величина F 1 = MSА/MSE
примет значение больше F 01 ) можно вычислить по формуле:
= F.РАСП.ПХ((MSА/MSE; a-1; a*b*(m-1))
Второе p -значение (вероятность того, что случайная величина F 2 = MSВ/MSE примет
значение больше F 0 2 ) вычисляется по аналогичным формулам.
В нашей задаче p -значения получились 0,000 и 0,253, что значительно меньше обычно
принимаемого в качестве уровня значимости 0,05. Таким образом, обе нулевых гипотезы
отклоняются.
Download