Дисперсионный анализ

advertisement
ПРАКТИЧЕСКАЯ РАБОТА 5
ДИСПЕРСИОННЫЙ АНАЛИЗ
Цель работы: получение практических навыков статистической обработки многовариантных,
многофакторных экспериментов, когда анализируется влияние одного, двух, трех и большего числа
факторов на изменение величины какого-либо признака.
Порядок выполнения работы:
1. Установление основных источников варьирования и определение объемов вариации по
источникам образования.
2. Определение числа степеней свободы вариации.
3. Вычисление дисперсий и анализ соотношений между ними.
4. Интерпретация полученных результатов анализа.
Дисперсионный анализ быстро вошел в употребление благодаря следующим основным
преимуществам:
1. В дисперсионном анализе используется обобщенная ошибка средних, которая опирается на
большое число наблюдений.
2. Этим методом можно обрабатывать данные простых и сложных, однолетних и многолетних,
однофакторных и многофакторных опытов.
3. Позволяет компактно в виде существенных разностей представить итоги статистической
обработки.
При дисперсионном анализе проводят расчет дисперсий:

общей (дисперсия комплекса);

межгрупповой (факторная);

внутригрупповой (остаточная).
Общая дисперсия (  2 ) измеряет вариацию признака во всей совокупности под влиянием всех
факторов, обусловивших эту вариацию:
2 
 x  x 
f
i
2
 fi
.
i
Межгрупповая дисперсия (  2 ) характеризует систематическую вариацию, т.е. различия в
величине изучаемого признака, возникающие под влиянием признака-фактора, положенного в основание
группировки.
 xi  x   f i
,
2 
fi


где x i - групповые средние,
f i - численность единиц в группе.
Внутригрупповая дисперсия (  i2 ) отражает случайную вариацию, т.е. часть вариации,
происходящую под влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в
основание группировки:
 i2 
 i2 
 x

i
 xi 
- для несгруппированных данных;
n
 xi  xi   f i
- для сгруппированных данных.
fi

Средняя из внутригрупповых дисперсий определяется следующим образом:
 i2  f i
.
 i2 
fi


Существует закон, связывающий три вида дисперсии. Общая дисперсия равна сумме средней из
внутригрупповых и межгрупповой дисперсий:
 2   i2   2 .
Данное соотношение называют правилом сложения дисперсий.
Правило сложения дисперсий широко применяется при исчислении показателей тесноты связи.
В статистическом анализе широко используется показатель, представляющий собой долю
межгрупповой дисперсии в общей дисперсии. Он носит название эмпирического коэффициента
детерминации (  2 ):
2
.
2
Этот коэффициент показывает долю (удельный вес) общей вариации изучаемого признака,
обусловленную вариацией группировочного признака.
Эмпирическое корреляционное отношение (  ) характеризует влияние признака, положенного в
основание группировки, на вариацию результативного признака:
2 

2
.
2
Эмпирическое корреляционное отношение изменяется в пределах от 0 до 1. Если
  0 , то
группировочный признак не оказывает влияния на результативный. Если   1 , то результативный признак
изменяется только в зависимости от признака, положенного в основание группировки, а влияние прочих
факторных признаков равно нулю.
Дисперсионный анализ – метод оценки существенности различий нескольких средних. Его
применяют при статистической обработке многовариантных, многофакторных опытов.
Критерий, используемый для оценки различий между выборочными средними, назван в честь
Р.Фишера критерием F – распределения. Критерий F представляет собой отношение двух дисперсий:
S2
F  12 ,
S2
где S12 и S 22 - средние квадраты (дисперсии), рассчитанные по выборочным данным с учетом
числа степеней свободы вариации1.
Теоретическое значение F показывает случайную величину отношения двух дисперсий при
данном уровне вероятности суждения и соответствующем числе степеней свободы анализируемых
дисперсий. Критерий F связывают с вероятностью. Наиболее часто применяют уровни вероятности
суждения – 0,95 и 0,99 (5 и 1%-ный уровни). Это означат, что только в пяти (в одном) случаях из 100
значение F может достигать табличного уровня или быть больше него для отношения дисперсий двух
выборок, сделанных из одной и той же генеральной совокупности.
Табличное значение F используется как критерий для оценки фактических отношений дисперсий,
рассчитанных по выборочным данным. Если Fфакт > F табл, мало вероятно, что такое отношение случайное.
А, значит, и различия в вариации нельзя отнести только за счет случайного колебания их уровня, и разница
между средними существенна. В случае, когда Fфакт ≤ F табл, при данном уровне вероятности суждения и
соответствующем числе степеней свободы это означает, что различия между сравниваемыми дисперсиями
находятся в пределах возможных случайных колебаний.
Порядок проведения дисперсионного анализа идентичен при простых моделях, когда
группировочный признак один, и при сложных моделях, когда группировочных признаков два или больше.
Но с увеличением числа группировочных признаков более сложен процесс расчленения вариации по
источникам образования.
При группировке по одному признаку общий объем вариации можно разложить на вариацию,
связанную с действием группировочного признака, и вариацию внутригрупповую (остаточную):
W0  Wгр  Wост .
Исходные данные для проведения однофакторного дисперсионного анализа могут быть
представлены в виде статистической таблицы (таблица 1).
Таблица 1
Исходные данные
Вариант
Исходные данные, y
y11
y12
…
y1n
1
y21
y22
…
y2n
2
…
…
…
…
…
yi1
yi2
…
yin
i
1
Здесь и далее дисперсия будет обозначаться S2.
При группировке по одному признаку группы могут быть равными и неравными, сформированы в
случайном порядке, когда наблюдения одной группы не связаны с наблюдением другой группы, или
неслучайном, когда наблюдения одной группы связаны с наблюдениями другой группы.
В опытах, где формируются группы соответственно числу повторностей по каждому варианту,
схема дисперсионного анализа предусматривает исключение из общего объема вариации тех колебаний,
которые обусловлены влиянием фактора, различиями в повторах и индивидуальными различиями внутри
каждой группы.
Таким образом, общая сумма квадратов подразделяется на сумму квадратов отклонений вариантов
опыта (групповая), сумму квадратов отклонений повторений и остаточную сумму квадратов:
W0  Wгр  Wповт  Wост .
Данные для обработки такого вида комплекса можно представить в виде статистической таблицы
(таблица 2):
Таблица 2
Расположение данных в таблице для проведения дисперсионного анализа однофакторного
сопряженного статистического комплекса
Повторения
Вариант
1
2
3
…
n
y11
y12
y13
…
y1n
1
y21
y22
y23
…
y2n
2
…
…
…
…
…
…
yi1
yi2
yi3
…
yin
i
При группировке данных по двум признакам общая сумма квадратов отклонений будет иметь уже
две групповые суммы квадратов и сумму квадратов отклонений взаимодействия факторов и остаточную:
  Wгр
  Wвзаим.  Wост .
W0  Wгр
Исходные данные для проведения двухфакторного дисперсионного анализа с повторениями
представлены в виде таблицы (таблица 3):
Таблица 3
Расположение данных в таблице для двухфакторного дисперсионного анализа с повторениями
Аm
Вариант
В1
В2
…
Вn
y11
y12
…
y1n
1
y21
y22
…
y2n
2
…
…
…
…
…
yi1
yi2
…
yin
i
Если формирование групп будет неслучайным, разложение сумм квадратов усложнится. В итоге
при группировке по двум признакам и неслучайном распределении повторностей по группам
дисперсионный анализ проводится по следующей схеме:
  Wгр
  Wвзаим.  Wповт  Wост .
W0  Wгр
После того, как определены суммы квадратов, необходимо установить степени свободы вариации,
соответствующие каждой сумме квадратов.
При группировке данных по одному признаку и случайному распределению повторностей в
группах общее число степеней свободы составит  общ  N  1 , для групповой вариации  гр  k  1
(количество средних k минус 1), для остаточной вариации  ост  ( N  1)  (k  1) (общее число степеней
свободы минус число степеней свободы для групповой вариации). Определение числа степеней свободы при
группировке по одному (двум) признакам и неслучайном распределении повторностей далее рассмотрено
на конкретных примерах.
После определения числа степеней свободы и суммы квадратов отклонений рассчитываются
групповая и остаточная дисперсии:
2
Дисперсия групповая ( S гр
) характеризует в среднем вариацию, обусловленную влиянием
группировочного признака и определяется так:
2
S гр

Wгр
.
k 1
2
Дисперсия остаточная ( S ост
) измеряет вариацию, обусловленную случайными причинами,
которые не учитывались при распределении данных наблюдений на группы:
Wост
.
( N  1)  (k  1)
Если групповая дисперсия значительно больше остаточной, то фактор оказывает существенное
2
S ост

влияние на величину признака. Фактическое отношение групповой дисперсии к остаточной ( Fфакт 
2
S гр
2
S ост
)
сравнивают с табличным значением F.
Отношение дисперсий групповой и остаточной позволяет сделать с определенной вероятностью
вывод о том, достоверны ли различия в средних. Если есть необходимость сделать заключение об отдельных
парах средних, этот вывод недостаточен.
Поэтому результаты дисперсионного анализа дополняются оценкой достоверности разности
между двумя средними.
Для этого рассчитывается средняя ошибка выборочных средних на основе остаточной дисперсии:
S2
m 2  ост .
n
Средняя ошибка разности двух средних - корень квадратный из суммы квадратов средних ошибок
сравниваемых средних, но так как m2 одинакова для всех средних,
2
S ост
S2
2
.
 ост  S ост
n
n
n
Принимая доверительный уровень вероятности по таблицам t Стьюдента, определяют
критическую величину t.
На основе средней ошибки разности двух средних m12 и tтабл вычисляют возможную
предельную ошибку этой разности:
 р  t  m1 2 .
m12 
Предельная ошибка сопоставляется с разностью двух сравниваемых средних:
 факт  x1  x 2 .
Если разница между средними больше по абсолютной величине возможной предельной ошибки,
то делается вывод о существенности разности средних. Если же  факт   р , то разница между средними
лежит в границах возможных случайных колебаний, т.е. она недостоверна.
Величину  р принято называть наименьшей существенной разностью.
Рассмотрим дисперсионный анализ на конкретных примерах.
Пример 1.
Имеются данные о заработной плате 20 работников фирмы:
Таблица 4
№п/п
З/пл,
тыс.
руб.
1
2
3
4
5
1,3
1,7
2,3
2,7
3,0
Данные о заработной плате работников фирмы
6
7
8
9
10 11 12 13 14 15
3,2
3,4
3,5
3,6
3,7
3,9
4,2
4,4
4,5
4,7
16
17
18
19
20
4,8
5,0
5,2
5,7
5,8
Используя правило сложения дисперсий, определить степень влияния уровня образования
работников на заработную плату, если работники со средним специальным образованием имеют заработную
плату до 3,5 тыс. руб., с высшим – более 3,5 тыс. руб.
Для определения степени влияния образования работников на их заработную плату, определяем
группировочный признак и строим таблицу. Результативным признаком является заработная плата,
факторным – образование работников.
Таблица 5
Распределение заработной платы работников в зависимости от уровня образования
Среднее специальное
Высшее
з/пл,
з/пл,
2
2
xi  xi
xi  xi
тыс.
тыс.
№ п/п
№ п/п
xi  xi
xi  xi
руб. xi
руб. xi
1,3
-1,3
1,69
3,6
-1,0
1,00
1
1
1,7
-0,9
0,81
3,7
-0,9
0,81
2
2




3
4
5
6
7
8
2,3
2,7
3,0
3,2
3,4
3,5
Итого:
21,1
-0,3
0,1
0,4
0,6
0,8
0,9
0,09
0,01
0,16
0,36
0,64
0,81
3,9
4,2
4,4
4,5
4,7
4,8
5,0
5,2
5,7
5,8
55,5
3
4
5
6
7
8
9
10
11
12
Итого:
4,57
-0,7
-0,4
-0,2
-0,1
0,1
0,2
0,4
0,6
1,1
1,2
0,49
0,16
0,04
0,01
0,01
0,04
0,16
0,36
1,21
1,44
5,73
Внутригрупповые дисперсии определим по формуле:

2
i

 x
 xi
i
2
n
,
8
x
i 1
x1 
n

21,1
 2,6
8

55 ,5
 4,6
12
тыс. руб.,
12
x2 
x
i 1
n
8
 12 
 x
 x1 2
i
i 1

n
12
 x
 x2
i
тыс. руб.,
4,57
 0,57 ,
8

5,73

 0,48 .
n
12
Внутригрупповые дисперсии показывают вариацию заработной платы по группам, вызванные
всеми возможными факторами (стаж работы, квалификация, должность, производительность труда и др.),
кроме образования работников.
Среднюю из внутригрупповых дисперсий определим по формуле:

2
2

 i2
i 1
  f

f
2
i

0,57  8  0,48  12 10,32

 0,52 .
20
20
Межгрупповая дисперсия исчисляется по формуле:
 x  x 

f
2

2
i
f
.
Определим общую среднюю по формуле средней арифметической простой:
x 76 ,6
x

 3,83 тыс. руб.
n
20

2 
2,6  3,83 2  8  4,6  3,83 2  12  19,16  0,96 .
20
20
Межгрупповая дисперсия показывает вариацию заработной платы, обусловленную влиянием
образования работников.
Общую дисперсию определяем на основании правила сложения дисперсий:
 2   i2   2 ,
 2  0,52  0,96  1,48 .
Определим долю межгрупповой дисперсии в общей с помощью эмпирического коэффициента
детерминации:
2 
2
,
2
0,96
 0,649 .
1,48
На 64,9% вариация заработной платы обусловлена влиянием уровня образования работников и на
35,1% (100-64,9) влиянием прочих факторов, не учтенных в группировке.
Эмпирическое корреляционное отношение:
2 
  0,649  0,81 .
Эмпирическое корреляционное отношение показывает тесноту связи между результативным и
факторным признаком. Оно равно 0,81, следовательно, связь между заработной платой и уровнем
образования работников - тесная.
Пример 2. Дисперсионный анализ при группировке данных по одному признаку
(неслучайное распределение наблюдений в группах).
Правление фирмы решает изучить результаты продвижения на книжный рынок научной
литературы, надеясь извлечь из них информацию, которой можно было бы воспользоваться при
организации и проведении компании по распространению новых изданий.
С этой целью была выделена контрольная группа продавцов, не имеющих опыта работы. Вторая
группа имела стаж работы 1-3 года. Третью группу составляли работники со стажем более 3-х лет.
Чтобы обеспечить по всем трем вариантам выровненные условия, были сформированы пять групп,
приблизительно равноценных по показателям. Каждая группа включала 3 человека. Результаты работы
приведены в таблице 6.
Таблица 6 Количество проданной научной литературы, шт. (в среднем за месяц)
Повторности
Варианты опыта
Суммы Средние
1
2
3
4
5
347
331
335
333
327
1673
335
I группа (контр.)
373
379
366
345
349
1812
362
II группа
395
383
388
357
362
1885
377
III группа
1115
1093
1089
1035
1038
5370
358
Суммы
372
364
363
345
346
358
Х
Средние
Проведение исследования таково, что наблюдения в каждом варианте связаны общностью
условий, т.е. распределение повторностей в группах неслучайное. Порядок построения опыта делает
необходимым исключение из общей суммы квадратов отклонений вариации, определяемой стажем,
повторностями и остаточной вариацией:
W0  Wст  Wповт  Wост .
Требуется статистически оценить результаты исследований в целом и попарно сравнить средние
по стажу. Уровень вероятности суждения 0,05.
Решение.
1. Выдвинем гипотезу, что различия в средних стажа работы случайны, и рассчитаем показатели,
необходимые для заключения выдвинутой гипотезы.
2. Данные таблицы 6 для удобства вычислений целесообразно уменьшить на постоянную величину
(А), близкую к значению средней. Результаты занесем в таблицу 7.
Таблица 7
Отклонения от условного начала у = х – А, А = 350
Повторности
yj
Сумма
Вариант опыта
1
2
3
4
5
-3
-19
-15
-17
-23
-77
I группа (контр.)
23
29
16
-5
-1
62
II группа
45
33
38
7
12
135
III группа

Суммы
y
i
65
43
Проверим правильность вычислений:
39
х y
ij
-15
ij
 N A,
где N = 15 – общее число наблюдений (N = k · n = 3 · 5 = 15),
-12
120 =
y
ij
k - число вариантов,
n – число наблюдений в каждом варианте.
5370  120  15  350 .
3. Все отклонения от условного начала, суммы по столбцам и строкам возведем в квадрат (табл. 8).
Таблица 8 Таблица квадратов
Повторности
Сумма квадратов Квадрат суммы
Вариант опыта
( yi ) 2
y 2j
1
2
3
4
5

9
I группа (контр.)
529
II группа
2025
III группа
Сумма квадратов
2563
y2

i
361
841
1089
225
256
1444
289
25
49
529
1
144
2291
1925
363
674
1849
1521
225
144
1413
1652
4751
7816
Квадрат сумм
( yi )
2

  y ij2
5929
3844
18225
27998
  ( y j ) 2
14400
7964
4225
  ( yi )
 ( yij ) 2
2
Рассчитаем суммы квадратов отклонений по данным таблицы 8.
Wст
(
y

 ( y

W0 
y ij2 
ij )
2
 7816 
N
j)
n
2

 ( y )
(
y
ij )
2
N
2
(
y
14400
 6856 ,0
15
ij )
27998 14400

 4639 ,6
5
15

2
7964 14400

 1694 ,7.
k
N
3
15
Затем определим остаточную сумму квадратов как разность:
Wост  W0  Wст  Wповт  6856 ,0  4639 ,6  1694 ,7  521,7 .
W пов т 
i


4. Далее необходимо определить число степеней свободы вариации для каждой суммы квадратов
отклонений:
W0    N  1  15  1  14
Wст   ст  k  1  3  1  2
Wповт   повт  n  1  5  1  4
Wост   ост  ( N  1)  (k  1)  (n  1)  14  2  4  8
5. Для того, чтобы определить дисперсии, следует разделить суммы квадратов отклонений на
соответствующее число степеней свободы. Результаты расчетов занесем в следующую таблицу.
Таблица 9
Анализ дисперсий
Источник
вариации
Стаж
Повторности
Остаточная
Общая
Сумма
Степень
Отношение дисперсии
квадратов
свободы Дисперсия
Fфакт
Fтабл
отклонений вариации
4639,6
1694,7
521,7
6856,0
2
4
8
14
2319,8
423,7
65,2
X1
35,6
6,5
1,0
4,46
3,84
2
6. Вариацию внутри групп (случайную вариацию) определяет Sост
, равная 65,2, ее и принимают
за базу сравнения.
Определим фактическое отношение дисперсий:
1
Т.к. общая дисперсия не участвует в анализе, ее не вычисляем.

Fфакт

2
S ст

2319 ,8
 35,6,
2
65,2
S ост
S2
423 ,7

Fфакт
 повт

 6,5,
2
65,2
S ост
S2
65,2

Fфакт
 ост

 1.
2
S ост 65,2
Проведенные расчеты показывают, что дисперсии стажа и повторностей значительно превышают
остаточную дисперсию.
7. Воспользуемся приложением А и определим Fтабл при уровне вероятности суждения 5% (0,05).
Значение Fтабл находим на пересечении столбца и строки (соответствующих степеням свободы). Например:
2
степеней свободы  2 столбец
S ст


2
S ост степеней свободы  8
строка
2
2
Таким образом, для оценки отношения S ст
: S ост
Fтабл = 4,46, а для оценки отношения
Fтабл  3,84 .
Фактические отношения дисперсий (35,6 и 6,5) значительно превышают пределы возможных
случайных колебаний (4,46 и 3,84), поэтому следует отказаться от гипотезы, что различия в средних
стажа работы несущественны.
2
2
S повт
: S ост
8. Проведенный дисперсионный анализ выявил существенность различий между средними в целом.
Приступим к оценке существенности разностей между каждой парой средних. Для этого необходимо
вычислить среднюю ошибку разности средних:
m12 
S ост 
2
2  S ост
n
2
S ост
 S ост
2
n
 8,1 
2
 8,1  0,632  5,12 шт. за месяц;
5
 65,2  8,1 шт. за месяц.
9. Обратимся к приложению Б Значение критерия t-Стьюдента.
При вероятности 0,05 и 8 степенях свободы вариации значение нормированного t равно
2,3060≈2,31. Тогда предельная ошибка составит:
 0,05  t  m12  2,31  5,12  11,8 штук.
Мы определили величину возможных случайных колебаний при заданном уровне вероятности.
Сопоставим разность объема проданной литературы, соответствующей стажу работы и размер предельной
ошибки. Если разность превышает предельную ошибку, то ее принято считать существенной.
Возможны следующие сопоставления:
x1  x 2  335  362  27
x 2  x 3  362  377  15
x1  x 3  335  377  42
Полученные результаты превышают по абсолютной величине предельную ошибку. Это позволяет
нам заключить, что они существенны.
Download