М.В.Дубатовская. Теория вероятностей и математическая статистика § 37. Общая, факторная и остаточная суммы квадратов отклонений Рассмотрим случай однофакторного анализа, когда на СВ X воздействует только один фактор F , который имеет p постоянных уровней. Пусть признак X распределен нормально. На него воздействует фактор F , который имеет p постоянных уровней. Будем предполагать. Что число наблюдений на каждом уровне постоянно и равно q . Пусть наблюдалось n pq значений xij признака X , где i -номер испытания, i 1, q , j -номер уровня фактора, j 1, p . Результаты наблюдений сведены в таблицу Номер испытания F1 Уровни фактора … F2 Fp 1 x11 x12 … x1 p 2 x21 x22 … x2 p … q … xq1 … xq 2 … … … xqp Групповые средние x гр1 x гр 2 … x грp Введем в рассмотрение величины p q Sобщ ( xij x )2 j 1 i 1 - общая сумма квадратов отклонений наблюдаемых значений от общей средней x . p Sфакт q ( xгрj x )2 j 1 - факторная сумма квадратов отклонений групповых средних от общей средней x . Она характеризует рассеяние «между группами». q q ( xi1 xгр1 )2 Sост q xгр 2 )2 ... ( xi 2 i 1 i 1 ( xip xгрp )2 i 1 - остаточная сумма квадратов отклонений наблюдаемых значений группы от своей групповой средней, которая характеризует рассеяние «внутри группы». Эти суммы связаны равенством: S ост S общ S факт . Элементарными преобразованиями можно получить формулы, более удобные для расчетов: p Sобщ p Pj j 1 R j )2 ( pq) , ( j 1 М.В.Дубатовская. Теория вероятностей и математическая статистика p Sфакт p R 2j ) ( pq) ( j 1 q где Pj R j )2 ( pq) , ( j 1 xij2 - сумма квадратов значений признака на уровне F j , i 1 q Rj xij - сумма значений признака на уровне F j . i 1 Замечание 1. 1) S факт характеризует воздействие фактора F . Допустим. что фактор оказывает существенное влияние на СВ X . Тогда группа наблюдаемых значений на одном определенном уровне, вообще говоря, отличается от групп наблюдений на других уровнях. Следовательно, различаются и групповые средние, причем они тем больше рассеяны вокруг общей средней, чем большим окажется воздействие фактора. Отсюда следует, что для оценки воздействия фактора целесообразно составить сумму квадратов отклонений групповых средних от общей средней (отклонение возводят в квадрат, чтобы исключить погашение положительных и отрицательных отклонений). Умножив эту сумму на q , получим S факт , которая и отражает воздействие фактора. 2) S ост характеризует влияние случайных причин. Казалось бы, наблюдения одной группы не должны различаться. Однако, поскольку на X , кроме фактора F , воздействуют и случайные причины, наблюдения одной группы, вообще говоря, различны, а значит, рассеяны вокруг своей групповой средней. Отсюда следует, что для оценки влияния случайных причин целесообразно составить сумму квадратов отклонений наблюдаемых значений каждой группы от своей групповой средней, т.е. S ост . 3) S общ отражает влияние и фактора, и случайных причин. Будем рассматривать все наблюдения как единую совокупность. Наблюдаемые значения признака различны вследствие воздействия фактора и случайных причин. Для оценки этого воздействия целесообразно составить сумму квадратов отклонений наблюдаемых значений от общей средней. Замечание 2. Для упрощения вычислений вычитают из каждого наблюдаемого значения одно и то же число C , примерно равное общей средней. Обозначим yij xij C . Тогда p p Sобщ Qj T j ) 2 ( pq) , ( j 1 j 1 p Sфакт p T j2 ) ( pq) ( j 1 q где Q j T j ) 2 ( pq) , ( j 1 q yij2 , T j yij . i 1 i 1 q Тогда R j q xij i 1 q ( yij i 1 C) yij qC T j qC . i 1 Приведем пример, из которого видно, что S факт отражает влияние фактора, а S ост влияние случайных причин. М.В.Дубатовская. Теория вероятностей и математическая статистика Пример. Двумя приборами производится по два измерения некоторой физической величины, истинный размер которой равен x . Рассматривая в качестве фактора систематическую ошибку C , а в качестве его уровней систематические ошибки C1 и C 2 соответственно первого и второго приборов, показать, что S факт определяется систематическими, а S ост - случайными причинами. Решение. Пусть 1 и 2 - случайные ошибки первого и второго измерений первым прибором, 1 и 2 - случайные ошибки первого и второго измерений вторым прибором. Наблюдаемые значения результатов наблюдений приведены в таблице: Номер измерения 1 2 Групповые средние Прибор I x C1 x C1 xгр1 1 x C1 1 2 2 x C1 2 xгр 2 xгр1 Общая средняя x II x C2 x C2 x 2 xгр 2 C1 C2 2 x C2 1 1 2 2 2 x C2 . 2 Факторная сумма S факт ( xгр1 x )2 x )2 ( xгр 2 C1 C2 2 Обычно случайные ошибки , ( x C2 x C1 C2 )2 2 2 2 2 (C1 C2 ) ( ) )2 (C1 C2 )( ). 2 2 2 малы, следовательно, поведение S факт определяется ( x C1 x первым слагаемым, т.е. отражает влияние фактора C . Остаточная сумма Sост ( x11 xгр1 )2 ( x21 xгр1 )2 Подставим величины в скобках, получим: S ост ( 1 )2 ( 2 )2 ( 1 )2 xгр 2 )2 ( x12 ( 2 ( x22 xгр 2 )2 . )2 . Очевидно, S ост определяется случайными ошибками, следовательно, отражает действие случайных причин. § 38. Общая, факторная и остаточная дисперсии. Разделив суммы квадратов отклонений на соответствующее число степеней свободы, получим общую, факторную и остаточную дисперсии: 2 sобщ Sобщ pq 1 2 , sфакт Sфакт p 1 2 , sост S ост , p ( q 1) где p - число наблюдений на каждом уровне, pq 1 - число степеней свободы общей дисперсии, p 1 - число степеней свободы факторной дисперсии, p(q 1) - число степеней свободы остаточной дисперсии. Если нулевая гипотеза о равенстве средних справедлива, то все эти дисперсии являются несмещенными оценками генеральной дисперсии. Учитыая, например, что М.В.Дубатовская. Теория вероятностей и математическая статистика объем выборки n 2 pq , заключаем, что sобщ Sобщ Sобщ - исправленная выборочная pq 1 n 1 дисперсия, которая является несмещенной оценкой генеральной дисперсии. Замечание. Число степеней свободы p(q 1) остаточной дисперсии равно разности между числом степеней свободы общей и факторной дисперсий. §39. Сравнение нескольких средних методом дисперсионного анализа При заданном уровне значимости нужно проверить нулевую гипотезу о равенстве нескольких ( p 2 ) средних нормальных совокупностей с неизвестными, но одинаковыми дисперсиями. Покажем. что решение этой задачи сводится к сравнению факторной и остаточной дисперсий по критерию Фишера-Снедекора. 1) Пусть нулевая гипотеза о равенстве нескольких средних (будем называть их групповыми) справедлива. В этом случае факторная и остаточная дисперсии являются несмещенными оценками генеральной дисперсии и, следовательно, различаются незначимо. Если сравнить эти оценки по критерию Фишера, то, очевидно, критерий укажет, что нулевую гипотезу о равенстве факторной и остаточной дисперсий нет оснований отвергнуть. Таким образом, если гипотеза о равенстве групповых средних правильна, то верна и гипотеза о о равенстве факторной и остаточной дисперсий. 2) Пусть нулевая гипотеза о равенстве групповых средних ложна. В этом случае с возрастанием расхождения между групповыми средними увеличивается и 2 sфакт факторная дисперсия, а вместе с ней и отношение Fнабл . В итоге Fнабл 2 sост окажется больше Fкр , следовательно, гипотеза о равенстве факторной и остаточной дисперсий будет отвергнута. Таким образом. если гипотеза о равенстве групповых средних ложна, то ложна и гипотеза о равенстве факторной и остаточной дисперсий. Легко доказать от противного и справедливость обратных утверждений: из правильности (ложности) гипотезы о равенстве факторной и остаточной дисперсий следует правильность (ложность) гипотезы о средних. Итак, чтобы проверить гипотезу о равенстве групповых средних нормальных совокупностей с одинаковыми дисперсиями, достаточно проверить по критерию Фишера нулевую гипотезу о равенстве факторной и остаточной дисперсий. В этом и состоит метод дисперсионного анализа. Замечание 1. Если факторная дисперсия окажется меньше остаточной, то отсюда уже следует справедливость гипотезы о равенстве групповых средних, и значит, нет необходимости прибегать к критерию Фишера. Замечание 2. Если нет уверенности в справедливости предположения о равенстве дисперсий рассматриваемых совокупностей, то это предположение следует проверить предварительно, например по критерию Кочрена.