Глава 3. Анализ многомерных данных В предыдущей главе рассматривались методы статистического анализа данных, описываемых, в основном, одной переменной. Теперь мы рассмотрим методы, позволяющие анализировать данные, описываемые любым числом переменных, т.е. так называемые многомерные данные. 3.1 Классификация методов анализа многомерных данных Несмотря на чрезвычайное разнообразие методов анализа многомерных данных, имеется четкая система представления как самих данных, так и результатов их анализа. Данные представляются в виде прямоугольной таблицы (матрицы), строки которой соответствуют различным ситуациям (наблюдениям), а столбцы - переменным, наблюдаемым в этих ситуациях. Результаты же представляются в виде функций, выражающих одни переменные (называемые зависимыми переменными, или откликами) через другие переменные (называемые независимыми переменными, или факторами). Такое представление исходных данных и результатов анализа чрезвычайно удобно, поскольку предлагает ясную схему для сбора данных, их обработки и интерпретации полученных результатов. Предлагаемая ниже классификация методов анализа данных проведена по двум основаниям: отсутствию или наличию независимых переменных, а также по типу зависимых и независимых переменных, которые могут быть качественными представлена или на количественными. рис. 3.1. Основным Схема служит этой деление классификации на методы, предполагающие наличие независимых переменных (левая часть схемы) и не предполагающие их наличие (правая часть). Это деление определяет содержательную постановку задачи, тогда как дальнейшее деление методов по типу зависимых и независимых переменных носит скорее технический характер, детализируя математическую процедуру ее решения. 138 В случае априорного разделения переменных на зависимые и независимые (см. левую часть рис. 3.1) задача анализа состоит в получении описания зависимости Y от X. Выбор метода решения зависит прежде всего от того, являются ли качественными или количественными зависимые переменные Y. Окончательное решение о выборе метода анализа данных принимается в зависимости от типа независимых переменных X. Наиболее часто на практике для установления связи между независимыми и зависимыми переменными применяют регрессионный анализ и дисперсионный анализ. В обоих случаях откликами служат количественные переменные, однако факторы в регрессионном анализе количественные, а в дисперсионном - качественные. АНАЛИЗ ДАННЫХ Анализ факторов Y=f(?) Анализ зависимостей Y=f(X) Y - колич. Регр. анализ и дисп. анализ X - колич. Регрессионный анализ X - качеств. Дисперсионный анализ ? - колич. Факторный анализ ? - качеств. Кластерный анализ Y - качеств. Распознавание образов X - колич. Дискриминантный анализ X - качеств. Сегментационный анализ и др. 139 Рис 3.1. Классификация методов анализа данных В регрессионном анализе наиболее явно виден функциональный характер модели анализа данных. Задача регрессионного анализа прямо формулируется как задача поиска функциональной зависимости Y от X, причем задача поиска формы связи не менее важна, чем вопросы статистической значимости полученных результатов. Наиболее широко применяется модель множественного линейного регрессионного анализа, позволяющая получать аналитически все стандартные статистические оценки. В более сложных ситуациях (например, при использовании пошаговых процедур) для получения статистических выводов приходится применять методы, основанные на стохастическом моделировании, такие как случайная пермутация или бутстрэп. Задачей дисперсионного анализа является установление связи между независимыми качественными переменными и зависимыми количественными. Однако поскольку функциональная структура связи очень проста - отклики представляются как линейные комбинации бинарных переменных - уровней факторов, то основное внимание в дисперсионном анализе уделяется вопросам статистической значимости влияния отдельных факторов. Если отклики Y качественные, то для анализа используется группа методов, известная под общим названием распознавания образов. Наиболее используемым методом распознавания в случае количественных факторов является дискриминантный анализ. Примерами методов распознавания, ориентированных на случай качественных факторов, могут служить сегментационный анализ и метод обобщенного портрета. 140 Целью дискриминантного анализа является получение правила, позволяющего на основе наблюденных значений количественных независимых переменных предсказывать X значение качественной переменной Y, указывающей на принадлежность наблюдения к одному из заданных классов. Сегментационный анализ состоит в последовательном разбиении совокупности наблюдений с целью получения, в конечном итоге, групп, максимально однородных по классовому составу. Случай отсутствия зависимых переменных (правая часть рис. 3.1) предполагает, что все анализируемые переменные в некотором смысле равноправны, и мы принимаем их за отклики (для простоты будем считать их количественными), значения которых определяются какими-то нам неизвестными факторами. Примерами могут служить морфологические или генетические характеристики растений, животных или людей, принадлежащих определенному таксону или обитающих на определенной территории. Задача анализа состоит в поиске этих неизвестных факторов. Выбор метода решения зависит от того, считаем ли мы искомые факторы качественными или количественными. Для поиска качественных факторов используется группа методов, известная под названием кластерный анализ, среди которых наиболее часто используется так называемый агломеративно-иерархический метод, основанный на последовательном объединении многомерных наблюдений сначала в мелкие, а затем во все более и более крупные группы. Результатом кластерного анализа является разбиение всей совокупности наблюдений на классы. Полученной классификации соответствует качественная переменная (или несколько переменных, если используются несколько классификаций разной степени дробности или пересекающиеся классификации), категориями которой служат номера классов. Именно эта переменная (или переменные) и будет искомым качественным фактором. Найдя такой фактор (классифицирующую переменную), мы получаем возможность объяснять 141 сходство или различие в значениях откликов для разных наблюдений принадлежностью их к одному или к разным классам. Если же неизвестные факторы ищутся в форме количественных переменных, то используются методы факторного анализа. В этом случае задача состоит в представлении имеющихся откликов, Y, в виде линейных комбинаций неизвестных количественных факторов, X . С практической точки зрения применение этого метода оправдано, если удается с достаточной степенью приближения выразить большое количество откликов через малое число факторов. Одним из наиболее часто используемых методов этого класса является метод проектировании главных исходного компонент, многомерного основанный на ортогональном пространства в пространство меньшей размерности, в котором точки-наблюдения имеют наибольший разброс. Метод позволяет записать исходные данные в более компактном виде с сохранением максимума содержащейся в них информации и даже представить их графически на плоскости для случая двух факторов. Следует еще раз подчеркнуть, что основным является деление методов анализа на те, в которых переменные делятся на зависимые и независимые (анализ связи), и те, в которых такого деления нет (анализ факторов). Дальнейшее деление методов по типу откликов и факторов довольно относительно. Дело в том, что уровни качественных факторов можно рассматривать как бинарные переменные, которые, в свою очередь, можно считать количественными переменными со значениями 0 и 1. С другой стороны, непрерывную шкалу значений количественной переменной можно категоризовать и рассматривать эту переменную как качественную. Во всяком случае, такого рода преобразования приходится делать вынужденно, когда по типу различаются не только факторы и отклики, но и разные переменные среди факторов или среди откликов. 3.2 Матричная алгебра 142 Адекватным математическим аппаратом для описания методов статистического анализа многомерных данных является матричная алгебра. Напомним ее основные понятия. Матрицей порядка n×m (или n×m-матрицей) называется любая таблица из n строк и m столбцов. Если n=m, то матрица называется квадратной, а число n=m – ее порядком. Например, матрицей является таблица многомерных статистических данных, содержащая значения m переменных для n наблюдений X x11 x12 ... x1m x21 x22 ... x2 m ... ... ... ... x x ... x nm n1 n 2 Другой пример – матрица выборочных корреляций, вычисленная для этих данных, которая имеет порядок mm r11 r12 ... r1m r21 r22 ... r2 m R ... ... ... ... r r ... r m1 m 2 mm Матрица из одного столбца называется также вектором-столбцом, или просто вектором. Например, совокупность наблюдений зависимой переменной Y можно представить в виде вектора-столбца Y y1 y 2 ... y n Для матриц одного порядка определена операция сложения – элементы матрицы суммы равны сумме соответствующих элементов матриц-слагаемых 143 a11 a12 ... a1m b11 b12 ... b1k a11 b11 a12 b12 ... a1m b1m a21 a22 ... a2 m b21 b22 ... b2 k a21 b21 a22 b22 ... a2 m b2 m AB ... ... ... ... ... ... ... ... ... ... ... ... a a ... a b b ... b a b a b ... a b nm mk n1 n1 n 2 n2 nm nm n1 n 2 m1 m 2 Умножение матрицы на число определяется как умножение каждого элемента матрицы на это число a11 a12 ... a1m a21 a22 ... a2 m A ... ... ... ... a a ... a nm n1 n 2 Если число столбцов одной матрицы равно числу строк другой (такие матрицы называются соответственными), то для них определена операция умножения матриц по правилу «строка на столбец» m a1i bi1 i1 a11 a12 ... a1m b11 b12 ... b1k m a2i bi1 a a ... a b b ... b AB 21 22 2m 21 22 2k i 1 ... ... ... ... ... ... ... ... a a ... a b b ... b ... nm m1 m 2 mk n1 n 2 m ani bi1 i1 m a1i bi 2 m ... a1i bik m m a2i bi 2 ... a2i bik i 1 i 1 ... ... ... m m ani bi 2 ... ani bik i 1 i 1 i 1 i 1 Мы видим, что умножение матрицы тm порядка на матрицу порядка mk дает матрицу порядка nk. Операция транспонирования матрицы состоит в том, что строки исходной матрицы становятся столбцами транспонированной a11 a21 ... an1 a12 a22 ... an 2 t A ... ... ... ... a a ... a nm 1m 2m 144 Квадратная матрица может иметь обратную матрицу. Матрица называется обратной к квадратной AA1 A1 A I , где I A матрице порядка nn, A 1 если - единичная матрица, т.е. матрица, диагональные элементы которой единицы, а внедиагональные – нули. Единичная матрица A на AI IA A . обладает тем свойством, что умножение любой квадратной матрицы единичную матрицу того же порядка не меняет A, т.е. Обратная матрица для единичной матрицы является также единичной матрицей, т.е. I 1 I . Обратная матрица может быть вычислена по формуле A1 adj ( A) / det( A) где adj(A) – так называемая присоединенная матрица для ее определитель, часто обозначаемый также как A , а det(A) – A . Определитель матрицы – это связанное с ней числовое значение, определяемое выражением A (1) r a1k1 a2k2 ... ankn в котором суммирование ведется по всем n! перестановкам индексов 1, 2, …, n, а r – число парных инверсий, необходимых для получения перестановки k1, k2, …, kn из исходного упорядочения 1, 2, …, n. Например для определителя квадратной матрицы 22 A a11 a12 a21 a22 получаем следующий результат A a11a22 a12 a21 Определитель матрицы порядка 11 равен значению ее единственного элемента. 145 Квадратная AA AA I , матрица A называется ортогональной, если т.е. если обратная матрица может быть получена из исходной просто путем ее транспонирования A1 A . Очевидно, если определитель матрицы равен нулю (в этом случае она называется вырожденной), то для нее не существует обратной матрицы (т.к. в формуле для вычисления обратной матрицы определитель находится в знаменателе). В частности, если элементы какой-либо строки или столбца матрицы пропорциональны другой строке или столбцу (т.е. получены путем умножения их элементов на одно и то же число), то определитель будет равен нулю, и такая матрица не будет иметь обратной. Например, a a det 11 12 a11 ka12 a12 ka11 0 ka11 ka12 Вообще, определитель будет равен нулю в случае, если какая-либо строка или столбец матрицы является линейной комбинацией других ее строк или столбцов. С любой квадратной матрицей A порядка nn связан также набор ее собственных значений 1, 2, …, n – решений уравнения n–ой степени A I 0 В свою очередь, каждому собственному значению i соответствует собственный вектор Vi , удовлетворяющий уравнению AVi iVi которое означает, что умножение слева собственного вектора Vi на матрицу A сводится к умножению его на скаляр – собственное значение i. Отсюда следует, что если из n собственных векторов-столбцов составить квадратную матрицу V , то будет выполняться соотношение AV V 146 ( - матрица, главная диагональ которой образована собственными значениями 1, 2, …, n, а вне диагональные элементы – нули). Можно показать, что если все собственные значения матрицы вырождена и имеет обратную матрицу A 1. A различны, то она не В этом случае, умножая полученное соотношение слева на V 1 , получаем V 1 AV V 1V I т.е. умножая A слева на V 1 , а справа на V, мы приводим ее к диагональному виду. 3.3 Регрессионный анализ Выше уже отмечалось, что одними из самых распространенных методов анализа связи между количественными переменными являются методы регрессионного анализа. Пусть в эксперименте наблюдаются значения m 1 переменной Рассмотрим Y , X 1 , X 2 ,, X m . матрицу экспериментальных данных где y i и xij y1 y2 x11 x 21 x12 x 22 yn x n1 xn2 x1m x 2m x nm — значения переменных Y и X j , соответственно, в i-м эксперименте. В регрессионном анализе (regression analysis) рассматривается связь между переменной Y , называемой зависимой переменной (dependent variable), и переменными X 1 , X 2 ,, X m , называемыми независимыми переменными (independent variables) (слово «независимые» здесь применяется не в вероятностном смысле). Эта связь описывается некоторой математической моделью, выражаемой функцией Y f ( X 1 , X 2 ,, X m ; 0 , 1 ,, k ) 147 где 0 , 1 , , k — неизвестные параметры, а — ошибка предсказания Y посредством функции регрессии f . Если функция регрессии линейна по параметрам (но не обязательно линейна по независимым переменным), то эта модель называется моделью линейного регрессионного анализа. Рассмотрим более подробно эту модель. Во многих реальных задачах экспериментальных исследований более подходящей является модель нелинейного регрессионного анализа (функция регрессии f нелинейна по параметрам). Но модель линейного регрессионного анализа часто бывает удовлетворительной в малой области изменения независимых переменных, а также как первое приближение к модели нелинейного регрессионного анализа. В практических исследованиях описание зависимости между переменными с помощью функции регрессии помогает установить наличие возможных причинных связей. Это часто привлекает исследователей к использованию методов регрессионного анализа. Другая причина частого использования методов регрессионного анализа состоит в том, что в ситуации, когда прямые измерения зависимой переменной затруднены, уравнение регрессии позволяет предсказать ее значения по значениям независимых переменных. Матрицу экспериментальных данных можно получить одним из двух способов. При первом способе значения независимых переменных X 1 , X 2 , , X m надлежащим образом выбираются и устанавливаются без погрешностей экспериментатором в каждом опыте, и при этих значениях измеряется с ошибками значение зависимой переменной Y . Такой эксперимент называется активным. Например, при изучении влияния температуры водной среды X на скорость дыхания гидробионтов Y экспериментатор выбирает определенные значения температур: 5°, 10° и т. д. Затем для этих значений температуры определяется скорость дыхания гидробионтов. При таком подходе только Y будет случайной величиной. При втором способе одновременно наблюдаются значения всех m 1 переменных Y , X 1 , X 2 ,, X m , причем все эти переменные 148 случайны, т. е. матрица экспериментальных данных в этом случае есть случайная выборка значений многомерной случайной величины (Y , X 1 , X 2 ,, X m ) . Такой эксперимент называется пассивным. Например, в случайно выбранной пробе воды регистрируется число бактерий на 1 мл (Y ) , температура водной среды ( X 1 ) , соленость ( X 2 ) и изучается влияние независимых переменных X 1 , X 2 на численность бактерий в водоеме Y . Второй способ позволяет проводить так называемый корреляционный анализ, т. е. делать статистические выводы (оценивание, проверка гипотез) о мерах линейной зависимости между переменными. К мерам линейной зависимости относятся коэффициент корреляции, множественный коэффициент корреляции и частный коэффициент корреляции. К статистическим проблемам регрессионного анализа относятся: проверка выполнения предположений, лежащих в основе регрессионного анализа, нахождение оценок неизвестных параметров регрессии, построение доверительных интервалов для неизвестных параметров регрессии, проверка гипотез относительно этих параметров, проверка адекватности регрессионной модели. 3.3.1 Множественная линейная регрессия Пусть Y зависимая, а X 1 , X 2 , , X m независимые переменные. Рассмотрим ситуацию активного эксперимента. Модель множественной линейной регрессии записывается в виде yi 0 1 xi1 2 xi 2 m xim i где (3.1) 0 , 1 ,, m - неизвестные параметры регрессии, а 1 , 2 ,, n - независимые случайные ошибки, распределенные по нормальному закону со средним 0 и одинаковой дисперсией 2 : i ~ N (0, 2 ) . 3.3.1.1 Оценивание параметров линейной регрессии 149 При построении оценок неизвестных параметров регрессии можно отказаться от предположения о нормальности, а предположение о независимости заменить на предположение о некоррелируемости. В случае, когда m 1 , модель множественной линейной регрессии (3.1) записывается в виде yi 0 1 xi i , и называется простой линейной регрессией (заметим, что через xi обозначено значение в i -м эксперименте единственной независимой переменной). Оценки неизвестных параметров регрессии 0 , 1 ,, m получаются с помощью метода наименьших квадратов Обозначим (мнк). через b0 , b1 ,, bm мнк-оценки неизвестных параметров ( b0 называется свободным членом или константой регрессии, a регрессии), т.е. оценки, b0 , b1 ,, bm обеспечивающие — коэффициентами минимум суммы квадратов отклонений значений зависимой переменной от регрессии n SST ( yi 0 1 xi1 2 xi 2 m xim ) 2 3.2) i 1 которая является мерой ошибки предсказания зависимой переменной Y с помощью модели множественной линейной регрессии по независимым переменным X 1 , X 2 , , X m . Оценкой функции регрессии (или прямой наименьших квадратов в случае простой линейной регрессии) будет зависимость Yˆ b0 b1 X 1 bm X m На рис. 3.2, иллюстрирующем метод наименьших квадратов в случае простой линейной регрессии, изображена прямая наименьших квадратов Yˆ b0 b1 X 1 и модули остатков d i yi b0 b1 xi yi yˆ i где ŷ i - предсказанные по регрессионной модели значения зависимой переменной, которые в случае простой регрессии равны 150 yˆ i b0 b1 xi а в случае множественной линейной регрессии yˆ i b0 b1 xi1 bm xim Рис.3.2. Прямая наименьших квадратов простой линейной регрессии. Графическая иллюстрация к определению сумм квадратов таблицы дисперсионного анализа Можно доказать, что оценки b0 , b1 ,, bm , получаемые по методу наименьших квадратов, линейно зависят от наблюдений y1 , y2 , , yn зависимой переменной Y . Приведем здесь формулы для вычисления мнк-оценок для случая простой линейной регрессии, т.е для случая m 1 n b1 ( xi x )( yi y ) i 1 n ( xi x ) 2 и b0 y b1 x i 1 151 где x Программы 1 n 1 n и x y yi . i n i 1 n i 1 множественной линейной регрессии всех пакетов статистических программ вычисляют оценки b0 , b1 , , bm . Кроме того, вычисляется таблица дисперсионного анализа для модели множественной линейной регрессии (табл. 3.1), на основании которой мы судим о качестве «подгонки» модели. В табл. 3.1 через SS D обозначается обусловленная регрессией сумма квадратов, SS R - сумма квадратов отклонений от линии регрессии или остаточная сумма квадратов (сумма квадратов остатков), SS T полная сумма квадратов. На рис. 3.2 дана графическая иллюстрация слагаемых сумм квадратов в случае простой линейной регрессии. Если SS R 0 то все экспериментальные точки лежат на линии регрессии - прямой наименьших квадратов Yˆ b0 b1 X 1 , а если SS D 0 , то наилучшее предсказание Y осуществляется моделью Yˆ y . 152 Таблица 3.1. Таблица дисперсионного анализа для модели множественной линейной регрессии Источник дисперсии Источник дисперсии n SS D ( yˆ i y ) 2 Регрессия i 1 Отклонение от регрессии (остатки) n SS R ( y i yˆ i ) 2 i 1 n Полная SST ( y i y ) 2 i 1 Степени свободы Средний квадрат F-отношение SS D MS D MS R D m MS D R n m 1 2 MS R sост D р-значение SS R R T n 1 153 2 MS R - несмещенная и состоятельная оценка для Можно показать, что sост дисперсии 2 sост MS R ошибки измерения зависимой переменной. Величину называют стандартной ошибкой оценки зависимой переменной (standard error of estimate). Верно замечательное свойство таблицы дисперсионного анализа SS T SS D SS R Отношение SS D SST есть доля вариации Y , объясняемой регрессией Y по X 1 , X 2 , , X m . Это отношение называется коэффициентом детерминации. Коэффициент детерминации является значений зависимой переменной Y мерой качества предсказаний моделью множественной линейной регрессии. Если он равен 1 (т. е. SS R 0 ), то экспериментальные точки в точности лежат на линии регрессии. А если коэффициент детерминации равен 0 (т. е. SS D 0 , a SST SS R ), то наилучшее предсказание Y осуществляется моделью Yˆ y , т. е. Y «не зависит» от X 1 , X 2 , , X m . Можно показать в случае множественной линейной регрессии, что SSD R2 SST а в случае простой линейной регрессии SSD r2 , SST где R есть выборочный множественный коэффициент корреляции между Y и X 1 , X 2 , , X m (определение множественного коэффициента корреляции дается ниже), а r — выборочный коэффициент корреляции между Y и X 1 . Модель множественной линейной регрессии удобно записывать в матричной форме. Обозначим через β ( β0 , β1, , βm )t вектор-столбец неизвестных параметров регрессии, b (b0 , b1, , bm )t — вектор-столбец мнк-оценок, y ( y1, y2 , , yn )t — вектор-столбец наблюденных значений 154 зависимой переменной Y , ε (ε1, ε2 , , εn )t — вектор-столбец ошибок, а также X Тогда матричная модель 1 1 x11 x21 x12 x22 1 xn1 xn 2 множественной x1m x2 m . xnm линейной регрессии (3.1) записывается в виде y Xβ ε где ε — случайная величина, распределенная по многомерному нормальному закону N (0, 2I) ( I — единичная диагональная матрица). Можно показать, что вектор мнк-оценок является решением системы так называемых нормальных уравнений (X t X)b Xt y и равен b (Xt X) 1 (Xt y) а ковариационная матрица вектора мнк-оценок равна cov(b) 2 (Xt X) 1 3.3.1.2 Доверительные интервалы Большинство программ множественной линейной регрессии вычисляют среднеквадратичные отклонения мнк-оценок коэффициентов регрессии, обычно называемые их стандартными ошибками (standard error of regression coefficients), которые будем обозначать через se (bi ) , где i 0,1, , m . Можно показать, что 100(1 )% -ный доверительный интервал для неизвестного коэффициента регрессии i равен (bi se(bi )t n m 1,1 2 , bi se(bi )t n m 1,1 2 ) , 155 где t n m 1,1 2 - квантиль распределения Стьюдента с n m 1 степенью свободы порядка 1 2 . Для случая простой линейной регрессии (m 1) выражения для стандартной ошибки свободного члена регрессии и углового коэффициента регрессии b1 имеют вид se(b1 ) MS R n 2 ( xi x ) i 1 n se(b0 ) MS R xi2 i 1 n n ( xi x ) 2 i 1 Построим теперь доверительный интервал для неизвестного значения Y . Предсказанное значение можно интерпретировать двумя способами, поэтому, соответственно способу интерпретации, можно построить два доверительных интервала. При первом способе, ŷ - наилучшая оценка измерения Y, соответствующего значениям независимых x1 , x 2 ,, x m переменных X 1 , X 2 , , X m . При втором способе, ŷ - наилучшая оценка математического ожидания измерения Y , соответствующего значениям x1 , x 2 ,, x m независимых переменных X 1 , X 2 , , X m . Обозначим xk 1 n xki , n i 1 а через через вектор-столбец, d ( x1 x1 , x2 x2 ,, xm xm ) t A квадратную матрицу m m с где элементами n aij ( xli xi )( xlj x j ) . Тогда нижняя и верхняя границы 100(1 )% -ного l 1 доверительного интервала для измерения Y при заданных x1 , x 2 , , x m определяются выражением 12 1 yˆ MS R 1 d t A 1d n t n m 1,1 2 (3.3) 156 а нижняя и верхняя границы 100(1 )% -ного доверительного интервала для математического ожидания измерения при Y заданных x1 , x2 ,, xS определяются выражением 12 1 yˆ MS R d t A 1d n где tn m 1,1 2 (3.4) t n m 1,1 2 — квантиль распределения Стьюдента с n m 1 степенями свободы порядка 1 2 . В случае простой линейной регрессии (m 1) доверительные интервалы (3.3) и (3.4) вычисляются более просто: 2 (x x ) 1 yˆ MS R 1 n n 2 ( xi x ) i 1 12 t n2,1 2 и 2 (x x ) 1 yˆ MS R n n 2 ( xi x ) i 1 Заметим, что чем дальше x 12 t n2,1 2 от среднего значения, тем больше доверительный интервал. Многие программы простой линейной регрессии рисуют эти доверительные интервалы в виде кривых вокруг прямой наименьших квадратов. Выбор типа доверительного интервала зависит от того, как интерпретирует предсказанное значение исследователь. 3.3.1.3 Проверка гипотез о коэффициентах линейной регрессии Рассмотрим проверку гипотезы о том, что вычисленные коэффициенты регрессии значимо не отличаются от нуля. Это равносильно гипотезе о том, что 157 независимые переменные X 1 , X 2 , , X m значимо не улучшают предсказания Y по сравнению с моделью yˆi y . Таким образом, рассмотрим нулевую гипотезу H 0 : 1 2 m 0 при альтернативной гипотезе H 1 : не все i равны нулю, (альтернативная гипотеза состоит в том, что некоторые из независимых переменных X 1 , X 2 ,, X S значимо улучшают предсказание Y по сравнению с моделью yˆi y ). Зададимся уровнем значимости критерия . Статистика критерия F MSD MSR (3.5) при условии, что верна гипотеза H 0 , имеет F -распределение с m и n m 1 степенями свободы. Эта статистика вычисляется программами множественной линейной регрессии в таблице дисперсионного анализа для модели множественной линейной регрессии (табл. 3.1) вместе с соответствующим pзначением, по которому мы, не пользуясь таблицами квантилей (в данном случае F -распределения), можем судить о том, согласуется (p-значение ) или не согласуется (p-значение ) гипотеза H 0 с экспериментальными данными. При отсутствии программы надо построить множество принятия нулевой гипотезы, которое в данном случае имеет вид (0, Fm, n m 1,1 ) , где Fm, n m 1,1 - квантиль F -распределения с m и n m 1 степенями свободы порядка 1 . И если вычисленное по выборке значение статистики критерия (3.5) примет значение из множества принятия нулевой гипотезы, то мы считаем, что гипотеза H 0 согласуется с экспериментальными данными. В противном случае гипотеза H 0 не согласуется с экспериментальными данными и отвергается на уровне значимости . Рассмотрим теперь проверку гипотезы о том, что k -й коэффициент регрессии значимо не отличается от нуля. Это равносильно гипотезе о том, что 158 независимая переменная X k значимо не улучшает предсказание Y . Таким образом, рассмотрим следующую нулевую и альтернативную гипотезы H 0 : k 0 H1 : k 0 Зададимся уровнем значимости критерия . При проверке данной гипотезы обычно рассматривают одну из двух эквивалентных статистик: bk2 se(bk ) и 2 bk se(bk ) . (3.6) При условии, что верна гипотеза H 0 , первая из статистик (3.6) имеет F распределение с 1 и n m 1 степенями свободы, а вторая – распределение Стьюдента с n m 1 степенями свободы. Эти статистики вычисляются программами множественной линейной регрессии вместе с соответствующими pзначениями. При отсутствии программы надо построить множество принятия нулевой гипотезы, которое для первой статистики имеет вид (0, F1, n m 1,1 ) , а для второй (t n m 1,1 2 , t n m 1,1 2 ) где F1, n m 1,1 - квантиль F -распределения с 1 и n m 1 степенями свободы порядка 1 , a t n m 1,1 2 - квантиль распределения Стьюдента с n m 1 степенями свободы порядка 1 2 . Заметим, что для проверки гипотезы H 0 : k C , где C — некоторое известное число при двусторонней альтернативе H 1 : k C используется статистика bk C , se(bk ) которая, при условии что верна гипотеза H 0 , распределена по закону Стьюдента с n m 1 степенями свободы. Предположения регрессионного анализа и проверка адекватности регрессионной модели исследуются при рассмотрении остатков di yi yˆ i . Графики остатков выводятся на печать большинством программ множественной и простой линейной регрессии. В некоторых программах для проверки коррелируемости ошибок i вычисляется статистика Дурбина — Ватсона. 159 3.3.2 Множественный и частный коэффициенты корреляции Пусть Y - зависимая, а X 1 , X 2 , , X m - независимые переменные. Рассмотрим ситуацию пассивного эксперимента, т. е. предположим, что матрица экспериментальных данных является случайной выборкой значений многомерной случайной величины (Y , X 1 , X 2 ,, X m ) . Определения. Множественным коэффициентом корреляции (multiple correlation coefficient) между Y и X 1 , X 2 ,, X m называется число (Y ; X 1 , X 2 , , X m ) , равное максимальному значению коэффициента корреляции между Y и любой невырожденной линейной комбинацией X 1 , X 2 , , X m . (Y ; X 1 , X 2 , , X m ) max (Y ; a1 X 1 a2 X 2 am X m ) a1 ,, a m Частным коэффициентом корреляции (partial correlation) между Y и X k (k m) при фиксированных значениях переменных X 1 , X 2 ,, X p (список не содержит переменную X k ) называется число (Y ; X m X 1 , X 2 , , X p ) (U 1 , U 2 ) , где U 1 Y m1 , U 2 X k m2 , а m1 и m 2 , соответственно, средние условных распределений Y и X k при фиксированных значениях X 1 , X 2 ,, X p . Множественный коэффициент корреляции служит мерой линейности зависимости между Y и набором переменных X 1 , X 2 , , X m , a частный коэффициент корреляции - мерой линейности зависимости между Y и X m , когда X 1 , X 2 ,, X p фиксированы. Предположим теперь, что (Y , X 1 , X 2 ,, X m ) — многомерная нормально распределенная случайная величина. Обозначим через y , 1, 2 ,, m и y2 , 12 , 22 ,, m2 средние и дисперсии случайных величин Y , X 1 , X 2 , , X m , а через yi и ij — коэффициенты ковариации Y с Xi и Xi с X j соответственно. Тогда можно доказать, что условное распределение Y для 160 данных значений x1 , x 2 , , x m независимых переменных X 1 , X 2 , , X m является нормальным с параметрами 0 1x1 2 x2 m xm и 2 y2 (1 2 (Y ; X 1 , X 2 ,, X m )) (3.8) где 0 , 1,, m - функции дисперсий и ковариаций случайных величин Y , X 1 , X 2 , , X m , a 0 y 11 2 2 m m . Причем случайная величина Y нормально распределена с параметрами 0 и 2 ( N (0, 2 )) . Поэтому можно записать Y 0 1 x1 2 x2 m xm где ~ N (0, 2 )) . Таким образом, мы пришли к модели множественной линейной регрессии (3.1), поэтому изложенные ранее результаты, относящиеся к активному эксперименту, применимы и в случае пассивного эксперимента. Заметим также, что из (3.8) следует, что квадрат множественного коэффициента корреляции равен доле дисперсии Y , «объясненной» линейной регрессионной зависимостью от X 1 , X 2 , , X m (Y ; X 1 , X 2 ,, X m ) 2 y2 2 y2 Аналогично можно показать, что квадрат частного коэффициента корреляции можно понимать как долю остаточной дисперсии Y, «объясненной» добавлением X k к набору X 1 , X 2 ,, X p . 3.3.3 Пошаговая регрессия До сих пор мы рассматривали множественную линейную регрессию зависимой переменной Y от всех независимых переменных X 1 , X 2 , , X m . Но часто перед исследователем стоит задача сначала выбрать из этого множества независимых переменных некоторое подмножество (называемое наилучшим подмножеством подмножеству переменных соответствует для предсказания наибольший Y ), такое коэффициент что этому множественной корреляции с зависимой переменной Y среди всех подмножеств той же 161 длины, а затем провести множественный линейный регрессионный анализ, описанный в предыдущем параграфе, считая независимыми переменные из наилучшего подмножества переменных. Обычно для выбора подмножества переменных применяется пошаговая регрессия (step-wise regression), когда независимые переменные включаются в наилучшее подмножество последовательно одна за другой на основании некоторого критерия включения переменной. В некоторый момент на основании правила остановки пошаговая процедура прекращает включение новых переменных, поскольку добавление новых не улучшает значимо предсказание переменной Y . При этом на каждом шаге процедуры некоторая переменная, уже включенная в наилучшее подмножество переменных, на основании некоторого критерия удаления переменных может быть удалена из подмножества переменных. Таким образом, метод пошаговой регрессии состоит из построения на каждом шаге множественной линейной регрессии, описанной в предыдущем параграфе и вычисления критериев включения и исключения переменных и остановки. Рассмотрим стандартную пошаговую процедуру ( F -метод), которая реализуется во всех программах пошаговой регрессии. Критерий включения переменной основывается на статистике F- включения. На очередном шаге процедуры включается та переменная, для которой значение статистики F -включения наибольшее, при условии, что оно превосходит некоторый установленный минимум, задаваемый правилом остановки. Критерий исключения переменной основывается на статистике F- удаления. На очередном шаге процедуры исключается та переменная, для которой значение статистики F -исключения наименьшее, при условии, что оно меньше некоторого установленного минимума, задаваемого правилом остановки. Рассмотрим более подробно статистики F -включения и F- исключения. Предположим, что в набор переменных для предсказания Y уже включено k переменных X 1 , X 2 ,, X k (без потери общности можно считать, что 162 это первые k переменных исходного набора переменных X 1 , X 2 , , X m k m ). Тогда значение статистики F -включения для переменной X k 1 равно r 2 (Y ; X k 1 | X 1 , X 2 , , X k ) (n k 2) 1 r 2 (Y ; X k 1 | X 1 , X 2 , , X k ) (3.9) где r 2 (Y ; X k 1 | X 1 , X 2 ,, X k ) - квадрат выборочного частного коэффициента корреляции между Y и X k 1 при фиксированных значениях переменных X 1 , X 2 ,, X k Статистика (3.9) служит для проверки гипотезы H 0 : (Y ; X k 1 | X 1 , X 2 ,, X k ) 0 , т. е. для проверки гипотезы о том, что включение X k 1 в набор переменных X 1 , X 2 ,, X k значимо не улучшает предсказание Y . При условии, что гипотеза H 0 верна, статистика (3.9) распределена по F закону с 1 и n k 2 степенями свободы. Значение статистики F -исключения для переменной X k равно r 2 (Y ; X k | X 1 , X 2 , , X k 1 ) (n k 1) 1 r 2 (Y ; X k | X 1 , X 2 , , X k 1 ) (3.10) где r 2 (Y ; X k | X 1 , X 2 ,, X k 1 ) - квадрат выборочного частного коэффициента корреляции между Y и X k при фиксированных значениях переменных X 1 , X 2 ,, X k 1 . Статистика (3.10) служит для проверки нулевой гипотезы H 0 : (Y ; X k | X 1 , X 2 ,, X k 1 ) 0 т. е. для проверки гипотезы о том, что исключение переменной X k из набора переменных X 1 , X 2 ,, X k значимо не ухудшает предсказание Y . При условии, что гипотеза H 0 верна, статистика (3.10) распределена по F -закону с одной и n k 1 степенями свободы. Более подробно с пошаговыми процедурами можно познакомиться в книге Афифи и Эйзена (1982). 3.3.4 Нелинейная регрессия 163 Описанная выше модель множественной линейной регрессии (3.1) наиболее часто применяется в анализе данных в силу простоты ее интерпретации, наличия быстрых и эффективных алгоритмов оценивания параметров и вычисления доверительных интервалов и статистик для проверки гипотез, а также целесообразности выбора наиболее простых моделей в условиях сильной зашумленности данных. Следует подчеркнуть, что важна линейность по параметрам, а по независимым переменным зависимость может быть нелинейной. Модель (3.1) может быть записана, оставаясь линейной, в более общей форме yi 0 1 f1 ( xi1 , xi 2 ,, xim ) ... k f k ( xi1 , xi 2 ,, xim ) i где f1 , f 2 ,..., f k - произвольные функции от независимых переменных, а число слагаемых k в правой части может любым. В частности, полиномиальная модель любого порядка k от любого числа переменных будет линейной. Например, в случае одной переменной полиномиальная модель yi 0 1 xi1 ... k xik1 i сводится к линейной путем введения новых независимых переменных zi1 xi1 , zi 2 xi21 ,..., zik xik1 В некоторых случаях к линейной может быть сведена даже модель нелинейная по параметрам. Например, экспоненциальная модель вида Y a e bX путем логарифмирования обеих частей уравнения и замены зависимой переменной на ее логарифм сводится к линейной модели Z A bX , где Z ln(Y ), A ln( a) Однако сведение нелинейной по параметрам модели к линейной часто невозможно. Например, нельзя свести к линейной двойную экспоненциальную модель Y a11 eb X a2 2 eb X 1 2 В таких случаях, когда модель существенно нелинейна, применяют метод нелинейного регрессионного анализа. 164 Принципиально, подход к оцениванию параметров нелинейной регрессионной модели не отличается от рассмотренного выше линейного регрессионного анализа. В частности, для оценивания может применен метод наименьших квадратов. Однако технически задача нелинейной оптимизации может часто оказаться очень сложной из-за наличия большого числа локальных минимумов суммы квадратов. 3.3.5 Логистическая регрессия Логистическая регрессия предназначена для анализа данных, в которых независимые переменные количественные, а зависимая – качественная, точнее, бинарная. Наример, условия эксперимента заданы набором количественных переменных, а его результат – успех (семя проросло) или неудача (семя не проросло) описывается бинарной переменной со значениями 1 (успех) или 0 (неудача). В принципе, классификации п. 3.1, это типичная задача дискриминантного анализа. Однако в силу некоторой специфичности ее постановки, состоящей, в частности, в том, что акцент ставится не на классификацию, а на оценку вероятности, логистическая задача считается регрессионной. Вероятность «успеха» в данной постановке задачи описывается следующим нелинейным логистическим регрессионным уравнением yi 1 m 1 exp(b0 bi xij ) j 1 обеспечивающим нахождение оцененного по нему значения зависимой переменной в пределах от 0 до 1 (функция y( x) 1/(1 exp( x)) называется логистической) . Оценки b0 , b1 ,...,bm коэффициентов уравнения метода максимума правдоподобия. Для их находятся с помощью получения необходимо максимизировать логарифм функции правдоподобия, который в данном случае имеет вид 165 n n 1 1 L(b0 , b1 ,...,bm ) yi ln (1 yi ) ln 1 m m i 1 i 1 1 exp( b b x ) 1 exp( b b x ) i ij i ij 0 0 j 1 j 1 Смысл выражения в правой части уравнения легко понять, если заметить, что слагаемые первой суммы отличны от нуля только для yi 1 , а второй – только для yi 0 , и что выражение под логарифмом в первой сумме содержит оценку вероятности появления 1, а во второй - оценку вероятности появления 0, т.е. это, действительно, логарифм вероятности появления наблюдаемого набора значений зависимой переменной при заданном наборе значений независимых переменных и заданных значениях оцениваемых параметров уравнения, как это и требуется в методе максимального правдоподобия. 3.4 Дисперсионный анализ Метод дисперсионного разработанный Р.Фишером, анализа (Analysis используется of для Variance, анализа ANOVA), связи между количественной зависимой переменной Y и качественными независимыми переменными X1, ..., Xs, или факторами, такими как пол животного, вид растения или животного, тип почвы или удобрений, которые не допускают количественного описания и потому называются качественными переменными. Конкретные значения фактора называют его уровнями. В общем случае рассматривается влияние нескольких факторов, каждый из которых имеет не менее двух уровней. Дисперсионный анализ основан на разложении (анализе) общей дисперсии зависимой переменной Y на компоненты, каждая из которых соответствует определенному источнику изменчивости измеряемой переменной Y. Это и объясняет название метода - дисперсионный анализ. Аббревиатура ANOVA, которая используется наряду с полным названием метода, была введена Тьюки (J.W. Tukey). 166 В основе каждой задачи дисперсионного анализа лежит план эксперимента. Планом эксперимента называют совокупность комбинаций уровней факторов (или ячеек, как их принято называть) и число наблюдений для каждой из комбинаций. Если в каждой из возможных ячеек проводится хотя бы одно наблюдение, то такой план называют полным факторным планом. В противном случае - неполным факторным планом. План с равным числом наблюдений в ячейках называют сбалансированным, в противном случае - несбалансированным. В зависимости от математической природы факторов различают три типа моделей. Если рассматривается влияние конкретных уровней каждого фактора, используется модель с постоянными факторами (модель I). Если же уровни фактора случайно выбираются из практически бесконечного множества уровней, используется модель со случайными факторами (модель II). И наконец, если уровни одних факторов являются постоянными, а уровни других факторов - случайными, такая модель называется смешанной моделью (модель III). Задачи дисперсионного анализа различают также по числу анализируемых факторов - дисперсионный анализ может быть однофакторным, двухфакторным и т.д. Все конкретные модели дисперсионного анализа, которые мы будем далее рассматривать, можно записать в виде линейной модели. Для построения оценок неизвестных параметров, как и в регрессионном анализе, используется метод наименьших квадратов. Мнк-оценки неизвестных параметров являются несмещенными, линейно зависящими от наблюдений оценками с наименьшей дисперсией среди всех несмещенных линейных оценок. Дисперсионный анализ опирается на предположение нормальности распределения ошибок исходных данных. Отметим, что нормальность нужна только для проверки гипотез и построения интервальных оценок. Само построение оценок и их оптимальные свойства не опираются на предположения нормальности ошибок наблюдений. Критерии проверки гипотез в модели I 167 будут относительно устойчивы при нарушении нормальности, но это не так для модели II. Заметим также, что при планировании эксперимента надо, где это возможно, использовать равные числа наблюдений в ячейках для обеспечения свойств устойчивости к нарушению предпосылок. 3.4.1 Однофакторный дисперсионный анализ Однофакторный дисперсионный анализ используется для исследования влияния одного фактора на количественную переменную. Такие задачи возникают, например, при сравнении урожайности нескольких сортов пшеницы, эффективности действия различных лекарств и т. п. Если исследователя интересует урожайность определенных сортов пшеницы, то сорт является постоянным фактором, и для представления результатов эксперимента используется модель I. И наоборот, сорт является случайным фактором, если рассматриваемые сорта были выбраны случайно из большого (практически бесконечного) числа сортов. В этом случае используется модель II. 3.4.1.1 Модель с постоянными уровнями фактора Пусть фактор А варьируется в эксперименте на заранее выбранных I уровнях, а y ,..., y i1 ini - результаты ni наблюдений, соответствующих i-ому уровню фактора, которые являются одной из I независимых выборок из генеральной совокупности с математическими ожиданиями (генеральными средними) μi, i=1,…, I. Фактически фактор A является основанием для классификации всей совокупности наблюдений, поэтому однофакторный дисперсионный анализ называют еще однофакторной классификацией. Математическая модель однофакторного дисперсионного анализа имеет вид yij = μi + εij, i=1,…, I; j=1,…, ni, (3.11) 168 где εij - ошибки наблюдений, независимые нормально распределенные случайные величины с нулевым математическим ожиданием и одинаковой дисперсией σ2, εij~N(0,σ2). Введем принятые в дисперсионном анализе обозначения: n I I 1 n i 1 i i - общее (генеральное) среднее, n ni - общее i 1 число наблюдений, αi = μi- μ - эффект, обусловленный влиянием i-ого уровня фактора. Заметим, что для моделей с постоянными уровнями факторов эффекты уровней обозначаются греческими буквами. Используя эти обозначения, модель (3.11) можно переписать в виде yij = μ + αi + εij, i=1,…, I, j=1,…, ni. (3.12) Неизвестными параметрами в (3.11) и (3.12) являются μi, αi и μ. М.н.коценки этих параметров при дополнительных ограничениях I ni i 0 , i 1 которые обеспечивают их единственность, находятся по формулам: ˆ y.. , ˆ i yi. , ˆ i ˆ i ˆ , i 1,..., I , (3.13) где точкой обозначены результаты усреднений yij по соответствующим индексам ni I ni yi. yij / ni , y.. 1n yij . j 1 i 1 j 1 На следующем этапе анализа проверяется гипотеза Н0: μ1 = μ2 =... = μI = μ (или α1 = α2 =…= αI =0) о том, что фактор A не влияет на зависимую переменную Y при альтернативе, что, по крайней мере, одно из средних отличается от общего среднего: μk≠μ (или αk≠0). Критерий для проверки гипотезы Н0 строится на основе следующего тождества – разложения суммы квадратов отклонений результатов наблюдений от общего среднего, SST, на две компоненты, два источника дисперсии, – SSA и SSR: 169 I ni I I ni SST ( yij y..) 2 ni ( yi . y..) 2 ( yij yi .) 2 SS A SS R i 1 j 1 i 1 i 1 j 1 Слагаемое SSA характеризует степень разброса наблюдений между уровнями фактора и обусловлено их влиянием. Слагаемое SSR, называемое остаточной суммой квадратов, характеризует степень разброса наблюдений внутри уровней фактора и является следствием случайных причин и неучтенных факторов. Результаты проверки однофакторного гипотезы Н0 дисперсионного принято заносить анализа, в таблицу табл. 3.2. 170 Таблица 3.2. Однофакторный дисперсионный анализ. Источник дисперсии Фактор A Сумма квадратов I SS A ni ( yi.. y... ) 2 Число степеней свободы A I 1 Средний квадрат MS A SS A i 1 Остаток (ошибка) I ni SSR ( yij yi. ) 2 R n I i 1 j 1 I Полная ni SST ( yij y.. ) 2 i 1 j 1 MS R A SSR R F-отношение FA MS A MS R ̂ 2 T n 1 171 Можно показать, что средние квадраты MSA и MSR (другое, часто используемое обозначение этих величин, – s A и s R ), определение которых дано 2 2 в табл. 3.2, являются двумя различными и независимыми оценками дисперсии единичного наблюдения σ2, математические ожидания которых при выполнении Н0 равны I M( MS R ) 2 ; M( MS A ) 2 1I ni ( i ) 2 2 i 1 Заметим, что MSR является несмещенной оценкой σ2 для всех моделей дисперсионного анализа. Если гипотеза Н0 верна, то справедливы следующие утверждения: - SSA и SSR независимы и распределены как: SSA ~ σ2χ2I-1, SSR ~ σ2χ2n-I; - M(MSR)=M(MSA)=σ2, - статистика F=MSA/MSR имеет F-распределение с I-1 и n-I степенями свободы. Так как MSA/MSR≥1, критическая область уровня значимости α состоит из одного полуинтервала [FI-1,n-I,1-α, ∞), где FI-1,n-I,1-α - квантиль порядка 1-α F-распределения с I-1 и n-I степенями свободы. Если вычисленное по наблюдениям значение F-статистики, Fнабл., меньше значения FI-1,n-I,1-α, то нет оснований для отклонения гипотезы Н0. Обычно на этом анализ может быть завершен. Н0 если такой вывод противоречит, например, результатам предыдущих исследований, тогда следует выяснить: - не нарушаются ли предпосылки дисперсионного анализа; - нет ли других факторов, влияющих на зависимую переменную, и либо перейти к двухфакторному анализу, либо спланировать эксперимент так, чтобы по возможности исключить влияние неоднородностей условий проведения наблюдений, т.е. использовать план со случайными блоками. Если же Fнабл.≥ FI-1,n-I,1-α, то нулевая гипотеза отвергается на уровне значимости α, т.е. существует, по крайней мере, одна пара средних yk. и yl., 172 которые различаются статистически значимо. Часто исследователю желательно также знать, какое из выборочных средних можно считать большим, чем все другие. Если нельзя выделить пары средних, представляющие интерес для сравнения, то приходится проверять гипотезы о равенстве всевозможных пар средних. Чтобы при этом сохранить α в качестве общего уровня значимости, следует использовать методы множественных сравнений. Кроме сравнения двух средних для исследователя могут представлять интерес сравнения вида μ1-μ4, μ1-(μ2+μ3+μ4)/3 и.т.п. Линейные комбинации I с i 1 i i , где I с 0, i i 1 называются контрастами. Выдвижение гипотез о I контрастах (Н0: с =0) и их проверка позволяют получить дополнительную информацию. Если i 1 экспериментальных i i линейная данных, комбинация такие задана сравнения называют до получения планируемыми сравнениями (planned comparisons). Например, если врач хочет выявить эффективность нескольких лечебных препаратов по сравнению с контролем, то такое сравнение является планируемым. На практике сравнения, представляющие интерес, определяются часто после получения результатов эксперимента, когда уже известны оценки средних μi, и вид наиболее важных сравнений подсказывают сами результаты эксперимента. Такие сравнения называют непланируемыми (unplanned comparisons). Сравнение всевозможных пар средних является примером непланируемых сравнений. Число таких сравнений для модели (3.11) равно k=I(I-1)/2. С рекомендациями по использованию методов множественных сравнений можно познакомиться в работах (Шеффе, 1980; Sokal, Rohlf, 1995). Заметим, что аналогично проводятся исследования сравнений любой модели дисперсионного анализа, а не только однофакторной. Пример (Sokal, Rohlf, 1995). В восьми различных местах обитания (в США) были собраны 130 жуков-скакунов (Cicindela circumpicta). У каждого жука 173 измерялась ширина головки (в мм). Требовалось выяснить, влияет ли место обитания на этот признак. Для ответа на этот вопрос используем однофакторный дисперсионный анализ, предполагая, что все его предпосылки выполнены. Обозначим через yij результат измерения ширины головки j-ого жука из i -ой местности, j=1,…, ni; i=1,..., 8. В табл. 3.3 приведены средние значения yi. результатов наблюдений, упорядоченные по возрастанию, а также значения ni и S 2 i ni ( y y ) . j 1 2 ij i. Значения yi., ni, S2i для примера 1. I yi. ni S2i 1 3,512 20 0,0357 2 3,694 20 0,0445 3 3,722 20 0,0135 4 3,723 14 0,0284 5 3,738 10 0,0204 6 3,748 15 0,0184 Таблица 3.3 7 3,784 11 0,0338 8 3,845 20 0,0157 Результаты проверки гипотезы H0 о том, что место обитания не влияет на размеры головки жука, при альтернативе H1, что хотя бы в двух районах жуки отличаются по этому признаку, занесем в таблицу дисперсионного анализа (табл. 3.4). Таблица 3.4 Результаты однофакторного дисперсионного анализа для примера 1 Источник разброса Фактор А Остаток (ошибка) Полная Сумма квадратов Степени свободы Средний квадрат 1,2451 7 0,1779 3,2270 4,4721 122 129 0,0264 F-отношение MSA/MSR F=6,724 P=0,000 Так как Fнабл.=6,724>F7,122;0,95=2,085 и p<<α=0,05, гипотезу H0 на уровне значимости α=0,05 отвергаем. 174 Чтобы выяснить, какие из средних различаются статистически значимо, используем метод множественных сравнений - GT2-метод. Для наглядного представления результатов сравнения построим 95%-ные сравнительные интервалы для каждого выборочного среднего yi. по методу Габриэла (рис. 3.3). Выборочные средние, для которых сравнительные интервалы не пересекаются, различаются статистически значимо. Значения нижних и верхних концов, (li, ui), этих интервалов для GT2-метода вычисляются по формулам li yi . 12 mk , где R ,1 / 2 s y , ui yi . 12 mk , S y MS R / ni , i. i. R ,1 / 2 m28,122;0,975 =3,183 - sy , i. квантиль порядка 0,975 стьюдентизированного максимального абсолютного отклонения с числом степеней свободы k =28 и n-I=122 (Sokal, Rohlf, 1995). Значения Syi, li, ui приведены в табл. 3.5. На рис. 3.3 видно, что выборочное среднее y1. значимо отличается от всех остальных средних, среди которых нет значимого различия. Таблица 3.5 Нижний и верхний концы сравнительных интервалов 1 2 3 4 5 6 7 8 I Syi*10 0,0132 0,0132 0,0132 0,0188 0,0264 0,0176 0,0240 0,0132 li ui 3,430 3,594 3,612 3,775 3,640 3,804 3,655 3,820 3,621 3,853 3,653 3,842 3,673 3,894 3,763 3,927 175 Рис. 3.3. 95% сравнительные интервалы для средних значений ширины головки жука-скакуна 3.4.1.2 Модель со случайными уровнями фактора Пусть I уровней фактора A были выбраны случайным образом из некоторой генеральной совокупности. Такие ситуации возникают, например, в популяционной биологии, когда изменчивость зависимой переменной связана с генетическими различиями. В этом случае исследователя интересует, какой вклад вносит изменчивость фактора A в общую изменчивость зависимой переменной Y. Пусть на i-ом уровне фактора A производится ni наблюдений y ,..., y i1 ini и yij ~ N ( i , y2 ) , где (μ1,…, μI) - случайные величины, μi ~ N(μ, σa2), i=l,…, I. Тогда уравнение модели II, модели дисперсионного анализа со случайным фактором, имеет вид yij = μi + εij, i=1,…, I; j=1,…, ni, где (3.14) ij ~ N (0, 2 ) - ошибки наблюдений, независимые случайные величины. Обозначим через ai эффект i-го уровня фактора A, ai = μi-μ, i=1,..., I, где μ общее среднее. Для моделей со случайными уровнями факторов эффекты 176 уровней принято обозначать латинскими буквами. Тогда уравнение модели (3.14) и предположения можно переписать в виде yij = μ+ai + εij, i=1,…, I; j=1,…, ni, (3.15) {ai} и {εij} независимы в совокупности, {ai} имеют нормальное распределение N(μ, σa2), {εij} имеют нормальное распределение N(0, σ2). Дисперсия наблюдения yij равна σy2=σa2+σ2, поэтому σa2 и σ2 называют компонентами дисперсии единичного наблюдения. Компонента σa2 обусловлена вкладом фактора в общую изменчивость Y. Долю этого вклада, ρ=σa2/(σa2+σ2), называют коэффициентом внутриклассовой отношение корреляции. Неизвестными параметрами в (3.15) являются μ и две компоненты дисперсии σ2 и σa2. Оценка для μ находится, как и для модели I, по формуле (3.13). Несмещенные оценки для компонент дисперсии имеют вид ̂ 2 MSR , ˆ a ( MS A MS R ) / k , 2 где k I 1 I 1 (n 1n ni2 ) (если n1=…=nI =K, то k=K). i 1 На следующем этапе анализа проверяется гипотеза H0: σa2=0, о том, что фактор не вносит никакого вклада в дисперсию наблюдений, при альтернативе H1: σa2≠0. Критерий для проверки этой гипотезы строится, как и для модели I. Если верна гипотеза H0, то статистика F=MSA/MSR имеет F-распределение c νA=J-1 и νR=(I-1)(J-1) степенями свободы. Заметим, что F-критерий для проверки гипотезы H0 для однофакторной модели II является только приближенным для неравных ni и точным для случая равных ni. Результаты анализа заносятся в таблицу дисперсионного анализа, аналогичную таблице 3.2. 177 Если гипотеза H0 не принимается, то оценкой доли общей дисперсии, обусловленной фактором A, является значение выборочного коэффициента 2 2 2 внутриклассовой корреляции ˆ ˆ а /(ˆ а ˆ ) . 3.4.2. Двухфакторный дисперсионный анализ Для исследования влияния двух одновременно действующих факторов применяется двухфакторный дисперсионный анализ. Пусть факторы A и B имеют I и J уровней, соответственно, а yij1 , ..., yijK ij - Kij наблюдений зависимой переменной Y на i-ом уровне фактора А и j-ом уровне фактора В, т.е. yij1 , ..., yijK ij - это IJ независимых выборок с математическим ожиданием μij, i=l, ..., I, j=1, ..., J. Если в каждой ячейке имеется, по крайней мере, одно наблюдение, то план эксперимента называется полным двухфакторным планом. Для двухфакторной модели мы рассмотрим только случай постоянных уровней факторов. 1. Рассмотрим случай равных наблюдений в ячейках, Kij=K>1. Математическая модель двухфакторного дисперсионного анализа, называемая моделью эффектов уровней имеет вид: yijk = μ + αi + βj + γij + εijk, (3.16) где εijk ~ N(0,σ2) и независимы, i=1,…, I; j=1,…, J, k=1,…, K, μ - общее среднее, αi - эффект i-ого уровня фактора A, βj - эффект j-ого уровня фактора B, γij= μij - αi - βj + μ – эффект взаимодействия i-оro уровня фактора А с j -ым уровнем фактора В, т.е. эффект совместного неаддитивного вклада факторов А и B в изменчивость Y, когда влияние фактора A на переменную Y зависит от того, на каком уровне находится фактор B. М.н.к-оценки неизвестных параметров μ, αi, βj, γij при дополнительных ограничениях 178 I J i 1 j 1 i 0, j 0, i. 0, . j 0; i 1,..., I ; j 1,..., J которые обеспечивают единственность оценок, находятся по формулам ˆ y..., ˆ ij yij . , ˆ i yi.. y..., ˆ j y. j . y..., ˆij yij . yi.. y. j . y... , i 1,..., I ; j 1,..., J . В этих формулах, как и ранее, точкой обозначено усреднение по соответствующему индексу. Для определения влияния факторов и их взаимодействия на результаты эксперимента проверяются следующие гипотезы: H0: γ11= γ12 =…= γIJ =0 о том, что влияние взаимодействия уровней факторов A и B отсутствует, при альтернативе, что не все γij=0; H0: α1= α2 =…= αI =0, о том, что фактор A не влияет при альтернативе, что не все α i=0; (3.17) H0: β1= β2 =…= βJ =0, о том, что фактор B не влияет при альтернативе, что не все β j=0. Критерии для проверки этих гипотез строятся на основе следующего тождества - разложения полной суммы квадратов на четыре компоненты, четыре источника дисперсии: I J K SST ( yijk y...) 2 SS A SS B SS AB SS R i 1 j 1 k 1 (3.18) Слагаемое SSA характеризует степень разброса наблюдений между уровнями фактора A, а SSB - между уровнями фактора В. Компонента SSAB обусловлена влиянием взаимодействия уровней факторов А и В. Слагаемое SSR характеризует степень разброса наблюдений внутри ячеек и является следствием влияния случайных причин и неучтенных факторов. Результаты анализа заносятся в таблицу двухфакторного дисперсионного анализа (табл. 3.6). 179 Таблица 3.6. Двухфакторный дисперсионный анализ. Источник разброса Фактор A Сумма квадратов I SS A JK ( yi.. y... ) Число степеней свободы 2 Средний квадрат A I 1 MS A SS A FA MS A MS R B J 1 MS B SSB FB MS B MS R i 1 Фактор B J SS B IK ( y. j . y... ) 2 j 1 Взаимодействие AB I J SS AB K ( yij. yi.. y. j . y... ) 2 i 1 j 1 Остаток (ошибка) SS R ( yijk yij. ) 2 Полная SST ( yijk y... ) 2 I J K AB ( I 1)( J 1) MS AB R IJ ( K 1) i 1 j 1 k 1 I J F-отношение MS R A B SS AB AB FAB MS AB MS R SSR R K i 1 j 1 k 1 T IJK 1 180 Если верны нулевые гипотезы (3.17) то справедливы следующие утверждения: - суммы квадратов SSA, SSB, SSAB, SSR независимы и распределены как σ2χ2I-1, σ2χ2J-1, σ2χ2(I-1)(J-1), σ2χ2IJ(K-1), соответственно; - каждый из средних квадратов MSA, MSB, MSAB, MSR, которые определены в табл. 3.6, является несмещенной оценкой σ2; - статистика FAB=MSAB/MSR имеет F-распределение с νAB=(I-1)(J-1) и νR =IJ(K-1) степенями свободы. - статистика FA=MSA/MSR имеет F-распределение с νA=I-1 и νR степенями свободы; - статистика FB=MSB/MSR имеет F-распределение с νB=J-1 и νR степенями свободы; Критическая область для проверки гипотез H0 уровня значимости α состоит из одного полуинтервала [ F , i R ,1 , ∞), где F i , R ,1 - квантиль порядка 1-α F- распределения с νi и νR степенями свободы, где i=A, B, AB, соответственно. Необходимо отметить, что если гипотеза об отсутствии взаимодействий отвергается, а гипотезы об отсутствии влияния фактора A и фактора B не отвергаются, то правильный вывод заключается в том, что нельзя сделать заключение об отсутствии влияния обоих факторов. 2. Рассмотрим случай Kij=K=1, т.е. когда в каждой ячейке имеется одно наблюдение. Такие планы эксперимента используются, если априори известно, что взаимодействие факторов мало. Тогда модель двухфакторного дисперсионного анализа является аддитивной и имеет вид yij = μ + αi + βj + εij, (3.19) где εij ~ N(0,σ2) и независимы, i=1,…, I; j=1,…, J 181 Проверка гипотез об отсутствии влияния фактора A и фактора B проводится так же, как и для модели (3.16), только роль SSR играет SSAB. Вычеркивая в табл. 3.6 строку «остаток» и заменяя обозначения SSAB на SSR, νAB на νR, получим таблицу дисперсионного анализа для аддитивной модели (3.19). 3. Для неравных Kij>1 не существует разложения, подобного (3.18). Для проверки гипотез (3.17) и в этом случае используется F-критерий, но построение его становится сложным и громоздким (Шеффе, 1980). Пример. Проводился анализ влияния на рост студентов второго курса биологического ф-та МГУ 2003 и 2004 учебных годов факторов «пол» и «год». В табл. 3.7 для всех сочетаний уровней факторов приведены выборочные средние роста юношей и девушек (в см), Y, и число наблюдений, N. В табл. 3.8 приведены результаты двухфакторного дисперсионного анализа. Таблица 3.7. Результаты наблюдений для примера 2. год юноши Девушки N Y N Y 2003 34 180,6 79 168,1 2004 53 171,1 53 169,9 Таблица 3.8. Результаты двухфакторного дисперсионного анализа Источник Дисперсии Суммы квадратов SS Число степеней свободы Средние квадраты F- p- отношение значение MS df 182 Фактор 1 2342 «пол» Фактор 2 738 «год» Взаимодей 1598 ствие 1*2 Ошибка 11109 1 2342 45,3 0,000 1 738 14,3 0,000 1 1598 30,9 0,000 215 52 Таблица 3.9. Результаты множественных сравнений. Пол Юноши Юноши Девушки Девушки Год 2003 2004 2004 2003 Рост 180.5 171.1 169.9 168.1 Группа 1 группа 2 группа 2 группа 2 группа Рис. 3.4. Изменение средних значений переменной «рост» от факторов «пол» и «год» 183 Анализ табл. 3.8 и рис. 3.4 показывает, что взаимодействие факторов «пол» и «год», а также влияние каждого из факторов статистически значимы на уровне значимости 0,05. Чтобы выяснить, какие из средних значений различаются значимо, используем метод множественного сравнения - метод Tukey (HSD) для неравных ni. Результаты таких сравнений, приведенные в табл. 3.9, показали, что в отдельную группу (1 группа) выделяются юноши– второкусники 2003г., средний рост которых значимо отличается от среднего роста юношей-второкурсников 2004г. и девушек 2004 г. и 2003 г., среди которых нет значимого различия (2 группа). 3.4.3 Смешанные модели дисперсионного анализа Рассмотрим свойства планов эксперимента для смешанных моделей, которые наиболее часто используются при проведении биологических исследований. 3.4.3.1 План со случайными блоками Пусть, например, исследователь хочет сравнить урожайности I сортов некоторой культуры. Опыты проводятся на поле, плодородие которого может меняться от участка к участку. Если сорта по участкам распределять случайно, тогда один сорт может получить, скажем, два "хороших" участка и ни одного плохого, а другой сорт - наоборот. В этом случае причиной ошибок наблюдений будут в основном различия между участками, а не ошибки измерения. Это может привести к тому, что не будет выявлено различия между сортами, даже если оно существует. Поэтому рассмотренный выше однофакторный план может оказаться неэффективным. План со случайными блоками позволяет уменьшить влияние на результат эксперимента тех или иных неоднородностей условий, при которых проводятся отдельные наблюдения. Покажем на этом же примере построение плана со случайными блоками. Однотипные по плодородию участки группируются в J блоков (случайный 184 фактор B) по I участков каждый, каждый из которых засевают одним из I сортов (постоянный фактор A), причем внутри каждого блока сорта распределяются по участкам случайно. Таким образом, получаем план со случайными блоками без повторений, т.е. K=1. Обозначим через yij урожайность участка (i,j), засеянного i-ым сортом, и принадлежащего к j -ому блоку, и положим yij = μ + αi + bj + εij, i=1,…, I; j=1,…, J, (3.20) где μ - общее среднее, αi - эффект i-ого уровня фактора A, bj - эффект j-ого уровня фактора B; bj и εijk - независимые в совокупности нормально распределенные случайные величины с нулевым средним и дисперсиями σB2 и σ2, соответственно. Модель (3.20) называется смешанной двухфакторной моделью. Использование аддитивной модели объясняется тем, что оценить взаимодействие "сорт-блок" невозможно, ведь каждым сортом засеян только один участок внутри каждого блока. Неизвестными параметрами в (3.20) являются μ, αi и две компоненты дисперсии σ2 и σB2. М.н.к-оценки μ и αi, как и для однофакторной модели I, при дополнительном ограничении I i 0 , равны: ˆ y.. , i 1 ˆ i yi. y.. , i 1,..., I . Несмещенные оценки для компонент дисперсии имеют вид: ̂ 2 MSR , ˆ 2 B (MSB MSR ) / I . Вычеркивая в табл. 3.6 строку «остаток» и заменяя обозначения SSAB на SSR, νAB на νR и MSAB на MSR, получим таблицу дисперсионного анализа для модели (3.20). Для этой модели проверяются две гипотезы. 1. H0: все αi=0, при альтернативе H1: не все αi=0. Критерий для проверки этой гипотезы строится, как и для модели I однофакторного дисперсионного анализа. Если верна гипотеза H0, то статистика FA=MSA/MSR имеет Fраспределение c νA=I-1 и νR=(I-1)(J-1) степенями свободы. 185 2. H0: σB2=0, о том, что фактор блока B не вносит никакого вклада в дисперсию наблюдений, при альтернативе H1: σa2≠0. Критерий для проверки этой гипотезы строится, как и для модели II однофакторного дисперсионного анализа. Если верна гипотеза H0, статистика FB=MSB/MSR имеет Fраспределение c νB=J-1 и νR=(I-1)(J-1) степенями свободы. Если каждый блок делится на KI делянок, и каждый сорт случайно засевается на K делянках внутри блока (см. табл. 3.10), то такой план называется планом со случайными блоками с повторениями. Использование плана с повторениями позволяет оценить взаимодействие "сорт-блок" (Шеффе, 1980). Таблица 3.10. План со случайными блоками с повторениями 1-й сорт 1-й блок из I однородных участков ... 1-ая делянка ... ... K-ая делянка ... K-ая делянка ... 1-ая делянка ... однородных участков 1-ая делянка K-ая делянка ... I-й сорт J-й блок из I ... 1-ая делянка ... ... K-ая делянка Необходимо отметить, что уменьшить влияние неоднородностей условий проведения эксперимента может только разбиение на однородные блоки. Любое свойство экспериментальных объектов, которое может быть определено до начала эксперимента, должно быть использовано для определения блока. 186 Например, в агробиологических исследованиях соседние площадки часто можно считать близкими по плодородию, а, следовательно, группы смежных участков можно принимать за блоки. Листья на одном растении при антивирусной прививке, животные одного помета при опытах с питанием, пробы крови одного человека при сравнении нескольких методов подсчета числа лейкоцитов являются примерами однородных блоков. Отметим, что более полное исключение влияния неоднородностей условий достигается с помощью планов латинских квадратов. 3.4.3.2 Планы с группировкой Пусть необходимо выбрать план эксперимента для сравнения I методов (постоянный фактор A) определения некоторой характеристики крови (зависимая переменная Y) у животного. Рассмотрим план, для проведения которого потребуется IJ животных. Для каждого метода случайно выбираются «свои» J животных (случайный фактор B с J уровнями), т.е. у каждого из J животных одной выборки проводится K независимых измерений характеристики крови первым методом, для другой выборки - вторым методом и т. д. (табл. 3-11). В этом случае каждый уровень фактора B сочетается не более чем с одним уровнем фактора A. Такой план эксперимента называется двухфакторным планом с группировкой, или иерархическим, или, как еще говорят, гнездовым (nested). Фактор A называют группирующим фактором, а фактор B - сгруппированным фактором A, что обозначается B(A). Фактор A может быть как постоянным, так и случайным, фактор B – случайным. Одна из основных областей применения иерархических планов - генетика. Эти планы используются, например, при изучении наследственного влияния родительских поколений на продуктивность или другие признаки потомства. Таблица 3.11. План с группировкой. 187 1-й метод I-й метод 1-е животное 1-е измерение ... K-е измерение ... нет ... ... ... ... ... J-е животное 1-е измерение ... K-е измерение ... нет ... ... ... нет ... нет ... 1-е J-е ... животное ... животное ... ... нет ... ... нет ... ... ... нет ... ... нет ... ... ... 1-е 1-е ... измерение ... измерение ... ... ... ... K-е K-е ... измерение ... измерение В качестве примера рассмотрим смешанную модель для двухфакторного плана с группировкой, когда фактор A является постоянным, а фактор B(A) случайным: yijk = μ + αi + bj(i) + εijk, i=1,…, I; j=1,…, J; k=1,…,K, (3.21) где μ - общее среднее, αi - эффект i-ого уровня фактора A, bj(i) - эффект j-ого уровня фактора B, сгруппированного i-ым уровнем фактора A; bj(i) и εijk независимые в совокупности, нормально распределенные случайные величины с нулевым средним и дисперсиями σB(A)2 и σ2, соответственно. Неизвестными параметрами в (3.21) являются μ, αi и две компоненты дисперсии σ2 и σ2B(A). М.н.к-оценки μ и αi при дополнительном ограничении I i 0 равны: ˆ y... , ˆ i yi.. y... , i 1,..., I . Несмещенные оценки для i 1 компонент дисперсии имеют вид: ̂ 2 MSR , ˆ 2 B ( A) ( MS B ( A) MS R ) / K . Результаты анализа для модели (3.21) заносятся в таблицу дисперсионного анализа для плана с группировкой, табл. 3.12. 188 Таблица 3.12. Дисперсионный анализ двухфакторного плана с группировкой. Источник разброса Сумма квадратов Число степеней свободы I Фактор A Фактор B (внутри A) Остаток (ошибка) Полная SS A JK ( yi.. y... ) 2 A I 1 i 1 I J SSB ( A) K ( yij. yi.. ) 2 Средний квадрат MS A B ( A) I ( J 1) MS B ( A) R IJ ( K 1) MS R i 1 j 1 I J K SS R ( yijk yij. ) 2 i 1 j 1 k 1 I J K SST ( yijk y... ) 2 SS A A SSB ( A) B ( A) F-отношение MS A MS B ( A) MS B ( A) MS R FA FB ( A) SSR R T IJK 1 i 1 j 1 k 1 189 Для этой модели проверяются две гипотезы: 1. H0: все αi=0, при альтернативе H1: не все αi=0. Если верна гипотеза H0, то статистика FA=MSA/MSB(A) (см. табл. 3.12) имеет F-распределение c c νA=I-1 и νB(A)=I(J1) степенями свободы. 2. H0: σ2B(A)=0, при альтернативе H1: σa2≠0. Если верна гипотеза H0, то статистика FB(A)=MSB(A)/MSR (см. табл. 3.11) имеет Fраспределение c νB)A)=I (J-1) и νR=IJ(K-1) степенями свободы. Рассмотрим пример смешанной модели для трехфакторного плана с группировкой, когда постоянный фактор A является группирующим, фактор B(A) – сгруппированным фактором A, а фактор С(B) - сгруппированным фактором B. Пример. Для сравнения трех методов (фактор A) определения содержания гликогена в печени крысы проводились два повторных измерения для каждой из трех случайных проб печени (фактор C), взятых у каждой из двух крыс (фактор B) (Sokal, Rohlf, 1995). В этом случае фактор A - постоянный группирующий фактор с тремя уровнями; случайный фактор B с двумя уровнями сгруппирован фактором A; случайный трехуровневый фактор C сгруппирован фактором B (рис. 3.5). Методы 3 уровня Животные 2 уровня Пробы 3 уровня Измерения 2 повтора 190 Рис. 3.5. Пример трехфакторного плана с группировкой. Для анализа результатов эксперимента использовалась смешанная модель для трехфакторного плана с группировкой yijk = μ + αi + bj(i) + cl(j)+εijlk, I=3, J=2, L=3, K=2. Значения оценок средних равны: ˆ y.... 142,2; ˆ1 132,5; ˆ 2 151,0; ˆ 3 135,2 . Таблиц 3.12. Результаты дисперсионного анализа для примера плана с группировкой. Источник Разброса A B(A) C(B) Остаток Полная Сумма квадратов SS Число степеней свободы 1557,5 797,7 594,0 381,0 3330,2 2 3 12 18 35 ν Средний квадрат F- p- MS=SS/ отношение значение ν 778,8 265,9 49,5 21,2 2,93 5,37 2,34 0,197 0,014 0,05 Анализ табл. 3.12 показывает, что гипотеза H0: все αi =0 не отвергается на уровне α=0,05, т.е. различия между методами определения содержания гликогена в печени крысы не обнаружено; гипотеза H0: σ2B(A)=0 отвергается на уровне α=0,05 как и гипотеза H0: σ2C(B)=0 - на уровне α=0,05. Приведем значения оценок компонент дисперсии: ˆ 2 B ( A) 36,1;ˆ 2C ( B ) 14,2;ˆ 2 MSR 21,2 . Так как гипотеза H0: все αi =0 не отвергается, а гипотезы H0: σ2B(A)=0 и H0: σ2C(B)=0 отвергаются, оценка дисперсии единичного наблюдения и доля каждой компоненты дисперсии определяются так: ˆ 2 y ˆ 2 B ( A) ˆ 2 C ( B ) ˆ 2 71,4; 191 Вклад фактора B(A) в общую дисперсию равен 36,1/71/4*100%=50,5%; вклад фактора C(B) равен 14,2/71,4*100%=19,8%; доля дисперсии ошибки наблюдения равна 21,2/71,4*100%=29,6%. На основании проведенного анализа можно сделать следующие выводы. Так как наибольший вклад в общую дисперсию вносит фактор B, то при планировании подобных экспериментов желательно увеличить число уровней фактора B, т.е. число крыс, а также число повторных измерений. 3.4.4 Непараметрические методы анализа связи между количественной и качественными переменными Дисперсионный анализ опирается на предположение нормальности распределения исходных данных. Возможны два подхода к ситуациям, когда это предположение не выполняется. Первый подход заключается в том, чтобы подобрать преобразование, которое сделало бы распределение зависимой переменной Y более близким к нормальному. Второй подход состоит в использовании методов анализа, не зависящих от вида распределения наблюдаемых случайных величин, из которых наиболее разработаны ранговые методы. Рассмотрим некоторые из них. Более подробно с этими методами можно познакомиться в (Холлендер, Вульф, 1983; Sokal, Rolf, 1995). 3.4.4.1 Однофакторный анализ Пусть фактор А варьируется в эксперименте на I уровнях, и на i-ом уровне производится ni наблюдений y i1 ,..., y ini , i=1, …, I, N=n1+…+nI. Предполагается, что I выборок являются независимыми и каждая из них извлечена из непрерывной совокупности с неизвестным распределением Fi(x), причем распределения Fi(x) имеют одинаковую форму и могут различаться лишь параметром сдвига. 192 Для проверки гипотезы H0 о том, что I выборок извлечены из одной и той же совокупности, можно воспользоваться свободным от распределения критерием Крускала-Уоллиса (Kruskal-Wallis test). Этот критерий является обобщением двухвыборочного критерия Вилкоксона на случай I выборок, I≥2. Упорядочим все N наблюдений по возрастанию, заменим величины yij их рангами и найдем для каждой выборки i сумму рангов Ri, i=1,…, I. Статистика Крускала-Уоллиса имеет вид: I R 2i 12 H 3( N 1) N ( N 1) i 1 ni Заметим, что среди yij могут быть равные по величине наблюдения. Если совпадения встречаются внутри одной выборки, то при ранжировании применяется метод случайного ранга. Такого типа совпадения не влияют на значение статистики критерия. Когда же совпадения принадлежат разным выборкам, то используется метод среднего ранга (см. 2.3.8). В этом случае значение статистики критерия H следует разделить на величину K (t k 1)t k (t k 1) 1 k 1 N N 3 (3.22) где K - общее количество групп, состоящих из равных наблюдений, tk количество совпадений в k-ой группе, k=1,…,K. Если гипотеза H0 верна, то статистика H распределена асимптотически при n→∞ как χ2 с I-1 степенями свободы. Этим приближением можно пользоваться при ni >5 или I>3. Критическое множество уровня значимости α при альтернативе H1, что не все выборки извлечены из одной совокупности, состоит из одного полуинтервала [χ2I-1,1-α,+∞), где χ2I-1,1-α - квантиль порядка 1-α распределения χ2 с числом степеней свободы I-1. 193 Для проверки гипотезы о том, что медианы I выборок совпадают, можно воспользоваться медианным критерием Брауна-Муда (Brown-Mood test). Статистика этого критерия имеет вид (mi ni / 2) 2 , i 1 ni / 4 2 I где mi - число наблюдений i-ой выборки, значения которой не меньше значения выборочной медианы для объединенной выборки из N наблюдений. Если верна нулевая асимптотически как гипотеза, то статистика Χ2 распределена χ2 с I-1 степенями свободы. Критическое множество уровня значимости α при альтернативе H1, что хотя бы две выборки имеют различные медианы, состоит из одного полуинтервала [χ2I-1,1-α,+∞), где χ2I-1,1-α - квантиль порядка 1-α распределения χ2 с I-1 степенями свободы. Асимптотическая относительная эффективность критерия Крускала- Уоллиса по отношению к F-критерию для однофакторного дисперсионного анализа равна 0,955, а медианного критерия Брауна–Муда – 0,637. Если гипотеза H0 отвергается, то чтобы выделить заведомо различные выборки, применяются свободные от распределения методы множественного сравнения. Для сравнения всевозможных пар выборок (непараметрический аналог непланируемых сравнений, которые рассматривались в 3.4.1), можно использовать приближенный метод Данна (Dunn test). Две выборки различаются параметром сдвига значимо на уровне значимости α, если R.i R. j u /( I ( I 1)) ( N ( N 1) 1/ 2 1 1 1/ 2 ) ( ) 12 ni n j где R.i=Ri/ni, а Ri - сумма рангов i-ой выборки, R.j=Rj/nj, а Rj - сумма рангов jой выборки, i<j=1, …, I; uα/(I(I-1)) - квантиль стандартного нормального распределения порядка α/(I(I-1)). 194 В случае равных объемов выборок n1=…=nI=n≥8 можно использовать приближенный метод Дуосса (Dwass method). Для каждой пары выборок вычисляется статистика Манна-Уитни, Uij, i<j, i, j =1,…, I, критическое значение которой равно U I ,n;1 n2 2n 1 QI ,;1 n , 2 24 где QI,∞;1-α - квантиль порядка 1-α стьюдентизированного размаха с числом степеней свободы I, ∞. Выборки, для которых Uij≥UI,n;1-α, статистически значимо различаются параметром сдвига. Критерии Данна и Дуосса имеют одинаковую асимптотическую эффективность. 3.4.4.2 Двухфакторный анализ Мы рассмотрим два метода двухфакторного непараметрического анализа. 3.4.4.2.1 Критерий Фридмана Метод Фридмана предназначен для анализа результатов наблюдений по схеме плана случайных блоков без повторений. Пусть в каждом из J блоков имеется по одному наблюдению на каждом из I уровней постоянного фактора A. Предполагается, что каждая из I выборок извлечена из непрерывной совокупности с неизвестным распределением Fi(x). Распределения Fi(x) i=1,…,I имеют одинаковую форму и могут различаться лишь параметром сдвига. Результаты наблюдений можно представить в виде таблицы из I строк и J столбцов. Наблюдениям каждого столбца сопоставим соответствующие им ранги. Обозначим через Ri сумму рангов i-ой строки. Для проверки гипотезы H0 о том, что фактор A не влияет, т.е. все I выборок извлечены из одной и той же совокупности, против альтернативы H1, что хотя бы Fi(x) и Fj(x), i≠j, 195 различаются параметром сдвига, можно воспользоваться свободным от распределения критерием Фридмана (Friedman test). Статистика критерия Фридмана имеет вид: 2 I 12 2 Ri 3J ( I 1) IJ ( I 1) i 1 Если верна гипотеза H0, то статистика Χ2, как и статистика H, распределена асимптотически при n→∞ как χ2 с I-1 степенями свободы. Критическое множество уровня значимости α при альтернативе H1 состоит из одного полуинтервала [χ2I-1,1-α,+∞), где χ2I-1,1-α - квантиль порядка 1-α χ2 распределения с числом степеней свободы I-1. Если в столбцах таблицы встречаются совпадающие значения, то при переходе к таблице рангов используют метод средних рангов (см. 2.3.8), а значение статистики критерия Χ2 следует разделить на величину (3.22), заменив N на IJ. Для сравнения всевозможных пар выборок можно использовать свободный от распределения метод множественного сравнения Дуосса, заменив в (3.22) n на J. 3.4.4.2.2 Критерий Пейджа Часто исследователь может предположить монотонное влияние фактора на зависимую переменную. В этом случае для проверки гипотезы H0 об отсутствии влияния фактора A против альтернативы H1 об упорядоченном влиянии фактора A можно воспользоваться критерием Пейджа (Page test). Этот критерий является более мощным, чем критерий Фридмана для данной альтернативы H1. Статистика Пейджа имеет вид I L IRi R1 2 R2 ... IRI , i 1 196 где Ri -сумма рангов i-ого столбца, как и выше. Если верна гипотеза H0, то при n→∞ статистика L* L IJ ( I 1) / 4 ( J ( I 3 J 3 ) / 144( I 1))1/ 2 распределена асимптотически нормально N(0,1). Критическое множество уровня значимости α при альтернативе H1 состоит из одного полуинтервала [u1-α,+∞), где u1-α - квантиль порядка 1-α стандартного нормального распределения. Если в строках таблицы встречаются совпадающие значения, то при переходе к таблице рангов используются средние ранги. Число совпадений влияет на точность полученных выводов, с увеличением числа совпадений выводы становятся менее точными. 3.5 Кластерный анализ Кластерный анализ в некотором смысле похож на многомерный дисперсионный анализ – количественные отклики и качественные факторы. Существенное различие, однако, состоит в том, что факторы неизвестны и надо каким-то образом их сконструировать. Идея этого конструирования проста – наблюдения разбиваются на однородные группы, которые объявляются разными классами, а переменная, указывающая на принадлежность каждого наблюдения к одному из этих классов, объявляется искомым качественным фактором. Проблема, следовательно, состоит только в том, как разбить совокупность наблюдений на однородные группы. Имеется много распространенным из методов которых решающих является эту задачу, наиболее агломеративно-иерархический кластерный анализ, который последовательно объединяет наблюдения, начиная с самых близких, во все более и более крупные группы. Результаты этого последовательного объединения представляются в виде дендрограммы. Можно, однако, по-разному определять как близость отдельных наблюдений, так и 197 сформированных из них групп – кластеров (от англ. cluster – гроздь, скопление). Исходные данные в задачах кластерного анализа задаются в виде таблицы (матрицы), строки который соответствуют различным наблюдениям, а столбцы – различным переменным y11 y12 ... y1m y21 y22 ... y1m ... ... ... ... y y ... y n1 n 2 nm Если рассматривать строки-наблюдения, как точки в пространстве переменных, то естественно использовать в качестве меры различия между наблюдениями i и k евклидово расстояние между соответствующими им точками в m-мерном евклидовом пространстве d ik m ( yij ykj ) 2 j 1 Если, однако, переменные измерены в разных единицах, то суммирование квадратов их разностей будет неправомерным. В таких случаях следует какимто образом сделать переменные соизмеримыми, например, путем их стандартизации, т.е вычитания среднего и деления на среднеквадратичное отклонение ~ yij yij y j sj где yj 1 n yij n i 1 и sj 1 n ( yij y j ) 2 n 1 i 1 Можно использовать и другие меры различия между наблюдениями, например, манхеттеновское, или сити-блок расстояние, равное сумме абсолютных величин разностей между значениями переменных 198 n ik yij ykj i 1 В случае бинарных переменных манхеттеновское расстояние между двумя наблюдениями равно просто сумме несовпадающих значений в них и обычно называется хэмминговым. Вычислив каким-либо способом расстояния между всеми парами наблюдений, мы получим матрицу расстояний d11 d12 ... d1n d 21 d 22 ... d1n D ... ... ... ... d d ... d nn n1 n 2 которая и служит основой для дальнейших расчетов. Главная диагональ этой матрицы состоит из нулей, и матрица симметрична относительно этой диагонали. Имея матрицу расстояний, можно начать процесс последовательного объединения наблюдений в кластеры. Алгоритм этого объединения работает следующим образом. Сначала все наблюдения считаются отдельными кластерами. На первом шаге в матрице расстояний ищется минимальный внедиагональный элемент (поскольку матрица симметрична, достаточно просмотреть ее поддиагональную часть). Пусть этот элемент находится на пересечении i–ой строки и j–го столбца, что означает, что среди всех пар кластеров, состоящих каждое из одного наблюдения, наиболее близки между собой i–ый и j–ый кластеры. Эти два кластера объединяются между собой в один и общее число кластеров уменьшается на единицу – их становится n –1 вместо исходных n. Возникает, однако, проблема определения расстояния от вновь образованного кластера i+j до остальных кластеров. Рассмотрим некоторые возможные варианты. Можно определить расстояние от i+j до любого другого кластера k как минимум из расстояний от i до k и от j до k 199 d i j ,k min{ d ik , d jk ) Это так называемый метод минимальной связи, или метод ближайшего соседа. Другой вариант - определить расстояние от i+j до любого другого кластера k как максимум из расстояний от i до k и от j до k d i j ,k max{ d ik , d jk ) Это метод максимальной связи, или метод дальнего соседа. Третий вариант, метод средней связи, состоит в определении расстояния от i+j до любого другого кластера k как среднего арифметического из расстояний от i до k и от j до k d i j ,k dik d jk 2 Второй и последующий шаги аналогичны первому – каждый раз объединяются два самых близких кластера и вычисляются расстояния от нового объединенного кластера до остальных. На каждом шаге общее число кластеров сокращается на единицу и процесс заканчивается, когда все кластеры объединятся в один. Метод средней связи имеет модификацию, называемую методом взвешенной средней связи. Она отличается тем, что если на некотором шаге объединяются кластеры от i и j, состоящие, соответственно, из и Ni и Nj наблюдений, то расстояние от их объединения до любого другого кластера k вычисляется не как простое среднее, а как среднее взвешенное из расстояний от i до k и от j до k d i j ,k Ni dik N j d jk Ni N j Метод дальнего соседа имеет тенденцию формировать кластеры одинакового размера и может не учитывать реальной неоднородности расположения наблюдений в пространстве признаков. Метод ближайшего соседа, наоборот, хорошо отслеживает локальные неоднородности и может 200 выявлять кластеры довольно сложной формы и разного размера. Однако он может объединить очень разные кластеры, если между ними случайно имеется цепочка близких наблюдений. Хорошим компромиссом между этими двумя методами является метод взвешенной средней связи. Результаты кластерного анализа удобно представлять в виде так называемой дендрограммы, графически представляющей последовательность объединений с учетом расстояний между объединяющимися кластерами. Ее визуальный анализ может помочь в определении числа кластеров, на которые естественным образом разбивается совокупность наблюдений – объединение сильно различающихся кластеров отражается на дендрограме скачкообразным увеличением межкластерного расстояния. 201 Рис. 3.6. Пример работы агломеративно-иерархического кластерного анализа. 202 На рис. 3.6 приведен пример работы агломеративно-иерархического кластерного анализа. Данные состоят из 12 наблюдений, характеризующихся двумя переменными Y1 и Y2. Они представлены на рис. 3.6 в виде точек на плоскости. Верхняя половина рисунка наглядно иллюстрирует процесс объединения наблюдений в кластеры: сначала объединяются наиболее близкие друг к другу наблюдения 6 и 4, затем объединяются 3 и 1, потом к 3+1 присоединяется 2 и т.д. В нижней половине представлена дендрограмма – результат работы алгоритма. Из нее ясно видно, что совокупность наблюдений отчетливо разделяется на два кластера. Конечно, это еще лучше видно из представления точек на плоскости, но оно возможно только потому, что у нас две переменные. Дендрограмму же мы можем получить при любом числе переменных, поскольку она строится на основе анализа расстояний между наблюдениями, а их можно вычислять для любого числа переменных (см. формулы для евклидова или манхеттеновского расстояний). Среди других широко известных алгоритмов кластерного анализа следует отметить так называемый метод K средних. Его идея проста. Среди исходных наблюдений выбираются наудачу K наблюдений – начальных центров будущих кластеров. Первый шаг алгоритма начинается с распределения всех наблюдений между этими центрами – каждое наблюдение относится к ближайшему центру. После этого центры кластеров пересчитываются заново – каждая координата центра кластера вычисляется как среднее из координат входящих в этот кластер наблюдений. Второй и последующие шаги аналогичны первому. Процедура заканчивается, когда центры кластеров перестанут смещаться при новом пересчете. Рис. 3.7 иллюстрирует работу алгоритма. Показано два шага. Очевидно, что на третьем шаге не будет изменения положения центров кластеров, т.к. их состав не изменится. Таким образом , в данном случае для разбиения совокупности наблюдений на кластеры оказалось достаточно двух шагов. 203 Рис. 3.7. Пример работы метода K средних. 204 Несомненным преимуществом метода K средних является возможность классифицировать с помощью него наборы из многих сотен и даже тысяч наблюдений, тогда как с помощью агломеративно-иерархического алгоритма, хотя теоретически и возможно, но слишком громоздко обрабатывать более сотни-двух наблюдений. Недостатками его являются необходимость априорного задания числа кластеров, отсутствие наглядного представления результатов и зависимость результатов от начального выбора центров – при неудачном их выборе алгоритм может дать классификацию, не соответствующую реально имеющейся. 3.6 Факторный анализ Целью представления, факторного возможно, анализа (factor приближенного, analysis) но с является наименьшей поиск потерей информации, исходного набора m переменных Y1, Y2…., Ym в виде линейных комбинаций меньшего числа r переменных V1, V2…., Vr, называемых факторами. Для упрощения изложения будем считать Y1, Y2…., Ym центрированными, т.е. полученными из непосредственно измеренных переменных вычитанием из них их средних. Тогда их можно выразить в виде линейных комбинаций (без свободных членов) центрированных факторов V1, V2…., Vr, , r Yi aijV j , i 1,2, ..., m j 1 В матричных обозначениях эти соотношения можно записать следующим образом Y AV (3.22) или, в развернутом матричном виде, 205 Y1 a11 Y2 a21 Y a 3 31 ... ... Ym am1 Элементы aij матрицы A a12 ... a1r V a22 ... a2 r 1 V a32 ... a3r 2 ... ... ... ... Vr am 2 ... amr (3.23) порядка mr называют факторными нагрузками (factor loadings). Поскольку каждой переменной Yi исходных данных соответствует векторстрока ее наблюденных значений yik, k=1, 2, …, n, то (3.23) можно записать в еще более развернутом виде y11 y12 y13 y41 ... y1n a11 a12 ... a1r v11 y21 y22 y23 y42 ... y2n a21 a22 ... a2r y y y y ... y a a ... a v21 31 32 33 43 3 n 31 32 3 r ... ... ... ... ... ... ... ... ... ... ... vr1 ym1 ym2 ym3 ym4 ... ymn am1 am 2 ... amr v12 v13 v14 ... v1n v22 v23 v24 ... v2n ... ... ... ... ... vr 2 vr 3 vr 4 ... vrn Это соотношение в матричной форме выражает значения наблюдений yik, i=1, 2, …, m, k=1, 2, …, n, через факторные значения (factor scores) vjk, j=1, 2, …, r, k=1, 2, …, n, r yik aij v jk , i 1,2, ..., m, k 1,2, ..., n, j 1 Факторный анализ используется для выявления скрытой структуры данных. Например, оценки, полученные группой испытуемых по большому числу тестовых задач, можно приближенно попытаться представить как линейные комбинации нескольких факторов, которые можно интерпретировать как различные способности испытуемых - общие, математические, лингвистические и др. Нагрузки aij в представлении задачи Yi будут выражать степень важности способности Vj для решения этой задачи. Из соотношения (3.22) можно получить обратное выражение для выражения факторов V через исходные переменные Y. Умножая слева обе 206 части (3.22) на At , а затем обе части полученного равенства слева на ( At A) 1 (заметим, что матрица At A порядка rr является квадратной и поэтому может иметь обратную матрицу), получаем ( At A) 1 AtY ( At A) 1 At AV откуда V ( At A)1 AtY или V BY (3.24) где B ( At A) 1 At – матрица порядка rm. Соотношение (3.24) можно также записать в нематричной форме m V j b ji Yi , j 1,2, ..., r i 1 где bji – элементы матрицы B, j=1, 2, …, r, i=1, 2, …, m. Непосредственно факторные значения выражаются через значения наблюдений следующим образом v11 v21 ... v r1 v12 v13 v14 ... v1n b11 v22 v23 v24 ... v2n b21 ... ... ... ... ... ... vr 2 vr 3 vr 4 ... vrn br1 y11 y12 y13 y14 ... y1n b12 b13 ... b1m y21 y22 y23 y24 ... y2n b22 b23 ... b2m y31 y32 y33 y34 ... y3n ... ... ... ... ... ... ... ... ... br 2 br 3 ... brm ym1 ym2 ym3 ym4 ... ymn или m v jk b ji yik , k 1,2, ..., n, j 1,2, ..., r i 1 Из соотношения (3.24) можно снова получить соотношение (3.22) для выражения исходных переменных Y через факторы V. Умножая слева обе 207 части (3.24) на Bt , а затем обе части полученного равенства слева на ( B t B) 1 (матрица Bt B порядка mm является квадратной и поэтому может иметь обратную матрицу), получаем ( Bt B)1 BtY ( Bt B)1 Bt BV откуда Y ( Bt B) 1 BtV (3.25) или Y AV где A ( B t B) 1 B t – матрица порядка mr. Таким образом, для решения A или B . задачи факторного анализа достаточно найти любую из матриц Однако очевидно, что представить, тем более, приближенно, матрицу наблюденных значений в виде (3.22), т.е. в виде произведения матрицы нагрузок на матрицу факторных значений, можно бесчисленным множеством способов, т.к. заранее неизвестны обе матрицы-сомножители в правой части. Поэтому, чтобы сделать задачу факторного анализа определенной, необходимо наложить какие-то ограничения на факторные нагрузки и факторные значения. В зависимости от вида этих ограничений получаются различные методы факторного анализа. Базовым можно считать метод главных компонент (principal component analysis), в котором факторы, называемые главными компонентами (principal components), должны удовлетворять двум требованиям – быть ортогональными и содержать максимум информации об исходных данных. Метод главных компонент имеет простую геометрическую интерпретацию. В качестве иллюстрации, на рис. 3.8 в трехмерном пространстве (Y1, Y2, Y3) представлена совокупность точек-наблюдений образующая конфигурацию, напоминающую удлиненный сплющенный 208 эллипсоид, который, для наглядности также изображен на рисунке. Пусть, для простоты, начало координат O находится в центре этой совокупности. Рис. 3.8. Геометрическая иллюстрация метода главных компонент. На рис. 3.8 изображены также оси главных компонент - V1, V2 и V3. Первая главная компонента V1 имеет направление, соответствующее наибольшему разбросу проекций наблюдений среди всех направлений, проходящих через O. Вторая главная компонента V2 находится в плоскости, ортогональной к V1 и имеет направление наибольшего разброса среди всех направлений этой плоскости. Третья главная компонента V3 в случае трех измерений однозначно определяется условием ортогональности к первым двум. Она должна находиться на той же плоскости что и V2 и, соответственно, разброс проекций наблюдений на V3 меньше, чем на V2 (поскольку, по построению, направление наибольшего разброса уже поставлено в соответствие второй главной компоненте). Как мы видим, число главных компонент в данном 209 примере равно числу исходных переменных. Однако целью факторного анализа является сокращение числа переменных, описывающих данные. В методе главных компонент этого можно добиться простым отбрасыванием последних компонент и заменой исходных наблюдений их проекциями на оставшиеся компоненты. Например, в ситуации рис. 3.8 можно спроектировать наблюдения на плоскость первой и второй главной компоненты и отбросить третью, что не приведет к большой потере информации о взаимном расположении наблюдений. Попробуем теперь описать метод главных компонент в более точных терминах. Общий пространстве разброс совокупности ортогональных определяется как n наблюдаемых наблюдений переменных в Y1, m-мерном Y2…., Ym сумма квадратов евклидовых расстояний от центра совокупности до точек-наблюдений 2 S общ n d 02k k 1 В свою очередь, квадрат евклидова расстояния между двумя точками равен сумме квадратов разностей (расстояний) между проекциями этих точек на каждую координатную ось пространства, т.е., в частности, расстояние от начала координат до k-го наблюдения равно d 02k m (0 yki ) 2 i 1 Отсюда следует, что общий разброс можно представить как сумму разбросов проекций наблюдений на координатные оси 2 S общ m SY2i (3.26) i 1 где n SY2i (0 yki ) 2 k 1 210 Из равенства (3.26) путем деления обеих его частей на n (воспользуемся, для простоты, смещенной оценкой) получаем также соотношение m 2 sобщ sY2i i 1 2 2 показывающее, что общая дисперсия наблюдений sобщ Sобщ / n равна сумме дисперсий sY2i SY2i / n проекций наблюдений на координатные оси. Если мы перейдем к любой новой системе координат, в частности, к системе координат, определяемой главными компонентами V1, V2…., Vm, то общая дисперсия не изменится и по-прежнему будет равна сумме дисперсий проекций наблюдений на координатные оси (уже новые) m 2 sобщ sV2 j (3.27) j 1 Теперь мы можем точно определить условия, налагаемые на главные компоненты и позволяющие их вычислить: первая главная компонента – это направление V1, которому соответствует максимальное значение дисперсии sV21 проекций наблюдений на это направление, вторая главная компонента – это направление V2, ортогональное направлению первой главной компоненты и максимизирующее дисперсию sV22 проекций наблюдений на это направление, третья главная компонента – это направление V3, ортогональное направлению первой и второй главных компонент и максимизирующее дисперсию sV23 проекций наблюдений на это направление и т.д. Поскольку, в соответствии с (3.27), общая дисперсия равна сумме дисперсий проекций наблюдений на 2 главные компоненты, то можно принять sобщ за 100% и тогда каждой главной компоненте будет соответствовать своя доля (процент) объясненной дисперсии. Можно доказать, что условие максимизации дисперсий проекций наблюдений на подпространство нескольких первых компонент влечет одновременную минимизацию суммы квадратов расстояний от наблюдений до 211 этого подпространства. Например, если исходные данные являются наблюдениями двух переменных Y1 и Y2, то первая главная компонента V1 будет для них не только направлением наибольшего разброса точек, но и направлением, сумма квадратов расстояний до которого от наблюдений минимальна. В этом смысле первая главная компонента похожа на линию регрессии Y2 по Y1, которая также находится минимизацией суммы квадратов расстояний от наблюдений до линии регрессии. Разница состоит в том, что в методе главных компонент минимизируется сумма квадратов длин перпендикуляров, опущенных из точек-наблюдений на главную компоненту, а в регрессионном анализе расстояние измеряется вдоль оси Y2 (по этой причине регрессия Y2 по Y1может не совпадать с регрессией Y1 по Y2). Можно также показать, что условие максимизации дисперсий проекций наблюдений на подпространство нескольких первых компонент влечет одновременную минимизацию суммы разностей между квадратами расстояний между всеми парами наблюдений в исходном пространстве и квадратами расстояний между проекциями этих наблюдений в подпространстве нескольких первых главных компонент. Например, если мы спроектируем все наблюдения на плоскость первых двух главных компонент, то можем быть уверены, что это именно та плоскость, на которой взаимные расстояния между наблюдениями в среднем наименее искажены. Таким образом, первые две главные компоненты дают возможность наглядного графического представления данных на плоскости, сохраняя максимум информации о них. Отметим, что если направление какой-либо оси поменять на противоположное, т.е. поменять на противоположные знаки всех проекций на эту ось, то величина дисперсии проекций наблюдений на это направление не изменится. Это означает, что любое из двух противоположных направлений главных компонент можно выбирать произвольно. Иногда это бывает полезно для более удобной их интерпретации. 212 Рассмотрим кратко некоторые вычислительные аспекты нахождения главных компонент. Выше мы видели, что для решения задачи факторного анализа достаточно найти любую из матриц A или B , выражающих, соответственно, либо наблюдения через факторы либо, наоборот, факторы – через наблюдения. Поскольку координатные оси главных компонент получаются вращением исходной системы координат с сохранением их ортогональности, то матрица B в преобразовании V BY исходных переменных в главные компоненты должна быть ортогональной, т.е. BBt Bt B I . Из этого, в частности, следует, что в методе главных компонент упрощается переход от соотношения (3.24), выражающее факторы через исходные переменные, к соотношению (3.22), выражающему исходные переменные через факторы. Действительно, преобразуя (3.25), получаем Y ( Bt B) 1 BtV ( I ) 1 BtV IBtV BtV т.е. матрица факторных нагрузок A, фигурирующая в (3.22), совпадает с транспонированной матрицей B . Элементы матриц B и Bt – это косинусы углов между старыми и новыми осями, и суммы их квадратов по строкам и столбцам равны единице. Можно показать, что условие максимизации проекций наблюдений приводит к уравнению C I 0 где C (3.28) - выборочная матрица ковариаций переменных Y1, Y2…., Ym порядка mm, равная деленному на n произведению матрицы наблюдений на ее транспонированную матрицу (напомним, что переменные Y1, Y2…., Ym центрированы) 213 y11 c11 c12 ... c1m y 21 c21 c22 ... c2 m 1 ... ... ... ... n y31 ... c c ... c mm r1 r 2 y m1 y y12 y13 y14 ... y1n 11 y y 22 y 23 y 24 ... y 2 n 12 y y32 y33 y34 ... y3n 13 y14 ... ... ... ... ... ... y m 2 y m3 y m 4 ... y mn y1n y 21 y32 ... y m1 y 22 y32 ... y m 2 y 23 y33 ... y m3 y 24 y34 ... y m 4 ... ... ... ... y 2 n y3n ... y mn Уравнение (3.28), левая часть которого является полиномом степени m, в данном случае имеет m действительных корней, собственных чисел матрицы C. Эти собственные значения, расположенные в порядке убывания, равны дисперсиям соответствующих главных компонент, а совокупность собственных векторов матрицы C образует искомую матрицу B, преобразующую исходные переменные в главные компоненты. Часто наблюдаемые переменные Y1, Y2…., Ym измерены в разных единицах и тогда их непосредственный совместный анализ является бессмысленным. В этом случае переменные нормируются путем деления на свои выборочные среднеквадратичные значения (их центрирование путем вычитания выборочных средних мы предположили с самого начала), что делает их соизмеримыми по величине. Матрица ковариаций C при этом превращается в корреляционную матрицу. Если факторный анализ используется не просто для редукции громоздких данных или их наглядного представления – эта задача достаточно успешно решается методом главных компонент, а нацелен, действительно, на поиск неких скрытых факторов, лежащих в основе наблюдаемых данных, то используются более сложные методы. Для многих из них метод главных компонент служит начальным шагом анализа. Наиболее часто применяемым является так называемый метод варимаксного вращения (varimax rotation method). Его идея проста. В качестве отправных берутся факторы, совпадающие с первыми главными компонентами. Предположим, что на первую главную компоненту приходится 60% дисперсии, а на вторую – 30%. В сумме они 214 объясняют 90% дисперсии – это достаточно много и можно предположить, что за наблюдаемыми значениями большого числа переменных, возможно, нескольких десятков, стоят всего два базовых фактора. Желательно понять их смысл, что можно сделать только анализируя содержательно представление этих факторов-компонент через исходные переменные. Это легче сделать, если нагрузки «контрастны», т.е. близки либо к нулю, либо к единице. Однако главные компоненты в этом отношении могут оказаться не лучшим выбором. Можно попробовать улучшить ситуацию, вращая первые две главные компоненты в их собственной плоскости. При этом суммарная дисперсия, приходящаяся на эти главные компоненты не уменьшится, так что потери информации не произойдет. Может уменьшиться дисперсия первой главной компоненты, например, соотношение между дисперсиями, приходящимися на новые оси (уже не главные компоненты) будет 50% и 40%. Однако требование максимальной информативности первого фактора может быть совсем не важным или, по крайней мере, менее важным, чем желательность хорошей интерпретируемости факторов. Контрастность нагрузок можно определить разными способами. В методе варимаксного вращения она определяется как усредненная по всем факторам дисперсия квадратов нагрузок в выражениях факторов через исходные переменные. Чаще используется нормализованный метод варимаксного вращения (normalized varimax rotation method), в котором факторные нагрузки предварительно нормируются путем деления каждой из них на соответствующую ей сумму квадратов нагрузок по факторам. 3.7 Дискриминантный анализ Дискриминантный анализ (discriminant analysis) - один из методов распознавания образов (pattern recognition). Задачей распознавания образов является построение правила, позволяющего с наименьшей ошибкой предсказывать принадлежность объекта к одному из заданных классов по его описанию. Для построения этого правила используется предварительная 215 информация о наборе объектов, для которых известны как описание, так и принадлежность к классу. Например, имеется группа пациентов, для которых известен набор симптомов и точный диагноз. Требуется, используя эти данные, построить правило, дающее возможность в дальнейшем ставить диагноз по симптомам новым пациентам. Рассмотрим задачу распознавания образов, пользуясь вероятностными терминами. Пусть рассматриваемые потенциальные объекты (наблюдения) характеризуются значениями m переменных X1, X2…., Xm, являющихся непрерывными случайными величинами, распределенными по одному из законов F1(x1, x2…., xm), F2(x1, x2…., xm), …или Fk(x1, x2…., xm) в зависимости от того, к какому из классов k=1, 2, …, K относится объект. Рис. 3.9. Распознавание между двумя классами, заданными двумя одномерными нормальными распределениями с равными априорными вероятностями. Пусть, например, имеется два класса, заданными двумя одномерными нормальными распределениями N(=3, 2=1) и N(=5, 2=1)., причем объекты из этих классов встречаются с равными априорными вероятностями p=q=0.5. На рис. 3.9 изображены плотности этих двух распределений с равными весами. 216 Мы видим, что левее точки X1=4.5 плотность f1(x1) выше плотности f2(x1), а справа – наоборот. Правило, состоящее в том, чтобы любое новое наблюдение, оказавшееся левее точки X1=4.5 относить к первому классу, а оказавшееся правее – ко второму, обеспечивает минимальную ошибку классификации. Рис. 3.10. Распознавание между двумя классами, заданными двумя одномерными нормальными распределениями с неравными априорными вероятностями. На рис. 3.10 рассмотренная ситуация несколько модифицирована – объекты класса 1 встречаются при случайном выборе в 4 раза чаще, чем объекты класса 2. Это приводит к тому. что граница разделения между классами сдвигается правее – примерно в точку X1=5. Другими словами, мы пользуемся байесовским правилом – относим наблюдение к классу, имеющемму наибольшую апостериорную вероятность. В рассмотренных двух примерах мы предположили, что известны теоретические распределения, определяющие классы. Если имеются только 217 выборки наблюдений из них, то по ним можно построить оценки распределений. В частности, если есть основания считать, что неизвестные распределения нормальны, то достаточно вычислить средние и дисперсии двух выборок. Априорные вероятности можно взять равными долям встречаемости наблюдений двух классов в выборке. Рис. 3.11. Распознавание между двумя классами, заданными двумя двумерными нормальными распределениями с равными априорными вероятностями. На рис. 3.11 показана ситуация, когда классы заданы двумя двумерными нормальными распределениями с равными дисперсиями и корреляциями и одинаковыми априорными вероятностями, отличаясь, однако, своими математическими ожиданиями. Каждая плотность схематично представлена одной из своих линий уровня (взято одно и тоже значение уровня для обеих плотностей). Легко показать, что в этом случае линия разделения между двумя классами, т.е. линия, вдоль которой значения обеих плотностей равны, является прямой (заметим, кстати, что в данном примере на одномерных проекциях на 218 оси X1 и X2 распределения разделялялись бы гораздо хуже, чем в двумерном пространстве). Действительно, условие равенства плотностей имеет вид ( x1 1(1) ) 2 ( x 2 2(1) ) 2 ( x1 1(1) )( x 2 2(1) ) 1 pk1 exp 2 12 22 1 2 2(1 2 ) 1 ( x1 1( 2) ) 2 ( x 2 2( 2) ) 2 ( x1 1( 2) )( x 2 2( 2) ) 1 qk1 exp 2 12 22 1 2 2(1 2 ) где ( , ) и ( (1) (1) (2) 1 2 1 , (2) 2 ) – координаты центров первого и второго распределений, 1 и 2 - их дисперсии по первой и второй оси, коэффициент корреляции, а коэффициенты k1 определяется выражением k1 1 2 1 2 1 2 Сокращая на k1 и логарифмируя, получаем соотношение ( x1 1(1) ) 2 ( x 2 2(1) ) 2 ( x1 1(1) )( x 2 2(1) ) 1 log p 2 2(1 2 ) 12 22 1 2 ( x1 1( 2) ) 2 ( x 2 2( 2) ) 2 ( x1 1( 2) )( x 2 2( 2) ) 1 log q 2 2(1 2 ) 12 22 1 2 0 (3.29) из которого видно, что после возведений в квадрат и перемножений выражений в скобках члены второго порядка x12 , x22 и x1 x 2 сократятся и в левой части уравнения останется выражение первого порядка относительно x1 и x2 , т.е. это уравнение, действительно, определяет прямую на плоскости ( x1 , x2 ) . Заметим, что этот вывод существенно использует предположение о равенстве соответствующих дисперсий и коэффициентов корреляций распределений, что эквивалентно равенству их ковариационных матриц двух C1 и C2 219 2 1 2 1 C1 C 2 C 22 1 2 На рис. 3.12 показан случай, когда надо разделить три класса. Здесь также предполагается, что соответствующие дисперсии и корреляции трех распределений равны, поэтому каждая пара разделяется прямой равной плотности. Совокупность этих прямых формирует, как видно из рисунка, результирующую кусочно-линейную границу разделения классов на плоскости. Рис. 3.12. Распознавание между тремя классами, заданными тремя двумерными нормальными распределениями с равными априорными вероятностями. В предположении равенства ковариационных матриц и многомерной нормальности всех распределений рассмотренная ситуация обобщается и на большее число измерений. В трехмерном пространстве классы будут разделяться плоскостями, в четырехмерном – трехмерными гиперплоскостями 220 и т.д. Именно предположение о нормальности и равенстве ковариационных матриц распределений, соответствующих разным классам, определяет условия применимости дискриминантного анализа, точнее, линейного дискриминантного анализа. В принципе, эти условия довольно жестки, однако, благодаря своей статистической прозрачности и легкости численной реализации, метод линейного дискриминантного анализа реализован во всех пакетах программ статистической обработки данных и широко применяется при анализе данных даже в ситуациях, когда его предпосылки выполняются лишь приближенно. Рассмотрим еще некоторые понятия, связанные с линейным дискриминантным анализом. Левую часть равенства (3.29), которую после преобразований можно записать в виде L12 ( x1 , x2 ) a12,0 a12,1 x1 a12, 2 x2 называют линейной дискриминантной функцией классов для классов 1 и 2. Если для некоторого нового наблюдения эта функция больше нуля, то наблюдение следует отнести к классу 1, а если меньше – к классу 2. Очевидно, для случая K классов имеется K(K-1)/2 дискриминантных функций и все их надо сравнить с нулем. В случае большого числа классов процедура становится слишком громоздкой, поэтому поступают иначе. С каждым классом k связывают функцию Lk(x1,x2), называемую линейным дискриминантом этого класса, и для нового наблюдения вычисляют значения дискриминантов для всех классов. Полученные K значений сравниваются и наблюдение относится к тому классу, которому соответствует максимальное значение дискриминанта. Если вернуться к уравнению (3.29), то легко видеть, что его левую часть можно представить как разность двух линейных дискриминантов, соответствующим первому и второму членам в левой части (после раскрытия скобок и взаимного уничтожения квадратичных членов). 221 В пространстве наблюдаемых переменных для любого наблюдения можно вычислить его евклидовы расстояния от центра каждого класса. Однако эти расстояния могут не отражать истинные близости наблюдения к разным классам. Например, на рис. 3.11 точка на пересечении трех разделяющих прямых находится на разном расстоянии от центров трех классов, однако с точки зрения ее отнесения к одному из классов она равноудалена от них. Адекватной мерой расстояния в ситуации дискриминантного анализа (при равных априорных расстояниях) является так называемое расстояние Махаланобиса. Расстояние Махаланобиса между двумя точками в пространстве наблюдаемых переменных определяется как евклидово расстояние между этими точками в новом пространстве, получаемым из исходного пространства путем такого его преобразования, при котором первоначальные произвольные нормальные распределения преобразуются в нормальные распределения с единичными дисперсиями и нулевыми коэффициентами корреляциями. Например, в случае рис. 3.10 этого можно достичь путем поворота координатных осей в направлении осей эллипсов, представляющих линии уровня, и последующего соответствующего изменения масштаба новых осей. Если предпосылки линейного дискриминантного анализа не выполняются даже приближенно, то используют нелинейные методы распознавания образов. Одним из таких методов является метод k ближайших соседей. Он состоит в том, что находятся k ближайших соседей нового наблюдения, и оно относится к тому классу, представителей которого больше всего среди этих ближайших соседей. Выбор числа k не формализован - алгоритм работает даже при k =1, но очевидно, что при большом числе наблюдений его можно брать большим, поскольку это должно повысить надежность правильного распознавания. Может оказаться полезным перед вычислением расстояний от нового наблюдения до всех остальных (для выявления ближайших) произвести преобразование пространства с тем, чтобы новые расстояния лучше соответствовали реальной близости наблюдений к своим классам. Во всяком случае, обязательно стоит пронормировать наблюдаемые переменные путем 222 деления их на свои выборочные среднеквадратичные отклонения, если эти переменные измерены в разных единицах. Литература Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Исследование зависимостей. М.: Финансы и статистика, 1985, 487 с. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Классификация и снижение размерностей. М.: Финансы и статистика, 1989, 607 с. Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ. М.: Мир, 1982, 488 с. Благовещенский Ю.Н., Самсонова В.П., Дмитриев Е.А. Непараметрические методы в почвенных исследованиях. М.: Наука, 1987, 98 с. Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. Вып. 1. М.: Мир, 1974, 405 с. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1983, 416 с. Боровков А.А. Математическая статистика. Новосибирск: Наука, 1997, 772 с. Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия. Учебное пособие. Л.: Изд-во ЛГУ, 1982, 264 с. Гмурман В.Е. Теория вероятностей и математическая статистика. 12-е изд. М.: Юрайт, 2005, 479 с. Гнеденко Б.В., Хинчин А.Я. Элементарное введение в теорию вероятностей. 1982. М.: Наука. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. М.: Диалектика, 2007, 912 с. Ивашов-Мусатов О.С. Теория вероятностей и математическая статистика. М.: Фима, 2003, 224 с. Кендалл М. Дж., Стьюарт А. Теория распределений. М.: Наука, 1966, 586 с. Кендалл М. Дж., Стьюарт А. Статистические выводы и связи. М.: Наука, 1973, 892 с. Кендалл М. Дж., Стьюарт А. Многомерный статистический анализ и временные ряды. М.: Наука, 1976, 734 с. 223 Колмогоров А.Н. Основные понятия теории вероятностей. М.: Наука,, 1974, 119 с. Компьютерная биометрика. Под ред. В.Н. Носова. М.: Из-во МГУ, 1990, 232 с. Коршунов Д.А., Чернова Н.И. Сборник задач и упражнений по математической статистике. Новосибирск: Из-во Института математики, 2004, 128 с. Крамер Г. Математические методы статистики. Москва: Мир, 1975, 648 с. Макаров А.А., Тюрин Ю.Н. Анализ данных на компьютере. 3-е изд. М.: ИНФРА-И, 2003, 544 с. Манита А.Д. Теория вероятностей и математическая статистика. М.: Из-во МГУ, 2001, 120 с. Мешалкин Л.Д. Сборник задач по теории вероятностей. М.: Изд-во МГУ, 1963, 154 с. Мостеллер Ф. Пятьдесят занимательных вероятностных задач с решениями. М.: Наука, 1971, 103 с. Налимов В.В., Голикова Т.И. Логические основания эксперимента. 2-е изд. М.: Металлургия, 1981, 151 с. планирования Тутубалин В.Н. Теория вероятностей и случайных процессов. М.: Из-во МГУ, 1992, 400 с. Тюрин Ю.Н. Непараметрические методы статистики. М.: Знание, Непараметрические методы математической статистики. М., Знание, 1978, 64 с. Феллер В. Введение в теорию вероятностей и ее приложения. Том 1. М.: Мир, 1984, 528 с. Феллер В. Введение в теорию вероятностей и ее приложения. Том 2. М.: Мир, 1984, 752 с. Фишер Р.А. Статистические методы для исследователей. Госстатиздат, 1958, 267 с. Хан Г., Шапиро С. Статистические модели в инженерных задачах. М.: Мир, 1969, 396 с. Харман Г. Современный факторный анализ. – М.: Статистика, 1972, 486 с. 224 Холлендер М., Вульф Д. А. Непараметрические методы статистики. - М.: Финансы и статистика, 1983, 518 с. Чжун К.Л., Аитсахлиа Ф. Элементарный курс теории вероятностей. М.: Бином, 2007, 455 с. Шеффе Г. Дисперсионный анализ. М.: Наука, 1980, 512 с. Lilliefors H.W. The Kolmogorov-Smirnov Test for Normality with Mean and Variance Unknown. J. Amer. Stat. Assn., 1967, v. 62, 399-402. Sokal R.R., Rohlf F.J. 1995. Biometry. 3rd ed. N.Y.: W.H. Freeman & Co, 887 p. Zar J.H. 1999. Biostatistical Analysis. 4th ed. Upper Saddle River, N.J.: PrenticeHall, Inc., 998 p. 225