Элементы логарифмически-линейного анализа Определение логлинейной модели. Пусть дана двухвходовая таблица сопряжённости r s . Рассмотрим следующую модель. Представим теоретические частоты в ячейках таблицы сопряжённости в виде u u a u b u ab eij e o i j ij или, в другой форме, ln eij u 0 uia u bj uijab , где eij - теоретические (ожидаемые) частоты; u – неизвестные параметры, называемые u ia - эффект i-ой категории признака А; u bj - эффект j-ой категории признака В; uijab - эффект взаимодействия двух признаков; u0 - общий эффект, i = 1,…, r; j = 1, , s. Эти параметры иногда также называют вкладами, вносимыми различными эффектами в теоретическую частоту. Параметры должны удовлетворять ограничениям: u ijab u ijab u ia u bj 0. i j i j Подобные модели называются логлинейными (логарифмически-линейными) моделями таблицы сопряжённости. В логлинейной модели ожидаемые частоты eij преобразуются в их логарифмы, представляющие собой сумму параметров модели. Логлинейный анализ – это статистический анализ связи таблиц сопряжённости с помощью логлинейной моделей. Общие положения логлинейных моделей. В общем виде наблюдаемую частоту f ij можно представить в виде логлинейной модели f ij e u o u ia u bj u ijab ij , где e ij Таким образом, ij ln e ij f ij eij (i = 1,…,r, j = 1,…,s). ln f ij ln eij есть отклонение логарифма наблюдаемой частоты от логарифма ожидаемой частоты, а e ij определяет во сколько раз f ij больше (меньше) eij , то есть показывает относительное отклонение наблюдаемой частоты от ожидаемой (теоретической) частоты. Гипотеза независимости признаков заключается в том, что эффект взаимодействия признаков равен нулю: H0: { u ijab 0, i 1,..., r; j 1,..., s. }. Для проверки гипотезы независимости признаков используется критерий χ2. f ij eij 2 2 Вместо статистики X используется информативный критерий eij i j 2 f ij ln f ij f i 0 ln f i 0 f 0 j ln f 0 j f 00 ln f 00 . eij i j i j i j 2 При расчёте Y следует иметь в виду, что таблица сопряжённости не должна иметь нулевые клетки. В таких случаях в пустые клетки добавляют числа из интервала (0;1), чаще всего 0,5. При большом объёме выборки X 2 и Y 2 мало отличаются друг от друга, поэтому вместо Y 2 можно применить X 2 , однако при небольших объёмах выборки используют Y 2 . Y 2 2 f ij ln f ij Модель называется насыщенной, если она включает все факторы, то есть все вклады, вносимые различными эффектами, отличны от нуля. Число независимых параметров модели равно сумме всех параметров модели минус число ограничений, накладываемых на параметры модели. Число степеней свободы при проверке гипотез определяется следующим образом: d r s k r s l m , где r s - число клеток в таблице; k – число независимых параметров; l – общее число параметров; m – число ограничений. Определим число степеней свободы для насыщенной логлинейной модели для таблицы сопряжённости 2 2 . Число клеток в таблице r s = 2 2 =4. ab ab , u 22 Всего параметров – l = 9: u 0 , u1a , u 2a , u1b , u 2b , u11ab , u12ab , u 21 . Запишем систему ограничений: u1a u 2a 0 u1b u 2b 0 u11ab u12ab 0 ab u11ab u 21 0 ab ab u 21 u 22 0 ab u12ab u 22 0 Из четырёх последних ограничений одно является следствием остальных, таким образом число ограничений – m = 5. Тогда число независимых параметров k = l – m = 9 – 5 = 4. Итак, для насыщенной модели число степеней свободы d = 4 – 9 + 5 = 4 – 4 = 0. Виды моделей для таблиц 2 2 . 1. Насыщенная модель. Пусть имеется выборочная таблица сопряжённости с ненулевыми частотами. B1 B2 Насыщенная модель имеет вид: ln eij u 0 uia u bj uijab , i = 1,2; j = 1,2. A1 f11 f12 f10 Число степеней свободы d = 0. A2 f21 f22 f20 Так как число степеней свободы равно 0 для таблиц сопряжённости любой f01 f02 размерности, то теоретические частоты не отличаются от наблюдаемых, то есть f ij eij . Таблица теоретических частот имеет такой же вид. Тогда X 2 =0 и Y 2 =0. Запишем систему уравнений для ожидаемых частот: ln e11 u 0 u1a u1b u11ab ln e12 u 0 u1a u 2b u12ab ab ln e 21 u 0 u 2a u1b u 21 ab ln e 22 u 0 u 2a u 2b u 22 С учётом ограничений систему можно переписать следующим образом: ln e11 u 0 u1a u1b u11ab ln e12 u 0 u1a u1b u11ab ln e 21 u 0 u1a u1b u11ab ln e 22 u 0 u1a u1b u11ab Решая данную систему относительно u, получим (с учётом f ij eij ): 1 ln e11 ln e12 ln e21 ln e22 = 1 ln f 11 ln f 12 ln f 21 ln f 22 = 1 ln e11 e12 e21 e22 4 4 4 1 1 1 e e u1a ln e11 ln e12 ln e 21 ln e 22 = ln f 11 ln f 12 ln f 21 ln f 22 = ln 11 12 4 4 4 e21 e22 1 1 1 e e u1b ln e11 ln e12 ln e 21 ln e 22 = ln f 11 ln f 12 ln f 21 ln f 22 = ln 11 21 4 4 4 e12 e 22 1 1 1 e e u11ab ln e11 ln e12 ln e 21 ln e 22 = ln f 11 ln f 12 ln f 21 ln f 22 = ln 11 22 4 e12 e21 4 4 u0 2. Ненасыщенные логлинейные модели. Модель, у которой один из параметров равен нулю, называется ненасыщенной. Для проверки гипотезы об адекватности любой ненасыщенной модели применяется критерий χ2 с вычислением статистики Y2. Рассмотрим виды ненасыщенных моделей. 1) Модель независимости. f i0 f 0 j Если признаки А и В независимы, то ожидаемые частоты находятся по формулам eij , f 00 e e а отношение преобладаний Ψ= 11 22 =1. e12 e21 1 1 e e Таким образом, u11ab ln 11 22 = ln 1 0 . 4 e12 e21 4 Если эффект взаимодействия u11ab 0, то с учётом ограничений, накладываемых на параметры, и ab ab u12ab u 21 u 22 0, тогда полученная ненасыщенная модель называется моделью независимости (независимой моделью), которая в общем случае имеет вид ln eij u 0 u ia u bj , i = 1,2; j = 1,2. Получаем следующие оценки параметров модели независимости: 1 u 0 ln e11 e12 e 21 e 22 4 1 e e u1a ln 11 12 4 e21 e22 1 e e u1b ln 11 21 4 e12 e 22 u11ab 0 . Если Y2< χ2крит, то модель считается адекватной и возможно дальнейшее упрощение модели. При вычислении степеней свободы необходимо учесть, что в отличие от насыщенной модели, в которой 5 ограничений, в модели независимости появляется ещё одно ограничение ( u11ab 0), таким образом, число степеней свободы d = 4 – 9 + (5+1) = 4 – 3 = 1. 2) Модель с отсутствием влияния одного фактора. Модель с отсутствием влияния фактора В. Если фактор В не влияет на А, то теоретические частоты фактора А в категориях В1 и В2 равны: f f e11 e12 10 ; e21 e 22 20 . 2 2 Таблица сопряжённости теоретических частот для данной модели имеет вид: B1 B2 1 1 e e 1 f f u1b ln 11 21 = ln 10 20 = ln 1 =0 – эффект фактора В равен 0. A1 f 10 2 f 10 2 f10 4 e12 e 22 4 f 20 f 10 4 A2 f 20 2 f 20 2 f20 Очевидно, что и эффект взаимодействия равен нулю: u ab 0 . 11 f01 f02 Модель имеет вид: ln eij u 0 u ia , i = 1,2; j = 1,2. Параметры логлинейной модели с отсутствием влияния В имеют вид: 1 u 0 ln e11 e12 e 21 e 22 4 1 e e u1a ln 11 12 4 e21 e22 u1b 0, u11ab 0 . Число степеней свободы: d = 4 – 9 + (5 + 2) = 4 – 2 = 2. Аналогично строится модель с отсутствием влияния фактора А: b ln eij u 0 u j , i = 1,2; j = 1,2. Таблица теоретических частот имеет вид: B1 B2 1 u 0 ln e11 e12 e 21 e 22 A1 f 01 2 f 02 2 f10 4 a A2 f 01 2 f 02 2 f20 u1 0, u11ab 0 1 e e f01 f02 u1b ln 11 21 . 4 e12 e 22 d = 2. 3) Равновероятная модель. Для этой модели отсутствует влияние фактора А и фактора В, поэтому вероятности для объекта наблюдения попасть в любую из ячеек одинаковые. f Теоретические частоты в каждой ячейке равные: eij 00 , i = 1,2; j = 1,2. 4 Таблица теоретических частот имеет вид: 1 B1 B2 u 0 ln e11 e12 e 21 e 22 A1 f 00 4 f 00 4 f10 4 a A2 f 00 4 f 00 4 f20 u1 0, u11ab 0 , u1b 0. f01 f02 Модель имеет вид: ln eij u 0 . d = 4 – 9 + (5 + 3) = 4 – 1 = 3. Все виды логлинейных моделей представлены в таблице: Номер Название модели Вид модели Число степеней модели свободы d a b ab 1 Насыщенная 0 ln eij u 0 ui u j uij 2 Независимая ln eij u 0 u ia u bj 1 3 Нет эффекта В ln eij u 0 u ia 2 4 Нет эффекта А ln eij u 0 u bj 3 5 Равновероятная ln eij u 0 4 На практике анализ логлинейных моделей следует проводить с насыщенной модели, постепенно упрощая при i = 1,2; j = 1,2. Для проверки значимости параметров модели из Y2 для модели с высоким номером следует вычесть Y2 модели с более низким номером. Если значения некоторых параметров оказываются близкими к нулю, то они из модели исключаются. ПРИМЕР. В результате маркетингового исследования, проведённого с целью изучения эффективности рекламы среди 800 покупателей, получена следующая таблица сопряжённости по признакам: Найдём параметры всех логлинейных моделей. не Рассчитаем статистику для каждой модели и знакомы знакомы проверим адекватность полученной модели мужчины 298 142 440 эмпирическим данным. женщины 210 150 360 508 292 800 I. Насыщенная модель: ln eij u 0 uia u bj uijab , i = 1,2; j = 1,2. Так как для насыщенной модели теоретические частоты равны наблюдаемым, то таблица теоретических частот имеет тот же вид. Составим таблицу логарифмов теоретических частот: ln 298 = 5.697; ln 142 = 4.956 ln 210 = 5.347; ln 150 = 5.011 Находим параметры логлинейной модели по формулам: не 1 знакомы знакомы u 0 ln e11 ln e12 ln e 21 ln e 22 = мужчины 5,697 4,956 4 женщины 5,347 5,011 1 = 5,697 4,956 5,347 5,01 =5,253 – общий эффект 4 1 1 u1a ln e11 ln e12 ln e 21 ln e 22 = 5,697 4,956 5,347 5,01 =0,074 – вклад признака А1 4 4 1 1 u1b ln e11 ln e12 ln e 21 ln e 22 = 5,697 4,956 5,347 5,01 =0,269 – вклад признака В1 4 4 1 1 u11ab ln e11 ln e12 ln e 21 ln e 22 = 5,697 4,956 5,347 5,01 =0,101- эффект 4 4 взаимодействия признаков А и В. Так как для насыщенной модели теоретические частоты равны наблюдаемым, то статистика Y 2 =0. II. Модель независимости: ln eij u 0 u ia u bj , i = 1,2; j = 1,2. Составим таблицу теоретических частот, учитывая, что в случае независимости ожидаемые f i0 f 0 j частоты находятся по формуле eij . f 00 f f f f 440 508 440 292 =279.4; e12 10 02 = =160.6; e11 10 01 = 800 800 f 00 f 00 f f f f 360 508 360 292 =228.6; e 22 20 02 = =131.4. e21 20 01 = 800 800 f 00 f 00 Таблица ожидаемых частот eij знакомы не знакомы мужчины 279,4 160,6 440 женщины 228,6 131,4 360 508 292 800 Составим таблицу логарифмов ожидаемых частот ln e ij : не знакомы знакомы мужчины 5,633 5,079 женщины 5,432 4,878 Найдём параметры логлинейной независимой модели по формулам: 1 1 1 ln e11 e12 e 21 e 22 = ln e11 ln e12 ln e 21 ln e 22 = 5,633 5,079 5,432 4,878 =5,255 4 4 4 1 1 1 e e u1a ln 11 12 = ln e11 ln e12 ln e 21 ln e 22 = 5,633 5,079 5,432 4,878 =0,100 4 4 e21 e22 4 1 1 1 e e u1b ln 11 21 = ln e11 ln e12 ln e 21 ln e 22 = 5,633 5,079 5,432 4,878 =0,277 4 4 e12 e 22 4 1 1 1 e e u11ab ln 11 22 = ln e11 ln e12 ln e 21 ln e 22 = 5,633 5,079 5,432 4,878 =0. 4 e12 e21 4 4 u0 Найдём значение статистики Y 2 по формуле f ij Y 2 2 f ij ln 2 f ij ln f ij f i 0 ln f i 0 f 0 j ln f 0 j f 00 ln f 00 . eij i j i j i j Составим расчётную таблицу: Индексы Индексы f ij ln f ij f ij ln f ij f ij ln f ij 11 12 21 22 00 298 142 210 150 800 5,697 4,956 5,347 5,011 6,685 f ij ln f ij 1697,734 10 440 6,087 2678,181 703,727 20 360 5,886 2118,997 1122,893 01 508 6,230 3165,085 751,595 02 292 5,677 1657,612 5347,689 Σ– =9619,875 Σ+ =9623,639 Y 2 = 2 ( Σ+ - Σ–) = 2 (9623,639 - 9619,875) = 7,527. Число степеней свободы для независимой модели равно d = 1. По таблице значений χ2 находим χ2крит = χ2 (1;0,05) = 3,841. (Уровень значимости α = 0,05) Так как Y 2 > χ2крит , то модель независимости неадекватна. Дальнейшее её упрощение не имеет смысла. Однако проведём остальные расчёты. III. Модели с отсутствием влияния одного фактора. a) Модель с отсутствием влияния фактора В: ln eij u 0 u ia , i = 1,2; j = 1,2. Рассчитаем теоретические частоты по формулам: f f 360 440 = 220; e21 e 22 20 = = 180. e11 e12 10 = 2 2 2 2 Получили таблицу ожидаемых частот: не знакомы знакомы мужчины 220 220 440 женщины 180 180 360 400 400 800 Составим таблицу натуральных логарифмов ожидаемых частот: не знакомы знакомы мужчины 5,394 5,394 женщины 5,193 5,193 Найдём параметры логлинейной модели по формулам: 1 1 1 u 0 ln e11 e12 e 21 e 22 = ln e11 ln e12 ln e 21 ln e 22 = 5,394 5,394 5,193 5,193 =5,293 4 4 4 1 1 1 e e u1a ln 11 12 = ln e11 ln e12 ln e 21 ln e 22 = 5,394 5,394 5,193 5,193 =0,100 4 4 e21 e22 4 1 1 1 e e u1b ln 11 21 = ln e11 ln e12 ln e 21 ln e 22 = 5,394 5,394 5,193 5,193 =0 4 4 e12 e 22 4 1 1 e11 e22 1 ln = ln e11 ln e12 ln e 21 ln e 22 = 5,394 5,394 5,193 5,193 =0. 4 e12 e21 4 4 f ij Найдём значение статистики Y 2 по формуле Y 2 2 f ij ln . eij i j Составим расчётную таблицу: Индексы e ij f ij eij ln f ij eij f ij ln f ij eij f ij u11ab 11 12 21 22 298 142 210 150 220 220 180 180 1,355 0,645 1,167 0,833 0,303 -0,438 0,154 -0,182 90,433 -62,168 32,372 -27,348 Σ = 33,289 Y 2 = 2 33,289 = 66,577. b) Модель с отсутствием влияния фактора А: ln eij u 0 uib , i = 1,2; j = 1,2. Рассчитаем теоретические частоты по формулам: f f 508 292 = 254; e12 e22 02 = = 146. e11 e21 01 = 2 2 2 2 Получили таблицу ожидаемых частот: не знакомы знакомы мужчины 254 146 400 женщины 254 146 400 508 292 800 Составим таблицу натуральных логарифмов ожидаемых частот: не знакомы знакомы мужчины 5,537 4,984 женщины 5,537 4,984 Найдём параметры логлинейной модели по формулам: 1 1 1 u 0 ln e11 e12 e 21 e 22 = ln e11 ln e12 ln e 21 ln e 22 = 5,537 4,984 5,537 4,984 =5,260 4 4 4 1 1 1 e e u1a ln 11 12 = ln e11 ln e12 ln e 21 ln e 22 = 5,537 4,984 5,537 4,984 =0 4 4 e21 e22 4 1 1 1 e e u1b ln 11 21 = ln e11 ln e12 ln e 21 ln e 22 = 5,537 4,984 5,537 4,984 =0,277 4 4 e12 e 22 4 1 1 1 e e u11ab ln 11 22 = ln e11 ln e12 ln e 21 ln e 22 = 5,537 4,984 5,537 4,984 =0. 4 e12 e21 4 4 f ij Найдём значение статистики Y 2 по формуле Y 2 2 f ij ln . eij i j Составим расчётную таблицу: Индексы e ij f ij eij ln f ij eij f ij ln f ij eij f ij 11 12 21 22 298 142 210 150 Y 2 = 2 7,770 = 15,540. 254 146 254 146 1,173 0,973 0,827 1,027 0,160 -0,028 -0,190 0,027 47,608 -3,945 -39,948 4,054 Σ = 7,770 IV. Равновероятная модель: ln eij u 0 . Рассчитаем теоретические частоты по формулам: f 800 = 200. e11 e21 e12 e22 00 = 4 4 Получили таблицу ожидаемых частот: не знакомы знакомы мужчины 200 200 400 женщины 200 200 400 400 400 800 Составим таблицу натуральных логарифмов ожидаемых частот: не знакомы знакомы мужчины 5,298 5,298 женщины 5,298 5,298 Найдём параметры логлинейной равновероятной модели по формулам: 1 1 1 u 0 ln e11 e12 e 21 e 22 = ln e11 ln e12 ln e 21 ln e 22 = 5,298 5,298 5,298 5,298 =5,298 4 4 4 1 1 1 e e u1a ln 11 12 = ln e11 ln e12 ln e 21 ln e 22 = 5,298 5,298 5,298 5,298 =0 4 4 e21 e22 4 1 1 1 e e u1b ln 11 21 = ln e11 ln e12 ln e 21 ln e 22 = 5,298 5,298 5,298 5,298 =0 4 4 e12 e 22 4 1 1 1 e e u11ab ln 11 22 = ln e11 ln e12 ln e 21 ln e 22 = 5,298 5,298 5,298 5,298 =0. 4 e12 e21 4 4 f ij Найдём значение статистики Y 2 по формуле Y 2 2 f ij ln . eij i j Составим расчётную таблицу: Индексы e ij f ij eij ln f ij eij f ij ln f ij eij f ij 11 12 21 22 298 142 210 150 200 200 200 200 1,49 0,71 1,05 0,75 0,399 -0,342 0,049 -0,288 118,835 -48,634 10,246 -43,152 Σ = 37,295 Y 2 = 2 37,295 = 74,591. Результаты построения логлинейных моделей. название насыщенная независимости нет эффекта В нет эффекта А равновероятная теоретические частоты параметры логлинейной модели e11 e12 e21 e 22 u0 298 279,4 220 254 200 142 160,6 220 146 200 210 228,6 180 254 200 150 131,4 180 146 200 5,253 5,255 5,293 5,260 5,298 u a 1 0,074 0,100 0,100 0 0 ab Различие между моделями 1 и 2 состоит в наличии члена u11 . u b 1 0,269 0,277 0 0,277 0 u ab 11 0,101 0 0 0 0 d 0 1 2 3 4 Y2 0 7,527 66,577 15,540 74,591 Проверка значимости этого параметра осуществляется сравнением значений Y 2 . Находим разность Y 2 2 - Y 2 1 = 7,527 – 0 = 7,527 при 1 – 0 = 1 степени свободы. Y 2 набл = 7,527 > χ2крит = = χ2 (1;0,05) = 3,841. Следовательно, параметр u11ab значим. Сравним независимую модель с моделью без эффекта А. Модель Включенные параметры Степеней свободы Y 2 Независимая u 0 , u1a , u1b 1 7,527 b Без эффекта А u 0 , u1 2 15,540 Различие u1a 1 8,013 Так как вклад в Y 2 параметра u1a равен 8,013 при числе степеней свободы d = 1, то делаем вывод, что параметр значим (8,013 > 3,841). Приращение Y 2 приведено в таблице. № Название модели Включенные Сравнение Различие Разность Y2 параметры моделей Y2 1 насыщенная 0 (1) с (2) 7,527 u 0 u1a u1b u11ab u11ab 2 независимости u 0 u1a u1b 7,527 (2) с (3) u1b 59,05 (2) с (4) u1a 8,013 3 нет эффекта В u 0 u1a 66,577 (3) с (5) u1a 8,014 4 нет эффекта А u 0 u1b 15,540 (4) с (5) u1b 59,051 5 равновероятная 74,591 u0 Из таблицы видно, что все параметры значимы, то есть адекватной является насыщенная модель. Наиболее значим параметр u1b - вклад, вносимый эффектом категории В в теоретические частоты.