Элементы логлинейного анализа

реклама
Элементы логарифмически-линейного анализа
Определение логлинейной модели.
Пусть дана двухвходовая таблица сопряжённости r  s .
Рассмотрим следующую модель.
Представим теоретические частоты в ячейках таблицы сопряжённости в виде
u  u a  u b  u ab
eij  e o i j ij или, в другой форме, ln eij  u 0  uia  u bj  uijab , где eij - теоретические
(ожидаемые) частоты;
u – неизвестные параметры, называемые
u ia - эффект i-ой категории признака А;
u bj - эффект j-ой категории признака В;
uijab - эффект взаимодействия двух признаков;
u0 - общий эффект, i = 1,…, r; j = 1, , s.
Эти параметры иногда также называют вкладами, вносимыми различными эффектами в
теоретическую частоту.
Параметры должны удовлетворять ограничениям:  u ijab   u ijab   u ia   u bj  0.
i
j
i
j
Подобные модели называются логлинейными (логарифмически-линейными) моделями таблицы
сопряжённости.
В логлинейной модели ожидаемые частоты eij преобразуются в их логарифмы, представляющие
собой сумму параметров модели.
Логлинейный анализ – это статистический анализ связи таблиц сопряжённости с помощью
логлинейной моделей.
Общие положения логлинейных моделей.
В общем виде наблюдаемую частоту f ij можно представить в виде логлинейной модели
f ij  e
u o  u ia  u bj  u ijab   ij
, где e
 ij
Таким образом,  ij  ln e
 ij

f ij
eij
(i = 1,…,r, j = 1,…,s).
 ln f ij  ln eij есть отклонение логарифма наблюдаемой частоты от

логарифма ожидаемой частоты, а e ij определяет во сколько раз f ij больше (меньше) eij , то есть
показывает относительное отклонение наблюдаемой частоты от ожидаемой (теоретической)
частоты.
Гипотеза независимости признаков заключается в том, что эффект взаимодействия
признаков равен нулю: H0: { u ijab  0, i  1,..., r; j  1,..., s. }. Для проверки гипотезы независимости
признаков используется критерий χ2.
 f ij  eij 2
2
Вместо статистики X   
используется информативный критерий
eij
i
j


 2   f ij ln f ij   f i 0 ln f i 0   f 0 j ln f 0 j  f 00 ln f 00  .
eij
i
j
i
j
 i j

2
При расчёте Y следует иметь в виду, что таблица сопряжённости не должна иметь нулевые
клетки. В таких случаях в пустые клетки добавляют числа из интервала (0;1), чаще всего 0,5.
При большом объёме выборки X 2 и Y 2 мало отличаются друг от друга, поэтому вместо Y 2 можно
применить X 2 , однако при небольших объёмах выборки используют Y 2 .
Y 2  2  f ij ln
f ij
Модель называется насыщенной, если она включает все факторы, то есть все вклады, вносимые
различными эффектами, отличны от нуля.
Число независимых параметров модели равно сумме всех параметров модели минус число
ограничений, накладываемых на параметры модели.
Число степеней свободы при проверке гипотез определяется следующим образом:
d  r  s  k  r  s  l  m , где
r  s - число клеток в таблице;
k – число независимых параметров;
l – общее число параметров;
m – число ограничений.
Определим число степеней свободы для насыщенной логлинейной модели для таблицы
сопряжённости 2  2 .
Число клеток в таблице r  s = 2  2 =4.
ab
ab
, u 22
Всего параметров – l = 9: u 0 , u1a , u 2a , u1b , u 2b , u11ab , u12ab , u 21
.
Запишем систему ограничений:
u1a  u 2a  0
u1b  u 2b  0
u11ab  u12ab  0
ab
u11ab  u 21
0
ab
ab
u 21  u 22  0
ab
u12ab  u 22
0
Из четырёх последних ограничений одно является следствием остальных, таким образом число
ограничений – m = 5.
Тогда число независимых параметров k = l – m = 9 – 5 = 4.
Итак, для насыщенной модели число степеней свободы d = 4 – 9 + 5 = 4 – 4 = 0.
Виды моделей для таблиц 2  2 .
1. Насыщенная модель.
Пусть имеется выборочная таблица сопряжённости с ненулевыми частотами.
B1 B2
Насыщенная модель имеет вид: ln eij  u 0  uia  u bj  uijab , i = 1,2; j = 1,2.
A1 f11 f12 f10 Число степеней свободы d = 0.
A2 f21 f22 f20 Так как число степеней свободы равно 0 для таблиц сопряжённости любой
f01 f02
размерности, то теоретические частоты не отличаются от наблюдаемых, то есть
f ij  eij . Таблица теоретических частот имеет такой же вид. Тогда X 2 =0 и Y 2 =0.
Запишем систему уравнений для ожидаемых частот:
ln e11  u 0  u1a  u1b  u11ab
ln e12  u 0  u1a  u 2b  u12ab
ab
ln e 21  u 0  u 2a  u1b  u 21
ab
ln e 22  u 0  u 2a  u 2b  u 22
С учётом ограничений систему можно переписать следующим образом:
ln e11  u 0  u1a  u1b  u11ab
ln e12  u 0  u1a  u1b  u11ab
ln e 21  u 0  u1a  u1b  u11ab
ln e 22  u 0  u1a  u1b  u11ab
Решая данную систему относительно u, получим (с учётом f ij  eij ):
1
ln e11  ln e12  ln e21  ln e22  = 1 ln f 11  ln f 12  ln f 21  ln f 22  = 1 ln e11  e12  e21  e22 
4
4
4
1
1
1 e e
u1a  ln e11  ln e12  ln e 21  ln e 22  = ln f 11  ln f 12  ln f 21  ln f 22  = ln 11 12
4
4
4 e21  e22
1
1
1 e e
u1b  ln e11  ln e12  ln e 21  ln e 22  = ln f 11  ln f 12  ln f 21  ln f 22  = ln 11 21
4
4
4 e12  e 22
1
1
1 e e
u11ab  ln e11  ln e12  ln e 21  ln e 22  = ln f 11  ln f 12  ln f 21  ln f 22  = ln 11 22
4 e12  e21
4
4
u0 
2. Ненасыщенные логлинейные модели.
Модель, у которой один из параметров равен нулю, называется ненасыщенной.
Для проверки гипотезы об адекватности любой ненасыщенной модели применяется критерий χ2 с
вычислением статистики Y2.
Рассмотрим виды ненасыщенных моделей.
1) Модель независимости.
f i0  f 0 j
Если признаки А и В независимы, то ожидаемые частоты находятся по формулам eij 
,
f 00
e e
а отношение преобладаний Ψ= 11 22 =1.
e12  e21
1
1 e e
Таким образом, u11ab  ln 11 22 = ln 1  0 .
4 e12  e21 4
Если эффект взаимодействия u11ab  0, то с учётом ограничений, накладываемых на параметры, и
ab
ab
u12ab  u 21
 u 22
 0, тогда полученная ненасыщенная модель называется моделью независимости
(независимой моделью), которая в общем случае имеет вид ln eij  u 0  u ia  u bj , i = 1,2; j = 1,2.
Получаем следующие оценки параметров модели независимости:
1
u 0  ln e11  e12  e 21  e 22 
4
1 e e
u1a  ln 11 12
4 e21  e22
1 e e
u1b  ln 11 21
4 e12  e 22
u11ab  0 .
Если Y2< χ2крит, то модель считается адекватной и возможно дальнейшее упрощение модели.
При вычислении степеней свободы необходимо учесть, что в отличие от насыщенной модели, в
которой 5 ограничений, в модели независимости появляется ещё одно ограничение ( u11ab  0),
таким образом, число степеней свободы d = 4 – 9 + (5+1) = 4 – 3 = 1.
2) Модель с отсутствием влияния одного фактора.
Модель с отсутствием влияния фактора В.
Если фактор В не влияет на А, то теоретические частоты фактора А в категориях В1 и В2 равны:
f
f
e11  e12  10 ; e21  e 22  20 .
2
2
Таблица сопряжённости теоретических частот для данной модели имеет вид:
B1
B2
1
1 e e
1 f f
u1b  ln 11 21 = ln 10 20 = ln 1 =0 – эффект фактора В равен 0.
A1 f 10 2 f 10 2 f10
4 e12  e 22 4 f 20  f 10 4
A2 f 20 2 f 20 2 f20 Очевидно, что и эффект взаимодействия равен нулю: u ab  0 .
11
f01
f02
Модель имеет вид: ln eij  u 0  u ia , i = 1,2; j = 1,2.
Параметры логлинейной модели с отсутствием влияния В имеют вид:
1
u 0  ln e11  e12  e 21  e 22 
4
1 e e
u1a  ln 11 12
4 e21  e22
u1b  0, u11ab  0 .
Число степеней свободы: d = 4 – 9 + (5 + 2) = 4 – 2 = 2.
Аналогично строится модель с отсутствием влияния фактора А:
b
ln eij  u 0  u j , i = 1,2; j = 1,2.
Таблица теоретических частот имеет вид:
B1
B2
1
u 0  ln e11  e12  e 21  e 22 
A1 f 01 2 f 02 2 f10
4
a
A2 f 01 2 f 02 2 f20 u1  0, u11ab  0
1 e e
f01
f02
u1b  ln 11 21 .
4 e12  e 22
d = 2.
3) Равновероятная модель.
Для этой модели отсутствует влияние фактора А и фактора В, поэтому вероятности для объекта
наблюдения попасть в любую из ячеек одинаковые.
f
Теоретические частоты в каждой ячейке равные: eij  00 , i = 1,2; j = 1,2.
4
Таблица теоретических частот имеет вид:
1
B1
B2
u 0  ln e11  e12  e 21  e 22 
A1 f 00 4 f 00 4 f10
4
a
A2 f 00 4 f 00 4 f20 u1  0, u11ab  0 ,
u1b  0.
f01
f02
Модель имеет вид: ln eij  u 0 .
d = 4 – 9 + (5 + 3) = 4 – 1 = 3.
Все виды логлинейных моделей представлены в таблице:
Номер Название модели Вид модели
Число степеней
модели
свободы d
a
b
ab
1
Насыщенная
0
ln eij  u 0  ui  u j  uij
2
Независимая
ln eij  u 0  u ia  u bj
1
3
Нет эффекта В
ln eij  u 0  u ia
2
4
Нет эффекта А
ln eij  u 0  u bj
3
5
Равновероятная
ln eij  u 0
4
На практике анализ логлинейных моделей следует проводить с насыщенной модели, постепенно
упрощая при i = 1,2; j = 1,2.
Для проверки значимости параметров модели из Y2 для модели с высоким номером следует
вычесть Y2 модели с более низким номером.
Если значения некоторых параметров оказываются близкими к нулю, то они из модели
исключаются.
ПРИМЕР.
В результате маркетингового исследования, проведённого с целью изучения эффективности
рекламы среди 800 покупателей, получена следующая таблица сопряжённости по признакам:
Найдём параметры всех логлинейных моделей.
не
Рассчитаем статистику для каждой модели и
знакомы знакомы
проверим адекватность полученной модели
мужчины
298
142
440
эмпирическим данным.
женщины
210
150
360
508
292
800
I. Насыщенная модель: ln eij  u 0  uia  u bj  uijab , i = 1,2; j = 1,2.
Так как для насыщенной модели теоретические частоты равны наблюдаемым, то таблица
теоретических частот имеет тот же вид. Составим таблицу логарифмов теоретических частот:
ln 298 = 5.697; ln 142 = 4.956
ln 210 = 5.347; ln 150 = 5.011
Находим параметры логлинейной модели по формулам:
не
1
знакомы знакомы
u 0  ln e11  ln e12  ln e 21  ln e 22  =
мужчины
5,697
4,956
4
женщины
5,347
5,011
1
= 5,697  4,956  5,347  5,01 =5,253 – общий эффект
4
1
1
u1a  ln e11  ln e12  ln e 21  ln e 22  = 5,697  4,956  5,347  5,01 =0,074 – вклад признака А1
4
4
1
1
u1b  ln e11  ln e12  ln e 21  ln e 22  = 5,697  4,956  5,347  5,01 =0,269 – вклад признака В1
4
4
1
1
u11ab  ln e11  ln e12  ln e 21  ln e 22  = 5,697  4,956  5,347  5,01 =0,101- эффект
4
4
взаимодействия признаков А и В.
Так как для насыщенной модели теоретические частоты равны наблюдаемым, то статистика Y 2 =0.
II. Модель независимости: ln eij  u 0  u ia  u bj , i = 1,2; j = 1,2.
Составим таблицу теоретических частот, учитывая, что в случае независимости ожидаемые
f i0  f 0 j
частоты находятся по формуле eij 
.
f 00
f f
f f
440  508
440  292
=279.4; e12  10 02 =
=160.6;
e11  10 01 =
800
800
f 00
f 00
f f
f f
360  508
360  292
=228.6; e 22  20 02 =
=131.4.
e21  20 01 =
800
800
f 00
f 00
Таблица ожидаемых частот eij
знакомы не знакомы
мужчины
279,4
160,6
440
женщины
228,6
131,4
360
508
292
800
Составим таблицу логарифмов ожидаемых частот ln e ij :
не
знакомы знакомы
мужчины
5,633
5,079
женщины
5,432
4,878
Найдём параметры логлинейной независимой модели по формулам:
1
1
1
ln e11  e12  e 21  e 22  = ln e11  ln e12  ln e 21  ln e 22  = 5,633  5,079  5,432  4,878 =5,255
4
4
4
1
1
1 e e
u1a  ln 11 12 = ln e11  ln e12  ln e 21  ln e 22  = 5,633  5,079  5,432  4,878 =0,100
4
4 e21  e22 4
1
1
1 e e
u1b  ln 11 21 = ln e11  ln e12  ln e 21  ln e 22  = 5,633  5,079  5,432  4,878 =0,277
4
4 e12  e 22 4
1
1
1 e e
u11ab  ln 11 22 = ln e11  ln e12  ln e 21  ln e 22  = 5,633  5,079  5,432  4,878 =0.
4 e12  e21 4
4
u0 
Найдём значение статистики Y 2 по формуле
f ij


Y 2  2  f ij ln
 2   f ij ln f ij   f i 0 ln f i 0   f 0 j ln f 0 j  f 00 ln f 00  .
eij
i
j
i
j
 i j

Составим расчётную таблицу:
Индексы
Индексы
f ij
ln f ij
f ij  ln f ij
f ij
ln f ij
11
12
21
22
00
298
142
210
150
800
5,697
4,956
5,347
5,011
6,685
f ij  ln f ij
1697,734
10
440
6,087
2678,181
703,727
20
360
5,886
2118,997
1122,893
01
508
6,230
3165,085
751,595
02
292
5,677
1657,612
5347,689
Σ– =9619,875
Σ+ =9623,639
Y 2 = 2  ( Σ+ - Σ–) = 2  (9623,639 - 9619,875) = 7,527.
Число степеней свободы для независимой модели равно d = 1.
По таблице значений χ2 находим χ2крит = χ2 (1;0,05) = 3,841. (Уровень значимости α = 0,05)
Так как Y 2 > χ2крит , то модель независимости неадекватна. Дальнейшее её упрощение не имеет
смысла. Однако проведём остальные расчёты.
III. Модели с отсутствием влияния одного фактора.
a) Модель с отсутствием влияния фактора В: ln eij  u 0  u ia , i = 1,2; j = 1,2.
Рассчитаем теоретические частоты по формулам:
f
f
360
440
= 220; e21  e 22  20 =
= 180.
e11  e12  10 =
2
2
2
2
Получили таблицу ожидаемых частот:
не
знакомы знакомы
мужчины
220
220
440
женщины
180
180
360
400
400
800
Составим таблицу натуральных логарифмов ожидаемых частот:
не
знакомы знакомы
мужчины
5,394
5,394
женщины
5,193
5,193
Найдём параметры логлинейной модели по формулам:
1
1
1
u 0  ln e11  e12  e 21  e 22  = ln e11  ln e12  ln e 21  ln e 22  = 5,394  5,394  5,193  5,193 =5,293
4
4
4
1
1
1 e e
u1a  ln 11 12 = ln e11  ln e12  ln e 21  ln e 22  = 5,394  5,394  5,193  5,193 =0,100
4
4 e21  e22 4
1
1
1 e e
u1b  ln 11 21 = ln e11  ln e12  ln e 21  ln e 22  = 5,394  5,394  5,193  5,193 =0
4
4 e12  e 22 4
1
1 e11  e22 1
ln
= ln e11  ln e12  ln e 21  ln e 22  = 5,394  5,394  5,193  5,193 =0.
4 e12  e21 4
4
f ij
Найдём значение статистики Y 2 по формуле Y 2  2 f ij ln
.
eij
i
j
Составим расчётную таблицу:
Индексы
e ij
f ij eij
ln  f ij eij  f ij  ln  f ij eij 
f ij
u11ab 
11
12
21
22
298
142
210
150
220
220
180
180
1,355
0,645
1,167
0,833
0,303
-0,438
0,154
-0,182
90,433
-62,168
32,372
-27,348
Σ = 33,289
Y 2 = 2  33,289 = 66,577.
b) Модель с отсутствием влияния фактора А: ln eij  u 0  uib , i = 1,2; j = 1,2.
Рассчитаем теоретические частоты по формулам:
f
f
508
292
= 254; e12  e22  02 =
= 146.
e11  e21  01 =
2
2
2
2
Получили таблицу ожидаемых частот:
не
знакомы знакомы
мужчины
254
146
400
женщины
254
146
400
508
292
800
Составим таблицу натуральных логарифмов ожидаемых частот:
не
знакомы знакомы
мужчины
5,537
4,984
женщины
5,537
4,984
Найдём параметры логлинейной модели по формулам:
1
1
1
u 0  ln e11  e12  e 21  e 22  = ln e11  ln e12  ln e 21  ln e 22  = 5,537  4,984  5,537  4,984 =5,260
4
4
4
1
1
1 e e
u1a  ln 11 12 = ln e11  ln e12  ln e 21  ln e 22  = 5,537  4,984  5,537  4,984 =0
4
4 e21  e22 4
1
1
1 e e
u1b  ln 11 21 = ln e11  ln e12  ln e 21  ln e 22  = 5,537  4,984  5,537  4,984 =0,277
4
4 e12  e 22 4
1
1
1 e e
u11ab  ln 11 22 = ln e11  ln e12  ln e 21  ln e 22  = 5,537  4,984  5,537  4,984 =0.
4 e12  e21 4
4
f ij
Найдём значение статистики Y 2 по формуле Y 2  2 f ij ln
.
eij
i
j
Составим расчётную таблицу:
Индексы
e ij
f ij eij
ln  f ij eij  f ij  ln  f ij eij 
f ij
11
12
21
22
298
142
210
150
Y 2 = 2  7,770 = 15,540.
254
146
254
146
1,173
0,973
0,827
1,027
0,160
-0,028
-0,190
0,027
47,608
-3,945
-39,948
4,054
Σ = 7,770
IV. Равновероятная модель: ln eij  u 0 .
Рассчитаем теоретические частоты по формулам:
f
800
= 200.
e11  e21  e12  e22  00 =
4
4
Получили таблицу ожидаемых частот:
не
знакомы знакомы
мужчины
200
200
400
женщины
200
200
400
400
400
800
Составим таблицу натуральных логарифмов ожидаемых частот:
не
знакомы знакомы
мужчины
5,298
5,298
женщины
5,298
5,298
Найдём параметры логлинейной равновероятной модели по формулам:
1
1
1
u 0  ln e11  e12  e 21  e 22  = ln e11  ln e12  ln e 21  ln e 22  = 5,298  5,298  5,298  5,298 =5,298
4
4
4
1
1
1 e e
u1a  ln 11 12 = ln e11  ln e12  ln e 21  ln e 22  = 5,298  5,298  5,298  5,298 =0
4
4 e21  e22 4
1
1
1 e e
u1b  ln 11 21 = ln e11  ln e12  ln e 21  ln e 22  = 5,298  5,298  5,298  5,298 =0
4
4 e12  e 22 4
1
1
1 e e
u11ab  ln 11 22 = ln e11  ln e12  ln e 21  ln e 22  = 5,298  5,298  5,298  5,298 =0.
4 e12  e21 4
4
f ij
Найдём значение статистики Y 2 по формуле Y 2  2 f ij ln
.
eij
i
j
Составим расчётную таблицу:
Индексы
e ij
f ij eij
ln  f ij eij  f ij  ln  f ij eij 
f ij
11
12
21
22
298
142
210
150
200
200
200
200
1,49
0,71
1,05
0,75
0,399
-0,342
0,049
-0,288
118,835
-48,634
10,246
-43,152
Σ = 37,295
Y 2 = 2  37,295 = 74,591.
Результаты построения логлинейных моделей.
название
насыщенная
независимости
нет эффекта В
нет эффекта А
равновероятная
теоретические частоты
параметры логлинейной модели
e11
e12
e21
e 22
u0
298
279,4
220
254
200
142
160,6
220
146
200
210
228,6
180
254
200
150
131,4
180
146
200
5,253
5,255
5,293
5,260
5,298
u
a
1
0,074
0,100
0,100
0
0
ab
Различие между моделями 1 и 2 состоит в наличии члена u11 .
u
b
1
0,269
0,277
0
0,277
0
u
ab
11
0,101
0
0
0
0
d
0
1
2
3
4
Y2
0
7,527
66,577
15,540
74,591
Проверка значимости этого параметра осуществляется сравнением значений Y 2 . Находим
разность Y 2 2 - Y 2 1 = 7,527 – 0 = 7,527 при 1 – 0 = 1 степени свободы. Y 2 набл = 7,527 > χ2крит =
= χ2 (1;0,05) = 3,841. Следовательно, параметр u11ab значим.
Сравним независимую модель с моделью без эффекта А.
Модель
Включенные параметры Степеней свободы Y 2
Независимая
u 0 , u1a , u1b
1
7,527
b
Без эффекта А
u 0 , u1
2
15,540
Различие
u1a
1
8,013
Так как вклад в Y 2 параметра u1a равен 8,013 при числе степеней свободы d = 1, то делаем вывод,
что параметр значим (8,013 > 3,841).
Приращение Y 2 приведено в таблице.
№ Название модели
Включенные
Сравнение Различие Разность
Y2
параметры
моделей
Y2
1
насыщенная
0
(1) с (2)
7,527
u 0 u1a u1b u11ab
u11ab
2
независимости
u 0 u1a u1b
7,527
(2) с (3)
u1b
59,05
(2) с (4)
u1a
8,013
3
нет эффекта В
u 0 u1a
66,577
(3) с (5)
u1a
8,014
4
нет эффекта А
u 0 u1b
15,540
(4) с (5)
u1b
59,051
5
равновероятная
74,591
u0
Из таблицы видно, что все параметры значимы, то есть адекватной является насыщенная модель.
Наиболее значим параметр u1b - вклад, вносимый эффектом категории В в теоретические частоты.
Скачать