4.10. Логлинейный анализ Одним из основных методов анализа

реклама
4.10. Логлинейный анализ
Одним из основных методов анализа взаимосвязи качественных (категориальных) переменных (факторов) является кросстабуляция (сопряжение),
заключающееся в построении и анализе многомерных (многовходовых) таблиц частот. Например, в медицине можно табулировать частоты различных
симптомов заболевания по возрасту и полу пациентов; табулировать число
выживших больных в зависимости от применяемых методов лечения и т.д.
Логлинейный анализ является более «глубоким» методы исследования
многомерных таблиц, а именно, этот метод посредством моделирования частот в таблице сопряженности позволяет проверить статистическую значимость различных факторов, присутствующие в таблице сопряженности и их
взаимодействия. Логлинейный анализ имеет сходство с дисперсионным анализом и регрессионным анализом. Для проведения логлинейного анализа все
переменные должны быть измерены в категориальной шкале.
При анализе категориальных переменных также уместно ввести понятие зависимых и независимых переменных. Зависимые переменные, это те
переменные, поведение которых мы пытаемся объяснить, то есть, предполагаем, что эти переменные зависят от независимых переменных. Например,
выживаемость можем рассматривать как переменную, зависимую от методов
лечения, или различные симптомы заболеваний можем рассматривать как
переменную, зависимую от возраста, или пола больных. В этом случае в терминологии логлинейного анализа зависимую переменную будем называть
переменной отклика, или просто откликом, а независимые – объясняющими
переменными. Переменные отклика – это те переменные, которые изменяются в ответ на изменение объясняющих переменных. Понятно, что такое разделение достаточно условно и зависит от содержательной постановки решаемой задачи. Таким образом, предикторами в логлинейной модели выступают категориальные переменные и их взаимодействия. Категориальные переменные в логлинейной модели, как и в дисперсионном анализе, называют
также факторами. Логлинейная модель представляет собой линейную множественную модель регрессии. Зависимая переменная в логлинейной модели
представляет собой натуральный логарифм соответствующей частоты многомерной таблицы сопряженности. Использование логарифма обуславливает
линейность модели, что нашло отражение в названии модели – логарифмическая линейная модель.
Рассмотрим применение логлинейного анализа на примере из хирургии. Исходные данные представляют таблицу, содержащую данные 412
больных, прошедших лечение по поводу рака прямой кишки. На Рис.
4.10.4.10.1 отображен фрагмент файла данных, состоящий из 25 первых
больных. В первом столбце указана стадия заболевания, во втором – применялось или нет лучевая терапия, в третьем – метод лечения, в четвертом –
выживаемость больных в течение первых пяти лет после проведения лече1
ния. Чтобы лучше понять структуру данных начнем анализ «от простого к
сложному» – с построения одномерных и двумерных таблиц частот.
1
2
3
4
Стадии I-IV Лучевое ПрО ТМЭ/СВПК Выжил
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
3 да
1 да
2 нет
1 да
2 нет
1 нет
1 да
2 да
3 да
2 нет
2 да
1 да
4 нет
3 да
1 да
2 да
2 да
3 да
3 да
4 нет
3 да
2 да
3 да
4 да
2 да
4 нет4.10.1
Рис.
4 нет
ТМЭ
СВ ПК
ТМЭ
СВ ПК
СВ ПК
ТМЭ
ТМЭ
ТМЭ
ТМЭ
ТМЭ
ТМЭ
СВ ПК
ТМЭ
ТМЭ
ТМЭ
ТМЭ
ТМЭ
ТМЭ
ТМЭ
СВ ПК
ТМЭ
СВ ПК
СВ ПК
ТМЭ
ТМЭ
ТМЭ
ТМЭ
да
нет
да
нет
да
да
да
да
да
да
да
да
да
да
да
да
да
нет
да
да
да
нет
нет
да
да
нет
нет
Из таблицы на рис. 4.10.2 следует, что больные по стадиям заболевания
распределены далеко неравномерно, преобладают больные со второй стадией
(39%), далее идут больные с третьей стадией (25%), с первой стадией (20%) и
самой тяжелой – четвертой стадией (15%).
Анализ → Описательные статистики → Таблицы частот
Таблица час тот: Стадии I-IV (Л оглинейный анализ)
Час тота Кумул. Процент
Кумул.
Группа
Час тота
Процент
1
82
82 19,90291
19,9029
2
162
244 39,32039
59,2233
3
105
349 25,48544
84,7087
4
63
412 15,29126
100,0000
Пропущ.
0
412 0,00000
100,0000
Рис. 4.10.2
2
Большинству больных (64%) было проведено комбинированное лечение с лучевой терапией (рис. 4.10.3).
Таблица час тот: Л учевое ПрО (Логлинейный анализ)
Час тота Кумул. Процент
Кумул.
Группа
Час тота
Процент
нет
150
150 36,40777
36,4078
да
262
412 63,59223
100,0000
Пропущ.
0
412 0,00000
100,0000
Рис. 4.10.3
Количество больных прооперированных по методу ТМЭ (70%) более,
чем в два раза превосходит больных, которым была сделан операция по методу СВПК (30%) (рис. 4.10.4).
Таблица час тот: ТМЭ/СВПК (Логлинейный анализ)
Час тота Кумул. Процент
Кумул.
Группа
Час тота
Процент
СВПК
124
124 30,09709
30,0971
ТМЭ
288
412 69,90291
100,0000
Пропущ.
0
412 0,00000
100,0000
Рис. 4.10.4
Количество выживших больных (72%) более, чем в 2,5 раза превосходит умерших больных (28%) (рис. 4.10.5).
Таблица час тот: Выжил (Логлинейный анализ)
Час тота Кумул. Процент
Кумул.
Группа
Час тота
Процент
да
295
295 71,60194
71,6019
нет
117
412 28,39806
100,0000
Пропущ.
0
412 0,00000
100,0000
Рис. 4.10.5
Естественно, представляет интерес вопрос, влияют ли стадия заболевания, лучевая терапия, метод хирургического лечения на выживаемость больных. Поэтому, в контексте такой постановки задачи, переменные Стадия IIV, Лучевое ПрО, ТМЭ/СВПК следует считать независимыми (объясняющими) предикторами, а переменную Выжил – откликом. Исследуем сначала
влияние предикторов на отклик «в статике», без учета их взаимодействия
друг с другом, применив таблицы сопряженности.
Для понимания принципов логлинейного анализа нам потребуются некоторые понятия, которые рассмотрим на примере анализа структуры взаимосвязи стадии заболевания с выживаемостью больных. На рис. 4.10.6 приведена итоговая таблица частот в соответствии, с которой можно утверждать,
что количество выживших для первых трех стадий в несколько раз превышает количество умерших, но совсем иная картина для стадии IV, где число
умерших превосходит количество выживших. Но, на вопрос, проявляется ли
в сделанном заключении влияние стадии на выживаемость, ответить пробле3
матично, так как количество больных по стадиям заболевания отличаются и
равны соответственно 82, 162, 105, 63 чел. Поэтому, целесообразно рассмотрение относительных частот, которые являются отношением частот к маргинальным частотам. Маргинальными частотами называются частоты, расположенные по краям таблицы – последний столбец Всего по стр. и последняя
строка Всего.
Анализ → Описательные статистики → Таблицы сопряженности флагов и
заголовков →Итоговые таблицы
Итоговая таблица час тот (Логлинейный анализ)
Табл.: Стадии I-IV(4) x Выжил(2)
Стадии I-IV Выжил Выжил
Вс его
да
нет
по с тр.
1
73
9
82
2
117
45
162
3
78
27
105
4
27
36
63
Вс его
295
117
412
Рис. 4.10.6
Для анализа взаимосвязи между категориальными переменными используется таблица частот в предположении, что между ними нет взаимосвязи. Такая таблица называется таблицей ожидаемых частот. Таблица ожидаемых частот обладает тем свойством, что частоты в каждой ячейке пропорциональны маргинальным частотам, т.е. частотам, расположенным на
краях таблицы. На рис. 4.10.7 представлена таблица ожидаемых частот для
переменных Стадия I-IV, Выжил. Легко убедиться в пропорциональности
частот и маргинальных частот, например:
58,71:115,99 ≈ 23,28:46,00 ≈ 82:162 ≈ 0,5, т.е., 1 к 2, или
58,71: 23,28 ≈ 115,99:46 ≈ 295:117 ≈ 2,5
Анализ → Описательные статистики → Таблицы сопряженности флагов и
заголовков →Подробные двухвходовые таблицы
2-входовая итоговая: Ожидаемые час тоты (Л оглинейный анализ)
Час тоты выделенных ячеек > 10
Выжил Выжил
Вс его
Стадии I-IV
да
нет
по с тр.
1
58,7136 23,2864
82,0000
2
115,9951 46,0049
162,0000
3
75,1820 29,8180
105,0000
4
45,1092 17,8908
63,0000
Вс его
295,0000 117,0000
412,0000
Рис. 4.10.7
Таким образом, при заданных маргинальных частотах в ячейках содержатся частоты, которые следовало бы ожидать при отсутствии связи между
4
стадией и выживаемостью больных. Если сравнить эту таблицу с предыдущей, то можно увидеть, что предыдущая таблица показывает зависимость
между двумя переменными: наблюдается больше выживших больных с первой стадией, чем ожидается; наблюдается меньше выживших больных с четвертой стадией, чем ожидается.
Здесь проявляется общий принцип, на котором основан частотный, в
том числе и логлинейный анализ: имея маргинальные суммы частоты для
двух (или более) факторов, мы можем вычислить частоты в ячейках, которые
следовало бы ожидать при отсутствии связи между факторами. Статистически значимые отклонения наблюдаемых частот от ожидаемых указывают на
зависимость между двумя (или более) категориальными переменными. Разница между ожидаемыми и наблюдаемыми частотами представлена в таблице на рис. 4.10.8. Очевидно, что, чем больше величины в ячейках таблицы,
тем более взаимосвязаны категориальные переменные, или другими словами,
больше влияние предиктора на отклик.
2-входовая итоговая: Наблюдаемые минус ожидаемые час тоты (Логлинейны
Час тоты выделенных ячеек > 10
Выжил Выжил
Вс его
Стадии I-IV
да
нет
по с тр.
1
14,2864 -14,2864
0,00
2
1,0049 -1,0049
0,00
3
2,8180 -2,8180
0,00
4
-18,1092 18,1092
0,00
Вс его
0,0000 0,0000
0,00
Рис. 4.10.8
Вычисление частот в ячейках таблицы на основании маргинальных
частот при предположении, что категориальные переменные не связаны, называется подгонкой модели. Значимые отклонения наблюдаемых частот от
ожидаемых указывают на несогласие с гипотезой о независимости двух переменных, т.е. на наличие связи. Значимость отклонений проверяется при
помощи критериев согласия Пирсона Хи-квадрат и максимального правдоподобия М-П Хи-квадрат (рис. 4.10.9).
Анализ → Описательные статистики → Таблицы сопряженности флагов и
заголовков →Подробные двухвходовые таблицы
5
Статис тики: Стадии I-IV(4) x Выжил(2) (Логлинейный анализ)
Статис т.
Хи-квадрат
с т.с в.
p
Пирс она Хи-квадрат
38,24398
с с =3 p=,00000
М-П Хи-квадрат
37,72503
с с =3 p=,00000
Фи
,3046723
Коэфф.с опряженнос ти
,2914456
Крамера V
,3046723
Тау b и c Кендалла
b=,2314599 c=,2500471
D(X|Y), D(Y|X) Соммера X|Y=,30743 Y|X=,17426
Гамма
,4158730
Корр. Спирмена
,2515419
t=5,2625 p=,00000
Коэф.неопределеннос тиX=,0345824Y=,0767301 X|Y=,04768
Рис. 4.10.9
Так как уровни значимости р критериев Пирсона Хи-квадрат, М-П Хиквадрат меньше, чем 0,05, а критерии принимают достаточно большие значения, то ожидаемые частоты значимо отклоняются от наблюдаемых, а следовательно между выживаемостью и стадией заболевания есть взаимосвязь,
т.е., стадия заболевания влияет на выживаемость. Наличие взаимосвязи между переменными также проверяется при помощи приведенных в таблице статистик. Чем ближе значения статистик по модулю к 1, тем влияние предиктора на отклик выше. Наиболее объективным показателем для нашего случая, является статистика гамма, которая является непараметрическим аналогом корреляции Пирсона и применяется в случае, если категориальные переменные принимают много повторяющихся значений. Так как гамма равна
0,4, то можем утверждать, что степень влияния стадии на выживаемость умеренная.
Для анализа структуры взаимосвязи воспользуемся двумерной таблицей частот на рис. 4.10.10. Легко видеть, что:
– для больных в стадии I, выжившие и умершие составляют соответственно 89% и 11%;
– для больных в стадии II, выжившие и умершие составляют 72% и
28%;
– для больных в стадии III, выжившие и умершие составляют 74% и
26%;
– для больных в стадии IV ситуация резко меняется – выжившие и
умершие составляют соответственно 43% и 57%.
В таблице на рис. 4.10.11 представлены критерии значимости отклонений ожидаемых частот от наблюдаемых и статистики для оценки взаимосвязи лучевой терапии и выживаемости больных. Так как таблица 2×2, то дополнительно к критериям Хи-квадрат использованы критерии Йется Хиквадрат; Точный Фишера, односторонний и двухсторонний; Макнемара Хиквадрат (А/D) и (B/C).
6
2-входовая итоговая: наблюдаемые час тоты (Логлинейный анализ)
Час тоты выделенных ячеек > 10
Выжил Выжил
Вс его
Стадии I-IV да
нет
по с тр.
1
73
9
82
с толбц.%
25%
8%
с трок.%
89%
11%
2
117
45
162
с толбц.%
40%
38%
с трок.%
72%
28%
3
78
27
105
с толбц.%
26%
23%
с трок.%
74%
26%
4
27
36
63
с толбц.%
9%
31%
с трок.%
43%
57%
Вс его
295
117
412
Рис. 4.10.10
Как видно из таблицы, только для последних двух критериев уровень
значимости р меньше, чем 0,05. Все статистики принимают малые, близкие к
0 значения. Наибольшее значение принимает статистика гамма, но и она
меньше, чем 0,25. Это означает, что влияние лучевой терапии на выживаемость больных очень слабое.
Статис тики: Лучевое ПрО(2) x Выжил(2)
Статис т.
Хи-квадрат
с т.с в.
p
Пирс она Хи-квадрат
2,825507
с с =1
p=,09278
М-П Хи-квадрат
2,790947
с с =1
p=,09480
Йетс а хи-квад.
2,456722
с с =1
p=,11702
Точный Фишера, однос тор.
p=,05914
двус тор.
p=,11176
хи-квад. Макнемара (A/D)
6,131737
с с =1
p=,01328
(B/C)
84,63673
с с =1
p=0,0000
Фи для 2 x 2 таблиц
-,082813
Тетрахор. корреляции
-,138960
Коэфф.с опряженнос ти
,0825307
Тау b и c Кендалла
b=-,082813 c=-,071873
D(X|Y), D(Y|X) Соммера
X|Y=-,0883 Y|X=-,0776
Гамма
-,185410
Корр. Спирмена
-,082813
t=-1,683
p=,09321
Коэф.неопределеннос ти X=,0051654Y=,0056766
X|Y=,00541
Рис. 4.10.11
О слабом влиянии лучевой терапии на выживаемость также говорит поведение относительных частот в таблице на рис. 4.10.12. Для тех больных, которым не проводилась лучевая терапия, количество выживших больных (67%),
значительно преобладает над количеством умерших (33%) и эти величины соотносятся как 2 к 1. Для тех больных, которым проводилась лучевая терапия,
число выживших больных (74%),также значительно преобладает над числом
умерших (26%) и эти величины соотносятся как 3 к 1.
7
2-входовая итоговая: наблюдаемые час тоты (Логлинейный анализ)
Выжил Выжил
Вс его
Лучевое ПрО
да
нет
по с тр.
нет
100
50
150
с толбц.%
34%
43%
с трок.%
67%
33%
да
195
67
262
с толбц.%
66%
57%
с трок.%
74%
26%
Вс его
295
117
412
Рис. 4.10.12
В таблице на рис. 4.10.13 представлены критерии значимости отклонений ожидаемых частот от наблюдаемых и статистики для оценки взаимосвязи метода хирургического лечения и выживаемости больных. Как видно из
таблицы, только для критерия Макнемара Хи-квадрат (А/D) уровень значимости р больше, чем 0,05. Все статистики принимают значения, большие, чем
0,25, а статистика гамма по модулю близка к 0,75. Это означает, что взаимосвязь метода хирургического лечения и выживаемости больных умеренная,
близкая к сильной.
Статис тики: ТМЭ/СВПК(2) x Выжил(2) (Л оглинейный анализ
Статис т.
Хи-квадрат
с т.с в.
p
Пирс она Хи-квадрат
60,98981
с с =1 p=,00000
М-П Хи-квадрат
58,20442
с с =1 p=,00000
Йетс а хи-квад.
59,14378
с с =1 p=,00000
Точный Фишера, однос тор.
p=,00000
двус тор.
p=,00000
хи-квад. Макнемара (A/D)
,3428572
с с =1 p=,55818
(B/C)
94,13681
с с =1 p=0,0000
Фи для 2 x 2 таблиц
-,384751
Тетрахор. корреляции
-,590232
Коэфф.с опряженнос ти
,3590895
Тау b и c Кендалла
b=-,384751 c=-,318315
D(X|Y), D(Y|X) Соммера
X|Y=-,3913 Y|X=-,3782
Гамма
-,711097
Корр. Спирмена
-,384751
t=-8,440 p=,00000
Коэф.неопределеннос ти X=,1154785Y=,1183837 X|Y=,11691
Рис. 4.10.13
О сильном влиянии метода хирургического лечения на выживаемость
также говорит поведение относительных частот в таблице на рис. 4.10.14. Для
тех больных, которым был применен метод СВПК, число умерших больных
(55%), преобладает над числом выживших (45%) и эти величины соотносятся
как 9 к 11. Для тех больных, которым был применен метод ТМЭ, число выживших больных (83%), значительно преобладают над числом умерших (17%)
и эти величины соотносятся как 5 к 1.
8
2-входовая итоговая: наблюдаемые час тоты (Логлинейный анализ)
Выжил Выжил
Вс его
ТМЭ/СВПК
да
нет
по с тр.
СВПК
56
68
124
с толбц.%
19%
58%
с трок.%
45%
55%
ТМЭ
239
49
288
с толбц.%
81%
42%
с трок.%
83%
17%
Вс его
295
117
412
Рис. 4.10.14
Таким образом, при помощи кростабуляции нам удалось выявить влияние таких факторов как стадия заболевания, лучевая терапия, метод хирургического лечения на выживаемость больных. Но установлен не только факт
взаимодействия перечисленных факторов с выживаемостью больных, а посредством таблиц относительных и маргинальных частот исследована структура такого взаимодействия. Показано, что наибольшее влияние на выживаемость имеет метод хирургического лечение, далее стадия заболевания и незначительное влияние – проведение лучевой терапии в комбинации с хирургическим лечением. Этого результата было бы вполне достаточно при отсутствии взаимосвязи факторов друг с другом. В этом случае наблюдаемые частоты должны соответствовать, т.е. быть пропорциональны маргинальным
частотам. Если возникают какие-либо значимые отклонения от этого соответствия, то гипотезу о независимости табулированных переменных следует
отклонить.
При наличии взаимосвязи между объясняющими факторами, открытым
остается вопрос о степени их влияния на выживаемость с учетом их взаимодействия друг с другом. В этом случае вычисление ожидаемых частот значительно усложняется, так как таблица содержит более двух факторов (входов).
Тем не менее, в рамках логлинейного анализа частоты вычисляются при помощи итеративной пропорциональной подгонки.
При помощи модуля Таблицы сопряженности, флагов и заголовков
можно построить многомерную (с четырьмя входами) таблицу частот, компактно представляющую исходные данные (рис. 4.10.15). Но, в логлинейном
анализе статистики Хи-квадрат вычисляются по двухмерным таблицам частот для двух факторов при фиксированных уровнях остальных. Модуль Логлинейный анализ, как и модуль Таблицы сопряженности, флагов и заголовков
вычисляет два критерия Хи-квадрат: критерий Хи-квадрат Пирсона и критерий максимума отношения правдоподобия (М-П) Хи-квадрат. Оба критерия
оценивают, являются ли ожидаемые частоты в ячейках для соответствующей
модели значимо отличающимися от наблюдаемых частот или нет. Если отличие значимо, то гипотеза об отсутствии связей отвергается. Если отличие незначимо, то говорят, что модель согласуется с данными. Чем больше значение критериев Хи-квадрат и меньше уровень значимости, тем более вероятно, что ожидаемые частоты в ячейках значимо отличаются от наблюдаемых
частот.
9
Анализ → Описательные статистики → Таблицы сопряженности
флагов и заголовков
Итоговая таблица час тот (Л оглинейный анализ)
Час тоты выделенных ячеек > 10
(Маргинальные с уммы не отмечены)
Стадии I-IV
Лучевое ПрО ТМЭ/СВПК Выжил Выжил Вс его
да
нет
по с тр.
1
нет
СВ ПК
3
3
6
1
нет
ТМЭ
17
0
17
Вс его
20
3
23
1
да
СВ ПК
12
5
17
1
да
ТМЭ
41
1
42
Вс его
53
6
59
2
нет
СВ ПК
9
12
21
2
нет
ТМЭ
34
4
38
Вс его
43
16
59
2
да
СВ ПК
16
21
37
2
да
ТМЭ
58
8
66
Вс его
74
29
103
3
нет
СВ ПК
4
3
7
3
нет
ТМЭ
18
5
23
Вс его
22
8
30
3
да
СВ ПК
8
10
18
3
да
ТМЭ
48
9
57
Вс его
56
19
75
4
нет
СВ ПК
3
10
13
4
нет
ТМЭ
12
13
25
Вс его
15
23
38
4
да
СВ ПК
1
4
5
4
да
ТМЭ
11
9
20
Вс его
12
13
25
Суммы по с тл
295
117
412
Рис. 4.10.15
Если уровень значимости р меньше, чем 0,05, то такое отличие считают
статистически значимым. После выбора логлинейной модели и подгонки
ожидаемых частот, следует исследовать остаточные частоты, которые представляют разность наблюдаемых и ожидаемых частот. Если модель согласуется с таблицей, все остаточные частоты будут состоять из положительных и
отрицательных значений примерно одинакового размаха, случайным образом
распределенных по всем ячейкам таблицы со средним значением, близким к
0. Модуль Логлинейный анализ позволяет получать различные графики остаточных частот и относящиеся к ним статистики. Например, на рис. 4.10.8 остаточные частоты имеют значительно отличные от нуля значения, большой
размах, что говорит о плохом согласовании модели с данными, а значит о наличии взаимосвязи между категориальными переменными.
Критерии Хи-квадрат для моделей, связанных иерархически друг с
другом или иерархически вкладывающихся друг в друга, могут сравниваться
непосредственно. Две модели иерархически связаны друг с другом, если одна
может быть получена из другой добавлением некоторых факторов. Напри10
мер, если мы сначала рассмотрим модель, учитывающую влияние стадии на
выживаемость, или метода хирургического лечения на выживаемость, а затем
рассмотрим модель, учитывающую взаимосвязь стадии, метода хирургического лечения и выживаемости, то вторая модель – это расширение первой.
Можно оценить разницу между критериями Хи-квадрат для двух моделей на
основании разности между критериями и их степенями свободы. Если критерий Хи-квадрат для разности значим, то можно заключить, что трехфакторная модель взаимодействия дает значимо лучшее согласие для наблюдаемой
таблицы, чем модель без этого взаимодействия. Поэтому трехфакторное
взаимодействие считается статистически значимым.
В модуле Логлинейный анализ строится большое многообразие двухвходовых таблиц частот категориальных переменных, обозначающих строки
и столбцы при фиксированных уровнях других переменных. На рис. 4.10.16 –
4.10.19 отображены, построенные программой двухмерные таблицы частот.
Столбцы соответствуют переменной Стадия I-IV , строки – переменной
ТМЭ/СВПК . В таблицах фиксированы уровни переменных Лучевое ПрО и
Выжил. Например, в таблице на рис. 4.10.16 представлены частоты больных
в соответствии с методом хирургического лечения и стадии заболевания, для
которых не проводилась лучевая терапия и эти больные выжили.
Анализ → Углубленные методы анализа → Логлинейный анализ таблиц частот → Задание модели логлинейного анализа →Просмотр/Сохранение
Набл.час т.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ)
Лучевое ПрО:нет Выжил:да
Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV Сумма
ТМЭ/СВПК
1
2
3
4
СВПК
3
9
4
3
19
ТМЭ
17
34
18
12
81
Сумма
20
43
22
15
100
Рис. 4.10.16
Набл.час т.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ)
Лучевое ПрО:да Выжил:да
Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV Сумма
ТМЭ/СВПК
1
2
3
4
СВПК
12
16
8
1
37
ТМЭ
41
58
48
11
158
Сумма
53
74
56
12
195
Рис. 4.10.17
Набл.час т.: ТМЭ/СВПК по Стадии I-IV перем. в: (Л оглинейный анализ)
Лучевое ПрО:нет Выжил:нет
Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV Сумма
ТМЭ/СВПК
1
2
3
4
СВПК
3
12
3
10
28
ТМЭ
0
4
5
13
22
Сумма
3
16
8
23
50
Рис. 4.10.18
11
Набл.час т.: ТМЭ/СВПК по Стадии I-IV перем. в: (Л оглинейный анализ)
Лучевое ПрО:да Выжил:нет
Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV Сумма
ТМЭ/СВПК
1
2
3
4
СВПК
5
21
10
4
40
ТМЭ
1
8
9
9
27
Сумма
6
29
19
13
67
Рис. 4.10.19
Для построения логлинейной модели следует просмотреть таблицу одновременных критериев для всех k-факторных взаимодействий, а также таблицу критериев для всех моделей с маргинальными и частными взаимодействиями. Эти критерии представлены в таблицах на рис. 4.10.20 – 4.10.21.
Анализ → Углубленные методы анализа → Логлинейный анализ таблиц частот → Задание модели логлинейного анализа →Просмотр/Сохранение
→Проверка всех частных и маргинальных связей
Результаты подгонк и К-фак торн. взаимодейс твий (Логлинейный анализ)
Это одновременная проверк а того, что вс е
К-фак торные взаимодейс твия равны нулю
Чис ло
МП
Вероятн. Пирс она Вероятн.
K-фак тор с т.с воб. хи-квад.
p
хи-квад.
p
1
6 219,9833 0,000000 304,9963 0,000000
2
12 122,5669 0,000000 132,0629 0,000000
3
10
5,8255 0,829706 5,9754 0,817326
4
3
1,0545 0,788077 1,0401 0,791549
Рис. 4.10.20
Таблица на рис. 4.10.20 показывает, что улучшение согласия при включении всех двухфакторных взаимодействий (12, 13, 14, 23, 24, 34) (k-фактор
= 2) статистически значимо, т.к. уровень значимости р меньше, чем 0,05. Это
означает, что произвольная двухфакторная модель имеет очень слабое согласие с данными. Увеличение согласия при добавлении в модель всех трехфакторных взаимодействий (123, 124, 234, 134) (k-фактор = 3) не значимо, т.к. р
больше, чем 0,05. Это означает, что получившаяся двухфакторная модель является приемлемой. Поэтому можно заключить, что наименее сложная модель, согласующаяся с данными, не нуждается в трехфакторных взаимодействиях, но может содержать одно или более двухфакторное взаимодействие.
Но это не значит, что мы не можем, исходя из содержательной постановки
задачи, построить модель, согласующуюся с исходными данными, содержащую некоторые двухфакторные и трехфакторные взаимодействия.
Критерии маргинальных и частных связей позволяют из всех двухфакторных и трехфакторных взаимодействий выявить значимые связи. Критерий
определяет значимость влияний, указанных цифрами в столбце Эффект
(рис. 4.10.21) путем сравнения модели, включающей взаимодействие некоторого порядка, с моделью без него.
12
Критерии маргинальных и час тных с вязей (Логлинейный анализ)
Чис ло Час т.с в. Час т.с в. Марг.с в.
Марг.с в.
Эффект с т.с воб. хи-квад.
p
хи-квад.
p
1
3 49,52896 0,000000 49,52896
0,000000
2
1 29,65239 0,000000 29,65239
0,000000
3
1 64,47719 0,000000 64,47719
0,000000
4
1 76,32510 0,000000 76,32510
0,000000
12
3 16,73184 0,000802 19,37857
0,000228
13
3 10,52010 0,014625 4,24773
0,235927
14
3 39,13522 0,000000 35,44788
0,000000
23
1 0,04309 0,835559 0,24181
0,622905
24
1 0,17693 0,674025 2,96043
0,085325
34
1 63,03190 0,000000 56,89653
0,000000
123
3 1,20237 0,752435 1,14354
0,766575
124
3 0,49600 0,919770 0,51442
0,915712
134
3 4,05798 0,255271 4,07602
0,253371
234
1 0,06436 0,799739 0,15116
0,697428
Рис. 4.10.21
Из таблицы на рис. 4.10.21 видно, что с учетом критериев частных и
маргинальных связей Хи-квадрат статистически значимы следующие двумерные взаимодействия:
– 12, взаимодействие между факторами стадия и лучевая терапия;
– 14, взаимодействие между факторами стадия и выжил;
– 34, взаимодействие между факторами метод хирургического лечения
и выжил.
Как уже было выше отмечено, значимость взаимодействия определяется путем сравнения модели, включающей взаимодействие некоторого порядка, с моделью без него. Например, для взаимодействия 14, значимость определяется так: если мы исключаем это взаимодействие из модели, содержащей
все двухфакторные взаимодействия, то разность в значениях статистики частные связи Хи-квадрат равна 39.14 с 3 степенями свободы. Эта величина
значима на уровне p = 0,000, меньшем 0,05. Таким образом, это взаимодействие должно быть включено в модель. Так, для модели, содержащей все двухфакторные взаимодействия 12, 13, 14, 23, 24, 34 критерий Хи-квадрат равен
6,87 (число степеней свободы сс = 13); для модели 12, 13, 23, 24, 34 согласие
модели значительно ухудшилось, так критерий Хи-квадрат уже равен 46,01
(сс = 16). Разность критериев составит 46,01 – 6,87 = 39,14 со степенями свободы сс = 16 – 13 = 3. Как определяется значимость Хи-квадрат при числе
заданном числе степеней свободы, будет показано ниже.
Далее с учетов всех значимых двухфакторных взаимодействий следует
задать модель логлинейного анализа. При задании переменных в стартовом
диалоге модуля, никак не учитывается, какие переменные являются независимыми, а какая – откликом, поэтому необходимо это учесть при задании
модели. Так как независимыми переменными являются факторы: стадия заболевания, лучевая терапия и метод хирургического лечения, а откликом –
выживаемость, то естественно в модели должны быть указаны все значимые
двумерные взаимодействия отклика Выжил с независимыми факторами
13
Стадия I-IV, ТМЭ/СВПК. Это взаимодействия 14, 34. Но так как нас интересуют взаимодействия между всеми объясняющими факторами, то необходимо в модель включить также и взаимодействие 123. Таким образом, целесообразно задать модель логлинейного анализа вида: 12, 34, 123. В таблице на
рис. 4.10.22 показаны значения критериев Хи-квадрат и соответствующие им
уровни значимости.
Анализ → Углубленные методы анализа → Логлинейный анализ таблиц частот → Задание модели логлинейного анализа →Результаты →
Критерий согласия
Таблица: Стадии I-IV (4) * Лучевое ПрО(2) * Т МЭ/СВ ПК(2) * В ыжил(2)
Модель: 41,43,321
Критерий
Хи-к вад. с с
p
МП хи-к вадрат
5,912874 11
0,879114
Хи-к вадрат Пирс она6,162156 11
0,862328
Рис. 4.10.22
Значение Хи-квадрат максимума правдоподобия равно 5,91 при числе
степеней свободы сс = 11 и уровне значимости р = 0,88; значение Хи-квадрат
Пирсона равно 6,16 при числе степеней свободы сс = 11 и уровне значимости
р = 0,86. Малые значения критериев Хи-квадрат и близкие к 1 уровни значимости р говорят о том, что, построена достаточно хорошо согласующаяся с
исходными данными логлинейная модель взаимодействия объясняющих
факторов и отклика.
Естественно одним из показателей качества (согласованности с исходными данными) построенной модели является расхождение между наблюдаемыми и подогнанными частотами. Если нажать на кнопку Наблюдаемые и
подогнанные частоты на вкладке Дополнительно, то появится график, иллюстрирующий степень расхождения в таблице между подогнанными и наблюдаемыми частотами. Из графика на рис. 4.10.23 видно, что расхождения
минимальные, так как точки на плоскости, обозначающие наблюдаемые (по
оси OY) и подогнанные (по оси ОХ) частоты расположены практически на
прямой линии.
Для правильной интерпретации результатов анализа следует сначала
проверить статистическую значимость взаимодействий 14, 34, включенных в
модель, статистическую значимость взаимодействия 12, не включенного в
модель и статистическую значимость трехфакторного взаимодействия 123.
Для этого, как было отмечено выше, надо сравнить значения статистики Хиквадрат для модели с включенным взаимодействием и для модели без этого
взаимодействия. Проверим статистическую значимость взаимодействия 14,
задав модель 34, 123.
14
Анализ → Углубленные методы анализа → Логлинейный анализ таблиц частот → Задание модели логлинейного анализа →Результаты →
Наблюдаемые и подогнанные частоты
Наблюдаемые и подогнанные частоты
70
60
Наблюдаемые частоты
50
40
30
20
10
0
-10
-10
0
10
20
30
40
50
60
Подогнанные частот
Рис. 4.10.23
Как показывает таблица на рис. 4.10.24, согласованность модели значительно ухудшилась, так как существенно возросли значения обоих критериев
Хи-квадрат: со значения 5,91 до 47,61 для первого критерия, и со значения
6,16 до 50,94 для второго критерия.
Таблица: Стадии I-IV(4) * Лучевое ПрО(2) * Т МЭ/СВПК(2) * Выжил(2) (Логлине
Модель: 43,321
Критерий
Хи-квад. с с
p
МП хи-квадрат
47,61701 14
0,000015
Хи-квадрат Пирс она50,94359 14
0,000004
Рис. 4.10.24
Для оценки статистической значимости ухудшения модели найдем разность между значениями критериев Хи-квадрат и числом степеней свободы
для обеих моделей. Значение разности статистик хи-квадрат равно 47,61 –
5,91 = 41,7 с числом степеней свободы 14 – 11 = 3. Для оценки уровня значимости р критерия воспользуемся вероятностным калькулятором.
Анализ → Вероятностный калькулятор
Так как уровень значимости р критерия, равный 0,000…, значительно
меньше, чем 0,05, то, справедливым будет вывод, что взаимодействие 14 статистически значимо в построенной логлинейной модели. Это значит, что
15
фактор стадия заболевания статистически значимо влияет на выживаемость
больных.
Проверим статистическую значимость взаимодействия 34, задав модель 14, 123. Как показывает таблица на рис. 4.10.25, модель ухудшилась еще
в большей степени, чем предыдущая, так как существенно возросли значения
обоих критериев Хи-квадрат: со значения 5,91 до 69,07 для первого критерия, и со значения 6,16 до 72,53 для второго критерия.
Таблица: Стадии I-IV(4) * Лучевое ПрО(2) * Т МЭ/СВПК(2) * Выжил(2) (Логлине
Модель: 41,321
Критерий
Хи-квад. с с
p
МП хи-квадрат
69,06561 12
0,000000
Хи-квадрат Пирс она72,53001 12
0,000000
Рис. 4.10.25
Для оценки статистической значимости ухудшения модели найдем разность между значениями критериев Хи-квадрат и числом степеней свободы для
обеих моделей. Значение разности статистик хи-квадрат равно 69,07 – 5,91 =
63,16 с числом степеней свободы 12 – 11 = 1. При помощи вероятностного
калькулятора оценим уровень значимости критерия. Так как уровень значимости р критерия, равный 0,000…, значительно меньше, чем 0,05, то, справедливым будет вывод, что взаимодействие 14 статистически значимо в построенной
логлинейной модели. Это значит, что фактор метод хирургического о лечения
статистически значимо влияет на выживаемость больных. Но это влияние еще
более сильное, чем в предыдущем случае для фактора стадия.
Можно аналогично оценить значимость связи 24 между лучевой терапией и выживаемостью, отсутствующей в настоящей модели, так как уровни
значимости обоих критериев Хи-квадрат были больше, чем 0,05 (рис.
4.10.21). Добавим ее в модель 14, 34, 123 и оценим значимость улучшения в
согласованности модели с данными по результатам анализа дополненной модели 14, 34, 24, 123. Как видно из таблицы на рис. 4.10.26 связь 24 не увеличивает значимо согласие модели с наблюдаемой таблицей частот. Статистики Хи-квадрат и уровни значимости р изменились незначительно по
сравнению с соответствующим значениями для модели 14, 34, 123 (рис.
4.10.22), а число степеней свободы уменьшилось с 11 до 10. Таки образом,
фактор лучевая терапия не имеет статистически значимого влияния на выживаемость больных.
Таблица: Стадии I-IV(4) * Лучевое ПрО(2) * Т МЭ/СВПК(2) * Выжил(2) (Логлине
Модель: 41,43,42,321
Критерий
Хи-квад. с с
p
МП хи-квадрат
5,755575 10
0,835364
Хи-квадрат Пирс она5,943235 10
0,820010
Рис. 4.10.26
16
Осталось проверить статистическую значимость взаимодействия 123.
Если исключить его из модели 14, 34, 123, то значение критерия Хи-квадрат
измениться с 5, 91 до 66,75, число степеней свободы (сс) возрастет с 11 до 22.
Разности значений критерия Хи-квадрат и числа степеней свободы составят
соответственно 66,75 – 5,91 = 60,81 и 22 – 11 = 11. При помощи вероятностного калькулятора легко вычислить уровень значимости разности критериев
Хи-квадрат для сс =11, который составит 0,00…. Следовательно, трехфакторное взаимодействие 123 статистически значимо в построенной логлинейной модели.
Таким образом, проведенный анализ позволил построить хорошо согласующуюся с исходными данными модель и выявил два значимых двухфакторных взаимодействия предикторов и отклика и одно значимое трехфакторное взаимодействие объясняющих факторов (предикторов):
– взаимодействие между предиктором Стадия I-IV (фактор 1) и откликом Выжил (фактор 4);
– взаимодействие между предиктором ТМЭ/СВП (фактор 3) и откликом Выжил (фактор 4);
– взаимодействие между объясняющими факторами Стадия I-IV,
ТМЭ/СВП и Лучевое ПрО.
Другими словами, статистически обоснованно влияние стадии заболевания и метода хирургического лечения на выживаемость больных и отсутствие влияния лучевой терапии на выживаемость. Причем метод хирургического лечения в большей степени влияет на выживаемость, чем стадия заболевания.
Для интерпретации результатов многомерного взаимодействия факторов следует исследовать подогнанные и маргинальные таблицы. Вернемся к
модели 11, 34, 123 и построим Маргинальную таблицу (рис. 4.10.27).
Анализ → Углубленные методы анализа → Логлинейный анализ таблиц частот → Задание модели логлинейного анализа →Результаты →
Маргинальные таблицы
Марг.Т абл.(час т+дельта): Стадии I-IV по Выжил (Л оглинейный анализ)
Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV
Сумма
Выжил
1
2
3
4
да
75,00000
119,0000
80,0000
29,00000
303,0000
нет
11,00000
47,0000
29,0000
38,00000
125,0000
Сумма
86,00000
166,0000
109,0000
67,00000
428,0000
Рис. 4.10.27
По таблице легко посчитать, что отношение выживших больных к
умершим больным на стадии 1 примерно 7 к 1, т.е. на 1 умершего больного
приходится примерно 7 выживших! На стадии 2 отношение изменилось, и
равно примерно 5 к 2, т.е. на 2 умерших приходится примерно 5 выживших
больных. На стадии 3 отношение примерно такое же. На стадии 4 ситуация
17
резко меняется, число умерших преобладает над числом выживших и отношение примерно равно 8 к 10, т.е. на 8 выживших приходится 10 умерших
больных. Эти соотношения справедливы с учетом взаимодействия значимых
объясняющих факторов!
Из таблицы на рис. 4.10.28 следует, что отношение выживших больных
к умершим больным, если применялась техника СВПК хирургического лечения, примерно 6 к 7, т.е. на 6 выживших больных приходится примерно 7
умерших больных! Отношение выживших больных к умершим больным, если применялась техника ТМЭ примерно 5 к 1, т.е. на 5 выживших больных
приходится примерно 1 умерший больной! Обратите внимание, что частоты
в маргинальных таблицах несколько отличаются от соответствующих двухвходовых таблиц на рис. 4.10.10 и рис. 4.10.14.
Марг.Т абл.(час т+дельта): Т МЭ/СВПК по Выжил (Л оглинейный анализ)
ТМЭ/СВПК ТМЭ/СВПК
Сумма
Выжил
СВПК
ТМЭ
да
60,0000 243,0000
303,0000
нет
72,0000
53,0000
125,0000
Сумма
132,0000 296,0000
428,0000
Рис. 4.10.28
В таблицах на рис. 4.10.29 – 4.10.30 приведены маргинальная таблица
частот для анализа характера взаимодействия между объясняющими факторами. В таблице на рис. 4.10.29 представлена таблица частот для исследования характера взаимодействий между факторами лучевая терапия и стадия
заболевания при предположении, что применен метод хирургического лечения СВПК.
Марг.Т абл.(час т+дельта): Стадии I-IV по Лучевое ПрО в перем.: (Л оглинейный
ТМЭ/СВПК:СВПК
Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV Сумма
Лучевое ПрО
1
2
3
4
нет
7,00000
22,00000
8,00000
14,00000
51,0000
да
18,00000
38,00000
19,00000
6,00000
81,0000
Сумма
25,00000
60,00000
27,00000
20,00000 132,0000
Рис. 4.10.29
В таблице на рис. 4.10.30 представлена таблица частот для исследования характера взаимодействий между теми же факторами при предположении, что применен метод хирургического лечения ТМЭ.
Марг.Т абл.(час т+дельта): Стадии I-IV по Л учевое ПрО в перем.: (Л оглинейный
ТМЭ/СВПК:ТМЭ
Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV Сумма
Лучевое ПрО
1
2
3
4
нет
18,00000
39,0000
24,00000
26,00000 107,0000
да
43,00000
67,0000
58,00000
21,00000 189,0000
Сумма
61,00000
106,0000
82,00000
47,00000 296,0000
Рис. 4.10.30
18
Анализ представленных таблиц показывает, что способ хирургического
лечения не оказывает влияние на характер взаимосвязи лучевой терапии и
стадии заболевания, так как отношения частот применения лучевой терапии
при определенных стадиях заболевания для двух уровней переменной
ТМЭ/СВПК примерно одинаковы и равны 0,38; 0,58; 0,42; 2,33 для СВПК и
0,41; 0,58; 0,41; 1,23 для ТМЭ. Сделанный вывод согласуется с результатами
анализа значимости взаимодействий по критериям маргинальных и частных
связей, представленных на рис. 4.10.20, 4.10.21. Уровни значимости обоих
критериев Хи-квадрат примерно равны 0,75 (значительно больше, чем 0,05),
а сами значения критериев малы и близки к 1, а это и означает, что взаимодействие объясняющих переменных статистически не значимо.
В таблицах на рис. 4.10.31 – рис. 4.10.34 отображены частоты вычисленные программой в соответствии с построенной логлинейной моделью.
Названия строк и столбцов в соответствии с категориальными переменными
задает пользователь. Если сравнить частоты в этих таблицах с частотами на
рис. 4.10.16 – рис. 4.10.19, то можно убедиться в минимальном расхождении
частот в соответствующих ячейках таблиц.
Анализ → Углубленные методы анализа → Логлинейный анализ таблиц частот → Задание модели логлинейного анализа →Результаты →
Подогнанная таблица
Подогн.час т.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ)
Лучевое ПрО:нет Выжил:да
Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV Сумма
ТМЭ/СВПК
1
2
3
4
СВПК
4,90873
10,26685
3,39102
2,11821 20,6848
ТМЭ
16,95769
33,47985
20,06532
14,37031 84,8732
Сумма
21,86642
43,74671
23,45634
16,48853 105,5580
Рис. 4.10.31
Подогн.час т.: ТМЭ/СВПК по Стадии I-IV перем. в:
Лучевое ПрО:да Выжил:да
Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV
ТМЭ/СВПК
1
2
3
4
СВПК
12,62245
17,73366
8,05368
0,90781
ТМЭ
40,51003
57,51667
48,49118
11,60679
Сумма
53,13248
75,25032
56,54486
12,51460
(Логлинейный анализ)
Сумма
39,3176
158,1247
197,4423
Рис. 4.10.32
Подогн.час т.: ТМЭ/СВПК по Стадии I-IV перем. в:
Лучевое ПрО:нет Выжил:нет
Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV
ТМЭ/СВПК
1
2
3
4
СВПК
2,091271
11,73315
4,608977
11,88179
ТМЭ
1,042312
5,52015
3,934684
11,62969
Сумма
3,133583
17,25329
8,543661
23,51147
Рис. 4.10.33
19
(Логлинейный анализ)
Сумма
30,31518
22,12683
52,44201
Подогн.час т.: ТМЭ/СВПК по Стадии I-IV перем. в:
Лучевое ПрО:да Выжил:нет
Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV
ТМЭ/СВПК
1
2
3
4
СВПК
5,377553
20,26634
10,94632
5,09219
ТМЭ
2,489967
9,48333
9,50882
9,39321
Сумма
7,867520
29,74967
20,45514
14,48540
(Логлинейный анализ)
Сумма
41,68241
30,87533
72,55774
Рис. 4.10.34
Дополнительным показателем согласованности построенной логлинейной модели с исходными данными является графическое изображение взаимосвязи подогнанных частот и остатков между наблюдаемыми и подогнанными частотами. Из графика на рис. 4.10.35 видно, что точки, обозначающие
остаточные частоты (по оси OY) и подогнанные частоты (по оси ОХ) рассеяны практически равномерно на плоскости. Прямая, изображающая линию
регрессии между остаточными и подогнанными частотами, почти параллельна оси ОХ и проходит вблизи 0. Отмеченные свойства графика характеризуют остаточные частоты как случайные величины со средним значением, равным 0, что свидетельствует о хорошей подгонке модели.
Подогнанные частоты и остатки
Лучевое ПрО:да
Выжил:нет
2,5
2,0
1,5
Остаточные частоты
1,0
0,5
0,0
-0,5
-1,0
-1,5
-2,0
-2,5
-10
0
10
20
30
40
50
60
Подогнанные частот
Рис. 4.10.35
Как итог проведенных исследований, справедливо заключение, что
главными факторами, связанными с выживанием пациентов являются метод
хирургического лечения и стадия заболевания, а лучевая терапия не является
фактором, существенно влияющим на выживаемость. Причем метод хирургического лечения в своем влиянии на выживаемость доминирует над стадией заболевания. Взаимодействие между собою перечисленных факторов в их
влиянии на выживаемость является статистически значимым.
20
Скачать