4.10. Логлинейный анализ Одним из основных методов анализа взаимосвязи качественных (категориальных) переменных (факторов) является кросстабуляция (сопряжение), заключающееся в построении и анализе многомерных (многовходовых) таблиц частот. Например, в медицине можно табулировать частоты различных симптомов заболевания по возрасту и полу пациентов; табулировать число выживших больных в зависимости от применяемых методов лечения и т.д. Логлинейный анализ является более «глубоким» методы исследования многомерных таблиц, а именно, этот метод посредством моделирования частот в таблице сопряженности позволяет проверить статистическую значимость различных факторов, присутствующие в таблице сопряженности и их взаимодействия. Логлинейный анализ имеет сходство с дисперсионным анализом и регрессионным анализом. Для проведения логлинейного анализа все переменные должны быть измерены в категориальной шкале. При анализе категориальных переменных также уместно ввести понятие зависимых и независимых переменных. Зависимые переменные, это те переменные, поведение которых мы пытаемся объяснить, то есть, предполагаем, что эти переменные зависят от независимых переменных. Например, выживаемость можем рассматривать как переменную, зависимую от методов лечения, или различные симптомы заболеваний можем рассматривать как переменную, зависимую от возраста, или пола больных. В этом случае в терминологии логлинейного анализа зависимую переменную будем называть переменной отклика, или просто откликом, а независимые – объясняющими переменными. Переменные отклика – это те переменные, которые изменяются в ответ на изменение объясняющих переменных. Понятно, что такое разделение достаточно условно и зависит от содержательной постановки решаемой задачи. Таким образом, предикторами в логлинейной модели выступают категориальные переменные и их взаимодействия. Категориальные переменные в логлинейной модели, как и в дисперсионном анализе, называют также факторами. Логлинейная модель представляет собой линейную множественную модель регрессии. Зависимая переменная в логлинейной модели представляет собой натуральный логарифм соответствующей частоты многомерной таблицы сопряженности. Использование логарифма обуславливает линейность модели, что нашло отражение в названии модели – логарифмическая линейная модель. Рассмотрим применение логлинейного анализа на примере из хирургии. Исходные данные представляют таблицу, содержащую данные 412 больных, прошедших лечение по поводу рака прямой кишки. На Рис. 4.10.4.10.1 отображен фрагмент файла данных, состоящий из 25 первых больных. В первом столбце указана стадия заболевания, во втором – применялось или нет лучевая терапия, в третьем – метод лечения, в четвертом – выживаемость больных в течение первых пяти лет после проведения лече1 ния. Чтобы лучше понять структуру данных начнем анализ «от простого к сложному» – с построения одномерных и двумерных таблиц частот. 1 2 3 4 Стадии I-IV Лучевое ПрО ТМЭ/СВПК Выжил 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 3 да 1 да 2 нет 1 да 2 нет 1 нет 1 да 2 да 3 да 2 нет 2 да 1 да 4 нет 3 да 1 да 2 да 2 да 3 да 3 да 4 нет 3 да 2 да 3 да 4 да 2 да 4 нет4.10.1 Рис. 4 нет ТМЭ СВ ПК ТМЭ СВ ПК СВ ПК ТМЭ ТМЭ ТМЭ ТМЭ ТМЭ ТМЭ СВ ПК ТМЭ ТМЭ ТМЭ ТМЭ ТМЭ ТМЭ ТМЭ СВ ПК ТМЭ СВ ПК СВ ПК ТМЭ ТМЭ ТМЭ ТМЭ да нет да нет да да да да да да да да да да да да да нет да да да нет нет да да нет нет Из таблицы на рис. 4.10.2 следует, что больные по стадиям заболевания распределены далеко неравномерно, преобладают больные со второй стадией (39%), далее идут больные с третьей стадией (25%), с первой стадией (20%) и самой тяжелой – четвертой стадией (15%). Анализ → Описательные статистики → Таблицы частот Таблица час тот: Стадии I-IV (Л оглинейный анализ) Час тота Кумул. Процент Кумул. Группа Час тота Процент 1 82 82 19,90291 19,9029 2 162 244 39,32039 59,2233 3 105 349 25,48544 84,7087 4 63 412 15,29126 100,0000 Пропущ. 0 412 0,00000 100,0000 Рис. 4.10.2 2 Большинству больных (64%) было проведено комбинированное лечение с лучевой терапией (рис. 4.10.3). Таблица час тот: Л учевое ПрО (Логлинейный анализ) Час тота Кумул. Процент Кумул. Группа Час тота Процент нет 150 150 36,40777 36,4078 да 262 412 63,59223 100,0000 Пропущ. 0 412 0,00000 100,0000 Рис. 4.10.3 Количество больных прооперированных по методу ТМЭ (70%) более, чем в два раза превосходит больных, которым была сделан операция по методу СВПК (30%) (рис. 4.10.4). Таблица час тот: ТМЭ/СВПК (Логлинейный анализ) Час тота Кумул. Процент Кумул. Группа Час тота Процент СВПК 124 124 30,09709 30,0971 ТМЭ 288 412 69,90291 100,0000 Пропущ. 0 412 0,00000 100,0000 Рис. 4.10.4 Количество выживших больных (72%) более, чем в 2,5 раза превосходит умерших больных (28%) (рис. 4.10.5). Таблица час тот: Выжил (Логлинейный анализ) Час тота Кумул. Процент Кумул. Группа Час тота Процент да 295 295 71,60194 71,6019 нет 117 412 28,39806 100,0000 Пропущ. 0 412 0,00000 100,0000 Рис. 4.10.5 Естественно, представляет интерес вопрос, влияют ли стадия заболевания, лучевая терапия, метод хирургического лечения на выживаемость больных. Поэтому, в контексте такой постановки задачи, переменные Стадия IIV, Лучевое ПрО, ТМЭ/СВПК следует считать независимыми (объясняющими) предикторами, а переменную Выжил – откликом. Исследуем сначала влияние предикторов на отклик «в статике», без учета их взаимодействия друг с другом, применив таблицы сопряженности. Для понимания принципов логлинейного анализа нам потребуются некоторые понятия, которые рассмотрим на примере анализа структуры взаимосвязи стадии заболевания с выживаемостью больных. На рис. 4.10.6 приведена итоговая таблица частот в соответствии, с которой можно утверждать, что количество выживших для первых трех стадий в несколько раз превышает количество умерших, но совсем иная картина для стадии IV, где число умерших превосходит количество выживших. Но, на вопрос, проявляется ли в сделанном заключении влияние стадии на выживаемость, ответить пробле3 матично, так как количество больных по стадиям заболевания отличаются и равны соответственно 82, 162, 105, 63 чел. Поэтому, целесообразно рассмотрение относительных частот, которые являются отношением частот к маргинальным частотам. Маргинальными частотами называются частоты, расположенные по краям таблицы – последний столбец Всего по стр. и последняя строка Всего. Анализ → Описательные статистики → Таблицы сопряженности флагов и заголовков →Итоговые таблицы Итоговая таблица час тот (Логлинейный анализ) Табл.: Стадии I-IV(4) x Выжил(2) Стадии I-IV Выжил Выжил Вс его да нет по с тр. 1 73 9 82 2 117 45 162 3 78 27 105 4 27 36 63 Вс его 295 117 412 Рис. 4.10.6 Для анализа взаимосвязи между категориальными переменными используется таблица частот в предположении, что между ними нет взаимосвязи. Такая таблица называется таблицей ожидаемых частот. Таблица ожидаемых частот обладает тем свойством, что частоты в каждой ячейке пропорциональны маргинальным частотам, т.е. частотам, расположенным на краях таблицы. На рис. 4.10.7 представлена таблица ожидаемых частот для переменных Стадия I-IV, Выжил. Легко убедиться в пропорциональности частот и маргинальных частот, например: 58,71:115,99 ≈ 23,28:46,00 ≈ 82:162 ≈ 0,5, т.е., 1 к 2, или 58,71: 23,28 ≈ 115,99:46 ≈ 295:117 ≈ 2,5 Анализ → Описательные статистики → Таблицы сопряженности флагов и заголовков →Подробные двухвходовые таблицы 2-входовая итоговая: Ожидаемые час тоты (Л оглинейный анализ) Час тоты выделенных ячеек > 10 Выжил Выжил Вс его Стадии I-IV да нет по с тр. 1 58,7136 23,2864 82,0000 2 115,9951 46,0049 162,0000 3 75,1820 29,8180 105,0000 4 45,1092 17,8908 63,0000 Вс его 295,0000 117,0000 412,0000 Рис. 4.10.7 Таким образом, при заданных маргинальных частотах в ячейках содержатся частоты, которые следовало бы ожидать при отсутствии связи между 4 стадией и выживаемостью больных. Если сравнить эту таблицу с предыдущей, то можно увидеть, что предыдущая таблица показывает зависимость между двумя переменными: наблюдается больше выживших больных с первой стадией, чем ожидается; наблюдается меньше выживших больных с четвертой стадией, чем ожидается. Здесь проявляется общий принцип, на котором основан частотный, в том числе и логлинейный анализ: имея маргинальные суммы частоты для двух (или более) факторов, мы можем вычислить частоты в ячейках, которые следовало бы ожидать при отсутствии связи между факторами. Статистически значимые отклонения наблюдаемых частот от ожидаемых указывают на зависимость между двумя (или более) категориальными переменными. Разница между ожидаемыми и наблюдаемыми частотами представлена в таблице на рис. 4.10.8. Очевидно, что, чем больше величины в ячейках таблицы, тем более взаимосвязаны категориальные переменные, или другими словами, больше влияние предиктора на отклик. 2-входовая итоговая: Наблюдаемые минус ожидаемые час тоты (Логлинейны Час тоты выделенных ячеек > 10 Выжил Выжил Вс его Стадии I-IV да нет по с тр. 1 14,2864 -14,2864 0,00 2 1,0049 -1,0049 0,00 3 2,8180 -2,8180 0,00 4 -18,1092 18,1092 0,00 Вс его 0,0000 0,0000 0,00 Рис. 4.10.8 Вычисление частот в ячейках таблицы на основании маргинальных частот при предположении, что категориальные переменные не связаны, называется подгонкой модели. Значимые отклонения наблюдаемых частот от ожидаемых указывают на несогласие с гипотезой о независимости двух переменных, т.е. на наличие связи. Значимость отклонений проверяется при помощи критериев согласия Пирсона Хи-квадрат и максимального правдоподобия М-П Хи-квадрат (рис. 4.10.9). Анализ → Описательные статистики → Таблицы сопряженности флагов и заголовков →Подробные двухвходовые таблицы 5 Статис тики: Стадии I-IV(4) x Выжил(2) (Логлинейный анализ) Статис т. Хи-квадрат с т.с в. p Пирс она Хи-квадрат 38,24398 с с =3 p=,00000 М-П Хи-квадрат 37,72503 с с =3 p=,00000 Фи ,3046723 Коэфф.с опряженнос ти ,2914456 Крамера V ,3046723 Тау b и c Кендалла b=,2314599 c=,2500471 D(X|Y), D(Y|X) Соммера X|Y=,30743 Y|X=,17426 Гамма ,4158730 Корр. Спирмена ,2515419 t=5,2625 p=,00000 Коэф.неопределеннос тиX=,0345824Y=,0767301 X|Y=,04768 Рис. 4.10.9 Так как уровни значимости р критериев Пирсона Хи-квадрат, М-П Хиквадрат меньше, чем 0,05, а критерии принимают достаточно большие значения, то ожидаемые частоты значимо отклоняются от наблюдаемых, а следовательно между выживаемостью и стадией заболевания есть взаимосвязь, т.е., стадия заболевания влияет на выживаемость. Наличие взаимосвязи между переменными также проверяется при помощи приведенных в таблице статистик. Чем ближе значения статистик по модулю к 1, тем влияние предиктора на отклик выше. Наиболее объективным показателем для нашего случая, является статистика гамма, которая является непараметрическим аналогом корреляции Пирсона и применяется в случае, если категориальные переменные принимают много повторяющихся значений. Так как гамма равна 0,4, то можем утверждать, что степень влияния стадии на выживаемость умеренная. Для анализа структуры взаимосвязи воспользуемся двумерной таблицей частот на рис. 4.10.10. Легко видеть, что: – для больных в стадии I, выжившие и умершие составляют соответственно 89% и 11%; – для больных в стадии II, выжившие и умершие составляют 72% и 28%; – для больных в стадии III, выжившие и умершие составляют 74% и 26%; – для больных в стадии IV ситуация резко меняется – выжившие и умершие составляют соответственно 43% и 57%. В таблице на рис. 4.10.11 представлены критерии значимости отклонений ожидаемых частот от наблюдаемых и статистики для оценки взаимосвязи лучевой терапии и выживаемости больных. Так как таблица 2×2, то дополнительно к критериям Хи-квадрат использованы критерии Йется Хиквадрат; Точный Фишера, односторонний и двухсторонний; Макнемара Хиквадрат (А/D) и (B/C). 6 2-входовая итоговая: наблюдаемые час тоты (Логлинейный анализ) Час тоты выделенных ячеек > 10 Выжил Выжил Вс его Стадии I-IV да нет по с тр. 1 73 9 82 с толбц.% 25% 8% с трок.% 89% 11% 2 117 45 162 с толбц.% 40% 38% с трок.% 72% 28% 3 78 27 105 с толбц.% 26% 23% с трок.% 74% 26% 4 27 36 63 с толбц.% 9% 31% с трок.% 43% 57% Вс его 295 117 412 Рис. 4.10.10 Как видно из таблицы, только для последних двух критериев уровень значимости р меньше, чем 0,05. Все статистики принимают малые, близкие к 0 значения. Наибольшее значение принимает статистика гамма, но и она меньше, чем 0,25. Это означает, что влияние лучевой терапии на выживаемость больных очень слабое. Статис тики: Лучевое ПрО(2) x Выжил(2) Статис т. Хи-квадрат с т.с в. p Пирс она Хи-квадрат 2,825507 с с =1 p=,09278 М-П Хи-квадрат 2,790947 с с =1 p=,09480 Йетс а хи-квад. 2,456722 с с =1 p=,11702 Точный Фишера, однос тор. p=,05914 двус тор. p=,11176 хи-квад. Макнемара (A/D) 6,131737 с с =1 p=,01328 (B/C) 84,63673 с с =1 p=0,0000 Фи для 2 x 2 таблиц -,082813 Тетрахор. корреляции -,138960 Коэфф.с опряженнос ти ,0825307 Тау b и c Кендалла b=-,082813 c=-,071873 D(X|Y), D(Y|X) Соммера X|Y=-,0883 Y|X=-,0776 Гамма -,185410 Корр. Спирмена -,082813 t=-1,683 p=,09321 Коэф.неопределеннос ти X=,0051654Y=,0056766 X|Y=,00541 Рис. 4.10.11 О слабом влиянии лучевой терапии на выживаемость также говорит поведение относительных частот в таблице на рис. 4.10.12. Для тех больных, которым не проводилась лучевая терапия, количество выживших больных (67%), значительно преобладает над количеством умерших (33%) и эти величины соотносятся как 2 к 1. Для тех больных, которым проводилась лучевая терапия, число выживших больных (74%),также значительно преобладает над числом умерших (26%) и эти величины соотносятся как 3 к 1. 7 2-входовая итоговая: наблюдаемые час тоты (Логлинейный анализ) Выжил Выжил Вс его Лучевое ПрО да нет по с тр. нет 100 50 150 с толбц.% 34% 43% с трок.% 67% 33% да 195 67 262 с толбц.% 66% 57% с трок.% 74% 26% Вс его 295 117 412 Рис. 4.10.12 В таблице на рис. 4.10.13 представлены критерии значимости отклонений ожидаемых частот от наблюдаемых и статистики для оценки взаимосвязи метода хирургического лечения и выживаемости больных. Как видно из таблицы, только для критерия Макнемара Хи-квадрат (А/D) уровень значимости р больше, чем 0,05. Все статистики принимают значения, большие, чем 0,25, а статистика гамма по модулю близка к 0,75. Это означает, что взаимосвязь метода хирургического лечения и выживаемости больных умеренная, близкая к сильной. Статис тики: ТМЭ/СВПК(2) x Выжил(2) (Л оглинейный анализ Статис т. Хи-квадрат с т.с в. p Пирс она Хи-квадрат 60,98981 с с =1 p=,00000 М-П Хи-квадрат 58,20442 с с =1 p=,00000 Йетс а хи-квад. 59,14378 с с =1 p=,00000 Точный Фишера, однос тор. p=,00000 двус тор. p=,00000 хи-квад. Макнемара (A/D) ,3428572 с с =1 p=,55818 (B/C) 94,13681 с с =1 p=0,0000 Фи для 2 x 2 таблиц -,384751 Тетрахор. корреляции -,590232 Коэфф.с опряженнос ти ,3590895 Тау b и c Кендалла b=-,384751 c=-,318315 D(X|Y), D(Y|X) Соммера X|Y=-,3913 Y|X=-,3782 Гамма -,711097 Корр. Спирмена -,384751 t=-8,440 p=,00000 Коэф.неопределеннос ти X=,1154785Y=,1183837 X|Y=,11691 Рис. 4.10.13 О сильном влиянии метода хирургического лечения на выживаемость также говорит поведение относительных частот в таблице на рис. 4.10.14. Для тех больных, которым был применен метод СВПК, число умерших больных (55%), преобладает над числом выживших (45%) и эти величины соотносятся как 9 к 11. Для тех больных, которым был применен метод ТМЭ, число выживших больных (83%), значительно преобладают над числом умерших (17%) и эти величины соотносятся как 5 к 1. 8 2-входовая итоговая: наблюдаемые час тоты (Логлинейный анализ) Выжил Выжил Вс его ТМЭ/СВПК да нет по с тр. СВПК 56 68 124 с толбц.% 19% 58% с трок.% 45% 55% ТМЭ 239 49 288 с толбц.% 81% 42% с трок.% 83% 17% Вс его 295 117 412 Рис. 4.10.14 Таким образом, при помощи кростабуляции нам удалось выявить влияние таких факторов как стадия заболевания, лучевая терапия, метод хирургического лечения на выживаемость больных. Но установлен не только факт взаимодействия перечисленных факторов с выживаемостью больных, а посредством таблиц относительных и маргинальных частот исследована структура такого взаимодействия. Показано, что наибольшее влияние на выживаемость имеет метод хирургического лечение, далее стадия заболевания и незначительное влияние – проведение лучевой терапии в комбинации с хирургическим лечением. Этого результата было бы вполне достаточно при отсутствии взаимосвязи факторов друг с другом. В этом случае наблюдаемые частоты должны соответствовать, т.е. быть пропорциональны маргинальным частотам. Если возникают какие-либо значимые отклонения от этого соответствия, то гипотезу о независимости табулированных переменных следует отклонить. При наличии взаимосвязи между объясняющими факторами, открытым остается вопрос о степени их влияния на выживаемость с учетом их взаимодействия друг с другом. В этом случае вычисление ожидаемых частот значительно усложняется, так как таблица содержит более двух факторов (входов). Тем не менее, в рамках логлинейного анализа частоты вычисляются при помощи итеративной пропорциональной подгонки. При помощи модуля Таблицы сопряженности, флагов и заголовков можно построить многомерную (с четырьмя входами) таблицу частот, компактно представляющую исходные данные (рис. 4.10.15). Но, в логлинейном анализе статистики Хи-квадрат вычисляются по двухмерным таблицам частот для двух факторов при фиксированных уровнях остальных. Модуль Логлинейный анализ, как и модуль Таблицы сопряженности, флагов и заголовков вычисляет два критерия Хи-квадрат: критерий Хи-квадрат Пирсона и критерий максимума отношения правдоподобия (М-П) Хи-квадрат. Оба критерия оценивают, являются ли ожидаемые частоты в ячейках для соответствующей модели значимо отличающимися от наблюдаемых частот или нет. Если отличие значимо, то гипотеза об отсутствии связей отвергается. Если отличие незначимо, то говорят, что модель согласуется с данными. Чем больше значение критериев Хи-квадрат и меньше уровень значимости, тем более вероятно, что ожидаемые частоты в ячейках значимо отличаются от наблюдаемых частот. 9 Анализ → Описательные статистики → Таблицы сопряженности флагов и заголовков Итоговая таблица час тот (Л оглинейный анализ) Час тоты выделенных ячеек > 10 (Маргинальные с уммы не отмечены) Стадии I-IV Лучевое ПрО ТМЭ/СВПК Выжил Выжил Вс его да нет по с тр. 1 нет СВ ПК 3 3 6 1 нет ТМЭ 17 0 17 Вс его 20 3 23 1 да СВ ПК 12 5 17 1 да ТМЭ 41 1 42 Вс его 53 6 59 2 нет СВ ПК 9 12 21 2 нет ТМЭ 34 4 38 Вс его 43 16 59 2 да СВ ПК 16 21 37 2 да ТМЭ 58 8 66 Вс его 74 29 103 3 нет СВ ПК 4 3 7 3 нет ТМЭ 18 5 23 Вс его 22 8 30 3 да СВ ПК 8 10 18 3 да ТМЭ 48 9 57 Вс его 56 19 75 4 нет СВ ПК 3 10 13 4 нет ТМЭ 12 13 25 Вс его 15 23 38 4 да СВ ПК 1 4 5 4 да ТМЭ 11 9 20 Вс его 12 13 25 Суммы по с тл 295 117 412 Рис. 4.10.15 Если уровень значимости р меньше, чем 0,05, то такое отличие считают статистически значимым. После выбора логлинейной модели и подгонки ожидаемых частот, следует исследовать остаточные частоты, которые представляют разность наблюдаемых и ожидаемых частот. Если модель согласуется с таблицей, все остаточные частоты будут состоять из положительных и отрицательных значений примерно одинакового размаха, случайным образом распределенных по всем ячейкам таблицы со средним значением, близким к 0. Модуль Логлинейный анализ позволяет получать различные графики остаточных частот и относящиеся к ним статистики. Например, на рис. 4.10.8 остаточные частоты имеют значительно отличные от нуля значения, большой размах, что говорит о плохом согласовании модели с данными, а значит о наличии взаимосвязи между категориальными переменными. Критерии Хи-квадрат для моделей, связанных иерархически друг с другом или иерархически вкладывающихся друг в друга, могут сравниваться непосредственно. Две модели иерархически связаны друг с другом, если одна может быть получена из другой добавлением некоторых факторов. Напри10 мер, если мы сначала рассмотрим модель, учитывающую влияние стадии на выживаемость, или метода хирургического лечения на выживаемость, а затем рассмотрим модель, учитывающую взаимосвязь стадии, метода хирургического лечения и выживаемости, то вторая модель – это расширение первой. Можно оценить разницу между критериями Хи-квадрат для двух моделей на основании разности между критериями и их степенями свободы. Если критерий Хи-квадрат для разности значим, то можно заключить, что трехфакторная модель взаимодействия дает значимо лучшее согласие для наблюдаемой таблицы, чем модель без этого взаимодействия. Поэтому трехфакторное взаимодействие считается статистически значимым. В модуле Логлинейный анализ строится большое многообразие двухвходовых таблиц частот категориальных переменных, обозначающих строки и столбцы при фиксированных уровнях других переменных. На рис. 4.10.16 – 4.10.19 отображены, построенные программой двухмерные таблицы частот. Столбцы соответствуют переменной Стадия I-IV , строки – переменной ТМЭ/СВПК . В таблицах фиксированы уровни переменных Лучевое ПрО и Выжил. Например, в таблице на рис. 4.10.16 представлены частоты больных в соответствии с методом хирургического лечения и стадии заболевания, для которых не проводилась лучевая терапия и эти больные выжили. Анализ → Углубленные методы анализа → Логлинейный анализ таблиц частот → Задание модели логлинейного анализа →Просмотр/Сохранение Набл.час т.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ) Лучевое ПрО:нет Выжил:да Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV Сумма ТМЭ/СВПК 1 2 3 4 СВПК 3 9 4 3 19 ТМЭ 17 34 18 12 81 Сумма 20 43 22 15 100 Рис. 4.10.16 Набл.час т.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ) Лучевое ПрО:да Выжил:да Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV Сумма ТМЭ/СВПК 1 2 3 4 СВПК 12 16 8 1 37 ТМЭ 41 58 48 11 158 Сумма 53 74 56 12 195 Рис. 4.10.17 Набл.час т.: ТМЭ/СВПК по Стадии I-IV перем. в: (Л оглинейный анализ) Лучевое ПрО:нет Выжил:нет Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV Сумма ТМЭ/СВПК 1 2 3 4 СВПК 3 12 3 10 28 ТМЭ 0 4 5 13 22 Сумма 3 16 8 23 50 Рис. 4.10.18 11 Набл.час т.: ТМЭ/СВПК по Стадии I-IV перем. в: (Л оглинейный анализ) Лучевое ПрО:да Выжил:нет Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV Сумма ТМЭ/СВПК 1 2 3 4 СВПК 5 21 10 4 40 ТМЭ 1 8 9 9 27 Сумма 6 29 19 13 67 Рис. 4.10.19 Для построения логлинейной модели следует просмотреть таблицу одновременных критериев для всех k-факторных взаимодействий, а также таблицу критериев для всех моделей с маргинальными и частными взаимодействиями. Эти критерии представлены в таблицах на рис. 4.10.20 – 4.10.21. Анализ → Углубленные методы анализа → Логлинейный анализ таблиц частот → Задание модели логлинейного анализа →Просмотр/Сохранение →Проверка всех частных и маргинальных связей Результаты подгонк и К-фак торн. взаимодейс твий (Логлинейный анализ) Это одновременная проверк а того, что вс е К-фак торные взаимодейс твия равны нулю Чис ло МП Вероятн. Пирс она Вероятн. K-фак тор с т.с воб. хи-квад. p хи-квад. p 1 6 219,9833 0,000000 304,9963 0,000000 2 12 122,5669 0,000000 132,0629 0,000000 3 10 5,8255 0,829706 5,9754 0,817326 4 3 1,0545 0,788077 1,0401 0,791549 Рис. 4.10.20 Таблица на рис. 4.10.20 показывает, что улучшение согласия при включении всех двухфакторных взаимодействий (12, 13, 14, 23, 24, 34) (k-фактор = 2) статистически значимо, т.к. уровень значимости р меньше, чем 0,05. Это означает, что произвольная двухфакторная модель имеет очень слабое согласие с данными. Увеличение согласия при добавлении в модель всех трехфакторных взаимодействий (123, 124, 234, 134) (k-фактор = 3) не значимо, т.к. р больше, чем 0,05. Это означает, что получившаяся двухфакторная модель является приемлемой. Поэтому можно заключить, что наименее сложная модель, согласующаяся с данными, не нуждается в трехфакторных взаимодействиях, но может содержать одно или более двухфакторное взаимодействие. Но это не значит, что мы не можем, исходя из содержательной постановки задачи, построить модель, согласующуюся с исходными данными, содержащую некоторые двухфакторные и трехфакторные взаимодействия. Критерии маргинальных и частных связей позволяют из всех двухфакторных и трехфакторных взаимодействий выявить значимые связи. Критерий определяет значимость влияний, указанных цифрами в столбце Эффект (рис. 4.10.21) путем сравнения модели, включающей взаимодействие некоторого порядка, с моделью без него. 12 Критерии маргинальных и час тных с вязей (Логлинейный анализ) Чис ло Час т.с в. Час т.с в. Марг.с в. Марг.с в. Эффект с т.с воб. хи-квад. p хи-квад. p 1 3 49,52896 0,000000 49,52896 0,000000 2 1 29,65239 0,000000 29,65239 0,000000 3 1 64,47719 0,000000 64,47719 0,000000 4 1 76,32510 0,000000 76,32510 0,000000 12 3 16,73184 0,000802 19,37857 0,000228 13 3 10,52010 0,014625 4,24773 0,235927 14 3 39,13522 0,000000 35,44788 0,000000 23 1 0,04309 0,835559 0,24181 0,622905 24 1 0,17693 0,674025 2,96043 0,085325 34 1 63,03190 0,000000 56,89653 0,000000 123 3 1,20237 0,752435 1,14354 0,766575 124 3 0,49600 0,919770 0,51442 0,915712 134 3 4,05798 0,255271 4,07602 0,253371 234 1 0,06436 0,799739 0,15116 0,697428 Рис. 4.10.21 Из таблицы на рис. 4.10.21 видно, что с учетом критериев частных и маргинальных связей Хи-квадрат статистически значимы следующие двумерные взаимодействия: – 12, взаимодействие между факторами стадия и лучевая терапия; – 14, взаимодействие между факторами стадия и выжил; – 34, взаимодействие между факторами метод хирургического лечения и выжил. Как уже было выше отмечено, значимость взаимодействия определяется путем сравнения модели, включающей взаимодействие некоторого порядка, с моделью без него. Например, для взаимодействия 14, значимость определяется так: если мы исключаем это взаимодействие из модели, содержащей все двухфакторные взаимодействия, то разность в значениях статистики частные связи Хи-квадрат равна 39.14 с 3 степенями свободы. Эта величина значима на уровне p = 0,000, меньшем 0,05. Таким образом, это взаимодействие должно быть включено в модель. Так, для модели, содержащей все двухфакторные взаимодействия 12, 13, 14, 23, 24, 34 критерий Хи-квадрат равен 6,87 (число степеней свободы сс = 13); для модели 12, 13, 23, 24, 34 согласие модели значительно ухудшилось, так критерий Хи-квадрат уже равен 46,01 (сс = 16). Разность критериев составит 46,01 – 6,87 = 39,14 со степенями свободы сс = 16 – 13 = 3. Как определяется значимость Хи-квадрат при числе заданном числе степеней свободы, будет показано ниже. Далее с учетов всех значимых двухфакторных взаимодействий следует задать модель логлинейного анализа. При задании переменных в стартовом диалоге модуля, никак не учитывается, какие переменные являются независимыми, а какая – откликом, поэтому необходимо это учесть при задании модели. Так как независимыми переменными являются факторы: стадия заболевания, лучевая терапия и метод хирургического лечения, а откликом – выживаемость, то естественно в модели должны быть указаны все значимые двумерные взаимодействия отклика Выжил с независимыми факторами 13 Стадия I-IV, ТМЭ/СВПК. Это взаимодействия 14, 34. Но так как нас интересуют взаимодействия между всеми объясняющими факторами, то необходимо в модель включить также и взаимодействие 123. Таким образом, целесообразно задать модель логлинейного анализа вида: 12, 34, 123. В таблице на рис. 4.10.22 показаны значения критериев Хи-квадрат и соответствующие им уровни значимости. Анализ → Углубленные методы анализа → Логлинейный анализ таблиц частот → Задание модели логлинейного анализа →Результаты → Критерий согласия Таблица: Стадии I-IV (4) * Лучевое ПрО(2) * Т МЭ/СВ ПК(2) * В ыжил(2) Модель: 41,43,321 Критерий Хи-к вад. с с p МП хи-к вадрат 5,912874 11 0,879114 Хи-к вадрат Пирс она6,162156 11 0,862328 Рис. 4.10.22 Значение Хи-квадрат максимума правдоподобия равно 5,91 при числе степеней свободы сс = 11 и уровне значимости р = 0,88; значение Хи-квадрат Пирсона равно 6,16 при числе степеней свободы сс = 11 и уровне значимости р = 0,86. Малые значения критериев Хи-квадрат и близкие к 1 уровни значимости р говорят о том, что, построена достаточно хорошо согласующаяся с исходными данными логлинейная модель взаимодействия объясняющих факторов и отклика. Естественно одним из показателей качества (согласованности с исходными данными) построенной модели является расхождение между наблюдаемыми и подогнанными частотами. Если нажать на кнопку Наблюдаемые и подогнанные частоты на вкладке Дополнительно, то появится график, иллюстрирующий степень расхождения в таблице между подогнанными и наблюдаемыми частотами. Из графика на рис. 4.10.23 видно, что расхождения минимальные, так как точки на плоскости, обозначающие наблюдаемые (по оси OY) и подогнанные (по оси ОХ) частоты расположены практически на прямой линии. Для правильной интерпретации результатов анализа следует сначала проверить статистическую значимость взаимодействий 14, 34, включенных в модель, статистическую значимость взаимодействия 12, не включенного в модель и статистическую значимость трехфакторного взаимодействия 123. Для этого, как было отмечено выше, надо сравнить значения статистики Хиквадрат для модели с включенным взаимодействием и для модели без этого взаимодействия. Проверим статистическую значимость взаимодействия 14, задав модель 34, 123. 14 Анализ → Углубленные методы анализа → Логлинейный анализ таблиц частот → Задание модели логлинейного анализа →Результаты → Наблюдаемые и подогнанные частоты Наблюдаемые и подогнанные частоты 70 60 Наблюдаемые частоты 50 40 30 20 10 0 -10 -10 0 10 20 30 40 50 60 Подогнанные частот Рис. 4.10.23 Как показывает таблица на рис. 4.10.24, согласованность модели значительно ухудшилась, так как существенно возросли значения обоих критериев Хи-квадрат: со значения 5,91 до 47,61 для первого критерия, и со значения 6,16 до 50,94 для второго критерия. Таблица: Стадии I-IV(4) * Лучевое ПрО(2) * Т МЭ/СВПК(2) * Выжил(2) (Логлине Модель: 43,321 Критерий Хи-квад. с с p МП хи-квадрат 47,61701 14 0,000015 Хи-квадрат Пирс она50,94359 14 0,000004 Рис. 4.10.24 Для оценки статистической значимости ухудшения модели найдем разность между значениями критериев Хи-квадрат и числом степеней свободы для обеих моделей. Значение разности статистик хи-квадрат равно 47,61 – 5,91 = 41,7 с числом степеней свободы 14 – 11 = 3. Для оценки уровня значимости р критерия воспользуемся вероятностным калькулятором. Анализ → Вероятностный калькулятор Так как уровень значимости р критерия, равный 0,000…, значительно меньше, чем 0,05, то, справедливым будет вывод, что взаимодействие 14 статистически значимо в построенной логлинейной модели. Это значит, что 15 фактор стадия заболевания статистически значимо влияет на выживаемость больных. Проверим статистическую значимость взаимодействия 34, задав модель 14, 123. Как показывает таблица на рис. 4.10.25, модель ухудшилась еще в большей степени, чем предыдущая, так как существенно возросли значения обоих критериев Хи-квадрат: со значения 5,91 до 69,07 для первого критерия, и со значения 6,16 до 72,53 для второго критерия. Таблица: Стадии I-IV(4) * Лучевое ПрО(2) * Т МЭ/СВПК(2) * Выжил(2) (Логлине Модель: 41,321 Критерий Хи-квад. с с p МП хи-квадрат 69,06561 12 0,000000 Хи-квадрат Пирс она72,53001 12 0,000000 Рис. 4.10.25 Для оценки статистической значимости ухудшения модели найдем разность между значениями критериев Хи-квадрат и числом степеней свободы для обеих моделей. Значение разности статистик хи-квадрат равно 69,07 – 5,91 = 63,16 с числом степеней свободы 12 – 11 = 1. При помощи вероятностного калькулятора оценим уровень значимости критерия. Так как уровень значимости р критерия, равный 0,000…, значительно меньше, чем 0,05, то, справедливым будет вывод, что взаимодействие 14 статистически значимо в построенной логлинейной модели. Это значит, что фактор метод хирургического о лечения статистически значимо влияет на выживаемость больных. Но это влияние еще более сильное, чем в предыдущем случае для фактора стадия. Можно аналогично оценить значимость связи 24 между лучевой терапией и выживаемостью, отсутствующей в настоящей модели, так как уровни значимости обоих критериев Хи-квадрат были больше, чем 0,05 (рис. 4.10.21). Добавим ее в модель 14, 34, 123 и оценим значимость улучшения в согласованности модели с данными по результатам анализа дополненной модели 14, 34, 24, 123. Как видно из таблицы на рис. 4.10.26 связь 24 не увеличивает значимо согласие модели с наблюдаемой таблицей частот. Статистики Хи-квадрат и уровни значимости р изменились незначительно по сравнению с соответствующим значениями для модели 14, 34, 123 (рис. 4.10.22), а число степеней свободы уменьшилось с 11 до 10. Таки образом, фактор лучевая терапия не имеет статистически значимого влияния на выживаемость больных. Таблица: Стадии I-IV(4) * Лучевое ПрО(2) * Т МЭ/СВПК(2) * Выжил(2) (Логлине Модель: 41,43,42,321 Критерий Хи-квад. с с p МП хи-квадрат 5,755575 10 0,835364 Хи-квадрат Пирс она5,943235 10 0,820010 Рис. 4.10.26 16 Осталось проверить статистическую значимость взаимодействия 123. Если исключить его из модели 14, 34, 123, то значение критерия Хи-квадрат измениться с 5, 91 до 66,75, число степеней свободы (сс) возрастет с 11 до 22. Разности значений критерия Хи-квадрат и числа степеней свободы составят соответственно 66,75 – 5,91 = 60,81 и 22 – 11 = 11. При помощи вероятностного калькулятора легко вычислить уровень значимости разности критериев Хи-квадрат для сс =11, который составит 0,00…. Следовательно, трехфакторное взаимодействие 123 статистически значимо в построенной логлинейной модели. Таким образом, проведенный анализ позволил построить хорошо согласующуюся с исходными данными модель и выявил два значимых двухфакторных взаимодействия предикторов и отклика и одно значимое трехфакторное взаимодействие объясняющих факторов (предикторов): – взаимодействие между предиктором Стадия I-IV (фактор 1) и откликом Выжил (фактор 4); – взаимодействие между предиктором ТМЭ/СВП (фактор 3) и откликом Выжил (фактор 4); – взаимодействие между объясняющими факторами Стадия I-IV, ТМЭ/СВП и Лучевое ПрО. Другими словами, статистически обоснованно влияние стадии заболевания и метода хирургического лечения на выживаемость больных и отсутствие влияния лучевой терапии на выживаемость. Причем метод хирургического лечения в большей степени влияет на выживаемость, чем стадия заболевания. Для интерпретации результатов многомерного взаимодействия факторов следует исследовать подогнанные и маргинальные таблицы. Вернемся к модели 11, 34, 123 и построим Маргинальную таблицу (рис. 4.10.27). Анализ → Углубленные методы анализа → Логлинейный анализ таблиц частот → Задание модели логлинейного анализа →Результаты → Маргинальные таблицы Марг.Т абл.(час т+дельта): Стадии I-IV по Выжил (Л оглинейный анализ) Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV Сумма Выжил 1 2 3 4 да 75,00000 119,0000 80,0000 29,00000 303,0000 нет 11,00000 47,0000 29,0000 38,00000 125,0000 Сумма 86,00000 166,0000 109,0000 67,00000 428,0000 Рис. 4.10.27 По таблице легко посчитать, что отношение выживших больных к умершим больным на стадии 1 примерно 7 к 1, т.е. на 1 умершего больного приходится примерно 7 выживших! На стадии 2 отношение изменилось, и равно примерно 5 к 2, т.е. на 2 умерших приходится примерно 5 выживших больных. На стадии 3 отношение примерно такое же. На стадии 4 ситуация 17 резко меняется, число умерших преобладает над числом выживших и отношение примерно равно 8 к 10, т.е. на 8 выживших приходится 10 умерших больных. Эти соотношения справедливы с учетом взаимодействия значимых объясняющих факторов! Из таблицы на рис. 4.10.28 следует, что отношение выживших больных к умершим больным, если применялась техника СВПК хирургического лечения, примерно 6 к 7, т.е. на 6 выживших больных приходится примерно 7 умерших больных! Отношение выживших больных к умершим больным, если применялась техника ТМЭ примерно 5 к 1, т.е. на 5 выживших больных приходится примерно 1 умерший больной! Обратите внимание, что частоты в маргинальных таблицах несколько отличаются от соответствующих двухвходовых таблиц на рис. 4.10.10 и рис. 4.10.14. Марг.Т абл.(час т+дельта): Т МЭ/СВПК по Выжил (Л оглинейный анализ) ТМЭ/СВПК ТМЭ/СВПК Сумма Выжил СВПК ТМЭ да 60,0000 243,0000 303,0000 нет 72,0000 53,0000 125,0000 Сумма 132,0000 296,0000 428,0000 Рис. 4.10.28 В таблицах на рис. 4.10.29 – 4.10.30 приведены маргинальная таблица частот для анализа характера взаимодействия между объясняющими факторами. В таблице на рис. 4.10.29 представлена таблица частот для исследования характера взаимодействий между факторами лучевая терапия и стадия заболевания при предположении, что применен метод хирургического лечения СВПК. Марг.Т абл.(час т+дельта): Стадии I-IV по Лучевое ПрО в перем.: (Л оглинейный ТМЭ/СВПК:СВПК Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV Сумма Лучевое ПрО 1 2 3 4 нет 7,00000 22,00000 8,00000 14,00000 51,0000 да 18,00000 38,00000 19,00000 6,00000 81,0000 Сумма 25,00000 60,00000 27,00000 20,00000 132,0000 Рис. 4.10.29 В таблице на рис. 4.10.30 представлена таблица частот для исследования характера взаимодействий между теми же факторами при предположении, что применен метод хирургического лечения ТМЭ. Марг.Т абл.(час т+дельта): Стадии I-IV по Л учевое ПрО в перем.: (Л оглинейный ТМЭ/СВПК:ТМЭ Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV Сумма Лучевое ПрО 1 2 3 4 нет 18,00000 39,0000 24,00000 26,00000 107,0000 да 43,00000 67,0000 58,00000 21,00000 189,0000 Сумма 61,00000 106,0000 82,00000 47,00000 296,0000 Рис. 4.10.30 18 Анализ представленных таблиц показывает, что способ хирургического лечения не оказывает влияние на характер взаимосвязи лучевой терапии и стадии заболевания, так как отношения частот применения лучевой терапии при определенных стадиях заболевания для двух уровней переменной ТМЭ/СВПК примерно одинаковы и равны 0,38; 0,58; 0,42; 2,33 для СВПК и 0,41; 0,58; 0,41; 1,23 для ТМЭ. Сделанный вывод согласуется с результатами анализа значимости взаимодействий по критериям маргинальных и частных связей, представленных на рис. 4.10.20, 4.10.21. Уровни значимости обоих критериев Хи-квадрат примерно равны 0,75 (значительно больше, чем 0,05), а сами значения критериев малы и близки к 1, а это и означает, что взаимодействие объясняющих переменных статистически не значимо. В таблицах на рис. 4.10.31 – рис. 4.10.34 отображены частоты вычисленные программой в соответствии с построенной логлинейной моделью. Названия строк и столбцов в соответствии с категориальными переменными задает пользователь. Если сравнить частоты в этих таблицах с частотами на рис. 4.10.16 – рис. 4.10.19, то можно убедиться в минимальном расхождении частот в соответствующих ячейках таблиц. Анализ → Углубленные методы анализа → Логлинейный анализ таблиц частот → Задание модели логлинейного анализа →Результаты → Подогнанная таблица Подогн.час т.: ТМЭ/СВПК по Стадии I-IV перем. в: (Логлинейный анализ) Лучевое ПрО:нет Выжил:да Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV Сумма ТМЭ/СВПК 1 2 3 4 СВПК 4,90873 10,26685 3,39102 2,11821 20,6848 ТМЭ 16,95769 33,47985 20,06532 14,37031 84,8732 Сумма 21,86642 43,74671 23,45634 16,48853 105,5580 Рис. 4.10.31 Подогн.час т.: ТМЭ/СВПК по Стадии I-IV перем. в: Лучевое ПрО:да Выжил:да Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV ТМЭ/СВПК 1 2 3 4 СВПК 12,62245 17,73366 8,05368 0,90781 ТМЭ 40,51003 57,51667 48,49118 11,60679 Сумма 53,13248 75,25032 56,54486 12,51460 (Логлинейный анализ) Сумма 39,3176 158,1247 197,4423 Рис. 4.10.32 Подогн.час т.: ТМЭ/СВПК по Стадии I-IV перем. в: Лучевое ПрО:нет Выжил:нет Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV ТМЭ/СВПК 1 2 3 4 СВПК 2,091271 11,73315 4,608977 11,88179 ТМЭ 1,042312 5,52015 3,934684 11,62969 Сумма 3,133583 17,25329 8,543661 23,51147 Рис. 4.10.33 19 (Логлинейный анализ) Сумма 30,31518 22,12683 52,44201 Подогн.час т.: ТМЭ/СВПК по Стадии I-IV перем. в: Лучевое ПрО:да Выжил:нет Стадии I-IV Стадии I-IV Стадии I-IV Стадии I-IV ТМЭ/СВПК 1 2 3 4 СВПК 5,377553 20,26634 10,94632 5,09219 ТМЭ 2,489967 9,48333 9,50882 9,39321 Сумма 7,867520 29,74967 20,45514 14,48540 (Логлинейный анализ) Сумма 41,68241 30,87533 72,55774 Рис. 4.10.34 Дополнительным показателем согласованности построенной логлинейной модели с исходными данными является графическое изображение взаимосвязи подогнанных частот и остатков между наблюдаемыми и подогнанными частотами. Из графика на рис. 4.10.35 видно, что точки, обозначающие остаточные частоты (по оси OY) и подогнанные частоты (по оси ОХ) рассеяны практически равномерно на плоскости. Прямая, изображающая линию регрессии между остаточными и подогнанными частотами, почти параллельна оси ОХ и проходит вблизи 0. Отмеченные свойства графика характеризуют остаточные частоты как случайные величины со средним значением, равным 0, что свидетельствует о хорошей подгонке модели. Подогнанные частоты и остатки Лучевое ПрО:да Выжил:нет 2,5 2,0 1,5 Остаточные частоты 1,0 0,5 0,0 -0,5 -1,0 -1,5 -2,0 -2,5 -10 0 10 20 30 40 50 60 Подогнанные частот Рис. 4.10.35 Как итог проведенных исследований, справедливо заключение, что главными факторами, связанными с выживанием пациентов являются метод хирургического лечения и стадия заболевания, а лучевая терапия не является фактором, существенно влияющим на выживаемость. Причем метод хирургического лечения в своем влиянии на выживаемость доминирует над стадией заболевания. Взаимодействие между собою перечисленных факторов в их влиянии на выживаемость является статистически значимым. 20