4.8. Общие линейные модели В классическом регрессионном анализе предполагается, что отклик и предикторы – это непрерывные случайные величины, имеющие нормальное распределение. Однако в некоторых задачах в качестве предикторов целесообразно рассматривать качественные переменные, измеренные в номинальной или порядковой шкале. Если в качестве предикторов используются непрерывные и категориальные переменные, то для построения регрессионной модели следует использовать метод Общие линейные модели, который реализован в пакете STATISTICA с одноименным модулем. В §4.7 показано, что степень снижения тяжести депрессии dBDI за курс комбинированной терапии (гКПТ + ФТ), зависит от качественных предикторов Группа, Социальный статус, Нозологический диагноз, Длительность заболевания. Построим для больных основной группы общую линейную модель зависимости отклика Post BDI – показателя выраженности тяжести депрессии по шкале Бека в баллах после лечения, от качественных предикторов Социальный статус, Нозологический диагноз и количественных – Возраст, Длительность заболевания, Pre BDI – показателя выраженности тяжести депрессии по шкале депрессии Бека в баллах до лечения. Объем выборки (48 больных) недостаточен для проверки соответствия непрерывных переменных Возраст, Длительность заболевания нормальному распределению, поэтому гипотетически предположим, что такое соответствие присутствует. Одним из условий применимости метода Общие линейные модели, является отсутствие в таблице кростабуляции ячеек с нулевым элементом. На рис. 4.8.1 показано, что в последней ячейке первой строки количество больных с социальным статусом Работает, имеющих нозологический диагноз эндореактивная дистимия равно 0. Поэтому исключим двух больных с этим диагнозом из анализа. Фрагмент файла данных, состоящий из первых 25 больных, представлен на рис. 4.8.2. Итоговая таблица час тот Час тоты выделенных ячеек > 10 (Маргинальные с уммы не отмечены) Ус ловие включения: v1=1 Ус ловие ис ключения: v1=4 Социальный Нозолог. Нозолог. Нозолог. Нозолог. Вс его с татус (раб/не диагноз диагноз диагноз диагноз по с тр. раб) реакт. деп деп. невр моноп. тип эндор. дис т. Работает 6 18 2 0 26 Не работ 6 12 2 2 22 Вс его 12 30 4 2 48 Рис. 4.8.1 1 1 Возрас т 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 2 Соц с тат 24 Работает 41 Работает 53 Не работ 42 Работает 32 Работает 63 Не работ 19 Работает 19 Работает 49 Не работ 43 Не работ 19 Работает 45 Не работ 52 Не работ 47 Работает 31 Работает 45 Работает 44 Работает 29 Работает 46 Не работ 33 Работает 47 Не работ 26 Не работ 51 Работает 24 Работает 41 Работает 53 Не работ 42 Работает 3 Ноз. диаг. реак т. деп деп. невр реак т. деп деп. невр моноп. тип деп. невр деп. невр деп. невр деп. невр деп. невр деп. невр деп. невр реак т. деп деп. невр деп. невр деп. невр реак т. деп реак т. деп моноп. тип деп. невр деп. невр реак т. деп деп. невр реак т. деп деп. невр реак4.8.2 т. деп Рис. деп. невр 4 Длит. заб. 5 730 60 180 1095 1095 730 180 1095 365 365 730 120 2555 60 730 60 14 5110 180 365 90 5110 10 730 60 180 5 6 Pre B DI Post BDI 22 19 37 32 15 19 32 27 14 39 20 32 26 21 42 44 16 18 38 13 22 23 13 22 19 37 32 5 8 10 20 9 7 6 6 5 8 13 7 10 12 16 15 5 12 31 2 7 5 3 5 8 10 20 В таблице на рис. 4.8.3 приведены одномерные результаты для оценки степени и характера взаимосвязи отклика Post BDI и эффектов в регрессионной модели. Из таблицы видно, что статистически значимы все эффекты за исключением Длит. заб., так как уровни значимости р критерия Фишера меньше, чем 0,05. Но и для переменной Длит. заб. уровень значимости р равный 0,07, незначительно превосходит 0,05. Другими словами факторы Соц.стат., Нозолог. диагноз влияют на отклик, но они также взаимодействуют в своем влиянии на него. Наибольший вклад в общую линейную модель вносит эффект Ноз.диаг, так как статистика SS, равная 410,091, принимает наибольшее значение. Далее идут эффекты Соц.стат.*Ноз.диаг., Pre BDI, Возраст, Соц.стат., Длит.заб. Анализ →Углубленные методы анализа Анализ →Общие линейные модели → Результаты→Итоги→Одномерные результаты 2 Одномерные результаты для каждой Зав. Пер. Сигма-ограниченная параметризация Декомпозиция гипотезы Степени Post BDI Post BDI Post BDI Post BDI Эффект Свободы SS MS F p Св. член 1 10,021 10,0214 0,86409 0,358621 Возрас т 1 60,571 60,5705 5,22270 0,028121 Длит. заб. 1 38,699 38,6992 3,33684 0,075821 Pre B DI 1 173,965 173,9651 15,00016 0,000423 Соц. с тат. 1 50,216 50,2161 4,32989 0,044427 Ноз. диаг. 2 410,091 205,0453 17,68005 0,000004 Соц. с тат.*Ноз. диаг. 2 263,400 131,7002 11,35587 0,000143 Ошибка 37 429,109 11,5975 Вс его 45 1794,435 Рис. 4.8.3 Для того, чтобы определить, как закодированы категориальные переменные в общей линейной модели, воспользуемся таблицей Метки столбцов на рис. 4.8.4. Для кодирования категориальных предикторов в модуле использована сигма-ограниченная параметризация. Анализ →Углубленные методы анализа Анализ →Общие линейные модели → Результаты→Итоги→Члены плана Метки с толбцов Метки для с толбцов матрицы плана X Столбец Перемен. Уровень от Перемен. Метка Перемен. Уровень Св. член 1 Возрас т 2 Возрас т Длит. заб. 3 Длит. заб. Pre BDI 4 Pre BDI Соц. с тат. 5 Соц. с тат. Работает Не работ Ноз. диаг. 6 Ноз. диаг. реакт. деп моноп. тип Ноз. диаг. 7 Ноз. диаг. деп. невр моноп. тип Соц. с тат.*Ноз. диаг. 8 Соц. с тат. Работает Не работ Ноз. диаг. Соц. с тат.*Ноз. диаг. 9 Соц. с тат. Работает Не работ Ноз. диаг. Уровень от Перемен. Уровень реакт. деп моноп. тип деп. невр моноп. тип Рис. 4.8.4 При такой параметризации каждый эффект (фактор) представляется в виде совокупности одноименных двухуровневых эффектов. Например, так как переменная Соц.стат. имеет два уровня, то она и представляется с двумя уровнями: Работает, Не работает. Предиктор Ноз.диаг. состоит из 3 уровней, поэтому представляется в виде 2 одноименных двухуровневых переменных: Ноз.диаг. (реакт.деп., энд.деп.моноп.тип); Ноз.диаг. (деп.невр, энд.деп.моноп.тип). При этом уровню 1 присваивается числовое значение 1, а 3 уровню 2 – числовое значение 0. Например, если рассматривается предиктор Соц.стат., то альтернативным значениям предиктора Работает, Не работает будут присвоены соответственно значения 1 и 0, которые будут представлять количественные различия между группами наблюдений (больных) Работает, Не работает. Предиктор Ноз. диаг. в строке 6 таблицы имеет 2 значения реакт.деп., энд.деп моноп.тип, которые соответственно будут закодированы как 1 и 0. Этот же предиктор в строке 7 имеет 2 значения деп.невр, энд.деп моноп.тип, которые также будут закодированы как 1 и 0. Значения, обозначающие членство в одной из двух групп, выбираются с учетом облегчения последующей интерпретации регрессионного коэффициента, соответствующего этому предиктору. Поэтому, если регрессионный коэффициент для этой переменной является положительным, то группа, закодированная с помощью значения 1, будет иметь большее предсказанное значение отклика. Если получен отрицательный регрессионный коэффициент, то группа, закодированная значением 1, будет иметь меньшее предсказанное значение отклика. Значения сложных эффектов Соц.стат.*Ноз.диаг. в строке 8 и 9 также кодируются числами 1 и 0, которые являются результатами умножения соответствующих числовых значений предикторов Соц.стат., Ноз.диаг. Так, для Соц.стат.*Ноз.диаг. в строке 8 возможны следующие 4 комбинации Работает*реакт. деп., Работает*моноп. тип, Не работает*реакт. деп., Не работает* энд.деп моноп.тип, которые будут закодированы как 1·1 =1, 1·0 = 0, 0·1 = 0, 0·0 = 0. Для Соц.стат.*Ноз.диаг. в строке 9 возможны другие 4 комбинации Работает*деп.невр, Работает* энд.деп моноп. тип, Не работает*деп.невр., Не работает* энд.деп моноп.тип, которые будут закодированы как 1·1 =1, 1·0 = 0, 0·1 = 0, 0·0 = 0. Обратите внимание, что сумма кодов каждого простого и сложного эффекта равна 1. В третьем столбце (Post BDI Парам.) таблицы Оценки параметров на рис. 4.8.5 отображены коэффициенты регрессионного уравнения. В первом столбце (Уровень Эффект) приведены уровни эффектов Работает, реакт. деп., деп. невр, которые кодируются программой как 1. В четвертом столбце таблицы приведены стандартные ошибки параметров, которые определяются как стандартное отклонение параметра, деленное на объем выборки. Характеризуют точность вычисления параметров. Для всех эффектов, за исключением свободного члена, стандартные ошибки значительно меньше оцениваемых параметров. В столбцах 5 и 6 приведены значения t-критерия (критерия Стьюдента) и соответствующие им уровни значимости р для оценки значимости коэффициентов регрессионного уравнения. Так как р эффектов Св. член и Длит. заб. больше, чем 0,05, то соответствующие им параметры статистически не значимы и из общей линейной модели могут быть удалены. 4 Анализ →Углубленные методы анализа Анализ →Общие линейные модели → Результаты→Итоги→Коэффициенты Оценки параметров (Таблица пс их1) Сигма-ограниченная параметризация Уровень Столбец Post BDI Post BDI Post BDI Post BDI -95,00% Эффек т Эффек т Парам. Ст.Ош. t p Дов.Пр. Св. член 1 2,50478 2,694565 0,92957 0,358621 -2,95493 Возрас т 2 0,12713 0,055629 2,28532 0,028121 0,01442 Длит. заб. 3 -0,00137 0,000753 -1,82670 0,075821 -0,00290 Pre B DI 4 0,25056 0,064694 3,87300 0,000423 0,11948 Соц. с тат. Работает 5 -1,85635 0,892116 -2,08084 0,044427 -3,66395 Ноз. диаг. реак т. деп 6 -5,35170 1,256505 -4,25920 0,000135 -7,89763 Ноз. диаг. деп. невр 7 -4,30875 0,841715 -5,11901 0,000010 -6,01422 Соц. с тат.*Ноз. диаг. 1 8 3,28649 0,954883 3,44177 0,001449 1,35171 Соц. с тат.*Ноз. диаг. 2 9 4,34371 1,076842 4,03375 0,000264 2,16182 Рис. 4.8.5 В целом, построенная модель взаимосвязи отклика с предикторами достаточно адекватная, так коэффициент множественной корреляции R = 0,87 и близок к 1, а R2 = 0, 76 значительно больше, чем 0,5 и описывает более 76% изменчивости отклика (рис. 4.8.6). Анализ →Углубленные методы анализа Анализ →Общие линейные модели → Результаты→Итоги→Общая R модели SS модели и SS ос татков (Таблица пс их) Ус ловие вк лючения: v1=1 Ус ловие ис ключения: v5=4 Завис им. Множес тв Множес тв Ск оррек т SS сс MS SS сс MS Перемен. R R2 R2 Модель Модель Модель Ос таток Ос таток Ос таток Post BDI 0,872277 0,760867 0,7091621365,326 8 170,6657 429,1093 37 11,59755 Рис. 4.8.6 Категориальные переменные Социальный статус, Нозологические болезни делят всю совокупность больных на подгруппы. Значимость категориальных факторов в модели определяется различием средних в подгруппах. На рис. 4.8.7 отображены значения средних отклика Post BDI во всех 11 подгруппах, также приведены стандартные отклонения, стандартные ошибки и доверительные интервалы вычисленных оценок. К сожалению по данной таблице невозможно оценить статистическую значимость отличия средних в подгруппах больных. 5 Анализ →Углубленные методы анализа Анализ →Общие линейные модели → Результаты→Итоги→Статистики ячеек Эф ф ек т Вс его Соц. с тат. Соц. с тат. Ноз. диаг. Ноз. диаг. Ноз. диаг. Соц. с тат.*Ноз. Соц. с тат.*Ноз. Соц. с тат.*Ноз. Соц. с тат.*Ноз. Соц. с тат.*Ноз. Соц. с тат.*Ноз. Опис ательные статис тик и для завис имых переменных (Таблица пс их1) Уровень Уровень N Post BDI Post BDI Post BDI Post BDI Post BDI Фак тор Фак тор Среднее Ст.Отк л. Ст.Ош. -95,00% +95,00% 46 9,65217 6,31477 0,931062 7,77692 11,52743 Работает 26 9,46154 5,09298 0,998816 7,40444 11,51864 Не работ 20 9,90000 7,75887 1,734935 6,26874 13,53126 реак т. деп 12 7,83333 3,04014 0,877612 5,90172 9,76494 деп. невр 30 9,00000 5,01033 0,914758 7,12911 10,87089 моноп. тип 4 20,00000 12,70171 6,350853 -0,21125 40,21125 диаг. Работает реак т. деп 6 7,33333 3,61478 1,475730 3,53985 11,12682 диаг. Работает деп. невр 18 10,22222 5,66263 1,334694 7,40626 13,03818 диаг. Работаетмоноп. тип 2 9,00000 0,00000 0,000000 9,00000 9,00000 диаг. Не работ реак т. деп 6 8,33333 2,58199 1,054093 5,62370 11,04296 диаг. Не работ деп. невр 12 7,16667 3,24271 0,936089 5,10635 9,22698 диаг. Не работ моноп. тип 2 31,00000 0,00000 0,000000 31,00000 31,00000 Рис. 4.8.7 Статистическую значимость отличия средних отклика Post BDI в подгруппах можно оценить при помощи критерия НЗР (рис. 4.8.8 – 4.8.9). Из таблицы видно, что наиболее эффективно лечение комбинированным методом в подгруппе 5 – неработающих больных с диагнозом депрессивный невроз, так как отклик Post BDI принимает наименьшее значение, равное 7,1667. Но при этом отличие статистически значимо лишь с подгруппами 2 и 6, работающих с депрессивным неврозом (10,222) и неработающих больных с диагнозом монополярный тип (31). Среднее значения отклика в подгруппе 6 принимает достаточно большое значение, равное 31, что свидетельствует о низкой эффективности лечения для этих больных. Среднее значение отклика в этой подгруппе значительно и статистически значимо отличается от средних во всех остальных 5 подгруппах. Анализ →Углубленные методы анализа Анализ →Общие линейные модели → Результаты→Больше →Апостериорные → Фишера НЗР НЗР крит.; перем.Post BDI (Т аблица пс их1) Вероятнос ти для апос тер. критериев Ошибка: Межгр. MS = 11,598, с с = 37,000 Соц. с тат. Ноз. диаг. {1} {2} {3} {4} {5} {6} N ячейки 7,3333 10,222 9,0000 8,3333 7,1667 31,000 1 Работает реакт. деп 0,080098 0,552564 0,614051 0,922556 0,000000 2 Работает деп. невр 0,080098 0,632991 0,246869 0,021163 0,000000 3 Работаетмоноп. тип0,552564 0,632991 0,811842 0,485314 0,000000 4 Не работ реакт. деп 0,614051 0,246869 0,811842 0,497512 0,000000 5 Не работ деп. невр 0,922556 0,021163 0,485314 0,497512 0,000000 6 Не работ моноп. тип0,000000 0,000000 0,000000 0,000000 0,000000 6 Рис. 4.8.8 В группах больных по диагнозу наиболее эффективно лечение больных с диагнозом реактивная депрессия (7,8333) и наименее эффективно в группе монополярный тип (20,0). Причем среднее отклика в этой группе статистически значимо отличается от средних в группах 1 (7,8333) и 2 (9,0). В группах больных по социальному статусу отличие средних отклика не является статистически значимым. НЗР крит.; перем.Post BDI Вероятнос ти для апос тер. критериев Ошибка: Межгр. MS = 11,598, с с = 37,000 Ноз. диаг. {1} {2} {3} N ячейки 7,8333 9,0000 20,000 1 реакт. деп 0,322387 0,000000 N ячейки 2 деп. невр 0,322387 0,000001 1 2 3 моноп. тип0,000000 0,000001 НЗР крит.; перем.Post BDI Вероятности для апос тер. к рит Ошибк а: Межгр. MS = 11,598, Соц. с тат. {1} {2} 9,4615 9,9 Работает 0,67 Не работ 0,667612 Рис. 4.8.9 В соответствии с параметрами общей линейной модели (коэффициентами регрессии) из рис. 4.8.5 легко выписать уравнение регрессии: Post BDI = 2,504 + 0,127Возраст – 0,001Длит. заб. + 0 ,250Pre BDI – 1,856Соц стат/(Работает) – 5,351Ноз. диаг.(реакт. деп) – 4,308Ноз. диаг.(деп. невр) + 3,286 Соц стат*Ноз. диаг.(1) + 4,343Соц стат*Ноз. диаг.(2) Если на вкладке Отчет щелкнуть по кнопке Уравнение предсказания, то программа сама выпишет уравнение регрессии. Анализ →Углубленные методы анализа Анализ →Общие линейные модели → Результаты→Больше →Отчет → Печатать уравнение предсказания в окне отчета В программе предусмотрена возможность сравнения значений отклика, вычисленных программой по составленной модели Post BDI Предск., с исходными значениями Post BDI Наблюд. из таблицы исходных данных. На рис. 4.8.10 приведен фрагмент таблицы для первых 25 больных. Из таблицы видно, что уравнение достаточно «хорошо» предсказывает значение отклика Post BDI – тяжесть состояния больных по шкале Бека после лечения комбинированным методом. Существенные отличия у больных под номерами 4, 11, 18, 20, что в принципе можно объяснить также и высокими погрешностями бальной оценки состояния больных. 7 Анализ →Углубленные методы анализа Анализ →Общие линейные модели → Результаты→Больше →Отчет → Остатки 1→ Предсказанные и остатки Наблюдаемые, предс казанные значения и ос татки (Т аблица пс их1) Сигма-ограниченная параметризация (Анализируемая выборк а) Post BDI Post BDI Post BDI Номер набл. Наблюд. Предс к . Ос татк и 1 5,00000 7,13982 -2,13982 2 8,00000 9,65289 -1,65289 3 10,00000 11,64914 -1,64914 4 20,00000 13,79339 6,20661 5 9,00000 9,00000 -0,00000 6 7,00000 6,97327 0,02673 7 6,00000 10,11331 -4,11331 8 6,00000 9,61658 -3,61658 9 5,00000 3,94064 1,05936 10 8,00000 10,44541 -2,44541 11 13,00000 7,60834 5,39166 12 7,00000 8,44398 -1,44398 13 10,00000 8,68335 1,31665 14 12,00000 8,40800 3,59200 15 16,00000 15,06553 0,93447 16 15,00000 16,42544 -1,42544 17 5,00000 8,10345 -3,10345 18 12,00000 6,76085 5,23915 19 31,00000 29,99648 1,00352 20 2,00000 7,88855 -5,88855 21 7,00000 6,69439 0,30561 22 5,00000 4,66751 0,33249 23 3,00000 3,39972 -0,39972 24 5,00000 7,13294 -2,13294 25 8,00000 9,65289 -1,65289 26 10,00000 11,64914 -1,64914 Рис. 4.8.10 27 20,00000 13,79339 6,20661 На рис. 4.8.11 отображена диаграмма рассеяния наблюдаемых (по оси ОХ) и предсказанных (по оси ОY) значений отклика. Чем ближе расположены точки на плоскости к линии регрессии, тем адекватнее модель описывает взаимосвязь предикторов и отклика. График подтверждает высокую адекватность модели. Еще одним показателем адекватности модели является соответствие закона распределения остатков (разности между прогнозными значениями отклика и наблюдаемыми) нормальному закону с математическим ожиданием, равным 0 (белый шум). Анализ →Углубленные методы анализа Анализ →Общие линейные модели → Результаты→Больше →Отчет → Остатки 1→ Наблюдаемые и предсказанные 8 Наблюдаемые и предсказанные значения Зависимая переменная: Post BDI (Анализируемая выборка) 35 Предсказанные значения 30 25 20 15 10 5 0 -5 0 5 10 15 20 25 30 35 Наблюдаемые значения Рис. 4.8.11 Из рис. 4.8.12 следует, что гистограмма остатков действительно имеет визуальное сходство с нормальным распределением со средним значением, равным 0 (ось симметрии). Анализ →Углубленные методы анализа Анализ →Общие линейные модели → Результаты→Больше →Отчет → Остатки 1→Остатки Гистограмма исходных остатков Зависимая переменная: Post BDI (Анализируемая выборка) 16 14 Кол-во набл. 12 10 8 6 4 2 0 -10 -8 -6 -4 -2 0 X <= Граница категории Рис. 4.8.12 9 2 4 6 8 В модуле Общие линейные модели программы STATISTICA предусмотрена возможность сгенерировать код (автоматически составить текст процедуры) на одном из языков программирования − STATISTICA Visual Basic (SVB), C/C++, PMML код. Если выбрать SVB, то программа напишет текст процедуры и создаст макрос, который потом можно будет сохранить и использовать для автоматического вычисления величины отклика при заданных пользователем значениях предикторов. Количество предикторов не велико, поэтому можно воспользоваться общей линейной моделью для ручного счета при помощи обычного калькулятора. Для этого надо в уравнение подставить значения предикторов и произвести несложные арифметические действия. С количественными предикторами здесь все предельно понятно, а с категориальными, с учетом принципов сигмаограниченной параметризации следует поступить так: – если больной из подгруппы Работает, то эффект Соц стат/(Работает) следует заменить на 1, если из подгруппы Не работает, то Соц стат/(Работает) следует заменить на 0; – если диагноз больного реакт. деп., то Ноз. диаг.(реакт. деп) следует заменить на 1, при любом другом диагнозе – деп. невр., или энд.деп.моноп.тип, Ноз. диаг.(реакт. деп) следует заменить на 0; – если диагноз больного деп. невр., то Ноз. диаг.(деп. невр) следует заменить на 1, при любом другом диагнозе – реакт.деп., или энд.деп.моноп.тип, Ноз. диаг. ( деп. невр) следует заменить на 0. – если эффект Соц стат*Ноз. диаг.(1) соответствует комбинации Работает*реакт. деп., то его следует заменить на 1, в любом другом случае – на 0. – если эффект Соц стат*Ноз. диаг.(2) соответствует комбинации Работает* деп. невр., то его следует заменить на 1, в любом другом случае – на 0. Вычислим, например прогнозное значение отклика Post BDI для больного М. (№ 2, см. рис. 4.8.2), если возраст 41 год, работает, диагноз – депрессивный невроз, длительность заболевания 730 дней, показатель выраженности тяжести депрессии по шкале депрессии Бека в баллах до лечения Pre BDI = 19. Подставим данные больного в уравнение, исключив свободный член, получим: Post BDI = 0,12713· 41 – 0,00137·730 + 0 ,25056·19 – 1,85635·1 – 5,3517·0 – 4,30874·1 – 3,28648·0 + 4,34371 = 7,15149. Это означает, что прогнозируемая тяжесть состояния больного по шкале Бека после лечения комбинированной терапией составит 7 баллов. Реальное значение тяжести состояния для больного М. после лечения составило 8 баллов. Ошибка в прогнозе равна 8 – 7,2 = 0,8 балла (10%). Учитывая, что балльная шкала сама по себе достаточно грубая измерительная шкала, погрешность в 0,8 балла является незначительной. Если к вычисленному значению добавить удаленный нами свободный член, то получим 7,15149 + 2,50477 = 9,65625, что 10 примерно равно значению 9,65289, приведенному в таблице на рис. 4.8.10. Незначительное расхождение вызвано погрешностью округления до пятого знака после запятой. Таким образом, построенная общая линейная модель позволяет с достаточно высокой точностью прогнозировать тяжесть состояния больного по шкале Бека после лечения комбинированной терапией, если известны возраст больного, длительность заболевания, тяжесть состояния больного по шкале Бека до лечения, нозологический диагноз и его социальный статус. 11