Uploaded by Владимир Снопков

Красько О. В. Пособие по анализу данных 2014, ч1

advertisement
Министерство образования Республики Беларусь
Учреждение образования
«Международный государственный экологический
университет имени А.Д. Сахарова»
Факультет мониторинга окружающей среды
Кафедра экологических информационных систем
О. В. Красько
СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ
В МЕДИЦИНСКИХ ИССЛЕДОВАНИЯХ
Часть I
Учебно-методическое пособие
Минск
2014
УДК 311:61
ББК 60.06.:5(076.5)
К78
Рекомендовано к изданию НМС МГЭУ им. А.Д. Сахарова
(протокол № 3 от 29.10.2012 г.)
Автор
Красько О.В., к.т.н., доцент, ведущий научный сотрудник лаборатории
биоинформатики ОИПИ НАН Беларуси, доцент кафедры
экологических информационных систем МГЭУ им. А.Д. Сахарова
Рецензенты:
зав. НИЛ статистического анализа и
моделирования НИИ прикладных проблем информатики БГУ,
к.ф.-м.н., доцент М. С. Абрамович;
доцент 1-ой кафедры детских болезней БГМУ, главный внештатный
специалист по поллиативной помощи детям Министерства
здравоохранения Республики Беларусь, к.м.н., доцент Н. Н. Савва
К 78 Красько, О. В.
Статистический анализ данных в медицинских исследованиях: в 2 ч. /
О. В. Красько. – Минск: МГЭУ им. А.Д. Сахарова, 2014. – Ч. I. – 127 с.
ISBN 978-985-551-096-4
В первой части пособия изложены базовые подходы к анализу
биомедицинских данных: даны описания базовых типов дизайнов,
описательные статистики, сравнение и анализ двух переменных
исследования.
УДК 311:61
ББК60.06.:5(076.5)
ISBN 978-985-551-096-4
© Красько О. В., 2014
© УО «Международный государственный
экологический университет
имени А.Д. Сахарова», 2014
Содержание
Содержание ..........................................................................................................3
Введение...............................................................................................................5
1.Общий подход к построению исследования в доказательной медицине ....7
2.Основные типы дизайна исследований ..........................................................8
2.1.Когортное исследование ...............................................................................9
2.2.Исследование случай-контроль..................................................................11
2.3.Одномоментное исследование ...................................................................12
2.4.Экспериментальные или рандомизированные
клинические исследования ...............................................................................14
2.5.Общие замечания по дизайну исследований.............................................15
2.6.Понятие исхода и риска ..............................................................................18
2.7.Подход к анализу рисков при бинарных исходах.....................................19
2.7.1.Относительный риск в естественной выборке.......................................19
2.7.2.Отношение шансов для целевых выборок..............................................20
2.7.3.Взаимосвязь между относительным риском и отношением шансов ...21
2.8.Подходы к анализу рисков при множественных исходах и нескольких
уровнях фактора ................................................................................................22
3.Переменные исследования и типы данных ..................................................23
3.1.Переменные исследования..........................................................................23
3.2.Типы данных в исследованиях ...................................................................24
Основные аспекты .............................................................................................27
4.Гипотеза исследования ..................................................................................27
4.1.Типы ошибок................................................................................................27
4.2.Понятие уровня значимости .......................................................................28
4.3.Мощность исследования и расчет объемов выборок ...............................29
4.4.Этапы проверки статистических гипотез ..................................................30
Основные аспекты .............................................................................................32
5.Сбор данных....................................................................................................32
Основные аспекты .............................................................................................34
6.Основные виды распределений.....................................................................34
Основные аспекты .............................................................................................39
7.Предварительный анализ данных .................................................................39
7.1.Основные характеристики данных в предварительном анализе .............40
7.1.1.Количественные переменные ..................................................................40
7.1.2.Номинальные и категориальные переменные........................................42
7.1.3.Характеристика времен наблюдения ......................................................42
7.1.4.Точечные оценки и доверительные интервалы......................................42
7.2.Графическое представление данных..........................................................48
7.2.1.Количественные данные ..........................................................................48
3
7.2.2.Качественные данные...............................................................................52
7.3.Описание переменной исследования .........................................................53
7.4.Выбор переменной, связанной с исходом .................................................56
Основные аспекты .............................................................................................56
8.Унивариантный анализ: сравнение с пороговым значением,
доверительные интервалы ................................................................................57
Основные аспекты .............................................................................................65
9.Унивариантный анализ пар ...........................................................................65
9.1.Биноминальная переменная........................................................................65
9.2.Мультиноминальная переменная ...............................................................69
9.3.Количественная переменная.......................................................................72
9.4.Схемы унивариантного анализа пар ..........................................................74
Основные аспекты .............................................................................................75
10.Бивариантный анализ: взаимосвязь двух переменных..............................75
10.1.Диаграмма рассеяния ................................................................................76
10.2.Меры ассоциации ......................................................................................77
10.2.1.Коэффициент корреляции Пирсона ......................................................77
10.2.2.Коэффициент ранговой корреляции Спирмена ...................................79
10.2.3.Коэффициент ранговой корреляции τ (Тау) Кендалла.......................80
10.2.4.Коэффициенты сопряженности.............................................................80
10.2.5.Коэффициент τ Гудмана-Краскела......................................................81
10.2.6.Тест Фишера-Фримана-Халтона ...........................................................82
10.2.7.Коэффициент детерминации .................................................................82
10.2.8.Непараметрическая однофакторная ANOVA ......................................83
10.2.9.Точечно-бисериальная корреляция и сравнение двух групп..............83
10.2.10.Точный тест Фишера............................................................................83
10.3.Таблица мер ассоциации и взаимосвязи..................................................84
Основные аспекты .............................................................................................87
11.Бивариантый анализ: биноминальная и биноминальная
переменные ........................................................................................................87
11.1.1.Чувствительность и специфичность тестов .........................................88
11.1.2.Оценка мер риска при изучении фактора риска и исхода...................90
11.1.3.Оценка эффективности лечения ............................................................94
11.1.4.Обнаружение различий в пропорциях двух групп на основе
доверительных интервалов ...............................................................................95
11.1.5.Тесты таблиц 2× 2 .................................................................................98
Основные аспекты ...........................................................................................100
12.Бивариантый анализ: биноминальная и количественная переменные ..100
Тест Стьюдента для независимых выборок ..................................................104
12.1.Анализ двух групп: Характеристическая кривая (receiver operating
characteristic(ROC) curve)................................................................................104
12.2.Анализ двух групп: расстояние между группами.................................109
Основные аспекты ...........................................................................................109
4
13.Бивариантный анализ: биноминальная и мультиноминальная переменные
(таблицы 2 × c ).................................................................................................109
Основные аспекты ...........................................................................................113
14.Бивариантый анализ: мультиноминальная
и мультиноминальная переменные (таблицы r × c ) ...................................114
Основные аспекты ...........................................................................................122
15.Бивариантый анализ: мультиноминальная
и количественная переменные – анализ нескольких групп .........................122
15.1.Однофакторная ANOVA (Однофакторный дисперсионный анализ)..122
15.2.Непараметрическая ANOVA ..................................................................125
15.3.Общие замечания.....................................................................................125
Основные аспекты ...........................................................................................126
Введение
Книг по статистическому анализу данных много, не просто много, а
очень много. И, тем не менее, каждый раз с каждым исследователем мы начинали все заново. Почему так можно и так нельзя анализировать, какой критерий
лучше выбрать, какие характеристики данных указать в статье, какие выводы
допустимы, а какие нет. Данное пособие – не книга по теории статистики. Скорее, она о том, как пройти статистический анализ в исследовании от начала до
конца, зачем считать ту или иную статистику, зачем выполнять те или иные
действия над данными, что означает та или иная характеристика ваших данных
именно в привязке к медико-биологическим исследованиям. Современные компьютерные статистические пакеты очень мощны и разнообразны. Посчитать
можно многое. Вопрос – зачем? 95 %ваших исследований укладывается в те
понятия и характеристики, которые приведены в этой книге. За более сложными
моделями данных и расчетами – обратитесь к статистикам-специалистам.
Мы же с вами пройдем схематично весь путь вашего исследования. Некоторые расчеты характеристик ваших данных будут приведены, некоторые
достаточно сложны, чтобы приводить их в этом пособии, большинство вам знакомы, и рассчитываются во многих статистических пакетах, которыми вы пользуетесь. Остается вопрос – как интерпретировать полученные расчеты, что означает та или иная характеристика в системе ваших доказательств.
Я надеюсь, что это пособие поможет понять, что и как надо делать, чтобы
доказать правомерность ваших выводов на основе данных вашего исследования.
Правильное проведенное и снабженное статистическими доказательствами исследование даст цельный взгляд на поднятую в исследовании проблему.
В пособии все термины, имеющие отношение к статистическому анализу
данных приводятся на русском и английском языках. Это может помочь при
чтении статей в международных журналах, чтобы понять как проводился статистический анализ медико-биологических данных. Более того, существует много
англоязычных книг, посвященных прикладным аспектам анализа клинических и
эпидемиологических данных в доказательной медицине. Правильно понятная
5
терминология позволит вам сосредоточится на сути медицинской проблемы,
системе доказательств, а не на поиске и переводе статистических терминов.
В разделе 1 кратко изложен системный подход к построению исследования, связанного с доказательной медициной.
В разделе 2 дана краткая характеристика типовых дизайнов исследований.
Раздел 3 знакомит с типами данныхв исследовании.
Раздел 4 знакомит с основами проверки статистических гипотез.
В разделе 5 представлены общие рекомендации по сбору данных в исследовании.
Раздел 6 кратко знакомит с хорошо изученными в статистическом анализе и часто встречающимися в медицинских исследованиях видами распределений случайных величин.
Раздел 7 знакомит с основными характеристиками выборочных распределений и их визуализацией.
Раздел 8 объясняет принципы построения доверительных интервалов и
их интерпретацию.
В разделе 9представлены основы анализа парных измерений.
Раздел 10 посвящен мерам ассоциации и взаимосвязи двух переменных
исследования.
В разделе 11 представлен анализ и интерпретация таблиц 2 × 2 .
В разделе 12 описан анализ двух групп с использованием количественных данных.
В разделах 13 и 14 даны подходы к анализу таблиц сопряженности 2 × c
и r×c .
В разделе 15 кратко даны основы дисперсионного анализа.
Раздел 16 описывает линейные регрессионные модели, подходы к их построению, анализу и интерпретации в случае количественной зависимой переменной.
Раздел 17 описывает линейные регрессионные модели (логистическая
регрессия), подходы к их построению, анализу и интерпретации в случае бинарной зависимой переменной.
В разделе 18 даны основы анализа выживаемости, линейная регрессионная модель пропорциональных рисков Кокса, ее построение, анализ и интерпретация.
Раздел 19 посвящен общим принципам построения регрессионных моделей в исследованиях.
Раздел 20 знакомит с изучением построенных моделей для прогноза.
В разделе 21даны основы анализа повторяющихся измерений применительно к медицинским данным.
Раздел 22 содержит заключительные аспекты по интерпретации полученных результатов и краткий взгляд на клиническую важность полученных статистических результатов.
6
1. Общий подход к построению исследования в доказательной
медицине
Как и в любой другой науке, исследования в медицине опираются на общую методологию, общий подход. В настоящее время существует несколько
основных прикладных типов исследований в медицине. Это когортные исследования, исследования случай-контроль, одномоментные исследования и рандомизированные клинические испытания.
Для любых этих исследований есть несколько стадий:
1. Разработка дизайна исследования.
2. Сбор данных, предварительный обзор данных, оценка факторов и
исхода.
3. Анализ данных.
4. Интерпретация результатов анализа.
5. Экстраполяция на популяцию.
На стадии дизайна (первый шаг) исследователю необходимо сформулировать, какой параметр пациента будет исходом, характеризовать результат; как
и какие данные о пациенте и факторах воздействия на организм пациента будут
собраны; понять и сформулировать гипотезу исследования; определить популяцию, критерии включения и исключения пациентов в исследование; выбрать
тип исследования, метод распределения пациентов в группы; определить размер
выборки, указать ошибки I и II рода.
Второй шаг – сбор данных, измерение степени выраженности факторов и
классификация исходов наблюдений (наступление заболевания, некоторого состояния или результатов лечения).
Анализ данных – третий шаг, оценка параметров распределения эмпирических данных исследования, проверка предположений, лежащих в основе выбранных методов статистического анализа, непосредственно проведение статистического анализа, определение статистической значимости результатов исследования.
Выводы и заключения, касающиеся исследуемой выборки (выборка может состоять из нескольких групп) – это четвертый шаг. На этом шаге выявляются причинно-следственные связи, эффекты воздействий факторов и пр.
Экстраполяция – заключительный шаг исследований. Выводы, сделанные
на предыдущем шаге могут распространяться на группы и популяции, которые
похожи на исследуемые. Также могут делаться выводы о популяциях, которые
отличаются от тех, которые включены в исследования, определятся группы повышенного риска и т.п.
Доказательная медицина – это раздел науки, который собирает факты для
доказательств или опровержений некоторых медико-биологических суждений.
Только правильное соблюдение всех шагов в исследовании может привести к
нужному результату. Неправильный дизайн порождает неправильный сбор информации. Неправильный сбор порождает неправильную обработку и т.д. Важны все шаги. Тогда доказательства выстроятся в четкую линию и будут убедительны.
7
2.Основные типы дизайна исследований
Прежде, чем перейти к рассмотрению особенностей различных дизайнов
исследований, рассмотрим базовые понятия эпидемиологии и доказательной
медицины, которые позже будут определять дизайн исследования, возможные
методы анализа данных, интерпретацию результатов и возможную экстраполяцию.
Исследования в медицине проводятся ради конечной цели либо снижения
риска заболевания, либо снижения риска (вероятности) неблагоприятного исхода при заболевании. Также существуют исследования, целью которых является
снижение стоимости лечения, их задача–не допустить увеличения рисков и неблагоприятных исходов при снижении стоимости лечения. Согласно (Флетчер
(1998)):
Фактор риска – это особенность организма или внешнее воздействие,
приводящее к увеличению риска возникновения заболевания или иному неблагоприятному исходу.
Под исходом понимается состояние пациента (параметра пациента), зафиксированное в процессе исследований. Основные исходы – это смерть, заболевание, дискомфорт, инвалидизация, неудовлетворенность. Исходом также
является такое событие как выздоровление, когда речь идет о сравнении методов лечения.
Прогностический фактор (предиктор) – идентифицирует группы пациентов с одинаковым заболеванием, но различным прогнозом исхода. Такие факторы могут быть благоприятными и неблагоприятными.
Таким образом, понятие риска включает в себя такое событие как заболевание, в то время как прогностический фактор, как понятие, используется для
пациентов с определенным заболеванием (состоянием). Факторы риска и прогностические факторы могут не совпадать, некоторые влияют как на риск заболевания, так и на его прогноз, причем влиять могут по-разному.
Установление связи между фактором и исходом – важнейший аспект медицинских исследований.
При построении дизайна исследований в эпидемиологии единицей наблюдения является, исследуемый (пациент). В зависимости от того, будут ли
наблюдения над исследуемыми пассивны, когда испытатель не вмешивается в
распределение исследуемых на определенные группы, или принимает участие в
их распределении на группы, наблюдения делятся на пассивные (обсервационные) и активные (рандомизированные). Обсервационные наблюдения разделяются на три базовых типа неэкспериментального (обсервационного) исследования: когортное (проспективное) исследование, исследование случай-контроль и
одномоментное исследование (Рис. 2–1).
Для всех типов дизайнов основной целью в исследовании является установление связи между предполагаемыми факторами риска (прогностическими
факторами) и событиями (заболевание, смерть и т.п.). Вопрос о причинноследственной связи является более сложным, и в таком дизайне, как одномоментное исследование, он очень спорен, поскольку фиксация определенного
8
состояния и уровня некоторого фактора не позволяет судить о том, явился ли
фактор причиной некоторого состояния исследуемого, или состояние вызвало
определенный уровень фактора у исследуемых, а восстановление воздействия
фактора по памяти исследуемых склонно к ошибкам. После краткого описания
основных обсервационных дизайнов исследования в медицине приведена таблица сравнительных характеристик этих исследований (Табл. 2–1).
Наблюдения
Пассивные
Активные
Обсервационные наблюдения
Исследования случайконтроль
Рандомизированные исследования
Когортные
исследования
Проспективные
когортные
исследования
Одномоментные исследования
Исследования базы
данных
Рис. 2–1. Основные типы дизайна исследований
2.1. Когортное исследование
В когортном исследовании (cohort study) когорта – это группа лиц, объединенных общим признаком и наблюдаемых в течение определенного периода
времени, созданная с целью наблюдения за дальнейшим развитием событий.
Это исследование также называют продольным (longitudinal), или исследованием возникновения заболеваний (событий). Имеется в виду, что группа
сформирована в настоящее время и будет прослежена в будущем для оценки
возникновения некоторого исхода. Также исследование когорты может проводиться по архивным документам. В этом случае это историческое когортное
исследование (databasestudy/historical cohort study/nonconcurrent cohort study),
однако оно не перестает быть проспективным по сути: выбирается когорта и
прослеживается, что произошло с исследуемыми в дальнейшем по архивным
документам.
Основной целью когортного исследования является изучение возникновения исхода (состояния, заболевания). Когорта может набираться не в один
момент времени, например, изучение развития сопутствующего заболевания
при сахарном диабете – когорта может формироваться из тех, кому диагностирован сахарный диабет в течение 2005–2008 гг. и далее вестись наблюдения, что
с ними произойдет в дальнейшем (наступит сопутствующее заболевание или
9
нет) например, в течение 10 лет. Календарно точки наблюдения будут разнесены, но относительно когорты исследуемых – время будет одно и то же: год
спустя начала основного заболевания, два года и т.д.
Выборки в таких исследованиях носят также название естественных
(Naturalictic sample).
На рисунке 2–2приведена простейшая схема когортного исследования
для такого события (исхода), как заболевание.
Популяция
(больные и небольные)
Выборка
(из небольных)
Начало исследования, фиксирование исследуемого
фактора
(есть или нет, или
измерение)
начало исследований
Промежуточные
наблюдения
Промежуточные
наблюдения
Заболело, фактор есть
Заболело, фактора нет
Не заболело, фактор
есть
Не заболело, фактора
нет
Выбыло
…
Наблюдения во времени,
промежуточный анализ
Окончательные
наблюдения
Заболело, фактор есть
Заболело, фактора нет
Не заболело, фактор
есть
Не заболело, фактора
нет
Выбыло
окончание исследований
Анализ данных
Рис. 2–2. Схема когортного исследования
Существуют два подтипа когортных исследований: отрытые и завершенные (Open Cohort Study и Closed Cohort Study).
В открытых когортных исследованиях время наблюдения считается различным для каждого наблюдения и заканчивается либо событием, либо наблюдение цензурируется (событие не наступило, фиксируется только срок наблюдения).
В завершенных когортных исследованиях время наблюдения считается
одинаковым для всех случаев ( T ). Событие фиксируется, если оно наступило в
промежуток времени наблюдения T . Наблюдения без наступления события
должны иметь продолжительность наблюдения не менее T .
Когортное исследование – – это»зеркало» популяции, то, что будет происходить в масштабах популяции, в такой же мере будет происходить в когорте, если правильно составить дизайн когортного исследования.
Основные моменты, на которые обращают внимание при когортном исследовании (Флетчер (1998)):
Четкая формулировка включения/исключения пациентов в исследование.
10
– имеют ли исследуемые риск развития исхода, поскольку бессмысленно
наблюдать пациентов, у которых исход уже имеет место, или не наступит никогда;
– находятся ли пациенты в одинаковой точке отсчета (по времени) в течении заболевания, поскольку прогноз и выводы могут зависеть от того, с какого момента в процессе заболевания начинается отсчет;
– все ли члены когорты завершили исследование, поскольку выбывание в
процессе исследования может приводить к систематическим ошибкам;
– одинаково ли проводилось выявление исходов, поскольку также могут
возникать систематические ошибки при измерениях;
При выявлении фактора, влияющего на исход в различных группах,
влияние других факторов должно быть представлено в равной мере во всех изучаемых группах.
2.2. Исследование случай-контроль
В исследованиях случай-контроль (case-control study) сравнивается распространенность предполагаемого фактора риска в экспериментальной и контрольной группах. Если заболевание является редким, исследование случайконтроль может помочь в определении различий в группах, связанных с исследуемыми факторами. Однако, в исследовании случай-контроль невозможно определить частоту возникновения исхода (заболевания), поскольку группы подбираются искусственно для выявления факторов, связанных с исходом. Этот
тип исследования более склонен к смещениям (систематическим ошибкам, bias)
и более подходит к исследованию редких заболеваний.
Целью исследований случай-контроль является выявление уровня факторов, включенных в исследование, которые ассоциируются с исходом. Основной
вопрос исследований – это установление степени ассоциации между риском
исхода и факторами, включенными в исследование, степени, с которой данные
факторы могут быть рассмотрены как причины исхода.
Исследование случай-контроль – это исследование разницы в проявлении факторов между двумя (или более) группами, одна из которых является контрольной (базовой, группой не имеющих интересующего исследователя заболевания). Не может отражать соотношение страдающих/не страдающих от изучаемого заболевания в популяции, однако
может отображать разницу в уровнях изучаемого фактора для пациентов, страдающих/не
страдающих от изучаемого заболевания при правильном проектировании дизайна этого
исследования.
В отличие от когортных исследований, в которых исследуется соотношение подверженных и неподверженных предполагаемому фактору риска по отношению к исходу (например, заболеванию), исследование случай-контроль
обычно сравнивает пациентов с исходами (группа «случай») и без исходов
(группа «контроль») по отношению к уровню воздействия предполагаемого
фактора риска.
Выборки в таких исследованиях носят название целевых (Purposive sample).
11
Начало
исследований
Популяция
(больные и небольные)
Случай
(больные)
Контроль
(небольные)
Выборк
Исследование, фиксирование
исследуемого фактора
(есть или нет)
Возможно обращение к архивным
данным (в прошлое для определения
воздействия исследуемого фактора)
Окончательные
наблюдения
Заболело, фактор есть (A)
Заболело, фактора нет (В)
Не заболело, фактор есть (С)
Не заболело, фактора нет (D)
Окончание исследований,
Анализ данных
Рис. 2–3. Схема исследования случай-контроль
Разновидностью дизайна исследования случай-контроль является парный
дизайн «matched pairs», когда к каждому исследуемому с заболеванием ставится
в соответствие исследуемый без выявленного заболевания. Пары могут составляться по полу, возрасту и другим факторам, не относящимся к исследованию,
которые максимально похожи у пары.
Основные моменты, на которые обращают внимание при исследовании
случай-контроль (Флетчер (1998)):
– Производилось ли включение в исследование пациентов в начале заболевания, поскольку факторы риска могут быть связаны как с началом, так и с
длительностью заболевания.
– Одинаковы ли основная и контрольная группа по всем факторам, кроме
изучаемого; для обоснованной оценки относительного риска необходима сопоставимость сравниваемых групп.
– Одинаковы ли методы воздействия в основной и контрольной группах,
не существует ли систематической ошибки.
2.3. Одномоментное исследование
Одномоментное исследование (cross-sectional or prevalence study) – вариант описательного исследования, проводимого в определенный момент времени
12
с целью оценки распространенности заболевания или исхода, изучения течения
заболевания и т.д. Как следует из сущности такого исследования, изучается
распространенность заболевания, а не случаи возникновения.
Одномоментное исследование также носит название исследования распространенности, отвечая на вопрос «что происходит прямо сейчас», хотя формально исследование может продолжаться некоторое время. Выборка в таком
исследовании будет естественная.
Популяция
(больные и небольные)
Начало
исследований
Выборка
Окончательные
наблюдения
Заболело, фактор есть (A)
Заболело, фактора нет (В)
Не заболело, фактор есть (С)
Не заболело, фактора нет (D)
Окончание
исследований,
Анализ данных
Рис. 2–4. Схема одномоментного исследования
Основные моменты, на которые обращают внимание при одномоментном
исследовании (Флетчер (1998)):
– Критерии выявления случая, поскольку распространенность зависит от
того, что исследователь понимает под случаем.
– Поскольку распространенность зависит от характеристик популяции,
необходимо указывать точные критерии включения исследуемых в популяцию.
– Репрезентативность исследуемой выборки, поскольку распространенность для выборки будет экстраполироваться на всю популяцию.
13
Таблица 2–1. Сравнительная таблица обсервационных типов исследования (Флетчер
(1998))
Когортное (проспекИсследование случай-контроль
Одномоментное исследотивное) исследование
вание
Начинается с определеПопуляция, подвергающаяся
Начинается с определения
ния популяции, подвер- фактору риска, не обязательно
популяции
гающейся воздействию
определена
фактора риска
Случаи не отбираются,
Случаи отбираются исследоваСлучаи не отбираются, а
а устанавливаются в
телем из имеющейся совокупустанавливаются при одпроцессе непрерывного
ности пациентов, страдающих
номоментном обследованаблюдения
от изучаемого заболевания
нии популяции
Контрольная группа
Контрольная группа (без изуКонтрольная группа вклю(без изучаемого исхода) чаемого исхода) отбирается
чает в себя лиц, у которых
не отбирается, а форми- таким образом, чтобы она была
не выявлено заболевание
руется естественным
сходна с экспериментальной по (исход) при одномоментобразом
остальным (неизучаемым) паном исследовании
раметрам
Воздействие фактора
Группы формируются по исхоИсход и уровень воздейстриска оценивается до
ду до того, как исследователь
вия фактора риска выявразвития исхода (забоузнает об данных по исследуеляются одновременно
левания) у всей когорты мому фактору риска
Риск или заболеваеРиск или заболеваемость нельзя Риск или заболеваемость
мость, а также относиоценить непосредственно, отнельзя оценить непосредтельный риск измеряносительный риск воздействия
ственно, относительный
ются непосредственно
можно оценить по отношению
риск воздействия можно
шансов
оценить по отношению
шансов
что случится
что случилось
что происходит в настоящий момент
2.4. Экспериментальные или рандомизированные клинические исследования
Цель этих исследований (experimantal studies or randomized clinical trials)
в клинической медицине – определить, какое лечение наилучшее среди нескольких предлагаемых. Это исследование предполагает рандомизацию пациентов в различные группы и минимизирует потенциальную ошибку выборки (систематическую ошибку). Исследование является проспективным по природе –
пациенты наблюдаются в течение некоторого периода времени.
Слепое исследование – процедура, обеспечивающее отсутствие информации о том, к какой группе – экспериментальной или контрольной – отнесен
каждый испытуемый. При простом слепом методе информация отсутствует
только у испытуемых, при двойном слепом – у испытуемых и исследователей,
при тройном слепом – у исследуемых, исследователях и лиц, проводящих статистическую обработку. Данная процедура применяется для устранения систематической ошибки в клинических исследованиях.
14
Выборка в таком исследовании будет целевая (Purposive sample).
Регистрация испытуемых по
критериям
вхождения/исключения
Результат
положительный (A)
Результат
отрицательный (C)
Выбыло (L)
Группа лечения
Рандомизация
Группа
контроля
начало
исследований
Результат
положительный (B)
Результат
отрицательный (D)
Выбыло (M)
Возможны наблюдения во
времени, промежуточный
анализ
окончание
исследований
Анализ
данных
Рис. 2–4. Схема рандомизированного клинического исследования
В рандомизированных клинических исследованиях групп может быть несколько. Однако, как правило, их две: опытная и контрольная. Контрольная
группа может получать традиционное лечение, плацебо и т.п., экспериментальная получает некоторое экспериментальное лечение.
Основные моменты, на которые обращают внимание при рандомизированных клинических испытаниях (Флетчер (1998)):
– Соблюдение всех требований к когортным исследованиям, поскольку
клинические испытания – разновидность когортных исследований.
– Случайным ли образом разделены испытуемые на опытную и контрольную группы, поскольку это единственный надежный способ избежать систематических ошибок.
– Насколько «слепым» было исследование, то есть, знали ли испытуемые,
персонал и исследователь, к какой группе принадлежит каждый испытуемый.
Полностью слепое исследование позволяет избежать смещения оценок.
– Были ли равными все остальные условия, медицинские вмешательства,
кроме изучаемого.
– Анализ данных зависит от того, получали ли все испытуемые предписанное лечение (воздействие) или данные оцениваются по факту полученного
воздействия. Во втором случае такое исследование превращается в когортное
исследование.
2.5. Общие замечания по дизайну исследований
Когортное исследование подразумевает, что соотношение исходов (например, доли страдающих от изучаемого заболевания и здоровых) в когорте
отражает действительное соотношение исходов в исследуемой популяции. Может быть обоснована причинно-следственная связь при наличии биологических
доказательств.
15
Исследование «случай-контроль» может искажать действительное соотношение исходов в популяции, и непригодно для оценки вероятности наступления исхода (события). Однако оно может быть использовано для установления
уровней фактора риска, влияющих на исход. Может быть обоснована причинноследственная связь при наличии биологических доказательств.
Одномоментное исследование также подразумевает, что соотношение
исходов (например, доли страдающих от изучаемого заболевания и здоровых) в
выборке отражает действительное соотношение исходов в исследуемой популяции. Невозможно установить причинно-следственную связь (фактор вызвал
исход или исход (заболевание) повлекло изменение уровня фактора). Одномоментное исследование как срез состояния определенной популяции может быть
использован при проведении когортных исследований в промежуточных точках
контроля.
Рандомизированные клинические испытания не отвечают на вопрос о соотношении исходов в популяции, однако могут ответить на вопрос об эффективности лечения для исследуемой популяции. Надо иметь в виду, что критерии
включения и исключения из исследования будут влиять на экстраполяцию результатов клинических испытаний на всю популяцию со сходным заболеванием.
Таким образом, распределение пациентов на группы в когортном исследовании определяется по факту наступления/не наступления исхода в процессе
исследования. Распределение пациентов в группы в исследовании «случайконтроль» проходит в начале исследования. Распределение пациентов на группы в одномоментном исследовании происходит одновременно с наблюдением
пациента. Процедуры распределения на группы в рандомизированных клинических испытаниях происходят строго регламентировано («слепое», «двойное
слепое» и др. распределения).
Необходимо упомянуть, что любой тип дизайна сопровождается так называемыми случайными и систематическими ошибками – смещениями (bias) от
истинных значений в силу некоторых особенностей исследования.
Основными источниками такого рода смещений в медицинских исследованиях являются:
• Ограниченность размеров выборки – исследователь не знает эффекта
от фактора (или вмешательства) во всей популяции.
• Назначение лечения в зависимости от степени тяжести и особенностей пациента с учетом прогноза.
• Выявление определенного исхода ( эффекта от лечения) в группе может быть субъективным, если отсутствуют строгие стандарты.
• Положительные результаты публикуются чаще, чем исследования,
которые не показали значимых результатов.
• Влияние ожидаемого исхода на особенности исследования.
• Особенности измерительных приборов и методик и др.
16
Обработка данных исследований может снизить некоторые виды ошибок,
в большей степени их минимизирует дизайн рандомизированных клинических
испытаний.
Примеры исследований:
1. В 2011 г. в одной из клиник начато исследование: изучается воздействие препаратов, снижающих риск возникновения осложнения после
определенного оперативного вмешательства в течение 30 дней. Лекарственные препараты, которые могут снизить риск возникновения
осложнения, назначались врачом, исходя из состояния пациента.
Прослежена группа пациентов, которая проходила оперативное лечение в 2010 году. Исходами являются: осложнение наступило/осложнение не наступило.
Данное исследование будет когортным историческим исследованием, поскольку пациенты не были рандомизированы, состояние определялось по записям в истории болезни пациентов.
2. Изучается фактор прогноза (уровень начального лейкоцитоза в периферической крови при постановке диагноза) у пациентов, взятых на
лечение в 2010 году с диагнозом лимфобластный лейкоз. Группа будет получать одинаковое лечение и прослеживаться на протяжении 5
лет. Исходы (прогностические): пациент жив/пациент умер.
Данное исследование будет когортным проспективным исследованием,
поскольку в начале исследования фактор прогноза известен, исход будет устанавливаться в процессе исследования.
3. В 2011 году начато исследование по заболеванию раком молочной
железы среди женщин продуктивного возраста по уровню некоторого
гормона. Изучены истории болезней женщин, которые находились на
учете в женской консультации в 2010г. Выявлены все случаи диагноза рака молочной железы, возникшие в 2010 (группа случаев). Группа
контроля формировалась из женщин продуктивного возраста, которые обращались в женскую консультацию в 2010 году и которым выполнялся анализ на гормоны, однако рака молочной железы у них не
выявлено. После формирования групп по истории болезни находился
анализ, определяющий уровень исследуемого гормона для всех выбранных случаев и контрольной группы.
Данное исследование будет исследованием случай-контроль, поскольку
уже установлен исход у исследуемой группы, значения фактора риска будет
устанавливаться для обеих групп после включения в исследование.
4. В ноябре 2010г. проводилось исследование среди студенток: фиксировался уровень давления (систолического и диастолического) и продолжительность кровотечений при месячных.
Данное исследование будет одномоментным, установить, что давление
вызывает изменения в длительности или длительность вызывает изменения в
давлении, в данном исследовании не представляется возможным, однако воз17
можна взаимосвязь между давлением и длительностью кровотечений у молодых
девушек.
Кроме обсервационных наблюдений и активных (экспериментальных)
исследований существует промежуточная группа так называемых квази- экспериментальных исследований. Они имеют черты экспериментального исследования, но отличаются по ключевому моменту рандомизации. Хотя может показаться, что группы отличаются только уровнем некоторого фактора (например,
традиционное и экспериментальное лечение), но эти группы не образуются путем рандомизации по этому фактору.
Один из классических примеров – изучение снижения смертности от аварий после введения законов об обязательном использовании ремней безопасности. На первый взгляд, оценить эффект от введения законов можно, сравнив
уровни смертности и инвалидизации в результате аварий на дорогах и после
введения законов. Однако, для полной оценки необходимо учесть и другие изменения, которые произошли после введения законов. Например, были ли изменения в скоростных режимах на дорогах?
Отсутствие рандомизации, а также неспособность контролировать уровень воздействия изучаемого фактора и других связанных с исследованием факторов, делают такой вид исследования менее желательным для установления
причинно-следственной связи между фактором риска и исхода. Но тем не менее, такие исследования возникают во врачебной практике. Типичный пример –
это исследования, которые планируются не заранее, а исходя из опыта врачаклинициста. Например, врач-психолог несколько лет ведет прием пациентов с
повышенной тревожностью. Лечение дается по стандартной методике. Исходом
является состояние пациента спустя год после начала лечения. Накопив практический опыт, врач понимает, что методику можно улучшить. Следующие несколько лет пациенты (новые) проходят лечение по измененной методике, также фиксируется их состояние спустя год после начала лечения.
Фактический материал, накопленный по двум группам (стандартного и
экспериментального лечения) должен послужить доказательством, что измененная методика дает лучшие результаты лечения.
Такой тип исследования хотелось бы назвать клиническими испытаниями
(нерандомизированными), однако, клинические испытания – это разновидность
когортных исследований, поэтому наиболее точное определение таких исследований – это завершенные когортные исследования. Лечение по разным методикам будет рассматриваться как фактор, влияющий на исход заболевания. Исследование будет квазиэкспериментальным, и после учета всех вмешивающихся в
исследование факторов, можно будет оценить эффект от изучаемого фактора –
измененной методики лечения.
2.6. Понятие исхода и риска
Типичные вопросы, на которые отвечает исследование – как исход связан
факторами, какие уровни фактора благоприятны или неблагоприятны для исхода, как соотносятся факторы между собой в исследовании, как предсказать исход, основываясь на имеющихся данных. Фактором может выступать как неко18
торый биологический параметр пациентов, так и внешнее воздействие (лечение,
природные условия проживания и пр.)
Под исходом понимается состояние пациента (параметра пациента), зафиксированное в процессе исследований. На рисунках по типам исследования
представлен бинарный исход, однако исходы бывают и множественными, а
также выраженными одним или несколькими количественными параметрами.
Примеры бинарных исходов – заболевание наступило/заболевание не наступило, выздоровление наступило/выздоровление не наступило, осложнение
наступило/осложнение не наступило.
Пример множественного исхода: реакция на воздействие (лечение): угнетенное состояние/небольшой дискомфорт/удовлетворительное самочувствие.
Пример количественного исхода: уровень диастолического давления,
уровень глюкозы в крови и пр. Также оценку исхода можно получить, сравнивая некоторый уровень показателя до и после лечения в процентном или относительном повышении/понижении показателя.
Для понимания терминов относительного риска и отношения шансов, а
также подхода к их расчету проще начать с бинарных исходов.
Исследование наступления таких исходов связано с оценкой относительного риска или отношения шансов и базируется на двухвходовых таблицах
(Табл.2–2) .
Таблица 2–2. Представление отношения фактора риска и заболевания таблицей 2 × 2 .
Фактор риска (прогноза)
Заболевание
(состояние)
Да
Нет
Есть
A
В
A+В
Нет
С
D
С+D
A+С
В+D
N
2.7. Подход к анализу рисков при бинарных исходах
2.7.1. Относительный риск в естественной выборке
Естественная выборка в когортном исследовании отражает состояние
всей популяции, поэтому можно рассчитать относительный риск (relative risk) в
выборке и экстраполировать выводы на всю популяцию.
Абсолютный риск возникновения исхода (заболевания, смерти и др.) среди носителей фактора риска (абсолютный риск группы, находящейся под возA
действием фактора) AR yes =
.
A+C
Абсолютный риск возникновения исхода (заболевания) среди неносителей фактора риска (абсолютный риск группы, не находящейся под воздействием
B
фактора) ARno =
.
B+D
19
Относительный риск RR =
( A ( A + C ))
(B (B + D ))
Пример
В Табл. 2–3 представлены условные данные когортного исследования.
Таблица 2–3. Данные исследования
Курение
Рак
легких
Да
Нет
Есть
225
75
300
Нет
75
625
700
300
700
1000
Абсолютный риск возникновения
щих = AR yes = 225 / 300 = 0,75 .
рака
легких
среди
куря-
Абсолютный риск возникновения рака легких среди некурящих
ARno = 75 / 700 = 0,11 .
(225 / 300) = 7 .
Относительный риск RR =
(75 / 700)
Для курящих частота возникновения рака легких в семь раз выше, чем
для некурящих.
2.7.2.Отношение шансов для целевых выборок
Целевая выборка не отражает истинное состояние популяции страдающих от изучаемого заболевания и здоровых. Поскольку в исследовании случайконтроль, рандомизированных клинических испытаниях невозможно определить отношение рисков и частоту возникновения событий, предлагается оценивать относительный риск через отношение шансов (Odds Ratio).
Понятие шанса (odds) – это альтернативный путь выражения вероятности наступления исхода в группе. Если вероятность исхода в некоторой группе
π
равна π , то шансы Odds =
, т.е. вся группа принимается за некоторое це1−π
лое, тогда наступление исхода (события) в данной группе равно π , ненаступление исхода (события) равно 1 − π . Шансы в группе = (вероятность наступления
исхода)/(вероятность ненаступления исхода).
Тогда шансы в группе под воздействием фактора равны
( A ( A + C )) = A , шансы в группе без воздействия фактора
Oddsесть фактор =
(C ( A + C )) C
(B (B + D )) = B .
Oddsнет фактора =
(D (B + D )) D
20
Шансы измеряются в шкале отношений (0, ∞ ) . Значения меньше единицы говорят о том, что вероятность наступления исхода менее 0,5 (исход маловероятен); значения, равные 0,5 – говорят о том, что вероятность наступления исхода «50 на 50»; если значения больше единицы, то исход скорее наступит, чем
не наступит.
A× D
Отношение шансов (odds ratio) в двух группах OR =
.
B×C
Отношение шансов также измеряется в шкале отношений (0, ∞ ) . Его интерпретация: исход скорее произойдет в группе под воздействием фактора, чем
в группе без воздействия фактора (контрольной группе), если отношение шансов больше единицы; например если OR = 3 , то исход в 3 раза более вероятен в
группе под воздействием фактора, чем в группе без воздействия фактора.
Если отношение шансов меньше единицы, то исход менее вероятен в исследуемой группе по сравнению с контрольной.
При OR = 1 фактор не оказывает влияния на исход (не ассоциирован с
исходом).
2.7.3. Взаимосвязь между относительным риском и отношением шансов
Рассчитаем пропорции возникновения заболевания в группах с наличием
фактора и без наличия фактора, при условии, что группы (под воздействием
фактора и без воздействия фактора) приняты за единицу (Табл.2–4).
Таблица 2–4. Пропорции в группах
Фактор риска (прогноза)
Да
Заболевание
(состояние)
π1 =
Нет
Есть
π1
π2
Нет
1 −π 1
1 −π 2
1
1
A
B
, π2 =
.
A+C
B+D
Относительный риск RR =
π1
π 1– π2
, отношение шансов OR = 1 ×
.
π2
π 2 1 – π1
Как видно, если π 1 и π 2 достаточно малы, то отношение шансов является хорошим приближением для оценки относительного риска (поскольку отно1– π2
шение
очень близко к единице).
1 – π1
21
В исследованиях случай-контроль нельзя оценить относительный риск,
но всегда можно оценить отношение шансов, хотя иногда это может привести к
ложным заключениям, если заключение распространяется на всю популяцию.
2.8. Подходы к анализу рисков при множественных исходах и нескольких уровнях фактора
Если у фактора есть 3 уровня, то возможно построение таблицы 2 × 3 , которую можно проанализировать аналогично вышеприведенному и определить
риски или отношения шансов (Табл.2–5).
Таблица 2–5. Представление данных таблицей
Фактор риска (прогноза)
Нет
Есть
Заболевание
(состояние)
Нет
Малый
2× 3
Большой
C
E
A+C+E
B
D
F
B+D+F
A+B
C+D
E+F
N
A
В этом случае определяется относительный риск от базового значения
фактора. Если за базовый принят столбец «Нет», то
(C (C + D )) , RR3 = (E (E + F )) .
RR 2 =
( A ( A + B ))
( A ( A + B ))
Далее может оценивается гомогенность (однородность) относительных
рисков, их тренды: возрастает ли относительный риск с увеличением уровня
воздействия фактора ( RR3 > RR 2 ), убывает ( RR3 < RR 2 ) или различий нет.
Для отношения шансов при нескольких уровнях фактора действия аналогичны.
C×B
E×B
OR 2 =
, OR3 =
.
A× D
F×A
Аналогичные рассуждения можно применить и к множественным исходам, перейдя к таблицам, которые называются r × c таблицы, таблицы сопряженности (contingency tables). Анализ таких таблиц относится к непараметрическому анализу (анализ таблиц сопряженности).
При исходе, который связан с количественным параметром, применяются
иные подходы, например, анализ трендов, анализ ковариаций, регрессионный и
дисперсионный анализ (хотя по сути задача остается все той же – определение
возрастания или убывания некоторой исследуемой переменной, которая чаще
всего связана с риском наступления исхода, при увеличении/уменьшении уровня некоторого фактора. Часто шкалу количественной переменной разбивают на
некоторые диапазоны (например, ниже нормы, норма, выше нормы) и анализируют подобно таблицам сопряженности.
Приведенные выше расчеты относительных рисков и отношения шансов
– это только краткое введение в оценку рисков. Далее, с помощью статистических оценок и процедур, мы сможем доказать, что фактор действительно ассо22
циируется с исходом, доказать наличие или отсутствие возрастания неблагоприятного или благоприятного исхода при изменении фактора. Подробнее о
различных статистических процедурах анализа будет рассказано в следующих
разделах.
Статистическая связь фактора и исхода не подразумевает ни биологическую, ни клиническую, ни иную связь или зависимость.
Основные аспекты
Различия между обсервационными и активными наблюдениями.
Базовые типы дизайнов.
Естественная и целевая выборки, которые связаны с понятиями относительного риска и отношения шансов и возможностью экстраполяции результатов на всю популяцию.
Недопустимость подбора групп в дизайне «случай-контроль» по различию в исследуемой переменной, а только в схожести неисследуемых параметров, которые могут служить критериями включения и исключения в исследование.
Исход, как понятие дизайна в эпидемиологических исследованиях.
Различие в понятиях «фактор риска» и «фактор прогноза».
3. Переменные исследования и типы данных
3.1. Переменные исследования
Определив и сформулировав основную гипотезу исследований, необходимо определиться, какие данные нужны для ее доказательства (или опровержения). Прежде чем начать сбор и обработку данных, необходимо понять, как
данные будут соотноситься между собой в исследовании. Переменные исследования могут быть следующими:
Независимые переменные (Independent Variables)
Переменные, воздействие которых исследуется для демонстрации их
влияния на результат, называются независимыми переменными, ковариатами,
предикторами, факторами (independent variable, covariates, predictor, factor) .
Так например, курение – независимая переменная в исследовании заболеваемостью раком легких. Тип лечения также будет независимой переменной.
В обсервационных исследованиях независимой переменной не управляют. За ними пассивно наблюдают. В рандомизированных клинических испытаниях независимой переменной является препарат и дозы, которые контролируются на стадии начала исследования (несмотря на то, что пациенты получают
лечение случайным образом – рандомизированно).
Зависимые переменные (Dependent Variables)
Переменные, которые изучаются в исследовании, однако они, как правило, не управляются исследователем. Если воспользоваться предыдущим примером, то наличие или отсутствие рака легких – это зависимая переменная. Их
также называют переменной отклика, исходом (response, outcome). Термин «отклик» предполагает наличие причинно-следственной связи, что не всегда имеет
место, или не всегда биологические доказуемо.
23
Скрытые/вмешивающиеся переменные (Confounding Variables)
Переменные, которые влияют одновременно на зависимые и независимые переменные в исследовании. Они не являются предметом изучения, но могут вносить искажения во взаимосвязь между зависимыми и независимыми переменными. Иногда они не включены в план исследования, однако проявляются
в искажении результатов. Очень часто скрытыми переменными могут выступать возраст, пол. Их также называют вмешивающимися переменными. Для
выявления их влияния может использоваться стратифицированный анализ, ковариационный анализ и др.
3.2. Типы данных в исследованиях
Данные, получаемые в результате наблюдений, бывают трех видов: количественные, порядковые и качественные.
Количественные данные (interval, continuous, cardinal data) – это величины, которым присущ естественный порядок расположения с равными интервалами между последовательными значениями, независимо от их места на шкале.
Например: масса, длина, количество полных лет и т.п. О них мы можем сказать
– «в два раза больше», «на 5 единиц больше».
Порядковые/ординальные данные (ordinal data) – это величины, которые
могут быть расположены в естественном порядке или ранжированы, например
от малого до большого, от хорошего до плохого, однако размер интервала между такими соседними значениями не может быть выражен количественно. Например, малый – средний – выше среднего – большой – огромный. О них мы
можем сказать «больше», «меньше», «лучше», «хуже», но не можем сказать, на
сколько единиц больше или во сколько раз лучше. Их можно расположить по
выраженности некоторого свойства и присвоить ранги (натуральные числа 1,
2,…). Эти ранги будут отражать порядок нарастания (убывания) некоторого
свойства. Типичный пример – это группы риска при лечении некоторого заболевания (standard/intermediate/high risk).
Качественные/категориальные/номинальные данные (nominal data) – это
величины, которые нельзя расположить в естественном порядке. Например,
предпочтения в еде: рыба, пирожные, картофель, мясо. Или, например, способ
лечения: хирургический, радиотерапия, обсервационный. Такие данные называют также категориальными, поскольку их можно отнести к той или иной категории.
Качественные данные, которые могут быть отнесены только к одной из
двух категорий (наличие-отсутствие, мужчина-женщина, да-нет), называются
дихотомическими/биноминальными (dichotomous data, binominal data).
Качественные данные, которые могут быть отнесены к одной из нескольких категорий (больше двух) называются иногда мультиноминальными, чтобы
подчеркнуть их отличие от биноминальных. Как уже было сказано, сами качественные данные нельзя расположить в естественном порядке, но тем не менее,
можно задать искусственный порядок, связав категории с интервалами некоторой шкалы (порядковой или количественной). В этом случае они называются
упорядоченными категориями (ordered multinomanal data) и совпадают с поряд24
ковыми данными. Например, есть три группы лечения – плацебо, традиционное
и экспериментальное лечение. Лечение – это качественный фактор, однако по
некоторым соображениям мы можем говорить о том, что группы лечения могут
быть упорядочены определенным образом и проследить, есть ли тренд в эффекте от лечения в группах плацебо (1), традиционного лечения (2) и экспериментального лечения (3).
В любом случае, каждое из наблюдений в выборке может быть отнесено
только к одной из категорий.
Мы также можем сравнивать количество объектов, принадлежащих разным категориям (например, количество наблюдений в группе). Для этого используется шкала целых неотрицательных чисел, на которой далее мы можем
выполнять такие действия, как сложение, умножение. Однако надо понимать,
что сравнивается не два объекта на одной шкале измерения, а две (или более)
группы объектов по их количеству.
От типа данных зависит способ их обработки и анализа. Например, вы не можете складывать предпочтения в еде, среднее для описания выборки в таком исследовании невозможно. Также и методы обработки наблюдаемых данных зависят от их типа.
Несмотря на то, что эти три градации полностью описывают возможные
типы данных в исследовании, необходимо заметить, что в статистическом анализе таких данных есть свои нюансы, и выбор статистической процедуры анализа зависит именно от них.
Количественные данные, полученные в исследовании, могут подчиняться
закону нормального распределения. Если в процессе анализа выявляется, что
это не так, то к таким данным относятся как к порядковым данным (понижение
шкалы). Например, у нас есть несколько измерений: 0,5; 2,7; 13,4; 105,1, 578,3.
По форме это количественные данные, но размах всего пяти значений от 0,5 до
578,3 не позволит нам анализировать их как данные из нормального распределения. В этом случае более правильным будет выбор процедур анализа, которые
интерпретируют эти данные как ранги 1, 2, 3, 4, 5.
Качественные данные могут иметь несколько категорий, которые могут
быть упорядочены, например, тяжесть заболевания ( I, II, III, IV). В этом случае
их также можно отнести к порядковым данным.
Мультиноминальная (в частности, биноминальная) переменная представляет собой данные, в которых в основном, содержатся некоторые события, например: жив-умер, заболел-здоров и пр. Если исследователя интересует количество определенных событий, наступивших в исследовании, то оно подсчитывается на основании биноминальных данных. Для выборки, содержащей более
одного наблюдения, мы можем оценить частоту появления некоторого события.
Если мы делим количество наблюдений, когда определенные события наблюдаются выборке, на общее число наблюдений в выборке, мы оцениваем пропорцию. Пропорция, рассчитанная на основе естественной выборки – это точечная
оценка пропорции в популяции. Интерпретация пропорции выборки – это оценка вероятности событий в популяции (для когортных и одномоментных исследований). И эта вероятность не имеет нормального распределения. Предполага25
ется, что события распределены по биномиальному или Пуассоновскому закону.
Биномиальное распределение используется при расчете вероятностей,
когда наблюдения независимы друг от друга, то есть результат одного наблюдения не зависит от другого, а исход измеряется биноминальной переменной
(событие наступило/событие не наступило).
Пуассоновское распределение – это частный случай биномиального распределения, которое используется, когда события являются редкими по отношению ко всей выборке, поэтому для расчета используются не пропорция, а
уровень риска, интенсивность, скорость (rate). Понятие «rate» будет подробно
рассмотрено в разделе 18.
В общем случае и пропорция и интенсивность состоят из числителя и
знаменателя. Числитель – это количество событий и для интенсивности и для
пропорции. Знаменатель для пропорции – это общее количество наблюдаемых в
выборке. Знаменатель для интенсивности – рассчитывается как число человеколет (person-year) наблюдения до наступления события или окончания исследования. В открытых когортных исследованиях чаще используется интенсивность (rate), поскольку события редкие и развиваются во времени. В остальных
типах дизайна чаще используется пропорция.
В отечественной литературе (на русском языке) часто эти два понятия
смешивают, поскольку термин «rate» имеет несколько переводов и может переводится как «доля». В дальнейшем по тексту будет говориться или о пропорции
или о интенсивности/уровне риска, как об отношении, характеризующим частоту событий в выборке, в зависимости от того, какие исследования нас интересуют.
Также в англоязычной литературе кроме термина пропорция «proportion»
используется термин «fraction» – пропорция, часть, доля. Фактически они выражают одну и ту же величину, только пропорция обычно измеряется в процентах, часть измеряется в долях от 1.1
Таким образом, для медико-биологических исследований с последующим
статистическим анализом можно выделить:
Количественные данные
– количественные переменные, распределенные по закону нормального
распределения (измеряются для каждого участника исследований);
– количественные переменные, не подчиняющиеся закону нормального
распределения (измеряются для каждого участника исследований);
1
В оригинале книги Ланга (2011) ( Lang and Secic, How to Report Statistics in Medicine:
Annotated Guidelines for Authors) используются термины “proportion” и “rate”, которые в
руском переводе книги звучат как “доля” и “частота” соответственно.
26
Категориальные данные1
– мультиноминальные переменные – упорядоченные категории (рассчитывается количество случаев в каждой категории по выборке);
– мультиноминальные переменные – неупорядоченные категории (рассчитывается количество случаев в каждой категории по выборке);
– биноминальные переменные (рассчитывается пропорция по выборке);
Время до события (time-to-event)
– бинарные переменные, связанные со временем наблюдения (рассчитывается интенсивность по выборке).
Заметим, что есть и многомерные исходы (т.е. исследуется сразу несколько вариантов исхода), связанные со временем наблюдения, но в данном
пособии они не рассматриваются.
Основные аспекты
Выбор переменной, описывающий исход, необходимо осуществить до
начала исследования.
Зависимая переменная в исследовании чаще всего одна и как правило,
интерпретируется как исход.
Независимых переменных может быть несколько, и они разные по своей
природе и могут быть связаны между собой.
Скрытые переменные могут исказить результаты ваших доказательств.
Задача статистического анализа в эпидемиологических исследованиях –
найти связь, ассоциацию, зависимость между исходом и факторами, предположительно влияющими на исход, доказать, что они действительно связаны в статистическом смысле, если возможно, оценить степень этой связи.
4. Гипотеза исследования
Гипотеза формулируется в начале исследования, для того, чтобы понять,
какие доказательства нужно собрать для ее подтверждения или опровержения,
какой дизайн исследования предпочесть. Формулирование основной гипотезы
(primary hypothesis) исследования включает формулирование нулевой гипотезы
( H 0 ), которая является «основным состоянием», которое, как предполагают,
верно, в отсутствии убедительных доказательств, и альтернативной гипотезы
( H A ), которая будет принята после соответствующих доказательств. Иными
словами, основное состояние будет сохраняться, до тех пор, пока не будет доказательств обратного.
4.1. Типы ошибок
Расхождение между характеристиками выборки и популяции, из которой
была сделана выборка, в целом оцениваются через ошибки. Различают два вида
ошибок: случайную ошибку и систематическую ошибку, возникающую вследствие нарушения правил отбора (или из-за смещений при отборе). При опреде1
Чаще такие переменные в медико-биологических исследованиях выглядят как группы/подгруппы исследования. Тем не менее, по сути группы – это категориальная переменная исследования.
27
лении случайной ошибки предполагается, что ошибка регистрации данных (человеческий фактор) равна нулю. Систематическую ошибку часто называют
ошибкой, вызванной смещением (bias). Общая ошибка складывается из случайной ошибки (вследствие случайных различий между элементами совокупности,
включенными в выборку и не попавшими в нее) и из смещения (систематической ошибки), если оно существует. Систематическую ошибку исследователь
должен устранять. И проверка гипотез строится на основании того, что существует только случайная ошибка. В таблице 4–1 приведены возможные отношения гипотезы и истинного состояния.
Таблица 4–1. Соотношение гипотезы исследования и истинного состояния проблемы
Истинное состояние
Принятие H0
Отклонение H0
H0 истинна
H0 ложна
Корректно
Ошибка II рода
Ошибка I рода
Корректно
Ошибки первого рода (type I errors, α errors, false positives) и ошибки
второго рода (type II errors, β errors, false negatives) в математической статистике – это ключевые понятия задач проверки статистических гипотез.
Ошибка I рода обозначается α (альфа-ошибка) и означает, что нулевая
гипотеза H 0 отвергается, что приводит к ложноположительному заключению о
наличии, как правило, некоторого эффекта между изучаемыми величинами, в то
время, когда на самом деле его не существует. Иными словами, отвергается нулевая гипотеза H 0 , когда она истинна.
Ложноотрицательное заключение – это принятие нулевой гипотезы H 0 ,
в то время как эффект существует. Иными словами, нулевая гипотеза H 0 остается в силе, когда она ложна. Такая ошибка называется ошибкой II рода, обозначается β (бета-ошибка).
Мощность теста (вероятность отклонения нулевой гипотезы, когда она
ложна) определяется как 1 − β . Мощность 80–90% обычно является приемлемым уровнем в исследованиях.
Заметьте, что мы говорим только о нулевой гипотезе, т.е. мы ее опровергаем, что служит доказательством альтернативной гипотезы, или не опровергаем, что констатирует текущее состояние исследуемого вопроса.
Нулевая гипотеза не доказывается, она принимается в отсутствии других доказательств.
4.2. Понятие уровня значимости
В статистике величину называют статистически значимой, если мала
вероятность чисто случайного ее возникновения или ещё более крайних величин. Степень отклонения от нулевой гипотезы H 0 «статистически значима»,
28
если имеются данные, появление которых было бы маловероятно, если бы эта
гипотеза была верна.
Уровень значимости критерия (теста) – это традиционное понятие проверки гипотез в статистике. Он определяется, как вероятность принять решение
отклонить нулевую гипотезу H 0 , если на самом деле она верна. Процесс решения часто опирается на величину p : если p меньше уровня значимости, то нулевая гипотеза H 0 отвергается. Чем меньше величина p , тем более значимой
называется тестовая статистика. Чем меньше величина p , тем сильнее основания отвергнуть нулевую гипотезу H 0 .
Уровень значимости в исследованиях – это вероятность ( p ), ниже которой нулевая гипотеза H 0 может быть отвергнута. Большинство прикладных
исследователей в медицине принимают p < 0,05 для того, чтобы отклонить
нулевую гипотезу H 0 .
Хотя статистическая значимость может быть истинной, она может быть
также искусственной из-за скрытых/вмешивающихся факторов. Статистическая
значимость не доказывает ни причинно-следственную связь, ни клиническую
значимость.
Уровень значимости и есть ошибка I рода – вероятность отклонения нулевой гипотезы,
когда она истинна.
4.3. Мощность исследования и расчет объемов выборок
Расчет необходимого размера выборки производится при проектировании дизайна исследования.
Для расчета необходимого размера выборки предполагается, что исследователь знает следующие величины:
– мощность ( 1 – β ), которая определяется вероятностью ложного принятия нулевой гипотезы. Обычно выбирают мощность, равную 80–90%
β = 0,1 ÷ 0,2 ;
– уровень значимости α – граничный уровень, ниже которого отбрасывают нулевую гипотезу. Обычно это 0,05 или 0,01;
– вариацию наблюдений, например стандартное отклонение, если с исходом связана числовая переменная;
– наименьший интересующий эффект — величина минимального эффекта, который важен в исследовании. Часто это некоторое различие (например,
разность в средних или пропорциях). Эффект, например, может быть выражен в
том, что снизилось содержание сахара в крови на 10 ммоль/л.
Ниже приведены самые общие формулы для расчета объемов выборок
для двух групп: исследуемой и контрольной. Если критерием исхода является
количественная переменная, то формула расчета минимального объема групп
для сравнения средних в двух независимых группах:
29
n≈
2
2
sиссл
+ sконтр
(zγ + z1– β )2 ,
∆
2
2
и sконтр
- дисперсии интересующей исследователя переменной
где sиссл
2
(исхода) в исследуемой и контрольной группах; zγ – значение
γ -квантиля
стандартного нормального распределения1; ∆ – наименьший интересующий
эффект (разница в средних).
n округляется до большего целого значения.
Если переменная исследования является пропорцией, то приблизительный расчет для равных групп осуществляется по формуле при условии
0,25 < π < 0,75 .
π иссл (1 − π иссл ) + π контр 1 − π контр
n≈
zγ + z1−β 2 ,
2
∆
Где π иссл и π контр – пропорции в исследуемой и контрольной группах,
(
)(
)
∆ – наименьший интересующий эффект (разница в пропорциях). Если это условие 0,25 < π < 0,75 не выполняется, то:
n≈
(2 arcsin
(zγ + z1− β )2
π иссл − 2 arcsin π контр
)
2
,
n округляется до большего целого значения.
Если исследователь не имеет информации о вариации и предполагаемой
разнице в эффектах, то рассчитать требуемый размер выборки затруднительно.
Часто информацию получают из пилотных исследований, из опубликованных
результатов, из предварительных собственных результатов.
Существует программное обеспечение, которое может моделировать зависимости изменения требуемого размера выборки от наименьшего интересующего эффекта, уровня значимости, мощности. Однако первичную информацию задает исследователь.
Пример расчета необходимого объема будет дан в примере раздела 14,
после описания тестов средних и пропорций.
4.4. Этапы проверки статистических гипотез
Проверка гипотез исключительно важна в медико-биологических исследованиях, она позволяет исследователям обобщить выводы, которые базируются на исследовательской выборке, на всю популяцию.
1
При тестировании нулевой гипотезы о равенстве средних против альтернативной гипо-
тезы о том, что средние не равны γ = 1 − α
2
, т.е. для α = 0,05
γ = 0,975 ; при тести-
ровании нулевой гипотезы о равенстве средних против альтернативной гипотезы о том,
что одно из средних больше(меньше) другого γ = 1 − α .
30
Целью проверки гипотез является определение статистической значимости. Проверка гипотезы может подтвердить или отклонить утверждение о том,
что наблюдаемые результаты не случайны, а отражают связь между переменными.
Общий подход таков: выдвигается нулевая гипотеза H 0 о том, что зависимости между изучаемыми явлениями нет. Альтернативная гипотеза H A заключается в том, что связь есть, и она не случайна.
Выдвигаются две противоречащие друг другу гипотезы: нулевая гипотеза
H 0 о том, что связь (зависимость) случайна, альтернативная H A ей противоречит. Доказав, что гипотеза H 0 несостоятельна, мы докажем, что альтернативная гипотеза верна.
Для проверки гипотезы используют критерии(тесты), позволяющие принять или опровергнуть гипотезу.
Проверяется всегда нулевая гипотеза.
1. Формулируется основная гипотеза H 0 и альтернативная гипотеза H A .
3. Задается вероятность α , называемая уровнем значимости и отвечающая ошибкам первого рода, на котором в дальнейшем и будет сделан вывод о
правдивости гипотезы.
2. Задается некоторый статистический критерий (функция от выборки –
статистика), для которой в условиях справедливости гипотезы H 0 существует
известный закон распределения.
Расчет значения статистики критерия, по ее значению можно делать выводы об истинности гипотезы H 0 ;
4. Сравнение значений статистики критерия со значениями из известного
распределения вероятности (для данной статистики).
Когда исследуется наличие разницы в двух выборках, например по среднему значению,
то исследователь может предположить, что например, среднее контрольной группы
больше, чем среднее исследуемой группы (A>B). Тогда проверка гипотезы осуществляется по одностороннему критерию. Если исследователь предполагает, что А отличается
от В (A>B или A<B) , то это так называемый двусторонний критерий.
5. Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в формулу статистики и по попаданию (или непопаданию)статистики в критическую область выносится решение об отклонении выдвинутой гипотезы H 0 .
6. Интерпретация результатов статистической проверки.
Особенность доказательной статистики такова, что вы можете доказать
альтернативную гипотезу, путем опровержения нулевой гипотезы, но вы не доказываете нулевую гипотезу. Нулевая гипотеза либо опровергается в пользу
альтернативной, либо нет.
31
Основные аспекты
Систематическая ошибка может быть устранена соответствующим подбором дизайна и выполнением требований по дизайну, статистический критерий сам по себе такие ошибки «не видит».
Мощность исследования (т.е. размер выборки) надо рассчитывать, опираясь на известные вам факты из литературы или собственных исследований. Если по всем переменным, которые включены в исследование у вас нет материала,
используйте хотя бы сведения о значениях факторов/показателей, по которым
есть некоторые предварительные данные.
Нулевая гипотеза чаще всего констатирует текущее состояние проблемы
(проблема не изучена, следовательно, различий, трендов, разницы нет), и, опровергая ее, вы изучаете доказательства, которые говорят об обратном.
5. Сбор данных
При сборе данных лучше всего использовать заранее разработанную
форму (анкету) для записи данных. Это сэкономит время и снизит количество
ошибок. Современные возможности компьютеров позволяют заносить данные в
таблицы для их непосредственного анализа.
Несколько основных принципов формирования таблиц данных для последующего анализа.
Одна строка – один случай. В каждой строке у вас будут содержаться
данные, относящиеся к одному наблюдению (исследуемому, пациенту). В колонках (столбцах) будут находиться факторы (переменные) исследования. Колонки должны быть именованы. Строки – иметь уникальный идентификатор.
По-возможности избегайте записи исследуемых пациентов по фамилии. Это
неэтично, как минимум.
Набор значений переменной (фактора) в вашей выборке – это столбец.
Набор значений факторов, характеризующих каждый случай в выборке – это
строка. Ячейка на пересечении столбца и строки – это точка данных.
При записи числовых данных, имеющих единицу измерения, все измерения должны быть записаны в одних и тех же единицах измерения. Например,
рост. Недопустима запись 165 для одного исследуемого и 1,78 для другого. Поэтому лучше, чтобы наименование колонки содержало не только наименование
фактора, но и единицу измерения («Рост, см»).
Разделитель целой и дробной части числа в разных компьютерах может
быть разным. Поэтому, по возможности, используйте цифровую часть клавиатуры для ввода числовых данных.
Для биноминальных переменных, а также некоторых категориальных в
практике используются не цифры, а слова и выражения. Не все компьютерные
программы анализа «понимают» текст в ячейке данных. Чаще используются
коды, т.е запись слов и выражений числовыми кодами. Для этого создайте отдельный лист, где будут записаны выражения и их числовые коды. Числовые
коды и числа – разные понятия, числовые коды нельзя складывать, перемножать, однако иногда они бывают упорядоченными, например, оценки состояния
32
пациента. Если вы решили использовать слова, то для одного и того же состояния они должны быть одинаковы, например, если вы проставляете значение
переменной пол: «мужской/женский», то используйте только эти два слова, сокращения «муж»,»м» и пр. будут рассматриваться компьютером как различные
состояния.
Примеры кодов:
Состояние
Хорошее
Удовлетворительное
Неудовлетворительное
Баллы
5
3
1
Пол
Мужчина
Женщина
Код
1
2
Курение
Да
Нет
Код
1
0
При кодировании бинарной переменной обычно «1» кодируют интересующее исследователя состояние. Отсутствие интересующего состояния кодируется как «0».
Работа с датами. Если данные о датах вводятся в компьютер, то нужно
использовать тот формат даты, который установлен на Вашем компьютере. Если необходимо рассчитать длительность периода между двумя датами, то правильнее будет ввести дату начала и дату конца наблюдений. Большинство программ, предназначенных для анализа данных, сами рассчитают длительность, в
этом случае не будет ошибки, связанной с ручным расчетом периода.
В случае дизайна «matched pairs» исследования случай-контроль случаем
является пара. Поэтому правильнее будет записывать в таблицу пары исследуемых.
Таблица 5–1. Пример записей парного исследования
Номер
пары
Номер карты,
группа случай
1
2
…
45/2001
1923/2001
…
Номер карты,
группа
контроль
56/2003
2299/2000
…
Рост в группе случай,
см
Рост в группе контроль,
см
156
184
…
168
172
…
Округление данных. Данные каждого столбца, в котором фиксируется
уровень некоторого фактора, должны быть записаны с одинаковой точностью,
т.е. количество знаков после разделителя целой и дробной части числа должно
быть одинаковым по всем столбцу. Если некоторый фактор измеряется прибором, то результат измерения округляется до того же десятичного разряда, которым оканчивается округленное значение абсолютной погрешности прибора.
33
Прежде чем приступить к анализу данных, необходимо убедится, что
данные записаны верно. Самый простой способ – это проконтролировать минимальное и максимальное значение в столбце, количество пустых ячеек в столбцах. Однако ошибки ввода/записи могут быть менее заметны, поэтому нужно
соблюдать аккуратность при вводе значений.
Кроме проверки на минимальное и максимальное значение, можно и
нужно использовать и логические проверки. Например, если возраст исследуемого меньше, чем длительность хронического заболевания, то есть основания
предполагать, что в данных ошибка. Если исследуемому пациенту 13 лет и у
него есть дети, эти данные нуждаются в проверке и т.п. Все эти проверки помогут сократить ошибки, связанные с человеческим фактором при записи данных.
Тщательно проверяйте данные. Ошибка в результате неправильного ввода может привести к неправильным результатам анализа. Исправления, которые вносятся позже, чем
начат анализ, могут внести путаницу. Поэтому, если исправления вносятся на этапе анализа, правильнее будет повторить весь анализ на измененных данных заново.
Основные аспекты
При сборе данных желательны такие качества исследователя как аккуратность и кропотливость, внимательность и легкая недоверчивость к самому
себе. Перепроверяйте себя. Это сэкономит время, когда данные перепроверит
кто-то другой и найдет ошибку, а вам придется переделывать весь анализ заново. Аккуратная таблица с данными в любой момент может быть предъявлена,
как результат сбора данных. Не делайте расчеты прямо в ней. Сохраните оригинал, работайте с копией.
6. Основные виды распределений
Цель статистического анализа – сделать некоторые выводы о совокупности (популяции), используя выборку из нее. Большинство методов основано на
предположении, что используются случайные выборки. В основе выборочных
данных лежит некоторое распределение. Его идентификация по выборочным
значениям дает возможность более точного анализа, установления некоторых
характеристик выборочной совокупности и пр.
В теории статистических выводов используются величины, рассчитанные
по выборке, которые называются статистики. Это, например, выборочное (т.е.
рассчитанное по выборке) среднее, выборочная дисперсия и т.п. Часто оказывается возможным найти распределение вероятностей данной статистики, если
известно распределение для совокупности, из которой была взята выборка. Распределение вероятностей статистики называется выборочным распределением.
Рассмотрим в общих чертах некоторые виды распределений.
Нормальное (Гауссовское) распределение и его основные свойства
Нормальное распределение играет исключительно важную роль в теории
вероятностей и математической статистике.
Считается, что случайная ошибка измерений распределена по закону
нормального распределения («нормально»). В большинстве случаев значения
данных будут группироваться вокруг некоторого значения, такого как среднее
34
или медиана. Рассеяние данных (определяется как сумма квадратов расстояний
от данных до среднего) называют дисперсией или вариацией. Распределение с
большой вариацией будет более разбросано, чем с малой вариацией (Рис. 6–1).
Нормальное распределение обозначается N µ ; σ 2 , где µ – среднее, σ 2
дисперсия. Стандартное нормальное распределение имеет следующие характеристики: µ = 0, σ = 1 . Записывается как NID(0; 1) . Случайная величина x , распределенная нормально, может быть преобразована к стандартизированной
(x − µ ) . Т.е. если есть переменная
(нормированной) случайной величине z =
(
(
)
x ~ N µ; σ 2 , то
(x − µ ) ~ NID(0;1) .
z=
)
σ
σ
`
Рис.6–1. Нормальное распределение с различной вариацией
Свойства нормального распределения:
Имеет колоколообразную форму.
Симметрично относительно среднего.
Среднее, медиана и мода равны.
Дисперсия или разброс значений относительно среднего выражается
стандартным отклонением.
68% значений попадают в интервал x ± s .
95% значений попадают в интервал x ± 2 s .
99,7% значений попадают в интервал x ± 3s .
Для многих методов статистики исходным является допущение, что случайная переменная распределена по закону нормального распределения. Обоснованием такого допущения часто служит центральная предельная теорема.
Утверждение этой теоремы состоит в том, что сумма n независимых случайных переменных распределена приближенно по закону нормального распределения. Фактически, это означает, что мы можем сравнивать средние выборочных распределений, даже если сами распределения отклоняются от нормально35
го. Однако размер выборок может варьироваться в каждом конкретном случае.
Иногда хватает 10 наблюдений, иногда нужно более 100.
99,7%
95%
68%
-3
-2
-1
0
1
2
3
Среднее
Медиана
Мода
Рис. 6–2. Свойства нормального распределения
Асимметричные распределения
Если в симметричном распределении среднее, медиана и мода равны между собой, то в ассиметричном эти величины разновелики. Если среднее меньше медианы, а медиана в свою очередь меньше моды, то распределение называют скошенным влево или имеющим отрицательный уклон. Если медиана
больше моды, а среднее больше медианы, то распределение скошено вправо или
имеет положительный уклон(Рис.6–3).
Среднее
Медиана
Мода
Среднее
Медиана
Мода
Рис. 6–3. Скошенные (ассиметричные) распределения
Если распределение случайной величины мультмодальное (т.е. мода не одна, а несколько, это может быть признаком того, что или не учтен некоторый фактор в исследовании,
или (что с неопытным исследователем происходит чаще) исследование не продумано,
например, произошло слияние данных по двум подтипам заболевания, которые, возможно, различаются по этому фактору.
36
Логнормальное распределение
Это распределение часто встречается в медико-биологических исследованиях. Оно имеет скошенную к одному хвосту форму (Рис. 6–4). Логнормальное распределение ограничено нулем и имеет более длинный хвост, чем нормальное. Это распределение связано с нормальным распределением соотношением: если x распределено по закону логнормального распределения, то
y = ln (x ) распределено нормально.
Рис. 6–4. Логнормальное распределение
В дальнейшем, если используются некоторые модели и тесты, с данными,
не отвечающими нормальному распределению, может быть выполнено преобразование, которое их нормализует. Если такого преобразования нельзя найти,
то данные «понижаются в шкале», и к ним относятся как к порядковым данным.
Преобразовывать данные не всегда нужно (и не всегда можно). Есть ряд непараметрических тестов (критериев), которые работают с порядковыми данными
без преобразования. Если преобразование выполнено, и преобразованные данные нормальны, то все дальнейшие выводы, построенные на этих преобразованных данных, касаются именно их, а не первоначальных.
Таким образом, после проверки на нормальность распределения количественных данных, исследователю становится понятно, вправе ли он использовать параметрические тесты (которые используют параметры распределения
при вычислении статистик), или непараметрические, для которых не играет роли характер распределения.
Критерии (тесты) проверки данных на нормальность распределения присутствуют в статистических пакетах. Эти критерии также носят название критериев согласия.
Биномиальное распределение
Биномиальное распределение – это распределение количества «успехов»
в последовательности из n независимых случайных экспериментов, таких что
вероятность «успеха» в каждом из них равна π .
37
В медицинских исследованиях предполагается, что биноминальные данные подчиняются закону биноминального распределения. Биномиальное распределение описывают n – число испытуемых в выборке (или число повторений испытания), и π – вероятность наступления события (успешного лечения,
неблагоприятного исхода и пр.) каждого испытуемого (или при каждом испытании). Свойства биномиального распределения можно использовать, чтобы сделать выводы относительно пропорций в выборке. Пропорция – предполагается
распределенной по закону биноминального распределения.
Биноминальное распределение аппроксимируется нормальным распределением и некоторыми другими, что позволяет использовать соответствующие
тесты.
Распределение Пуассона
Распределение Пуассона моделирует случайную величину, представляющую собой число событий, произошедших за фиксированное время, при
условии, что данные события происходят с некоторой фиксированной средней
интенсивностью λ и независимо друг от друга. Например, число госпитализаций в день типичная переменная, отвечающая распределению Пуассона.
В выборке такие данные могут быть представлены как количество событий за время наблюдения, или время до момента свершения события.
И в одном, и в другом случае – это распределение Пуассона, однако в
первом случае, когда количество событий есть у каждого исследуемого, такие
данные могут быть аппроксимированы нормальным распределением, при условии, что время наблюдения одинаково у всех случаев. Если время наблюдения
одинаково для всей выборки или не играет роли в исследовании, данные представляются как количество событий – целые числа (например, количество детей
у исследуемого, число госпитализируемых за сутки и т.п.).
χ 2 распределение
К важным выборочным распределениям, которые могут быть определены
через нормальные случайные переменные, относится распределение χ 2 (хиквадрат) распределение. Если z1 , z2 ,K, z k – независимые случайные переменные, распределенные нормально с нулевым средним и единичной дисперсией
NID(0; 1) , то случайная переменная χ k2 = z12 + z22 + K + zk2 (сумма квадратов
случайных величин) подчиняется χ 2 -распределению с k степенями свободы.
Это распределение исключительно важно, поскольку через сумму квадратов определяется выборочная дисперсия; методы анализа таблиц сопряженности основываются на критериях типа χ 2 .
38
Распределение Стьюдента
Если z и χ k2 независимые случайные переменные со стандартизированz
ным нормальным и χ 2 -распределением, то случайная величина t k =
χ k2 k
подчиняется t -распределению (распределению Стьюдента) с k степенями свободы. При k → ∞ распределение переходит в стандартизированное нормальное
распределение. Таким образом, если x1 , x2 ,K, xn случайная выборка из
(
)
N µ ; σ 2 , то t =
x−µ
s n
подчиняется
t -распределению с (n − 1) степенями сво-
боды.
На этом распределении построены критерии типа Стьюдента.
F-распределение
Если χu2 и χ v2 – независимые случайные переменные χ 2 распределения
со степенями свободы u и v соответственно, то отношение Fu ,v =
χ u2 u
почиχ v2 v
няется F-распределению с u степенями числителя и v степенями знаменателя.
Это распределение играет важную роль в анализе вариаций ANOVA и
других методах анализа данных планируемых экспериментов.
Безусловно, есть и другие распределения, которые лежат в основе случайных величин. Но без знания основных свойств вышеприведенных распределений сложно понимать, как «работают» основные статистические параметрические критерии. Непараметрические критерии отличаются от параметрических
тем, что не требуют знания распределения случайной величины при их расчете.
Основные аспекты
Свойства распределений и возможности анализа, которые они предоставляют очень активно используются в практическом анализе. Фактически, большая часть рассуждений в статистических критериях и выводах базируется
именно на свойствах вышеописанных распределений.
7. Предварительный анализ данных
Предварительный анализ данных так иногда называют унивариантым
анализом данных. В медицинской литературе наиболее распространено следующие виды унивариантного анализа:
1. Описательное исследование, в котором исследуется одна выборка. Как
правило, анализ носит описательный характер. Цель такого анализа – учесть
влияние случая в измерениях переменной. Например, описывается серия случаев одного заболевания, рассматриваются демографические и патофизиологические характеристики этих пациентов. Крайне редко используется сам по себе.
2. Второй распространенный вид: выборка описывается для включения в
исследование. Например, перед рандомизацией в клиническом исследовании,
39
исследователь может описать общие характеристики всей выборки исследования: средний возраст, процент женщин и мужчин и пр.
В обоих видах унивариантного анализа интерес представляют описательные характеристики, а не значимость статистических тестов. Также часто унивариантный анализ может использоваться как вспомогательный инструмент при
анализе отдельной переменной, для того, чтобы понять, по какому закону она
распределена, как она себя ведет в исследовании, для последующего выбора
соответствующего теста.
Прежде чем начать анализ данных, необходимо определить, какие типы
данных у переменных исследования.
Для каждого столбца вашей таблицы (переменной исследования, фактора) необходимо найти характеристики, которые помогут взглянуть на ваши
данные в целом. Значения переменной рассматриваются как некоторое эмпирическое распределение. Очень желательно определить закон распределения этой
величины, описать это распределение некоторыми характеристиками.
7.1. Основные характеристики данных в предварительном анализе
Предварительный анализ часто называют описательными, дескриптивными статистиками данных (descriptive statistics).
Переменная в исследовании характеризуется набором своих значений для
каждого случая. Для того, чтобы работать с набором данных целиком – нужны
некоторые характеристики этого набора, которые в обобщенной форме отражали все значения этого набора. Этими характеристиками и являются дескриптивные статистики.
7.1.1. Количественные переменные
Для характеристики количественных переменных сначала нужно определить, по какому закону они распределены. Критерии, которые используются для
определения закона распределения, носят общее название критериев согласия.
Количественные переменные в исследовании часто проверяются на «нормальность» распределения.
Проверка предположения о характере распределения переменной очень часто нужна не
сама по себе, а как вспомогательная часть анализа при проверке гипотез. Некоторые критерии основываются на предположениях о характере распределения и верны только тогда, когда предположения выполняются.
Есть приблизительный быстрый способ оценки того, можно ли использовать нормальное распределение для обработки количественных данных. Рассчитываются основные статистики – выборочное среднее, выборочное среднеквадратическое отклонение, медиана, мода. Если мода, медиана и среднее расположены далеко друг от друга, то маловероятно, что данные распределены нормально. Если мода не одна, то возможно, что дизайн исследования построен
неправильно, возможно наблюдения взяты из двух и более различных распределений.
Рассчитывается коэффициент вариации по выборке: CV = s x , где s –
выборочное среднеквадратическое отклонение, x – выборочное среднее. Если
40
CV > 1,0 , то данные нельзя обрабатывать, как нормально распределенные данные. Однако, если CV ≤ 1,0 нужны дальнейшие исследования о нормальности
данных.
Для проверки гипотезы о нормальности распределения наиболее часто
используются тест Шапиро-Уилка (если размер выборки менее 50, n ≤ 50 ; в
некоторых статистических пакетах тест рассчитывается при n ≤ 5000 ), тест
Лиллиефорса, тест Шапиро-Франсиа и др. Нулевая гипотеза, которая выдвигается при проверке – данные согласуются с законом нормального распределения,
альтернативная – данные не согласуются с законом нормального распределения.
Если результат применения критерия имеет значимость p > α , то нулевая гипотеза не отвергается, вероятно, что данные распределены нормально.
Проверка на нормальность нужна часто не сама по себе, а как предположение, лежащее в основе статистических тестов. Однако, прежде чем окончательно выбрать подходящий тест (критерий) для вашего исследования, необходима проверка на наличие выбросов.
Выбросы – это аномальные значения в выборочных наблюдениях, которые отличаются от основной части данных и несовместимы с остальными данными.
Чтобы приблизительно оценить выбросы, используются графические
представления данных: гистограмма, «ящик с усами», Q-Q-график и др. Графические представления – хороший инструмент для визуального анализа данных
(см. раздел 7.2).
Один из самых простых способов обнаружить выброс в значениях одной
переменной – это рассчитать интеквартильный размах IR (см.6.1.4), умножить
его на 1,5. Далее определить границы, нижнюю как L = Q 25 − 1,5 × IR , верхнюю
как U = Q75 + 1,5 × IR . Точки, лежащие вне этого диапазона, могут рассматриваться как выбросы в данных.
Например: есть данные: 2, 8, 10, 11, 14.
Q 25 = 8 , Q75 = 11 , IR = 3 , L = 8 − 1,5 × 3 = 3,5 , L = 11 + 1,5 × 3 = 15,5 .
Сравнивая имеющиеся данные с границами, получаем, что значение 2 является выбросом.
Выбросом могут считаться данные, которые отклоняются более чем на
два стандартных отклонения от среднего выборки; не согласуются с поведением
остальных данных в выборке.
Кроме того, для анализа выбросов существуют статистические тесты и
процедуры, которые подскажут вам, какие значения переменной являются выбросами. Анализируются обычно крайние значения упорядоченного набора
значений переменной (крайне малые и крайне большие).
Ни один из тестов не подскажет вам, что делать с такими значениями.
Если значение данных является выбросом, то исследователь может:
– скорректировать точку данных: если возможно, перепроверить значение по исходному оригиналу (журналу анализов, карточке пациента и др., убе-
41
диться, если использовался некоторый прибор для измерений, что он исправен;
иногда, если сохранился материал, анализ повторяют);
– исключить из анализа эту точку, однако исключение выброса из данных
должно быть сделано с особой осторожностью, если выброс исключается из
данных, весь статистический анализ данных должен быть применен к полным и
урезанным данным так, чтобы оценить эффект от исключенных наблюдений.
Такое исключение должно быть задокументировано;
– использовать эту точку данных в анализе.
По отношению к количественной переменной вы должны убедиться, что
она подчиняется или не подчиняется закону нормального распределения, чтобы
в дальнейшем использовать соответствующие критерии. Для данных, которые
могут принимать только положительные значения и не подчиняются закону
нормального распределения – может быть сделана проверка на логнормальное
распределение. Данные преобразовываются по формуле y = ln( x ) , далее выполняется предварительный анализ на нормальность.
При записи результатов предварительного анализа нормально распределенные данные чаще всего характеризуют размером выборки, выборочными
средним и среднеквадратичным отклонением или дисперсией, иногда среднеквадратичной ошибкой среднего; данные, которые не распределены нормально
– размером выборки, медианой, минимальным и максимальным значением, 25%
и 75% перцентилями (квартилями).
7.1.2. Номинальные и категориальные переменные
Характеристика номинальных и категориальных переменных в исследовании отличается от характеристики количественных переменных.
Для расчета их характеристик нужно подсчитать количество появлений
каждой категории в столбце, которым представлена такая переменная. Обычно
вычисляется процент каждой категории представленных данных от общего количества наблюдений (размера выборки). Выполняются также расчеты доверительных интервалов, когда это необходимо для более углубленного описания
данных.
7.1.3. Характеристика времен наблюдения
Если речь идет об обработке наблюдений, которые связаны со временем
наблюдения до наступления события (или до окончания исследования), то время наблюдений характеризуют медианой и размахом (сами по себе времена наблюдения – количественная переменная, не распределена нормально). Например: медиана наблюдений составила 35(2…68) дней, цифры в скобках означают
минимальное и максимальное время наблюдений в вашей выборке. Обычно такие данные характерны в открытых когортных исследованиях. Для анализа времен наблюдения и связанных с ними событий используются методы с общим
названием «анализ выживаемости» (см. раздел 17).
7.1.4. Точечные оценки и доверительные интервалы
Точечные оценки и доверительные интервалы – это распространенный
прием в статистических исследованиях, который позволяет оценить параметры
42
распределения случайной величины. Этими параметрами можно описать переменную в исследовании. При работе с выборкой по некоторой переменной исследования мы характеризуем выборку этими параметрами на основе точечных
оценок параметров распределения, которому подчиняется данная переменная
(случайная величина). Точечная оценка параметра распределения – это некоторое число, которое интегрально характеризует весь набор значений переменной
в исследовании (выборочные среднее, медиана, дисперсия и др.). Доверительный интервал – это интервальная оценка параметра распределения. 95% доверительный интервал означает, что если исследование повторить много раз, то параметр будет лежать в интервале в 95% случаев. Чаще всего в доказательной
медицине используется 95% двусторонний доверительный интервал.
Ширина доверительного интервала зависит от дисперсии (вариации, изменчивости) выборки. Расчет доверительного интервала зависит от закона распределения случайной величины.
Точечная оценка – это одна величина, значение которой вычисляется на основе данных
выборки. Интервальная оценка – это два значения (нижнее и верхнее значения интервала), которые также вычисляются на основе выборочных данных. Для некоторых характеристик распределений существует много вариантов расчетов их доверительных интервалов. В данном пособии приводятся наиболее простые формулы.
Среднее значение
Точечная оценка. Используется для количественных переменных, распределенных по закону нормального распределения. Является мерой положения.
Выборочное среднее значение (т.е. оценка среднего по имеющейся выборке) рассчитывается как:
x=
1
n
n
∑ xi
i =1
где n – численность выборки,
xi , i = 1,2, K , n – значения переменной в выборке по каждому случаю.
Доверительный интервал для среднего
Интервальная оценка. Нижняя (индекс L – lower) и верхняя (индекс U –
upper) границы доверительного интервала определяются как:
s
s
x L = x − tγ ;(n −1) ×
; xU = x + tγ ;(n −1) ×
,
n
n
где x – выборочное среднее;
s – выборочное среднеквадратичное отклонение;
tγ ; (n −1) – значение γ -квантиля распределения Стьюдента с n − 1 степенями
свободы,
γ =1−α 2
для
двустороннего
интервала,
α = 0,05 γ = 0,975 , для одностороннего интервала γ = 1 − α ;
n – численность выборки.
43
т.е.
для
Фактически, этот интервал покрывает (1 − α )% распределения исследуемой характеристики. Для среднего – это распределение среднего, а не выборки, на основе которой рассчитано среднее.
В литературе обычно приводятся данные о двустороннем доверительном
интервале. Говорят, что рассчитан (1 − α )% интервал для некоторой характеристики распределения. Например, 95% доверительный интервал для среднего.
Указание в тексте публикации значений нижней и верхней границы свидетельствует о том, что интервал двусторонний. Как правило, в публикациях приводится в первую очередь среднее, стандартное отклонение или стандартная
ошибка среднего, доверительные интервалы приводятся как дополнительная
вспомогательная информация.
Медиана
Точечная оценка. Если значения переменной, полученной в исследовании, упорядочить по возрастанию, то медиана – это значение переменной, которое делит упорядоченную совокупность наблюдений пополам, так что одна половина значений в этой совокупности лежит ниже медианы, а другая их половина – выше медианы. Если совокупность образована нечетным числом значений наблюдаемой переменной, то медиана равна значению переменной, являющемуся серединой упорядоченной совокупности наблюдений. Если же совокупность образована четным числом значений, то медиана определяется значением, лежащим посередине между двумя значениями, находящимися в центре
упорядоченной совокупности наблюдений. Медиана – мера положения, используется, когда переменная порядковая или количественная. Медиана нечувствительна к величине крайних значений упорядоченной совокупности наблюдений.
Точечная оценка медианы рассчитывается следующим образом:
Пусть x1 , x2 , K , xn представляют n значений переменной исследования.
Медиана – центр значений, которые упорядочены по возрастанию
x (1 ) , x (2) ,K , x (n ) x (1 ) ≤ x (2) ≤ K ≤ x (n ) .
Если n – нечетное ~
x=x
(
)
((n+1) 2 )
x(n 2 ) + x((n 2 )+1)
x=
Если n – четное ~
.
2
В публикациях приводится медиана, когда распределение переменной
исследования отлично от закона нормального распределения. Иногда приводится среднее и медиана, чтобы дать понять читателям, что выборочная переменная не подчиняется закону нормального распределения.
Доверительный интервал для медианы
Интервальная оценка. При расчете точечной оценки медианы выборка по
переменной исследования упорядочивается по возрастанию x(1) , x(2 ) , K , x(n )
(x(1) ≤ x(2) ≤ K ≤ x(n ) ) ,
и каждый член ряда получает свой порядковый номер
(номер взят в скобки при каждом x ).
44
x приблизительно
При n > 50 доверительный интервал для медианы ~
определяется порядковым номером k ,
x L = x k , xU = xn − k +1 ,
k=
где
(
)
1
n − zγ n − 1 , с округлением k до меньшего целого числа,
2
zγ – значение γ -квантиля нормального распределения, γ = 1 − α 2
для двустороннего интервала, т.е. для α = 0,05 γ = 0,975 , для одностороннего
интервала γ = 1 − α .
При n ≤ 50 можно воспользоваться специальными таблицами или статистическими пакетами.
Доверительные интервалы для медианы редко встречаются в медикобиологических публикациях.
Квартили и квантили
Точечные оценки. Перцентиль – значение данных, которые больше или
равны заданному проценту от значений данных выборки. В математических
терминах
p -ый перцентиль – такое значение данных, которое больше или равно p % всех
данных и меньше или равно ( 1 − p )% данных. Поэтому, если значение x – p ый перцентиль, то p % значений в наборе данных меньше или равны x , и
( 100 − p )% значений больше или равны x . Квантиль – это тот же перцентиль,
выраженный не в процентах, а в частях ( от 0 до 1).
Квартили (25% и 75% перцентили), а также медиана (50% перцентиль),
обеспечивают разбиение упорядоченной количественной выборки на 4 подмножества равной численности. Вычисление данных показателей производится по
правилам, принятым для вычисления медианы.
Верхний квартиль ( Q 75 ) представляет собой 75% перцентиль выборки.
Нижний квартиль ( Q 25 ) представляет собой 25% перцентиль выборки.
В публикациях иногда приводятся значения Q 25 и Q 75 наряду с Q50 –
медианой, когда распределение изучаемой величины отлично от закона нормального распределения. Иногда также приводится Q95 или Q97 например,
для того, чтобы использовать потом такие данные, как референтные. Например,
по группе здоровых исследуемых даны Q50 и Q97 диастолического давления.
Далее эти данные могут использоваться для того, чтобы показать, что в исследуемой группе (пациентов с некоторым заболеванием), существует значительное количество случаев с диастолическим давлением выше, чем Q97 .
Интерквартильный размах
Точечная оценка. Интерквартильный размах – это разность между верхним и нижним квартилями выборки.
45
IR = Q 75 − Q 25 .
Приводится в публикациях. Означает, что половина значений показателя/фактора в исследуемой выборке лежит в пределах интерквартильного размаха.
Мода
Точечная оценка. Мода – это наиболее часто встречающееся в определенной совокупности наблюдений значение показателя/фактора. Также является
мерой положения; может использоваться в случае категориальных, порядковых
и количественных переменных.
Дисперсия
Точечная оценка. Дисперсия является мерой рассеяния. Точечная оценка
по выборке (выборочная дисперсия) рассчитывается как:
s2 =
1 n
(xi − x )2 ,
n − 1 i =1
∑
где n – численность выборки,
xi , i = 1,2,K, n – значения переменной в выборке.
x – выборочное среднее.
Эта формула выборочной оценки дисперсии получена в предположении
нормального распределения количественной переменной. Вычисленную по
данной формуле оценку допустимо применять только для нормально распределенной количественной переменной, но не для переменных в других шкалах
измерения и с другими функциями распределения. Выборочная дисперсия измеряет рассеяние среднего в выборке. Большая дисперсия подразумевает, что
множество данных не сгруппировано около среднего. Маленькая дисперсия
подразумевает, что большинство данных находится около среднего. На выборочную дисперсию влияют экстремальные значения и значения, которые находятся ниже порога чувствительности метода измерения.
Стандартное отклонение
Точечная оценка. Стандартным отклонением (среднеквадратичным отклонением, с.к.о.) называют корень квадратный из дисперсии. Вычисление
стандартного отклонения производится по формуле:
s = s2 ,
где s 2 – выборочная дисперсия.
В медико-биологических публикациях s часто обозначают как SD (standard deviation).
Стандартная ошибка среднего
Точечная оценка. Стандартная ошибка среднего SE (standard error) определяется по формуле:
s
SE =
,
n
46
где s – выборочное стандартное отклонение,
n – численность выборки.
Традиционно запись, характеризующая среднее значение и его стандартную ошибку, представляется в виде x ± SE .
Пропорция
Точечная оценка. Если в исследовании имеется биноминальная переменная, которая кодируется как «1» – состояние (событие), которое интересует исследователя, «0» – противоположное состояние, то точечная оценка пропорции
по выборке рассчитывается как:
k
πˆ = , где
n
k – количество интересующих исходов в выборке,
n – численность выборки.
Дисперсия пропорции
Точечная оценка. Рассчитывается как: s 2 = πˆ (1 – πˆ ) .
s
Соответственно s = s 2 , SE =
.
n
Доверительный интервал для пропорции
Интервальная оценка. Доверительный интервал для пропорции рассчитывается упрощенно (биноминальное распределение аппроксимируется нормальным распределением), если k ≥ 4 и n − k ≥ 4 .
Нижняя граница: π L =
Верхняя граница: π U =
k+
k
1 2
zγ – zγ
(n – k ) + 1 zγ2
n
2
4
.
2
n + zγ
k+
1 2
k
zγ + zγ
(n – k ) + 1 zγ2
2
n
4
.
2
n + zγ
k – количество интересующих исходов в выборке;
n – численность выборки;
zγ – значение γ -квантиля нормального распределения, γ = 1 − α
для
2
двустороннего интервала, т.е. для α = 0,05 γ = 0,975 , для одностороннего интервала γ = 1 − α .
Большинство статистических пакетов рассчитывают доверительный интервал для пропорции при любых условиях.
Вариант расчета с аппроксимацией биноминального распределения нормальным не является единственным. Реализация расчета в статистическом пакете также может быть не
единственна.
47
Интенсивность
Точечная оценка. Если исследователь на протяжении времени t
наблюдал события в выборке, то точечная оценка интенсивности
рассчитывается
как:
k
λ̂ = , где
t
k – количество интересующих исходов в выборке,
t – время наблюдения.
Пример: в когортном исследовании приняло участие 600 человек, из них
100 наблюдалось в течение года, 200 – в течении 2 лет, 300 – в течение трех лет.
Тогда
количество
человеко-лет
наблюдения
составит:
t = 100 × 1 + 200 × 2 + 300 × 3 = 1400 .
Дисперсия интенсивности
Точечная оценка. Дисперсия интенсивности равна D = λ̂ .
Доверительный интервал для интенсивности
Интервальная оценка. Если произошло количество событий k за время
t , то
0, k = 0;
Нижняя граница: λL = 
0,5χ (21–α ),2k , k ≠ 0;

2
2
Верхняя граница: λU = 0,5χ (α ),2k +2 ,
2
где χγ2,v есть значение γ -квантиля χ 2 -распределения с v степенями свободы. Для нижней границы γ = 1 − α
2
(т.е. для α = 0,05 γ = 0,975 ), v = 2k и
для верхней границы γ = α
, v = 2k + 2 .
2
7.2. Графическое представление данных
Для «взгляда» на то, как ведет себя переменная в исследовании, удобно и
полезно использовать графические представления. Они очень разнообразны,
однако описаны ниже будут только основные.
7.2.1.
Количественные данные
Графики частот/гистограмма
Два самых известных графических метода для общего взгляда на распределение данных – это график частот и гистограмма. И график частот, и гистограмма основаны на одних и тех же принципах представления данных: деление
диапазона данных на интервалы, расчет количества точек, попавших в интервал,
и отображение количества точек, как высоты на столбиковой диаграмме. Однако есть небольшие различия между гистограммой и графиком частот.
48
Количество наблюдений
На графике частот относительная высота полос представляет относительную плотность данных. В гистограмме площадь полосы представляет относительную плотность данных. Различие
между двумя графиками становится более заметным, когда используются неравные размеры
интервалов.
Гистограмма и график частот помогают оценить симметПеременная
рию и изменчивость (вариабельРис.7-1. Пример графика частот
ность) данных. Если данные симметричны, то структура графика будет симметрична относительно центральной
точки, такой как среднее. Гистограмма и график частот показывают, скошены
ли данные и направление уклона (асимметрии).
Визуальное изображение на гистограмме или графике частот может быть
весьма чувствительно к выбору ширины интервала. Выбор числа интервалов
определяет, показывает ли гистограмма больше деталей для малых интервалов,
или данные распределения будут выглядеть более сглажено (Рис 7–1).
«Ящик с усами»
«Ящик с усами» (рис. 7–2) является схематичной диаграммой, полезной
для визуализации основных статистических характеристик данных. Эта диаграмма полезна в ситуациях, где нет необходимости или где невозможно изобразить все детали распределения. «Ящик с усами» состоит центрального блока,
разделенного вертикальной и горизонтальной линиями.
Традиционно шкала самих данных идет снизу вверх, от
*
меньших значений к большим. Высота центрального блока
указывает расположение большой части данных (центральные 50 %), в то время как длина вертикальных «усов» пока+
зывает, насколько вытянуты хвосты распределения. У ширины блока нет никакого специфического значения; график
может быть узким или широким. Выборочная медиана –
горизонтальная линия, разделяющая блок, и среднее выборки обозначается знаком ‘+’. Любые необычно малые или
большие данные точки показаны '*' на графике. «Ящик с
усами» может использоваться для оценки симметрии данных. Если распределение является симметричным, то блок
*
разделен на две равные половины медианой среднее будет
Рис.7-2. Пример
находиться на линии медианы, усы будут одинаковой длины
“ящика с усами”
и число экстремальных точек данных будет представлено
одинаково на каждом конце.
49
Таким образом, из графического представления может быть получена
информация о местоположении распределение (медиана, среднее), рассеяния
(центральный блок – это интерквартильный размах), интервал изменения (крайние значения распределения), наличие выбросов, некоторая информация о форме распределения (взаиморасположение медианы и среднего).
График квантиль-квантиль
График квантиль-квантиль (нормальный Q-Q график) используется для
того, чтобы примерно определить, насколько хорошо данные соответствует модели нормального распределения. Присутствует практически во всех статистических пакетах. На нем по горизонтальной оси откладываются квантили нормального распределения, по вертикальной – наблюдаемые значения. Если полученный график – прямая линия, данные распределены нормально. Если график
не является прямой, уходы от прямой линии дают важную информацию о том,
как распределение данных отклоняется от нормального распределения. Если
график нормальной вероятности не линеен, график может использоваться для
того, чтобы определить степень симметрии (или асимметрии).
Если данные в верхнем хвосте ниже линии квартилей, а в нижнем хвосте
– выше линии квартилей, то на хвостах меньше данных, чем ожидалось при
нормальном распределении. Если данные в верхнем хвосте выше линии, а данные в нижнем хвосте ниже линии квартилей, то данные на хвостах больше, чем
ожидалось бы при нормальном распределении. Q-Q график может использоваться для идентификации потенциальных выбросов в данных. Значение данных (или несколько значений данных) намного бóльшее или намного меньшее,
чем остальные значения данных влекут за собой эффект сжатия данных в середине графика искажая линию (Рис.7–3).
В некоторых статистических пакетах при построении графика нормальной вероятности
по оси Х отображается наблюдаемое распределение, по оси Y теоретическое (ожидаемое). Будьте внимательны.
Можно построить Q-Q график не только для нормальной вероятности, но
и любого другого распределения, и посмотреть, как данные соотносятся с теоретическим распределением. Можно также построить график по двум переменным, приняв одну из них за основу для другой.
Примеры визуализации представлены на Рис.7–4: один и тот же набор
данных представлен в разных видах. Как видно, распределение переменной 2
скошено вправо. Переменная 1 скорее всего распределена нормально.
Важность визуального представления данных сложно переоценить. Для
понимания этого момента можно привести следующий пример1 – квартет Анскомба (Anscombe's quartet).
1
F.J. Anscombe, "Graphs in Statistical Analysis," American Statistician, 27 (February 1973),
17-21.
50
0.01
0.05
0.25
0.50
0.75
0.90
0.99
0.01
100
70
80
60
0.25
0.50
0.75
0.90
0.99
50
Наблюдаем ые
60
Наблюдаем ые
0.05
40
20
40
30
20
0
10
-20
0
-40
-10
Теоретические
Теоретические
35
50
45
30
40
Количество наблюдений
20
15
35
30
25
20
15
10
10
5
5
0
0
0
5
10
15
20
25
30
35
40
45
50
55
60
-5
65
0
5
10
15
20
25
30
35
40
45
50
55
60
Рис.7–3. Примеры Q-Q графиков и соответствующих гистограмм
350
50
45
300
Количество наблюдений
40
35
Количество наблюдений
30
25
20
15
250
200
150
100
10
50
5
0
0
0
1
2
3
4
5
6
7
8
-0.2 0.0
9
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.4
2.6
Переменная 2
Переменнная 1
8
2.6
2.4
7
2.2
2.0
6
1.8
1.6
5
1.4
4
1.2
1.0
3
0.8
0.6
2
0.4
1
0.2
0
-0.2
0.0
Нормальное распределение
Переменная 1
Переменная 2
Нормальное распределение
3.0
1.0
2.5
0.8
2.0
Наблюдаемые
-5
Наблюдаемое
Количество наблюдений
25
0.6
0.4
1.5
1.0
0.5
0.0
0.2
-0.5
0.0
0.0
0.2
0.4
0.6
0.8
1.0
-1.0
-4
-3
-2
-1
0
1
2
Теоретическое
Теоретическое
Рис.7–4. Примеры визуализации количественных данных
51
3
4
65
x
Таблица 7–1. Данные квартета Анскомба
набор 1
набор 2
набор 3
набор 4
y
x
y
x
y
x
y
10,0
8,04
10,0
9,14
10,0
7,46
8,0
6,58
8,0
6,95
8,0
8,14
8,0
6,77
8,0
5,76
13,0
7,58
13,0
8,74
13,0
12,74
8,0
7,71
9,0
8,81
9,0
8,77
9,0
7,11
8,0
8,84
11,0
8,33
11,0
9,26
11,0
7,81
8,0
8,47
14,0
9,96
14,0
8,10
14,0
8,84
8,0
7,04
6,0
7,24
6,0
6,13
6,0
6,08
8,0
5,25
4,0
4,26
4,0
3,10
4,0
5,39
19,0
12,50
12,0
10,84
12,0
9,13
12,0
8,15
8,0
5,56
7,0
4,82
7,0
7,26
7,0
6,42
8,0
7,91
5,0
5,68
5,0
4,74
5,0
5,73
8,0
6,89
Это четыре набора данных (табл.7–1), которые практически не различаются в средних, дисперсиях, корреляциях (в этом можно убедиться самостоятельно). Однако, их визуализация дает четкое понимание, что наборы совершенно различны (Рис.7–5).
Рис.7–5. Квартет Анскомба
7.2.2.
Качественные данные
Качественные данные также можно представить графически с помощью
столбиковой или круговой диаграммы с указанием числа случаев в категории,
или процентного соотношения. Также существуют более сложные и интересные
представления качественных данных, которые можно найти в любом статистическом пакете.
52
14
12
12
9
10
8
6
К1
16%
К5
24%
7
6
К2
19%
К4
8%
3
4
2
К3
33%
0
К1
К2
К3
К4
К5
Рис. 7–6. Примеры визуализации качественных данных
7.3. Описание переменной исследования
Схемы описания переменной исследования в унивариантном анализе
приведены на рис. 7–7.
количественная переменная
(нормальное распределение)
Среднее, дисперсия,
интервальные оценки
порядковая
переменная
Медиана,
размах, квартили
номинальная переменная
Связана со
временем
наблюдения
Не связана
со временем
наблюдения
Интенсивность,
доверительные
интервалы
Пропорция,
доверительные
интервалы
Рис. 7–7. Схемы описания исследуемой характеристики данных
Статистические задачи – описание одной выборки, проверка соответствия эмпирического и теоретического законов распределения, проверка предположения о характере распределения. В таблице 7–2 приведена сводная информация по описанию переменных исследования.
Таблица 7–2. Основные характеристики описания выборки одной переменной исследования
Описательные статистики (descriptive statistics)
Переменная исследования
Расчет точечных и интервальных оценок
Биноминальная (два возможных результата,
обычно 0 – отсутствие события и 1 – наличие события.
Точечная и интервальная (доверительный интервал)
оценки вероятности наступления события (исхода)
Подсчитывается пропорция как отношение количества событий к размеру группы
53
Мультиноминальная (неупорядоченныеи
неупорядоченные категории)
События в единицу времени (представлены
переменной количество событий за промежуток времени – интенсивность событий),
распределение Пуассона
Измерения на количественных шкалах, не
подчиняющиеся закону нормального распределения (порядковые переменные)
Измерения на количественных шкалах
(нормальное распределение)
Точечная и интервальная оценки вероятности наступления определенного состояния (исхода). Подсчитывается количество объектов в каждой категории и
размер группы. Указывается пропорция каждой
категории в выборке
Точечная и интервальная оценки интенсивности
наступления событий (исходов). Рассчитывается
время наблюдения по выборке и количество событий
Точечная и интервальная оценки медианы, квартили,
минимальное и максимальные значения
Точечная и интервальная оценки среднего, дисперсия
Как упоминалось ранее, анкета, в которой находятся данные, представляет собой таблицу, в которой строка – это один случай, столбец – это одна переменная исследования, на пересечении строки и столбца находится значение
(точка данных), которое характеризует некую переменную для некоторого случая.
Если столбец – это биноминальная переменная, то необходимо выполнить подсчет количества нулей и количества единиц в столбце. Унивариантый
анализ такой переменной будет проходить относительно этих двух чисел или
отношения количества единиц к количеству наблюдений (исследуемых), размеру выборки (сумма количества нулей и количества единиц).
Если столбец – категориальная переменная (упорядоченная или не упорядоченная), то подсчитывается количество наблюдений, принадлежащих каждой из категорий. Унивариантый анализ такой переменной будет проходить
относительно количества наблюдений, попавших в определенную категорию и
размера выборки.
Если время наблюдения выборки связано с биноминальной переменной
(наступило событие или нет), то подсчитывается суммарное время наблюдения
и количество событий за время наблюдения. Каждый из столбцов может быть
проанализирован отдельно (столбец событий – как биноминальная переменная,
столбец времен наблюдения – как количественная переменная, у которой закон
распределения отличается от нормального), иногда нужно описать соотношение
числа событий к общему времени наблюдения. Унивариантый анализ такой переменной будет применен к отношению количества событий в выборке к суммарному времени наблюдения выборки.
По окончанию предварительного анализа правильнее всего будет составить таблицу вида Табл.7–3. Пример такой таблицы (Табл.7–4).
При необходимости, можно рассчитать доверительные интервалы. Однако дескриптивные статистики чаще представляются средним и среднеквадратичным отклонением (или ошибкой среднего), медианой и квартилями (размахом), количеством и пропорцией этого количества.
54
Таблица 7–3. Шаблон описания переменных в исследовании
Всего в исследовании n случаев
Наименование переменной
Тип
Расчет оценок
Примечание
Исход ( изучаемая, зависимая переменная) ….
Переменные исследования
Переменная 1
Переменная 2
…..
Переменная k
Таблица 7–4. Пример описания переменных в исследовании
Всего в исследовании 143 случая
Наименование
переменной
Исход – послеоперационное
осложнение в
течение 1 мес.
после операции
Тип
Расчет оценок
Упорядоченные категории
0 – без осложнений
1- легкие осложнения
2 – средняя тяжесть осложнений
3 – тяжелые осложнения
Переменные исследования
Возрастная
группа,1
Кол-во в группе(процент)
Пол
Систолическое
давление перед
операцией;
среднее, стандартное отклонение
1
2
3
4
от 20 до 29
от 30 до 39
от 40 до 49
50+
82 (57,4 %)
22 (15,4 %)
13 (9,1 %)
26 (18,1 %)
Примечание
1 пациент умер
27 (18,8 %)
38 (26,6 %)
54 (37,8 %)
24 (16,8 %)
Биноминальная
1 – мужской
2 – женский
Количественная, закон
нормального распределения
1
68 (49,6 %)
75 (52,4 %)
125,6
22,7
1 пациент – 190,
возможна ошибка в
записи–
перепроверить данные
Разбиение на возрастные группы зависит от целей исследования, например: трудовой/пенсионный возраст; для детей: допубертатный период/пубертат/постпубертат и т. п.
55
Лейкоциты перед операцией;
медиана, квартили
Применение
послеоперационных препаратов
Количественная, не подчиняется закону нормального
распределения
Неупорядоченные категории
1 – препарат А
2 – препарат В
3 – препарат С
5,4 (4,7;12,3)
80 (55,9 %)
25 (17,5 %)
38 (26,6 %)
Препарат С использовался в двух формах, возможно нужны две отдельные
группы – уточнить
7.4. Выбор переменной, связанной с исходом
Как видно из практики, одна из проблем исследования – это выбор переменной, связанной с исходом, т.е. той переменной, которая будет «сигнализировать» о том, насколько эффективно лечение, метод диагностики и пр. или констатировать наступление некоторого события. Безусловно, правильно будет
определить эту переменную до начала исследования. Чаще всего используются
данные литературы для определения общепринятого исхода. Однако, бывает
необходимость перейти к другой шкале, отличной от исходной. Например, результаты лечения оценивались по некоторому опроснику в балльной шкале от 0
до 100 баллов. Как в этом случае определить, что является благоприятным исходом, а что нет? Во-первых, изучить внимательно эту балльную шкалу и определить пороговое значение между состояниями «есть эффект» и «нет эффекта».
Во-вторых, добавить «фиктивную» переменную, которая бы кодировала наличие и отсутствие результата лечения для каждого пациента (или градации эффекта). Тем не менее, убирать исходную количественную переменную из результатов исследования не рекомендуется, поскольку, возможно, будут уточнятся пороговые значения (градации), строится модель прогноза и пр.
Для переменных исхода, связанных с измерением некоторого параметра
пациента – можно найти справочники и другую литературу, в которых приведены значения нормы у здоровых людей и на этом основании вводить фиктивную
переменную («норма/отсутствие нормы»). Можно определить несколько градаций такой переменной (Например: «нет улучшения/есть улучшение/выздоровел»).
Если переменная исхода является бинарной (например, «болен/здоров»),
то никаких преобразований проводить не надо.
В любом случае, если переменная связана с состоянием исследуемого пациента, нужно четко определить процедуру выявления этого состояния. Она
должна быть обязательно описана в исследовании.
Основные аспекты
Иметь четкое представление о своих данных необходимо.
Не все дескриптивные характеристики данных включаются в публикацию или отчет, но для понимания ваших данных лучше их иметь под рукой. Для
числовых данных иметь их графическое представление нужно, даже если оно не
будет использовано в публикации или отчете.
56
Умение «читать» графический материал – это первый шаг к пониманию
данных. Иногда графики красноречивее слов. 1
Выбросы в данных должны быть тщательно перепроверены, задокументированы и принято решение, как с ними поступать в дальнейшем анализе.
8. Унивариантный анализ: сравнение с пороговым значением,
доверительные интервалы
Для сравнения переменной исследования с пороговым значением используются так называемые одновыборочные тесты. Они сравнивают параметр (например, среднее, квантиль, медиану) с пороговым значением. В этом случае
пороговое значение определяется в начале исследования. Пороговое значение в
тесте с одной выборкой – неизменное фиксированное число. Например, одновыборочный тест может определить содержат ли 95% всех измерений давления
величину ниже заданного порогового значения. Для этого примера, переменная
– процент (пропорция) и пороговое значение составляет 95% (0,95). Это часто
необходимо при изучении исхода, который может быть представлен количественной переменной при сравнении с нормами, принятыми для здоровых, или
пациентов с определенным типом заболевания и т.п. Также может применяться
при описании фактора, когда речь идет о том, что часть пациентов в исследовании имеет завышенные/заниженные показатели по сравнению с нормами для
здоровых и т.п. В таком анализе неважно, идет речь о зависимой или независимой переменной – это переменная исследования.
Статистическая задача – сравнить выборочные измерения переменной
исследования с фиксированным пороговым значением.
Таблица 8–1. Критерии сравнения с пороговым значением
Сравнение с пороговым значением
Переменные исследования
Критерии
Пропорция
Одновыборочный тест пропорций
Точный биноминальный тест (Exact
binominal test)
Тест знаков рангов Виолкоксона
(Wilcoxon Signed Rank Test)
Одновыборочныйt-тест
Количественныеизмерения (не подчиняющиеся
закону нормального распределения)
Количественные измерения (нормальное распределение)
Мы не будем останавливаться подробно на каждом из тестов, их расчет
есть практически в любом статистическом пакете. Рассмотрим интервальное
оценивание.
В статистике случайные величины представляются выборкой. Параметры
(среднее, медиана, пропорция) – это характеристики выборки, их мы оцениваем
по выборке точечной оценкой (т.е. одно число вместо совокупности чисел) и
1
Доказательство известной теоремы Пифагора приводится в книге «Венец астрономического учения» индийского математика XII в. Бхаскары. Собственно, все доказательство
состоит из чертежа. В качестве пояснения фигурирует лишь слово «Смотри!».
57
доверительным интервалом (нижняя и верхняя граница этого числа с доверительной вероятностью 1 − α ). Предполагается, что если мы повторим наш статистический эксперимент множество раз, то значение параметра в (1 − α ) % случаев будет лежать в пределах этого интервала.
Выдвигая некоторую гипотезу о разнице между средним (медианой,
пропорцией и пр.) и некоторым фиксированным числом, тем самым мы проверяем, находится ли фиксированное число в доверительном интервале параметра. При построении доверительного интервала мы принимаем в расчет выбранный уровень значимости α , поэтому при различных уровнях значимости может
получаться различный результат сравнения.
Если доверительный интервал, построенный для оцениваемого параметра
(среднего, медианы, пропорции) содержит пороговое значение, то тест не покажет значимой разницы между оцениваемым параметром и пороговым значением. Для того, чтобы говорить, что переменной исследования отличается от порогового (заданного фиксированного значения), это значение не должно находится в пределах доверительного интервала параметра (среднего, медианы,
пропорции).
В статистике все рассчитывается и оценивается с некоторой вероятностью. Но чем грубее уровень значимости α , тем меньше доверительная вероятность (1 − α ) , и тем
меньше доверия к нашим выводам.
Для определенности рассмотрим 5 выборок (Табл. 8–2), рассчитаем средние, доверительные интервалы для различных гипотез (Табл. 8–3). Пусть наш
фиксированный порог C = 100 , выбранный уровень значимости α = 0,05 .
Таблица 8–2. Данные выборок и выборочные характеристики
Выборочная
дисперсия
Выборочное
среднее
x=
Выборка А
Выборка Б
ВыборкаВ
Выборка Г
Выборка Д
114;119;117;121;
115;116
99,4; 104,0;
102,0;106,0;100,0;10
1,0
94,0; 100,4; 97,0;
102,0;95,0; 96,0
94; 99; 97; 101; 95;
96
101,8; 104,0; 102,0;
107,0; 100,0; 101,0
1
n
s2 =
n
∑x
i =1
Стандартная
ошибка
среднего
i
1
n −1
n
∑ (x − x )
2
i
SE =
i =1
117,0
6,8
1,06
102,1
6,3
1,03
97,4
6,9
1,29
97
6,8
1,06
102,6
6,3
1,03
58
s
n
Таблица 8–3. Доверительные интервалы выборок
Доверительные интервалы
x L = x − tγ ;(n−1) ×
s
n
; xU = x + tγ ;(n −1) ×
95 %односторонние интервалы
Выборка
Выборка А
Выборка Б
Выборка В
Выборка Г
Выборка Д
t0,95;5 = 2,015
t 0,95;5 = 2,015
Нижняя граница одностороннего 95 % интервала
(Верхняя +Inf)
114,9
100
94,8
94,9
100,5
Верхняя граница одностороннего 95 % интервала
(Нижняя–Inf)
119,1
104,1
100,0
99,1
104,7
s
n
95 % двусторонний интервал
t 0,975;5 = 2,571
Нижняя
граница
114,3
99,4
94,1
94,3
100,0
Верхняя
ница
гра-
119,7
104,7
100,7
94,7
105,2
R-скрипты для расчета данного примера приведены в Приложении R-1.
Вариант 1 (Рис. 8–1)
Для среднего истинное среднее меньше или равно C , H 0 : µ ≤ C против
H A : µ > C . Иными словами, нулевая гипотеза утверждает, что истинное среднее лежит левее или равно C . Варианты расположения доверительных интервалов представлены на рис. 8–1. Вертикальная линия на рисунке – это заданное
пороговое значение, вертикальные штрихи на линиях интервалов – средние по
выборке x .
Выборка А: Расчеты по выборочному среднему показали, что 117 > 100 .
Строим (1 − α ) односторонний доверительный интервал, вычисляем его нижнюю границу (114,9). Нижняя граница доверительного интервала x L лежит
правее порогового значения C . Проверка одновыборочным t-тестом покажет,
что p < α , нулевая гипотеза H 0 : µ ≤ 100 отклоняется. Действительно, даже
нижняя граница доверительного интервала больше чем C ; иными словами –
истинное среднее лежит правее порогового значения с доверительной вероятностью 95% ; истинное среднее больше C = 100 на уровне значимости α = 0,05 .
59
p <0,05
Выборка А
p =0,05
Выборка Б
+Inf
p >0,05
Выборка В
С=100
Истинное значение параметра
Рис. 8-1. Вариант 1 : для среднего H 0 : µ ≤ C против H A : µ > C
Выборка Б: Расчеты по выборочному среднему показали, что 102 > 100 .
Есть основания выдвинуть нулевую и альтернативную гипотезу. Строим (1 − α )
односторонний доверительный интервал, вычисляем его нижнюю границу.
Нижняя граница доверительного интервала x L = 100 . Проверка одновыборочным t-тестом покажет, что p = α ; действительно, значение нижней границы не
противоречит нулевой гипотезе H 0 : µ ≤ C . В этом случае нужны дополнительные исследования (увеличение объема выборки для фиксирования разницы между средним и пороговым значением);
Выборка В: Расчеты по выборочному среднему (выборочной пропорции)
показали, что x = 97 < 100 . Оснований для выдвижения основной и альтернативной гипотезы на самом деле очень мало, хотя в выборке есть значения, которые превышают пороговое значение C = 100 . Тем не менее, попробуем проверить нашу гипотезу. Строим (1 − α ) односторонний доверительный интервал,
вычисляем его нижнюю границу. Нижняя граница доверительного интервала
x L = 94,8 < 100 . Проверка одновыборочным t-тестом покажет, что p > α .
Вариант 2 (Рис.8–2)
Для среднего H 0 : µ ≥ C против H A : µ < C . Нулевая гипотеза утверждает, что истинное среднее лежит правее или равно C .
60
p <0,05
Выборка Г
p =0,05
Выборка В
–Inf
Выборка Б
p >0,05
С=100
Истинное значение параметра
Рис. 8-2. Вариант 2 : для среднего H 0 : µ ≥ C против H A : µ < C
Вариант 3 (Рис. 8–3)
Для среднего H 0 : µ = C против H A : µ ≠ C . Если двусторонний доверительный интервал не содержит C , то p < α (Выборки А и Г). Действительно
доверительный интервал расположен правее или левее порогового значения;
если верхняя или нижняя граница равны C , то p = α (Выборка Д); если доверительный интервал содержит C , то p > α (Выборки Б и В).
Выборка Г
p <0,05
Выборка А
p <0,05
Выборка Д
p =0,05
Выборка Б
p >0,05
Выборка B
p >0,05
С=100
Истинное значение параметра
Рис. 8-3. Вариант 3 : для среднего H 0 : µ = C против H A : µ ≠ C
Этот пример дает возможность понять, как «работают» доверительные
интервалы в связке с уровнем значимости.
Одновременно мы коснемся ошибки второго рода β и мощности теста
(вероятность отклонения нулевой гипотезы, когда она ложна), которая определяется как 1 − β . На рисунке 8–3 для выборок Б и В нет оснований отвергнуть
нулевую гипотезу, однако, при наличии дополнительных исследований (увели61
чения размера выборки), интервал уменьшится, что возможно повлечет за собой
иной вывод. С другой стороны, если мы хотим обнаружить разницу между граничным значением C и нашим выборочным значением среднего по выборке Б
не менее, чем 3 единицы, то можем рассчитать при α = 0,05 и 1 − β = 0,8 :
n≈
2
2
sиссл
+ s контр
(z1–α + z1– β )2 = 6,3 2+ 0 (1,96 + 0,84)2 = 5,49 ≈ 6 .
∆
3
Это означает, что достаточно нашей выборки, чтобы утверждать, что
разница в 3 единицы не обнаружена при мощности 1 − β = 0,8 .
Еще раз вспомним, что нулевую гипотезу мы не доказываем, она остается
верна, до тех пор, пока не появились новые доказательства.
Все рассуждения и выводы можно делать аналогично для пропорций.
Пусть существует пороговое значение пропорции P .
Рассматриваются гипотезы:
вариант 1: H 0 : π ≤ P против H A : π > P , где π – истинная пропорция в
популяции, P – некоторое пороговое значение ;
вариант 2: H 0 : π ≥ P против H A : π < P ;
2
вариант 3: H 0 : π = P против H A : π ≠ P .
Расчет доверительных интервалов для пропорции осуществляется по
формулам приблизительного расчета для пропорций, в односторонних интервалах вместо +Inf (читается как «плюс бесконечность») используется 1, вместо –
Inf (читается как «минус бесконечность») используется 0, поскольку пропорция
определяется на интервале от 0 до 1.
Медиана является 50% перцентилем выборки, поэтому могут проверятся
гипотезы как для пропорции при P = 0,5 .
Пример
Исследуются дети с определенным хроническим заболеванием. Известно,
что некоторый параметр у детей изменяется с возрастом (например, размер печени, щитовидной железы и пр.)
Исследователь предполагает, что этот параметр при изучаемом заболевании отличается от параметра здоровых детей. Исследователь собрал данные по
детям с изучаемым заболеваниям: возраст, пол, значение изучаемого параметра.
Как показать отличия детей, страдающих от данного заболевания и не
подверженных данному заболеванию, по изучаемому параметру и есть ли они?
Шаг 1. Если у исследователя нет контрольной группы, или затраты на ее
создания велики, или есть другие причины, то необходимо найти референтные
значения, наиболее близкие к изучаемой когорте, например по Европе. Выбор
референтной группы может диктоваться климатом и уровнем жизни, расой и
спецификой питания и т.п. Все зависит от конкретных целей исследования. Некоторые исследования дают референтные значения по своей стране, различным
регионам и т.п. Есть публикации World Health Organization, содержащие референтные значения различных параметров у здоровых детей различного возраста.
62
Предположим, исследователь нашел необходимую референтную группу.
Референтные значения заданы медианой и 97 перцентилем. Это означает, что
переменная исследования у здоровых детей подчиняется некоторому закону
распределения, возможно отличен от закона нормального распределения. 97
перцентиль означает, что 97% выборочных значений лежит ниже (меньше) и
только 3% выше (больше) значения 97 перцентиля (Р97).
Шаг 2. Рассмотрим данные, полученные исследователем и сравним их с
референтными. Референтными значениями являются значения P97 некоторой
популяции1: 6 лет –4,80; 7 лет – 5,41; 8 лет – 6,44; 9 лет – 7,13; 10 лет – 7,65; 11
лет –8,56; 12 лет – 11,31.
Например, для возраста 8 лет провели измерения у пациентов (мальчиков) с заболеванием и получили следующие значения: 2,63; 3,56; 5,18; 6,00;
6,13; 9,58; 20,12; 20,84. Референтное значение для здоровых мальчиков в возрасте 8 лет Р97=6,4.
Три пациента из восьми имеют размер, превышающий Р97 здоровой референтной группы мальчиков для возраста 8 лет.
Составим таблицу, в которой отметим количество пациентов мужского
пола определенного возраста и среди них количество пациентов, у которых размер превышает референтное значение Р97 для своего же возраста. (Пример
Табл. 8–4).
Возраст
6
Таблица 8–4. Пример анализа данных с помощью доверительных интервалов
N (кол-во
кол-во превышепропорция
95 % ДИ для
Точный биноисследуений
превышепропорции
минальный
мых пациреферентногоP97 ний
тест
ентов опH 0 : π = 0,03
ределенноH A : π ≠ 0,03
го возрасНиж- Верхта)
няя
няя
Пол мужграграской
ница
ница
2
0
0,00
0,0
0,842
>0,1
7
2
1
0,50
0,013
0,987
0,059
8
8
3
0,38
0,137
0,694
0,002
9
8
5
0,63
0,306
0,863
<0,001
10
15
6
0,40
0,198
0,643
<0,001
11
16
3
0,19
0,066
0,430
0,012
12
23
4
0,17
0,070
0,371
0,005
1
Zbigniew Szybinski, Malgorzata Trofimiuk, Monika Buziak-Bereza, Agnieszka Kieltyka,
Grzegorz Sokolowski, Alicja Hubalewska-Dydejczyk. The thyroid volume reference values for
Polish children // Endocrine Abstracts (2010) 22 P849.
63
Рассчитаем доверительный интервал (см. раздел 7.1.4) Последняя колонка – значимость точного биноминального теста. Его расчет необязателен, если
мы приводим числовые данные и доверительные интервалы; в данном примере
он приведен для демонстрации вышеизложенного материала о связи уровня
значимости тестов и доверительных интервалов.
Как видно из Табл. 8–4, для возраста 6–7 лет у нас не хватает данных для
более точных расчетов, доверительным интервалом является практически вся
область от 0 до 1. Для возрастов 8–12 лет пропорция превышения референтного
Р97 далека от 3% (колонка 4). Ни один доверительный интервал не включает в
себя значение 0,03. Если бы размеры органа у заболевших и не заболевших
мальчиков не различались, то доверительный интервал содержал значение 0,03.
Вывод: размеры пораженного органа у мальчиков с хроническим заболеванием в возрасте 8–12 лет значимо больше, чем у здоровых детей.
Комментарии к примеру.
Аналогично может быть составлена таблица для девочек. Мы не знали
закона распределения референтной группы, однако по тому, что в литературе
были представлены медиана и Р97, можно судить о том, что закон распределения размеров здорового органа в популяции не является законом нормального
распределения1. Тем не менее, характеристик выборки референтной группы из
литературы нам было достаточно для изучения заболевших.
Доверительные интервалы можно отобразить на графике (Рис. 8–4).
Пропорция пациентов, превышающих референтные значения P97
1
Пропорции и
доверительные интервалы
0,9
0,03
0,8
Пропорция
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
7
8
9
10
11
12
13
Возраст
Рис.8–4. Пример визуализации результатов
1
Если выборочное распределение подчиняется закону нормального распределения,
обычно приводят среднее и стандартное отклонение SD. Отклонение на 2SD – есть 97
перцентиль нормального распределения (см. рис.6-2).
64
Как видно из рисунка, есть некоторый возрастной тренд. Однако объяснение этого тренда – за исследователем. Аналитик может лишь констатировать
его наличие. Тем не менее, визуализация помогла «увидеть» тренд.
В Приложении R-2 содержатся исходные данные примера и R-скрипты
для расчетов пропорций, доверительных интервалов и биноминальных тестов.
Основные аспекты
Доверительные интервалы в статистике – это такая же характеристика
данных, как и точечная оценка, но несет в себе значительно больше информации.
Доверительные интервалы – это иная интерпретация некоторых тестов и
ими иногда удобнее пользоваться.
Интервалы, как и критерии (тесты), бывают односторонними и двусторонними.
По расположению интервалов можно судить о справедливости своих
предположений.
При сравнении двух средних случайных переменных мы говорим о том,
что их разность больше/меньше нуля. Наличие граничного значения 0 в доверительном интервале для их разности сигнализирует о том, что мы не можем доказать различия в средних на имеющихся данных.
В исследовании необходимо приводить характеристики распределения,
объем выборки. Для количественных переменных, подчиняющихся закону нормального распределения – это среднее и стандартное отклонение (иногда приводится ошибка среднего), для количественных переменных, не подчиняющихся закону нормального распределения – медиана, размах, квантили, для категориальных – размер группы, количество интересующих состояний в группе. Указание характеристик может быть полезно не только вас, но и другим исследователям для проведения сравнений или мета-анализа.
9. Унивариантный анализ пар
Существует еще один вид унивариантного анализа – это анализ парных
измерений. Разность в результатах парных измерений будет являться переменной. Часто изменения в состоянии пациента – есть исход, который изучается в
исследовании.
9.1. Биноминальная переменная
Для биноминальных выборок выполняется анализ таблиц 2 × 2 . Заполняется таблица следующим образом (Табл. 9–1).
Таблица 9–1. Представление данных парного анализа для биноминальной переменной
Случай (исследуемый метод диагКонтроль (традиционный метод диагностиностики/лечения, состояние до
ки/лечения, состояние после лечения)
лечения)
Фактор/состояние есть
Фактор/состояние нет
Фактор/состояние есть
A
B
Фактор/состояние нет
C
D
65
Пары представлены двумя участниками – один из группы «случай», другой из группы «контроль». Как варианты, это наличие фактора/состояния у одного и того же испытуемого до некоторого события (лечения) и после, или диагностика одного и того же заболевания разными методами у одного и того же
пациента.
A – количество пар, у которых есть фактор.
D – количество пар, у которых фактора нет.
B – количество пар, у которых фактор есть для группы «случай» и отсутствует для группы «контроль».
C – количество пар, у которых нет фактора для группы «случай» и есть
фактор для группы «контроль».
Для сравнения пропорций с наличием определенного фактора не принимают во внимание те пары, которые согласованы в этих двух состояниях, и обращают внимание на несогласованные пары, В и С.
A+ B
– частота в группе «случай» (исследуемый метогда π 1 =
A+ B +C + D
тод диагностики/лечения, состояние после некоторого события).
A+C
π2 =
– частота в группе «контроль» (традиционный метод
A+ B+C + D
диагностики/лечения, состояние до некоторого события).
B
C
π 12 =
, π 21 =
.
A+ B +C + D
A+ B +C + D
McNemar’s Test (Тест Мак-Нимара, Мак-Немара)
Тест Мак-Нимара предназначен для сравнения бинарных откликов двух
популяций, когда данные парные, зависимые. Типичное использование – для
повторяющихся измерений, например, наличие инфекционных заболеваний до
проведения профилактических мероприятий и после у одной и той же популяции.
Расчет статистики критерия: если B + C < 30 , то
(B − C )2 . Если T ≥ χ 2
T=
2
(
B − C − 1)
T=
, иначе
B+C
2
2
1−α ;1 , где χ1−α ;1 – значение (1 − α ) -квантиля χ распреB+C
деления с одной степенью свободы, то нулевая гипотеза об отсутствии разницы
отклоняется.
Пример
Предполагается, что после проведения профилактических мероприятий в
некоторой популяции снизится пропорция группы часто болеющих детей. Необходимо оценить изменения заболеваемости до и после проведения профилактических мероприятий.
66
Таблица 9–2. Данные примера
После проведения мероприятий
До проведения мероприятий
Часто болеющие дети
Умеренный риск
Часто болеющие дети
28
7
Умеренный риск
13
27
Нулевая гипотеза – соотношение часто болеющих детей и детей группы
умеренного риска не изменилось после проведения профилактических мероприятий.
H 0 : π1 = π 2 , H A : π1 < π 2
Видно, что 20 пар наблюдений перешли из одной категории в другую
(discordant pairs). Причем из группы часто болеющих детей в группу умеренного риска больше, чем наоборот. Расчет критерия Мак-Нимара:
T=
( 7 − 13 − 1)2 = 25 = 1,19
χ 02,95;1
7 + 13 + 1
21
= 3,84 . Наша рассчитанная статистика T = 1,19 меньше табличной.
Гипотеза об отсутствии разницы не опровергается.
До проведения мероприятий пропорция часто болеющих детей в выборке
была π 1 = (28 + 13) 75 = 0,55 , после проведения π 2 = (28 + 7 ) 75 = 0,47 . Пропорция несогласованных пар π 12 + π 21 = (7 + 13) / 75 = 0,27 , разность в пропорциях
до и после проведения мероприятий π 1 − π 2 = 0,08 .
Доверительный интервал для разности в пропорциях в парном дизайне
Рассчитывается приблизительно по формуле:
B − C zγ
(B − C )2 ,
±
B +C −
N
N
N
где N = A + B + C + D , zγ – значение
γ -квантиля стандартного нормаль-
ного распределения, для двустороннего интервала γ = 1 − α , α – уровень зна2
чимости.
Рассмотрим предыдущий пример.
Рассчитаем оценки разности в пропорциях для: π1 = 0,47 (после мероприятий),
π 2 = 0,55 (до
мероприятий), разность в пропорциях равна
π1 − π 2 = −0,08 . Уровень значимости α = 0,05 . Приблизительный расчет доверительного интервала для разности в пропорциях:
πL =
(7 − 13)2 = 0,08 − 0,12 = −0,04 ;
7 − 13 1,96
−
7 + 13 −
75
75
75
67
(7 − 13)2 = 0,08 + 0,12 = 0,20 .
7 − 13 1,96
+
7 + 13 −
75
75
75
Как видно, доверительный интервал включает в себя 0, что означает, что
нет различий на уровне значимости α = 0,05 .
Точечная и интервальная оценки отношения шансов (Estimation of
the Odds Ratio)
Если исследователя интересует отношение шансов в парных откликах, то
используется точечная и интервальная оценки отношения шансов для зависимых двухвходовых таблиц:
C
π
OR = 21 =
π12 B
πU =
πL
ORL =
1− π L
ORU =
, πL =
C
C + (B + 1)F(1−α
(C + 1)F
2
); (2 B + 2; 2C )
;
(1−α 2 ); (2C + 2; 2 B )
πU
, πU =
,
1 − πU
B + (C + 1)F(1−α ); (2C + 2; 2 B )
2
где Fγ ; (v1 ; v 2 ) – есть значение γ -квантиля F -распределения с v1 и v2 степенями свободы.
Это не единственная приближенная оценка интервалов, существуют и
другие приближенные оценки. Приведенные формулы наиболее просты для
расчетов.
Рассмотрим предыдущий пример.
C
13
= 1,86 ИнТочечная оценка отношения шансов равна OR = , OR =
B
7
тервальная оценка отношения шансов для зависимых двухвходовых таблиц:
Находим F0,975; (2×7 + 2; 2×13) = F0,975; (16; 26) = 2,36 ;
F0,975; (2×13+ 2; 2×7 ) = F0,975; (28; 14) = 2,75 ;
πL =
πL
13
13
0,408
=
= 0,408 , ORL =
=
= 0,689;
13 + (7 + 1) × 2,36 31,88
1 − π L 0,592
πU =
(13 + 1) × 2,75 = 38,5 = 0,846 ,
7 + (13 + 1) × 2,75 45,5
ORU =
πU
0,846
=
= 5,493.
1 − π U 0,154
При уровне значимости α = 0,05 доверительный интервал (0,69; 5,49).
Поскольку интервал содержит значение 1, можно сделать вывод, что нет строгих оснований считать, что после профилактических мероприятий изменились
шансы попасть в группу часто болеющих детей.
Вывод: шансы попасть в группу часто болеющих детей после проведения
профилактических мероприятий не изменились.
68
Как для отношения шансов, так и для отношения рисков: . если доверительный интервал
попадает в область меньшую единицы – то говорят, что «шансы (риск) уменьшаются»,
если в область, большую единицы, то говорят, что « шансы (риск) увеличиваются».Если
доверительный интервал для них содержит 1, то нет cтатически значимых доказательств
для таких утверждений. В этом случае полагаем, что шансы (риски) одинаковы (неразличимы).
Мы рассмотрели один и тот же пример, проанализировав его с различных
позиций: как изменения в пропорциях с помощью теста Мак-Нимара, с помощью доверительных интервалов для разности в пропорциях, с помощью отношения шансов до и после проведения профилактических мероприятий. Как аналогичную ситуацию анализировать в вашем исследовании – зависит от вас, от
контекста исследования. Последнее время повсеместно используется отношение
шансов, но оно иногда неправильно интерпретируется. Также популярны интервальные оценки – из-за их высокой интерпретируемости. Классическая школа требует ссылки на тест (критерий).
В Приложении R-3 содержатся R-скрипты для выполнения примера: теста Мак-Нимара, расчетов пропорций, отношения шансов, а также расчета их
доверительных интервалов различными методами.
9.2. Мультиноминальная переменная
Данные представляются таблицей c × c (Табл. 9–3), где c – количество
категорий (откликов) переменной. В каждой клетке такой таблицы стоит количество пар nij , у которых наблюдается категория i для «случая» и категория j
для «контроля».
Таблица 9–3. Представление данных таблицей
… j
… c
1
2
1
n11
n12
…
n1 j
…
n1c
2
n21
n22
…
n2 j
…
n2c
…
…
…
…
…
…
…
i
ni1
ni 2
…
nij
…
nic
…
…
…
…
…
…
…
c
nc1
nc 2
…
ncj
…
ncc
c ×c
Тест маргинальной гомогенности (Marginal Homogeneity Test)
Критерий маргинальной гомогенности – обобщает тест Мак-Нимара на
случай мультиноминального отклика. Нулевая гипотеза: частоты распределения
событий равны для обеих выборок. То есть вероятность попадания в одну из
категорий для каждого участника пары (парных наблюдений) одинакова.
H 0 : π icase = π icontrol для всех категорий i = 1, 2, K, c . Иначе говоря, вероятность
69
классификации в некоторую категорию одинакова для первого и второго членов
«matched pairs». Альтернативная гипотеза утверждает, что вероятности различны H A : π icase ≠ π icontrol .
Тест достаточно объемен в расчетах, присутствует в некоторых статистических пакетах.
Тест маргинальной гомогенности для одной из категорий
Если мы убедились в том, что вероятность классификации в одну категорию не одинакова для членов «matched pairs», то далее можно уточнить, для
какой именно из категорий.
Для этого от таблицы c × c переходят к таблице 2 × 2 следующим образом:
Шаг 1. Для интересующей категории j рассчитывается таблица 2 × 2
(Табл. 9–4).
Таблица 9–4. Расчет данных для одной из категории в парном анализе
A = n jj
 c

B=
nij  − n jj


 i =1 

C =


D=
∑

n ji  − n jj

i =1

c
∑
c
c
∑∑ n
ij
− A− B −C
j =1 i =1
Шаг 2. Далее выполняется тест Мак-Нимара для рассчитанных B и C ,
однако уровень значимости α уменьшается в (c − 1) раз (поправка Бонферрони
(Bonferroni) для множественных сравнений с учетом парных наблюдений). Например, при c = 5 α = 0,05 / (5 − 1) = 0,0125 .
Тест уклона для упорядоченных категорий
Если категории мультиноминальной переменной упорядочены, то, рассчитав сумму элементов под диагональю (C ) , и сумму элементов над диагональю (B ) , можно использовать тест Мак-Нимара для определения наличия уклона. Например, во мнениях двух экспертов – оценки одного более высоки в целом по отношению к оценкам другого эксперта, или есть ли тенденция к снижению показателя после лечения.
Пример
Изучение изменения тяжести психологического состояния пациента после некоторого поддерживающего лечения. После курса психотерапевтического
обучения оценивается состояние пациента. Через год – контрольная оценка состояния. Данные приведены в Табл. 9–5.
Результаты расчета: B = 12 + 1 + 3 = 16 , C = 1 + 2 + 0 = 3 . Статистика
T=
(13 − 1)2
19
= 7,58 , T > χ 02,95;1 = 3,84 .
Таблица 9–5. Данные примера
70
Состояние сразу после лечения
норма удовлетворительное плохое
Состояние через год после лече- норма
ния
удовлетворительное
плохое
11
12
1
1
10
3
2
0
12
Вывод: через год после проведения обучающего курса состояние сместилось в сторону нормы. Курс обучения дает устойчивый результат.
Также существуют тесты для проверки непротиворечивости отношений
шансов для дизайна «matched pairs» в случае мультиноминального отклика. Они
присутствуют в некоторых статистических пакетах. Общий подход – один из
откликов принимается за базовый, оценки отношения шансов остальных считаются относительно него. Проверяется общая гипотеза о равенстве всех отношений шансов (по всем категориям) против гипотезы о том, что хотя бы в одной
категории отношение шансов значимо отличается.
Каппа Коэна (Cohen's kappa)
Оценка согласия двух классификаций может быть произведена с помощью так называемой каппы Коэна.
c
c

1 
nii −
niie 


n i =1
i =1
,
Рассчитывается как κ = 
c
1
1−
niie
n i =1
∑
∑
∑
где c – количество категорий,
n – общее количество пар (наблюдений),
nii – количество согласованных пар категории i ,
niie – ожидаемое количество согласованных пар категории i , рассчитывается как niie =
1
n
c
∑
j =1
c
nij ×
∑n
ji
.
j =1
Интерпретация значений каппы Коэна приведены в Табл. 9–6.
Таблица 9–6. Интерпретация значений каппы Коэна
Значение каппы Коэна
Уровень согласия
0,00
< 0,20
0,21 – 0,40
0,41 – 0,60
0,61 – 0,80
0,81 – 1,00
нет (poor)
Почти нет согласия (slight)
Посредственное согласие (fair)
Среднее согласие (moderate)
Существенное согласие (substantial)
Почти отличное согласие (almost perfect)
71
Пример
Два специалиста на основании анализов ставят диагноз пациентам с подозрением на некоторое заболевание с тремя степенями тяжести. Данные приведены в Табл. 9–7.
Таблица 9–7. Данные примера
Нет заболевания 1 степень 2 степень
3 степень
Нет заболевания
23
2
1
0
1 степень
2
14
5
0
2 степень
0
2
36
0
3 степень
0
0
3
12
1
1
e
26 × 25 = 6,50 ; n22
=
18 × 21 = 3,78 ;
100
100
1
1
e
e
n33
=
45 × 38 = 17,10 ; n44
=
15 × 12 = 1,80 .
100
100
1
((23 + 14 + 36 + 12) − (6,50 + 3,78 + 17,10 + 1,80))
100
κ=
=
1
(6,50 + 3,78 + 17,10 + 1,8)
1−
100
1
(85 − 29,08) 0,56
= 100
=
= 0,79.
1 − 0,29
0,71
Результат расчета не дает оснований заключить, что специалисты расходятся в диагностике данного заболевания.
В Приложении R-4 содержатся исходные данные примера и R-скрипты
для расчета каппы Коэна.
9.3. Количественная переменная
Для количественных переменных разность измерений в каждой паре будет представлять собой случайную величину. Таким образом, можно перейти к
тестам предыдущего раздела: одновыборочный t-тест с пороговым значением 0,
если разность распределена нормально; знаковый ранговый тест Вилкоксона в
случае симметричного распределения разности в измерениях также с пороговым значением 0.
В некоторых статистических пакетах существуют отдельно одновыборочный t-тест и t-тест для парных выборок. Эти тесты дадут одинаковые результаты, если мы применим одновыборочный t-тест к разности в измерениях
или t-тест для парных выборок для пар наблюдений.
Пример
Измеряется уровень гемоглобина до и после приема некоторого препарата у группы пациентов согласно некоторому протоколу лечения. Мы хотим
72
e
n11
=
знать, изменится ли уровень гемоглобина после приема препарата и как он изменится. Данные приведены в Табл. 9–8.
Номер пациента
Таблица 9–8. Данные примера
Уровень до приема, г/л Уровень после приема, г/л
Разность, г/л
1
100
130
30
2
95
110
15
3
73
120
47
4
98
115
17
5
110
105
–5
6
101
125
24
Выдвигается гипотеза: истинное среднее разности средних µ равно нулю H 0 : µ = 0 , альтернативная H A : µ ≠ 0 , α = 0,05 . Убедившись, что разность
распределена нормально, выбросы отсутствуют, рассчитываем t-статистику
(
(
)
)
t = (x − C ) s n . C = 0 , x = 21,33 , s = 17,28 . t = 21,33 17,28 6 = 3,02 . Критическое значение для двустороннего теста (поскольку мы проверяем гипотезу
о том, что разность отлична от нуля) t0,975;5 = 2,57 . Гипотеза об нулевой разно-
сти в средних отклоняется. На уровне значимости α = 0,05 можно утверждать,
что средний уровень гемоглобина изменился после приема препарата.
Тот же пример, но мы хотим уточнить количественный минимальный
эффект, т.е. на сколько увеличился уровень гемоглобина в среднем.
Пусть нас интересует минимальный эффект в 10 г/л. Выдвигаем нулевую
гипотезу: H 0 : µ ≤ 10 против H A : µ > 10 , α = 0,05 ; рассчитываем статистику
(
t = (21,33 − 10) 17,28
)
6 = 1,61. Критическое значение для одностороннего тес-
та t0,95;5 = 2,02 . Нулевая гипотеза не отклоняется.
Проведем анализ данных нашего примера с помощью доверительных интервалов.
Построим доверительные интервалы для полученной оценки разности.
Двусторонний интервал:
17,28
s
= 21,33 − 2,57 ×
= 3,20;
xL = x − tγ ;(n −1) ×
2,45
n
17,28
s
= 21,33 + 2,57 ×
= 39,46.
xU = x + tγ ;(n −1) ×
2,45
n
Действительно, и нижняя и верхняя границы лежат правее нуля, и наша
гипотеза о том, что H 0 : µ = 0 , отклоняется.
Построим нижнюю границу одностороннего интервала
73
xL = x − tγ ;(n −1) ×
s
= 21,33 − 2,02 ×
17,28
= 7,08 .
2,45
n
Мы выдвигали гипотезу H 0 : µ ≤ 10 против H A : µ > 10 . Нижняя граница
лежит левее интересующего нас эффекта, т.е. доверительный интервал включает в себя значение интересующего нас эффекта.
В Приложении R-5 содержатся исходные данные примера и R-скрипты
для расчета сдвига в среднем до и после лечения, доверительных интервалов
парного (одновыборочного) t-теста.
Приводить все способы анализа в исследовании не надо, достаточно одного, который отражает именно ваше направление исследования, вашу систему
логики и доказательств. В данном разделе рассмотрены и доверительные интервалы, и тесты, для того, чтобы вы поняли, как они взаимосвязаны, как унивариантный анализ пар может осуществляться с помощью доверительных интервалов.
9.4. Схемы унивариантного анализа пар
количественная переменная
(нормальное распределение)
количественная переменная
(не подчиняется закону
нормального распределения)
Одновыборочный t-тест
Стьюдента
(t-тест для зависимых
переменных)
sign-тест,
знаковый ранговый тест
Вилкоксона
номинальная переменная
Биноминальная
Мультиноминальная
Тест Мак-Нимара
Отношение шансов
Тест маргинальной
гомогенности,
Каппа Коэна
Статистическая задача – исследовать две группы парных измерений.
Нулевая гипотеза, обычно выдвигаемая в таких исследованиях, гласит о том,
что разница в результатах отсутствует.
74
Таблица 9–9. Критерии анализа парных измерений
Парные выборки (related samples)
Переменные исследования
Критерии
Биноминальная (два возможных результата, обычно 0 (отсутствие события) и 1(наличие события))
Тест Мак-Нимара
(McNemar’sTest)
Одновыборочный тест пропорции
Мультиноминальная (неупорядоченные и неупорядоченные категории)
Количественныеизмерения (разность не подчиняется закону нормального распределения)
Оценка отношения шансов и доверительных интервалов
Тест маргинальной гомогенности
(Marginal Homogeneity Test)
Каппа Коэна
Тест знаков (Sign Test)
Знаковый ранговый тест Вилкоксона (Wilcoxon Signed Rank Test
Количественные измерения (нормальное распределение разности)
Тест медианы
Т-тест для двух зависимых переменных ( T-test for related Samples)
Одновыборочный t-тест
Основные аспекты
Парные наблюдения обрабатываются в статистическом анализе по своим
схемам, дизайн исследования определяет обработку данных.
Интервальные оценки в анализе пар – это статистическая оценка такого
параметра, как разность в измерениях парных случаев.
Доверительные интервалы строятся для различных статистических оценок, не только для среднего, пропорции.
Отношение двух случайных величин также может свидетельствовать о
том, какая из величин больше или меньше. Наличие граничного значения 1 в
доверительном интервале для их отношения сигнализирует о том, что мы не
можем доказать различия этих величин.
10.
Бивариантный анализ: взаимосвязь двух переменных
В бивариантном анализе рассматривается две переменные и их взаимосвязь. Иногда сложно определить, какая из них зависимая, какая независимая,
поскольку изучается ассоциация между ними, а не причинно-следственные отношения. Далее будут рассматриваться комбинации двух переменных, какой
анализ они позволяют провести, какие гипотезы могут быть выдвинуты и протестированы.
В общем случае нас интересует поведение одной переменной по отношению к другой. Если эти переменные количественные или упорядоченные мультиноминальные, то можно оценить, как изменяется одна переменная исследова75
ния (возрастает или убывает) при возрастании или убывании другой переменной. Если такая зависимость присутствует, ее называют трендом. Тренд может
быть линейным и нелинейным. Линейные тренды изучаются с помощью линейного регрессионного анализа. Нелинейные тренды являются более сложными
моделями взаимодействия данных, и не рассматриваются в данном пособии.
Сила ассоциации двух переменных изучается корреляционным анализом (классическим и непараметрическим). Корреляционный анализ предполагает изучение ассоциации между случайными величинами с одновременной количественной оценкой степени их ассоциации (совместного изменения).
Расчеты различных мер ассоциации(взаимосвязи) есть практически во
всех статистических пакетах, поэтому внимание будет сосредоточено на интерпретации результатов.
10.1. Диаграмма рассеяния
Для наборов данных, где две количественных переменных измерены для
каждого случая выборки, диаграмма рассеяния – один из самых наглядных инструментов для анализа отношений между двумя переменными. Диаграмму рассеяния легко построить для двух переменных.
Пусть x1, x2 ,K, xn представляют n точек данных одной переменной и
пусть y1, y2 ,K, yn представляют n точек данных второй переменной (Два
столбца в таблице данных исследования). Пары данных записываются, как
(xi , yi ), i = 1,K, n . Чтобы построить диаграмму рассеяния расположим первую
переменную вдоль горизонтальной оси, вторую – вдоль вертикальной. Не имеет
значения, какая переменная вдоль какой оси расположена.
Взгляд на диаграмму рассеяния поможет визуально установить наличие
или отсутствие некоторой связи между двумя переменными.
Линейная ассоциация между двумя переменными подразумевает, что как
только одна переменная увеличивается, вторая линейно (пропорционально)
увеличивается (или уменьшается).
На рис.10–1 представлены типичные диаграммы рассеяния для различных ситуаций, в последних четырех случаях мера линейной ассоциации не сможет отразить реальную ситуацию, однако, имея перед глазами диаграмму рассеяния можно предположить какая именно связь имеется между двумя количественными переменными.
76
r=+1
-1<r<0
r=-1
Нелинейная
монотонновозрастающая
связь
0<r<+1
r=0
Нелинейная связь
Несколько кластеров
данных
Выброс в данных
Рис.10–1. Примеры взаимосвязи двух переменных
10.2. Меры ассоциации
Меры ассоциации (связи, сопряженности) двух переменных рассчитываются всеми статистическими пакетами. Многие из них также рассчитывают доверительные интервалы для мер взаимосвязи (сопряженности). Подход к интерпретации доверительных интервалов такой, как и ранее: если 1 − α доверительный интервал содержит 0, то на уровне значимости α , то нет строгих доказательств того, что ассоциация (связь, сопряженность) существует. Также может
проверяться гипотеза о том, что связь существует.
10.2.1. Коэффициент корреляции Пирсона
Одна из самых известных мер ассоциации – коэффициент корреляции.
Коэффициент корреляции измеряет связь между двумя переменными, как линейную связь между двумя переменными исследования. Линейная связь означает пропорциональное изменение одной переменной от другой переменной. Однако коэффициент корреляции не подразумевает причину и следствие. Исследователь может сказать, что корреляция между двумя переменными высока, и
соотношения устойчивы, но, возможно, не скажет, что возрастание значений
одной из переменных является причиной для возрастания (убывания) значений
другой переменной. Надо также отметить, что выводы, сделанные в корреляционном анализе по выборке, могут распространяться на популяцию только в случае естественной выборки.
(
77
)
Коэффициент корреляции Пирсона ( r ) измеряет линейную связь между
двумя переменными. Значение коэффициента корреляции, близкое к +1 (положительная корреляция) означает, что как только увеличивается одна переменная, увеличивается и вторая, и, наоборот, коэффициент корреляции близок к –1,
когда при возрастании одной переменной вторая уменьшается. Для значения
коэффициента корреляции +1 все пары данных лежат на прямой линии с положительным наклоном, для значения –1, с отрицательным наклоном. Значения
коэффициента корреляции, близкие к 0 показывают небольшую корреляцию
между переменными. Коэффициент корреляции не обнаруживает нелинейные
связи, таким образом, он должен использоваться только вместе с диаграммой
рассеяния. Коэффициент корреляции может значительно меняться в зависимости от экстремальных значений, диаграмма рассеяния используется, чтобы
идентифицировать такие значения.
Основные свойства:
• r изменяется в интервале от –1 до +1.
• Знак означает, увеличивается ли одна переменная по мере того, как увеличивается другая (положительная корреляция), или уменьшается ли одна переменная по мере того, как увеличивается другая (отрицательная корреляция)
• Величина r указывает, как близко расположены точки к прямой линии.
Если r = 0 , то линейной корреляции нет (хотя может быть нелинейное соотношение). Чем ближе r к крайним значениям (±1), тем больше степень линейной
связи.
• Квадрат коэффициента корреляции интерпретируется как доля вариации одной переменной, которая объясняется другой переменной. Если r = 0,3 ,
то r 2 = 0,09 , что значит, что только 9% вариации одной переменной может быть
объяснено изменениями второй переменной.
Важное свойство коэффициента корреляции состоит в том, что он не
подвержен влиянию в изменении расположения данных1, и также не подвержен
изменению масштаба данных2. Таким образом, линейные преобразования (сдвиг
и масштабирование) переменных не затрагивают значения коэффициента корреляции. Корреляция отражает степень, с которой две переменные линейно зависимы, и степень линейности не зависит от изменений местоположения или
масштаба. Например, если бы одна из переменных температура, измеренная в
градусах Цельсия, то корреляция не должна измениться, если градусы Цельсия
были преобразованы в градусы Фаренгейта.
Таким образом, по коэффициенту корреляции Пирсона можно оценить
линейную связь, по квадрату коэффициента – долю изменчивости одной пере-
1
Операция сдвига: добавление или вычитание константы от всех измерений по одной
или двум переменным. Эта операция не изменит значения коэффициента корреляции.
2
Операция масштабирования: умножение или деление на константу для всех измерений
по одной или двум переменным. Эта операция не изменит значения коэффициента корреляции.
78
менной, которая обусловлена другой переменной. Не забывайте проверить гипотезу о том, что коэффициент корреляции r отличен от нуля. Также могут
быть построены доверительные интервалы. Если интервал содержит значение 0,
то коэффициент статистически незначим, его значение может быть как положительным, так и отрицательным, а, следовательно, мы не можем сказать, убывает
или возрастает одна переменная при убывании или возрастании другой переменной.
10.2.2. Коэффициент ранговой корреляции Спирмена
Альтернативой коэффициенту корреляции Пирсона для переменных, не
распределенных нормально, является коэффициент ранговой корреляции Спирмена. Он рассчитывается заменой каждого значения переменной ее рангом (то
присваиваются ранги вместо измеренных величин: 1 для минимального значения, 2 для второго минимального и т.д.). Аналогично поступают для второй переменной. Эти пары рангов рассматривают как данные (xi , yi ), i = 1,K, n и вычисляют коэффициент ранговой корреляции Спирмена ( rs ).
Как линейные преобразования данных не изменят коэффициент корреляции, так нелинейные монотонные преобразования (логарифмирование, возведение в степень) не изменяют коэффициент ранговой корреляции. Ранговая корреляция менее чувствительна к экстремальным значениям, чем коэффициент
корреляции Пирсона.
Свойства:
• rs дает измерение связи (не обязательно линейной) между x и y ;
• не вычисляют значение rs2 (оно не представляет собой долю общей вариации одной переменной, которую можно объяснить изменением другой переменной).
Таким образом, коэффициент ранговой корреляции Спирмена может
применяться для двух переменных, измеренных в количественных шкалах, даже
если распределение, лежащее в основе переменных, не является нормальным.
Не забывайте проверить гипотезу о том, что rs отличен от нуля. Как правило,
статистические пакеты приводят и расчет коэффициента, и одновременную
проверку гипотезы, о том, что коэффициент отличен от нуля. Также могут быть
построены доверительные интервалы. Если интервал содержит значение 0, то
коэффициент статистически незначим, его значение может быть как положительным, так и отрицательным, а, следовательно, мы не можем сказать, убывает
или возрастает одна переменная при убывании или возрастании другой переменной.
По коэффициенту ранговой корреляции Спирмена можно оценить связь
между двумя переменными. В случае, когда связь между двумя нормально распределенными переменными не является линейной (что можно увидеть на диаграмме рассеяния), то ранговая корреляция будет предпочтительней.
79
10.2.3. Коэффициент ранговой корреляции τ (Тау) Кендалла
Тау Кендалла τ (Kendall’s tau) используется, когда данные измерены в
некоторой качественной шкале, на которой может быть определен порядок. В
отличие от коэффициента ранговой корреляции Спирмена, τ Кендалла интерпретируется как разница в вероятности, что данные имеют один и тот же порядок по двум переменным против вероятности, что у двух переменных разный
порядок. Изменяется от –1 до 1. Интерпретация доверительных интервалов аналогична интерпретации интервалов коэффициента корреляции Пирсона и
Спирмена.
10.2.4. Коэффициенты сопряженности
Коэффициентов сопряженности используются для r × c таблиц (Табл.
10–1).
В каждой ячейке такой таблицы содержится количество случаев, попавших в определенную ячейку (в конкретные категории по двум мультиноминальным переменным).
Таблица 10–1. Представление таблиц r × c для анализа
j
c
1
2
…
…
c
1
x11
x1 j
x12
x1c
m1 =
∑x
1j
j =1
2
x21
…
c
i
xij
xi1
xic
mi =
∑x
ij
j =1
…
r
xrj
x r1
r
n1 =
∑
xrc
r
r
xi1
…
i =1
nj =
∑
xij
…
N=
i
i =1
i =1
c
∑m = ∑n
j
j =1
Есть несколько вариантов расчета таких коэффициентов, все они опира2
ются на статистику χ : коэффициент Пирсона, V коэффициент Крамера, коэффициент Чупрова (Pearson’s coefficient, Cramer’s V coefficient, Tschuprov coefficient). Они изменяются в диапазоне от 0 до 1. Значение коэффициента, близкое
к 1 означает, что сопряженность двух переменных высока, значение коэффициента, близкое к 0 означает, что сопряженность низкая.
80
χ2
Коэффициент сопряженности Пирсона CP =
коэффициент Крамера V =
χ2 + N
;
χ2
, где q = min (r , c ) ;
N (q − 1)
1

2
χ2
 .
коэффициент Чупрова CC = 
 N (r − 1)(c − 1) 


Статистика хи-квадрат Пирсона рассчитывается как:
2
r
c
xij − xˆij
mi × n j
χ2 =
, где xˆij =
– оценки ожидаемых частот.
xˆij
N
i =1 j =1
∑∑
(
)
80% оценок ожидаемых частот в таблице должны быть больше 5. Если
это не так, то в таких таблицах нужно сокращать размерность путем объединения строк или столбцов (не нарушая биологического или медицинского смысла,
стоящего за трактовкой объединенного столбца/строки).
Эта статистика асимптотически следует распределению χ 2 с
(r − 1)× (c − 1)
степенями свободы. Если значение рассчитанной статистики χ 2
превышает χ (21−α ), (r −1) × (c −1) , то коэффициенты значимы на уровне α .
Для коэффициентов сопряженности некоторые статистические пакеты
рассчитывают также и доверительные интервалы. Если нижняя граница доверительного интервала равна 0, то нет оснований говорить о сопряженности (взаимном изменении) двух переменных.
10.2.5. Коэффициент τ Гудмана-Краскела
Коэффициент τ Гудмана-Краскела (Goodman-Kruskal Tau) измеряет
пропорцию в вариации мультиноминальной переменной, представленной строками, которая может быть объяснена мультиноминальной переменной, представленной колонками.
Этот коэффициент изменяется от 0 до 1; 0 – никакого сокращения вариации строковой переменной при известной категории переменной, представленной в колонке, 1 – полное сокращение вариации переменной строк при знании
категории колонки. Т.е. этот коэффициент помогает определить, можно ли
предсказывать по категории одной переменной (представленной колонками)
категорию другой переменной (представленную строками).
c 
r
 1 r 2
 1
xij2  −
mi
n
 N
j =1  j i =1
i =1

τ=
.
r
1
2
N−
mi
N i =1
∑
∑
∑
∑
81
Можно также определить, можно ли предсказывать по категории одной
переменной (представленной строками) категорию другой переменной (представленную колонками).
r 
c
 1 c
 1
xij2  −
n 2j
 mi
 N
i =1 
j =1
j =1

τ=
c
1
N−
n 2j
N j =1
∑
∑
∑
∑
Коэффициент τ Гудмана-Краскела не является симметричным, т.е. сокращение вариации одной переменной при знании категории второй переменной, не равно сокращению вариации второй переменной при знании категории
первой переменной.
Этот коэффициент может применяться для исследования количественных
переменных, не подчиняющихся закону нормального распределения, их представляют интервалами и подсчитывают количество значений, попадающих в
интервалы. Далее рассчитывается τ . В этом случае он может помочь обнаружить нелинейную связь между переменными.
Если ваш статистический пакет рассчитывает доверительные интервалы
для τ Гудмана-Краскела, то вы можете воспользоваться ими для определения
значимости или незначимости τ : если нижняя граница доверительного интервала равна 0, то нет оснований говорить о связи (взаимном изменении) одной
переменной по отношению к другой.
10.2.6.
Тест Фишера-Фримана-Халтона
В таблице сопряженности 80% оценок ожидаемых частот должны быть
больше 5. Если это правило не выполняется, то оценить меру сопряженности
(меру ассоциации) затруднительно. Но тем не менее, мы можем оценить наличие некоторой связи между двумя мультиноминальными переменными.
Тест Фишера-Фримана-Халтона (Fisher-Freeman-Halton test) предназначен для проверки однородности таблицы сопряженности.
В отличии от коэффициентов сопряженности рассчитывает вероятность
таблицы сопряженности при условии сохранения сумм строк и сумм столбцов
заданной таблицы (маргинальных сумм). Иными словами, какова вероятность
того, что таблица сопряженности с определенными значениями в ячейках сформировалась случайным образом.
Этот тест является точным, в отличие от теста χ 2 .
Значение вероятности p < α , означает, что связь признаков значима на
уровне α .
10.2.7. Коэффициент детерминации
Если одна из переменных количественная и распределена нормально, а
вторая представляет собой мультиноминальную переменную (упорядоченную
или неупорядоченную), то полный анализ данных может быть проведен с по82
мощью однофакторной ANOVA (см. раздел 15). Один из показателей такого
анализа R 2 – коэффициент детерминации. Рассчитывается как:
ni
∑∑ (x
− xi
)2
∑∑ (x
−x
)
k
ij
R2 = 1 −
i =1 j =1
k ni
ij
,
2
i =1 j =1
где ni – размер группы данных, обусловленных i -ой категорией мультиноминальной переменной, xi – среднее количественных данных по i -ой группе, x – среднее по всей количественной переменной.
Интерпретируется как процент изменчивости количественной переменной, обусловленный категориальной (мультиноминальной) переменной.
10.2.8. Непараметрическая однофакторная ANOVA
В случае если одна из переменных количественная, но не подчиняется
закону нормального распределения, а вторая – категориальная переменная, то
мы можем использовать тесты – аналоги непараметрической ANOVA: тест
Краскела—Уоллиса, медианный тест. В случае, когда категориальная переменная имеет только два уровня (т.е. биноминальная), то тест Краскела-Уоллиса не
отличается от теста Манна-Уитни.
10.2.9. Точечно-бисериальная корреляция и сравнение двух групп
При проведении некоторых исследований часто сталкиваются с проблемой выяснения взаимосвязи между характеристиками, одна из которых может
быть ранжирована, а вторая допускает только группировку в две группы по качественному биноминальному признаку. В этом случае используется коэффициент точечно-бисериальной корреляции, который интерпретируется аналогично коэффициенту корреляции Пирсона r в случае, когда исследуется ассоциация биноминальной и нормально распределенной переменных, или аналогично
коэффициенту ранговой корреляции τ Кендалла в случае исследования ассоциации биноминальной и порядковой переменных.
Точечно-бисериальная корреляция в медико-биологических исследованиях используется редко, для оценки взаимосвязи биноминальной и количественной переменной чаще используется анализ двух групп. Биноминальная переменная делит значения количественной переменной на две группы и далее
могут быть использованы: тест Стьюдента, тест Уэлча для количественной переменной, распределенной нормально; тест Манна-Уитни для количественных
переменных, не подчиняющихся закону нормального распределения.
10.2.10. Точный тест Фишера
Таблицу сопряженности можно составить и для двух биноминальных переменных. Правило о том, что ожидаемые частоты должны быть не менее 5 для
того, чтобы вычислить меры сопряженности, сохраняется для таблиц 2 × 2 .
83
Точный тест Фишера (Fisher's exact test) используется для выявления того
– связаны ли две биномиальные переменные между собой или нет, если правило
ожидаемых частот нарушено.
Точный тест Фишера рассчитывает вероятность таблицы сопряженности
при условии сохранения сумм строк и сумм столбцов заданной таблицы (маргинальных сумм).
Значение вероятности p < α , означает, что вероятность случайного появления таких данных мала и, следовательно, связь признаков значима на уровне α . Тест Фишера-Фримана-Холтона является обобщением теста Фишера таблиц 2 × 2 на r × c таблицы.
10.3. Таблица мер ассоциации и взаимосвязи
Общий итог основных мер взаимосвязи представлен в таблице. Безусловно, существуют и другие. Меры, приведенные в таблице 10–2, считаются самыми понятными в интерпретации.
Таблица 10–2. Меры ассоциации и взаимосвязи двух переменных
Коэффициент корреляот – выявляет линейную связь, квадрат коэффициента –
ции Пирсона
1 до долю изменчивости одной переменной, обусловленной
1
второй переменной
Коэффициент ранговой
Выявляет монотонную связь, квадрат коэффициента
корреляции Спирмена
от – не используется
1 до
1
Тау Кендалла
Коэффициенты сопряженности
от –
1 до
1
от 0
до 1
Goodman-Kruskal Tau
от 0
до 1
Коэффициент детерминации
от 0
до 1
Точечно-бисериальная
корреляция
от –
1 до
1
Вероятность одинаковых порядков у двух переменных
сопряженность r × c таблиц
выявляет долю изменчивости одной номинальной
переменной, которая может быть объяснена другой
номинальной переменной (несимметричен)
выявляет вклад в изменчивость количественной переменной в зависимости от изменчивости номинальной
переменной
интерпретируется как коэффициент корреляции Пирсона или как Тау Кендалла
Ниже в таблице систематизировано, когда возможно употребление тех
или иных мер взаимосвязи, ассоциации, сопряженности. Это не означает, что
применять надо все и сразу, можно быстро проверить некоторые свои предположения, используя приведенные оценки и их значимость.
После того, как вы определили все взаимосвязи между своими переменными, можно составить вспомогательную таблицу исследования, в которой определяется, как независимые переменные связаны с зависимой переменной и
84
между собой. Безусловно, если в исследовании около 10 переменных, то это
будет достаточно большая таблица. В этом случае для начала сделайте таблицу
взаимосвязи зависимой переменной (исхода) и остальных переменных. Желательно также построить диаграммы рассеяния (зависимая и независимые переменные). Определитесь, какие переменные никак не проявили себя по отношению к зависимой переменной (отклику), и почему вы их включили в исследование. Возможно, это переменные, по которым вы хотели провести стратификацию, или переменные, которые как-то связаны с независимыми переменными.
Их все равно нельзя исключать из таблицы данных, пока он полностью не проведен.
Если вы поняли, что ваши переменные каким-то образом связаны между
собой, то далее можно проводить более глубокий анализ этой связи. В нескольких дальнейших разделах будут рассмотрены основы более детального анализа
данных.
Таблица 10–3. Анализ взаимосвязи двух переменных
Анализ взаимосвязи двух переменных
Переменная 1
Переменная 2
Биноминальная
Мультиноминальная (неупорядоченные
категории)
Биноминальная
Коэффициенты сопряженности
Коэффициенты сопряженности
Точный тест
Фишера
GoodmanKruskal Tau
Измерения
на количественных шкалах (не распределены
нормально)
Сравнение
двух групп
непараметрическими
тестами
Измерения
на количественных шкалах (нормальное
распределение)
Сравнение
двух групп
параметрическими
тестами
Непараметрический
аналог
ANOVA
Точечнобисериальная корреляция
Тау Кендалла
Точный тест
ФишераФрименаХалтона
Мультиноминальная (неупорядоченные
категории)
Мультиноминальная
(упорядоченные
категории)
Коэффициенты
сопряженности
Коэффициенты сопряженности
Коэффициенты сопряженности
Goodman-
GoodmanKruskal Tau
Точный
тест ФишераФрименаХалтона
Коэффициенты
сопряженности
Goodman
85
Точечнобисериальная корреляция
Непараметрический
аналог
ANOVA
Различия в
нескольких
группах
Коэффици-
Kruskal Tau
Точный тест
ФишераФрименаХалтона
Мультиноминальная (упорядоченные
категории)
Коэффициенты сопряженности
Коэффициенты сопряженности
Тау Кендалла
GoodmanKruskal Tau
Точный тест
ФишераФрименаХалтона
Измерения
на количественных
шкалах (не
распределены нормально)
Точный тест
ФишераФрименаХалтона
Сравнение
двух групп
непараметрическими
тестами
Измерения
на количественных
шкалах
(нормальное
распределение)
Точечнобисериальная корреляция
Сравнение
двух групп
параметрическими
тестами
Точечнобисериальная корреляция
Точный
тест ФишераФрименаХалтона
Тау Кендалла
Goodman
-Kruskal
Tau
Точный тест
ФишераФрименаХалтона
Точный
тест ФишераФрименаХалтона
Непараметрический
аналог
ANOVA
Тау Кендалла
Непараметрический
аналог
ANOVA
Непараметрический
аналог
ANOVA
Различия в
нескольких
группах
Тау Кендалла
Различия
в нескольких
группах
Коэффициент детерминации
Коэффициент
детерминации
86
ент детерминации
-Kruskal
Tau
Тау Кендалла
Тау Кендалла
Непараметрический
аналог
ANOVA
Различия в
нескольких
группах
Коэффициент детерминации
Коэффициент ранговой
корреляции
Спирмена
Коэффициент ранговой
корреляции
Спирмена
Тау Кендалла
Тау Кендалла
Коэффициент ранговой
корреляции
Спирмена
Коэффициент корреляции Пирсона
Тау Кендалла
Основные аспекты
Если связи нет, то чуда не произойдет. Если, к примеру, у вас нет значимого коэффициента корреляции между двумя переменными, то и простая линейная регрессия не найдет зависимости между ними. Если точный тест Фишера не выявил значимой связи признаков, то и отношение шансов также будет
незначимо. Поэтому такой быстрый анализ с помощью вышеописанных мер
ассоциации, сопряженности может уберечь вас от лишних и бесполезных дальнейших шагов в попытке доказать то, что на ваших данных доказать невозможно.
Если тест показал, что уровень значимости связи p < 0,2 , то возможно,
что в мультивариантном анализе при учете вмешивающихся переменных (конфаундеров) уровень значимости будет меньше. Влияние конфаундеров и способы учета этого влияния будут рассмотрены в разделе 16.1
Также необходимо обращать внимание на диаграмму рассеяния. Возможно, связь нелинейна, и позже понадобится преобразование переменных.
11. Бивариантый анализ: биноминальная и биноминальная
переменные
Одна из распространенных задач медико-биологических исследований –
выявить факторы, влияющие на бинарный исход. Биноминальная зависимая
переменная предполагает, что исход описывается двумя состояниями, и вся выборка данных делится на две группы согласно исходу. Как правило, общая задача формулируется следующим образом – определить параметры независимой
переменной, ассоциированной с группами различного исхода. Это не означает,
что дизайн исследования только «случай-контроль». Дизайн может быть любым.
Другая медико-биологическая задача – сравнить описания двух групп,
например, контрольной и экспериментальной, или мужчин и женщин в исследовании и т.п. В данном случае биноминальная переменная не является исходом, а скорее предпосылкой для различий в данных, однако для статистического
анализа используются те же методы.
Статистическая задача – сравнить две независимые группы.
В этом разделе будет рассмотрен более подробный анализ двух биноминальных переменных. Если исходно эти переменные представлялись, как два
столбца данных исследования, заполненных нулями и единицами, то необходимо перейти к таблицам 2 × 2 . В каждой ячейке таблицы содержится количество
наблюдений, соответствующих 4 состояниям, которые порождаются двумя биноминальными переменными. Из четырех чисел этой таблицы можно получить
1
Никто не мешает проверить поведение переменной а мультвариантном анализе и при
бóльших зачениях р. Но начните с тех, которые себя как-то проявили в бивариантном
анализе.
87
много различной информации. Таблица в общем виде выглядит следующим
образом (табл.11–1):
Таблица 11–1. Представление таблицы 2 × 2
Переменная 1
Переменная 2
Да
Нет
Да
A
B
A+B
Нет
C
D
C+D
A+C
B+D
N
Трактовка обозначений A, B, C, D зависит от конкретной ситуации анализа. Основные медико-биологические задачи:
– определение чувствительности и специфичности диагностического или
прогностического теста;
– оценка мер риска при изучении факторов риска;
– оценка эффективности лечения.
11.1.1. Чувствительность и специфичность тестов
Состояние, например, заболевание, может диагностироваться некоторым
фактором (переменной) пациента, ассоциируемый с данным состоянием (исходом). Исследователь может определить такие параметры, как чувствительность
и специфичность исследуемого фактора. В таблице 11–2 приведены четыре состояния результата диагностического теста. Таблица 11–3 содержит расчетные
характеристики таблиц 2× 2 при определении чувствительности и специфичности.
Таблица 11–2. Представление данных для анализа для бинарного диагностического теста
Фактор (Диагностический тест)
Да
Состояние
(Болезнь)
Нет
Да
Нет
Истинноположительный результат
A
Ложно-положительный
результат
C
Ложноотрицательный
результат
B
Истинноотрицательный
результат
D
B+D
A+C
88
A+B
C+D
N
Таблица 11–3. Расчетные характеристики для анализа бинарного диагностического
теста
Истинно-положительный
Чувствительность
= A/(A + В)
Истинно-положительный + Ложноотрицательный
Специфичность
= D/(С + D)
Истинно-отрицательный
Ложно-положительный + Истинноотрицательный
Доля ложно-позитивных
= С/(С + D)
Ложно-положительный
Ложно-положительный+ Истинноотрицательный
Доля ложно-негативных
= В/(A + В)
Ложно-отрицательный
Истинно-положительный + Ложноотрицательный
Прогностическая ценность
положительного результата
=A/(A +С)
Истинно-положительный
Истинно-положительный + Ложноположительный
Прогностическая ценность
отрицательного результата
=D/(В + D)
Истинно-отрицательный
Ложно-отрицательный+ Истинноотрицательный
Точность (accuracy)
=(A +D)/(A
+B +C + D)
Истинно-положительный + Истинноотрицательный
Все положительные +Все отрицательные
Чувствительность (sensitivity) – определяется, как способность корректно идентифицировать пациентов, у кого имеется специфическое заболевание
или состояние (исход):
Sn = ( A ( A + B )) .
Доверительный интервал приближенно определяется как:
нижняя граница (1 − α ) доверительного интервала:
SnL =
2( A + B )Sn + zγ2 − zγ zγ2 + 4( A + B )Sn(1 − Sn )
(
2 A + B + zγ2
)
;
верхняя граница (1 − α ) доверительного интервала:
SnU =
2( A + B )Sn + zγ2 + zγ zγ2 + 4( A + B )Sn(1 − Sn )
где zγ – значение
(
2 A + B + zγ2
)
,
γ -квантиля нормального распределения, γ = 1 − α 2
для двустороннего интервала, т.е. для α = 0,05 γ = 0,975 .
89
Специфичность (specificity) – определяется, как способность корректно
идентифицировать пациентов, которые не имеют специфического заболевания
или состояния (исхода):
Sp = (D (C + D )) ;
Нижняя граница (1 − α ) доверительного интервала:
SpL =
2(C + D )Sp + zγ2 − zγ zγ2 + 4(C + D )Sp(1 − Sp )
(
2 C + D + zγ2
)
;
верхняя граница (1 − α ) доверительного интервала:
SpU =
2(C + D )Sp + zγ2 + zγ zγ2 + 4(C + D )Sp(1 − Sp )
(
2 C + D + zγ2
)
.
Чувствительность и специфичность используются в ROC-анализе (см.
раздел 12). При мультивариантном анализе (использовании логистической регрессии, см. раздел 17) и построении модели прогноза в качестве фактора может
использоваться комбинация переменных. Для таких моделей тоже может быть
рассчитана чувствительность и специфичность.
11.1.2. Оценка мер риска при изучении фактора риска и исхода
При оценке рисков исследователя интересуют в первую очередь неблагоприятные исходы: смерть, ухудшение самочувствия, инвалидизация, осложнения и т.п.
Факторы, которые увеличивают возникновение, распространение, заболеваемость или смертность называются факторами риска.
Фактор изначально может быть не бинарной переменной, однако часто
существует граница (уровень) до которой фактор считается безопасным (например, вес пациента – избыточный или нет). Тогда такую переменную кодируют как бинарную (нет/ да, т.е. ниже критичного уровня и выше критичного
уровня).
Исходом также может быть изначально не бинарная переменная. Исход
может оцениваться некоторой количественной переменной (например, давление), но опять же можно задать границу, которая является безопасным уровнем.
Переход от количественной шкалы к бинарной – это распространенный
прием, которым часто пользуются, когда количественная переменная не имеет
закона нормального распределения, или не было возможности фиксировать
точные значения этой переменной, а также во многих других случаях. Это не
значит, что им нужно пользоваться всегда, должно быть некоторое обоснование, потому что, так называемое понижение шкалы снижает информативность,
которую в себе несет количественная переменная. Но тем не менее, и этот подход помогает определить некоторые характеристики исследования.
Как видно, факторы и исходы являются разными по медицинскому описанию, однако их анализ проводится одними и теми же методами – анализ таблиц 2 × 2 .
90
Для расчета мер риска используются оценки, которые приведены в таблице ниже. В табл.11–4 приведены международные обозначения, которые часто
встречаются в медицинской литературе:
Таблица 11–4. Расчетные характеристики для бинарного фактора риска
Experimental group/ E
Группа под воздействием фактора
Control group/С
Группа без воздействия
фактора
Наименование характеристики
Сокращенная запись
Сокращенная запись
События /Events /E
EE
CE
Отсутствие события/Non-events/N
EN
CN
Всего объектов/ Total subjects/S
ES = EE + EN
CS = CE + CN
Пропорция событий/Event rate/ER
EER = EE ES
CER = CE CS
Наименование характеристики
Сокращенная запись
Расчет
Повышение абсолютного риска*
Снижение абсолютного риска*
Повышение относительного риска*
Снижение относительного риска*
Число подвергнутых воздействию
фактора*
Число нуждающихся в лечении*
Относительный риск*
ARI
ARR
RRI
RRR
NNH
NNT
1 CER − EER
RR
EER CER
Отношение шансов**
OR
(EE
CER − EER
CER − EER CER
EN ) (CE CN )
* – используется для естественной выборки
** – используется для целевой выборки
Относительный риск RR рассчитывается только для естественной выборки. Целевую выборку характеризуют через отношение шансов OR .
Если речь идет о состоянии, которое является неблагоприятным (заболевание, инвалидность, смерть и т.п.), и воздействие фактора – может быть некоторым лечением, которое снижает относительный риск. В этом случае речь идет
о снижении абсолютного риска, относительного риска.
Если речь идет о неблагоприятном факторе, который вероятно увеличивает неблагоприятный исход, то речь идет о повышении абсолютного риска,
относительного риска.
NNT – число нуждающихся в лечении, мера для оценки эффективности
лечения, сколько пациентов нужно лечить, чтобы предотвратить один плохой
исход по сравнению с контрольным лечением. Чем выше NNT, тем менее эффективно лечение.
91
NNH – число индивидуумов, которых нужно подвергнуть воздействию
фактора риска, чтобы ровно у одного случился плохой исход. Чем меньше NNH,
тем опаснее фактор риска.
NNT обычно относится к терапевтическому эффекту, NNH – определяет эффект от фактора риска.
Доверительные интервалы для отношения шансов и относительного риска определяются через логарифмы среднеквадратичных отклонений.
Среднеквадратичное отклонение логарифма относительного риска:
1  
1
1
 1

+
s (ln (RR )) = 
+
−

 EE CE   EE + EN CE + CN 
Доверительный интервал для относительного риска:
Нижняя граница (1 − α ) доверительного интервала для относительного
риска
(
)
(
)
RRL = exp ln (RR ) − zγ × s(ln (RR ))
Верхняя граница (1 − α ) доверительного интервала для относительного
риска
RRU = exp ln (RR ) + zγ × s(ln(RR )) , где zγ – значение γ -квантиля нор-
мального распределения, γ = 1 − α
α = 0,05 γ = 0,975 .
2
для двустороннего интервала, т.е. для
Если доверительный интервал для относительного риска содержит значения как больше, так и меньше 1, то нет убедительных доказательств того, что
относительный риск возрастает или убывает. Если доверительный интервал
расположен правее единицы (нижняя граница больше единицы), то на уровне
значимости α принимается гипотеза о том, что риск наступления некоторого
состояния возрастает при наличии фактора. Если доверительный интервал расположен левее единицы (верхняя граница меньше единицы), то на уровне значимости α принимается гипотеза о том, что риск наступления некоторого состояния снижается при наличии фактора.
Среднеквадратичное отклонение логарифма отношения шансов:
s (ln (OR )) =
1
1
1
1
+
+
+
EE CE EN CN
Доверительный интервал для отношения шансов:
Нижняя граница (1 − α ) доверительного интервала для отношения шан-
(
)
(
)
сов ORL = exp ln (OR ) − zγ × s(ln (OR )) ;
Верхняя граница (1 − α ) доверительного интервала для отношения шан-
сов ORU = exp ln(OR ) + zγ × s(ln(OR )) ,
92
где zγ – значение γ -квантиля нормального распределения, γ = 1 − α
2
для двустороннего интервала, т.е. для α = 0,05 γ = 0,975 .
Пример
Ниже в табл.11–5 приведены 2 примера расчета в случае возрастания и
снижения риска.
Таблица 11–5. Пример расчетов характеристик для бинарного фактора риска
Пример1 (снижение риска, событие Пример 2 (возрастание риска,
(event) – неблагоприятно для пациента)
событие (event) – неблагоприятно для пациента)
Группа E
Группа С
Группа E
Группа С
E
N
S
ER
ARR
EE = 25
EN = 125
ES = 150
EER = 0,17
17%
CE = 100
CN = 100
CS = 200
CER = 0,5
50%
или
или
0,33 или 33 % (Вывод: снижение абсолютного риска на 33 % в экспериментальной
группе по сравнению с контрольной)
EE = 125
EN = 25
ES = 150
EER = 0,83
или 83%
CE = 100
CN = 100
CS = 200
CER = 0,5
или 50%
–
ARI
–
0,33 или 33 % (Вывод: повышение
абсолютного риска на 33 % у пациентов под воздействием фактора)
RRR
0,66 или 66 % (Вывод: Наблюдается снижение относительного риска на 66 % в экспериментальной группе по сравнению с контрольной группой)
–
RRI
NNT
NNH
RR
0,66 или 66 % (Вывод: Наблюдается повышение относительного
риска на 66 % у пациентов под
воздействием фактора)
–
–
1,5
–
0,34 (Вывод: Риск наступления неблагоприятного исхода снижается в 2,9 (1/0,34)раза в
экспериментальной группе по сравнению с
контрольной группой)
OR
0,2 (Вывод: Шансы наступления неблагоприятного исхода в экспериментальной
группе в 5 раз ниже, чем в контрольной)
93
3
1,66 (Вывод: Риск неблагоприятного исходаповышается в 1,66
раза у пациентов под воздействием фактора)
5 (Вывод: Шансы неблагоприятного исхода в 5 раза выше у пациентов под воздействием фактора)
Как видно, для расчетов используются одни и те же формулы, одна и та
же математика, однако интерпретация полученных характеристик может быть
разной в зависимости от цели исследования.
В Приложении R-6 содержатся исходные данные двух примеров и Rскрипты для расчетов пропорций, отношения шансов, относительных рисков и
их доверительных интервалов.
11.1.3. Оценка эффективности лечения
Самый распространенный тип анализа для оценки эффективности лечения – также таблицы 2 × 2 . Рассмотрим таблицы 2 × 2 , когда они описывают
эффект от лечения в различных группах. Чаще всего такой анализ встречается в
рандомизированных клинических испытаниях.
Для биноминального распределения распространенная запись двухвходовой таблицы в принятых обозначениях представлен в таблице 11–6.
Таблица 11–6. Представление результатов лечения для бинарной переменной
Группа 1 (экспериментальная)
Группа 2
(контрольная)
Есть (успех лечения)
EE
CE
Нет (неудача лечения)
EN
CN
Исход
тогда π 1 =
EE
– пропорция положительных исходов в группе 1.
EE + EN
CE
пропорция положительных исходов в группе 2.
CE + CN
Нулевая гипотеза формулируется как H 0 : π 1 = π 2 . Альтернативная гипотеза либо как H A : π 1 < π 2 , либо H A : π 1 > π 2 , либо H A : π 1 ≠ π 2 .
EE × CN
Отношение шансов группы 1 по отношению к группе 2 OR =
.
CE × EN
CE × EN
Отношение шансов группы 2 по отношению к группе 1 OR =
.
EE × CN
Разность в пропорциях: δ = π 1 – π 2 .
π2 =
Отношение пропорций
π1
.
π2
Основные направления статистического исследования таких таблиц – это
равенство исходов, различия частоты исходов в группах, как по разности, так и
по отношению, доверительные интервалы для пропорций и отношения шансов.
В рандомизированных клинических испытаниях оценка относительного риска
не производится.
Доверительный интервал для разности в пропорциях ( δ = π 1 – π 2 ) рассчитывается приближенно:
94
δ L = δ – zγ
δU = δ + zγ
π 1 (1 – π 1 ) π 2 (1 – π 2 )
n1
+
n2
π 1 (1 – π 1 ) π 2 (1 – π 2 )
n1
+
n2
;
.
11.1.4. Обнаружение различий в пропорциях двух групп на основе доверительных интервалов
Существует достаточно много исследований, в которых основная статистическая задача – сравнить две пропорции EER и CER (в исследуемой и контрольной группе). Самый распространенный пример – это клинические испытания новых методов лечения, новых препаратов и т.д. (дизайн исследования –
клинические испытания).
Есть несколько основных типов сравнений в таких исследованиях1:
Исследования превосходства (Trials to Show Superiority).
Исследования эквивалентности (Trials to Show Equivalence).
Исследования приемлемости (Trials to Show Non-inferiority).
Дизайн этих исследований может быть не только двухвыборочный, он
может быть достаточно сложным. Однако тут рассмотрим базовые подходы к
статистическому оцениванию двух пропорций по доверительным интервалам.
Предположим, у нас есть две оценки пропорций на основе исследования
– для контрольной группы и для исследуемой. Разность (difference) между ними
– также случайная величина. Оценить ее можно, используя точечные оценки и
доверительный интервал. Обычно нулевая гипотеза, которая выдвигается в исследовании, гласит о том, что две случайные величины равны, то есть разность
между ними равна нулю (как вариант – их отношение равно единице). На
рис.11–1 приведено иллюстративное соответствие расположения интервальной
оценки ( 1 − α доверительный интервал) разности и уровня значимости критерия гипотезы об отсутствии разницы между двумя пропорциями (разность
равна нулю). Доверительный интервал всегда будет положителен, если полученный уровень значимости меньше заданного α , т.е. гипотеза о равенстве (то
(
)
(
)
есть об отсутствии разницы) отвергается. 1 − α доверительный интервал будет равен нулю снизу, если уровень значимости нулевой гипотезы о равенстве
двух пропорций равен α . Доверительный интервал будет содержать отрицательные значения, если гипотеза о равенстве двух пропорций не может быть
опровергнута.
1
http://www.ncbi.nlm.nih.gov/pubmed/11560553
95
p <α
p=α
p>α
0
Контроль
Исследование
Разница
лучше
лучше
Рис.11–1. Возможное расположение доверительных интервалов при сравнении двух
групп
В исследованиях превосходства для доказательства значимой разности в
результатах доверительный интервал должен быть положительным(Рис. 11–2).
Превосходство имеет место
Превосходство отсутствует
0
Контроль
лучше
Исследование
Разница
лучше
Рис.11–2. Возможное расположение доверительных интервалов для исследований превосходства
Для исследований приемлемости вводится понятие предельного значения
(margin) δ 0 > 0 . Расположение доверительных интервалов будет следующее
(Рис. 11–3): для опровержения нулевой гипотезы интервал должен находится
правее значения ( −δ 0 ).
96
Приемлемо
Приемлемо
Неприемлемо
–δ0
Контроль
0
Исследование
Разница
лучше
лучше
Рис.11–3. Возможное расположение доверительных интервалов для исследований приемлемости
Для исследований эквивалентности предельное значение δ 0 ограничивает расположение интервала и слева и справа. Расположение доверительных интервалов может быть следующим (Рис. 11–4):
Эквивалентно
Неэквивалентно
Эквивалентно
Неэквивалентно
–δ0
Контроль
лучше
δ
0
Разница
Исследование
лучше
Рис.11–4. Возможное расположение доверительных интервалов для исследований эквивалентности
Все аналогичные представления могут быть получены не для разности, а
для отношения двух пропорций. В этом случае роль эквивалента нулевой разности играет 1 – как равенства отношений этих пропорций. Это означает, что доверительные интервалы для отношения пропорций не должны содержать единицу (или находится правее значения ( −δ 0 )). Когда оценивают разность между
пропорциям – то говорят, что одна превышает другую (меньше другой) на х %.
Когда оценивают отношений пропорций, говорят, что одна превышает другую
(меньше другой) в х раз.
97
11.1.5. Тесты таблиц 2× 2
Если вам не нужен подробный анализ, то достаточно уже упомянутых
выше тестов.
Точный тест Фишера
Точный тест Фишера (Fisher’s exact test) может применяется для проверки нулевой гипотезы о том, отобраны ли две исследуемые бинарные выборки из
двух популяций с одинаковой частотой встречаемости изучаемого эффекта, т.е.
есть связь между наличием фактора и исходом.
Тест χ 2 Пирсона (Pearson's Chi-Square Test)
Тест χ 2 Пирсона (Pearson's Chi-Square Test) – универсальный тест для
таблиц сопряженности, применятся для анализа частот в таблицах любых размерностей, в том числе таблиц 2 × 2 , если ожидаемые частоты в ячейках таблицы больше 5.
Двухвыборочный тест пропорций
Двухвыборочный тест пропорций может использоваться для сравнения
двух пропорций, и основан на независимой случайной выборке размера m из
первой популяции и независимой случайной выборке размера n из второй популяции.
Основное предположение – предположение случайного осуществления
выборки от этих двух популяций.
выдвигаем гипотезу H 0 : π 1 − π 2 = 0 , альтернативная гипотеза
H 0 : π1 − π 2 ≠ 0 .
Пусть k1 количество наблюдений выборки 1 с интересующим эффектом,
k 2 – количество наблюдений выборки 2 с интересующим эффектом. Рассчитаем
оценки пропорций пропорции πˆ1 = k1 m и πˆ 2 = k 2 n , πˆ = (k1 + k 2 ) (m + n ) .
Рассчитываем значения mπˆ1 , m(1 − πˆ1 ) , nπˆ 2 и n(1 − πˆ 2 ) . Если все эти значения больше или равны 5, переходим к следующим шагам. В ином случае необходим точный тест Фишера.
Рассчитываем z = (πˆ1 − πˆ 2 ) πˆ (1 − πˆ )(1 m + 1 n ) .
Если z > zγ , где zγ – значение
( γ = 1−α
2
при
альтернативной
γ -квантиля нормального распределения,
гипотезе
H 0 : π1 − π 2 ≠ 0 ,
т.е.
для
α = 0,05 γ = 0,975 ), то нулевая гипотеза может быть отклонена.
Заметим, что интересующим эффектом может быть не только состояние
(«да-нет»). Например, можно сравнить количественную переменную, закодировав состояние ниже нормы как 0, выше нормы – как 1 и т.п.
Этот тест основан на том, что биноминальное распределение может быть
аппроксимировано нормальным распределением, когда события (состояния) не
являются редкими. Фактически расчет z – это нормализация разности пропор98
ций, и тест сравнивает нормализованное значение со стандартным нормальным
распределением.
Поскольку распределение χ 2 с одной степенью свободы – это квадрат
нормального распределения, то тест пропорций и χ 2 -тест Пирсона покажут
одинаковые результаты.
Доверительный интервал для разности двух пропорций
Пусть оценка разности в пропорциях оценивается как δ = πˆ1 − πˆ 2 .
Тогда доверительные интервалы для оценки разности рассчитаются как:
πˆ (1 – πˆ1 ) πˆ 2 (1 – πˆ 2 )
;
δ L = δ – zγ 1
+
n1
n2
δU = δ + zγ
πˆ1 (1 – πˆ1 ) πˆ 2 (1 – πˆ 2 )
+
n1
n2
,
где n1 и n2 – размеры выборок, по которым оценивались пропорции πˆ1
и πˆ 2 , zγ – значение γ -квантиля стандартного нормального распределения, для
двустороннего интервала γ = 1 − α , α – уровень значимости.
2
Пример
Клинические исследования двух препаратов.
Условные данные приведены в Табл. 11–7.
Таблица 11–7. Данные примера
Препарат А
Препарат В
Всего
Есть результат
4
10
14
Нет результата
8
2
10
Всего:
12
12
24
Результаты расчета:
πˆ1 = 0,33 ; πˆ 2 = 0,83 ; δ = πˆ 2 – πˆ1 = 0,5 .
Нулевая гипотеза: вероятности исходов равны H 0 : π 1 = π 2 . Альтернативная H A : π 1 ≠ π 2 . Точный двусторонний критерий Фишера дает уровень значимости 0,015. Нулевая гипотеза о равенстве вероятностей отклоняется.
Расчет доверительного интервала для разности двух пропорций:
0,83 × 0,17 0,33 × 0,67
+
= 0,5 − 0,34 = 0,16 ;
12
12
δU = 0,5 + 0,34 = 0,84 .
δ L = 0,5 − 1,96
99
Как видно, точечная оценка разности больше нуля, доверительный интервал не включает 0, поэтому можно утверждать, что пропорции различаются
на уровне значимости α = 0,05 ; 33% пациентов в группе А ответили на лечение
в сравнении с 83% пациентов в группе В (Точный критерий Фишера p=0,015).
Вывод: Препарат В повышает вероятность благоприятного исхода у исследуемой группы на 50% (95% доверительный интервал 16%–84%) в сравнении с препаратом А по результатам лечения в группах пациентов на уровне значимости α = 0,05 .
Теперь рассмотрим отношение шансов. OR = 10 , 95% доверительный интервал (1,44; 69,26). Доверительный интервал не включает в себя значение единица (1), это свидетельствует о том, что препарат В превосходит препарат А по
эффективности исходов.
Вывод: 33% пациентов в группе А ответили на лечение в сравнении с
83% пациентов в группе В. Шансы ответа на лечение в группе В в 10 раз (95%
доверительный интервал (1,44; 69,26)) выше по отношению к шансам группы А.
В Приложении R-7 содержатся R-скрипты для расчетов данного примера:
разности пропорций, отношения шансов, и их доверительных интервалов.
Основные аспекты
Количественную переменную можно представлять как биноминальную
переменную, однако это снижает информативность вашего исследования.
В зависимости от цели исследования нужно понимать, что именно исследуется: неблагоприятный исход; эффект лечения; фактор риска или фактор,
снижающий риск, поскольку тестом (Фишера, Пирсона) можно определить
только наличие взаимосвязи, а статистическая оценка разности бинарных исходов в двух группах более детально изучается с помощью пропорций, отношений
шансов, доверительных интервалов.
12. Бивариантый анализ: биноминальная и количественная
переменные
Биноминальная переменная разбивает количественную переменную на
две группы. По взаиморасположению графиков частот или гистограмм можно
визуально отобразить расположение двух групп. На рис. 12–1 представлены
различные варианты расположения распределений количественной переменной
в двух группах.
Группа 1
Группа 2
Доверительный интервал
для среднего
Доверительный интервал
для среднего
а) Интервалы не пересекаются, группы разделены по расположению.
100
Группа 1
Группа 2
Доверительный интервал
для среднего
Доверительный интервал
для среднего
б) Группы разделены частично по расположению.
Группа 1
Группа 2
Группа 2:Доверительный
интервал для среднего
Группа 1: Доверительный
интервал для среднего
в) Группы имеют различную дисперсию , при одинаковом среднем.
Группа 1
Группа 2
Доверительный интервал
для среднего
г) Нет разделения.
Рис.12–1. Варианты расположения двух выборочных распределений
101
Как видно, ситуации бывают разные, необходимо проверять как местоположение, так и рассеяние распределений. Чем больше у вас будет визуального материала, тем легче будет понимание ваших данных.
Достаточно наглядным будет отображение двух групп с помощью графика «ящик с усами», Q-Q графики и пр.
Общий подход к анализу биноминальной и количественной переменной –
это анализ двух групп, представленных количественной переменной.
Существует множество тестов, которые проверяют взаиморасположение
двух выборочных распределений.
Нулевая гипотеза утверждает, что два распределения одинаковы. Выбор
критерия зависит от типа альтернативной гипотезы. Тестируется или положение
распределения (среднее, медиана), или рассеяние (масштаб). В таблице ниже
приведена классификация тестов по тестируемым параметрам.
Параметрические тесты основываются на знании закона распределения,
оперируя с параметрами такого распределения. Предположение о законе распределения должно быть проверено перед применением таких тестов (проверка
предположения, лежащего в основе теста о том, что данные подчиняются закону нормального распределения, для каждой из групп). В непараметрических
тестах знания закона распределения не требуется, но такие тесты являются менее мощными. Самый частый прием при вычислении непараметрических статистик – это присвоение рангов числовому ряду.
В линейных ранговых тестах исходные значения измерений заменяются
на некоторые ранги, которые имеют тот же порядок (в смысле возрастания и
убывания), что и исходные данные. Ранговые тесты различаются по способу
построения такой порядковой шкалы.
Основные тесты двух групп приведены в Табл. 12–1.
Таблица 12–1. Тесты количественной переменной для двух групп
Тестируемые параметры
Статистический критерий
Положение (location tests)
Непараметрические тесты
Wilcoxon-Mann-Whitney Test
Van der Waerden test (Normal Scores Test)
Savage Scores Test
Параметрические тесты
T-test for independent sample
Рассеяние/масштаб (scale tests)
Satterthwaite’s test (Welsh test)
Непараметрические тесты
102
Siegel-Tukey Test
Mood Test
Ansari-Bradley Test
Klotz Test
Conover Test
Параметрические тесты
Fisher F-test
Критерий Вилкоксона–Манна–Уитни (Wilcoxon-Mann-Whitney Test)
Критерий Вилкоксона–Манна–Уитни (В некоторых источниках его называют критерием Манна–Уитни) используется для определения «сдвига», что
означает, что два распределения имеют одинаковую форму, но одно из них
сдвинуто относительно другого на определенную величину. Критерий непараметрический.
Критерий нормальных рангов (Van der Waerden test , Normal Scores
Test)
Ранговый критерий. Альтернатива тесту Вилкоксона–Манна–Уитни,
также используется для определения «сдвига». Критерий непараметрический.
Тест рангов Сэвиджа (Savage Scores Test)
Используется, если сравниваются две выборки, взятые из экспоненциального распределения. Критерий непараметрический.
Критерий Сиджела-Тьюки (Siegel-Tukey Test1)
Критерий используется для проверки гипотезы, что две выборки взяты из
одного распределения против гипотезы о том, что выборки имеют одинаковый
параметр положения (среднее или медиану), но разные дисперсии. Критерий
непараметрический
Критерий Ансари-Бредли (Ansari-Bradley Test)
Критерий Ансари-Бредли – альтернатива тесту Сиджела-Тьюки. Критерий непараметрический.
Критерий Клотца (Klotz test)
Критерий Клотца – альтернатива тесту Сиджела-Тьюки. Критерий непараметрический.
Китерий Муда (Mood test)
Китерий Муда – альтернатива тесту Сиджела-Тьюки. Критерий непараметрический.
1
Часто можно найти название теста – критерий Зигеля-Тьюки. Sidney Siegel был американским психологом. Правильное прочтение оставляю за читателями.
103
Критерий Коновера (Conover test)
Критрий Коновера – альтернатива тесту Сиджела-Тьюки. Критерий непараметрический. Тест более общий, не нуждается в предположении, что параметр положения у двух популяций известен или одинаков.
F-критерий Фишера (Fisher F-test)
F-тест Фишера (критерий Фишера-Снедекора) применяют для сравнения
дисперсий двух нормальных выборочных совокупностей. Критерий часто называют дисперсионным отношением или просто статистикой Фишера. Широко
используется в анализе вариаций (Analysis of Variance, ANOVA) для сравнения
трех и более выборок.
Тест Стьюдента для независимых выборок
Критерий Стьюдента для независимых выборок (two-group unpaired t-test)
предназначен для проверки нулевой гипотезы о равенстве средних значений
двух нормальных выборочных совокупностей в случае равных неизвестных
дисперсий. Предварительно необходимо проверить, что данные подчиняются
закону нормального распределения (для каждой из групп), а также сравнить
дисперсии групп F-тестом, поскольку тест Стьюдента используется для данных,
взятых из нормального распределения при равенстве дисперсий двух выборок.
В случае неравных дисперсий используется тест Уэлча.
Тест Уэлча (Walсh test, Satterthwaite’s test)
Тест Уэлча (критиерий Велча, Крамера-Уэлча, Саттерзвайта) предназначен для проверки нулевой гипотезы о равенстве средних значений двух нормальных выборочных совокупностей в случае неравных неизвестных дисперсий.
12.1. Анализ двух групп: Характеристическая кривая (receiver
operating characteristic(ROC) curve)
После того, как выяснено, что две группы значимо различаются в среднем, можно определить, где находится «граница» между двумя группами. Если
значимой разницы в местоположении двух групп нет, то такую точку определить невозможно, а точнее говоря, она не будет информативной. Поэтому ROC–
анализ имеет смысл использовать после того, как тесты двух групп (t-тест или
его аналоги, тест Манна-Уитни или его аналоги) показали значимость различия
в местоположении. Если тесты положения не являются значимыми, то построение характеристической кривой также даст незначимые результаты.
Характеристическая кривая строится по мерам чувствительности и специфичности.
Построение ROC-кривой рассмотрим на примере.
Пример
Данные приведены в табл.12–2.
N
1
2
Таблица 12–2. Данные примера
лейкоциты (1/L) Заболевание
×106
1,0
да
1,1
нет
104
3
4
5
6
7
8
9
10
11
12
да
да
нет
да
нет
нет
да
нет
нет
нет
1,3
1,5
2,8
3,7
4,6
4,8
4,9
5,5
5,5
5,9
Шаг 1. Количественная переменная упорядочивается по возрастанию.
Предположим, что заболевание связано с низким значением показателя.
Шаг 2. Для каждого значения количественной переменной рассчитывается таблица 2 × 2 , как описано в Табл. 12–3. На основе таблиц для каждого значения показателя x i рассчитываются значения Sni = ( Ai n ) и Spi = (Di m ) .
Проще говоря, каждое значение количественной переменной по очереди
принимается за порог (границу), формируется таблица 2× 2 и по ней рассчитываются характеристики чувствительности и специфичности. В Табл. 12–4
приведены расчеты.
Таблица 12–3. Шаг расчета характеристической кривой
Фактор (Диагностический тест)
Пороговое значение
Да
Состояние
(Болезнь)
Нет
Количество «да»в
таблице при условии,
что количественная
переменная меньше
или равна пороговому
значению
xi
Количество «да»в
таблице при условии,
что количественная
переменная больше
порогового значения
Ai
Bi
Количество «нет»в
таблице при условии,
что количественная
переменная меньше
или равна пороговому
значению
Количество «нет»в
таблице при условии,
что количественная
переменная больше
порогового значения
Ci
Di
Ai + Ci
Bi + Di
105
n = Ai + Bi (постоянно, равно
количеству случаев группы с откликом бинарной переменной «да»)
m = Ci + Di (постоянно, равно
количеству случаев группы с откликом бинарной переменной «нет»)
N =n+m
1
2
3
4
5
6
7
8
9
10
11
12
Лейкоци-ты
(1/L) x106
1,0
1,1
1,3
1,5
2,8
3,7
4,6
4,8
4,9
5,5
5,5
5,9
Таблица 12–4. Расчет характеристической кривой
ЗаболеAi
Bi
Ci
Di
Sni
Spi 1 − Spi
вание
да
1
4
0
7
0.20 1.0
0.0
нет
1
4
1
6
0.20 0.86 0.14
да
2
3
1
6
0.40 0.86 0.14
да
3
2
1
6
0.60 0.86 0.14
нет
3
2
2
5
0.60 0.71 0.29
да
4
1
2
5
0.80 0.71 0.29
нет
4
1
3
4
0.80 0.57 0.43
нет
4
1
4
3
0.80 0.43 0.57
да
5
0
4
3
1.0
0.43 0.57
нет
5
0
5
2
1.0
0.29 0.71
нет
5
0
6
1
1.0
0.14 0.86
нет
5
0
7
0
1.0
0.0
1.0
Spi + Sni
1,20
1,06
1,26
1,46
1,31
1,51
1,37
1,23
1,43
1,29
1,14
1,00
Шаг 3. Строится график, по оси X откладываются значения 1 − Spi , по оси
0.6
4.150 (0.714, 0.800)
0.4
AUC: 0.771 (0.483–1.000)
0.0
0.2
Sensitivity
0.8
1.0
Y значения Sni ( иногда в процентах), как на рис. 12–1.
1.0
0.8
0.6
0.4
0.2
0.0
1-Specificity
Рис.12–1. Характеристическая кривая, графическое изображение результатов
расчета
Площадь под кривой (area under curve – AUC) – это мера прогностичности количественной переменной, иногда называется индекс конкордации
(concordance index). В контексте конкретного исследования – это может быть
качество диагностического или прогностического фактора. AUC считают в долях, 1 – максимально возможное значение, 0,5 – совершенно неинформативный
фактор.
106
AUC =
1
2
n −1
∑ (Sn + Sn
i +1
i
)(Spi − Spi +1 ) .
i =1
Рассчитывается стандартная ошибка
 AUC

 2 × AUC

AUC (1 − AUC ) + (n − 1)
− AUC 2  + (m − 1)
− AUC 2 
−
AUC
+
AUC
2
1



.
n× m
SE ( AUC ) =
Доверительный интервал рассчитывается как:
AUCL = AUC − zγ × SE ( AUC ) ;
AUCU = AUC + zγ × SE ( AUC ) ,
где zγ – значение γ -квантиля нормального распределения, γ = 1 − α
2
для двустороннего интервала, т.е. для α = 0,05 γ = 0,975 .
Шаг 4. Определение наиболее подходящей точки разбиения ( порога,
границы, уровня).
Характеристическая кривая – это графическая иллюстрация соотношения между чувствительностью и специфичностью. Она всегда представляет собой ломанную линию, на рис 12–2 представлена ее функциональная аппроксимация, чтобы продемонстрировать точки перегиба, а также прямую линию (диагональ) абсолютно неинформативного разбиения.
Характеристическая кривая показывает, насколько сложен компромисс
между чувствительностью и специфичностью теста. С помощью этой кривой
можно определить оптимальное значение точки разделения. Как правило, это
точка перегиба. Общая оценка эффективности разделения на две группы может
быть представлена в виде площади под характеристической кривой: чем больше
эта площадь, тем эффективнее разделение. С помощью значения AUC можно
сравнивать два теста.
1
0,9
чувствительность
0,8
0,7
0,6
Тест A
0,5
Тест B
0,4
0,3
0,2
0,1
0
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1-специфичность
107
Рис 12–2. Характеристические кривые (условные) для тестов с различной информативностью
Влияние выбора точки разделения на чувствительность и специфичность
показано на рисунке 12–3.
Нет заболевания
–
Есть заболевание
1
2
–
+
+
Рис 12–3. Выбор точки разбиения
Точка 1 характеризуется:
более высокой чувствительностью;
большей долей ложно-позитивных результатов;
более низкой специфичностью.
Точка 2 характеризуется:
меньшей чувствительностью;
большей долей ложно-негативных результатов;
большей специфичностью.
Чаще всего выбирают такую точку разбиения xi количественной переменной, у которой сумма Spi + Sni максимальна.
Чувствительность показывает степень, с которой отрицательные результаты исследования позволяют отвергнуть то или иное заболевание. Специфичность же показывает, насколько можно доверять диагнозу того или иного заболевания, установленному на основе данного показателя. Высокая чувствительность и низкая специфичность означают, что следует придавать больше
значения отрицательным результатам (отсутствию заболевания). При низкой
чувствительности и высокой специфичности, ценны положительные результаты (распознавание заболевания).
В Приложении R-8 содержатся R-скрипты для расчетов данного примера,
построения графика, выбора точки разбиения.
108
12.2. Анализ двух групп: расстояние между группами
Иногда необходимо определить не только различие по местоположению
двух групп, но и оценить это различие. Если в парном сравнении достаточно
было определить разность между парами, как случайную величину и вычислить
среднее и доверительный интервал (раздел 9.3), то действия по оценке разности
между двумя независимыми группами будут немного отличаться.
Шаг 1. Пусть имеются две выборки (обе взяты из нормального распределения) размером n1 и n2 . Определим среднее и выборочную дисперсию в двух
группах:
x1 , s12 и x2 , s22 .
Шаг 2. Рассчитать общую дисперсию как s 2 =
(n1 − 1)s12 + (n2 − 1)s22
n1 + n2 − 2
Шаг 3. Рассчитать общую стандартную ошибку: SE = s 2 ×
.
1 1
+
.
n1 n2
Шаг 4. Среднее разности между двумя случайными величинами:
d = x2 − x1 ;
Нижняя граница интервала : d L = d − tγ ; (n1 + n2 − 2 ) × SE ;
верхняя граница интервала: dU = d + tγ ; (n1 + n2 − 2 ) × SE ,
где tγ ; (n1 + n 2 − 2 ) – значение γ -квантиля распределения Стьюдента с
(n1 + n2 − 2)
степенями свободы, γ = 1 − α
для двустороннего интервала, т.е.
2
для α = 0,05 γ = 0,975 , для одностороннего интервала γ = 1 − α ;
n – численность выборки.
Если доверительный интервал не содержит значение 0, значит разность
статистически значимо отлична от нуля.
Основные аспекты
Тестироваться может как местоположение, так и рассеяние переменной,
представленной выборочными значениями.
В случае наличия значимых различий в местоположении, может быть
произведена оценка таких различий.
Количественную переменную можно представлять как номинальную переменную и порог разделения может быть обоснованно выбран в случае, если
группы разделяются по местоположению.
Если нет доказательств, что группы могут разделятся, то и проводить
ROC-анализ не имеет смысла.
13. Бивариантный анализ: биноминальная и мультиноминальная переменные (таблицы 2 × c )
Исходные данные представляются таблицей 2 × c (Табл.13–1). Мультиноминальная переменная может быть упорядоченной и неупорядоченной.
109
Таблица 13–1. Представление данных таблицей 2 × c
Фактор
Состояние
Категория
1
Категория
2
Да
x 11
x12
x1 j
x1c
m1
Нет
x 21
x 22
x2 j
x2c
m2
n1
n2
nj
nc
N
π1
π2
πj
πc
…
Категория
j
…
Категория
с
Анализ неупорядоченных биноминальных выборок
Для анализа исхода и неупорядоченной мультиноминальной независимой
переменной мы имеем c групп ( c независимых выборок). Проверяется гипотеза о эквивалентности всех пропорций H 0 : π 1 = π 2 = K = π c против гипотезы
H A , что хотя бы одно из равенств не выполняется. Гипотеза проверяется χ 2 тестом Пирсона (см. анализ неупорядоченных таблиц r × c ). Для чего рассчиmi × n j
тываются ожидаемые частоты для каждой ячейки таблицы как xˆij =
.
N
Если в таблице есть нулевые ячейки (empty cells), то правильнее всего будет
соединить две или несколько категорий в одну не нарушая медикобиологического смысла категорий. Также не менее 80% ячеек таблицы должны
иметь оценки ожидаемых частот не менее 5. Если это правило не соблюдается,
то лучше использовать не χ 2 -тест Пирсона, а точный тест Фишера-ФрименаХалтона.
Если гипотеза H 0 об эквивалентности пропорций отклоняется, то интерес представляет, какие именно неупорядоченные категории порождают значимую разницу в пропорциях. Мы можем также сравнить пропорции только в
двух категориях, представив их таблицей 2 × 2 . Однако уровень значимости α
должен быть уменьшен. Поправка Бонферрони (Bonferroni) для множественных
сравнений рассчитывается в зависимости от количества сравнений. Максимальное количество сравнений в таблице 2 × c равно в c(c − 1) 2 . Например, при
c = 5 , α = 0,05 / (5 × (5 − 1) / 2) = 0,005 . Эта поправка является достаточно жесткой, есть более лояльные: Шидака (Šidák), метода Holm–Bonferroni и др.1
1
Обзор и анализ поправок для множественных сравнений см. в книге Dmitrienko et al
(2005).
110
Сравнение двух пропорций подробно изложено в разделе 11, можно использовать те же статистические тесты, доверительные интервалы, только с
учетом поправки.
Подробно алгоритм расчета χ 2 -тест Пирсона и примеры даны в разделе
14 для анализа неупорядоченных таблиц r × c .
Анализ упорядоченных биноминальных выборок
В случае упорядоченной мультиноминальной зависимой переменной мы
можем сначала воспользоваться χ 2 -тестом Пирсона (точным тестом ФишераФримена-Халтона) для выявления неоднородности таблицы 2 × c (с теми же
оговорками, которые были приведены выше для неупорядоченных категорий, о
пустых ячейках и ожидаемых частотах), затем проверить наличие тренда в пропорциях, ответить на вопрос увеличивается (уменьшается) пропорция при возрастании/убывании категориальной переменной. Иначе говоря, проверить гипотезу о том, что c независимых выборок имеют одинаковую пропорцию против
гипотезы о том, что существует тренд в пропорциях.
Для проверки гипотезы о тренде используется тесты трендов (trend test).
Типичное биомедицинское применение – связь дозы-отклика в клинических
испытаниях или в исследованиях случай-контроль. Также в качестве упорядоченной мультиноминальной переменной может выступать степень тяжести заболевания или группа риска. Исследуемый бинарный фактор в этом случае не
должен принимать участия в определении степени тяжести или группы риска.
В тестах выдвигается нулевая гипотеза о равенстве пропорций против
гипотезы о тренде в пропорциях. Один из тестов приведен ниже, чтобы понять
основы расчета таких тестов.
Шаг 1. Таблица (см. табл.13–2) дополняется весами для каждой категории w j , j = 1,K, c . Для линейного тренда веса определяются как
w j = j − 1, j = 1,K, c , для квадратичного тренда w j = ( j − 1)2 , j = 1,K, c и т.д.
Тренд может быть нелинейным и веса можно выбрать пропорционально уровню
фактора, например, если уровни воздействия : 0, 100, 500, 7000+, то веса можно
выбрать 0,1,5,70. и т.д. Одно существенное замечание для линейного тренда:
неважно, какие числа выбраны в качестве весов, важно только, что они расположены равномерно, с одинаковым шагом.
Шаг 2. Рассчитывается статистика
2
 c
m1n j  1 

−
N (N − 1)× 
w j  x1 j −
N  2 
 j −1 

 .
χ2 =
2
 c
c

 

m1m2  N
n j w2j − 
wjn j  


 j −1
 j −1
 

2
∑
∑
∑
111
1
Поправка на непрерывность   в формуле используется, если веса бе2
1
рутся с одинаковым шагом (для линейного тренда), иначе вместо   исполь2
зуется 0.
Таблица 13–2. Выбор весов категорий для определения тренда в таблицах 2 × c
Фактор
Состояние
Категория 1
Категория
2
Да
x11
x12
x1 j
x1c
m1
Нет
x 21
x 22
x2 j
x2 c
m2
n1
n2
nj
nc
N
Веса
w1
w2
wj
wc
Пример весов для
линейного тренда
0
1
j −1
c −1
Пример весов для
квадратичного
тренда
02
12
( j − 1)2
(c − 1)2

Выражение  x1 j −

…
Категория j
…
Категория с
m1n j 
 – это разность между наблюдаемой и ожидаемой частотой.
N 
Часто используется в критериях для анализа категорий.
Статистика подчиняется χ 2 распределению с одной степенью свободы.
(
)
Если значение рассчитанной статистики χ 2 превышает χ 2 > χ (21−α );1 , то
предполагается наличие тренда с уровнем значимости α , где
χ (21−α );1 –
это (1 − α ) квантиль χ 2 -распределения с одной степенью свободы.
Шаг 3. Если не обнаружено значимого наличия тренда, это означает, что
категории независимой переменной не ассоциируются с исходом (зависимой
переменной). Следовательно, можно рассчитать оценку общей пропорции для
m
всей выборки как отношение 1 и соответствующие доверительные интервалы,
N
если это необходимо.
112
Если выявлен линейный тренд, то далее можно провести более углубленный анализ. Оценки пропорций – это ряд случайных величин и их стандартные
ошибки, полученных из биноминального распределения, и мы сможем построить регрессию уже на базе этих оценок.
Например, исследуется количество послеоперационных инфекционных
осложнений в зависимости от состояния пациента непосредственно перед операцией (или некоторого параметра анализа крови, например, нейтрофилов, и
т.п.). Рассчитывается количество пациентов в каждой группе, фиксируется количество послеоперационных инфекционных осложнений в каждой группе, находится пропорция случаев в каждой группе. Определяется, существует ли
тренд в пропорциях в зависимости от тяжести состояния (возрастания/убывания
интересующего параметра крови).
Иной пример – также количество послеоперационных инфекционных осложнений в определенном отделении клинике, но по годам. Определяется количество проведенных операций в год, количество послеоперационных инфекционных осложнений для каждого года. Определяется, существует ли тренд в
пропорциях по годам – как изменилось качество постоперационного ухода.
Задачи совершенно разные, и выводы в одном случае касаются фактора
риска, в другом – качества лечения в определенном отделении клиники. Однако,
и в том и в ином случае используется один и тот же тест.
Также можно исследовать возрастание рисков при возрастании/убывании
категорий. В этом случае первая или последняя категория принимается за базовую (baseline), относительно нее считаются отношения шансов в остальных категориях. Мы получаем ряд случайных величин и их стандартные ошибки. Они
также могут быть исследованы с помощью регрессии (обычно используются
логарифмы отношения шансов). Нужно заметить, что для построения регрессии
нам надо иметь хотя бы 5–8 категорий для получения статистически устойчивых утверждений. Если категорий 2–3, то не имеет смысла обращаться к более
сложному виду анализа.
Основные аспекты
Если таблица сопряженности имеет размерность 2 × c , то ее можно трактовать, как ряд пропорций, определяемый соответствующей категорией.
Пропорции можно анализировать, как биноминальные переменные (находить оценки и доверительные интервалы).
Если категории упорядочены, то можно предположить, что есть тренд в
пропорциях и подробно исследовать его.
Выбор теста диктуется не медико-биологической сутью переменных, а
свойствами шкал измерений, распределений, лежащих в основе переменных
исследования.
113
14. Бивариантый анализ: мультиноминальная и мультиноминальная переменные (таблицы r × c )
r×c .
Анализ таких переменных сводится к анализу неупорядоченных таблиц
Таблица представляется как показано ниже (Табл. 14–1).
Таблица 14–1. Представление данных таблицей r × c
1
2
…
… c
j
1
x11
x12
x1c
x1 j
c
m1 =
∑x
1j
j =1
2
x 21
…
i
xi1
xic
xij
c
mi =
∑x
ij
j =1
…
r
x r1
…
r
n1 =
xrc
x rj
∑
i =1
xi1
…
r
nj =
∑
xij
i =1
r
N=
c
∑m = ∑n
i
i =1
j
j =1
Каждое наблюдение попадает только в одну из ячеек таблицы, все категории являются альтернативными. Таким образом, в ячейке содержится количество случаев, попадающих в одну из категорий по каждой из двух переменных.
Все замечания, касающиеся пустых ячеек для таблиц 2 × c верны для
таблиц r × c . Разреженная таблица с большим числом пустых ячеек в общем
случае малопригодна для анализа, а информация, полученная из такой таблицы
может касаться частных случаев исследования, ее сложно экстраполировать на
популяцию.
Расчет χ 2 -теста Пирсона
Шаг 1. Для каждой ячейки такой таблицы рассчитываются оценки ожидаемых частот:
mi × n j
.
xˆij =
N
Шаг 2. Если более 20% ячеек содержат значения оценки ожидаемой частоты менее 5, то нужно пересмотреть данные, каким-то образом объединив похожие категории и повторить расчет оценок ожидаемых частот. Если объеди114
нить категории невозможно в силу их принципиальных различий, то тогда необходимо использовать точный тест Фишера-Фримана-Халтона.
Если в результате объединения категорий получилась таблица 2 × 2 , для
которой хотя бы одна ячейка содержит оценку ожидаемой частоты менее 5, то
лучше перейти к точному тесту Фишера.
2
r
c
xij − xˆij
Шаг 3. Рассчитывается статистика χ 2 =
. Эта статистика
xˆij
i =1 j =1
∑∑
(
)
асимптотически подчиняется распределению χ 2 с (r − 1) × (c − 1) степенями
свободы.
Если значение рассчитанной статистики χ 2 превышает χ (21−α ), (r −1)×(c −1)
(χ
)
> χ (21−α ), (r −1)×(c −1) , где χ (21−α ), (r −1)×(c −1) – (1 − α ) квантиль χ 2 -распределения с
(r − 1) × (c − 1) степенями свободы, то в таблице есть сопряженные категории.
Шаг 4. Для каждой из ячеек таблицы рассчитывается стандартизированxij − xˆij
ные отклонения (Standardized deviates) как Devij =
.
 mi  n j 
xˆij 1 − 1 − 
N  N 

2
Стандартизированные остатки подчиняются закону нормального распределения Dev ~ NID (0;1) , поэтому Devij ≥ 2,0 указывают на значительное,
Devij ≥ 2,6 на очень значительное и Devij ≥ 3,3 на сверхзначительное отклонение (Agresti (2002)).
Если одна из мультиноминальных переменных упорядочена, то таблица
r × c называется одноупорядоченной таблицей. Для ее исследования используются непараметрический аналог ANOVA (тест Краскела-Уоллиса).
Если упорядочены обе мультиноминальные переменные, то таблица
r × c называется дважды упорядоченной таблицей. Для таких таблиц мы можем использовать тест линейно-линейной ассоциации (Linear-by-linear
Association Test), тест Джонкира-Терпста (Jonckheere-Terpstra Test). Но поиск
связи и ассоциаций в таких таблицах тем не менее надо начинать с проверки
наличия некой сопряженности, связи, ассоциации, как описано в разделе 9. Переход к детальному изучению таких таблиц возможен только после выявления
статистически значимых ассоциаций (коэффициенты сопряженности. Хиквадрат критерий Пирсона, точный тест Фишера-Фримена-Халтона, тау Кенделла, тау Гудмена-Краскела). Не выявив наличия значимой ассоциации, вы
можете потратить много времени на поиски того, чего может и не быть.
Пример представления и анализа данных в таблицах сопряженности
Для описания двух групп (например, группа 1 – это группа женского пола, группа 2 – группа мужского пола) была составлена таблица форм некоторого
гипотетического заболевания (Табл. 14–2). Расчет ожидаемых частот приведен в
115
таблице 14–3. Как видно, последние 4 формы заболевания имеют ожидаемые
частоты менее 5. Используем точный тест Фишера-Фримана-Халтона 1.
Таблица 14–2. Данные примера
Группа 1
Группа 2
n=41(100 %) n=56 (100 %)
Форма А
6 (14,6)
21 (37,5)
Форма Б
9 (22,0)
12 (21,4)
Форма B
14 (34,1)
10 (17,9)
Форма Г
3 (7,3)
3 (5,4)
Форма Д
1 (2,4)
5 (8,9)
Форма E
3 (7,3)
0 (0)
Форма Ж
5 (12,2)
5(8,9)
Таблица 14–3. Расчетные данные ожидаемых частот
Формы заболевания
Группа 1
Группа 2
Форма А
11,41
15,59
Форма Б
8,88
12,12
Форма B
10,14
13,86
Форма Г
2,54
3,46
Форма Д
2,54
3,46
Форма E
1,27
1,73
Форма Ж
4,23
5,77
Формы заболевания
Точный тест Фишера-Фримана-Халтона дает результат p = 0,03632.
Предположим, что в примере формы Г-Ж действительно встречаются
реже или похожи друг на друга. Объединим их (Табл. 14–4) и заново рассчитаем
ожидаемые частоты (Табл. 14–5).
Таблица 14–4. Данные примера после объединения строк
Формы заболевания
Группа 1
Группа 2
n=41(100 %) n=56 (100 %)
Форма А
6 (14,6)
21 (37,5)
Форма Б
9 (22,0)
12 (21,4)
Форма B
14 (34,1)
10 (17,9)
Иные формы(редкие формы) 12 (29,3)
13 (23,2)
Таблица 14–5. Расчетные данные ожидаемых частот после объединения строк
Формы заболевания
Группа 1. Группа 2
Форма А
11,41
15,59
Форма Б
8,88
12,12
Форма B
10,14
13,86
Иные формы (редкие формы) 10,57
14,43
Теперь точный тест Фишера-Фримана-Халтона
p = 0,05796, χ 2 -критерий Пирсона p = 0,06225.
Как относится к таким результатам?
1
дает
результат
Все расчеты данного примера проводились с помощью статистического пакета
R (R Foundation for Statistical Computing, Vienna, Austria; http://www.r-project.org/; Accessed August 1, 2011).
116
Это всего лишь статистические доказательства на уровне значимости
α = 0,05 . Если Вы установите уровень значимости вашего исследования α = 0,01 , то результат будет незначим как до, так после объединения строк.
Если Вы установите уровень значимости вашего исследования α = 0,1 , то результат будет значим как до, так после объединения строк.
Далее можно рассуждать различными путями, в зависимости от дизайна
и целей исследования.
Например, согласится с тем, что есть некоторая тенденция, и сравнить
частоты появления каждой формы у мужчин и женщин отдельно. В этом случае
придется использовать поправку Бонферрони или некоторую другую поправку,
например Шидака (Šidák) для множественных сравнений. Поправки зависят от
количества сравнений, чем больше сравнений, тем меньше значение скорректированного уровня значимости α .
Предположим, мы не сравниваем формы между собой, а сравниваем
только частоты их проявления у мужчин и женщин. В этом случае нам необходимо сделать 7 (4) сравнений (7 исходных форм или 4, если объединить некоторые формы). Оценим различия формы А заболевания (против всех остальных
форм) точным тестом Фишера (раздел 11.1.5). Получим значение p = 0,02086. C
учетом поправки Бонферрони наш тест может быть признан незначимым. Однако если в исследовании нас интересует только форма А (как отличающаяся от
всех других форм), мы можем говорить о различиях между мужчинами и женщинами по данной форме заболевания.
Следующий вариант рассуждений: оценить, достаточен ли размер групп
для принятия решения1.
Поскольку расчеты размера выборки для таблиц сопряженности достаточно сложны и выходят за рамки данного пособия, поступим следующим образом: оценим размер выборки для обнаружения различий в пропорциях по одной
из форм заболевания, где выборочная разность в пропорциях наибольшая (чем
меньше это различие, тем бóльший размер выборки нам понадобится). Из таблицы 14–2 следует, что наибольшая разность в пропорциях у формы А. Используя формулу из раздела 4.3 при уровне мощности исследования 80% и α = 0,05 ,
получим, что размер каждой группы (мужчин и женщин) должен быть не менее
54.
2
π иссл (1 − π иссл ) + π контр 1 − π контр 

n≈
 z1−α + z1− β  =
2
2


∆
0,146 × (1 − 0,146 ) + 0,375 × (1 − 0,375)
× (1,96 + 0,842)2 ≈ 54.
2
(0,146 − 0,375)
На имеющихся нам не хватает мощности исследования для принятия решения даже по форме А заболевания. Если одновременно устанавливать различия по другим формам, данных понадобится еще больше.
(
1
)
Оценка размера выборки для таблиц сопряженности описана в Chow (2008).
117
Поэтому тут только статистические методы ничего не решат. В первую
очередь надо обратится к дизайну исследования. Это было когортное исследование или экспериментальное? Насколько доказательство различий необходимо? Нужно ли увеличивать размер исследований и возможно ли его увеличить?
Принципиально ли для вашего исследования найти более четкие доказательства
наличия или отсутствия различий? Если ли в литературе данные по вопросу
разных форм данного заболевания у мужчин и женщин? Решать это придется
исследователю.
В качестве примера приведем наше решение. Но в иной ситуации оно
могло быть иным. Ниже дана таблица (табл.14–6), которая в результате вошла в
отчет по исследованиям и публикации. Наше исследование было когортным, по
всем случаям некоторого заболевания в нашей республике за 2000–2005 гг.
Большего количества данных у нас не было. Основной акцент исследования
фокусировался не на гендерных различиях, однако необходимо было описать
характеристики пациентов когорты. Поэтому мы справочно опубликовали таблицу и указали, что общие различия между группами мужчин и женщин по
формам заболевания находятся на уровне p = 0,063.
Таблица 14–6. Пример представления данных
мужчины n=41(100 %) женщины
n=56 (100 %)
Форма А
6 (14,6)
21 (37,5)
Форма Б
9 (22,0)
12 (21,4)
Форма B
14 (34,1)
10 (17,9)
Иные формы(редкие формы) 12 (29,3)
13 (23,2)
Форма Г
3
3
Форма Д
1
5
Форма E
3
0
Форма Ж
5
5
Формы заболевания
Всего,
n=97 (100 %)
27 (27,8 )
21 (21,6)
24 (24,8)
25 (25,8)
6
6
3
10
Статистический анализ – только инструмент для исследователя. Выводы на основе статистического анализа и статистических доказательств – прерогатива исследователя.
Пример расширенного анализа данных таблицы сопряженности
Этот пример приведен не только для демонстрации анализа конкретной
связи двух категориальных переменных, но и для демонстрации полного анализа такой взаимосвязи.
В Приложении R-9 содержатся R-скрипты для расчетов данного примера.
Изучается взаимозависимость наличия/отсутствия метастазов от локализации опухоли щитовидной железы. Исследователем выделено три основных
типа локализации опухоли под капсулой (I), внутри капсулы (II), перешеек (III).
Данные приведены в Табл. 14–7.
Шаг 1. Оценки ожидаемых частот (Табл. 14–8)
Шаг 2. Только в одной ячейке ожидаемая частота менее 5. Продолжаем
анализ.
118
Таблица 14–7. Данные примера
I
II
III
Наличие
54
57
14
125
Отсутствие
14
33
1
48
Всего
68
90
15
173
0,79
0,63
0,93
Пропорция
Таблица 14–8. Расчетные данные ожидаемых частот
I
II
III
Наличие
49,13
65,03
10,84
125
Отсутствие
18,87
24,97
4,16
48
68
90
15
173
Шаг 3.
Рассчитанная статистика χ 2 = 8,64 . Табличная статистика χ 02.95;2 = 5,99 .
Рассчитанная статистика превышает табличную, p = 0,0133. Наличие метастазов
статистически связано с локализацией опухоли.
Шаг 4. Расчет стандартизированных отклонений в каждой ячейке
(табл.14–9). Существует значительное отклонение (неоднородность таблицы),
связанная с локализацией по типу II.
Таблица 14–9. Расчетные данные стандартизированных отклонений
I
II
III
отсутствие
–1,69
2,72
–1,91
наличие
1,69
–2,72
1,91
Вывод: локализация опухоли и наличие метастазов взаимосвязаны
(p = 0,0133).
Если исследователя не интересует более детальный анализ, можно остановится на таком выводе. Можно продолжить анализ для более детального изучения нашей таблицы. Для большей наглядности можно воспользоваться диаграммой ассоциаций (см. Рис. 14-1).
119
Рис.14–1. Графическое изображение неоднородности таблицы r × c
После того, как установлена неоднородность таблицы, мы можем провести попарные сравнения категорий. Рассчитаем пропорции (см. Табл. 14–6) и
сравним их попарно для категорий I-II и I-III двухвыборочным тестом пропорций. Уровень значимости с учетом поправки Бонферрони α = 0,025 (мы осуществляем два сравнения α = 0,05 / 2 = 0,025 ). Проверяется нулевая гипотеза о
том, что пропорция категории II эквивалентна пропорции других категорий
против гипотезы о том, что пропорция во категории II меньше чем в I и III . Используем тест для сравнения двух пропорций.
Нулевая гипотеза H 0 : π 2 ≥ π1 , альтернативная гипотеза H A : π 2 < π1 .
p2 −1 = 0,0143 .
Нулевая гипотеза H 0 : π 2 ≥ π 3 , альтернативная гипотеза H A : π 2 < π 3 .
p2 − 3 = 0,01076 .
Поскольку полученные p-значения значимости менее α = 0,025 , мы можем сделать вывод о том, что действительно вероятность возникновения метастазов при локализации опухоли по II типу ниже, чем по I и III типу.
Вывод: доля пациентов с метастазами при локализации опухоли по II типу значимо ниже, чем при локализациях по типу I и III ( p = 0,0143 и
p = 0,01076 соответственно).
Мы имеем право объединить категории I и III и противопоставить их категории II.
В этом случае мы переходим к анализу таблиц 2× 2 (Табл.14–10).
120
Таблица 14–10. Данные примера после объединения колонок
Не II
II
Всего
наличие
68
57
125
отсутствие
15
33
48
Всего
83
90
173
Пропорция
π − 2 = 0,82
π 2 = 0,63
Проверим гипотезу H 0 : π 2 = π − 2 против альтернативной H A : π 2 ≠ π − 2 .
Расчеты показали p = 0,006354 . Категория II отличается от остальных
категорий.
Мы могли проверить гипотезу H 0 : π 2 ≥ π −2 против H A : π 2 < π − 2 . Уровень значимости был бы p = 0,003177 . Но нас интересовало наличие различий.
Вывод: Вероятность возникновения метастазов при локализации опухоли
по II типу отличается от вероятности возникновения метастазов при других локализациях ( p < 0,01 ).
Если исследователя не интересует более детальный анализ, можно остановится на таком выводе. Можно продолжить для более детального изучения.
Далее мы оценим вероятности возникновения метастазов при различных
локализациях опухоли. Оценка пропорции возникновения метастазов при локализации опухоли по второму типу : π 2 = 0,63 , 95% ДИ 0,53–0,73. При остальных типах локализации: π − 2 = 0,82 , 95% ДИ 0,73 –0,89.
Разность в пропорциях составляет π − 2 − π 2 = 0,19 . 95% доверительный
интервал для разности 0,05 – 0,31 (см. раздел 11.1.5), т.е. от 5 до 31 %.
Если исследование когортное, то можно оценить относительный риск появления метастазов для локализаций, отличных от II типа (не-II локализации)
RR = 1,29 , 95% ДИ (1,07–1,56). Интервал не содержит 1, следовательно, такие
локализации являются неблагоприятными. Иными словами, расположение опухоли не по второму типу увеличивает вероятность появления метастазов на 29%
(7% – 56%).
Если исследование не когортное и нас интересуют локализации не-II типа, то можно оценить отношение шансов для не-II локализаций как неблагоприятных, OR = 2,62 ; 95% ДИ (1,30 – 5,31).
Таким образом, интерпретация статистического вывода в наблюдениях
зависит от целей исследования. Статистический анализ не интерпретирует результаты, он только отмечает, что есть связи и различия. Глубина и направление
статистического анализа зависит от исследователя, от его целей и проблематики
исследования.
121
Основные аспекты
Таблицы r × c обычно в полную силу используются, когда есть достаточно наблюдений для построения таких таблиц, в ином случае вы все равно
будете вынуждены избавляться от пустых ячеек и малых ожидаемых частот
путем объединения категорий и ваши таблицы в результате превратятся в таблицы 2 × 2 или 2 × c .
Не пытайтесь искусственно перейти от количественных переменных к
таким таблицам путем разбиения количественной переменной на интервалы,
далее будет показано, что используются одни и те же непараметрические тесты
как для одно- и дважды упорядоченных таблиц, так и для анализа количественной переменной, которая не распределена нормально в исследовании. Пытаясь
разбить количественную переменную на интервалы, вы только теряете информативность ваших данных; хотя всегда найдутся отдельные исследования, когда
разбиение имеет смысл и обоснование.
Как глубоко анализировать данные – решать вам, но при использовании
любого теста предположения, лежащие в основе теста, должны быть проверены.
15. Бивариантый анализ: мультиноминальная и количественная переменные – анализ нескольких групп
Если одна из переменных представляет собой категории(группы), а вторая переменная количественная, то наиболее подходящим анализом является
дисперсионный анализ (ANOVA – analysis of variance).
Для ANOVA необходимо выполнение нескольких предположений. Наблюдения должны быть независимы. Обязательна проверка на гомоскедастичность количественной переменной.
Гомоскедасичность (гомогенность) – это однородность дисперсий(рассеяния). В противоположность этому термину существует термин гетероскедастичность (гетерогенность) – разнородность дисперсий (рассеяния).
Независимость наблюдений обеспечивается дизайном исследования.
Тест Левена (Levene test), тест Брауна-Форсайта (Brown–Forsythe test),
тест Бартлетта (Barlett test) служат для проверки нулевой гипотезы о равенстве
дисперсий генеральных совокупностей, т.е. проверка на гомогенность дисперсий. Первые два теста менее чувствительны к нарушению предположения о
нормальности количественной переменной.
15.1. Однофакторная ANOVA (Однофакторный дисперсионный анализ)
Рассмотрим применение однофакторного дисперсионного анализа для
случая, когда количественная переменная распределена нормально.
После того, как есть уверенность в том, что группы гомогенны, выдвигается нулевая гипотеза, которая гласит, что все средние в группах равны между
собой H 0 : µ1 = µ 2 = K = µ k = µ , где µi – среднее в группе i , k – количество
сравниваемых групп, µ – генеральное среднее, обычно центрируют данные
таким образом, что µ = 0 ; альтернативная гипотеза H A формулируется сле122
дующим образом: если сформировать все возможные линейные комбинации
(контрасты) средних, то существует линейная комбинация, которая отлична от
нуля (при условии µ = 0 ).
Такие гипотезы об общем равенстве носят название гипотезы омнибуса (Omnibus Null
Hypothesis). ANOVA – один из путей проверки таких гипотез.
Основная идея такого анализа – сравнение суммы отклонений от среднего (вариаций) в группах и целиком в выборке. Считается, что вариация в группах обуславливается случайной ошибкой, разность между вариацией всей совокупности и суммой вариаций в группах может объясняться эффектом, связанным с различными группами (эффект группы).
Пусть в исследовании общее число наблюдений – N , число групп (категорий мультиноминальной переменной) – k , ni – размер группы данных, обусловленных i -ой категорией, xi – среднее количественных данных по i -ой
группе (категории), x – среднее по всей количественной переменной. Тогда
можно рассчитать следующие вариации (Табл. 15–1):
Таблица 15–1. Расчеты в анализе вариаций
Суммаквадратов (Sum of Число
Square, SS)
степеней
свободы
Межгрупповая вариация
k
k −1
(различия между груп- SS1 =
ni (xi − x )2
пами)
i =1
Вариация, обусловленная эффектом
Внутригрупповая вариаk ni
N −k
2
ция (различия внутри SS =
x
−
x
2
ij
i
групп)
i =1 j =1
Вариация ошибки
Полная вариация: сумма
k ni
N −1
вариаSS =
xij − x 2
ций SS = SS1 + SS2
i =1 j =1
Источник вариации
∑
∑∑ (
∑∑ (
)
)
Среднее квадратов
(Mean of Square,
MS)
MS1 =
SS1
k −1
MS2 =
SS2
N −k
MS =
SS
N −1
Рассмотрим пример расчета (Табл. 15–2) :
Значение
переменной
1
2
3
7
8
9
Таблица 15–2. Пример расчетов в анализе вариаций
Среднее в
Сумма квадратов
Общее
Сумма квадратов
группах
отклонений от
среднее
отклонений от
Группа
среднего в групобщего среднего
пах
1
2
2
1
1
5
58
2
8
2
2
2
123
Сумма общей вариации составила SS = 58 , сумма внутригрупповых вариаций – SS 2 = 4 , сумма межгрупповых вариаций – SS1 = 54 . Согласно
ANOVA, вариация в 4 объясняется случайной ошибкой, 54 – объясняется различием средних в группах.
SS
Выражение R 2 = 1 − 2 называется коэффициентом детерминации и
SS
показывает, какая часть полной выборки объясняется влиянием групп (категоMS2
рий, фактора). R 2 = 1−
носит название уточненного коэффициента детерMS
минации.
Тест, который проверят, что различия в вариации между группами и
внутри групп не являются случайными носит название F-критерия:
k
∑ n (x − x )
2
F=
N −k
×
k −1
i
i
i =1
k ni
∑∑ (x
ij
− xi
)2
=
N − k SS1
,
×
k − 1 SS 2
i =1 j =1
Статистика F подчиняется F-распределению с параметрами
(k − 1)
и
(N − k ) . Превышение значения рассчитанной статистики над (1 − α ) перцентилем F-распределения свидетельствует о значимости влияния групп (категорий)
на количественную переменную.
Альтернативная гипотеза ANOVA утверждает, что различия есть, но не
уточняет, какие именно.
Кроме проверки гипотезы омнибуса можно проводить попарные сравнения групп. Однако, необходимо использовать критерии, специально предназначенные для таких множественных сравнений, проводить напрямую сравнения
двухвыборочным критерием Стьюдента – неправильно. Необходима поправка
на множественность сравнений (см. раздел.21.1). Критерий Стьюдента с поправкой Бонферрони для множественных сравнений становится слишком жестким, когда сравнений много. При наличии k групп необходимо провести
k
(k − 1) сравнений. Более грамотно будет воспользоваться специально разрабо2
танными критериями множественных сравнений: критерий Дункана (Duncan's
test), критерий Шеффе (Scheffé's test), критерий Тьюки (Tukey test), критерий
Ньюмена–Кейлса (Newman-Keuls test) и др. Все они имеют свою специфику,
которую нужно понимать при их использовании. Внимательно читайте условия
их использования в статистических пакетах, которыми вы будете пользоваться.
Некоторые предназначены для сравнения групп одинаковой размерности, некоторые сравнивают группы различной размерности.
124
Процедура множественных парных сравнений не эквивалентна проверке гипотезы омнибуса и существует отдельно от ANOVA.
Отдельно нужно упомянуть критерий Даннета (Dunnett test) для проведения сравнений с контрольной группой (одна из групп – контрольная, остальные
– экспериментальные).
Можно также оценить среднее по группе, найти его доверительные интервалы.
Можно оценить контраст – различия в двух отдельно взятых группах
(раздел 12.2), найти величину различия в средних между ними и доверительный
интервал для разницы в средних.
Если некоторые группы в анализе не различаются между собой, что доказывается дисперсионным анализом, у вас есть основания их объединять в анализе (безусловно, не нарушая медико-биологического смысла групп).
15.2. Непараметрическая ANOVA
Если количественная переменная не подчиняется закону нормального
распределения, то используется непараметрический аналог ANOVA (ранговый
однофакторный анализ Краскела-Уоллиса). Также могут использоваться тест
Коновера в предположении, что данные взяты из нормального распределения с
различным местоположением, но не вариацией, и потом распределены в c различных категорий; тест Сэвиджа – что в основе лежит экспоненциальное распределение, и потом данные распределены в c различных категорий.
Также, как и в параметрическом анализе, встает проблема множественных попарных сравнений, для проверки предположения о различии используется критерий Данна (Dunn's test), непараметрическая модификация критерия
Ньюмена–Кейлса и др.
15.3. Общие замечания
Бывают исследования, когда две группы из нескольких с самого начала
представляют особый интерес для исследователя. В этом случае результаты Fтеста (или непараметрических критериев) имеют ограниченный интерес для
исследователя, и тест Стьюдента (Манна-Уитни в непараметрическом случае)
может использоваться без поправки ошибки первого рода α на множественность сравнений. Однако в этом случае все остальные группы должны быть сохранены в анализе, поскольку при перегруппировке, или разделении оставшихся групп еще на несколько, вариация может измениться. Кроме того, это поможет избежать перегруппировки с исследуемыми группами, сосредоточившись
на анализе контраста только между двумя предопределенными группами.
Пример: при классификации злокачественных опухолей используется
классификация TNM. T – классифицирует степень прорастания опухоли. Изучаются различные группы опухолей, интерес представляют группа T1–2 и Т3.
Существует еще группа Тх – группа, в которой невозможно определить, проросла опухоль или нет. При сравнении групп T1–2 и Т3 по некоторому признаку
можно опустить группу Тх, но нельзя искусственно разделить Тх еще на некоторые подгруппы, равно как и объединить ее с любой из групп. В этом случае
125
не используют множественные сравнения (поскольку фактически имеем 2 группы), но и не изменяют исследуемые группы.
Следующее замечание: что делать, если мультиноминальная переменная
имеет упорядоченные категории? Можно воспользоваться ANOVA, в любом
случае.
Однако, в случае, если мультиноминальная переменная упорядочена, мы
можем найти тренд в таких данных, т.е. определить связано ли возрастание одной переменной с возрастанием (убыванием) другой переменной. Если количественная переменная подчиняется закону нормального распределения, то существует класс моделей регрессионного анализа, который оценивает величину
тренда. Для количественных переменных, не подчиняющихся закону нормального распределения, можно использовать тест линейно-линейной ассоциации
(Linear-by-linear association test), тест Джонкира-Терпста (Jonckheere-Terpstra
test). Однако, как говорилось в предыдущем разделе, поиск связи и ассоциаций
в таких таблицах тем не менее надо начинать с проверки наличия некой сопряженности, связи, ассоциации, как описано в разделе 10, проверки на то, существует ли общее различие в группах, образованных категориями мультиноминальной переменной.
Основные аспекты
Однородность дисперсий – важное предположение для ANOVA.
Общая вариация может быть разложена на составляющие вариации.
Попарные сравнения нескольких группах требуют специальных тестов и
коррекции уровня значимости на множественность сравнений.
Какие именно данные перед вами и как к ним относится – это ваши предположения, которые зависит от логики вашего исследования и подтверждены
статистическими тестами.
126
Учебное издание
Красько Ольга Владимировна
Статистический анализ данных
в медицинских исследованиях
УЧЕБНО-МЕТОДИЧЕСКОЕ ПОСОБИЕ
Редактор Е. О. Позняк
Корректор Е. В. Корзун
Компьютерная верстка Е. В. Корзун
Подписано в печать 30.05.2014. Формат 60×90 1/16.
Бумага офсетная. Гарнитура Times. Ризография.
Усл. печ. л. 5,0. Уч.-изд. л. 3,94.
Тираж 99 экз. Заказ № 232.
Издатель и полиграфическое исполнение
учреждение образования «Международный государственный
экологический университет имени А. Д. Сахарова»
ЛИ № 02330/993 от 31,08,2011 г.
Республика Беларусь, 220070, г. Минск, ул. Долгобродская, 23
E-mail: info@iseu.by
http://www.iseu.by
127
Download