ПРИКЛАДНЫЕ МЕТОДЫ СТАТИСТИКИ В БИОЛОГИИ И МЕДИЦИНЕ СОДЕРЖАНИЕ 1. 2. 3. 4. 5. 6. Введение 3 1.1. Достоверность и статистическая значимость 4 Описание данных 5 2.1. Среднее 7 2.2. Стандартное отклонение 8 2.3. Нормальное распределение 8 2.4. Медиана и процентили 9 2.5. Выборочные оценки 13 2.6. Насколько точны выборочные оценки 14 Способы представления экспериментальных данных 20 3.1. Статистический ряд 20 3.2. Вариационный ряд 21 3.3. Полигоны распределений и гистограммы 22 3.4. Кумулята и огива 26 Сравнение нескольких групп: дисперсионный анализ 27 4.1. Случайные выборки из нормально распределённой совокупности 28 4.2. Две оценки дисперсии 31 4.3. Критическое значение F 33 Сравнение двух групп: критерий Стьюдента 47 5.1. Принцип метода 48 5.2. Стандартное отклонение разности 50 5.3. Выборки произвольного объёма 59 5.4. Ошибки в использовании критерия Стьюдента 62 5.5. Критерий Стьюдента для множественных сравнений 63 5.6. Множественные сравнения с контрольной группой 65 5.7. Что означает Р 66 Анализ качественных признаков 67 6.1. Точность оценки долей 72 6.2. Сравнение долей 76 6.3. Поправка Йейтса на непрерывность 78 1 6.4. Таблицы сопряженности: критерий 7. 8. 9. 2 79 6.5. Точный критерий Фишера 87 Доверительные интервалы 90 7.1. Доверительный интервал для разности средних 91 7.2. Интервал шире - доверия больше 96 7.3. Проверка гипотез с помощью доверительных интервалов 98 7.4. Доверительный интервал для среднего 100 Анализ зависимостей 101 8.1. Уравнение регрессии 104 8.2. Оценка параметров уравнения регрессии по выборке 105 8.2.1. Метод наименьших квадратов 107 8.2.2. Разброс значений вокруг прямой регрессии 111 8.3. Стандартные ошибки коэффициентов регрессии 111 8.4. Есть ли зависимость? 114 8.5. Доверительная область для линии регрессии 115 8.6. Доверительная область для значений 116 8.7. Сравнение двух линий регрессии 118 8.8. Корреляция 123 8.9. Статистическая значимость корреляции 127 Заключение 130 2 1. Введение На первый взгляд, кажется, что медицинские и биологические журналы приходят к нам из идеального мира. В этом мире, недоступном простым смертным, авторы публикаций в совершенстве владеют статистическими методами, а строгие редакторы ни за что не пропустят работу со статистическими ошибками. Однако, на самом деле это далеко не так. Очень легко опубликовать ошибочную и просто бессмысленную статью. Авторы и редакторы медицинских и биологических журналов живут в том же мире, что и мы, и имеют о статистике примерно такое же представление, что и остальные его обитатели. О новых методах диагностики и лечения врачи узнают главным образом из публикаций в медицинских журналах. Познания читателей в статистике обычно скромны, поэтому выводы авторов им приходится принимать на веру. Это было бы не так страшно, если бы публикации предшествовала серьезная проверка результатов. К сожалению, проводится она далеко не всегда. Врачам известно множество методов диагностики и лечения, эффективность которых была «доказана» статистическими методами и которые тем не менее канули в Лету, не выдержав проверки практикой. А сколь часто приходится читать статьи, в которых статистические манипуляции с одними и теми же данными приводят к прямо противоположным выводам. Все это наводит читателя на мысль, что статистические методы либо ненадежны, либо слишком трудны для понимания, либо вообще не более чем инструмент недобросовестного исследователя. Между тем даже начального знакомства со статистикой в сочетании со здравым смыслом обычно достаточно, чтобы понять, что предлагает нам автор в качестве «доказательств». По иронии судьбы ошибки редко связаны с тонкими статистическими вопросами. Как правило, это простейшие ошибки, такие, как отсутствие контрольной группы, использование неслучайных выборок или пренебрежение статистической проверкой гипотез. По неизвестным науке причинам такие ошибки неизменно смещают результаты исследования в пользу предлагаемого автором метода. Вред, приносимый ошибками такого рода, очевиден. Исследователь заявляет о «статистически достоверном» эффекте лечения, редактор помещает статью в журнал, врач, неспособный критически оценить публикацию, применяет неэффективный метод лечения. В конце этой цепи находится больной, который и расплачивается за все, подвергаясь ненужному риску и не получая действительно эффективного лечения. Не следует сбрасывать со счетов и ущерб от самого факта проведения бессмысленных исследований. Деньги и подопытные животные приносятся в жертву науке, больные рискуют ради сбора ошибочно интерпретируемых данных. 3 Перевести клинический опыт на язык количественных оценок — задача медицинской статистики. Поиск новых методов диагностики и лечения, выбор наилучшего из уже принятых — везде статистические соображения играют не последнюю роль. Чтобы принять полноправное участие в обсуждении этих вопросов, исследователь должен быть знаком с принципами и основными методами статистики. 1.1. Достоверность и статистическая значимость Рассмотрим типичный пример применения статистических методов в медицине. Создатели препарата предполагают, что он увеличивает диурез пропорционально принятой дозе. Для проверки этого предположения они назначают пяти добровольцам разные дозы препарата. По результатам наблюдений строят график зависимости диуреза от дозы (рис. 1.1А). Зависимость видна невооруженным глазом. Исследователи поздравляют друг друга с открытием, а мир — с новым диуретиком. На самом деле данные позволяют достоверно утверждать лишь то, что зависимость диуреза от дозы наблюдалась у этих пяти добровольцев. То, что эта зависимость проявится у всех людей, которые будут принимать препарат, — не более чем предположение. Нельзя сказать, что оно беспочвенно — иначе зачем ставить эксперименты? Но вот препарат поступил в продажу. Все больше людей принимают его в надежде увеличить свой диурез. И что же мы видим? Мы видим рис. 1.1Б, который свидетельствует об отсутствии какой-либо связи между дозой препарата и диурезом. Черными кружками отмечены данные первоначального исследования. Статистика располагает методами, позволяющими оценить вероятность получения столь «непредставительной», более того, сбивающей с толку выборки. Оказывается, в отсутствие связи между диурезом и дозой препарата полученная «зависимость» наблюдалась бы примерно в 5 из 1000 экспериментов. Итак, в данном случае исследователям просто не повезло. Если бы они применили даже самые совершенные статистические методы, это все равно не спасло бы их от ошибки. Этот вымышленный, но совсем не далекий от реальности пример, мы привели не для того, чтобы указать на бесполезность статистики. Он говорит о другом — о вероятностном характере ее выводов. В результате применения статистического метода мы получаем не истину в последней инстанции, а всего лишь оценку вероятности того или иного предположения. Кроме того, каждый статистический метод основан на собственной математической модели, и результаты его правильны настолько, насколько эта модель соответствует действительности. 4 Р Рис. 1.1. А. У 5 доброовольцев иззмерили су уточный ди иурез послее приема раазных доз п препарата ( (предполага аемого диууретика). Заависимостьь диуреза оот дозы, каззалось бы, наллицо: чем больше б дозаа - тем болььше диурезз. Можно ли л считать д диуретичесский эффеккт пррепарата дооказанным?? Б. Такую ю картину мы м увидели и бы, если б бы могли исследовать и ь связзь дозы и диуреза д у вссех людей: зависимоссти нет и в помине. Пять человек, вошедши их в пеервоначальн ное исслед дование, помечены чер рным. В даанном случчае мнимая зависимоссть порожден на случайн ностью. С помощью п сттатистичесских методоов можно оценить о верояттность подобной оши ибки. Сегодн ня грамотн ная проверкка эффекти ивности леч чения стан новится пер рвоочередн ной задач чей. Исслледования должны тщательно т планировваться, а результаты ы правилььно интеерпретироваться. К счастью, основныее идеи, которыми к необходимо овладееть вдум мчивому иссследователлю, доволььно просты. 2. Оп писание дан нных В этом м курсе мы ы рассмотррим два ти ипа задач. Первый ттип задач — как сжаато описсать данныее. Этими заадачами занимается так т называеемая описаательная статисти с ка. Задаачи второгоо типа связзаны с оцен нкой стати истической значимостти различи ий и вообщ ще с провверкой гипоотез. Сначала рассмоотрим задач чи первогоо типа — ккак наилучшим образзом описсать данныее. Если значения ин нтересующ щего нас пр ризнака у большинств б ва объектовв близки к их сред днему и с равной вероятностьью отклон няются от него в боольшую или и меньш шую сторону, лучш шими хараактеристикаами совоккупности будут б само среднее значениее и стандартное отклонени ие. Напротив, ко огда знач чения прризнака распределе р ены 5 неси имметричноо относителльно средн него, совоку упность луучше описаать с помощ щью медиааны и прооцентилей. Поначаалу займем мся каким-н нибудь кол личественн ным признааком, напр ример ростоом. Чтоб бы попустуу не фантаазировать, слетаем на н Марс и измерим ввсех марси иан, благо их всегоо две сотни. Результаты привед дены на ри ис. 2.1 (мы ы округлили рост до целого чиссла сантиметров). Каждому К м марсианину у соответсттвует круж жок, так чтоо, например р, два круж жка над числом 300 означаютт, что имееются два марсианин на ростом 30 см. Рис. 2.1 - это э расп пределение марсиан по п росту. Мы М видим, что рост большинствва марсиан - от 35 до 45 см. Коротышек К к (ниже 30 см) совсем м немного - всего троое, и стольько же вели иканов (вы ыше 50 см м). Рис. 2.1. Расп пределениее марсиан по п росту. Каждому маарсианину ссоответствует кружокк. Маарсиан сред днего ростаа (около 40 см) больш ше всего, вы ысокорослы ых столько же, сколькко к коротышек (распредел ление симм метрично). Окрылленные усп пехом марссианского проекта, п м решаем измерить венерианц мы цев. Легкко находим м деньги на путешесттвие и, воо оружившиссь линейкаами, измер ряем всех 150 1 обиттателей Вен неры. Науч чный отчетт об экспед диции будет звучать так: «Редкко встрети ишь венеерианца ниж же 10 см или и выше 20 см, а чааще попадааются 15-ссантиметро овые, см. рис. р 2.2».. Но вот в осталиссь позади нелегкие межпланет м тные перелеты. Настаала пора сккрупулезноого аналлиза данныхх. Сравним м рис. 2.1 и 2.2. Мы видим, чтоо венерианц цы ниже марсиан м и что ч интеервал, в котторый умещ щается росст всех мар рсиан, шире, чем сооттветствующ щий интерввал для венерианце в ев. Ширинаа интервалла, в которы ый попадаю ют почти вссе марсиан не 194 из 2000) - 20 см (от 30 до д 50 см). Рост Р больш шинства вен нерианцев 144 из 1500) умещаетсся в интерввал 6 от 100 до 20 см,, то есть им меет ширин ну всего ли ишь 10 см. Несмотря на эти разл личия, меж жду двум мя совокуп пностями инопланетя и ян имеетсяя и сущесственное схходство. В обеих роост любоого члена скорее с бли изок к сереедине распр ределения, нежели зааметно от нее н удален н, и один наково верооятно мож жет быть каак выше, таак и ниже середины.. Распредел ления на рис. р 2.1 и 2.2 имею ют схожую форму и приближенн п но определляются одн ной и той же ж формулой. Раз существует с т множествво похожихх распредел лений, знач чит, для хаарактеристи ики одногоо из них достаточн но указать,, чем оно отличаетсся от друггих, ему п подобных, то есть всю в собрранную инф формацию мы можем свести к несколькким числам м, которыее называюттся парааметрами рааспределен ния. Это срреднее знач чение и стан ндартное оотклонениее. Р Рис. 2.2. Рааспределен ние венериаанцев по ро осту. Венеррианцы ниж же марсиан н, разброс знач чений менььше. Однакко по формее распредел ления, напооминающеей колокол,, венерианц цы и марси иане схожи и друг с друугом. 2.1.Срееднее Располложив мыссленно расспределени ия марсиан н и венери ианцев на одной шкаале ростта, мы увид дим, что распределен р ние венери ианцев нахходится ни иже, чем распределен ние марссиан. Харакктеристикаа положени ия распредееления на числовой ч ооси называеется средни им. Средднее по соовокупностти обознач чают гречееской букввой µ и вы ычисляют по формууле: Суммаа значений признака Сред днее по соввокупности и= для всехх членов соовокупности и . ч соввокупности Число членов Экквивалентн ное матеематическоое выражение имеет ви ид: 7 X N , (2.1) где X - значение признака, N - число членов совокупности. Подставив в формулу добытые нами данные, получим ценное дополнение к научному отчету: средний рост марсиан 40 см, а венерианцев - 15 см. 2.2.Стандартное отклонение Еще на Венере мы заметили, что тамошние жители более однородны по росту, нежели марсиане. Хотелось бы и это впечатление оформить количественно, то есть иметь показатель разброса значений относительно среднего. Ясно, что для характеристики разброса все равно, в какую сторону отклоняется значение - в большую или меньшую. Иными словами, отрицательные и положительные отклонения должны вносить равный вклад в характеристику разброса. Воспользуемся тем, что квадраты двух равных по абсолютной величине чисел равны между собой, и вычислим средний квадрат отклонения от среднего. Этот показатель носит название дисперсии и обозначается σ2. Чем больше разброс значений, тем больше дисперсия. Дисперсию вычисляют по формуле: 2 (X ) 2 N . (2.2) Как видно из формулы, дисперсия измеряется в единицах, равных квадрату единицы измерения соответствующей величины. Например, дисперсия измеряемого в сантиметрах роста сама измеряется в квадратных сантиметрах. Это довольно неудобно. Поэтому чаще используют квадратный корень из дисперсии - стандартное отклонение σ: 2 (X ) N 2 . (2.3) Стандартное отклонение измеряется в тех же единицах, что исходные данные. Например, стандартное отклонение роста марсиан составляет 5 см, а венерианцев – 2.5 см. 2.3.Нормальное распределение Таблица 2.1 сжато представляет то, что мы узнали о марсианах и венерианцах. Таблица очень информативна, из нее можно узнать об объеме совокупности, о среднем росте и о том, насколько велик разброс относительно среднего. 8 Таблица 2.1. Параметры распределения марсиан и венерианцев по росту Объем совокупности Среднее, см Марсиане 200 40 Стандартное отклонение, см 5.0 Венерианцы 150 15 2.5 Вновь обратившись к рис. 2.1 и 2.2 мы обнаружим, что на обеих планетах рост примерно 68% обитателей отличается от среднего не более чем на одно стандартное отклонение и примерно 95% — на два стандартных отклонения. Подобные распределения встречаются очень часто. Можно сказать, что это происходит всегда, когда некая величина отклоняется от средней под действием множества слабых, независимых друг от друга факторов. Распределение такого рода называется нормальным (или гауссовым) и описывается формулой: 1 X 1 f (X ) e 2 2 2 . (2.4) Заметим, что нормальное распределение полностью определяется средней µ и стандартным отклонением σ. Поэтому сведения в табл. 2.1 - это не просто удачное представление данных, но также и полное их описание. 2.4.Медиана и процентили Обогатившись теоретическими познаниями, мы отправляемся на Юпитер. Здесь мы не только измеряем всех до одного юпитериан, но также подсчитываем среднее и стандартное отклонение роста для всей их совокупности. Оказывается, средний рост юпитериан – 37.6 см, а его стандартное отклонение - 4.5 см. Можно заключить, что юпитериане очень похожи на марсиан, ведь близки оба параметра, определяющие нормальное распределение — среднее и стандартное отклонение. Однако если взглянуть на исходные данные по юпитерианам (рис. 2.3А), то обнаружится совершенно иная картина. На самом деле типичный юпитерианин довольно приземист — около 35 см, то есть на добрых 5 см ниже марсианина. И только небольшая группа долговязых смещает значения стандартного отклонения и среднего, вводя ученых в заблуждение! 9 Рис. 2.3. Если Е распрееделение ассимметрично, полагатться на срееднее и стан ндартное откллонение нелльзя. А. Расспределени ие юпитери иан по ростту. Б. Норм мальное расспределени ие с теми и же средн ним и станд дартным оттклонением м: несмотряя на тождесственность параметроов, о ничутьь не похожее на реальн оно ное распред деление юп питериан. р произввольно выб бранного юпитериани ю ина вовсе н не равновер роятно мож жет Итак, рост оказааться выш ше или ниже средн него, то есть е распрределение юпитериаан по россту асим мметрично. В такой си итуации поолагаться на н среднее и стандарттное отклон нение нелььзя. На рис. р 2.3Б иззображено нормальноое распределение дляя совокупн ности с тем ми же самы ыми значениями срреднего и стандартноого отклон нения, что и на рис. 2.3А. Он но ничуть не похооже на распределен р ние юпитериан. Тааким обраазом, довеерившись среднему и стандартному отклонени ию, мы поллучим преевратное прредставлен ние о сово окупности, не подч чиняющейсся нормальн ному распрределению. Для оп писания такких данныхх лучше подходит не среднее, а медиана. Медиана М - это э значение, котоорое делит распределление попо олам: полоовина значчений болььше медиан ны, полоовина — мееньше (точнее, не болльше). 10 Рис. 2.4. Для описания асимметрич а чного расп пределения следует исспользоватть медиану и проц центили. Медиана М — это значен ние, которо ое делит расспределени ие пополам м. А. Медиаана росста юпитериан — 36 см. с Б. 25-й и 75-й процентили оттсекают четтверть самых низких и четтверть самы ых высокихх юпитериаан. 25-й процентиль ближе б к медиане, чем м 75-й — этто говворит об ассимметрич чности расп пределенияя. Из рисс. 2.4А видн но, что ровно половин на юпитери иан выше 336 см. Стал ло быть, 36 см — этто медианаа роста юп питериан. Для Д характеристики разброса р рооста юпитеериан найд дем значения, не выше в которрых оказаллись 25 и 75% резулльтатов изм мерения. Эти Э величи ины назы ываются 25-м и 75-м процентил лями. Если и медиана делит расп пределениее пополам, то 25-й и 75-й прооцентили отсекают о о него по четвертушк от ч ке. (Саму м медиану, кстати, к мож жно считтать 50-м процентиллем). Для юпитериаан, как ви идно из рис. 2.4Б, 25-й и 755-й 11 проц центили раавны соотвветственно 34 см и 40 см. Коонечно, мед диана и процентили и, в отли ичие от среднего и стандаартного отклонения, не даю ют полногго описан ния расп пределения. Однако между м 25-м и 75-м про оцентилями и находитсся половинаа значений — значит, мы мож жем судить, каков роостом сред дний юпитеерианин. П По положен нию медиааны отноосительно 25-го 2 и 75-го процен нтилей мож жно судитьь о том, наасколько асимметрич а чно расп пределение. И наконец ц, теперь мы м примерн но знаем, ктто на Юпитере считается высокким (выш ше 75-го прроцентиля),, а кто росттом не выш шел (ниже 25-го 2 процеентиля). Для оп писания рааспределен ния чаще всего в прим меняют 255-й и 75-й процентилли. Однаако можноо рассчиты ывать любы ые другие процентилли. Наприм мер, в кач честве гран ниц норм мы лаборатторных покказателей часто испол льзуют 5-й и 95-й проц центили. Вычисление прооцентилей — хорош ший способ б разобратться в том м, наскольько расп пределение близко к нормальноому. Напомним, что для норм мального рааспределен ния 95% значений заключеноо в пределаах двух стаандартных отклонений о й от среднего и 68% - в пред делах одногго стандарртного откллонения; медиана соввпадает со средним. Соответстввие межд ду процен нтилями и числом сттандартных х отклонен ний от срреднего представленоо в табллице 2.2 и на н рис. 2.5. Табл лица 2.2. Соответств С вие между процентил лями и чисслом станд дартных оттклонений от сред днего Процентили П и 2.5 16 50 84 97.5 Отклонеение от среднего µ - 2σ µ-σ µ µ+σ µ + 2σ Рис. 2.5. Нормаальное расп пределениее: соответсттвие междуу числом сттандартныхх о отклонений й от среднеего и процеентилями. 12 Если соответствие между процентилями и отклонениями от среднего не слишком отличается от приведенного, то распределение близко к нормальному и его можно описать при помощи среднего и стандартного отклонения. Есть еще одна, и очень важная, причина, по которой нужно знать, близко ли распределение к нормальному. Дело в том, что многие методы проверки гипотез основаны на предположении, что распределение близко к нормальному. Только в этом случае эти методы будут надежны. 2.5.Выборочные оценки До сих пор нам удавалось получить данные обо всех объектах совокупности, поэтому мы могли точно рассчитать значения среднего, дисперсии и стандартного отклонения. На самом деле обследовать все объекты совокупности удается редко: обычно довольствуются изучением выборки, полагая, что эта выборка отражает свойства совокупности. Выборку, отражающую свойства совокупности, называют представительной. Имея дело с выборкой, мы, конечно, не узнаем точных значений среднего и стандартного отклонения, но можем оценить их. Оценка среднего, вычисленная по выборке, называется выборочным средним. Выборочное среднее обозначают X и вычисляют по формуле: X X . (2.5) n где n — объем выборки. Оценка стандартного отклонения называется выборочным стандартным отклонением (s) и определяется следующим образом: s (X X ) n 1 2 . (2.6) Эта формула отличается от формулы для стандартного отклонения по совокупности. Во-первых, среднее µ заменяется его выборочной оценкой - X . Во-вторых, в знаменателе из числа членов выборки вычитается единица. Разброс значений в пределах выборки никогда не бывает столь большим, как во всей совокупности, и деление не на n, а на n – 1 компенсирует возникающее занижение оценки стандартного отклонения. Подытожим. Если известно, что выборка скорее всего принадлежит к совокупности с нормальным распределением, лучше всего использовать выборочное среднее и выборочное стандартное отклонение. Если есть основания полагать, что 13 распределение в совокупности отличается от нормального, следует использовать медиану, 25-й и 75-й процентили. Полная совокупность некоторых объектов (признаков, параметров, характеристик, значений параметров и т.д.) называется генеральной совокупностью. Генеральная совокупность, как правило, имеет весьма большое число членов (единиц); теоретически число членов генеральной совокупности можно считать бесконечным. Например, при изучении некоторого заболевания человека генеральную совокупность будет составлять всё население земного шара. Учитывая большой объём генеральной совокупности, на практике не представляется возможным обследовать всех членов этой совокупности, даже если число их конечно. Это требует больших материальных затрат и времени. Из данной генеральной совокупности можно сформировать большое число выборочных совокупностей, отличающихся как самими членами, так и числом членов. Результаты обследования этих выборочных совокупностей будут отличаться как между собой, так и от результата обследования генеральной совокупности, если бы его удалось провести. Значения, полученные в результате обследования выборочных совокупностей, являются случайными величинами, зависящими от состава выборочной совокупности и от числа членов в ней. Возникает вопрос о правомочности распространения результатов обследования выборочной совокупности на всю генеральную совокупность. Для того, чтобы результаты, полученные при обследовании выборочной совокупности, можно было распространить на всю генеральную совокупность, выборочная совокупность должна быть представительной. Представительность выборочной совокупности зависит от числа членов совокупности и от способа выбора этих членов: число членов выборочной совокупности должно быть достаточно большим, а сами члены должны выбираться случайным образом. Вопрос о том, какое число членов выборочной совокупности можно считать достаточным, является одним из основных вопросов, решаемых математической статистикой. 2.6.Насколько точны выборочные оценки Выборочное среднее и выборочное стандартное отклонение есть оценки среднего и стандартного отклонения для совокупности, вычисленные по случайной выборке. Понятно, что разные выборки дадут разные оценки. Для характеристики точности выборочных оценок используют стандартную ошибку. Стандартную ошибку можно подсчитать для любого показателя, но сейчас мы остановимся на стандартной ошибке 14 сред днего - она позволяет оценить точность, т с которой выборочноее среднее характеризу х ует значение средн него по всей й совокупн ности. На рисс. 2.6А преедставленоо уже знако омое нам распределе р ение марси иан по россту. Мы уже знаем м рост каж ждого марссианина. Посмотрим П м, что полуучится, есл ли оцениваать сред дний рост по п выборкее объемом, скажем, 10 марсиан.. Из 200 об битателей Марса М науггад выбеерем 10 и пометим их черным ми кружкаами (рис. 2.6А). 2 На рис. 2.6Б эта выборрка изоб бражена в виде, в приняятом в журн нальных пу убликацияхх. Точка и два отрезка по бокам м от нее изображаю и ют выборочное среднеее ( X = 41..5 см) и вы ыборочное сстандартно ое отклонен ние (s = 3.8 см). Этти значени ия близки, но не равн ны среднем му по совоокупности (µ ( = 40 см м) и о ю (σ = 5 см м). стандартному отклонению Рис. 2.6. Три Т случайн ные выборкки из одной й совокупн ности дают три разны ых оценки среднего и стандарттного отклоонения. Извлеч чем еще одну случайн ную выборкку того же объема. Реезультат по оказан на рис. р не изображ жены заштр рихованны ыми 2.6В. На рис. 2.6А попаавшие в этту выборкку марсиан круж жками. Выб борочное среднее с (366 см) по-преежнему близко к сред днему по совокупнос с сти, 15 хотяя и отличаеется от него; что касаается выбор рочного сттандартногго отклонен ния (5 см), то на эттот раз оноо совпало соо стандартн ным отклон нением по совокупноости. На рисс. 2.6Г пред дставлена третья т выборка. Попаавшие в нее марсианее на рис. 2.6А изоб бражены крружками с точками. Среднее и стандартн ное отклон нение для этой э выборрки состаавляют сооответственн но 40 и 5 см м. Теперьь пора посставить доб бычу случайных выб борок на п промышлен нную осноову. Рассмотрим соовокупностть среднихх для кажд дой из возм можных вы ыборок по о 10 марси иан. Общ щее число таких т выборрок превыш шает 1016. Три Т из нихх мы уже об бследовали и. Средние по этим м выборкам м представллены на ри ис. 2.7 в вид де заполненных круж жков. Пусты ые кружки — это средние еще е для 22 выбороок. Итак, теперь каждому к ввыборочном му среднеему к тоочно так жее, как до сих пор круужки соотвветствовали и отдельноому сооттветствует кружок, объеекту. Рис.. 2.7. Такоее распределление мы получим, п вы ыбрав 25 рааз по 10 маарсиан из со овокупностти, пред дставленноой на рис. 2.6А, 2 и рассчитав среднее для кааждой выборки (средние для треех вы ыборок с ри ис. 2.6 покаазаны заполлненными кружками) к ). Если посттроить расп пределениее средних для всех воззможных вы ыборок, он но окажетсяя нормальн ным. Средн нее этого расп пределенияя будет равн но среднем му той сово окупности, из которой й извлекаю ются выборкки. Стан ндартное отклонение о этого расп пределенияя называетсся стандарттной ошибккой среднегго. Посмотрим на ри ис. 2.7. Наб бор из 25 вы ыборочныхх средних и имеет колокколообразн ное расп пределение,, похожее на нормаальное. Это о не случаайно. Мож жно доказаать, что ессли перееменная прредставляетт собой сум мму больш шого числаа независим мых перем менных, то ее расп пределение стремитсяя к нормалььному, каки ими бы ни были расп пределения переменны ых, обраазующих суумму. Так как выбороочное сред днее опредееляется им менно такой й суммой, его е расп пределение стремитсяя к нормалььному, причем, чем больше объ ъем выборо ок, тем точн нее приб ближение. (Если выбоорки принаадлежат со овокупностти с нормалльным распределениеем, расп пределение выборочны ых среднихх будет нор рмальным независимо н о от объёмаа выборок)). 16 Поскольку распределение на рис. 2.7 нормальное, его можно описать с помощью среднего и стандартного отклонения. Так как среднее значение для рассматриваемых 25 точек есть среднее величин, которые сами являются средними значениями, обозначим его X X . Аналогично, стандартное отклонение обозначим s X . По формулам для среднего и стандартного отклонения находим: X X = 40 см и s X = 1.6 см. Среднее выборочных средних X X оказалось равно среднему µ всей совокупности из 200 марсиан. Ничего неожиданного в этом нет. Действительно, если бы мы провели исследования всех возможных выборок, то каждый из 200 марсиан был бы выбран равное число раз. Итак, среднее выборочных средних совпадет со средним по совокупности. Интересно, равно ли s X стандартному отклонению σ совокупности из 200 марсиан? Стандартное отклонение для совокупности выборочных средних s X равно 1.6 см, а стандартное отклонение самой совокупности - 5 см. Почему s X меньше, чем σ? В общих чертах это можно понять, если учесть, что в случайную выборку редко будут попадать одни только коротышки и одни гиганты. Чаще их будет примерно поровну, и отклонения роста от среднего будут сглаживаться. Даже в выборке, куда попадут 10 самых высоких марсиан, средний рост составит только 50 см, тогда как рост самого высокого марсианина — 53 см. Подобно тому как стандартное отклонение исходной выборки из 10 марсиан s служит оценкой изменчивости роста марсиан, s X является оценкой изменчивости значений средних для выборок по 10 марсиан в каждой. Таким образом, величина s X служит мерой точности, с которой выборочное среднее X является оценкой среднего по совокупности µ. Поэтому s X носит название стандартной ошибки среднего. Чем больше выборка, тем точнее оценка среднего и тем меньше его стандартная ошибка. Чем больше изменчивость исходной совокупности, тем больше изменчивость выборочных средних; поэтому стандартная ошибка среднего возрастает с увеличением стандартного отклонения совокупности. Истинная стандартная ошибка среднего по выборкам объёмом n, извлеченным из совокупности, имеющей стандартное отклонение σ, равна1: X n . (2.7) Собственно стандартная ошибка - это наилучшая оценка величины X по одной выборке: 1 Вывод этой формулы приведен в разд. 5. 17 sX s , n (2.8) где s — выборочное стандартное отклонение. Так как возможные значения выборочного среднего стремятся к нормальному распределению, истинное среднее по совокупности примерно в 95% случаев лежит в пределах 2 стандартных ошибок выборочного среднего. Как уже говорилось, распределение выборочных средних приближенно всегда следует нормальному распределению независимо от распределения совокупности, из которой извлечены выборки. В этом и состоит суть утверждения, называемого центральной предельной теоремой. Эта теорема гласит следующее. Выборочные средние имеют приближенно нормальное распределение независимо от распределения исходной совокупности, из которой были извлечены выборки. Среднее значение всех возможных выборочных средних равно среднему исходной совокупности. Стандартное отклонение всех возможных средних по выборкам данного объёма, называемое стандартной ошибкой среднего, зависит как от стандартного отклонения совокупности, так и от объёма выборки. На рис. 2.8 показано, как связаны между собой выборочное среднее, выборочное стандартное отклонение и стандартная ошибка среднего и как они изменяются в зависимости от объема выборки. Рис. 2.8 получился следующим образом. Из совокупности марсиан (рис. 2.1) взяли наугад двух марсиан. По этой выборке вычислили X , s и s X . Потом опять же наугад выбрали еще одного марсианина и, добавив его к выборке, снова рассчитали эти показатели. Добавляя каждый раз по одному случайно выбранному марсианину, объем выборки довели до 100. Если бы мы повторили эксперимент, очередность извлечения марсиан была бы иной и рисунок выглядел бы немного иначе. По мере того как мы увеличиваем объем выборки, выборочное среднее X и стандартное отклонение s дают все более точные оценки среднего µ и стандартного отклонения σ по совокупности. Увеличение точности оценки среднего отражается в уменьшении стандартной ошибки среднего X . Набрав достаточное количество марсиан, можно сделать стандартную ошибку среднего сколь угодно малой. В отличие от стандартного отклонения стандартная ошибка среднего ничего не говорит о разбросе данных - она лишь показывает точность выборочной оценки среднего. 18 Рис. 2.8. С увеличением объема выборки возрастаетт точность ооценки пар раметров распределления. Выборочное срреднее X стремится с к среднемуу в совокупности µ, выборочн ное стандарртное отклоонение s сттремится к стандартноому отклон нению в соввокупности и σ, а станд дартная оши ибка средн него стреми ится к нулю ю. р меж жду стандаартным откклонением и стандарттной ошиб бкой среднеего Хотя разница соверршенно очевидна, о их часто путают. Большинсттво исслед дователей приводятт в публликациях значение стандартн ной ошибкки среднеего, которрая заведо омо менььше стандартного отклонения о я. Авторам кажется, что ч в таком м виде их даанные внуш шают болььше довеерия. Можеет быть, такк оно и естть, однако беда б в том, что стандаартная оши ибка среднеего измееряет имен нно точноссть оценки и среднего,, но никакк не разбррос данных х, который й и интеересен читаателю. Мораль состооит в том, что, описы ывая совоккупность, всегда в нуж жно привводить знач чение станд дартного оттклонения.. Рассмоотрим прим мер, позволяющий почувствова п ать различчие между стандартны ым откллонением и стандарттной ошиб бкой средн него, а таккже уяснитть, почему у не следуует прен небрегать стандартны ым отклонен нием. Поло ожим, исслледователь,, обследоваав выборкуу из 20 человек, ч пи ишет в сттатье, что средний сердечный с выброс ссоставлял 5.0 5 л/мин со 19 стандартным отклонением 1 л/мин. Мы знаем, что 95% нормально распределенной совокупности попадает в интервал среднее плюс-минус два стандартных отклонения. Тем самым, из статьи видно, что почти у всех обследованных сердечный индекс составил от 3 до 7 л/мин. Такие сведения весьма полезны, их легко использовать во врачебной практике. Если автор укажет не стандартное отклонение, а стандартную ошибку среднего, то из статьи вы узнаете, что «сердечный выброс составил 5.0 ± 0.22 л/мин». И если бы мы спутали стандартную ошибку среднего со стандартным отклонением, то пребывали бы в уверенности, что 95% совокупности заключено в интервал от 4.56 до 5.44 л/мин. На самом деле в этом интервале (с вероятностью 95%) находится среднее значение сердечного выброса. Впрочем, стандартное отклонение можно рассчитать самому - для этого нужно умножить стандартную ошибку среднего на квадратный корень из объёма выборки (численности группы). Правда, для этого нужно знать, что же именно приводит автор стандартное отклонение или стандартную ошибку среднего. Итак, подведём итог. Так как наблюдать всю совокупность удается редко, мы оцениваем параметры распределения по выборке, случайным образом извлеченной из совокупности. Стандартная ошибка среднего служит мерой точности, с которой выборочное среднее является оценкой среднего по совокупности. 3. Способы представления экспериментальных данных 3.1.Статистический ряд При изучении некоторых параметров (характеристик) объекта, производится измерение этих параметров у разных объектов или многократное измерение этого параметра у одного и того же объекта. Каждый отдельный результат измерения (каждый член совокупности) называется вариантой. Результаты измерений обычно представляются в виде таблицы, состоящей из двух строк: в первой строке указывается номер измерения, а во второй строке – соответствующее значение результата измерения. i 1 2 3 … n Xi X1 X2 X3 … Xn Такую таблицу называют статистическим рядом. Статистический ряд представляет собой первичную форму записи результатов измерений. Однако по такому ряду трудно сделать какие-либо выводы о поведении изучаемой величины. 20 3.2.Вариационный ряд Первичная обработка статистического материала заключается в том, что на основании статистического ряда строятся вариационные ряды. Простой вариационный ряд также состоит из двух строк: в первой строке записываются результаты отдельных измерений в порядке их возрастания (или убывания), а во второй строке – числа, указывающие сколько раз при измерении было получено соответствующее значение исследуемого параметра (эти числа называются частотами). Xi X1 X2 X3 … Xk mi m1 m2 m3 … mk При большом числе измерений простой вариационный ряд оказывается длинным и плохо обозримым. В этом случае из результатов измерений формируется интервальный вариационный ряд. В интервальном вариационном ряду результаты измерений объединяют в классы или группы. Ряд также состоит из двух строк: в первой строке указываются интервалы классов или групп, а во второй строке – числа (частоты), показывающие сколько значений исследуемого параметра попало в соответствующий класс или группу. Интервалы классов mi X1 - X2 X3 - X4 … Xk-1- Xk m1 m2 … mk Интервалы классов или групп, как правило, берут одинаковой величины (хотя можно брать и разной); сами величины интервалов тоже можно выбирать произвольными. Однако для удобства сравнения результатов разных исследований, величины интервалов рассчитывают по формуле Стерджеса: X X max X min 1 3.32 lg n . (3.1) Часто вариационные ряды дополняют значениями относительных частот. Относительная частота определяется по формуле i = mi/n, (3.2) где mi - число наблюдений одинаковых значений параметра или число попаданий значений параметра в данный интервал (класс), а n – общее число измерений данного параметра. 21 Вариационные ряды, дополненные относительными частотами, называются статистическими совокупностями. Для того, чтобы наглядно представить закономерности распределения результатов измерений, вариационные ряды могут быть отображены графически в виде полигонов распределений и в виде гистограмм. 3.3. Полигоны распределений и гистограммы Простые вариационные ряды отображаются в виде полигона распределений; при этом по оси абсцисс откладываются значения результатов измерений, а по оси ординат – относительные частоты каждого результата. В точках значений результатов измерений восстанавливаются перпендикуляры, длины которых пропорциональны относительным частотам. Соединяя верхние концы перпендикуляров ломаной линией, получают геометрическую фигуру, называемую полигоном распределения частот. Ломаная линия, соединяющая концы перпендикуляров, называется вариационной линией (кривой) или кривой распределения относительных частот (рис. 3.1). Интервальные вариационные ряды отображаются в виде гистограмм. При отображении интервальных вариационных рядов по оси абсцисс откладываются границы классов или групп, а по оси ординат – относительные частоты попадания результатов опыта в класс (группу); на классовых интервалах, как на основаниях, строятся прямоугольники, высоты которых равны относительным частотам. В результате получается ступенчатая фигура, называемая гистограммой. Если соединить середины верхних сторон прямоугольников линией, то получится кривая распределения относительных частот (см. Рис. 3.2). Для интервального вариационного ряда можно построить и полигон распределений; для этого по оси абсцисс откладывают срединные значения классов, а по оси ординат – соответствующие им относительные частоты. Полигон распределений и гистограмма наглядно показывают, как часто встречаются те или иные значения исследуемого параметра, те или иные значения результатов экспериментов. 22 0.20 0.15 i 0.10 0.05 0.00 0 2 4 6 8 Xi Рис. 3.1. Пример построения полигона распределения частот и кривой распределения относительных частот 0.4 i 0.3 0.2 0.1 0.0 0.02 0.07 0.12 0.19 0.22 Xi-1-Xi Рис. 3.2. Пример построения гистограммы и кривой распределения относительных частот Рассмотрим на примере изучения физиологии марсиан построение полигона распределений и гистограммы. При подсчёте числа щупалец у марсиан были получены следующие результаты (число измерений n = 20): i 1 2 3 4 5 6 7 8 9 10 Xi 6 9 5 7 10 8 9 10 11 8 i 11 12 13 14 15 16 17 18 19 20 Xi 9 12 9 8 10 11 9 8 10 7 Составим простой вариационный ряд, расположив результаты измерений в порядке их возрастания: 23 Xi 5 6 7 8 9 10 11 12 mi 1 1 2 4 5 4 2 1 Дополнив вариационный ряд относительными частотами, получим статистическое распределение результатов подсчёта щупалец, причем: n i 1 i 1 . 00 Xi 5 6 7 8 9 10 11 12 m 1 1 2 4 5 4 2 1 i 0.05 0.05 0.10 0.20 0.25 0.20 0.10 0.05 По полученному распределению построим полигон распределений и проведем вариационную кривую (рис. 3.3). 0.25 i 0.20 0.15 0.10 0.05 4 6 8 10 12 Xi Рис. 3.3. Полигон распределений и вариационная кривая к задаче о подсчёте числа щупалец у марсиан Следующий пример. При измерении концентрации кальция в сыворотке крови получены следующие значения концентрации (число измерений n = 50): 8.6 6.7 9.7 5.9 8.1 6.2 6.6 6.4 6.9 5.3 7.9 5.8 5.4 7.1 5.9 8.5 7.4 5.9 7.7 5.8 7.3 4.4 6.6 4.2 8.0 5.1 6.9 7.7 6.0 6.7 4.9 5.9 6.7 5.7 6.1 9.0 6.4 8.8 7.6 7.1 7.7 5.2 7.1 6.5 8.5 5.0 7.8 8.2 5.0 8.8 Сгруппируем результаты измерений в интервальный вариационный ряд. Вычислим величину классового интервала по формуле Стерджеса: 24 C Cmax Cmin 1 3.32 lg n 9.7 4.2 1 3.32 lg 50 0.83 0.8 Нижнюю границу первого класса обычно задают меньше, чем Сmin на половину классового интервала, т.е.: C1 Cmin C 2 4.2 0.8 2 3.8. Для того чтобы исключить попадание некоторых результатов одновременно в два соседних класса, верхнюю границу каждого класса уменьшают на величину, равную точности измерения исследуемого параметра. Учитывая сказанное, получим следующие значения классовых интервалов: 3.8-4.5 4.6-5.3 5.4-6.1 6.2-6.9 7.0-7.7 7.8-8.5 8.6-9.3 9.4-10.1 Разнеся результаты измерений по классам, получим интервальный вариационный ряд: С i 3.8-4.5 4.6-5.3 5.4-6.1 6.2-6.9 7.0-7.7 7.8-8.5 mi 2 6 10 11 9 7 С i 8.6-9.3 9.4-10.1 mi 4 1 Рассчитав относительные частоты и дополнив ими вариационный ряд, получаем статистическое распределение результатов измерений концентрации кальция. С i 3.8-4.5 4.6-5.3 5.4-6.1 6.2-6.9 7.0-7.7 7.8-8.5 mi 2 6 10 11 9 7 i 0.04 0.12 0.20 0.22 0.18 0.14 С i 8.6-9.3 9.4-10.1 mi 4 1 i 0.08 0.02 По этим данным строим гистограмму и проводим вариационную кривую. (Рис. 3.4). 25 0.25 0.20 i 0.15 0.10 0.05 0.00 4.2 5 5.8 6.6 7.4 8.2 9 9.8 Ci Рис. 3.4. Гистограмма к задаче об измерении концентрации кальция в сыворотке крови 3.4.Кумулята и огива Кроме полигона распределений и гистограмм для наглядного представления статистического распределения используют еще два вида кривых: кумуляты и огивы. При построении кумуляты по оси абсцисс откладываются срединные значения классовых интервалов, а по оси ординат – так называемые, накопленные частоты (суммы частот предыдущих классов, начиная с первого). Построим кумуляту, используя данные второго примера. Найдем накопленные частоты и занесем их в таблицу. Сi 4.2 5.0 5.8 6.6 7.4 8.2 9.0 9.8 νi 0.04 0.16 0.36 0.58 0.76 0.90 0.98 1.0 По полученным данным построим кумуляту (рис. 3.5) 1.0 i 0.8 0.6 0.4 0.2 0.0 4 5 6 7 8 9 10 Ci Рис. 3.5. Кумулята к задаче об измерении концентрации кальция в сыворотке крови 26 Кумуляты используются при определении значений исследуемой величины, соответствующих накопленной частоте νi = 0.5; т.е. центру распределения. Эти значения определяют, например, дозу лекарственных препаратов, вызывающих эффект у более чем 50% подопытных индивидов. Если поменять местами оси координат: накопленные частоты отложить на оси абсцисс, а срединные значения классов – по оси ординат, то получится кривая, называемая огива. Огива, соответствующая результатам измерения концентрации кальция, приведена на рис. 3.6. Огивы позволяют сравнивать между собой несколько статистических распределений разного объёма, так как при любом объёме выборки сумма накопленных частот равна единице. 10 Ci 8 6 4 0.0 0.2 0.4 0.6 0.8 1.0 i Рис. 3.6. Огива к задаче об измерении концентрации кальция в сыворотке крови 4. Сравнение нескольких групп: дисперсионный анализ Статистические методы используют не только для описания данных, но и для оценки статистической значимости результатов опыта. Перейдём к методам оценки статистической значимости различий (их называют критериями значимости, или просто критериями2). Методов этих существует множество, но все они построены по одному принципу. Сначала мы формулируем нулевую гипотезу, то есть, предполагаем, что исследуемые факторы не оказывают никакого влияния на исследуемую величину и полученные различия случайны. Затем мы определяем, какова вероятность получить наблюдаемые (или более сильные) различия при условии справедливости нулевой 2 Критерием называют и сам метод, и ту величину, которая получается в результате его применения. 27 гипотезы. Если эта вероятность мала3, то мы отвергаем нулевую гипотезу и заключаем, что результаты эксперимента статистически значимы. Это, разумеется, еще не означает, что мы доказали действие именно изучаемых факторов (это вопрос прежде всего планирования эксперимента), но, во всяком случае, маловероятно, что результат обусловлен случайностью. Дисперсионный анализ был разработан в 20-х годах девятнадцатого века английским математиком и генетиком Рональдом Фишером. На дисперсионном анализе основан широкий класс критериев значимости. Сейчас мы постараемся понять общий принцип этого метода. 4.1.Случайные выборки из нормально распределённой совокупности Однажды в небольшой деревне (200 жителей) ученые исследовали влияние диеты на сердечный выброс. Случайным образом отобрали 28 человек, каждый из которых согласился участвовать в исследовании. После этого они, опять-таки случайным образом, были разделены на 4 группы по 7 человек в каждой. Члены первой (контрольной) группы продолжали питаться как обычно, члены второй группы стали есть только макароны, третьей группы - мясо, четвёртой - фрукты. Через месяц у всех участников эксперимента измерили сердечный выброс. Результаты представлены на рис. 4.1. Анализ данных мы начинаем с формулировки нулевой гипотезы. В данном случае она заключается в том, что ни одна из диет не влияет на сердечный выброс. То есть, все четыре группы представляют собой просто случайные выборки из нормально распределённой совокупности. (Откроем маленький секрет - дело обстоит именно так. На рис. 4.2 показано распределение сердечного выброса для всех жителей деревни: каждый житель представлен кружком. Члены наших экспериментальных групп изображены заштрихованными кружками.) Однако как убедиться в этом, располагая только результатами эксперимента (рис 4.1)? Как видно из рисунка 4.1, группы все же различаются по средней величине сердечного выброса. Вопрос можно поставить так: какова вероятность получить такие различия, извлекая случайные выборки из нормально распределенной совокупности? Прежде чем ответить на этот вопрос, нам надо получить показатель, характеризующий величину различий. 3 Максимальную приемлемую вероятность отвергнуть верную нулевую гипотезу называют уровнем значимости и обозначают α. Обычно принимают α = 0.05. 28 Рисс. 4.1. Исследователь не н может наблюдать н совокупность; все, чеем он распо олагает, - это его эксперимен э нтальные грруппы. На этом рисун нке данныее представллены таким ми, какими их вид дит исследоователь. Реззультаты в разных группах нескколько разлличаются. Вызваны В этти раззличия диеттой или просто случаайностью? Внизу В рисуунка показааны средни ие величины сердечногго выброса в четырех группах (ввыборочны ые средние), а также ср реднее и стан ндартное отклонение о этих четыррех средни их. Риссунок 4.2. Распределе Р ение жителлей деревни и по величи ине сердечн ного выбро оса. Диета не н вли ияет на серрдечный вы ыброс, и эксспериментаальные грууппы предсставляют со обой простто четырре случайны ые выборки и из нормал льно распределенной совокупно ости. 29 Остави им на врем мя наш экссперимент и зададим мся вопросом, что зааставляет нас, н взгляянув на несколько н выборок, думать, что ч различия между ними не н случайн ны. Попрробуем такк изменитьь наши даанные, чтоб бы читателль поверилл во влиян ние диеты на серд дечный вы ыброс. Резуультат этоой подтасовки пред дставлен н на рис. 4..3. Взаимн ное расп положение точек в группах осталось прежним, но сами и группы значителььно раздвинуты поо горизонтаальной оси и. Сравнивв рис. 4.1 и 4.3, всяккий скажетт, что четы ыре выбоорки на рис. 4.1 «не различаютс р ся», а выбо орки на ри ис. 4.3 — «рразличаюттся». Почем му? Сраввним разбррос значений внутри и выборок с разбросоом выбороочных сред дних. Разбррос выбоорочных срредних на рис. 4.1 значительн з но меньшее разброса значений в каждой из выбоорок. На рис. р 4.3 картина к об братная — разброс выборочны ых средних х превышаает разбррос в кажд дой из выбоорок. Рис. 4.3. Те Т же групп пы, что на предыдущ щих рисункаах; теперь оони раздви инуты по гори изонтальной й оси. Вряд д ли такие различия р можно м отнеести за счетт случайности - влиян ние диеты налицо! Обратитее внимание, что разброс выбороч чных средн них превыш шает разброос внуттри групп. На предыд дущем рисуунке картин на была ин ной - разброос выбороч чных средн них был мен ньше разбро оса внутри групп. 30 Итак, чтобы оценить величину различий, нужно каким-то образом сравнить разброс выборочных средних с разбросом значений внутри групп. Сейчас мы покажем, как это можно сделать с помощью дисперсии (как мы выяснили в предыдущей главе, этот показатель характеризует именно разброс), но прежде сделаем несколько замечаний. Дисперсия правильно характеризует разброс только в том случае, если совокупность имеет нормальное распределение (вспомните обследование юпитериан, чуть было не приведшее к ошибочным заключениям). Поэтому и критерий, основанный на дисперсии, применим только для нормально распределённых совокупностей. Вообще, все критерии, основанные параметрическими), на оценке применимы параметров только в распределения случае, если (они данные называются подчиняются соответствующему распределению (чаще всего речь идет о нормальном распределении). Если распределение отличается от нормального, следует пользоваться так называемыми непараметрическими критериями. Эти критерии не основаны на оценке параметров распределения и вообще не требуют, чтобы данные подчинялись какому-то определенному типу распределения. Непараметрические критерии дают более грубые оценки, чем параметрические. Параметрические методы более точны, но лишь в случае, если правильно определено распределение совокупности. 4.2.Две оценки дисперсии Мы уже выяснили, что чем больше разброс средних и чем меньше разброс значений внутри групп, тем меньше вероятность того, что наши группы — это случайные выборки из одной совокупности. Осталось только оформить это суждение количественно. Дисперсию совокупности можно оценить двумя способами. Во-первых, дисперсия, вычисленная для каждой группы, - это оценка дисперсии совокупности. Поэтому дисперсию совокупности можно оценить на основании групповых дисперсий. Такая оценка не будет зависеть от различий групповых средних. Например, для данных на рис. 4.2 и 4.3 она будет одинаковой. Во-вторых, разброс выборочных средних тоже позволяет оценить дисперсию совокупности. Понятно, что такая оценка дисперсии зависит от различий выборочных средних. Если экспериментальные группы - это четыре случайные выборки из одной и той же нормально распределённой совокупности (применительно к нашему эксперименту это значило бы, что диета не влияет на сердечный выброс), то обе оценки дисперсии совокупности дали бы примерно одинаковые результаты. Поэтому, если эти оценки оказываются близки, то мы не можем отвергнуть нулевую гипотезу. В противном случае мы отвергаем нулевую гипотезу, то есть, заключаем: маловероятно, что мы получили бы 31 такие различия между группами, если бы они были просто четырьмя случайными выборками из одной нормально распределённой совокупности. Перейдем к вычислениям. Как оценить дисперсию совокупности по четырём выборочным дисперсиям? Если верна гипотеза о том, что диета не влияет на величину сердечного выброса, то любая из них дает одинаково хорошую оценку. Поэтому в качестве оценки дисперсии совокупности возьмём среднее выборочных дисперсий. Эта 2 : оценка называется внутригрупповой дисперсией; обозначим её sвну 2 sвну 1 2 2 2 2 sкон s мак sмяс sфру , 4 (4.1) 2 2 2 2 , sмак , sмяс , sфру где sкон - выборочные оценки дисперсии в группах, питавшихся как обычно (контроль), макаронами, мясом и фруктами. Дисперсия внутри каждой группы вычисляется относительно среднего для группы. Поэтому внутригрупповая дисперсия не зависит от того, насколько различаются эти средние. Оценим теперь дисперсию совокупности по выборочным средним. Так как мы предположили, что все четыре выборки извлечены из одной совокупности, стандартное отклонение четырёх выборочных средних служит оценкой ошибки среднего. Напомним, что стандартная ошибка среднего X связана со стандартным отклонением совокупности σ и объёмом выборки n следующим соотношением: X n . Тем самым, дисперсию совокупности σ2 можно рассчитать следующим образом: 2 n X2 . (4.2) Воспользуемся этим, чтобы оценить дисперсию совокупности по разбросу значений выборочных средних. Эта оценка называется межгрупповой дисперсией; 2 обозначим её s меж : 2 s меж ns X2 , (4.3) где s X2 - оценка стандартного отклонения выборки из четырёх средних. Если верна нулевая гипотеза, то как внутригрупповая, так и межгрупповая дисперсии служат оценками одной и той же дисперсии и должны быть приближенно равны. Исходя из этого, вычислим критерий F: 32 Дисперсия совокупности, оценённая по выборочным средним F , Дисперсия совокупности, оценённая по выборочным дисперсиям или F 2 s меж . 2 sвну (4.4) И числитель, и знаменатель этого отношения - это оценки одной и той же величины дисперсии совокупности σ2, поэтому значение F должно были близко к 1. Для четырёх групп, представленных на рис. 4.2, значение F действительно близко к единице (F = 1.4). Теперь наши исследователи влияния диеты на сердечный выброс могут сделать определенные выводы. Полученные в эксперименте данные не противоречат нулевой гипотезе, следовательно, нет оснований считать, что диета влияет на сердечный выброс. Что касается данных, которые мы специально сконструировали, чтобы убедить читателя в таком «влиянии» (рис. 4.3), то для них F = 68.0. Как видим, величина F хорошо согласуется с впечатлением, которое складывается при взгляде на рисунок. Итак, если F значительно превышает 1, нулевую гипотезу следует отвергнуть. Если же значение F близко к 1, нулевую гипотезу следует принять. Осталось понять, начиная с какой именно величины F следует отвергать нулевую гипотезу. 4.3.Критическое значение F Если извлекать случайные выборки из нормально распределённой совокупности, значение F будет меняться от опыта к опыту. Например, на рис. 4.4 представлен еще один набор из четырёх случайных выборок по семь человек в каждой, извлеченных из нашей совокупности в 200 человек. На этот раз F = 0.5. Положим, что нам удалось повторить эксперимент с жителями той же деревни, скажем, 200 раз. Каждый раз мы заново набирали по четыре группы, и каждый раз вычисляли F. На рис. 4.5А приведены результаты этого многократного эксперимента. Значения F округлены до одного знака после запятой и изображены кружками. Два черных кружка соответствуют данным с рис. 4.2 и 4.4. Как и следовало ожидать, большинство значений F близко к единице (попадая в интервал от 0 до 2); только в 10 из 200 опытов (то есть в 5% случаев) мы получили значение F, большее или равное 3. (На рис. 4.5Б эти 10 значений показаны черными кружками.) Значит, отвергая нулевую гипотезу при F > 3, мы будем ошибаться в 5% случаев. Если такой процент ошибок не чрезмерен, то будем считать «большими» те 33 значения F, кооторые болльше или равны р 3. Значение З к критерия, н начиная с которого мы м отверргаем нулеевую гипоттезу, называается крит тическим значением з . Р Рис. 4.4. Ещ ще один наб бор из четы ырёх случаайных выбоорок по сем мь человек в каждой, иззвлечённыхх из совокуупности в 200 2 человекк (населени ие деревни,, где изучал ли влияниее диеты ы на сердеч чный выброс). Верояттность ошибочно оттвергнуть верную нуулевую ги ипотезу, то о есть най йти разли ичия там, где г их нет, обозначаеется Р. Какк правило, считают д достаточны ым, чтобы эта э верооятность не н превыш шала 5%. (Максимал льная при иемлемая ввероятностть ошибоч чно отверргнуть нуллевую гипоотезу назыввается уроввнем значи имости и ообозначаетсся α.) Почеему бы не н повысить критичесское значен ние F, тем самым умееньшая этуу вероятноссть? Однакко в этом м случае воозрастёт ри иск ошибоочно приняять невернуую нулевуую гипотезу у (то есть не найтти различий й там, где они о есть). Итак, мы реши или, приняяв допусти имой 5% вероятноссть ошибкки, отвергаать нулеевую гипоттезу при F > 3. Однаако критич ческое знач чение F слледовало бы ы выбрать на осноове не 200,, а всех 10042 экспериментов, ко оторые мож жно провессти на сово окупности из 200 человек. Предполож П жим, что нам н удалоссь провестти все эти эксперим менты. По их резулльтатам мы ы вычисли или соответтствующиее значенияя F и нанессли их на график (ррис. 4.6В). Здесь кааждое знач чение F иззображено «песчинкоой». На доолю темных х песчинокк в 34 праввой части горки г прихходится 5% % всех знач чений. Карттина, в общ щем, похож жа на ту, что ч мы видели в рисс. 4.6Б. Наа практике совокупно ости горазд до большее, чем насееление наш шей дереевни, а число возможных знач чений F несравненн н но больше 1042. Есл ли мыслен нно увелличить объ ъём совокуупности доо бесконечн ности, то песчинки сольются, и получиттся гладкая криваяя, изображенная на рис. р 4.6Г. Площади П п кривой под й аналогич чны долям от к илли песчиноок на рис. 4.6А, 4 Б и В. В Заштрихоованная об бласть на рис. р общеего числа кружков 4.6Г составляетт 5% всей площади под п кривой й. Эта облаасть начинаается от F = 3.01; этоо и есть критическкое значени ие F. Рис. 4.5. А. А Четыре случайные выборки в по о 7 человекк в каждой извлекли из и той же с совокупнос сти (населеение деревн ни) 200 раз. Каждый раз р рассчиттывали значение F и нааносили егоо на графикк. Результааты для выб борок с рисс. 4.2 и 4.5 помечены черным. Б. Дессять наиболльших знач чений помеечены черным. Областть черных кружков наачинается со с знаачения F, равного р 3.00. В нашеем примере число групп равнял лось 4, в кааждую грууппу входило 7 человвек. Если и бы числоо групп или и число члленов в каж ждой групп пе было дрругим, криввая пошла бы по-другому и критическкое значен ние F тож же было бы ы другим.. Вообще, критическкое 35 значение F одн нозначно определяет о тся уровнем м значимоссти (обычн но 0.05 или и 0.01) и ещё е двум мя параметтрами, котторые назы ываются внутригрупп повым и межгруппо овым числлом степеней свобооды и обоозначаютсяя греческо ой буквой ν («ню»). Межгруп пповое чиссло пеней своббоды - этоо число груупп минусс единица: νмеж = m – 1. Внут тригрупповвое степ числ ло степенеей свободы ы - это прои изведение числа ч групп п на числен нность каж ждой из груупп минуус единицаа: νвну = m((n - 1). В примере п с исследоваанием диетты межгруп пповое чиссло степеней свобооды равно 4 – 1 = 3, а внутригрупповое 4(77 - 1) = 24. Рисс. 4.5 (продолжение). В. Из той же ж совокуп пности извллекли все ввозможныее наборы изз 4 в выборок поо 7 человекк в каждой и построил ли распредееление F. О Отдельные значения сллились, преевратившиссь в песчин нки. 5% пессчинок с саамыми большими знаачениями F п помечены ч черным. Г. Такое расп пределениее F получиттся, если иззвлекать вы ыборки из беесконечной й совокупноости. Пяти процентам м самых вы ысоких значчений F соо ответствуетт зааштриховаанная облассть (ее площ щадь состаавляет 5% от о общей пллощади под кривой). «Б Большие» значения з F начинаютсся там, где начинаетсся эта облассть, то естьь с F = 3.01. Вычислить криттическое значение з F довольн но сложноо, поэтому у пользуюттся табллицами критических значений з F для разных х α, νмеж и νвну (табл. 44.1). 36 37 Таблица 4.1. 4 1 Критические значения F для α = 0.05 0 05 (обычный шрифт) и α = 00.01 01 (жирный шрифт) 38 39 Математическая модель, на которой основано вычисление критических значений F, предполагает следующее: 1) Каждая выборка независима от остальных выборок. 2) Каждая выборка случайным образом извлечена из исследуемой совокупности. 3) Совокупность нормально распределена. 4) Дисперсии всех выборок равны. При существенном нарушении хотя бы одного из этих условий нельзя пользоваться ни таблицей 4.1, ни вообще дисперсионным анализом. В рассмотренном нами эксперименте исследовалась зависимость только от одного фактора - диеты. Дисперсионный анализ, в котором проверяется влияние одного фактора, называется однофакторным. При изучении влияния более чем одного фактора используют многофакторный дисперсионный анализ (в данном курсе не рассматривается). Сейчас мы уже можем оценивать статистическую значимость реальных данных. Рассмотрим примеры, заимствованные из медицинской литературы. Позволяет ли правильное лечение сократить срок госпитализации? Стоимость пребывания в больнице - самая весомая статья расходов на здравоохранение. Сокращение госпитализации без снижения качества лечения дало бы значительный экономический эффект. Способствует ли соблюдение официальных схем лечения сокращению госпитализации? Чтобы ответить на этот вопрос, Кнапп и соавт.4 изучили истории болезни лиц, поступивших в бесплатную больницу с острым пиелонефритом. Острый пиелонефрит был выбран как заболевание, имеющее четко очерченную клиническую картину и столь же четко регламентированные методы лечения. Эта работа - пример обсервационного исследования. В отличие от экспериментального исследования, где исследователь сам формирует группы и сам оказывает то или иное воздействие, в обсервационном исследовании он может лишь наблюдать течение процесса. С другой стороны, это исследование - ретроспективное, поскольку имеет дело с данными, полученными в прошлом (в отличие от проспективного). В обсервационном исследовании мы никогда не можем гарантировать, что группы различаются только тем признаком, по которому они были сформированы. Этот D. E. Knapp, D. А. Кпарр, М. К. Speedie, D. M. Yaeger, С. L. Baker. Relationship of inappropriate drug prescribing to increased length of hospital stay. Am. J. Hosp. Pharm., 36:1334-1337, 1979. 4 40 неустранимый недостаток исследований такого рода. Известно, например, что курильщики чаще болеют раком легких. Это считается доказательством того, что курение вызывает рак легких. Однако возможна и другая точка зрения: у людей с генетической предрасположенностью к раку легких существует и генетическая предрасположенность к курению. В обсервационном исследовании отвергнуть такое объяснение невозможно. Ретроспективное исследование, естественно, всегда является обсервационным; разделяя недостатки последнего, оно обладает и рядом собственных. Исследователь использует информацию, собранную для других целей, - естественно, часть её приходится реконструировать; еще часть неизбежно теряется. Меняются методы исследования, диагностические критерии и сами представления о нозологических единицах; наконец, истории болезни ведутся порой небрежно. Кроме того, имея весь материал в руках, здесь особенно трудно удержаться от непреднамеренной подтасовки. Тем не менее, ретроспективные исследования проводились и будут проводиться. Они недороги и позволяют получить большой объём информации в короткий срок. Последнее особенно важно в случае редкого заболевания: при проспективном исследовании на сбор данных уйдут годы. В примере, который мы разбираем, проспективное исследование вообще невозможно: нельзя же, в самом деле, одну группу больных лечить правильно, а другую неправильно. Чтобы избежать ловушек обсервационного (и особенно ретроспективного) исследования, чрезвычайно важно в явном виде задать критерии, по которым больных относили к той или иной группе. Самому исследователю это поможет избежать невольного самообмана, читателю работы это даст возможность судить, насколько результаты исследования приложимы к его больным. Кнапп и соавт. сформулировали следующие критерии включения в исследование: 1) Диагноз при выписке - острый пиелонефрит. 2) При поступлении - боли в пояснице, температура выше 37.8°С. 3) Бактериурия более 100 000 колоний/мл, определена чувствительность к антибиотикам. 4) Возраст от 18 до 44 лет (больных старше 44 лет не включали в связи с высокой вероятностью сопутствующих заболеваний, ограничивающих выбор терапии). 5) Отсутствие почечной, печеночной недостаточности, а также заболеваний, требующих хирургического лечения (эти состояния тоже ограничивают выбор терапии). 6) Больной был выписан в связи с улучшением (то есть не покинул больницу самовольно, не умер и не был переведен в другое лечебное учреждение). 41 мулировали и критери ий того, что считаать Кроме того, иссследоватеели сформ «праавильным» лечениеем. Праввильным считалоссь лечение, сооттветствующ щее рекоомендациям м авторитеттного справвочника по о лекарствеенным сред дствам «Ph hysicians' Deesk Reference» («Н Настольный й справочни ик врача»). По этомуу критерию ю больных разделили на две группы: г леечённых прравильно 1--я группа) и неправилльно 2-я грруппа). В обеих о групп пах былоо по 36 больных. Результатт представвлен на рис. р 4.6. Средняя длительноссть госп питализации и составила: для перввой группы ы 4.51 сут (стандартноое отклонен ние 1.98 суут), для второй грууппы 6.28 сут (станд дартное оттклонение 2.54 сут). Можно ли и считать эти э ичия случаайными? Прибегнем к дисперсионному анаализу. разли Вычислим сначаала внутриггрупповую ю дисперсию ю как сред днюю дисп персий обееих груп пп: 2 sвну 1 2 2 1 s1 s2 1.98 1 2 2.542 5.19 . 2 2 Рисс. 4.6. Длиттельность госпитализ г зации при правильном п м 1-я групп па) и неправвильном 2--я груп ппа) лечени ии. Каждый больной обозначен кружком; положениее кружка со оответствуует срооку госпитаализации. Средняя С дллительностть госпиталлизации в п первой груп ппе меньшее, чем во второй. Можно ли и отнести это э различи ие за счет сслучайности? 42 Теперь вычислим межгрупповую дисперсию. Среднее двух выборочных средних равно X 1 1 X 1 X 2 4.51 6.28 5.4 , 2 2 следовательно, стандартное отклонение равно sX X X X2 X 2 1 m 1 2 4.51 5.4 6.28 5.4 2 2 1 2 1.25 . и, наконец, межгрупповая дисперсия равна 2 s меж ns X2 36 1.252 56.25 . Теперь можно вычислить F — как отношение межгрупповой к внутригрупповой дисперсии: F 2 sмеж 56.25 10.84 . 2 5.19 sвну Рассчитаем межгрупповое и внутригрупповое число степеней свободы: νмеж = 2 - 1 = 1, νвну = 2 (36 - 1) = 70. Теперь по таблице найдем критическое значение F. На пересечении столбца «1» и строки «70» находим число 7.01, набранное жирным шрифтом. То есть при уровне значимости 0.01 критическое значение F составляет 7.01. Итак, на наш вопрос, можно ли считать различия в длительности госпитализации случайными, мы можем дать ответ: вероятность этого весьма мала, меньше 1%. Лечённые правильно находились в больнице меньше, чем лечённые неправильно, и различия эти статистически значимы. Значит ли это, что благодаря правильному лечению больные выздоравливают быстрее? Увы, нет. Как это всегда бывает в обсервационном исследовании, мы не можем исключить того, что группы различались чем-то ещё, кроме лечения. Может быть, врачи, которые лечат «по справочнику», просто более склонны быстрее выписывать своих больных? Галотан и морфин при операциях на открытом сердце Галотан - препарат, широко используемый при общей анестезии. Он обладает сильным действием, удобен в применении и очень надежен. Галотан - газ, его можно вводить через респиратор. Поступая в организм через легкие, галотан действует быстро и кратковременно, поэтому, регулируя подачу препарата, можно оперативно управлять анестезией. Однако галотан имеет существенный недостаток — он угнетает сократимость миокарда и расширяет вены, что ведет к падению АД. В связи с этим было предложено вместо галотана для общей анестезии применять морфин, который не снижает АД. Т. 43 Конахан и соавт.5 сравнили галотановую и морфиновую анестезию у больных, подвергшихся операции на открытом сердце. В исследование включали больных, у которых не было противопоказаний ни к галотану, ни к морфину. Способ анестезии (галотан или морфин) выбирали случайным образом. Такое исследование - со случайно отобранной контрольной группой (то есть рандомизированное) и наличием воздействия со стороны исследователя - называется рандомизированным контролируемым клиническим испытанием или просто контролируемым испытанием. Контролируемое испытание - это всегда проспективное исследование (данные получают после начала исследования), кроме того, это экспериментальное исследование (воздействие оказывает исследователь). Эксперимент, который в естественных науках давно стал основным методом исследования, в медицине получил распространение сравнительно недавно. Значение контролируемых испытаний трудно переоценить. Благодаря рандомизации мы уверены в том, что группы различаются только исследуемым признаком, тем самым преодолевается основной недостаток обсервационных исследований. В отличие от ретроспективного исследования, в проспективном исследовании никто до его завершения не знает, к чему оно приведет. Это уменьшает риск невольной подтасовки, о которой мы говорили выше. Быть может, по этим причинам контролируемые испытания нередко приводят к заключению о неэффективности того или иного метода лечения, когда обсервационное исследование, напротив, доказывает его эффективность. Но почему в таком случае не все методы лечения проходят контролируемое испытание? Немаловажную роль играет консерватизм: когда метод уже вошел в практику, трудно убедить врачей и больных, что его эффективность еще нуждается в подтверждении. Рандомизация психологически трудна: предлагая по жребию лечиться тем или иным способом, врач по сути дела признается в незнании и призывает больного стать объектом эксперимента. Чтобы охватить достаточное количество больных, исследование часто приходится проводить одновременно в нескольких местах (кооперированные испытания). Конечно, это вносит приятное разнообразие в работу координаторов проекта, однако повышает его стоимость и оборачивается дополнительной нагрузкой для сотрудников сторонних медицинских учреждений. Контролируемые испытания, как и вообще проспективные исследования, иногда занимают многие годы. За это время больной может переехать в другой город, утратить интерес к эксперименту или Т. J. Conahan III, A. J. Ominsky, H. Wollman, R. A. Stroth. A prospective random comparison of halothane and morphine for open-heart anesthesia: one year experience. Anesthesiology, 38:528—535, 1973. 5 44 умереть (по причинам, не относящимся к исследованию). Нередко основная трудность состоит в том, чтобы не потерять участников испытания из виду. С выбыванием больных из исследования связан и более принципиальный недостаток контролируемых испытаний (и проспективных исследований вообще). Если в обсервационном исследовании мы не можем гарантировать сопоставимость начального состава групп, то в проспективном исследовании мы не можем гарантировать сопоставимость выбывания из исследования. Проблема состоит в том, что выбывание может быть связано с лечением. Если, например, риск побочного действия препарата связан с тяжестью заболевания, то из группы лечённых будут выбывать (из-за непереносимости препарата) наиболее тяжелые больные. Тем самым состояние группы лечённых будет «улучшаться». Чтобы избежать подобных иллюзий, эффективность метода лечения следует рассчитывать как долю всех больных, включённых в исследование, а не только прошедших полный курс. Даже при соблюдении этого условия результаты исследования с большим числом выбывших всегда сомнительны. Существуют и более тонкие методы анализа результатов проспективных исследований, с ними мы познакомимся позже. Удачный выбор предмета исследования позволил Конахану и соавт. избежать большинства упомянутых трудностей. Поскольку исследователей интересовали только ближайшие результаты, проблемы выбывания не возникало. Регистрировали следующие показатели: параметры гемодинамики на разных этапах операции, длительность пребывания в реанимационном отделении и общую длительность пребывания в больнице после операции, а также послеоперационную летальность. Итак, сосредоточим внимание на артериальном давлении между началом анестезии и началом операции. Именно в этот период артериальное давление наиболее адекватно отражает гипотензивное действие анестетика, поскольку в дальнейшем начинает сказываться гипотензивный эффект самой операции. Артериальное давление между началом анестезии и началом операции измеряли многократно, каждый раз вычисляя среднее артериальное давление: АД средн АД С АД Д 3 АД Д , где АДсредн - среднее артериальное давление, АДД - диастолическое артериальное давление, АДС - систолическое артериальное давление. Брали минимальное из полученных значений. В исследование вошло 122 больных. У половины больных использовали галотан 1-я группа), у половины — морфин 2-я группа). Результаты представлены на рис. 4.7. 45 Данн ные округллены до ближайшегоо четного числа. В среднем у больных, получавш ших галоттан, миним мальное АД Дсредн былоо на 6.3 мм м рт. ст. ни иже, чем у больных,, получавш ших морф фин. Разброос значени ий довольноо велик, и диапазоны ы значений сильно пер рекрываюттся. Стан ндартное оттклонение в группе галотана г со оставило 122.2 мм рт. сст., в групп пе морфин на – 14.4 мм рт. ст.. Достаточ чно ли вели ико различ чие в 6.3 мм м рт. ст., чтобы его нельзя бы ыло отнеести за счетт случайноссти? Рис.. 4.7. Мини имальный уровень у АД Дсредн между у началом анестезии а и началом операции о п при галлотановой 1-я группаа) и морфин новой 2-я группа) г анеестезии. Моожно ли наа основании и этих данн ных отвергн нуть нулеввую гипотезу об отсуттствии связзи между выбором анестетикаа и артериаальным даввлением? Примееним диспеерсионный анализ. Оц ценкой внуутригруппоовой диспеерсии служ жит сред днее двух вы ыборочныхх дисперси ий: 2 sвну 1 2 2 1 s1 s2 12.22 14.42 178.1 . 2 2 Эта оц ценка диспеерсии вычи ислена по дисперсиям д м отдельны ых выборок, поэтому она о не заависит от того, т различ чны или неет выборочн ные средни ие. Оценим м теперь дисперсию, д полагая, что ч галотан н и морфин н оказываю ют одинаковвое дейсствие на арртериальноее давлениее. В этом случае две группы боольных, преедставленн ные 46 на рис. 4.7, являются просто двумя случайными выборками из одной и той же совокупности. В результате стандартное отклонение выборочных средних есть оценка стандартной ошибки среднего. Среднее двух выборочных средних равно X 1 1 X 1 X 2 66.9 73.2 70 . 2 2 Стандартное отклонение выборочных средних: sX X X X2 X 2 1 m 1 2 66.9 70.0 73.2 70.0 2 2 2 1 4.46 . Так как объём каждой выборки n равен 61, оценка дисперсии совокупности, полученная на основе выборочных средних, составит 2 sмеж ns X2 61 4.462 1213.4 . И наконец, 2 sмеж 1213.4 F 2 6.81 . sвну 178.1 Число степеней свободы: νмеж = m - 1 = 2 - 1 = 1, νвну = m(n - 1) = 2 (61 - 1) = 120. В таблице находим критическое значение F для 5% уровня значимости – 3.92. Поскольку у нас F = 6.81, то мы приходим к выводу, что различия статистически значимы. Мы можем заключить, что морфин в меньшей степени снижает артериальное давление, чем галотан. Каково клиническое значение этого результата? Мы вернемся к этому вопросу позднее. 5. Сравнение двух групп: критерий Стьюдента Дисперсионный анализ позволяет проверить значимость различий нескольких групп. Нередко нужно сравнить только две группы. В этом случае можно применить критерий Стьюдента. Сейчас мы изложим его сущность и покажем, что критерий Стьюдента - это частный случай дисперсионного анализа. Критерий Стьюдента чрезвычайно популярен, он используется более чем в половине медицинских публикаций6. Однако следует помнить, что этот критерий предназначен для сравнения именно двух групп, а не нескольких групп попарно. Чаще 6 A. R. Feinstein. Clinical biostatistics: a survey of statistical procedures in general medical journals. Clin. Pharmacol Ther., 15:97—107, 1974. 47 всегоо критерий й использууется неверрно. Ошиб бочное исп пользовани ие критери ия Стьюден нта увелличивает веероятностьь «выявитьь» несущесствующие различия. р Например,, вместо тоого чтоб бы признатьь несколькко методов лечения раавно эффекктивными (или неэфф фективным ми), один н из них объявляют «ллучшим». 5.1.Принцип мет тода Предпооложим, чтто мы хоти им испытатть диуретич ческое дейсствие нового препараата. Мы набираем десять доб бровольцевв, случайным образоом разделяем их на две д группы ы иментальнуую, котор рая получаает конттрольную, которая получает плацебо, и экспери преп парат, а затем определляем суточн ный диурезз. Результааты предстаавлены на рис. р 5.1А. Ри ис. 5.1. Реззультаты исспытаний предполага п аемого диурретика. А. Д Диурез поссле приемаа п плацебо и препарата. п В обеих грууппах по 5 человек. Б. Б Теперь в обеих груп ппах по 20 ч человек. Срредние и сттандартныее отклонения осталиссь прежним ми, однако доверие д к реезультату повысилосьь. 48 Средний диурез в экспериментальной группе на 240 мл больше, чем в контрольной. Впрочем, подобными данными мы вряд ли кого-нибудь убедим, что препарат - диуретик. Группы слишком малы. Повторим эксперимент, увеличив число участников. Теперь в обеих группах по 20 человек. Результаты представлены на рис. 5.1Б. Средние и стандартные отклонения примерно те же, что и в эксперименте с меньшим числом участников. Кажется однако, что результаты второго эксперимента заслуживают большего доверия. Почему? Вспомним, что точность выборочной оценки среднего характеризуется стандартной ошибкой среднего (см. уравнение 2.7): X n . где n — объём выборки, а σ - стандартное отклонение совокупности, из которой извлечена выборка. С увеличением объёма выборки стандартная ошибка среднего уменьшается, следовательно, уменьшается и неопределенность в оценке выборочных средних. Поэтому уменьшается и неопределенность в оценке их разности. Применительно к нашему эксперименту, мы более уверены в диуретическом действии препарата. Точнее было бы сказать, мы менее уверены в справедливости гипотезы об отсутствии диуретического действия. (Будь такая гипотеза верна, обе группы можно было бы считать двумя случайными выборками из нормально распределенной совокупности.) Чтобы формализовать приведенные рассуждения, рассмотрим отношение: t Разность выборочных средних Стандартная ошибка разности выборочных средних (5.1). Для двух случайных выборок, извлеченных из одной нормально распределенной совокупности, это отношение, как правило, будет близко к нулю. Чем меньше (по абсолютной величине) t, тем больше вероятность нулевой гипотезы. Чем больше t, тем больше оснований отвергнуть нулевую гипотезу и считать, что различия статистически значимы. Для нахождения величины t нужно знать разность выборочных средних и её ошибку. Вычислить разность выборочных средних нетрудно - просто вычтем из одного среднего другое. Сложнее найти ошибку разности. Для этого обратимся к более общей задаче нахождения стандартного отклонения разности двух чисел, случайным образом извлеченных из одной совокупности. 49 5.2.Ст тандартноое отклонеение разноссти На ри ис. 5.2А представлен п на совокуп пность из 200 член нов. Средн нее равно 0, стандартное оттклонение 1. Выберем м наугад двва члена соовокупностти и вычисл лим разноссть. р 5.2А черными кружками и, полученная разноссть Выбрранные чллены помеечены на рис. пред дставлена таким т же кружком к наа рис. 5.2Б Б. Извлечем м еще пятьь пар (на рисунках р о они разли ичаются штриховко ш ой), вычисслим разно ость Для каждой п пары, резу ультат сноова помеестим на ри ис 5.2Б. Поохоже, что разброс раазностей боольше разб броса исход дных данны ых. Извллечем науггад из исхходной соовокупностти еще 1000 пар, длля каждой из которрых вычи ислим разн ность. Тепеерь все раазности, вкключая выч численныее ранее, изображены на рис. 5.2В. Стан ндартное отклонение о е для получ ченной соввокупности и разностей й - примеррно т есть на 40% 4 больш ше, чем в иссходной соввокупности и. 1.4, то Рис.. 5.2. А. Изз этой совоккупности мы м будем наугад н извллекать пары ы и вычисляять разностти. Б. Разности Р п первых шессти пар. В. Разности еще е ста парр. Разброс рразностей больше, б чем м раззброс сами их значений й. 50 Можно доказать, что дисперсия разности двух случайно извлеченных значений равна сумме дисперсий совокупностей, из которых они извлечены7. В частности, если извлекать значения из одной совокупности, то дисперсия их разности будет равна удвоенной дисперсии этой совокупности. Говоря формально, если значение X извлечено из совокупности, имеющей дисперсию X2 , а значение Y из совокупности, имеющей дисперсию Y2 , то распределение всех возможных значений X – Y имеет дисперсию X2 Y X2 Y2 . (5.2) Почему дисперсия разностей больше дисперсии совокупности, легко понять на нашем примере (см. рис. 5.2): в половине случаев члены пары лежат по разные стороны от среднего, поэтому их разность еще больше отклоняется от среднего, чем они сами. Продолжим рассматривать рис. 5.2. Все пары извлекали из одной совокупности. Её дисперсия равна 1. В таком случае дисперсия разностей будет X2 Y X2 Y2 1 1 2 . Стандартное отклонение есть квадратный корень из дисперсии. Поэтому 2 , то есть больше стандартного отклонения стандартное отклонение разностей равно исходной совокупности примерно на 40%, как и получилось в нашем примере. 7 Интересно, что дисперсия суммы двух случайно извлеченных значений тоже равна сумме дисперсий совокупностей, из которых они извлечены. Отсюда можно вывести формулу для стандартной ошибки среднего: X . n Предположим, что мы случайным образом извлекли n значений из совокупности, имеющей стандартное отклонение σ. Выборочное среднее равно 1 X X1 X 2 X 3 X n . n поэтому nX X 1 X 2 X 3 X n . Так как дисперсия каждого из Xi, равна σ2, дисперсия величины nX составит nX n , 2 2 2 2 2 2 а стандартное отклонение nX n . Нам нужно найти стандартное отклонение среднего X , тождественно равного nX n , поэтому X nX n . n n n Мы получили формулу, которой неоднократно пользовались в предыдущих главах, - формулу для стандартной ошибки среднего. Заметим, что, выводя её, мы не делали никаких допущений о совокупности, из которой извлечена выборка. В частности, мы не требовали, чтобы она имела нормальное распределение. 51 Чтобы оценить дисперсию разности членов двух совокупностей по выборочным данным, нужно в приведенной выше формуле заменить дисперсии их выборочными оценками: s X2 Y s X2 sY2 . (5.3) Этой формулой можно воспользоваться и для оценки стандартной ошибки разности выборочных средних. В самом деле, стандартная ошибка выборочного среднего - это стандартное отклонение совокупности средних значений всех выборок объёмом n. Поэтому s X2 Y s X2 sY2 . (5.4) Тем самым, искомая стандартная ошибка разности средних s X Y s X2 sY2 . (5.5) Теперь мы можем вычислить отношение t. Напомним, что мы рассматриваем отношение (5.1). Воспользовавшись результатом предыдущего раздела, имеем t X1 X 2 s X2 1 s X2 2 . (5.6) Если ошибку среднего выразить через выборочное стандартное отклонение, получим другую запись этой формулы: t X1 X 2 s12 s22 n n , (5.7) где n — объём выборки. Если обе выборки извлечены из одной совокупности, то выборочные дисперсии s12 и s22 - это оценки одной и той же дисперсии σ2. Поэтому их можно заменить на объединённую оценку дисперсии. Для выборок равного объёма объединённая оценка дисперсии вычисляется как s2 s12 s22 . 2 (5.8) Значение t, полученное на основе объединенной оценки: t X1 X 2 s2 s2 n n . (5.9) Если объём выборок одинаков, оба способа вычисления t дадут одинаковый результат. Однако если объём выборок разный, то это не так. Вскоре мы увидим, почему важно вычислять объединённую оценку дисперсии, а пока посмотрим, какие значения t 52 мы будем получать, извлекая случайные пары выборок из одной и той же нормально распределённой совокупности. Так как выборочные средние обычно близки к среднему по совокупности, значение t будет близко к нулю. Однако иногда мы все же будем получать большие по абсолютной величине значения t (вспомним опыты с F в предыдущей главе). Чтобы понять, какую величину t следует считать достаточно «большой», чтобы отвергнуть нулевую гипотезу, проведем мысленный эксперимент, подобный тому, что мы делали в предыдущей главе. Вернемся к испытаниям предполагаемого диуретика. Допустим, что в действительности препарат не оказывает диуретического действия. Тогда и контрольную группу, которая получает плацебо, и экспериментальную, которая получает препарат, можно считать случайными выборками из одной совокупности. Пусть это будет совокупность из 200 человек, представленная на рис. 5.3А. Члены контрольной и экспериментальной групп различаются штриховкой. В нижней части рисунка данные по этим двум выборкам показаны так, как их видит исследователь. Взглянув на эти данные, трудно подумать, что препарат - диуретик. Полученное по этим выборкам значение t равно -0.2. Разумеется, с не меньшим успехом можно было бы извлечь любую другую пару выборок, что и сделано на рис. 5.3Б. Как и следовало ожидать, две новые выборки отличаются как друг от друга, так и от извлеченных ранее (рис. 5.3А). Интересно, что на этот раз нам «повезло» - средний диурез довольно сильно различается. Соответствующее значение t равно -2.1. На рис. 5.3В изображена еще одна пара выборок. Они отличаются друг от друга и от выборок с рис. 5.3А и 5.3Б. Значение t для них равно 0. Разных пар выборок можно извлечь более 1027. На рис. 5.4А приведено распределение значений t, вычисленных по 200 парам выборок. По нему уже можно судить о распределении t. Оно симметрично относительно нуля, поскольку любую из пары выборок можно счесть «первой». Как мы и предполагали, чаще всего значения t близки к нулю; значения, меньшие -2 и большие +2, встречаются редко. На рис. 5.4Б видно, что в 10 случаях из 200 (в 5% всех случаев) t меньше -2.1 или больше +2.1. Иначе говоря, если обе выборки извлечены из одной совокупности, вероятность того, что значение t лежит вне интервала от -2.1 до +2.1, составляет 5%. Продолжая извлекать пары выборок, мы увидим, что распределение принимает форму гладкой кривой, показанной на рис. 5.4В. Теперь 5% крайних значений соответствуют закрашенным областям графика левее -2.1 и правее +2.1. Итак, мы нашли, что если две выборки извлечены из одной и той же совокупности, то вероятность получить значение t, 53 болььшее +2.1 или меньш шее -2.1, составляет с всего 5%.. Следоваттельно, есл ли значени ие t нахоодится внее интервалла от -2.1 до +2.1, нулевую гипотезу следует отклонить,, а набллюдаемые различия р прризнать стаатистическки значимы ыми. 54 Рис. 5.3. Исп пытания прредполагаеемого диуретика. А. В действитеельности пр репарат не обладает диуретическ д ким действвием, поэто ому обе грууппы — просто две сл лучайные вы ыборки из совокупнос с сти, показаанной в вер рхней части и рисунка. Ч Члены сово окупности,, кооторым поссчастливиллось принятть участие в исследоввании, помеечены штри иховкой. В ниж жней части рисунка даанные покаазаны таким ми, какими и их видит и исследоваттель. Вряд ли л он решит,, что препаарат – диуреетик: средн ний диурезз в группах различаетсся очень незн начительно.. Б. Исслед дователю могла бы по опасться и такая т пара выборок. В этом случ чае он наверняка н с счел бы преепарат диууретиком. В. В Еще две выборки и из той же со овокупностти. Обрати ите вниман ние, что такким образо ом мы выяввляем отли ичия экспер риментальн ной груп ппы от конттрольной как к в менььшую, так и в большуую сторонуу - именно о поэтому мы м отверргаем нулеевую гипоттезу как прри t < -2.1,, так и при и t > +2.1. Этот вари иант критеррия Стью юдента наззывается дввусторонн ним; именн но его обы ычно и используют. Существует С ти одноосторонни ий вариантт критерияя Стьюден нта. Исполльзуется оон гораздо о реже, и в далььнейшем, говоря г о критерии к Стьюдентаа, мы буд дем иметь в виду двусторонн д ний вари иант. Вернем мся к рис. 5.3Б. 5 На неем показаны ы две случ чайные выб борки из од дной и той же совоокупности, при этом t = -2.2. Как К мы тол лько что вы ыяснили, н нам следуеет отвергнууть нулеевую гипоттезу и признать иссследуемый й препаратт диуретикком, что, самой с собой, 55 невеерно. Хотя все расчееты были выполнены ы правильн но, вывод ошибочен н. Увы, таккие случ чаи возмож жны. Рис. 5.4. А. А Из совокуупности, показанной на рис. 5.33, извлекли 200 пар сл лучайных выб борок по 100 членов в каждой, к длля каждой пары п рассчи итали значчение t и наанесли его на н гррафик. Знач чения t дляя трех пар выборок в с рис. р 5.3 пом мечены черрным. Болььшая часть значений сгруппиров с вана вокругг нуля, одн нако некотоорые значения по абсолютной величинее превышаю ют 1.5 и даж же 2. Б. Число значен ний, по абсоолютной вееличине преввышающихх 2.1, составвляет 5%. В. В Продолж жая извлекать пары вы ыборок, в конце к конц цов м получим мы м гладкую кривую. 5% % наибольших (по аб бсолютной величине) значений о образуют двве заштриххованные области о (сумма заштрихованныхх площадей й как раз и составляеет 5% всей площади п п кривой)). Следоваттельно, «боольшие» зн под начения t нач чинаются таам, где нач чинается зааштрихован нная областть, то есть с t = ±2.1. Вероятност В ть получить столль высокое значение t, извлекая случайные с е выборки и из одной со овокупностти, не превышает п 5%. Г. Опи исанный сп пособ выбо ора критичееского значчения t преедопределяяет воззможность ошибки: в 5% случаеев мы будем м находитьь различия там, где их х нет. Чтобы снизить веероятностьь ошибочноого заключения, мы можем м выбррать более высокое криттическое зн начение. Наапример, чтобы ч площ щадь заштри ихованной области со оставляла 1% 1 от общей й площади под п кривой й, критичесское значен ние должноо составлятть 2.878. 56 Табл лица 5.1. Критически ие значенияя t (двустор ронний вариант) 57 ие t меньш ше -2.1 или и больше +2.1, то при п Разберремся подрробнее. Еслли значени уроввне значимоости 0.05 мы м сочтем различия статистичес с ски значим мыми. Это означает, что ч если и бы наши группы представлял п ли собой две д случай йные выборрки из одн ной и той же совоокупности, то вероятн ность получ чить наблю юдаемые раазличия (илли более си ильные) раввна 0.05.. Следоватеельно, оши ибочный вы ывод о сущ ществовании различий й мы будем м делать в 5% 5 случ чаев. Один из таких сллучаев и пооказан на рис. р 5.3Б. Чтобы застраховаться от поодобных ошибок, моожно приняять уровень значимоссти не 0.05, 0 а, скаж жем, 0.01. Тогда, как видно изз рис. 5.4Г Г, мы долж жны отверггать нулевую 58 гипотезу при t < -2.88 или t > +2.88. Теперь-то рис. 5.3Б нас не проведет - мы не признаем подобные различия статистически значимыми. Однако, во-первых, ошибочные выводы о существовании различий все же не исключены, просто их вероятность снизилась до 1%, и, во-вторых, вероятность не найти различий там, где они есть, теперь повысилась. Критические значения t (подобно критическим значениям F, они сведены в таблицу, см. табл. 5.1) зависят не только от уровня значимости, но и от числа степеней свободы ν. Если объём обеих выборок - n, то число степеней свободы для критерия Стьюдента равно 2 (n – 1). Чем больше объём выборок, тем меньше критическое значение t. Это и понятно - чем больше выборка, тем менее выборочные оценки зависят от случайных отклонений и тем точнее представляют исходную совокупность. 5.3.Выборки произвольного объёма Критерий Стьюдента легко обобщается на случай, когда выборки содержат неодинаковое число членов. Напомним, что по определению (см. 5.6) X1 X 2 t s X2 1 s X2 2 , где sX1 и s X 2 - стандартные ошибки средних для двух выборок. Если объём первой выборки равен n1, а объём второй - n2, то s X2 1 s12 s2 и s X2 2 2 , n1 n2 (5.10) где s1, и s2 - стандартные отклонения выборок. Перепишем определение t, используя выборочные стандартные отклонения: t X1 X 2 s12 s22 n1 n2 . (5.11) Объединённая оценка дисперсии для выборок объёма n1 и n2 равна s2 n1 1 s12 n2 1 s22 . (5.12) X1 X 2 (5.13) n1 n2 2 Тогда t s2 s2 n1 n2 . Это определение t для выборок произвольного объема. Число степеней свободы ν= n1 + n2 – 2. 59 Заметим, что если объёмы выборок равны, то есть n1 = n2 = n, то мы получим ранее использовавшуюся формулу для t (см. 5.9). Применим теперь критерий Стьюдента к тем данным, которые рассматривались при изучении дисперсионного анализа. Выводы, которые мы получим, не будут отличаться от прежних, поскольку, как говорилось, критерий Стьюдента есть частный случай дисперсионного анализа. Позволяет ли правильное лечение сократить срок госпитализации? Обратимся к рис. 4.7. Средняя продолжительность госпитализации 36 больных пиелонефритом, получавших правильное (соответствующее официальным рекомендациям) лечение, составила 4.51 сут, а 36 больных, получавших неправильное лечение, - 6.28 сут. Стандартные отклонения для этих групп - соответственно 1.98 сут и 2.54 сут. Так как численность групп одна и та же, объединённая оценка дисперсии s2 1 1.982 2.542 5.18 . 2 Подставив эту величину в выражение для t, получим t 4.51 6.28 3.30 . 5.18 5.18 36 36 Число степеней свободы ν = 2 (n – 1) = 2 (36 – 1) = 70. По таблице 5.1 находим, что для 1% уровня значимости критическое значение t составляет 2.648, то есть меньше, чем мы получили (по абсолютной величине). Следовательно, если бы наши группы представляли собой две случайные выборки из одной совокупности, то вероятность получить наблюдаемые различия была бы меньше 1%. Итак, различия в сроках госпитализации статистически значимы. Галотан и морфин при операциях на открытом сердце В исследовании Конахана и соавт. (рис. 4.8) минимальное АДсредн между началом анестезии и началом операции составляло в среднем: при галотановой анестезии 66.9 мм рт. ст., при морфиновой – 73.2 мм рт. ст. Стандартные отклонения составляли соответственно 12.2 и 14.4 мм рт. ст. В каждой группе был 61 больной. Вычислим объединенную оценку дисперсии: s2 1 12.22 14.42 178.1 , 2 тогда t 66.9 73.2 2.607 . 178.1 178.1 61 61 60 Число степеней свободы ν = 2 (n – 1) = 2 (61 – 1) = 120. По таблице 5.1 находим, что для 5% уровня значимости критическое значение t составляет 1.980, то есть меньше, чем мы получили. Заключаем, что морфин меньше снижает артериальное давление, чем галотан. Конахан и соавт. измеряли еще один параметр гемодинамики - минутный объём сердца (объём крови, который левый желудочек перекачивает за минуту). Поскольку этот объём зависит от размеров тела, деятельность сердца (которая и интересовала исследователей) лучше характеризуется сердечным индексом - отношением минутного объёма сердца к площади поверхности тела. В группе галотана сердечный индекс определили у 9 больных (табл. 5.2), он составил в среднем 2.08 л/мин/м2 (стандартное отклонение 1.05 л/мин/м2), у 16 больных в группе морфина – 1.75 л/мин/м2 (стандартное отклонение 0.88 л/мин/м2). Является ли это различие статистически значимым? Таблица 5.2. Показатели гемодинамики при галотановой и морфиновой анестезии Галотан (n = 9) Показатель Наилучший сердечный индекс Среднее артериальное давление при наилучшем сердечном индексе, мм рт. ст. Общее периферическое сосудистое сопротивление при наилучшем сердечном индексе, дин с см-5 1.75 Стандартное отклонение 0.88 13.8 91.4 19.6 1200 2830 1130 2.08 Стандартное отклонение 1.05 76.8 2210 Среднее Морфин (n = 16) Среднее Т. J. Conahan et al. A prospective random comparison of halothane and Morphine for open-heart anesthesia: one year experience. Anesthesiology, 38:528—535, 1973. Найдем объединённую оценку дисперсии s 2 9 11.052 16 1 0.882 9 16 2 0.89 , и поэтому t 2.08 1.75 0.84 . 0.89 0.89 9 16 Число степеней свободы ν = 9 + 16 – 2 = 23. Критическое значение t при 5% уровне значимости составляет 2.069, что больше полученного нами! Итак, статистически значимых различий не найдено. 61 5.4.Ошибки в использовании критерия Стьюдента Критерий Стьюдента предназначен для сравнения двух групп. Однако на практике он широко (и неправильно) используется для оценки различий большего числа групп посредством попарного их сравнения. При этом вступает в силу эффект множественных сравнений. Рассмотрим пример. Исследуют влияние препаратов А и Б на уровень глюкозы плазмы. Исследование проводят на трёх группах - получавших препарат А, получавших препарат Б и получавших плацебо В. С помощью критерия Стьюдента проводят 3 парных сравнения: группу А сравнивают с группой В, группу Б - с группой В и наконец А с Б. Получив достаточно высокое значение t в каком-либо из трёх сравнений, сообщают, что «Р < 0.05». Это означает, что вероятность ошибочного заключения о существовании различий не превышает 5%. Но это неверно: вероятность ошибки значительно превышает 5%. Разберемся подробнее. В исследовании был принят 5% уровень значимости. Значит, вероятность ошибиться при сравнении групп А и В - 5%. Казалось бы, все правильно. Но точно так же мы ошибемся в 5% случаев при сравнении групп Б и В. И наконец, при сравнении групп А и Б ошибка возможна также в 5% случаев. Следовательно, вероятность ошибиться хотя бы в одном из трёх сравнений составит не 5%, а значительно больше. В общем случае эта вероятность равна P 1 1 0.05 , k (5.14) где k — число сравнений. При небольшом числе сравнений можно использовать приближенную формулу P 0.05k , то есть вероятность ошибиться хотя бы в одном из сравнений примерно равна вероятности ошибиться в одном, помноженной на число сравнений. Итак, в нашем исследовании вероятность ошибиться хотя бы в одном из сравнений составляет примерно 15%. При сравнении четырёх групп число пар и соответственно возможных попарных сравнений равно 6. Поэтому при уровне значимости в каждом из сравнений 0.05 вероятность ошибочно обнаружить различие хотя бы в одном равна уже не 0.05, а примерно 6 × 0.05 = 0.30. И когда исследователь, выявив таким способом «эффективный» препарат, будет говорить про 5% вероятность ошибки, на самом деле эта вероятность равна 30%. В заключение приведем три правила: 1) Критерий Стьюдента может быть использован для проверки гипотезы о различии средних только для двух групп. 62 2) Если схема эксперимента предполагает большее число групп, необходимо пользоваться дисперсионным анализом. 3) Если критерий Стьюдента был использован для проверки различий между несколькими группами, то истинный уровень значимости можно получить, умножив уровень значимости, приводимый авторами, на число возможных сравнений. 5.5.Критерий Стьюдента для множественных сравнений Итак, эффект множественных сравнений состоит в том, что при многократном применении критерия вероятность ошибочно найти различия там, где их нет, возрастает. Если исследуемых групп больше двух, то следует воспользоваться дисперсионным анализом. Однако дисперсионный анализ позволяет проверить лишь гипотезу о равенстве всех средних. Но, если гипотеза не подтверждается, нельзя узнать, какая именно группа отличается от других. Это позволяют сделать методы множественного сравнения. Все они основаны на критерии Стьюдента, но учитывают, что сравнивается более одной пары средних. Сразу поясним, когда, на наш взгляд, следует использовать эти методы. Наш подход состоит в том, чтобы в первую очередь с помощью дисперсионного анализа проверить нулевую гипотезу о равенстве всех средних, а уже затем, если нулевая гипотеза отвергнута, выделить среди них отличные от остальных, используя для этого методы множественного сравнения. Простейший из методов множественного сравнения введение поправки Бонферрони. Как было показано в предыдущем разделе, при трёхкратном применении критерия Стьюдента с 5% уровнем значимости вероятность обнаружить различия там, где их нет, составляет не 5%, а почти 3×5 = 15%. Этот результат является частным случаем неравенства Бонферрони: если k раз применить критерий с уровнем значимости α, то вероятность хотя бы в одном случае найти различие там, где его нет, не превышает произведения k на α. Неравенство Бонферрони выглядит так: k , (5.15) где - вероятность хотя бы один раз ошибочно выявить различия. Можно сказать, что , собственно, и является истинным уровнем значимости многократно примененного критерия. Из неравенства Бонферрони следует, что если мы хотим обеспечить вероятность ошибки , то в каждом из сравнений мы должны принять 63 уровень значимости /k - это и есть поправка Бонферрони. Например, при трёхкратном сравнении уровень значимости должен быть 0.05/3 = 0.017 или 1.7%. Поправка Бонферрони хорошо работает, если число сравнений невелико. Если оно превышает 8, метод становится слишком «строгим» и даже весьма большие различия приходится признавать статистически незначимыми. Один из способов смягчить строгость поправки Бонферрони состоит в том, чтобы увеличить число степеней свободы, воспользовавшись знакомой из дисперсионного анализа внутригрупповой оценкой дисперсии. Вспомним, что t X1 X 2 s2 s2 n1 n2 , где s2 - объединенная оценка дисперсии совокупности. 2 , получим: Используя в качестве такой оценки внутригрупповую дисперсию sвну t X1 X 2 2 sвну n1 2 sвну . (5.16) n2 Если объёмы выборок одинаковы, то t X1 X 2 2 2 sвну . (5.17) n Число степеней свободы ν = m(n - l). Если число групп m больше 2, то число степеней свободы при таком расчете будет больше 2(n - 1), благодаря чему критическое значение t уменьшится. Вернёмся к задаче о вреде пассивного курения. Рассмотрим только три группы: некурящих, работающих в помещении, где не курят; некурящих, работающих в накуренном помещении и выкуривающих небольшое количество сигарет в день. Мы определили, что максимальную объёмную скорость середины выдоха нельзя считать одинаковой во всех группах. Однако осталось неясным, отличаются ли от группы некурящих испытуемые, работающие в накуренном помещении или только курящие. Способа определить межгрупповые различия у нас не было. Теперь, используя критерий Стьюдента с поправкой Бонферрони, мы можем попарно сравнить все три группы. 2 Внутригрупповая оценка дисперсии sвну 1 0.742 0.712 0.732 0.53 . Число 3 групп m = 3, численность каждой группы n = 200. Следовательно, число степеней свободы ν = m(n – 1) = 3(199) = 597. Произведем попарное сравнение трех групп. 64 При сравнении группы некурящих и группы некурящих, работающих в накуренном помещении имеем: t X 2 X1 2 2 sвну n 2.72 3.17 6.16 , 2 0.53 200 при сравнении группы некурящих и группы курящих: t X 3 X1 2 2 sвну n 2.63 3.17 7.4 2 0.53 200 и при сравнении группы некурящих, работающих в накуренном помещении и группы курящих: t X2 X3 2 вну 2s n 2.72 2.63 1.23 . 2 0.53 200 Мы провели 3 сравнения, поэтому уровень значимости в каждом должен быть 0.05/3, то есть примерно 0.017. По таблице 5.1 находим8, что при 995 степенях свободы критическое значение составляет примерно 2.3263. Таким образом, мы можем заключить, что и у некурящих, работающих в накуренном помещении, и у курящих максимальная объемная скорость середины выдоха ниже, чем в группе некурящих, работающих в помещении, где не курят; при этом у курящих и у некурящих, работающих в накуренном помещении, она не отличается. 5.6.Множественные сравнения с контрольной группой Иногда задача заключается в том, чтобы сравнить несколько групп с единственной - контрольной. Конечно, можно было бы использовать описанный метод множественного сравнения (критерий Стьюдента с поправкой Бонферрони): попарно сравнить все группы, а затем отобрать те сравнения, в которых участвовала контрольная группа. Однако в любом случае (особенно при применении поправки Бонферрони) из-за большого числа лишних сравнений критическое значение окажется неоправданно высоким. Иными словами, мы слишком часто будем пропускать реально существующие 8 Собственно говоря, значения для α = 0,017 в таблице нет. В таких случаях можно либо использовать ближайшее меньшее значение α (в нашем примере это 0,01), либо приблизительно рассчитать нужное критическое значение по соседним. Если нужное нам значение αн находится между α1 и α2, которым соответствуют критические значения t1 и t2, то tн t1 t2 t1 н 1 , 2 1 где tн - критическое значение для уровня значимости αн. 65 различия. Преодолеть эту трудность позволяют специальные методы сравнения, из которых мы разберем один. Это еще одна модификация критерия Стьюдента с поправкой Бонферрони. Как и другие методы множественного сравнения, их следует применять только после того, как с помощью дисперсионного анализа отвергнута нулевая гипотеза о равенстве всех средних. Применить поправку Бонферрони к сравнению нескольких групп с одной контрольной очень просто. Ход вычислений такой же, что и при применении поправки Бонферрони в общем случае. Надо только учесть, что число сравнений k составляет теперь m – 1, и соответственно рассчитать уровень значимости в каждом из сравнений: α = /k. 5.7.Что означает Р Поговорим еще раз о вероятности справедливости нулевой гипотезы Р. Понимание смысла Р требует понимания логики проверки статистической гипотезы. Например, исследователь хочет узнать, влияет ли некий препарат на температуру тела. Очевидная схема эксперимента: взять две группы, одной дать препарат, другой плацебо, измерить температуру и вычислить для обеих групп среднюю температуру и стандартное отклонение. Средние температуры вряд ли совпадут, даже если препарат не обладает никаким действием. Поэтому естественен вопрос: сколь вероятно, что наблюдаемое различие случайно? Для ответа на этот вопрос прежде всего нужно выразить различия одним числом критерием значимости. С некоторыми из них мы уже встречались - это критерии F и t. Значение критерия тем больше, чем больше различия. Если препарат не оказывает действия, то величина критерия будет мала, если оказывает - велика. Но что значит «мала» и что значит «велика»? Чтобы разграничить «большие» и «малые» значения критерия, строится предположение, что препарат не оказывает влияния на температуру. Это так называемая нулевая гипотеза. Если нулевая гипотеза верна, то обе группы можно считать просто случайными выборками из одной и той же совокупности. Далее эксперимент мысленно проводится на всех возможных выборках, и для каждой пары вычисляется значение критерия. Чаще всего оно будет небольшим, но какая-то часть выборок даст весьма высокие значения. При этом мы сможем указать такое число (критическое значение), выше которого значение критерия оказывается, скажем, в 5% случаев. Теперь вернемся к препарату и вычислим значение критерия. Если оно превышает критическое значение, то мы можем утверждать следующее: если бы нулевая гипотеза была справедлива, то вероятность получить наблюдаемые различия была бы меньше 66 5%. В принятой системе обозначений это записывается как Р < 0.05. Отсюда мы заключаем, что гипотеза об отсутствии влияния препарата на температуру вряд ли справедлива, то есть различия статистически значимы (при 5% уровне значимости). Разумеется, этот вывод по сути своей носит вероятностный характер. Не исключено, что мы ошибочно признаем неэффективный препарат эффективным, то есть найдем различия там, где их нет. Однако мы можем утверждать, что вероятность подобной ошибки не превышает 5%. Дадим определение Р. Р есть вероятность того, что значение критерия окажется не меньше критического значения при условии справедливости нулевой гипотезы об отсутствии различий между группами. Определение можно сформулировать и по-другому: Р есть вероятность ошибочно отвергнуть нулевую гипотезу об отсутствии различий. Упрощая, можно сказать, что Р - это вероятность справедливости нулевой гипотезы. Часто говорят также, что Р - это вероятность ошибки. В общем, и это верно, однако несколько неточно. Дело в том, что существует два рода ошибок. Ошибка I рода это ошибочное заключение о существовании различий, которых в действительности нет. Вероятность именно этой ошибки оценивает Р. Возможна и противоположная ошибка принять неверную нулевую гипотезу, то есть не найти действительно существующее различие. Это так называемая ошибка II рода. 6. Анализ качественных признаков Статистические процедуры, с которыми мы познакомились в предыдущих главах, предназначены для анализа количественных признаков. Примером таких признаков служат артериальное давление, диурез или продолжительность госпитализации. Единицей их измерения могут быть миллиметры ртутного столба, литры или дни. Над значениями количественных признаков можно производить арифметические действия. Можно, например, сказать, что диурез увеличился вдвое. Кроме того, их можно упорядочить, то есть расположить в порядке возрастания или убывания. Однако очень многие признаки невозможно измерить числом. Например, можно быть либо мужчиной, либо женщиной, либо мёртвым, либо живым. Можно быть врачом, юристом, рабочим, и так далее. Здесь мы имеем дело с качественными признаками. Эти признаки не связаны между собой никакими арифметическими соотношениями, упорядочить их также нельзя. 67 Единственный способ описания качественных признаков состоит в том, чтобы подсчитать число объектов, имеющих одно и то же значение. Кроме того, можно подсчитать, какая доля от общего числа объектов приходится на то или иное значение. Существует ещё один вид признаков. Это порядковые признаки. Их можно упорядочить, но производить над ними арифметические действия нельзя. Пример порядкового признака - состояние больного: тяжелое, средней тяжести, удовлетворительное. Продолжим обсуждение работы Т. Конахана и соавт. по сравнению галотановой и морфиновой анестезии. Мы уже знаем, что галотан и морфин по-разному влияли на артериальное давление и что это различие статистически значимо. Однако для клинициста важнее знать, наблюдалось ли различие в операционной летальности? Из 61 больного, оперированного под галотановой анестезией, умерли 8, то есть 13.1%. При использовании морфина умерли 10 из 67, то есть 14.9%. (В гл. 4 мы для простоты считали размеры обеих групп одинаковыми, теперь используются реальные данные.) Летальность при использовании галотана оказалась примерно на 2% ниже, чем при использовании морфина. Можно ли считать, что морфин опаснее галотана, или такой результат мог быть результатом случайности? Чтобы ответить на этот вопрос, нам сначала нужно найти способ оценить точность, с которой доли, вычисленные по выборкам, соответствуют долям во всей совокупности. Однако прежде нам нужно понять, каким должно быть описание самой совокупности. Здесь нам пригодятся уже несколько подзабытые марсиане. В гл. 1 мы побывали на Марсе, где измерили всех его обитателей. Хотя ранее мы не говорили об этом, но больше всего нас поразило различие в пигментации марсиан: 50 марсиан были розового, а остальные 150 - зелёного цвета (рис. 6.1). Как описать совокупность марсиан по этому признаку? Ясно, что нужно указать долю, которую составляют марсиане каждого цвета во всей совокупности марсиан. В нашем случае доля розовых марсиан рроз = 50/200 =0.25 и зелёных рзел = 150/200 =0.75. Поскольку марсиане бывают только розовые и зелёные, справедливо тождество рроз + рзел = 1. Или, что то же самое, pзел = 1 - рроз. То есть, зная рроз, мы легко определим и рзел. Таким образом, для характеристики совокупности, которая состоит из двух классов, достаточно указать численность одного из них: если доля одного класса во всей совокупности равна р, то доля другого равна 1 – р. Заметим, что рроз есть ещё и вероятность того, что случайно выбранный марсианин окажется розовым. 68 Рисс. 6.1. Из 2000 марсиан н 150 имеютт зелёную окраску, о осстальные 50 розовые. Если наугад изввлечь марси ианина, то вероятностть, что он окажется о роозовым, составляет 50 0/200 = 0.25, то есть 25%. Покаж жем, что доля р в некотор ром смыслле аналоги ична сред днему µ по совоокупности. Введём чи исловой при изнак X, ко оторый принимает толлько два зн начения: 1 для д розового и 0 длля зелёногоо. Среднее значение признака п X равно X 1 1 1 0 0 0 50 1 150 0 50 0.25 . 2 200 N 2000 200 Как ви идим, получ ченное знач чение совп падает с доллей розовы ых марсиан.. Повторрим это рассуждениее для общегго случая. Пусть имееется совоккупность изз N член нов. При эттом М член нов обладаают каким-тто качественным при изнаком, ко оторого нет у осталльных N – М члеенов. Введ дём число овой призн нак X: у членов совокупнос с сти, облаадающих каачественны ым признакком, он буд дет равен 1, а у членоов, не облад дающих эттим приззнаком, он будет равеен 0. Тогда среднее зн начение X равно р X M 1 N M 0 M p, N N N (66.1) то ессть доле члленов совоккупности, обладающи о их качествеенным приззнаком. Исполььзуя такой й подход, легко л рассч читать и показатель п разброса - стандартн ное откллонение. Нее совсем яссно, однакоо, что понимать под разбросом, р если значений признаака всегоо два - 0 и 1. На рисс. 6.2 изобрражены тр ри совокупн ности по 2200 членовв в каждой. В перввой из них 6.2А все чллены принадлежат к одному кллассу. Разбррос равен нулю. н На рис. р 6.2Б разброс уже у имеетсся, но он невелик. На Н рис. 6.2В совокуупность дел лится на два д равн ные класса. В этом слуучае разброос максимаален. 69 Ри ис. 6.2. Чтоо такое разб брос данны ых, если знаачений при изнака всегго два? Возможно, этоо сттанет яснеее, если вспоомнить, чтоо разброс - это отсутсствие единсства. Рассм мотрим три и совокупности из 200 маррсиан. А. Все В марсиан не зелёные. Царит поллное единсство, разброос оттсутствует, σ = 0. Б. Среди С стройных рядовв зелёных марсиан м пооявилось 10 0 розовых. Е Единство н немного наарушено, пооявился некоторый раазброс, σ = 0.2. В. От единства маарсиан не осталось о и следа: они разделили ись поровнуу на зелёны ых и розовы ых. Разбросс м максимален н, σ = 0.5. Итак, найдем н стандартное отклонение о е. По опред делению он но равно 70 X , N 2 где для д М члеенов совокуупности зн начение X = 1, а дляя остальны ых N - М членов ч X = 0. Вели ичина µ = р. р Таким об бразом, 1 p 2 1 p 0 p 0 p N 2 M 1 p N M p N 2 2 2 2 M M 2 1 p 1 N N . (66.2) 2 p Но так т как M / N = р, то p 1 p 1 p p 2 p 1 p p 2 1 p , 2 (66.3) или, после преообразовани ия, p 1 p . (66.4) Найден нное станд дартное откклонение σ полностью ю определяяется велич чиной р. Эттим оно принципи иально о отличается от ндартного стан отклонен ния для нормальноого расп пределения,, которое не н зависитт от µ. На рис. 6.3 показана п заависимостьь σ от р. Она О вполлне согласууется с теми впечатлеениями, котторые возн никают при и рассмотреении рис. 6.2: 6 стандартное оттклонение достигает д м максимума а при р = 0.55 и равно 00, когда р равно р 0 или и 1. Ри ис. 6.3. Стаандартное отклонение о е доли σ полностью оп пределяетсся самой эттой долей р. р Когд да доля раввна 0 или 1, 1 разброс отсутствует о т и σ = 0. Когда К р = 0.5, разброс максималеен, σ = 0.5. 0 Зная стандартноое отклон нение σ, можно наайти стан ндартную ошибку для д выбоорочной оц ценки р. Поосмотрим, как к это дел лается. 71 6.1.Точ чность оцеенки долей й Если бы б в нашихх руках былли данные по п всем члеенам совоккупности, то т не было бы никааких пробллем, связаанных с точностью т оценок. Однако н нам всегдаа приходиттся довоольствоватьься ограни иченной вы ыборкой. Поэтому П воозникает воопрос, наскколько точ чно доли и в выборкее соответсттвуют доляям в совоку упности. Прроделаем м мысленный й эксперимеент напоодобие тогоо, который й мы провеели в гл. 4, 4 когда раассматриваали, наскол лько хорош шей оцен нкой среднеего по совоокупности является я вы ыборочноее среднее. Предпооложим, что ч из вссех 200 марсиан м сллучайным образом выбрали 10. Расп пределение розовых и зелён ных марси иан во всей в совоккупности, неизвестн ное исслледователям м, изобраажено в верхней части ри ис. 6.4. Закрашенн ные круж жки сооттветствуют марсианам м, попавши им в выборкку. Рис.. 6.4. А. Изз совокупноости марси иан, среди которых к 1550 зелёных и 50 розовых, извлеккли слуучайную вы ыборку из 10 особей. В выборку у попало 5 зелёных з и 5 розовых марсиан, на н рисуунке они поомечены чеерным. Б. В таком вид де данные предстанут п т перед иссследователеем, кооторый не может м набллюдать всю ю совокупность и вын нужден суди ить о ней по п выборкее. Оц ценка доли и розовых марсиан м р = 5/10 = 0.55. В ниж жней частти рис. 6.4 6 показана информация, кооторой располагал бы исслледователь, получивш ший такую выборку. Как видим, в выборрке розовы ые и зелён ные марссиане поделлились порровну. Осн новываясь на н этих дан нных, мы ррешили бы,, что розоввых марссиан столькко же, сколлько и зелён ных, то естть их доля составляет с 50%. 72 Исслед дователь мог бы извлечь другую выборку, напримеер одну из пред дставленны ых на рис. 6.5. 6 Здесь выборочны в ые доли роззовых марссиан равны ы 30, 30, 100 и 20%. Как любаая выбороч чная оценкка, оценка доли (обоззначим ее p̂ ) отраж жает долю р в лучайности и. совоокупности, но отклоняяется от неё в силу сл Р Рис. 6.5. Ещ ще 4 случаайные выбоорки из той й же совокуупности маррсиан. Оцеенки доли розовыхх марсиан: 30, 30, 10 и 20%. Рассмоотрим тепеерь не совоокупность марсиан, а совокупн ность всех значений p̂ , вычи исленных по п выборккам объёмоом 10 кажд дая. (Из соовокупностти в 200 членов мож жно полуучить болеее 1016 тааких выбоорок.) На рис. 6.6 приведен ны пять значений з p̂ , вычи исленных по п пяти выб боркам с рис. 6.4 и 6.5, и еще 200 значений й, полученн ных на друггих случ чайных выб борках тогго же объёёма. Средн нее этих 25 2 значений й составляяет 30%. Это Э близзко к истин нной доле розовых марсиан м - 25%. 2 По ан налогии соо стандартн ной ошибккой сред днего найдеем стандар ртную ош шибку доли. Для этогоо нужно оххарактеризо овать разбррос выбоорочных оц ценок доли и, то есть рассчитать р стандартноое отклонение совоку упности p̂ . В данн ном случае оно равно примерно 14%; в общ щем случаее 73 p̂ n , (66.5) где p̂ - станд дартная ош шибка доли и, σ — стаандартное отклонение о е, n — объ ъём выборки. Посккольку p 1 p , то pˆ p 1 p n (66.6) . Замени ив в привед дённой форрмуле исти инное значеение доли её оценкой й p̂ , получ чим оцен нку стандарртной ошиб бки доли: s pˆ pˆ 1 p̂ n (66.7) . Рис.. 6.6. Нанессём на граф фик оценки и доли розо овых марси иан, получеенные по вы ыборке с ри ис. 6.4 и четы ырем выбооркам с рисс. 6.5. Добавим к ним еще 20 выб борочных оценок. о Получиллось распределение выборочны в ых оценок p̂ . Стандарртное откло онение пности среедних - это стандартнаая ошибка доли. совокуп Из цен нтральной предельной теоремы ы (см. гл. 2) 2 вытекаетт, что при достаточ чно болььшом объ ъёме выбоорки выбборочная оценка p̂p прибли ижённо подчиняет п тся норм мальному распределе р ению, имееющему ср реднее р и стандартное отк клонение p̂ . Однаако при знаачениях р, близких к 0 или 1, и при малом м объёме ввыборки это не так. При П какоой численн ности выб борки мож жно польззоваться приведённы п ым способ бом оценкки? Матеематическаая статисти ика утверж ждает, что нормальное н е распредееление служ жит хорош шим p̂ и n 1 pˆ превосходят 59. Наапомним, ччто примеррно 95% вссех приб ближением м, если и np 9 Еслли объем выб борки недосттаточен для использовани и ия нормальноого распредееления, можн но прибегнутть к помощ щи биномиаального распрределения. Рассмотрим Р в общем вид де задачу наххождения веероятности тоого, что при п проведен нии n опытоов событие А произойдет m раз. Пусть П верояттность событтия А известтна, 74 членов нормально распределённой совокупности находятся в пределах двух стандартных отклонений от среднего. Поэтому если перечисленные условия соблюдены, то с вероятностью 95% можно утверждать, что истинное значение р лежит в пределах 2 s pˆ от p̂ . Вернемся на минуту к сравнению операционной летальности при галотановой и морфиновой анестезии. Напомним, что при использовании галотана летальность составила 13.1% (численность группы - 61 больной), а при использовании морфина – 14.9% (численность группы - 67 больных). Стандартная ошибка доли для группы галотана s pˆ гал 0.1311 0.131 0.043 4.3% , 61 одинакова в каждом опыте и равна p. Вероятность того, что событие А не произойдет (то есть вероятность противоположного события ), равна (1-p). Допустим, что в одной серии из n опытов событие А произошло первые m раз, и не произошло оставшиеся (n-m) раз. Вероятность такой последовательности событий определится по теореме умножения вероятностей и будет равна: или pn*(m)=p(А)*p(A)*...*p(A)*p( A )*p( A )*...*p( A ), pn*(m) = pm * (1-p)n-m . (а) (б) Возможен другой порядок появления события А, например, попеременно с событием A . При этом меняются местами сомножители в выражении (а), а общее их произведение остается тем же, равным pn*(m). Для нас безразличен порядок наступления события А, важно только, чтобы в n испытаниях оно появилось m раз. Всего таких вариантов столько, сколько имеется разных перестановок из n сомножителей в формуле (а). Если среди n элементов a,b,c...... и т.д. имеются одинаковые (a повторяется α-раз, b- β-раз, сγ-раз и т.д.), то число перестановок определится формулой C = n!/(α!*β!*γ!). Напомним, что знак "!" - факториал - обозначает произведение целых сомножителей от 1 до стоящего перед знаком "!". Например, 5!= 1*2*3*4*5. Значение 0! принимается равным 1. В нашей задаче имеется m сомножителей одного вида (р) и (n-m) сомножителей другого вида (1-р). Поэтому число перестановок сомножителей в формуле (а) равно С = n!/ [m!*(n-m)!]. Полученная формула совпадает с коэффициентами в разложении бинома Ньютона (a+b)n, которые обозначаются Сn(m) и определяют число сочетаний из n элементов по m. В соответствии с изложенным, для нахождения вероятности наступления m событий в n испытаниях независимо от последовательности наступления событий надо выражение (б) сложить С(m) раз. Это соответствует теореме сложения вероятностей (теореме "или"): одна последовательность событий А и A , или другая, или третья и т.д. p(m) = p*(m) + p*(m) +.......+p*(m) = Сn(m)*pn*(m). Учитывая формулу (б), последнее выражение можно переписать следующим образом pn(m) = Сn(m) * pm * (1-p)n-m (2.6) Как уже отмечалось выше, m - число событий А в n опытах может изменяться от 0 до n: 0 ≤ m ≤ n. Для подсчета вероятностей всех этих случаев надо воспользоваться формулой (2.6): pn(0) = Cn(0)* p0 * (1-p)n ; pn(1) = Cn(1)* p1 * (1-p)n-1 ; pn(2) = Cn(2)* p2 * (1-p)n-2 ; ............................. pn(n) = Cn(n)* pn * (1-p)0 . Так как коэффициенты Сn(m) совпадают с коэффициентами в разложении бинома Ньютона, распределение вероятностей, вычисленное по формуле (2.6), называется биномиальным распределением (или распределением Бернулли).Оно дает связь между значениями m, определяющими число наблюдений некоторого события (А) в n опытах, и их вероятностями. 75 для группы морфина s pˆ мор 0.149 1 0.149 0.044 4.4% . 67 Если учесть, что различие в летальности составило лишь 2%, то маловероятно, чтобы оно было обусловлено чем-нибудь, кроме случайного характера выборки. Итак, перечислим те предпосылки, на которых основан излагаемый подход. Мы изучаем то, что в статистике принято называть независимыми испытаниями Бернулли. Эти испытания обладают следующими свойствами: • Каждое отдельное испытание имеет ровно два возможных взаимно исключающих исхода. • Вероятность данного исхода одна и та же в любом испытании. • Все испытания независимы друг от друга. В терминах совокупности и выборок эти свойства формулируются так. • Каждый член совокупности принадлежит одному из двух классов. • Доля членов совокупности, принадлежащих одному классу, неизменна. • Каждый член выборки извлекается из совокупности независимо от остальных. 6.2.Сравнение долей В предыдущей главе мы рассмотрели критерий Стьюдента t. Он вычисляется на основе выборочных средних и стандартной ошибки (см. соотношение 5.1.). Выборочная доля p̂ аналогична выборочному среднему. Выражение для стандартной ошибки мы уже вывели. Теперь мы можем перейти к задаче сравнения долей, то есть к проверке нулевой гипотезы о равенстве долей. Для этого используется критерий z, аналогичный критерию Стьюдента t: z Разность выборочных долей . Стандартная ошибка разности выборочных долей (6.7) Пусть p̂1 и p̂2 - выборочные доли. Поскольку стандартная ошибка - это стандартное отклонение всех возможных значений p̂ , полученных по выборкам заданного объёма, и поскольку дисперсия разности равна сумме дисперсий, стандартная ошибка разности долей равна s pˆ1 pˆ 2 s 2pˆ1 s 2pˆ 2 . (6.8) Следовательно, z pˆ1 pˆ 2 pˆ pˆ 2 . 1 s pˆ1 pˆ 2 s 2pˆ1 s 2pˆ 2 (6.9) 76 Если n1 и n2 - объёмы двух выборок, то s pˆ1 pˆ1 1 pˆ1 n1 pˆ 2 1 pˆ 2 . n2 и s pˆ 2 (6.10) Таким образом, pˆ1 pˆ 2 z pˆ1 1 pˆ1 pˆ 2 1 pˆ 2 n1 n2 . (6.11) Итак, мы вывели формулу для критерия z. Вообще, этой буквой обозначаются величины со стандартным нормальным распределением (то есть нормальным распределением со средним µ = 0 и стандартным отклонением σ = 1). В данном случае нормальное распределение имеет место только при достаточно больших объёмах выборок10. Если при оценке дисперсии объединить наблюдения из обеих выборок, чувствительность критерия Стьюдента увеличится. Таким же способом можно повысить чувствительность критерия z. Действительно, если справедлива нулевая гипотеза, то обе выборочные доли pˆ1 m1 / n1 и pˆ 2 m2 / n2 - это две оценки одной и той же доли р, которую мы, следовательно, можем оценить как pˆ m1 m2 . n1 n2 (6.12) Тогда s pˆ pˆ 1 pˆ . (6.13) s 2pˆ 1 1 pˆ 1 pˆ . n1 n2 (6.14) Отсюда имеем s pˆ1 pˆ 2 s 2pˆ n1 n2 Подставляя полученную объединённую оценку в формулу для критерия z, имеем: z pˆ1 pˆ 2 1 1 pˆ 1 pˆ n1 n2 . (6.15) О статистически значимом различии долей можно говорить, если значение z окажется «большим». С такой же ситуацией мы имели дело, рассматривая критерий Стьюдента. Отличие состоит в том, что t подчиняется распределению Стьюдента, a z 10 Точнее говоря, когда значения npˆ и n 1 pˆ больше 5. Если хотя бы для одной выборки это условие не выполняется, то критерий z неприменим, и нужно воспользоваться точным критерием Фишера. Этот критерий мы рассмотрим чуть позже. 77 стандартному нормальному распределению. Соответственно, для нахождения «больших» значений z нужно воспользоваться стандартным нормальным распределением (рис. 2.6). Однако, поскольку при увеличении числа степеней свободы распределение Стьюдента стремится к нормальному, критические значения z можно найти в последней строке табл. 5.1. Для 5% уровня значимости оно составляет 1.96, для 1% - 2.58. 6.3.Поправка Йейтса на непрерывность Нормальное распределение служит лишь приближением для распределения z. При этом оценка Р оказывается заниженной и нулевая гипотеза будет отвергаться слишком часто. Причина состоит в том, что z принимает только дискретные значения, тогда как приближающее его нормальное распределение непрерывно. Для компенсации излишнего «оптимизма» критерия z введена поправка Йейтса, называемая также поправкой на непрерывность. С учетом этой поправки выражение для z имеет следующий вид: 1 1 1 pˆ1 pˆ 2 2 n1 n2 z . 1 1 pˆ 1 pˆ n1 n2 (6.16) Поправка Йейтса слегка уменьшает значение z, уменьшая тем самым расхождение с нормальным распределением. Теперь мы можем, наконец, сравнить операционную летальность при галотановой и морфиновой анестезии. Как вы помните, Конахан и соавт. исходили из предположения о том, что морфин в меньшей степени угнетает кровообращение, чем галотан, и потому предпочтительнее для общей анестезии. Действительно, при использовании морфина артериальное давление и сердечный индекс были выше, чем при использовании галотана, и различия эти статистически значимы. Однако выводы делать рано - ведь до сих пор не проанализированы различия операционной летальности, а именно этот показатель наиболее значим с практической точки зрения. Итак, среди получавших галотан (1-я группа) умерли 8 больных из 61 (13.1%), а среди получавших морфин (2-я группа) - 10 из 67 (14.9%). Объединённая оценка доли умерших pˆ 8 10 0.141 . 61 67 78 Величина npˆ для каждой из выборок равна соответственно n1 pˆ1 61 0.131 8.0 и n2 pˆ 2 67 0.149 9.4 . Оба значения больше 511, поэтому можно воспользоваться критерием z. С учетом поправки Йейтса имеем: 1 1 1 pˆ1 pˆ 2 0.131 0.149 1 1 1 2 n1 n2 2 61 67 z 0.04 . 1 1 1 1 0.1411 0.141 pˆ 1 pˆ 61 67 n1 n2 Это очень маленькая величина. Она гораздо ниже 1.96 - критического значения для 5% уровня значимости. Следовательно, хотя галотан и морфин действуют на кровообращение по-разному, нет никаких оснований говорить о различии операционной летальности. Если бы мы довольствовались наблюдением показателей процесса, то заключили бы, что морфин лучше галотана, хотя, как оказалось, выбор анестетика на летальность вообще не влияет. 6.4.Таблицы сопряженности: критерий 2 Рассмотренный выше метод хорошо работает, если качественный признак, который нас интересует, принимает два значения (летальность есть - нет, марсианин зеленый - розовый). Более того, поскольку метод является прямым аналогом критерия Стьюдента, число сравниваемых выборок также должно быть равно двум. Понятно, что и число значений признака, и число выборок может оказаться большим двух. Для анализа таких случаев нужен иной метод, аналогичный дисперсионному анализу. С виду этот метод, который мы сейчас изложим, сильно отличается от критерия z, но на самом деле между ними много общего. Построим критерий, который бы характеризовал эти различия одним числом, и затем найдём его критическое значение, - то есть поступим так, как в случае критериев F, t или z. Вернёмся к уже знакомому нам примеру - работе по сравнению галотана и морфина, а именно к той части, где сравнивалась операционная летальность. Соответствующие данные приведены в табл. 6.1. У нас два признака: препарат (галотан морфин) и летальность (есть - нет); в таблице указаны все их возможные сочетания, поэтому такая таблица называется таблицей сопряженности. В данном случае размер таблицы 2×2. 11 Больше 5 и n 1 pˆ - нетрудно показать, что если p̂ <0,5, то n 1 pˆ > npˆ . 79 Таблица 6.1. Операционная летальность при галотановой и морфиновой анестезии Живы Умерли Галотан 53 8 Морфин 57 10 Теперь взглянем на табл. 6.2. Это таблица ожидаемых чисел, которые мы получили бы, если бы операционная летальность не зависела бы от применяемого препарата. Как рассчитать ожидаемые числа, мы разберем чуть ниже, а пока обратим внимание на внешние особенности таблицы. Кроме дробных чисел в клетках можно заметить еще одно отличие от табл. 6.1 - это суммарные данные по группам в правом столбце и по летальности - в нижней строке. В правом нижнем углу — общее число больных в испытании. Обратите внимание, что, хотя числа в клетках в таблицах 6.1 и 6.2 разные, суммы по строкам и по столбцам одинаковы. Таблица 6.2. Операционная летальность при галотановой и морфиновой анестезии: ожидаемые числа Живы Умерли Всего Галотан 52.42 8.58 61 Морфин 57.58 9.42 67 110 18 128 Всего Как же рассчитать ожидаемые числа? Из всех 128 оперированных в живых осталось 110, то есть 85.94%. Если бы выбор анестезии не оказывал влияния на летальность, то в обеих группах доля выживших была бы такой же и число выживших составило бы: в группе галотана – 85.94% от 61, то есть 52.42, в группе морфина – 85.94% от 67, то есть 57.58. Таким же образом можно получить и ожидаемые числа умерших. Обратите внимание, что ожидаемые числа рассчитываются до второго знака после запятой - такая точность понадобится при дальнейших вычислениях. Сравним таблицы 6.1 и 6.2. Различия между ожидаемыми и наблюдаемыми значениями очень малы. Как мы выяснили раньше, различий в летальности действительно нет. Критерий χ2 (читается «хи-квадрат») не требует никаких предположений относительно параметров совокупности, из которой извлечены выборки, - это непараметрический критерий. Займемся его построением. Во-первых, как и всегда, 80 критерий должен давать одно число, которое служило бы мерой отличия наблюдаемых данных от ожидаемых, то есть в данном случае различия между таблицей наблюдаемых и ожидаемых чисел. Во-вторых, критерий должен учитывать, что различие, скажем, в одного больного имеет большее значение при малом ожидаемом числе, чем при большом. Определим критерий χ2 следующим образом: 2 O E 2 E , (6.17) где О - наблюдаемое число в клетке таблицы сопряженности, Е - ожидаемое число в той же клетке. Суммирование проводится по всем клеткам таблицы. Как видно из формулы, чем больше разница наблюдаемого и ожидаемого числа, тем больший вклад вносит клетка в величину χ2. При этом клетки с малым ожидаемым числом вносят больший вклад. Таким образом, критерий удовлетворяет обоим требованиям - во-первых, измеряет различия и, во-вторых, учитывает их величину относительно ожидаемых чисел. Испытаем новый критерий на данных по галотановой и морфиновой анестезии (табл. 6.1 и 6.2): 53 52.42 2 52.42 2 8 8.58 8.58 2 57 57.58 57.58 2 10 9.42 9.42 2 0.09 . Критическое значение χ2 можно найти хорошо знакомым нам способом. На рис. 6.7 показано распределение возможных значений χ2 для таблиц сопряженности размером 2×2 для случая, когда между изучаемыми признаками нет никакой связи. Величина χ2 превышает 3.84 только в 5% случаев. Таким образом, 3.84 - критическое значение для 5% уровня значимости. В примере с галотановой и морфиновой летальностью данные из табл. 6.1 хорошо согласуются с гипотезой об одинаковом влиянии галотана и морфина на послеоперационный уровень смертности. Разумеется, как и все критерии значимости, χ2 дает вероятностную оценку истинности той или иной гипотезы. На самом деле галотан и морфин могут по-разному влиять на операционную летальность. Но, как показал критерий, и то и другое маловероятно. 81 Рис. 6.7. Распределе Р ение χ2 с 1 степенью с свободы. с Зааштриховаанная зона - это 5% нааибольших х значений.. Примеенение криттерия χ2 прравомерно, если ожи идаемое чи исло в люб бой из клетток р 512. Это условвие аналоггично услоовию прим менимости и критерияя z болььше или равно Криттическое зн начение χ2 зависит от о размеровв таблицы сопряженн ности, то есть е от чиссла сравниваемых методов лечения л (сттрок таблицы) и числла возможных исход дов (столбц цов таблицы). Разм мер таблицы ы выражаеттся числом м степеней свободы ν:: ν = (r – 1)(c – 1), (6.18) ч столб бцов. Для таблиц т разм мером 2×2 имеем ν = (2 – 1)(2 – 1) где r - число сттрок, а с - число = 1. Критическ К кие значени ия χ2 для раазных ν при иведены в табл. т 6.3. Привед денная ран нее формулла для χ2 в случае таб блицы 2×2 (то есть при п 1 степеени своб боды) даёт несколькоо завышенн ные значен ния (сходнаая ситуация была с критерием к z). Это вызвано тем, т что теоретичес т ское распределение χ2 непреры ывно, тогд да как наб бор вычи исленных значений χ2 дискреттен. На пр рактике это приведёт к тому, что нулеввая гипоотеза будет отвергатьсся слишком м часто. 12 В противном п сллучае мы вын нуждены испоользовать точ чный критери ий Фишера. 82 Таблица 6.3. Кри итические значения χ2 83 Чтобы компенсировать этот эффект, в формулу вводят поправку Йейтса: 2 1 OE 2 2 . E Заметим, поправка Йейтса применяется только при ν = 1, то есть для таблиц 2×2. Итак, мы познакомились с критерием χ2. Вот порядок его применения: 1. Построить по имеющимся данным таблицу сопряженности. 2. Подсчитать число объектов в каждой строке и в каждом столбце и найти, какую долю от общего числа объектов составляют эти величины. 3. Зная эти доли, подсчитать с точностью до двух знаков после запятой ожидаемые числа - количество объектов, которое попало бы в каждую клетку таблицы, если бы связь между строками и столбцами отсутствовала. 4. Найти величину χ2, характеризующую различия наблюдаемых и ожидаемых значений. Если таблица сопряженности имеет размер 2×2, применить поправку Йейтса. 5. Вычислить число степеней свободы, выбрать уровень значимости и по табл. 6.3 определить критическое значение χ2. Сравнить его с полученным для таблицы. Как вы помните, для таблиц сопряженности размером 2×2 критерий χ2 применим только в случае, когда все ожидаемые числа больше 5. Как обстоит дело с таблицами большего размера? В этом случае критерий χ2 применим, если все ожидаемые числа не меньше 1 и доля клеток с ожидаемыми числами меньше 5 не превышает 20%. При невыполнении этих условий критерий χ2 может дать ложные результаты. В таком случае можно собрать дополнительные данные, однако это не всегда осуществимо. Есть и более простой путь - объединить несколько строк или столбцов, если при сравнении гипотеза об отсутствии межгрупповых различий не отклоняется. Тромбоз шунта у больных на гемодиализе. Гемодиализ позволяет сохранить жизнь людям, страдающим хронической почечной недостаточностью. При гемодиализе кровь больного пропускают через искусственную почку - аппарат, удаляющий из крови продукты обмена веществ. Искусственная почка подсоединяется к артерии и вене больного: кровь из артерии поступает в аппарат и оттуда, уже очищенная, - в вену. Так как гемодиализ проводится регулярно, больному устанавливают артериовенозный шунт. В артерию и вену на предплечье вводят тефлоновые трубки; их концы выводят наружу и соединяют друг с другом. При очередной процедуре гемодиализа трубки разъединяют между собой и 84 присоединяют к аппарату. После диализа трубки вновь соединяют, и кровь течет по шунту из артерии в вену. Завихрения тока крови в местах соединения трубок и сосудов приводят к тому, что шунт часто тромбируется. Тромбы приходится регулярно удалять, а в тяжелых случаях даже менять шунт. Руководствуясь тем, что аспирин препятствует образованию тромбов, Г. Хартер и соавт. (Н. R. Harter, J. W. Burch, P. W. Majerus. N. Stanford, J. A. Delmez, C. B. Anderson, C. A. Weerts. Prevention of thrombosis in patients in hemodialysis by low-dose aspirin. N. Engl. J. Med., 301:577—579, 1979.) решили проверить, нельзя ли снизить риск тромбоза назначением небольших доз аспирина (160 мг/сут). Было проведено контролируемое испытание. Все больные, согласившиеся на участие в испытании и не имевшие противопоказаний к аспирину, были случайным образом разделены на две группы: 1-я получала плацебо, 2-я - аспирин. Ни врач, дававший больному препарат, ни больной не знали, был это аспирин или плацебо. Такой способ проведения испытания (он называется двойным слепым) исключает «подсуживание» со стороны врача или больного и, хотя технически сложен, дает наиболее надежные результаты. Исследование проводилось до тех пор, пока общее число больных с тромбозом шунта не достигло 24. Группы практически не различались по возрасту, полу и продолжительности лечения гемодиализом. В 1-й группе тромбоз шунта произошел у 18 из 25 больных, во 2-й — у 6 из 19. Можно ли говорить о статистически значимом различии доли больных с тромбозом, а тем самым об эффективности аспирина? Прежде всего, оценим долю больных с тромбозами в каждой из групп: 18 0.72, 25 6 pˆ 2 0.32. 19 pˆ1 Проверим, можно ли применять критерий z, для этого рассчитаем величины npˆ и n 1 pˆ в каждой из групп: n1 pˆ1 18, n1 1 pˆ1 7 и n2 pˆ 2 6, n2 1 pˆ 2 13. Как видим, все величины больше 5, поэтому критерий z применить можно. Объединённая оценка доли больных с тромбозом pˆ 6 18 0.55 . 19 25 85 Тогда 1 1 1 1 pˆ 1 pˆ 0.55 1 0.55 0.15 . 25 19 n1 n2 s pˆ1 pˆ 2 Наконец, вычислим значение z 1 1 1 pˆ1 pˆ 2 2 25 19 0.72 0.32 0.05 z 2.33 . s pˆ1 pˆ 2 0.15 По табл. 5.1 находим, что для 2% уровня значимости критическое значение z составляет 2.3263, то есть меньше, чем мы получили. А это значит, что снижение риска тромбоза шунта при приеме аспирина статистически значимо. Иными словами, если бы группы представляли собой две случайные выборки из одной совокупности, то вероятность получить наблюдаемые (или большие) различия не превышала бы 2%. Теперь мы будем рассматривать не долю, а число больных с тромбозом. Занесём результаты испытания в таблицу (табл. 6.4). Для каждой из групп укажем число больных с тромбозом и без тромбоза. У нас два признака: препарат (аспирин - плацебо) и тромбоз (есть - нет). В данном случае размер таблицы 2×2. Таблица 6.4. Тромбозы шунта при приеме плацебо и аспирина Тромбоз есть Тромбоза нет Всего Плацебо 18 7 25 Аспирин 6 13 19 Всего 24 20 44 Посмотрим на клетки, расположенные на диагонали, идущей из верхнего левого в нижний правый угол. Числа в них заметно больше чисел в других клетках таблицы. Это наводит на мысль о связи между приемом аспирина и риском тромбоза. Составим таблицу ожидаемых чисел, которые мы получили бы, если бы аспирин не влиял на риск тромбоза (табл. 6.5). Плацебо получали 25 человек, аспирин - 19. Тромбоз шунта произошел у 24 из 44 обследованных, то есть в 54.55% случаев, не произошел - у 20 из 44, то есть в 45.45% случаев. Примем нулевую гипотезу о том, что аспирин не влияет на риск тромбоза. Тогда тромбоз должен с равной частотой 54.55% наблюдаться в группах плацебо и аспирина. Рассчитав, сколько составляет 54.55% от 25 и 19, получим соответственно 13.64 и 10.36. Таким же образом можно получаем ожидаемые 86 числа больных без тромбоза: в группе плацебо – 45.45% от 25, то есть 11.36, в группе аспирина – 45.45% от 19, то есть 8.64. Таблица 6.5. Тромбозы шунта при приеме плацебо и аспирина: ожидаемые числа Тромбоз есть Тромбоза нет Всего Плацебо 13.64 11.36 25 Аспирин 10.36 8.64 19 Всего 24 20 44 Сравним табл. 6.4 и 6.5. Числа в клетках довольно сильно различаются. Следовательно, реальная картина отличается от той, которая наблюдалась бы, если бы аспирин не оказывал влияния на риск тромбоза. Теперь осталось построить критерий χ2. В табл. 6.4 приведены наблюдаемые числа, а в табл. 6.5 - ожидаемые. 2 1 2 2 OE 18 13.64 0.5 7 11.36 0.5 2 2 13.64 11.36 E . 6 10.36 0.5 13 8.64 0.5 2 10.36 8.64 2 5.56 Разница найденных значений χ2 довольно велика: 5.56 (что соответствует тому впечатлению, которое мы получили, сравнивая табл. 6.4 с 6.5). Для таблиц размером 2×2 имеем ν = (2 – 1)(2 – 1) = 1 и критическое χ2 = 6.635 для уровня значимости 1%, поэтому мы отклоняем гипотезу об отсутствии связи между приемом аспирина и образованием тромбов. 6.5.Точный критерий Фишера Критерий χ2 годится для анализа таблиц сопряженности 2×2, если ожидаемые значения в любой из её клеток не меньше 5. Когда число наблюдений невелико, это условие не выполняется и критерий χ2 неприменим. В этом случае используют точный критерий Фишера. Он основан на переборе всех возможных вариантов заполнения таблицы сопряженности при данной численности групп, поэтому чем она меньше, тем проще его применить. Нулевая гипотеза состоит в том, что между лечением и исходом нет никакой связи. Тогда вероятность получить некоторую таблицу равна 87 R1 ! R2 !C1 !C2 ! N! P , O11 !O12 !O21 !O22 ! (6.19) где R1 и R2 - суммы по строкам (число больных, лечившихся первым и вторым способом), С1 и С2 - суммы по столбцам (число больных с первым и вторым исходом), О11, О12, О21 и О22 - числа в клетках, N - общее число наблюдений (табл. 6.4). Восклицательный знак, как и всегда в математике, обозначает факториал13*. Таблица 6.4. Обозначения, используемые в точном критерии Фишера Суммы по строкам Суммы по столбцам О11 О12 R1 О21 О22 R2 С1 С2 N Построив все остальные варианты заполнения таблицы, возможные при данных суммах по строкам и столбцам, по этой же формуле рассчитывают их вероятность. Вероятности, которые не превосходят вероятность исходной таблицы (включая саму эту вероятность), суммируют. Полученная сумма - это величина Р для двустороннего варианта точного критерия Фишера. Рассмотрим конкретный пример. Допустим мы имеем следующую таблицу сопряжённости (см. табл. 6.5а): а Таблица 6.5. б Всего Всего Всего 1 8 9 0 9 9 10 4 14 11 3 14 11 12 23 11 12 23 Всего Выборка невелика, и критерий χ2 применить нельзя. Из формулы (6.19) для Р следует, что вероятность при тех же значениях сумм по строкам и столбцам таблицы получить такой же набор чисел в клетках, что в табл. 6.5а, равна 9!14!11!12! 23! P 0.00666 . 1!8!10!4! 13 Факториал числа - произведение всех целых чисел от этого числа до единицы: n! = n×(n – 1)×(n – 2)×...×2×1. Например, 4!=4×3×2×1 = 24. Факториал нуля равен единице. 88 Теперь возьмем наименьшее из чисел в клетках (это единица на пересечении первой строки и первого столбца) и уменьшим его на 1. Числа в остальных клетках изменим так, чтобы суммы по строкам и столбцам остались прежними. Мы получили табл. 6.5б. Соответствующая вероятность равна 9!14!11!12! 23! P 0.00027 . 0!9!11!3! (Заметим, что числитель можно заново не вычислять, так как его значение зависит только от сумм по строкам и столбцам, которые не изменились.) Поскольку наименьшее число в клетке равно нулю, дальше уменьшать его невозможно. Таким образом, односторонний вариант точного критерия Фишера дает Р = 0.00666 + 0.00027 = 0.00695. Таблица 6.6. Всего Всего Всего 2 7 9 6 3 9 9 5 14 5 9 14 11 12 23 11 12 23 Р = 0.05330 Всего Р = 0.12438 Всего Всего Всего 3 6 9 7 2 9 8 6 14 4 10 14 11 12 23 11 12 23 Р = 0.18657 Всего Р = 0.02665 Всего Всего Всего 4 5 9 8 1 9 7 7 14 3 11 14 11 12 23 11 12 23 Р = 0.31983 Всего Р = 0.00242 Всего Всего Р = 0.27985 Всего 5 4 9 9 0 9 6 8 14 2 12 14 11 12 23 11 12 23 Всего Р = 0.00007 89 Чтобы рассчитать значение двустороннего варианта точного критерия Фишера, нужно перебрать и все остальные возможные варианты заполнения таблицы при условии неизменности сумм по строкам и столбцам. Возьмём число всё в той же левой верхней клетке и будем увеличивать его на 1, пересчитывая каждый раз числа в остальных клетках. В результате мы получим восемь вариантов заполнения (см. табл. 6.6). Для двух последних вариантов вероятность не превышает вероятности исходного варианта заполнения (0.00666), составляя соответственно 0.00242 и 0.00007. Таким образом, кроме исходного у нас есть ещё три варианта «маловероятного» заполнения таблицы; просуммировав соответствующие вероятности и прибавив к ним вероятность исходного варианта, получим Р = 0.00666 + 0.00027 + 0.00242 + 0.00007 = 0.00944. Это и есть значение двустороннего варианта точного критерия Фишера. Правила пользования точным критерием Фишера: Вычислить вероятность получить исходную таблицу. Построить остальные возможные варианты заполнения таблицы при неизменных суммах по строкам и столбцам. Для этого в одной из клеток проставить все целые числа от нуля до максимально возможного, пересчитывая числа в остальных клетках так, чтобы суммы по строкам и столбцам оставались неизменными. Вычислить вероятности для всех полученных таблиц. Просуммировать вероятность получить исходную таблицу и все вероятности, которые её не превышают. 7. Доверительные интервалы До сих пор мы занимались в основном нахождением различий между группами. Мы формулировали нулевую гипотезу, то есть предполагали, что экспериментальные группы - это просто две случайные выборки из одной и той же совокупности. Затем мы оценивали вероятность получить наблюдаемые различия при условии, что нулевая гипотеза верна. Если эта вероятность была мала, мы отвергали нулевую гипотезу и делали вывод, что различия статистически значимы. При таком подходе мы всегда получаем только качественный результат: либо отклоняем нулевую гипотезу, либо не отклоняем, либо признаём различия статистически значимыми, либо не признаём. Количественная оценка различий от нас ускользает. Между тем, как мы выяснили, вероятность выявления различий зависит не только от их величины, но и от численности групп. Сколь угодно малые различия при достаточно большой численности групп могут оказаться статистически значимыми, или, как пишут, «высоко достоверными». 90 Характеристика, которая дополняет и даже заменяет качественное суждение (значимо - незначимо), - это доверительный интервал. В предыдущих главах мы выяснили, что истинное среднее в 95% случаев лежит на расстоянии не больше двух ошибок среднего от выборочного среднего. Промежуток длиной в четыре ошибки среднего - это и есть 95% доверительный интервал. Смысл доверительного интервала из этого примера достаточно ясен: мы не знаем точно, чему равна некоторая величина, но можем указать интервал, в котором она находится (с заданной вероятностью). Доверительный интервал можно использовать вместо обычных критериев значимости. 7.1.Доверительный интервал для разности средних В гл. 5 мы определили критерий Стьюдента как t Разность выборочных средних . Стандартная ошибка разности выборочных средних Вычислив t, его сравнивают с критическим значением tα для заданного уровня значимости α. Для двух случайных выборок из одной совокупности вероятность получить значение t, по абсолютной величине превышающее tα, весьма мала (а именно, не превышает α; напомним, что уровень значимости α - это максимальная приемлемая вероятность ошибочно признать существование различий там, где их нет). Поэтому, получив «большое» значение t, мы делаем вывод о статистической значимости различий. Для случайных выборок, извлеченных из одной совокупности, распределение всех возможных значений t (распределение Стьюдента) симметрично относительно среднего, равного нулю (см. рис. 5.4). Если же выборки извлечены из двух совокупностей с разными средними, то распределение всех возможных значений t будет иметь среднее, отличное от нуля. Формулу для t можно видоизменить так, чтобы распределение t было всегда симметрично относительно нуля: t Разность выборочных средних Разность истинных средних . Стандартная ошибка разности выборочных средних (7.1) Заметим, что если обе выборки извлечены из одной совокупности, то разность истинных средних равна нулю и в этом случае новая формула совпадает с предыдущей. Вот математическая запись новой формулы: t X 1 X 2 1 2 s X1 X 2 , (7.2) Поскольку истинных средних (то есть средних по совокупности) мы не знаем, то и вычислить значение t по этой формуле мы не можем. Но эта формула и не 91 предназначена для нахождения t. Она позволяет сделать другое - оценить разность µ1 - µ2, то есть истинную величину различий. Для этого вместо вычисления t выберем его подходящее значение и, подставив в формулу, вычислим величину µ1 - µ2. Как выбрать «подходящее» значение? По определению 100α процентов всех возможных значений t расположены левее -tα или правее +tα. Остальные 100(1 – α) процентов значений t попадают в интервал от -tα до +tα. Например, 95% значений t находится в интервале от -t0.05 до +t0.05. (Критические значения t, в частности t0.05 можно найти по табл. 5.1). Значит, в 100(1 – α) процентах всех случаев t X 1 X 2 1 2 s X1 X 2 t . (7.3) Преобразуя это неравенство, получаем X 1 X 2 t s X1 X 2 1 2 X 1 X 2 t s X1 X 2 . (7.4) Таким образом, разность истинных средних отличается от разности выборочных средних менее чем на произведение tα и стандартной ошибки разности выборочных средних. Это неравенство задает доверительный интервал для разности средних µ1 - µ2. К примеру, 95% доверительный интервал для разности средних определяется неравенством X 1 X 2 t0.05 s X1 X 2 1 2 X 1 X 2 t0.05 s X1 X 2 . В этот интервал разность истинных средних попадет в 95% случаев. Этот способ определения доверительного интервала, как и критерий Стьюдента, на котором он основан, можно применять только тогда, когда совокупность имеет хотя бы приближенно нормальное распределение. На рис. 7.1 показан суточный диурез в совокупности из 200 человек после приёма плацебо (рис. 7.1А) и диуретика (рис. 7.1Б). Средний диурез при приёме плацебо составил µП = 1200 мл, при приёме диуретика - µД = 1400 мл. Таким образом, препарат увеличивает суточный диурез на µД - µП = 1400-1200 = 200 мл. Как обычно, исследователь вынужден довольствоваться выборками, по которым он и оценивает величину эффекта. На рис. 7.1 помимо известных нам, но не исследователю, данных по совокупности приведены данные, полученные по двум выборкам, в каждую из которых входило по 10 человек. В контрольной группе средний диурез составил 1180 мл, а в группе, получавшей диуретик, - 1400 мл. Среднее увеличение диуреза в данном опыте: 92 X Д X П 1400 1180 2200 мл . Рисс. 7.1. Исследование диуретичес д кого эффеккта нового препарата. А. Суточн ный диурезз в совоокупности из и 200 челоовек после приёма пл лацебо. Дессять человеек, попавши ие в выборкку, пом мечены черрным. Б. Сууточный ди иурез в той й же совокуупности поосле приёмаа препаратаа. Срредний диуррез увеличи ился на 2000 мл. Десятть человек,, попавшиее в выборку у, помечены ы штрихоовкой. В. Такими Т вид дит данныее исследоваатель. Как и всякая вы ыборочная оценка, по одверженнаая влиянию ю случая, эта величи ина отли ичается от истинного увеличени ия суточно ого диурезаа, равного 200 мл. И если бы мы, м осноовываясь наа выборочн ных данны ых, сказали,, что препаарат увеличчивает суто очный диуррез 93 в среднем на 220 мл, то упустили бы из виду неопределённость, присущую выборочной оценке. Правильнее будет рассчитать доверительный интервал - он покажет не одно число, скорее всего не совпадающее с истинным, а диапазон чисел, куда истинное попадает почти наверняка (например, с вероятностью 95%). Вычислим сначала объединённую оценку дисперсии. По ней мы сможем найти стандартную ошибку разности средних. Стандартные отклонения у принимавших диуретик и плацебо составили соответственно 245 и 144 мл. В обеих группах было по 10 человек. Объединённая оценка дисперсии s2 1 2 1 s Д sП2 2452 1442 2012 . 2 2 Стандартная ошибка разности средних sX Д X П s2 s2 2012 2012 89.9 . n Д nП 10 10 Для определения 95% доверительного интервала найдем по табл. 5.1 значение t0.05. Объём каждой из выборок n =10. Поэтому число степеней свободы ν = 2(n - 1) = 2(10 1) = 18. Соответствующее табличное значение t0.05 равно 2.101. Теперь можно вычислить 95% доверительный интервал для среднего изменения диуреза: X 1 X 2 t0.05 s X1 X 2 Д П X 1 X 2 t0.05 s X1 X 2 , то есть 220 – 2.101×89.9 < µД - µП < 220 + 2.101×89.9 и окончательно: 31 < µД - µП < 409. Таким образом, 95% доверительный интервал среднего изменения диуреза составляет 31 - 409 мл. Иными словами, выборочные данные позволяют с 95% надежностью утверждать, что препарат увеличивает диурез более чем на 31 мл, но менее чем на 409 мл. Как и следовало ожидать, истинное значение 200 мл находится в этом интервале. Первый из рассчитанных нами доверительных интервалов изображен на рис. 7.2А. Понятно, что в нашем распоряжении могли оказаться совершенно другие выборки. Ранее мы видели, что разные выборки дают разные оценки среднего и стандартного отклонения. Точно так же по разным выборкам мы будем получать разные доверительные интервалы. (И не удивительно - ведь доверительный интервал рассчитывают по среднему и стандартному отклонению.) 94 Рисс. 7.2. А. 955% довериттельный ин нтервал изм менения ди иуреза, выччисленный по данным мс ри ис. 7.1 В. Ин нтервал сод держит исттинную вел личину изм менения (+2200 мл) и не н содержитт нулля. Последн нее говоритт о том, чтоо изменени ие диуреза статистичеески значим мо. Б. Такоой же доверителььный интеррвал. Он тооже содерж жит истинную величину изменен ния диуреза, но он о содержи ит также и ноль: стати истически значимогоо измененияя диуреза не н выявлено. В. Еще сорокк восемь 955% довериттельных ин нтервалов для д пар выб борок, извл леченных из и той же паары совокуп пностей (ри ис. 7.1 А и Б). Теперьь у нас в об бщей сложн ности 50 довверительны ых интерваалов. Из нихх 3 не содеержат истин нного значчения и 27 не н содержаат нулля. Если бы ы мы пострроили 95% доверителььные интеррвалы по вссем возмож жным парам м выборрок, то долля не содерржащих исттинного знаачения состтавила бы 5%. 95 Мы вычислили интервал по выборкам с рис 7.1. Для другой пары выборок доверительный интервал будет другим. Вычислим его. Суточный диурез в группе плацебо составил в среднем 1216 мл, а в группе, получавшей диуретик, - 1368 мл. Стандартные отклонения - 97 и 263 мл соответственно. Увеличение среднего диуреза при приёме препарата ХД - ХП = 1368 - 1216 = 152 мл. Находим объединённую оценку дисперсии: s2 1 97 2 2632 1982 . 2 и стандартную ошибку разности средних: sX Д X П 1982 1982 89 . 10 10 Тогда 95% доверительный интервал для среднего изменения суточного диуреза: 152 - 2.101×89 < µД - µП < 152 + 2.101×89, -35 < µД - µП < 339. Этот интервал (рис. 7.2Б) отличается от полученного ранее. Однако и он содержит истинное среднее увеличение диуреза - 200 мл. Если бы в нашем распоряжении была только данная выборка, мы бы сказали, что на 95% уверены в том, что препарат увеличивает средний диурез на величину, меньшую 339 и большую -35 мл. Заметьте, на сей раз доверительный интервал включает и отрицательные значения. Тем самым, выборочные данные не противоречат тому, что «диуретик» в действительности может уменьшать диурез. Итак, мы определили доверительные интервалы для двух пар выборок из совокупности, изображенной на рис. 7.1. На самом деле число возможных пар выборок превышает 1027. На рис. 7.2В показаны 95% доверительные интервалы для 48 из них. Теперь у нас в общей сложности 50 доверительных интервалов. Еще раз убедившись, что разные выборки дают разные доверительные интервалы, заметим, что большинство из них - точнее 47 из 50 - содержат истинное значение, показанное на рис. 7.2 вертикальной пунктирной линией. Если бы мы перебрали все возможные выборки, то доля 95% доверительных интервалов, содержащих истинное значение, составила бы в точности 95%. 7.2.Интервал шире - доверия больше Мы только что убедились, что 95% доверительный интервал может и не содержать истинного значения, однако, как правило, он его содержит - а именно, в 95% 96 случаев. Вообще, истинное значение содержат k процентов k-процентных доверительных интервалов. Иными словами, k - это вероятность того, что интервал содержит истинное значение. От этой вероятности k зависит ширина интервала. Взглянем еще раз на рис. 7.2. Если мы хотим, чтобы больше интервалов перекрывало истинное значение, нам придётся их расширить. Чем больше k, тем шире k-процентный доверительный интервал. Для примера вычислим, в дополнение к 95%, ещё и 90 и 99% доверительные интервалы для двух выборок с рис. 7.1. Разность средних и стандартная ошибка разности средних у нас уже есть, осталось только по табл. 5.1 найти новые значения tα (по-прежнему число степеней свободы ν = 18). Для 90% доверительного интервала находим t0.10 = 1.734. Тогда: 220 – 1.734×89.9 < µД - µП < 220 + 1.734×89.9, 64 < µД - µП < 376. По сравнению с 95%, 90% доверительный интервал более узкий (рис. 7.3). Неужели наши знания о величине µД - µП стали более точными? Разумеется, нет. Сужение доверительного интервала досталось нам ценой снижения вероятности того, что он действительно содержит истинное значение. Для вычисления 99% доверительного интервала находим в табл. 5.1 критическое значение t0.01 = 2.878. Тогда интервал имеет вид 220 – 2.878×89.9 < µД - µП < 220 + 2.878×89.9, то есть -39 < µД - µП < 478. Это самый широкий доверительный интервал из трёх изображённых на рис. 7.3. Подведем итоги. Приводя k-процентный доверительный интервал, мы сообщаем, во-первых, в каких пределах находится истинное значение неизвестной нам величины и, во-вторых - с какой вероятностью k. Например, говоря: «95% доверительный интервал 31 - 409 мл», имеют в виду следующее: «Вероятность того, что истинное значение лежит в пределах 31 - 409 мл, составляет 95%». Не исключено, к сожалению, что нам не повезёт и истинное значение окажется вне доверительного интервала. С 95% доверительными интервалами такое случается в 5% случаев. Желая застраховаться от подобной ошибки, вы можете рассчитать 99% доверительный интервал. Однако учтите, что он окажется шире 95% доверительного интервала. Вообще, чем больше k (вероятность того, что доверительный интервал содержит истинное значение), тем больше ширина интервала. 97 Ри ис. 7.3. Три и доверителльных интервала одно ой и той жее разности ссредних (см м. рис. 7.1)). 999% довериттельный ин нтервал сам мый широки ий, 90% - самый с узки ий. Истиннаая разностьь средних (иззменение сууточного диуреза) показана верттикальной пунктирно ой линией. 7.3. Проверка П ги ипотез с помощью п доверитель д ьных интер ервалов Довери ительные интервалы ы можно использоваать для ооценки статистическкой значимости раззличий. Этто и не уди ивительно, ведь нахож ждение довверительно ого интерваала имееет общую базу с тррадиционны ыми метод дами провверки гипоотез. И таам и тут мы м встречаем разность выб борочных средних, её стандарртную ош шибку и распределен ние Стью юдента. ная разноссть средни их может находиться н я в любой й точке доверительноого Истинн интеервала, поээтому если и доверитеельный ин нтервал соодержит нооль, то мы ы не мож жем отверргнуть возм можность того, т что µ1 - µ2 = 0, то т есть нуллевую гипоттезу. С дру угой сторон ны, но. нахоождение исстинной разности срредних внее доверитеельного ин нтервала маловероят м Поэттому, если и доверитеельный ин нтервал нее содержитт нуля, сп праведливо ость нулеввой гипоотезы о равенстве сред дних маловвероятна. Можно М сфоормулироваать следую ющее правилло. Если 100(1 1 - α))-процентнный довери ительный интервал разности и средних не содер ержит нулля, то разлличия стат тистическки значимы ы (Р < α);; напротивв, если эт тот интеервал содерржит нольь, то различия стати истически не н значимы ы (Р > α). Примееним это прравило к дввум только что рассмотренным примерам. На рис. 7.2А 95% доверителльный инттервал не содержит нуля, поээтому, какк и при исспользован нии криттерия Стью юдента, мы м заключ чаем, что препаратт увеличи ивает диур рез (уровеень значимости α = 0.05). Нап против, 95% % доверитеельный инттервал на ррис. 7.2Б со одержит нооль. 98 Значит, в данном случае мы не можем отвергнуть гипотезу об отсутствии эффекта. К такому же выводу мы пришли раньше, используя критерий Стьюдента. Из пятидесяти 95% доверительных интервалов на рис. 7.1 двадцать три содержат ноль. Следовательно, 23/50 = 44% соответствующих выборок не дают оснований говорить о статистически значимых различиях (то есть о наличии эффекта) при уровне значимости 1 – 0.95 = 0.05. Если бы в нашем распоряжении были все возможные доверительные интервалы, мы увидели бы, что 45% из них содержат ноль. Это значит, что в 45% случаев мы не сможем отвергнуть гипотезу об отсутствии эффекта, то есть совершим ошибку II рода. Следовательно, чувствительность критерия равна 1 – 0.45 = 0.55. Говоря о «статистически значимых различиях», всегда полезно привести ещё и доверительный интервал - это даст возможность судить о величине эффекта. Если статистическая значимость обнаружена благодаря большому объёму выборки, а не величине эффекта, доверительный интервал укажет на это. Другими словами, использование доверительных интервалов позволяет среди статистически значимых эффектов выделить те, которые сами по себе слишком слабы, чтобы иметь клиническое значение. Предположим, мы должны оценить эффективность гипотензивного препарата. Мы набираем две группы по 100 человек в каждой - контрольную, которой даём плацебо, и экспериментальную, которой даём препарат. Пусть в экспериментальной группе диастолическое давление составило в среднем X Э = 81 мм рт. ст. (стандартное отклонение 11 мм рт. ст.), а в контрольной - X К = 85 мм рт. ст. (стандартное отклонение 9 мм рт. ст.). Для оценки статистической значимости различий воспользуемся критерием Стьюдента. Объединённая оценка дисперсии составляет s2 1 2 2 11 9 102 , 2 откуда t XЭ XК 81 85 2.83 . sX Э X К 102 102 100 100 Это значение по абсолютной величине больше критического значения t0.01 = 2.601 для уровня значимости 0.01 и числа степеней свободы ν = 2(n - 1) = 198 (см. табл. 5.1). Таким образом, снижение диастолического артериального давления статистически значимо (Р < 0.01). Мы обнаружили статистически значимый эффект. Но какова его клиническая значимость? Вычислим 95% доверительный интервал для разности средних. 99 Так как при 198 степенях свободы t0.05 равно 1.972 (см. табл. 5.1), доверительный интервал имеет вид -4 – 1.972×1.41 < µЭ - µК < -4 + 1.972×1.41, то есть -6.8 < µЭ - µК < -1.2. Таким образом, с вероятностью 95% препарат снижает артериальное давление на 1.2 - 6.8 мм рт. ст. Этот эффект невелик, особенно если сравнить его со стандартными отклонениями (9 и 11 мм рт. ст.). Итак, гипотензивный эффект выражен слабо, а его статистическая значимость обусловлена исключительно большой численностью групп. Приведенный пример наглядно показывает, почему, знакомясь с исследованием эффективности того или иного препарата, важно знать не только уровень значимости, но и величину эффекта. 7.4. Доверительный интервал для среднего Продолжим рассматривать разнообразные применения доверительных интервалов. Найдем доверительный интервал для среднего. Определив выборочное среднее X , мы понимаем, разумеется, что это всего лишь выборочная оценка истинного среднего µ, которое, впрочем, скорее всего находится где-то поблизости. «Где-то поблизости» можно охарактеризовать количественно, то есть указать интервал, в котором с заданной вероятностью k находится истинное среднее. Это и будет k-процентный доверительный интервал для среднего. Приближенный способ вычисления этого интервала изложен в гл. 2: примерно в 95% случаев выборочное среднее уклоняется от истинного не более чем на две стандартные ошибки среднего. Осталось внести некоторые уточнения. Ранее мы выяснили, что величина t Разность выборочных средних Разность истинных средних Стандартная ошибка разности выборочных средних подчиняется распределению Стьюдента. Можно показать, что t Выборочное среднее Истинное среднее Стандартная ошибка среднего также подчиняется распределению Стьюдента. Математическая запись для последней величины выглядит так: t X , sX 100 где s X s . n Дальнейший вывод аналогичен выводу доверительного интервала для разности истинных средних. Опустив промежуточные этапы, приведем формулу 100(1 - α)процентного доверительного интервала для среднего: X t s X X t s X , где tα - критическое значение t для уровня значимости α и числа степеней свободы ν = n - 1 (n — объём выборки). Смысл доверительного интервала для среднего совершенно аналогичен смыслу доверительного интервала для разности средних. Приводя k-процентный доверительный интервал среднего, мы утверждаем, что вероятность того, что истинное среднее находится в этом интервале, равна k. Иными словами, если получить все возможные выборки из некоторой совокупности и для каждой рассчитать k-процентный доверительный интервал, то доля интервалов, содержащих среднее по совокупности (истинное среднее), составит k. Вычислить доверительный интервал несложно, однако - если объём выборки достаточно велик - можно пользоваться и приведённым выше «правилом двух стандартных ошибок». Для выборок, имеющих объём от 20 и выше, t0.05 приблизительно равно 2 (см. табл. 5.1), и мы получим достаточно точный результат. Если же объём выборки меньше 20, доверительный интервал окажется зауженным, а наше представление о точности, с какой мы можем судить об истинном среднем, - преувеличенным. 8. Анализ зависимостей Самый первый из рассмотренных нами примеров (рис. 1.1) был посвящен вопросу об эффективности диуретика. Пяти людям дали разные дозы препарата, измерили диурез и увидели, что чем больше доза, тем больше диурез. В дальнейшем оказалось, что этот результат не отражает реальной картины и что никакой связи между дозой и диурезом на самом деле нет. Тогда мы еще не знали о методах анализа зависимостей. Теперь мы узнаем, как с помощью уравнения регрессии выразить связь между дозой диуретика и диурезом (так называемый регрессионный анализ) и как с помощью коэффициента корреляции измерить силу этой связи. Подобно тому, как мы поступали в предыдущих главах, рассмотрим сначала уравнение регрессии для совокупности, а затем выясним, как оценивать его параметры по выборке. В гл. 4 и 5 мы брали нормально распределенную совокупность, находили параметры распределения (среднее μ и стандартное отклонение σ), затем находили 101 выбоорочные оц ценки этихх параметроов ( X и s) и использовали их для оценки и значимоссти разли ичий межд ду группам ми, напримеер получаввших препаарат и не п получавши их. Теперь мы м такж же будем иметь и дело с нормально распрееделенной совокупноостью, но группа буд дет только одна. Интересоватть же нас буудет связь между двуумя количественными и признакам ми, хараактеризующ щими членов этой грруппы, например меж жду дозой препарата и эффектоом, росттом и весом м. Мы огран ничимся сллучаем лин нейной зави исимости д двух перемеенных14. Р Рис. 8.1. Роост и вес маарсиан. Какк известно,, число оби итателей М Марса составвляет 200; к каждый из них был иззмерен и вззвешен, реззультат нан несен на график в вид де кружка. Расспределени ие марсиан по росту и по весу но ормально. Более тогоо, средний вес в марсиан определенногоо роста свяязан с ростоом линейно ой зависимостью; разброс значеений веса длля б примеенить регреессионный вссех ростов одинаков. Чтобы к соовокупностти можно было анализ,, она должн на обладатьь всеми эти ими свойсттвами. 14 Ли инейная зависсимость у отт х определяяется формул лой у = α + βx. Возможн на нелинейная зависимоссть, напри имер у = α + βx2. Возмоожна и множ жественная зависимость, з , когда опрееделяющих признаков п боолее одногго, например y = α + βx + γz. γ 1 102 Итак, начнем с совокупн ности. Соввокупность марсиан нами ужее достаточ чно хороошо изучен на, особен нно, что касается к ро оста. Но ведь в мы и их ещё и взвешивалли! Разб беремся, каак связаны ы вес и роост. Вы, ко онечно, поомните, чтоо на Марссе живет 200 2 марссиан. В гл. 2 мы обнарружили, чтто их рост подчиняетс п ся нормальному распр ределению ю со сред дним μ = 40 см и стаандартным отклонени ием σ = 5 см. с Оказыввается, что о вес марси иан тожее подчиняеется нормаальному распределени ию с парам метрами μ = 12 г и σ = 2.5 г. Но самоое замечатеельное, что отчетливоо видно на рис. р 8.1, - это э зависим мость веса от роста. Как К праввило, чем больше ростт марсиани ина, тем бол льше вес, причем п эта зависимоссть линейнаа. Р Рис. 8.2. Ессли рассчиттать средни ий вес марссиан разногго роста и н нанести по олученные знаачения на гррафик, окаажется, что они образу уют прямую линию. И Иначе гово оря, средни ий вес марси иан линейно о зависит от о роста. Посмотрим, сколлько весятт марсианее, чей росст равен 332 см. Тааких марси иан четверо, а их вес в равен соответстве с енно 7.1; 7.8; 7 8.3 и 8.8 8 г. Таким м образом,, средний вес в 1 103 марсиан ростом 32 см равен 8 г. Восемь марсиан ростом 46 см весят 13.7; 14.5; 14.8; 15.0; 15.1; 15.2; 15.3 и 15.8 г. Их средний вес 15 г. Если для каждого значения роста мы подсчитаем соответствующий ему средний вес, то окажется, что найденные значения лежат на прямой линии, как изображено на рис. 8.2. Теперь, выбрав какой-то рост, мы всегда сможем примерно определить вес марсианина этого роста. Точнее, мы сможем определить средний вес марсиан этого роста, поскольку для каждого роста существует определенный разброс веса. Разброс этот, кстати, можно оценить, рассчитав стандартное отклонение веса для каждого роста. Оказывается, какой бы рост мы ни взяли, стандартное отклонение веса составит 1 г, что заметно меньше стандартного отклонения веса для всей, не разделенной по весам, совокупности марсиан. 8.1.Уравнение регрессии Прежде чем перейти к обобщению этих закономерностей, дадим несколько определений. В уравнении регрессии одна из переменных, х, называется независимой переменной, а другая, у, - зависимой. Набор значений у, соответствующих определённому значению х, обозначим у|х. В примере с марсианами рост мы будем рассматривать как независимую переменную, а вес - как зависимую. Понятно, что это не означает, что одна переменная действительно определяет другую. Просто по значению одного признака мы предсказываем значение второго. В условиях эксперимента мы произвольно меняем независимую переменную и смотрим, как меняется зависимая. При этом речь действительно идёт о зависимости, то есть о причинной связи. В прочих же случаях выявление статистической связи двух переменных указывает на возможность причинной связи, но не доказывает её. Разобраться в причинах и следствиях вообще невозможно чисто статистическими методами. Необходимо, в частности, найти биологический механизм, порождающий выявленную связь. Например, эпидемиологические данные о связи пассивного курения с заболеваемостью ишемической болезнью сердца ещё не доказывают, что пассивное курение способствует развитию ИБС. Может быть, и то и другое - следствие какой-либо неизвестной причины, например нервной обстановки в рабочем коллективе. Однако экспериментальные данные о том, что пассивное курение и отдельные компоненты табачного дыма вызывают поражение сердца у лабораторных животных, говорят в пользу именно причинной связи. Вернёмся к нашим марсианам. Для каждого значения независимой переменной х (в нашем примере это рост) рассчитаем среднее значение зависимой переменной у (вес). 104 Это среднее в точке х обозначим μy|x. Тогда обнаруженная нами линейная зависимость описывается уравнением μy|x = α + βх. (8.1) Здесь α - значение у в точке х = 0 (коэффициент сдвига), β - коэффициент наклона. В нашем примере при увеличении роста на 1 см средний вес увеличивается на 0.5 г, поэтому β = 0.5. Хотя представить марсиан весом -8 г не легче, чем ростом 0 см, тем не менее для прямой с рис. 8.2 имеем α = -8 г. Таким образом, прямая средних (для каждого роста) весов задается формулой μy|x = -8 + 0.5х. Теперь посмотрим, как распределены веса марсиан одного роста. В данном случае это нормальное распределение со средним μy|x и стандартным отклонением σy|x. Но этого ещё недостаточно для применения методов, которые мы рассмотрим ниже. Помимо нормальности распределения требуется, чтобы σy|x было одинаковым для разных х. Иначе говоря, разброс значений зависимой случайной переменной у должен быть неизменным при любом значении независимой переменной х. В нашем примере это условие выполняется. Итак, значения переменных должны удовлетворять следующим условиям. • Среднее значение μy|x линейно зависит от х. • Для любого значения х значения у|х распределены нормально. • Стандартное отклонение σy|x, одинаково при всех значениях х. Функция, задающая зависимость μy|x от х, определяется параметрами α и β. Разброс значений у|х в точке х задается стандартным отклонением σy|x. Оценим эти параметры. 8.2.Оценка параметров уравнения регрессии по выборке В реальной жизни редко удается получить данные обо всей совокупности, и исследователю приходится довольствоваться выборками. Допустим, мы располагали бы данными не о всех марсианах, а только о десяти. На рис. 8.3А они показаны чёрными кружками среди 190 своих собратьев. На рис. 8.3Б данные показаны так, как их видит исследователь, изучивший эту выборку. Что можно сказать о совокупности, основываясь на этих выборочных данных? 105 Рис.. 8.3. А Слуучайная вы ыборка объёёмом 10 из совокупноости марсиан. Похож же, что в эттом случаее исследоваателю повеезло. Зависсимость веса от роста в выбоорке выгляядит примеерно так же, ж как и в совокупн ности в цеелом. Но ведь в выборрка можеет вводитьь в заблуж ждение. Всспомним пр ример с рис. 1.1. В выборке из 5 человвек диуррез отчетли иво увелич чивался с ростом р дозы ы препаратта (рис 1.1А), тогда как к на сам мом делее никакой зависимоости не было б (рисс 1.1Б). Какова К верроятность ошибочноого заклю ючения? Как К мы скорро увидим, эта задачаа сводитсяя к оценке параметров уравнен ния регреессии α u β по выборке. 1 106 Рис. 8.3. Б. Б Такой эта выборка представляяется исслеедователю, который не н может наблю юдать всю совокупность. 8.2.1. Метод нааименьшихх квадрато ов Сейчасс нам предстоит оцен нить параметры уравн нения регрессии α и β. β Обознач чим их вы ыборочныее оценки сооответственно а и b. Найти наи илучшие оц ценки этих параметроов это то т же самоее, что проввести наилуучшую пряямую черезз имеющиееся точки, поскольку п у= а + bх b - это ураавнение пряямой. Какуую прямую ю считать нааилучшей?? Посмотри им на рис. 8.4. 8 На нем н изобраажены 4 пррямые. Пряямая I явно о не годиттся - все тоочки оказал лись по од дну сторону от неёё. Прямая II I немного лучше, онаа хотя бы пересекает п т область, где г находяттся наши и точки. Однако О онаа слишком круто усттремляется вверх. Каккая из пряямых III и IV являяется лучшеей, сказать трудно. Почему прям мая II кажеется лучшее прямой I, а прямая III лучш ше прямой II? Очевид дно, прямаая тем лучш ше, чем бли иже она коо всем точккам выборки. Ины ыми словами, лучше таа прямая, относитель о но которой й разброс тточек миним мален. 1 107 Рис. 8.4. Проввести прям мую через десять д точеек можно по-разному. п . Прямые I и II явно не н г годятся, пррямые III и IV выглядяят лучше. С оцен нкой разброоса мы уж же сталкиваались в гл. 2. Там мы ы использоввали средн ний квад драт отклон нения от среднего. Пооступим анаалогичным м образом. Опредеелим рассттояние по вертикали и от кажд дой точки до прямо ой (рис. 8.5). Возвведем полученные велличины в квадрат к и сл ложим. Воззведение в квадрат по отребовалоось, чтоб бы отклонения, равны ые по абсоллютной вел личине, но разные поо знаку, вносили один ни тот же ж вклад. Суммаа квадратоов отклонеений от прямой п IV V меньше, чем от прямой III. След довательноо, прямая IV I лучше представляяет зависим мость у отт х. Более того, мож жно докаазать, что для прям мой IV суумма квад дратов откклонений выборочны ых значен ний зависимой перееменной ми инимальнаа. 1 108 Ри ис. 8.5. Най йдем расстояние по вертикали от о каждой точки т до пррямой III (А А) и IV (Б).. Сум мма квадраттов расстояяний до пряямой IV мееньше, чем до прямой й III. Рядом м с прямой IV серым цветом м показана линия л сред дних с рис. 8.2. Как ви идим, прям мые достато очно близки. 1 109 Способ нахождения линии, сумма квадратов расстояний от которой до всех точек выборки минимальна, называется методом наименьших квадратов, саму линию мы будем называть прямой регрессии. Здесь мы не будем останавливаться на выводе формул и сообщим сразу результат. Напомним, что мы ищем параметры уравнения регрессии: у = а + bх. Тогда коэффициент сдвига a Y X X XY n X X 2 (8.2) 2 2 и коэффициент наклона b n XY X Y n X 2 X 2 , (8.3) где X и Y - значения независимой и зависимой переменных у n членов выборки15**. Рассчитаем параметры уравнения регрессии для нашей выборки из 10 марсиан. Вспомогательные величины для вычислений приведены в табл. 8.1. Таблица. 8.1. Расчет параметров уравнения регрессии X 31 32 33 34 35 35 40 41 42 46 369 X2 961 1024 1089 1156 1225 1225 1600 1681 1764 2116 13841 Y 7.8 8.3 7.6 9.1 9.6 9.8 11.8 12.1 14.7 13.0 103.8 XY 241.8 265.6 250.8 309.4 336.0 343.0 472.0 496.1 617.4 598.0 3930.1 Объем выборки n =10, ΣХ = 369, ΣY = 103.8, ΣХ2 = 13841 и ΣХY = 3930.1. Подставим эти числа в формулы для коэффициентов регрессии: a 103.8 13841 369 3930.1 10 13841 369 2 6.0 и 15 Вычисления можно упростить, если сначала вычислить b, а уже потом найти а по формуле a Y bX , где Y и X - выборочные средние для переменных у и х. 110 b 10 3930.1 369 103.8 10 13841 369 0.44 . 2 Таким образом, прямая регрессии имеет вид: y 6.0 0.44 x . Именно это уравнение задает прямую IV. 8.2.2. Разброс значений вокруг прямой регрессии Мы получили а и b - оценки коэффициентов регрессии α и β. Хорошо бы получить также оценку разброса значений вокруг прямой регрессии. При каждом значении X стандартное отклонение постоянно и равно σy|x. Выборочной оценкой σy|x служит Y a bX 2 sy|x , n2 (8.4) где а + bХ - значение уравнения регрессии в точке X, Y - (а + bХ) - расстояние от точки до прямой регрессии, Σ обозначает суммирование квадратов этих расстояний. Не будем объяснять, почему сумма квадратов отклонений должна быть поделена на n - 2, а не на n или n - 1. Скажем только, что причина аналогична той, по которой в оценке стандартного отклонения делитель равен n - 1. Величина sy|x называется остаточным стандартным отклонением (соответственно sy|x2 называется остаточной дисперсией). Связь sy|x со стандартными отклонениями sY и sX зависимой и независимой переменных определяется формулой sy|x n 1 s n2 2 Y b sX . 2 2 (8.5) Для рассмотренной нами выборки sX = 5.0, sY = 2.4. Тогда sy|x 9 2.4 8 2 0.44 5.0 2 2 1.02 . Как видим, оценка sy|x оказалась близкой к истинному значению σy|x, равному 1.0г. 8.3.Стандартные ошибки коэффициентов регрессии Подобно тому как выборочное среднее - это оценка истинного среднего (среднего по совокупности), так и выборочные параметры уравнения регрессии а и b - не более чем оценки истинных коэффициентов регрессии α и β. Разные выборки дают разные оценки среднего - точно так же разные выборки будут давать разные оценки коэффициентов регрессии. Для выборки с рис. 8.3 мы получили значения а = -6.0 и b = 0.44. Рассмотрим 111 друггую выборкку из той же ж совокуп пности (рис. 8.6А). На Н рис. 8.6Б Б эта выбо орка показаана такой, какой еее видит иссследователль. Общая закономерн з ность осталлась прежн ней - высоккие марссиане весяят большее низкоросслых. Одн нако, рассч читав коэффициенты ы регресси ии, полуучим а = -4.0 г и b = 0.38 г/см. Если построить все возмоожные выб п борки по 10 1 марсиан н в каждой, получиттся совоокупность всех в значен ний а и b. Их И средниее равны α и β, а станд дартные откклонения - σα и σ β. Эти стандартн ные откллонения называютсся станддартными ошибкам ами коэф ффициентоов регресссии. Станд дартные ош шибки коээффициенттов регресссии, подоб бно стандартной ошибке о срреднего или и доли, использууются при и проверкее гипотез и вычи ислении дооверительны ых интерваалов. Рис.. 8.6. А Ещ щё одна случ чайная выб борка объём мом 10 из совокупнос с сти марсиаан. Марсиан не, п попавшие в выборку помечены точками. 1 112 Ри ис. 8.6. Б. Линия Л регррессии, расссчитанная по этой вы ыборке, несколько отл личается отт получен нной ранеее (см. рис. 8.5Б). 8 Серы ым показана линия средних с рис. 8.2. ются сооттветственно о sa и sb и Выборрочные оценки для σα и σβ обозначаю вычи исляются по п следующ щим формуулам16: sa = sу|х 1 n X 2 n 1 s 2 (88.6) X и sb 1 s y\x n 1 sX . (88.7) Для вы ыборки с ри ис. 8.3Б имеем: 16 Вы ывод формулл для станд дартных оши ибок коэффициентов реегрессии мож жно найти в большинсстве учебн ников статисттики. 1 113 sa 1.02 1 10 36.9 2 10 1 5.0 2 2.53 и sb 1 1.02 10 1 5.0 0.068 . Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего - для нахождения доверительных интервалов и проверки гипотез. 8.4.Есть ли зависимость? Помня о досадном недоразумении с «диуретиком» из гл. 1 (см. рис. 1.1), исследователь вправе спросить: как убедиться, что зависимость действительно существует? Иными словами, как по выборочным данным определить вероятность Р нулевой гипотезы о том, что коэффициент наклона β = 017? Совокупность всех выборочных значений коэффициента наклона b приближенно подчиняется нормальному распределению. Поэтому можно воспользоваться критерием Стьюдента, аналогично тому, как мы пользовались им в гл. 5 для проверки гипотезы относительно среднего. В общем виде критерий Стьюдента можно определить как: t Выборочная оценка Истинная величина Стандартная ошибка выборочной оценки . (8.8) Для оценки коэффициента наклона: t b sb . (8.9) Оценить вероятность гипотезы о равенстве β = 0 можно двумя способами. Приравняв β к нулю, имеем t b sb . (8.10) Теперь по табл. 4.1 найдем tα - критическое значение t для выбранного уровня значимости α и числа степеней свободы ν = n - 2. Если полученное значение t по абсолютной величине превосходит tα, то Р < α, то есть зависимость статистически значима. 17 Речь идет исключительно о линейной зависимости. Как мы вскоре увидим, зависимость может быть и нелинейной; в таком случае излагаемый способ даст неправильный результат. 114 Потренируемся на марсианах. Для выборки с рис. 8.3Б мы нашли b = 0.44 и sb = 0.068. Тогда t = 0.44/0.068 = 6.47. Объём выборки равен 10. Положим уровень значимости равным 0.001. В табл. 5.1 для этого уровня значимости и числа степеней свободы ν = 10 - 2 = 8 находим критическое значение tα = 5.041. Поскольку t > tα, гипотезу об отсутствии зависимости веса от роста следует отвергнуть. Конечно, как и всегда при проверке гипотез, это заключение может оказаться ложным (опять-таки вспоминается злополучный диуретик из гл. 1). Но вероятность совершить эту ошибку не превышает 0.001. Второй способ основан на использовании доверительных интервалов. 100(1 - α)процентный доверительный интервал для β имеет вид b - tαsb < β < b + tαsb. (8.11) Рассчитаем 95% доверительный интервал. Число степеней свободы ν = 10 – 2 = 8. По таблице 5.1 находим t0.05 = 2.306. Выборочные значения b = 0.44 и sb = 0.068. Следовательно, доверительный интервал для β: 0.44 – 2.306×0.068 < β < 0.44 + 2.306×0.068, 0.28 < β < 0.60. Поскольку ноль в этот интервал не попадает, вероятность того, что β = 0, меньше 5%. Если рассчитать 99.9% доверительный интервал, можно убедиться, что и он не содержит нуля. Вывод, полученный выше при использовании критерия Стьюдента, как и следовало ожидать, совпадает с полученным с помощью доверительного интервала. Заметим, что истинное значение β = 0.5 попадает в доверительный интервал. Можно вычислить доверительный интервал и для коэффициента α. Например, 95% доверительный интервал имеет вид: α – t0.05sa < α < α + t0.05sa, (8.12) то есть -6.0 – 2.306×2.53 < α < -6.0 + 2.306×2.53, -11.8 < α < -0.17. Интервал покрывает истинное значение α = -8 г. Следующим этапом будет построение доверительной области для линии регрессии и значений зависимой переменной. 8.5.Доверительная область для линии регрессии Обычно мы не знаем истинных величин коэффициентов регрессии α и β. Нам известны только их оценки а и b. Иначе говоря, истинная прямая регрессии может пройти выше или ниже, быть более крутой или пологой, чем построенная по выборочным 115 данным. Мы вычислили доверительные интервалы для коэффициентов регрессии. Можно вычислить доверительную область и для самой линии регрессии. На рис. 8.7А показана 95% доверительная область для выборки с рис. 8.3. Как видим, это довольно узкая полоса, которая несколько расширяется при крайних значениях х. Мы знаем, что при любом значении независимой переменной х соответствующие значения зависимой переменной у распределены нормально. Средним является значение уравнения регрессии ŷ . Неопределенность его оценки характеризуется стандартной ошибкой регрессии: s ŷ = sу|х 1 n x X n 1 s 2 2 . (8.13) X В отличие от стандартных ошибок, с которыми мы имели дело до сих пор, s ŷ при разных х принимает разные значения: чем дальше х от выборочного среднего X , тем она больше. Теперь можно вычислить 100(1 - α)-процентный доверительный интервал для значения уравнения регрессии в точке х: ŷ - tα s ŷ < y < ŷ + tα s ŷ , (8.14) где tα - критическое значение с ν = n - 2 степенями свободы, а ŷ - значение уравнения регрессии в точке х: ŷ = а + bх. Итак, мы получили уравнение для кривых, ограничивающих доверительную область линии регрессии (см. рис. 8.3). С заданной вероятностью, обычно 95%, можно утверждать, что истинная линия находится где-то внутри этой области. Обратите внимание, что три точки из десяти оказались вне доверительной области. Это совершенно естественно, поскольку речь идет о доверительной области линии регрессии, а не самих значений (доверительная область для значений гораздо шире). Теперь займемся доверительной областью для значений зависимой переменной. 8.6.Доверительная область для значений Разброс значений складывается из разброса значений вокруг линии регрессии и неопределенности положения самой этой линии. Характеристикой разброса значений вокруг линии регрессии является остаточное стандартное отклонение sy x, а неопределенности положения линии регрессии - стандартная ошибка регрессии s ŷ . 116 Ри ис. 8.7. A. 95% 9 довери ительная об бласть для линии л регррессии (по выборке с рис. 8.3). Б. Б 95% % доверитеельная облаасть для знаачений. Есл ли мы хоти им определлить вес маарсианина по п его ростуу, нам след дует восполльзоваться именно этоой довериттельной обл ластью. 1 117 Дисперсия суммы двух величин равна сумме дисперсий, поэтому sY s y2| x s y2ˆ . (8.15) Подставив в эту формулу выражение для s ŷ (8.13), получим: sY = sу|х 1 1 n x X n 1 s 2 2 . (8.16) X Тогда 100(1 - α)-процентный доверительный интервал для зависимой переменной ŷ - tα sY < y < ŷ + tα sY, (8.17) Заметьте, что входящие в это неравенство величины ŷ и sY зависят от х. На рис. 8.7Б изображена полученная по этой формуле 95% доверительная область для значений зависимой переменной. В эту область попадет 95% всех возможных значений веса марсиан любого роста. Например, с вероятностью 95% можно утверждать, что любой 40-сантиметровый марсианин весит от 9.5 до 14.0 г. 8.7.Сравнение двух линий регрессии Часто требуется сравнить линии регрессии, рассчитанные по двум выборкам. Это можно сделать тремя способами: Сравнить коэффициенты наклона b. Сравнить коэффициенты сдвига а. Сравнить линии в целом. В первых двух случаях следует воспользоваться критерием Стьюдента. Если нужно проверить, значимо ли различие в наклоне двух прямых регрессии, критерий Стьюдента t вычисляется по формуле: t b1 b2 , sb1 b2 (8.18) где b1 - b2 - разность коэффициентов наклона, a sb1 b2 - её стандартная ошибка. Затем вычисленное t сравним, как обычно, с критическим значением tα, имеющим (n1 - 2) + (n2 2) = n1 + n2 - 4 степени свободы. Если обе регрессии оценены по одинаковому числу наблюдений, то стандартная ошибка разности sb1 b2 sb21 sb22 . (8.19) 118 Если же объёмы выборок различны, следует воспользоваться объединённой оценкой остаточной дисперсии (она аналогична объединённой оценке дисперсии, приведенной в гл. 5): s 2 y / xобщ n1 2 s y2 / x n2 2 s y / x 1 2 n1 n2 4 . (8.20) Тогда формула для sb1 b2 , принимает вид sb1 b2 s y2 / xобщ s y2 / xобщ n1 1 sx2 n2 1 sx2 1 . (8.21) 2 Можно сравнить и коэффициенты сдвига а1 и а2. В этом случае t a1 a2 . sa1 a2 (8.22) Здесь sa1 a2 sa21 sa22 , (8.23) когда обе регрессии вычислены по одинаковому числу точек. При неодинаковом числе точек следует воспользоваться объединённой оценкой дисперсии так же, как это было сделано выше. Перейдем к сравнению двух линий регрессии в целом. Сравнить две линии регрессии - значит оценить вероятность нулевой гипотезы о совпадении линий. Напомним, что коэффициенты регрессии вычисляются так, чтобы разброс точек вокруг линии регрессии был минимален. Разброс этот характеризуется остаточной дисперсией s y2 / x : чем меньше остаточная дисперсия, тем лучше прямая регрессии соответствует имеющимся точкам. Воспользуемся этим показателем для оценки результатов такого мысленного эксперимента. Объединим обе выборки в одну и построим для неё линию регрессии. Если линии регрессии для двух выборок близки, остаточная дисперсия при этом существенно не изменится. И наоборот, если они различаются, то совпадение точек и линии ухудшится и остаточная дисперсия возрастет. Порядок действий таков: Построить прямую регрессии для каждой из выборок. По остаточным дисперсиям s y2 / x1 , и s y2 / x2 , каждой из регрессий вычислить объединённую оценку остаточной дисперсии s y2 / xобщ . Объединить обе выборки. Построить прямую регрессии для получившейся выборки и вычислить остаточную дисперсию s y2 / xедин . 119 Вычислитть «выигррыш» от использоваания двухх раздельн ных регресссий. Меррой выигрыш ша служит величина: в s 2 y / xв n1 n2 2 s y2 / x един 2 . (8.224) По s y2 / xв и s y2 / xобщ выч числить критерий F: F n1 n2 4 s y2 / xобщ s y2 / xв s y2 / xобщ . (8.225) Сравнитьь вычислен нное значение с криттическим значением з исла степен ней F для чи свободы νмеж = 2 и νвну = n1 + n2 - 4. Если и полученноое значени ие больше критическо к ого, то гипотееза о совпад дении лини ий регресси ии должна быть отклоонена. Мышеечная сил ла при ревматоид р дном арт трите. Прричины ограниченн о ной подввижности при ревмаатоидном артрите разнообразн р ны: болезн ненность суставов, их тугоподвижноссть, атрофия мышц. Каков вкклад каждого из эти их фактор ров? Пытаяясь ответтить на этоот вопрос, П. С. Хеллливелл и С. С Джексон18 исследоввали, в часстности, свяязь межд ду мышеч чной массоой и силоой. В иссследовании и приняли и участие 25 больн ных ревм матоидным артритом (1-я групп па) и 25 здо оровых (2-я группа). Рассчитыввали площаадь попееречного сеечения предплечья и ручным ди инамометроом определляли силу сжатия с киссти. Резуультат покаазан на ри ис. 8.8. Крружки - реезультаты здоровых, квадратикки - больн ных ревм матоидным артритом. Р Рис. 8.8. Заависимостьь мышечноой силы от мышечной й массы. Зд доровые обо означены круж жками, болльные ревматоидным артритом - квадратикками. Один накова ли заависимостьь у б больных и здоровых? з 18 P. S. Helliwell, S. Jackson. Relationship R b between weak kness and muuscle wasting in rheumatoid arthritis. Ann. A Rheum m. Dis., 53:7226—728, 19944. 1 120 На рис. р 8.9А представлеены те жее наблюден ния, что и на рис. 8.8, и кро оме того, две д посттроенные по п ним ли инии регреессии. Про оверим, естть ли значчимое разл личие меж жду лини иями регресссии. Р Рис. 8.9. А. Построим линии регррессии дляя каждой изз групп и оценим разб брос точек относителльно этих линий. л Б. Объединим О группы и найдём н лин нию регресссии для получившеейся групп пы. Если раазброс точеек относитеельно этой линии знач чительно п превышает р разброс относительноо двух отдеельных лин ний, то разлличия лини ий следует с считать знаачимыми. Парамеетры уравн нений регреессии и осттаточные стандартны с ые отклонен ния указаны ыв таблл. 8.2. 1 121 Таблица 8.2. Зависимость силы сжатия кисти от мышечной массы 1-я группа 2-я группа 25 25 Объединённая группа 50 3.3(22.4) -7.3(25.3) -23.1(50.5) 2.41(0.702) 10.19(0.789) 6.39(1.579) 40.5 45.7 129.1 Численность группы Коэффициенты регрессии сдвиг a (sa) наклон b (sb) Остаточное стандартное отклонение Вычислим объединённую оценку остаточной дисперсии s 2 y / xобщ n1 2 s y2 / x n2 2 s y2 / x 1 2 n1 n2 4 , где n1, и n2 - численность 1-й и 2-й групп, s y2 / x1 , и s y2 / x2 , - соответствующие остаточные дисперсии. Тогда s 2 y / xобщ 25 2 40.52 25 2 45.7 2 25 25 4 1864 . Теперь объединим группы и найдём уравнение регрессии для получившейся группы. Опустим вычисления, результат приведен в табл. 8.2. Линия регрессии изображена на рис. 8.9Б. Остаточная дисперсия единой регрессии s y2 / xедин = 129.12 = 16667. Выигрыш от использования раздельных регрессий: s 2 y / xв n1 n2 2 s y2 / x един n1 n2 4 s y2 / xобщ 2 25 25 2 16667 25 25 4 1864 357136. 2 Значение F: F s y2 / xв s 2 y / xобщ 357136 191.596 . 1864 Критическое значение F при уровне значимости α =0.01 и числе степеней свободы νмеж = 2 и νвну = 25 + 25 - 4 равно 5.10, то есть гораздо меньше полученного нами. Таким образом, у здоровых людей сила сжатия зависит от размера предплечья иначе, чем у больных артритом. В чём заключается отличие? Сравним коэффициенты регрессий. Начнем с коэффициента сдвига a. sa1 a2 sa21 sa22 22.4 2 25.32 33.8 . Тогда 122 t a1 a2 3.3 7.3 0.314 . 33.8 sa1 a2 При уровне значимости α = 0.05 при числе степеней свободы ν = n1 + n2 - 4 = 46 критическое значение t равно 2.013. Поскольку полученное нами значение t меньше критического, заключаем, что между а1 и а2 нет значимого различия. При сравнении коэффициентов наклона получим t = 7.367, что больше критического. Итак, линии регрессии различаются наклоном, который круче в группе здоровых. 8.8.Корреляция Регрессионный анализ позволяет оценить, как одна переменная зависит от другой и каков разброс значений зависимой переменной вокруг прямой, определяющей зависимость. Эти оценки и соответствующие доверительные интервалы позволяют предсказать значение зависимой переменной и определить точность этого предсказания. Результаты регрессионного анализа можно представить только в достаточно сложной цифровой или графической форме. Однако нас часто интересует не предсказание значения одной переменной по значению другой, а просто характеристика тесноты (силы) связи между ними, при этом выраженная одним числом. Эта характеристика называется коэффициентом корреляции, обычно её обозначают буквой r. Коэффициент корреляции может принимать значения от -1 до +1. Знак коэффициента корреляции показывает направление связи (прямая или обратная), а абсолютная величина - тесноту связи. Коэффициент, равный -1, определяет столь же жёсткую связь, что и равный 1. В отсутствие связи коэффициент корреляции равен нулю. На рис. 8.10 приведены примеры зависимостей и соответствующие им значения r. Мы рассмотрим коэффициент корреляции Пирсона. Коэффициент корреляции Пирсона предназначен для описания линейной связи количественных признаков; как и регрессионный анализ, он требует нормальности распределения. Когда говорят просто о «коэффициенте корреляции», почти всегда имеют в виду коэффициент корреляции Пирсона, именно так мы и будем поступать. И всё же, почему для описания тесноты связи нельзя воспользоваться регрессионным анализом? В качестве меры тесноты связи можно было бы использовать остаточное стандартное отклонение. Однако если поменять местами зависимую и независимую переменные, то остаточное стандартное отклонение, как и другие показатели регрессионного анализа, будет иным. 123 Рис. 8.10. Чем Ч теснеее связь меж жду перемен нными, тем м ближе аб бсолютная величина в коэфф фициента корреляции к и к 1. Взглян нем на рис. 8.11. По известной нам выборрке из 10 м марсиан по остроены две д лини ии регресси ии. В одноом случае вес в - зависсимая переменная, воо втором - независим мая. Лини ии регресси ии заметноо различаю ются. Получ чается, что связь ростта с весом одна, о а весса с росттом - друугая. Аси имметричноость регрессионногоо анализаа - вот что мешаает непоосредственн но исполььзовать егго для хаарактеристтики силы ы связи. Коэффицие К ент коррреляции, хотя х его идея и вытеккает из реегрессионн ного анали иза, свобод ден от этоого недоостатка. Привод дим формуулу: r X X Y Y X X Y Y 2 2 , (8.226) где X и Y - средние зн начения пееременных х X и Y. Вы ыражение для r «сим мметрично» помееняв местам ми X и Y, мы м получим м ту же вел личину. Коээффициентт корреляци ии принимаает значения от -1 до +1. Чем теснее связь, тем больше б абссолютная ввеличина коэффициен к нта коррреляции. Зн нак показы ывает напраавление свяязи. При r > 0 говоряят о прямой й корреляц ции 1 124 (с уввеличением м одной пееременной другая таккже возрасстает), при г < 0 - об б обратной й (с увелличением од дной перем менной друугая уменьш шается). Рис. 8.11. Если помен нять местаами х и у, ур равнение регрессии р п получится другим, д а коээффициентт корреляци ии останетсся прежним м. мся к рис. 8.10. На рис. 8.10А А изображеена максим мально сил льная прям мая Вернем коррреляция: r = +1. На ри ис. 8.10Б - максималььно сильнаая обратнаяя корреляция: r = -1. На рис. 8.10В коррреляция пррямая, тож же достаточ чно сильнаая: r =0.8. Наконец, на н рис. 8.110Г какаяя-либо связзь между признаками п и отсутству ует: r = 0. Возьмеем пример с 10 марси ианами, котторый мы уже у рассмаатривали с точки зрен ния регрессионногоо анализаа. Вычисллим коэфф фициент корреляци ии. Исходные данн ные 1 125 приведены в табл. 8.3. Объём выборки n = 10, средний рост X X / n 369 /10 36.9 и вес Y Y / n 103.8 /10 10.38 . Находим X X Y Y 99.9, X X 2 224.8, Y Y 2 51.9 . Таблица 8.3. Вычисление коэффициента корреляции X 31 32 33 34 35 35 40 41 42 46 369 Y 7.8 8.3 7.6 9.1 9.6 9.8 11.8 12.1 14.7 13.0 103.8 Подставим полученные значения в формулу для коэффициента корреляции: r 99.9 0.925 . 224.8 51.9 Величина r близка к 1, что говорит о тесной связи роста и веса. Между коэффициентом корреляции и параметрами регрессионного анализа существует тесная связь, которую мы сейчас продемонстрируем. Разные способы представления коэффициента корреляции, которые мы при этом получим, позволят лучше понять смысл этого показателя. Вспомним, что уравнение регрессии строится так, чтобы минимизировать сумму квадратов отклонений от линии регрессии. Обозначим эту минимальную сумму квадратов Sост (эту величину называют остаточной суммой квадратов). Сумму квадратов отклонений значений зависимой переменной Y от её среднего Y обозначим Sобщ. Тогда: r2 1 Sост . Sобщ (8.27) Величина r2 называется коэффициентом детерминации - это просто квадрат коэффициента корреляции. Коэффициент детерминации показывает силу связи, но не её направленность. Из приведенной формулы видно, что если значения зависимой переменной лежат на прямой регрессии, то Sост = 0, и тем самым r = +1 или r = -1, то есть существует линейная связь зависимой и независимой переменной. По любому значению независимой 126 переменной можно совершенно точно предсказать значение зависимой переменной. Напротив, если переменные вообще не связаны между собой, то Sост = So6щ. Тогда r = 0. Видно также, что коэффициент детерминации равен той доле общей дисперсии Sобщ, которая обусловлена или, как говорят, объясняется линейной регрессией19. Остаточная сумма квадратов Sост связана с остаточной дисперсией s y2 / x , соотношением Sост n 2 s y2 / x , а общая сумма квадратов Sобщ с дисперсией s y2 соотношением Sобщ n 1 s y2 . В таком случае 2 r2 1 n 2 sy / x . n 1 s y2 (8.28) Эта формула позволяет судить о зависимости коэффициента корреляции от доли остаточной дисперсии в полной дисперсии s y2 / x / s y2 . Чем эта доля меньше, тем больше (по абсолютной величине) коэффициент корреляции, и наоборот. Мы убедились, что коэффициент корреляции отражает тесноту линейной связи переменных. Однако если речь идет о предсказании значения одной переменной по значению другой, на коэффициент корреляции не следует слишком полагаться. Например, данным на рис. 8.7 соответствует весьма высокий коэффициент корреляции (r =0.92), однако ширина доверительной области значений показывает, что неопределенность предсказания довольно значительна. Поэтому даже при большом коэффициенте корреляции обязательно вычислите доверительную область значений. И под конец приведём соотношение коэффициента корреляции и коэффициента наклона прямой регрессии b: r b sX , sY (8.29) где b - коэффициент наклона прямой регрессии, sX и sY - стандартные отклонения переменных. Если не брать во внимание случай sX = 0, то коэффициент корреляции равен нулю тогда и только тогда, когда b = 0. Этим фактом мы сейчас и воспользуемся для оценки статистической значимости корреляции. 8.9.Статистическая значимость корреляции Поскольку из b = 0 следует r = 0, гипотеза об отсутствии корреляции равнозначна гипотезе о нулевом наклоне прямой регрессии. Поэтому для оценки статистической 19 Следует помнить, что в статистике слова «обусловлена» и «объясняется» не обязательно означают причинную связь. 127 значимости корреляции можно воспользоваться уже известной нам формулой для оценки статистической значимости отличия b от нуля (8.10): t b . sb Здесь число степеней свободы ν = n - 2. Однако если коэффициент корреляции уже вычислен, удобнее воспользоваться формулой: r t 1 r2 n2 . (8.30) Число степеней свободы здесь также ν = n - 2. При внешнем несходстве двух формул для t, они тождественны. Действительно, из того, что 2 r2 1 n 2 sy / x , n 1 s y2 следует s y2 / x Подставив значение sy x n 1 1 r 2 sY2 . n2 (8.31) в формулу для стандартной ошибки sb 1 sy / x , n 1 sx получим s sb Y sX 1 r2 . n2 (8.32) С другой стороны, поскольку r b sX , sY br sY . sX имеем (8.33) Теперь подставим выражения для sb и b в формулу (8.10). Получим: r t sY sX sY sX 1 r2 n2 r 1 r2 n2 . (8.34) 128 Животный жир и рак молочной железы. В опытах на лабораторных животных показано, что высокое содержание животного жира в рационе повышает риск рака молочной железы. Наблюдается ли эта зависимость у людей? К. Кэррол20 собрал данные о потреблении животных жиров и смертности от рака молочной железы по 39 странам. Коэффициент корреляции между потреблением животных жиров и смертностью от рака молочной железы оказался равен 0.90. Оценим статистическую значимость корреляции по формуле (8.34): t 0.90 1 0.902 39 2 12.56 . Критическое значение t0.001 при числе степеней свободы ν = 39 -2 = 37 равно 3.574, то есть меньше полученного нами. Таким образом, при уровне значимости 0.001 можно утверждать, что существует корреляция между потреблением животных жиров и смертностью от рака молочной железы. Теперь проверим, связана ли смертность с потреблением растительных жиров? Коэффициент корреляции равен 0.15. Тогда t 0.15 1 0.152 39 2 0.92 . Даже при уровне значимости 0.10 вычисленное значение t меньше критического, равного 1.687. Корреляция статистически не значима. Таким образом, риск рака молочной железы статистически значимо связан с потреблением животных, но не растительных жиров. Значит ли это, что животный жир способствует развитию рака молочной железы? Пока нет. Ведь обе рассматриваемые переменные могут зависеть от какой-то третьей. В обсервационном исследовании, каковым является работа Кэррола, такую возможность отвергнуть нельзя. Однако экспериментальные данные, о которых мы упомянули выше, - сильный аргумент в пользу именно причинно-следственной связи. Итак, мы рассмотрели методы, предназначенные для оценки связи между двумя признаками. Успех применения этих методов определяется тем, насколько математическая модель, лежащая в их основе, соответствует действительности. Особенно важна форма зависимости - она должна быть линейной. Поэтому, перед тем как К. К. Carroll. Experimental evidence of dietary factors and hormone-dependent cancers. Cancer Res., 35:3375—3383, 1975. 20 129 приступить к расчётам, нанесите данные на график - это поможет вам правильно выбрать статистический метод (или отказаться от применения любого из них). 9. Заключение Мы познакомились с некоторыми статистическими методами, узнали о принципах, лежащих в их основе, и получили некоторый навык в расчётах. Каждый метод основан на собственной математической модели, и применение его тем успешнее, чем ближе эта модель к действительности. Чтобы правильно выбрать статистический метод, необходимо учитывать, прежде всего, характер интересующего нас признака (количественный, порядковый или качественный) и тип распределения (нормальное или нет). Существует ещё одно обстоятельство, о котором мы упоминали лишь вскользь, но которое решающим образом влияет на практическую ценность результата исследования. Это представительность выборки. Любой статистический метод исходит из предположения, что выборка извлечена из совокупности случайно. Если это условие не выполняется (то есть если выборка непредставительна), никакой, даже самый изощрённый статистический метод не даст правильного результата. Но что значит «извлечены случайно»? Это значит, что вероятность оказаться выбранным одинакова для всех членов совокупности. Например, если групп две (экспериментальная и контрольная) и их размеры равны, то любой член совокупности может равновероятно попасть в любую из групп. Задача рандомизации - обеспечить такой подбор больных, чтобы контрольная группа ни в чём не отличалась от экспериментальной, кроме метода лечения. Однако этого мало. На этапе оценки результатов вновь появляется пристрастный исследователь. Велика и роль больного, его веры в новый способ лечения. Обоих следует лишить возможности влиять на результаты. Для этого предназначен слепой метод. В идеале это двойной слепой метод: ни больной, ни наблюдающий его врач не знают, какой из способов лечения был применён. Для рандомизации недостаточно, чтобы выбор не зависел от исследователя. Он должен быть независим и от самих подопытных. Приведём пример из области лабораторных исследований. Двадцать крыс, сидящих в клетке, нужно разделить на две группы. Выпустим из клетки десять крыс и назовём их контрольной группой. Представительна ли она? Скорее всего, нет. Вероятно, первыми из клетки выбегут самые сильные и агрессивные особи. Есть только один способ получить случайную выборку 130 воспользоваться для этого достоверно случайным процессом, например бросанием игральной кости или генератором случайных чисел. Далее, если выборка представительна, то какую совокупность она представляет? Например, больные в крупных медицинских центрах, где обычно проводятся клинические испытания, мало напоминают тех, с которыми встречается врач общей практики. Ясно, что сложный путь больного по медицинским учреждениям далеко не случаен - он определяется, прежде всего, тяжестью, сложностью случая или редкостью болезни. Поэтому при всём желании больных в клиниках трудно признать представительной выборкой. Это несоответствие обязательно нужно иметь в виду, решая, на какую совокупность больных могут быть (и в какой мере) распространены полученные в исследовании результаты. И наконец, мы ещё раз напомним об опасности эффекта множественных сравнений. Например, чему равна вероятность получить хотя бы один значимый результат в 18 сравнениях, уровень значимости в каждом из которых равен 0.05? Находим: α' = 1 – (1 - α)k = 1 – (1 – 0.05)18 = 1 – 0.40 = 0.60. Таким образом, истинная вероятность ошибки I рода оказалась в 12 раз выше той, о которой доложил бы исследователь. Как избежать несостоятельных выводов, не отказываясь от возможности группировать данные? Для этого достаточно в уровне значимости каждого отдельного сравнения учесть, что их более одного. Поправка Бонферрони даёт уровень значимости, равный α'/k, где α' - выбранный уровень значимости для всего набора из k сравнений. Это чрезмерно жёсткая, заниженная оценка. Наиболее продуктивный подход состоит в применении многофакторных статистических методов (мы их не рассматривали). Способность применить статистический подход в медицинских или биологических исследованиях не сводится к заучиванию нескольких формул и умению отыскать табличное значение. Как и любая творческая деятельность, применение статистических методов и интерпретация полученных результатов требуют глубокого проникновения в суть дела - понимания как возможностей и ограничений используемых методов, так и существа решаемой научной задачи. Попытайтесь понять, что вы хотите от исследования, какой вопрос вы хотите решить. И когда у вас будет конкретная гипотеза, станет понятно, каким должен быть тип предстоящего эксперимента и какие потребуются данные. Тогда вы легко определите нужный метод анализа. Придерживаясь этих правил, вы всегда соберёте данные, необходимые и достаточные для анализа. Литература 1. Гланц С. Медико-биологическая статистика / М.: Практика, 1999 г., 459 с. 131