ОСНОВЫ МЕДИЦИНСКОЙ СТАТИСТИКИ Тема №1. Медицинская статистика в стоматологической практике. Абсолютные и относительные величины, их графическое изображение. Динамические ряды, виды, анализ. СТАТИСТИКА – общественная наука, изучающая количественную сторону массовых общественных явлений в неразрывной связи с их качественными особенностями. Медицинская (санитарная) статистика – одна из отраслей общей статистики. В ее задачи входит: 1. изучение здоровья населения и факторов, определяющих его; 2. анализ, оценка и планирование медицинской помощи; 3. специальные научные исследования. В медицинской статистике выделяют 3 раздела: I. Теоретические и методические основы статистики. II. Статистика здоровья населения (санитарно-демографические, показатели заболеваемости, травматизма, инвалидности, физического развития). III. Статистика здравоохранения. Для оценки изучаемых явлений, составляющих статистическую совокупность, в здравоохранении используют статистические величины: абсолютные числа, относительные и средние величины. ОТНОСИТЕЛЬНЫЕ ВЕЛИЧИНЫ Абсолютные величины могут характеризовать размер изучаемых явлений и процессов. Большое практическое значение для правильного планирования медицинской помощи населению имеют такие абсолютные величины, как 2 численность населения и его отдельных возрастных и половых групп; численность медицинского персонала и лечебно-профилактических учреждений; количество больничных коек и т.д. Однако, зная только абсолютные данные, мы не можем раскрыть состав, распространенность явления в данной среде. Поэтому в медицинской статистике для характеристики таких явлений, как заболеваемость, смертность, рождаемость и т.д. абсолютные величины переводятся в относительные: интенсивные, экстенсивные показатели, показатели соотношения и наглядности. Интенсивный показатель – характеризует частоту (распространенность, интенсивность, уровень) явления в среде, в которой оно происходит и с которой непосредственно органически связано. При вычислении интенсивных показателей необходимо знание 2х статистических совокупностей, одна из которых представляет среду, а вторая – явление. Среда продуцирует это явление. Интенсивный показатель может рассчитываться на 100 (%), 1000 (промилле), на 10000 (продецимилле), на 100000 (просантимилле) в зависимости от распространенности явления. Однако в практике здравоохранения существуют общепринятые положения. Так, общая заболеваемость, рождаемость, смертность, младенческая смертность всегда выражается в промилле (‰), а заболеваемость с временной нетрудоспособностью, летальность, частота осложнений рассчитываются на 100 (%). Методика вычисления интенсивных показателей выглядит следующим образом: явления 1000 среда Показатель структуры (экстенсивный) – характеризует распределение явления на составные части, его внутреннюю структуру или отношение частей к целому (удельный вес). При вычислении экстенсивных показателей мы имеем дело 3 только с одной статистической совокупностью и ее составом. Экстенсивный показатель чаще бывает выражен в %, когда за 100 принимается целое явление. Методика вычисления экстенсивных показателей проста: часть явления 100% явление в целом В качестве здравоохранении, примеров можно экстенсивных назвать показателей, структуру применяемых заболеваемости в населения; распределение госпитализированных больных по отдельным нозологическим формам, лейкоцитарную формулу и т.д. Экстенсивными показателями следует пользоваться для характеристики состава совокупности (явления) в данном месте в данное время. Экстенсивные показатели, характеризующие явления, совершаемые в разное время и в различных местностях, сравнивать между собой нельзя, т.к. они не могут характеризовать изменение явления, процесса в динамике. Показатели наглядности – используются при сравнении однородных явлений, величин. Для этого одну из сравниваемых величин принимают за 100, остальные показываются в виде отношения к этой величине. В показатель наглядности можно преобразовать абсолютные величины, интенсивные показатели, средние величины, представленные как в статике, так и в динамике. Методика вычисления показателя наглядности: явление 100% другое явление, принятое за 100% 4 Показатели соотношения характеризуют отношения между разнородными совокупностями. Примером может служить показатель обеспеченности населения больничными койками, врачебными кадрами, средним медперсоналом. Для облегчения анализа статистического материала, полученные показатели изображают графически. Под графиками понимают условные изображения числовых величин и их соотношений при помощи различных линий, поверхностей и т.п. При построении графических изображений необходимо соблюдать правила: вид графического изображения выбирается в зависимости от статистической величины; график строится в определенном масштабе с указанием единицы измерения статических величин; каждое графическое изображение должно иметь четкое, ясное, краткое название, отражающее его содержание, и порядковый номер; все элементы диаграммы (фигуры, знаки, окраска, штриховка) должны быть пояснены на самой диаграмме или в условных обозначениях (легенде); изображаемые графически величины должны иметь цифровые обозначения на самой диаграмме или в прилагаемой таблице. В медицинской статистике используются диаграммы, картограммы и картодиаграммы. Экстенсивные показатели, характеризующие структуру явления, изображают в виде секторной или внутристолбиковой диаграммы. В секторной диаграмме окружность принимается за 100%, при этом 1% соответствует 3,60 окружности. Затем 3,60 умножают на число процентов каждого показателя и получают размер каждого сектора в градусах. При помощи транспортира на окружности откладывают отрезки (отсчет ведется от 00), соответствующие величине каждого показателя. Найденные точки окружности 5 соединяют центром круга. Отдельные секторы круга изображают составные части изучаемого явления. Вместо секторной диаграммы можно применить внутристолбиковую диаграмму, в которой ширина и высота столбика берутся произвольно. Высота или ширина принимается за 100% и в соответствующем масштабе пересчитываются экстенсивные показатели (в %), составляющие в сумме 100%. Интенсивные показатели, показатели соотношения и наглядности изображают в виде четырех основных типов диаграмм: линейной, столбиковой, картограммы и картодиаграммы. Линейная диаграмма применяются для изображения частоты явления, изменяющегося во времени, т.е. изображения динамики явления (динамика численности населения, рождаемости, заболеваемости, смертности, температурная кривая и т.п.). Основой для построения линейной диаграммы является чаще всего прямоугольная система координат. Например, на оси абсцисс х откладывают равные по масштабу промежутки времени, а по оси ординат у – показатели заболеваемости туберкулезом. В тех случаях, когда на одной диаграмме изображено несколько явлений, линии наносят разного цвета или разной штриховки. Радиальная диаграмма является частным видом линейной диаграммы, построенной на полярных координатах. Изображает динамику явления за замкнутый цикл времени (сутки, неделю, месяц, год и т.д.). Используется при изучении сезонного характера явления (заболеваемость, рождаемость, смертность). Столбиковая диаграмма применяется для иллюстрации однородных, но не связанных между собой интенсивных показателей. Ими изображают статику явления: заболеваемость, смертность, инвалидность и т.д. При построении этого вида диаграммы рисуют столбики, высота которых должна соответствовать величине изображаемых показателей с учетом масштаба. Ширина всех столбиков и расстояние между ними должны быть одинаковыми и произвольными. Столбики на диаграмме могут быть вертикальными и горизонтальными (ленточными). 6 Картограмма – особая географическая карта, на которой отдельные территории заштрихованы с различной интенсивностью соответственно уровню интенсивного показателя. Каждой группе показателей дается условная штриховка или цвет, при этом степень интенсивности штриховки (или окраски) меняется по мере перехода от низких показателей к высоким. Картодиаграмма – это сочетание географической карты с диаграммой, чаще всего столбиковой: столбики различной величины - соответственно показателю рисуют на определенных территориях. ДИНАМИЧЕСКИЕ РЯДЫ Динамический ряд – это совокупность однородных статистических величин, показывающих изменение какого-либо явления во времени. Величины, составляющие динамический ряд, называются уровнями ряда. Уровни динамического ряда могут быть представлены: абсолютными, относительными и средними величинами. Динамический ряд, составленный из абсолютных величин, называется простым. Динамический ряд, составленный из средних или относительных величин, называется сложным или производным. Простые динамические ряды являются исходными для построения сложных рядов. Простые динамические ряды бывают двух видов: 1. Моментный динамический ряд состоит из величин, характеризующих размеры явления на какой-то определенный момент (дату). Например, каждый уровень может характеризовать численность населения, численность врачей, число коек на конец года, месяца, декады и т.д. Уровни моментного ряда не могут дробиться. 2. Интервальный динамический ряд состоит из величин, характеризующих какиелибо итоги за определенный интервал времени. Например, каждый уровень такого ряда может характеризовать число родившихся, заболевших, умерших за какой-то год, месяц, декаду, неделю и т.д. То есть это данные, которые 7 накапливаются за тот или иной промежуток времени. Выбор величины интервала (год, месяц, неделя, день и т.д.) зависит от изменчивости изучаемого явления (рождаемость, смертность, заболеваемость, средняя длительность лечения и т.д.). Чем медленнее изменяется явление во времени, тем крупнее интервал. Интервальный динамический ряд в отличие от моментного можно разделить на более дробные периоды или, напротив, укрупнить интервалы. Анализ динамического ряда Чтобы проанализировать динамический ряд нужно изобразить его графически и вычислить ряд показателей, которые будут свидетельствовать о тенденциях изучаемого явления в динамике: Абсолютный прирост предыдущим (убыль) – разность между последующим и уровнем. Измеряется в тех же единицах, в которых представлены уровни ряда. Показатель роста (убыли) – отношение каждого последующего уровня к предыдущему, принятому за 100%. Он показывает сколько % от предыдущего уровня составляет последующий уровень. Темп прироста (убыли) – отношение абсолютного прироста (убыли) каждого последующего уровня к предыдущему уровню, принятому за 100%. Он показывает на сколько % увеличился (снизился) последующий уровень по сравнению с предыдущим и поэтому может быть рассчитан по формуле: темп прироста = темп роста – 100% Показатель наглядности – отношение каждого уровня ряда к одному из них (чаще начальному) принятому за 100%. 8 Тема №2. Понятие о достоверности выборочного исследования, методы ее оценки. Средние величины, критерии разнообразия. Корреляционная зависимость Объектом любого статистического исследования является статистическая совокупность – группа или множество относительно однородных элементов (единиц наблюдения), взятых вместе в конкретных границах времени и пространства и обладающих признаками сходства и различия (оперированные в хирургическом стационаре в данном году, численность населения на терапевтическом участке, умершие за год в данном городе и т.д.). Различают 2 вида статистической совокупности: генеральную, состоящую из всех единиц наблюдения, которые могут быть к ней отнесены в зависимости от цели исследования и выборочную – часть генеральной совокупности, отобранную специальным выборочным методом и предназначенную для характеристики генеральной совокупности. Выборочная совокупность должна быть репрезентативной, т.е. в ней должны быть представлены все элементы и в том соотношении, как в генеральной совокупности. Для обеспечения репрезентативности выборочной совокупности к ней предъявляют 2 требования: она должна обладать основными характерными чертами генеральной совокупности, т.е. быть максимально на нее похожей; она должна быть достаточной по объему (числу наблюдений). Методы оценки достоверности результатов выборочного исследования Оценить достоверность результатов исследования означает определить, с какой вероятностью возможно перенести результаты, полученные на выборочной совокупности, на всю генеральную совокупность. 9 Оценка достоверности результатов исследования предусматривает определение: 1) ошибок репрезентативности (средних ошибок средних арифметических и относительных величин) – m; 2) доверительных границ средних или относительных величин; 3) достоверности разницы средних или относительных величин (по критерию Стьюдента t); 4) достоверности разницы сравниваемых групп по критерию 2. 1. Определение ошибки репрезентативности - m При определении степени достоверности выборочного исследования оценивается величина ошибки, которая может произойти в процессе выборки. Такие ошибки носят название ошибок репрезентативности (m) и являются фактической разностью между статистическими величинами (средними или относительными), полученными при выборочном исследовании и аналогичными величинами, которые были бы получены при изучении всей совокупности. Эти ошибки неизбежны. По величине ошибки репрезентативности определяют, насколько результаты, полученные при выборочном исследовании, отличаются от результатов, которые могли бы быть получены при проведении сплошного исследования всех без исключения элементов генеральной совокупности. Средняя ошибка средней арифметической (mM) определяется по формуле: mM n т.е. она прямо пропорциональна степени разнообразия признака и обратно пропорциональна корню квадратному из числа наблюдений. Значит уменьшить ошибку возможно путем увеличения числа наблюдений. 10 Средняя ошибка относительной величины (mP) определяется по формуле: m P P q n где Р – относительная величина. Если показатель выражен в %, то q = 100 – Р, если Р – в промилле, то q = 1000 – Р и т.д., n – число наблюдений. Если n<30, в знаменатель следует взять n–1. 2. Определение доверительных границ средних и относительных величин Доверительные границы – это границы средних или относительных величин, выход за пределы которых вследствие случайных колебаний имеет незначительную вероятность. Доверительные границы средней арифметической величины в генеральной совокупности определяют по формуле: Мген.= Мвыб.± Доверительные границы относительной величины в генеральной совокупности по формуле: Рген. = Рвыб. где – предельная ошибка выборки ( = tm). Она зависит от коэффициента t – доверительного критерия Стьюдента, который выбирает сам исследователь. Для большинства медико-биологических и социологических исследований достоверными считаются доверительные границы, установленные с вероятностью безошибочного прогноза Pt=95,5% и более. Значения критерия Стьюдента (t) при числе наблюдений n>30: При t=2, достоверность Pt=95,5% и риск ошибки p<0,05; при t=2,6 Pt=99,0%, риск ошибки p<0,01; при t=3 Pt=99,7%, риск ошибки p<0,003; при t=3,3 Pt=99,9%, риск ошибки p<0,001. 11 Таблица значений критерия Стьюдента (t) для малых выборок (n≤30) n (число наблюдений) Р=95,5% Р=99% Р=99,9% 1 12,70 63,65 636,61 2 4,303 9,925 31,602 3 3,182 5,841 12,923 4 2,776 4,604 8,610 5 2,571 4,032 6,869 6 2,447 3,707 5,959 7 2,365 3,499 5,408 8 2,306 3,355 5,041 9 2,262 3,250 4,781 10 2,228 3,169 4,587 11 2,201 3,106 4,437 12 2,179 3,055 4,318 13 2,160 3,012 4,221 14 2,145 2,977 4,140 15 2,131 2,947 4,073 16 2,120 2,921 4,015 17 2,110 2,898 3,965 18 2,101 2,878 3,922 19 2,093 2,861 3,883 20 2,086 2,845 3,850 21 2,080 2,831 3,819 22 2,074 2,819 3,792 23 2,069 2,807 3,768 24 2,064 2,797 3,745 25 2,060 2,787 3,725 26 2,056 2,779 3,707 27 2,052 2,771 3,690 28 2,049 2,763 3,674 29 2,045 2,756 3,659 30 2,042 2,750 3,646 3. Достоверность разности средних или относительных величин При сопоставлении двух сравниваемых величин возникает необходимость не только определить их разность, но и оценить ее достоверность, т.е. можно ли вывод 12 о разности средних величин, полученный при выборочном исследовании, перенести на соответствующую генеральную совокупность. Достоверность выборочной разницы измеряется доверительным коэффициентом (критерием точности, Стьюдента t): для средних величин: t M1 - M 2 2 2 m1 m 2 для относительных величин: t P1 - P2 2 2 m1 m 2 где М1 и М2, Р1 и Р2 – показатели, полученные при выборочных исследованиях; m1 и m2 - их средние ошибки. При t 2 разность средних арифметических может быть признана существенной и не случайной, т.е. достоверной. Это значит, что и в генеральной совокупности средние величины отличаются, и при повторении подобных наблюдений будут получены аналогичные различия. Надежность такого вывода будет не меньше 95,5%. С увеличением t степень надежности также увеличивается, а риск ошибки (p) уменьшается. При t < 2 достоверность разности средних величин считается недоказанной. СРЕДНИЕ ВЕЛИЧИНЫ Вариационный ряд - это ряд, в котором упорядоченно сопоставлены (по степени возрастания или убывания) варианты и соответствующие им частоты. Отдельные числовые значения признака называются вариантами (V), а числа, показывающие, как часто эти варианты повторяются - частотами (Р), общее число наблюдений (n) равно сумме частот (n=P, - знак суммы). Вариационный ряд может быть простым (при малом числе наблюдений – n30) или сгруппированным (n>30); открытым и закрытым. По характеру распределения: альтернативным (имеет только 2 противоположных значения признака - да, нет), симметричным (наибольшее число наблюдений приходится на 13 середину ряда) и ассиметричным (наибольшее число наблюдений сдвигается в сторону меньшего значения признака - правосторонняя ассиметрия, или в сторону большего значения признака - левосторонняя ассиметрия, или же скапливается по концам ряда - бимодальное распределение). Построение вариационного ряда из отдельных вариант – это только первый шаг к осмыслению особенностей всей совокупности. Далее необходимо определить средний уровень изучаемого количественного признака. Средняя величина – это число, выражающее общую меру исследуемого признака в совокупности. Различают несколько видов средних величин: мода (Мо), медиана (Ме) и средняя арифметическая (М). Мода (Мо) - наиболее часто повторяющаяся варианта, т.е. та, которой соответствует наибольшее количество частот (Р) вариационного ряда. Медиана (Ме) - варианта, занимающая срединное положение в вариационном ряду. При нечетном числе наблюдений для определения медианы надо найти середину ряда – медианой будет центральная (срединная) варианта. При четном числе наблюдений за медиану принимают среднюю величину из двух центральных вариант. Наиболее часто используется средняя арифметическая величина (М). Она имеет 3 основных свойства: 1. Занимает срединное положение в вариационном ряду. В строго симметричном ряду М = Мо = Ме; 2. Имеет абстрактный характер и является обобщающей величиной, вскрывающей то типичное, что характерно для всей совокупности. 3. Алгебраическая сумма отклонений всех вариант от средней равна нулю. Если сумма отклонений вариант от средней равна нулю, то средняя вычислена правильно. На этом свойстве основан расчет средней по способу моментов. 14 Средняя арифметическая, которая рассчитана в вариационном ряду, где каждая варианта встречается только один раз (для всех вариант р=1), называется средней арифметической простой. Она определяется по формуле: M V n где V – значение вариационного признака, n – общее число наблюдений Если в исследуемом ряду отдельные варианты встречаются различное число раз (р1), то вычисляют среднюю арифметическую взвешенную. Расчет ее производится по формуле: M VP n где Р – частота, n – сумма частот ( P). Критерии разнообразия признака в совокупности Величина того или иного признака неодинакова у всех единиц наблюдения совокупности, несмотря на ее относительную однородность. Например, уровень АД у отдельных лиц, страдающих артериальной гипертензией, неодинаков. В этом проявляется разнообразие (колеблемость) признака в изучаемой совокупности. Средняя арифметическая величина находится в большой зависимости от колеблемости вариационного ряда. Чем меньше колеблемость ряда (разность между самой большой и самой малой величиной), тем более точно его будет характеризовать средняя арифметическая. Если большинство вариант концентрируется около своей средней арифметической величины, то такой вариационный ряд – довольно однородный. Если же варианта значительно удалена от своей средней арифметической – налицо большое варьирование, а возможно, и неоднородная совокупность. Критериями, определяющими уровень разнообразия каждого признака в совокупности, являются: лимит (lim), амплитуда (Am), среднее квадратическое отклонение () и коэффициент вариации (CV). 15 Лимит (lim) определяется крайними значениями вариант в вариационном ряду: lim = Vmax Vmin Амплитуда (Am) – разность крайних вариант. Наиболее полную характеристику разнообразию признака дает среднее квадратическое отклонение – сигма (σ). Для вычисления среднего квадратического отклонения (σ) необходимо определить отклонения (d) каждой варианты от средней, возвести их в квадрат (d2), перемножить квадрат отклонений на частоту каждой варианты (d2p), получить сумму этих произведений ( d2p), а затем вычислить σ по формуле: d 2p n При малом числе наблюдений (n30) расчет производится по формуле: d 2p n1 Для оценки варьирования признака в совокупности наряду со средним квадратическим отклонением может быть использован коэффициент вариации (CV). Особенно необходимо использовать коэффициент вариации для сравнения варьирования двух или более средних величин, выраженных в разных единицах измерения (сантиметрах, килограммах и др.): Cv 100% M Значение коэффициента вариации менее 10% свидетельствует о малой колеблемости, от 10 до 20% – о средней, больше 20% – о сильной колеблемости вариант вокруг средней. Значение среднего квадратического отклонения – σ: 16 1. σ характеризует однородность вариационного ряда. Если σ мала, значит ряд однородный и рассчитанная М достаточно верно характеризует данный вариационный ряд. Если σ велика, то ряд неоднородный и полученная М характеризует не весь ряд, а какую-то ее часть. 2. Теоретическое распределение вариант в однородном ряду подчиняется правилу трех сигм: М ± 1 σ = 68,3% М ± 2 σ = 95,5% М ± 3 σ = 99,7%. В пределах М±1σ находится 68,3% всех вариант (наблюдений), в пределах М±2σ – 95,5%, а в пределах М±3σ – 99,7% вариант, составляющих совокупность. Если 95,5% всех вариант находится в пределах М±2σ, то средняя арифметическая является характерной для данного ряда и не требуется увеличивать число наблюдений в совокупности. Для определения типичности средней арифметической сравнивают фактическое распределение с теоретическим путем расчета сигмальных отклонений. КОРРЕЛЯЦИОННАЯ ЗАВИСИМОСТЬ В медицине при исследовании различных процессов и явлений часто приходится проводить статистический анализ связи между признаками, характеризующими изучаемую совокупность. Различают функциональную и корреляционную связь между признаками. Функциональная связь - это связь, при которой изменение величины одного признака неизбежно вызывает строго определенные изменения величины другого признака (например, зависимость площади круга от его радиуса). Функциональная связь характерна для физико-химических процессов и присуща неживой природе. 17 В биологических науках, медицине приходится иметь дело с иной связью между явлениями, когда одной и той же величине одного признака соответствует несколько значений другого взаимосвязанного с ним признака, что обусловлено многообразием взаимодействия различных явлений живой природы. Такая связь носит название корреляционной. Например, известно, что с возрастом рост детей увеличивается и поэтому можно предположить наличие связи между этими признаками. Вместе с тем, одному и тому же возрасту соответствует различный рост детей. Это происходит потому, что рост детей определяется не только возрастом. На него влияют многие другие факторы, в том числе условия жизни, питание, занятия физкультурой и др. Таким образом, можно прийти к выводу, что связь между возрастом и ростом детей является корреляционной. (Или связь между tо и ЧСС). Функциональная связь имеет место в каждом отдельном наблюдении, а корреляционная – проявляется только в массе наблюдений, т.е. в совокупности. При этом важно помнить, что измерять связь между различными признаками можно только в качественно однородной совокупности. Нельзя, например, сопоставлять рост и массу тела людей в совокупности, имеющей различный возрастно-половой состав. Корреляционная связь может быть прямолинейной (при равномерном изменении одного признака наблюдются равномерные изменения другого, например, сист. и диаст. АД) и криволинейной (при равномерном изменении одного признака могут быть возрастающие или убывающие средние значения другого). Сила прямолинейной связи между изучаемыми явлениями и ее направленность определяются с помощью коэффициента корреляции (rxy), а при криволинейной связи - корреляционным отношением (η). Коэффициент корреляции (rxy) определяется по формуле Пирсона (метод квадратов): rxy dx dy dx 2 dy2 18 где х и у – переменные варианты сопоставляемых вариационных рядов; dx и dу – отклонения каждой варианты от своей средней арифметической (Мх, Му). Величина коэффициента корреляции колеблется в пределах от 0 до 1. При rху = 0 связь отсутствует; при rху = 1 – связь полная. Если rху колеблется в пределах от 0 до 0,3 – связь слабая; от 0,3 до 0,7 – связь умеренная; от 0,7 до 1,0 – связь сильная. Знак (+) свидетельствует о наличии прямой (положительной) связи – когда с увеличением (уменьшением) значения одного признака увеличивается (уменьшается) значение другого, то есть, когда признаки меняются в одном направлении. Знак (-) свидетельствует об обратной (отрицательной) связи – когда с увеличением значения одного признака уменьшается значение другого и наоборот, то есть изменения признаков – разнонаправлены. Средняя ошибка коэффициента корреляции Поскольку коэффициент корреляции в клинических исследованиях рассчитывается обычно для ограниченного числа наблюдений, для определения его достоверности вычисляют среднюю ошибку коэффициента корреляции (mr). При большом числе наблюдений n>100 mr определяется по формуле: 1rxy 2 mr n где rxy - коэффициент корреляции; n – число парных наблюдений. При n<100, но >30 mr определяется по формуле: При n30 mr определяется по формуле: 1rxy 2 mr n1 1rxy 2 mr n 2 19 Достоверность коэффициента корреляции оценивают по критерию (доверительный критерий Стьюдента): критерия Стьюдента t). tr rxy mr (см. таблицу t значений