АНАЛИЗ ЗАВИСИМОСТЕЙ СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ Цель изучения модуля: показать значение зависимостей между статистическими показателями для изучения общественного здоровья, деятельности системы (организаций) здравоохранения, в клинической практике. После изучения темы слушатели должны знать: - типы зависимостей между статистическими показателями; - непараметрические методы оценки корреляционной зависимости; - методику расчета, анализа и интерпретации выявленных зависимостей между статистическими показателями. Слушатели должны уметь: - установить тип зависимости между статистическими показателями; - выбрать тот или иной тип зависимости между статистическими показателями при анализе общественного здоровья и деятельности системы (организаций) здравоохранения; - рассчитать выборочный коэффициент корреляции; - провести оценку корреляционной зависимости с помощью непараметрических методов; - использовать полученные знания при обучении на клинических кафедрах. 1.8.1. Блок информации Типы зависимостей. Многие прикладные задачи, например изучение причинноследственных связей факторов риска и заболеваемости населения, требуют установления вида зависимости между показателями, которые выступают как случайные величины. Сама постановка множества задач в различных медико-социальных исследованиях предполагает построение и реализацию алгоритмов «фак- тор-отклик», «дозаэффект». Случайные величины X и Y могут быть независимыми либо зависимыми. Зависимость случайных величин называют стохастической (статистической), если изменение одной из них приводит к изменению закона распределения другой. Если изменение одной из случайных величин влечет изменение среднего другой случайной величины, то стохастическую зависимость называют корреляционной (например, зависимость заболеваемости населения от воздействия внешних факторов - экологогигиенических (климатические факторы, содержание различных соединений в атмосферном воздухе, воде, почве, пищевых продуктах), медико-организационных (уровень диспансеризации населения, обеспеченность больничными койками, медицинским персоналом) и т.д.). Сами случайные величины, связанные корреляционной зависимостью, оказываются коррелированными. При корреляционной зависимости Y и X возможно наблюдать тенденцию роста: с увеличением значений Х среднее значение Y возрастает или с увеличением значений Х среднее значение Y уменьшается. В этих случаях говорят соответственно о положительной или отрицательной корреляции. Выборочный коэффициент корреляции. Как известно, степень зависимости случайных величин Х и Y (двух признаков) характеризуется значением коэффициента корреляции: где K(X, Y) - корреляционный момент (ковариация) случайных величин X и Y, D(X) и D(Y) - дисперсии случайных величин. Отметим, что всегда -1 r 1. Чем больше значение r отличается от нуля, тем сильнее зависимость X и Y. Если |r| = 1, то случайные величины X и Y связаны линейной функциональной зависимостью, Y = аХ + b, причем при r = -1 коэффициент а <0 (зависимость X и Y обратная), а при r = 1 коэффициент а >0 (зависимость X и Y прямая). При этом коэффициент корреляции, как и всякая другая теоретическая характеристика, вычисляется, исходя из всех возможных значений Хи Y. На практике мы не имеем возможности охватить наблюдениями все указанное множество, а используем лишь ограниченное число наблюдений: двухмерную выборку1 значений (x, y). Полученные числа можно занести в таблицу. Таблица. Запись двумерной выборки По данным наблюдений можно вычислить значение коэффициента корреляции так же, как и в случае системы дискретных случайных величин, с той лишь разницей, что вместо известных вероятностей для каждой пары возможных значений будем использовать соответствующий аналог: относительную частоту 1/n. Формула для вычисления выборочного коэффициента корреляции генеральных совокупностей (случайных величин) X и Y, исходя из двухмерной выборки, выглядит так: Если наблюдения объединяются по интервалам, т.е. все значения, попавшие в интервал, округляются до значения середины интервала, то каждая из наблюдаемых пар значений может встретиться неоднократно. В этом случае обычно данные заносят в таблицу с учетом частот встречаемости. Такую таблицу сгруппированных данных называют корреляционной. Выборочный коэффициент корреляции rB - оценка коэффициента корреляции r, рассчитанного по всей генеральной совокупности, т.е. rB ≈ r. Следовательно, рассчитав rB, можно судить о силе линейной связи. В случае если выборка имеет достаточно большой объем n, порядка сотен, то целесообразно воспользоваться rB как точечной оценкой коэффициента корреляции r. Отметим, что в случае двумерной выборки значения случайных величин Х и Y располагаются не произвольно, а в соответствии с номером испытания i, т.е. каждому xi соответствует yi. 1 Непараметрические методы оценки корреляционной зависимости. Приведем ряд характеристик, оценивающих тесноту связи различных факторов (признаков), причем не только количественных, но и качественных. В простейшем случае это признаки, представленные двумя альтернативными исходами типа «да-нет», «живумер», «заболел- не заболел» и т.д. Показатели тесноты связи вычисляются с использованием таблиц сопряженности. Таблица. Сопряженность признаков Для характеристики тесноты связи между признаками используются коэффициент ассоциации Юла и коэффициент контингенции Пирсона. Коэффициент ассоциации Юла (KJ в соответствии с приведенной таблицей рассчитывают по формуле: Коэффициент ассоциации Ка может принимать значения от -1 до +1. В случаях когда Ка = ±1, теснота связи между признаками считается наиболее сильной, причем так же, как и для коэффициента корреляции, положительный или отрицательный знак Ка свидетельствует о прямой или соответственно обратной зависимости значений признаков. Коэффициент контингенции Пирсона Кк рассчитывают по формуле: Коэффициент контингенции также изменяется от -1 до +1, но его значения всегда (за исключением граничных случаев KK = ±1) несколько меньше значений коэффициента ассоциации. Эта характеристика имеет тот же смысл, что и Ka. Для качественной оценки силы связи при использовании коэффициента ассоциации Юла и коэффициента контингенции Пирсона можно руководствоваться шкалой Чеддока. Таблица. Шкала Чеддока В случае когда каждый из двух качественных признаков содержат более двух групп значений, тесноту связи признаков измеряют с помощью коэффициента взаимной сопряженности, который рассчитывается по специальным формулам1. 1.8.2. Задания для самостоятельной работы 1. Изучить материалы соответствующей главы учебника [1], модуля, рекомендуемой литературы. 2. Ответить на контрольные вопросы. 3. Разобрать задачу-эталон. 4. Ответить на вопросы тестового задания модуля. 5. Решить задачи. Задача-эталон Исходные данные 1. При изучении общественного здоровья населения некоторого субъекта РФ возникла необходимость провести анализ зависимости показателя смертности от возраста и пола. Необходимые статистические данные представлены в таблице. Таблица. Возрастно-половые статистические показатели смертности населения (на 1000 населения соответствующего пола и возраста) 2. Для углубленного изучения смертности от туберкулеза в зависимости от пола больных потребовалось выявить возможную связь между полом больных и исходом заболевания. Были взяты две группы больных туберкулезом органов дыхания - мужчины и женщины. В первой группе (мужчины) из 221 заболевшего 68 умерли в течение первого года после заболевания. Во второй группе (женщины) из 194 заболевших 83 умерли. Полученные данные представлены в таблице. Таблица. Распределение больных туберкулезом по полу и исходу заболевания (абсолютные числа) Задание На основание исходных данных, представленных в таблицах: 1) оценить степень зависимости показателя смертности в группах мужчин и женщин с помощью коэффициента корреляции; 2) оценить корреляционную зависимость между признаками «пол» и «исход» с использованием непараметрических методов (коэффициента ассоциации Юла) и коэффициента контингенции Пирсона. Решение 1. Расчет выборочного коэффициента корреляции Для удобства вычислений поместим значения в таблицу и представим результаты вычислений. Таблица. Расчетная таблица к задаче 1 Все значения из таблицы переносим в формулу расчета выборочного коэффициента корреляции: 2. Оценка корреляционной зависимости непараметрическими методами 2.1. Расчет коэффициента ассоциации Юла - Ka: 2.2. Расчет коэффициента контингенции Пирсона - KK: Вывод 1. Оценка значения коэффициента корреляции по шкале Чеддока 0,927 свидетельствует о прямой и достаточно высокой зависимости коэффициента смертности в группах мужчин и женщин. 2. Хотя значения коэффициентов Ka и KK отличаются друг от друга, согласно шкале Чеддока качественная характеристика тесноты связи одна и та же: сила связи слабая. Логически эта характеристика вполне закономерна, так как в нашем примере градация «мужчина-женщина» не является определяющей для второго признака «живы-умерли», а лишь оказывает некоторое влияние; величину этого влияния и описывают коэффициенты ассоциации и контингенции. 1.8.7. Рекомендуемая литература 1. Медик В.А., Юрьев В.К. Общественное здоровье и здравоохранение: учебник. - 2-е изд., перераб. и доп. - М.: ГЭОТАР-Медиа, 2012. 2. Медик В.А., Токмачев М.С. Статистика здоровья населения и здравоохранения: учеб. пособие. - М.: Финансы и статистика, 2009. 368 с. 3. Медик В.А., Токмачев М.С. Математическая статистика в медицине: учеб. пособие. - М.: Финансы и статистика, 2007. - 800 с. 4. Ефимова М.Р., Бычкова С.Г. Практикум по социальной статистике: учеб. пособие / под ред. М.Р. Ефимовой. - М:. Финансы и статистика, 2005. - 448 с.