Лукьянова Е.А. Медицинская статистика Специальность «Лечебное дело» №4, №5, №6 Регрессионный анализ Корреляционный анализ Анализ сопряженных признаков 2010 Виды признаков независимые (ь вмфртпя иб - изменяются независимо от других признаков . зависимые (тийын фвфкдпя и) - признаки, величины которых обусловлены изменением факторных признаков. Один и тот же признак при различной постановке задачи может быть либо факторным либо результативным. Сводная классификация связей Связь По характеру По направлению Функциональная Прямая Статистическая Обратная По кол-ву факторов Однофакторная Многофакторная По аналитическому выражению Линейные Нелинейные Характер связи формы зависимости функциональная статистическая При функциональной зависимости каждому конкретному значению одной величины будет соответствовать определенное значение другой величины. Например, при фиксированной скорости пройденный путь линейно зависит от времени движения При статистической зависимости каждому значению одного признака может соответствовать некоторое количество значений другого признака, варьирующих в определенных пределах. Например, каждому значению роста соответствуют различные значения веса. Количество факторных признаков Связь Однофакторная Многофакторная При классификации взаимосвязей учитывается также число факторных признаков, оказывающих влияние на результативный признак. Если исследуется влияние одного факторного признака, то речь идет об рз прь вмфртпрл связи. Если многих, то - о о прерь вмфртпрл. Направление связи По направлению Прямая Обратная •Если направления факторного и результативного признаков совпадают, то говорят о наличии с т о рлауд йк температура тела и скорость движения элементарных частиц •Если направления не совпадают, то уд й рг твфпв доза антибиотика - число микробных клеток Аналитическое выражение Аналитическое выражение Линейные Нелинейные При линейной связи зависимость между факторными и результативным признаком описывается уравнением прямой: y=b0+b1x При нелинейной – могут быть использованы модели: гипербола y=k/x парабола y=ax2 + by + c мультипликативная y b1 x экспоненциальная y e обратная y n b0 b1 x 1 b0 b1 x Связь переменных Взаимосвязь между: 1.Количественными признаками 1.1. Регрессионный анализ 1.2. Корреляционный анализ 2. Качественными признаками 2.1. Анализ сопряженных признаков Регрессионный анализ Регрессионный анализ имеет две основные функции: 1) аналитическая (выявляет характер взаимосвязи) 2) предикторная (позволяет делать прогнозы) Линейная регрессия Пусть в ходе исследования были получены следующие пары наблюдений: При нанесении этих результатов на двумерную плоскость координат, получаем з кветво о ыа твууикдвпк (облако точек).. Как описать такое рассеивание? Пульс Диаграмма рассеяния 160 140 120 100 80 60 40 20 0 35 36 37 38 39 Температура 40 41 Линейная регрессия При обследовании n объектов измерили два параметра и получили набор из n пар значений (xi,yi). Общая задача состоит в подгонке прямой линии к этому набору точек. Уравнение прямой линии имеет вид: Y=b0 +b1X. В зависимости от параметров b0 и b1 эти точки можно описать различными прямыми линиями. Таким образом, задача сводится к подбору наилучших коэффициентов b0 и b1. Метод наименьших квадратов (МНК) Наилучшие оценки коэффициентов b0 и b1 дает МНК X X Y Y i i b1 2 Xi X b0 y b1 x b1 - коэффициент регрессии; b0 - свободный член уравнения регрессии Y y b1 ( x x ) Направление регрессии Регрессия может быть: прямой (b1>0) обратной (b1<0). Прямая регрессия означает, что при росте одного параметра, значения другого параметра тоже увеличиваются. А обратная, что при росте одного параметра, значения другого параметра уменьшаются. Проверка гипотезы о значимости коэффициента регрессии b1 1. 1. 2. Определим гипотезы H0 и H1: • H0: b1 = 0 (между переменными нет линейной зависимости); • H1: b1 0. Зададим уровень значимости ρ. Статистика критерия n 2 2 b1 (xi x ) F i1 2 s имеет распределение Фишера с 1 и (n–2) степенями свободы. n (y y ) 2 i 2 i 1 s n 2 α 1. 2. n xi x i1 n n yi y i1 n Критические точки и критическая область область F>Fρ,1,n–2. α т.е α можно сделать вывод, что линейная α F>Fρ,1,n–2, то H0 отвергается, Если зависимость – значима. Если F<Fρ,1,n–2, то у нас нет оснований отвергать H0 , т.е можно сделать вывод, что линейная зависимость – незначима или что наши данные нельзя описать моделью линейной регрессии. Корреляционный анализ Как показано выше, облако точек можно описать двумя линиями регрессии – регрессией X на Y и Y на X. Чем меньше угол между этими прямыми, тем сильнее зависимость между параметрами. Коэффициент корреляции r n (xi x )(yi y ) i 1 n n 2 (xi x ) * (yi y ) 2 i 1 i 1 α –1 r +1, Характер и сила связи Характер и сила связи определяются с помощью коэффициента корреляции r. Сила связи Характер связи прямая (+) обратная (-) Полная 1 –1 Сильная [0,7 ; 1) (– 1; –0,7] Средняя (0,3;0,7) (–0,7;– 0,3) Слабая (0; 0,3] [–0,3; 0) Связь отсутствует 0 0 Ранговая корреляция Ранг наблюдения – это тот номер, который получит наблюдение в совокупности всех данных – после их упорядочения по определенному правилу (например, от меньших величин к большим). Процедура перехода от совокупности наблюдений к последовательности их рангов называется ранжированием. Результат ранжирования называют ранжировкой. Ранжирование •Данные выстраиваются в порядке возрастания (или убывания) •Далее им присваивают ранги. •Если отдельные показатели ряда встречаются несколько раз, то каждому из них присваивают одинаковый ранг, равный среднему рангу. Порядковы й номер 1 2 3 4 5 6 7 8 9 Данные 20 21 22 22 23 24 24 24 25 Ранги 1 2 3,5 3,5 5 7 7 7 9 α Коэффициент ранговой корреляции Спирмена χ 1 s 2 6 d ⎝α ⎠α 2 ⎟α n n 1α ⎞α ⎜α 6 – постоянный коэффициент, d – разность рангов, n –число наблюдений (объем выборки). Проверка гипотезы о значимости коэффициента корреляции 1. Определим гипотезы H0 и H1: Н0: r = 0 (т.е. нет значимой корреляции), H1: r 0. 1. 2. Зададим уровень значимости ρ. Статистика критерия t r 1 r 2 n 2 ts χs 2 1 χs n 2 имеет распределение Стьюдента с (n–2) степенями свободы. 1. При |t| t(n–2),ρ гипотеза Н0 отвергается с уровнем значимости ρ. Это значит, что между параметрами существует значимая корреляция. 2. 3. При |t| t(n–2),ρ у нас нет оснований отвергать Н0, т.е. можно утверждать, что между параметрами нет значимой корреляции. Анализ качественных признаков Существует признаки и явления, измерение которых затруднено или невозможно (профессия, вид патологии, образование, диагноз). Цель проведения качественного анализа состоит в определении наличия связи между качественными признаками • • • • влияет ли метод лечения на исход заболевания; влияет ли цвет глаз на генетические нарушения; вид вскармливания на развитие ребенка; пол на курение. Наличие связи между признаками подразумевает, что признаки зависят друг от друга, т.е. являются сопряженными. Алгоритм проведения анализа сопряженных признаков 0. Формулировка целей и задач исследования 1. Построение таблицы наблюдаемых частот 2. Построение таблицы ожидаемых частот 3. Построение таблицы разности частот 4. Проверка статистической гипотезы о значимости разности частот 5. Формулировка вывода о наличии связи между признаками 1. Построение таблицы наблюдаемых частот Пусть имеется два качественных признака: А (пол) и В (курение). Признак А имеет в уровней градаций /2: муж, жен/, Признак В – д уровней / 3: курит, бросил, не курил/. Общее количество наблюдений составляет n. Каждый объект выборки обладает двумя признаками: и А, и В, причем эти признаки могут принимать любые из допустимых значений. (одна единица наблюдения: пол = мужчина, курение = курит, другая единица: пол = женщина, курение = бросила, и т.д.). Таким образом, после сбора первичного материала можно построить таблицу наблюдаемых частот: Таблица наблюдаемых частот Пол Мужской Женский . Кур Курит Бросил(а) Не курил(а) Всего 2. Построение таблицы ожидаемых частот Ожидаемые частоты вычисляются по формуле, полученной из предположения, что признаки не связаны между собой. Признаки А и В называют независимыми, если для всех пар i, j оказываются независимыми события: «признак А принимает значение Аi» и «признак В принимает значение Вj» p(Ai B j ) p(Ai ) p(B j ) Таким образом, ожидаемые частоты подсчитываются по формуле: α nij ni. s ni. nij ni1 ni 2 ... nis j 1 n. j n.. частота события Аi r n. j nij n1 j n2 j ... nrj i 1 r s i 1 j 1 r частота появления события Вj s n.. ni . n. j n ij i 1 j 1 общее число наблюдений 3. Построение таблицы разности частот •В ячейки таблицы разности выносят значения разности между соответствующими ячейками таблиц наблюдаемых и ожидаемых частот. •Цель создания таблицы разности - оценить, насколько различаются значения частот в первых двух таблицах. •Если частоты будут отличаться «слишком» сильно, то следовательно предположение, исходя из которого была построена таблица ожидаемых частот, неверно. •Таким образом необходимо статистически проверить, насколько сильно различаются таблицы. 4. Проверка статистической гипотезы о значимости разности частот 1. Формулировка гипотез H0: Признаки не сопряжены . H1: Признаки сопряжены. 2. Определение уровня значимости (ρ=0,05) 3. Критерий Пирсона-Фишера 2 n ij n ij ⎛ n ij i1 j 1 r s 2 сумма берется по всем ячейкам таблицы сопряженности. ⎛ 2 стремится к распределению хи-квадрат с (r–1)(s–1) степенями свободы. (r-количество уровней признака A, s-количество уровней признака B ) Для зависимых A и B⎛α2 неограниченно возрастает при увеличении n. Поэтому большие для хи-квадрат значения указывают на взаимную зависимость. 4. Сравнение результатов, формулировка выводов H0: отвергается при значениях критерия, которые превосходят критические значения хи-квадрат, соответствующие выбранному уровню значимости.