ЮЖНО-КАЗАХСТАНСКАЯ ГОСУДАРСТВЕННАЯ ФАРМАЦЕВТИЧЕСКАЯ АКАДЕМИЯ Кафедра медицинской биофизики, информатики и математики «Утверждаю» Проректор по УМиВР ________________________ ________________________ «____»____________ 2014 г. РАБОЧАЯ ПРОГРАММА Дисциплина Код дисциплины Специальность Объем учебных часов/ кредитов Курс Семестр Биологическая статистика Bio 3214 5В110200 «Общественное здравоохранение» 45 1 3 6 2014 г. Рабочая программа дисциплины «Биологическая статистика» составлена кафедрой «Медицинская биофизика, информатика и математика» на основании ГСВО 5В110200 - «Общественное здравоохранение» утвержденной Министерством здравоохранения Республики Казахстан от «29» апреля 2009 года, № ___. Рабочая программа обсуждена на заседании кафедры медицинской биофизики, информатики и математики Протокол №____ от «_____»__________2014 г. Зав. каф., к.ф.-м.н., профессор ______________ Кудабаев К.Ж. Обсуждена цикловой методической комисией теоритических дисциплин от «_____»__________2014 г. Протокол №____ Председатель, профессор _______________ Утверждена Методическим Советом от «_____»__________2014 г. Протокол №____ Патсаев А.К. 2. Программа 2.1 Введение: В здравоохранении и клинической медицине часто используются различные статистические концепции при принятии решений по таким вопросам, как клинический диагноз, прогнозирование возможных результатов осуществления тех или иных программ в данной группе населения, прогнозирование течения заболевания у отдельного больного; выбор соответствующей программы для данной группы населения или выбор лечения для конкретного больного и т.п. Статистика находит повседневное применение в лабораторной практике. Знание статистики стало важным для понимания и критической оценки сообщений в современных медицинских публикациях. Таким образом, знание принципов статистики абсолютно необходимо для планирования, проведения и анализа исследований, посвященных оценке различных ситуаций и тенденций в здравоохранении, а также для выполнения научных исследований в области медицинской биологии, клиники и здравоохранения. Биостатистика - научная отрасль, связанная с разработкой и использованием статистических методов в научных исследованиях в медицине, здравоохранении и эпидемиологии. Внедрение в практику принципов доказательной медицины диктует современному выпускнику медицинских вузов необходимость понимания биостатистики. Необходимость повышения культуры статистического анализа биологических и медицинских данных, как в теоретических исследованиях, так и в практической деятельности организатора общественного здравоохранения диктуется, прежде всего, современными достижениями в вопросах представления и систематизации данных. Студенту особенно важно уметь использовать статистические профессиональные пакеты прикладных программ SAS, SPSS, универсальный пакет Statisticа, и адекватно интерпретировать полученные результаты. 2.2 Цель дисциплины: обучение теоретическим основам биостатистики и формирование навыков применения методов статистической обработки. 2.3 Задачи обучения: формирование основы знаний о современных статистических методах обработки биологических и медицинских данных; формирование основных навыков применения современных статистических методов для обработки биологических и медицинских данных 2.4 Конечные результаты обучения: Дескрипторы Компетенции специальности, разработанные Результаты обучения дисциплины Результаты обуче- ЮКГФА Компетенция в области естественных и специальных наук Компьютерная и информационная компетентность A. Компетенция Демонстрировать «Адвокат знания и понимание здоровья» в изучаемой области, включая элементы наиболее передовых знаний в этой области Компетенция «Навыки научных исследований» ния по концепц ии (ГОСО) Дает определение значения для будущей профессии предмета, целей и задач биологической статистики и ее применение в профессиональной деятельности. Знает научную терминологию, используемую в медико-биологических исследованиях. Знает специальные прикладные программы для обработки, анализа и интерпретации статистической информации. Знает как работать с различными источниками информации в процессе медико-биологических исследований (базы данных, электронные и бумажные журналы, справочные и нормативные документы и т.д.), основы поиска медицинской информации. Знает этические и правовые нормы, необходимые при проведении экспериментальных и медицинских исследований. Знает типы данных и способы их представления. Знает виды измерительных шкал. Знает критерии соответствия и согласия. Знает типы систематических ошибок и их оценку в исследованиях. Знает свойства закона нормального распределения признаков. Знает методику проведения дисперсионного анализа. Знает как определять корреляционную зависимость с помощью линейного коэффициента корреляции Пирсона и рангового коэффициента корреляции Спирмена. Знает непараметрические критерии проверки гипотез. Знает t-критерии Стьюдента. Знает основные критерии эпидемиологического анализа, эпидемиологические показатели. Знает этапы медико-биологического эксперимента, планирование. Р2 Р10 Знает ППП Statistica 10. Знает как использовать математический аппарат для расчёта основных Компетенция экономических показателей при предпринимательст проведении медицинских ва исследований. B. Применять эти знания и понимание на профессиональном уровне Умеет применять статистические методы обработки данных. Умеет оценивать надежность и достоверность измерений в биостатистике, определять статистическую значимость различий. Умеет отбирать единицы для выбранной совокупности. Умеет определить статистические ряды распределения и оценить их соответствие теоретическим законам распределения, а так же оценить их точность и надежность. Компетенция определить доверительные «Навыки научных Умеет интервалы по числовым исследований» характеристикам, мощность критерия. Умеет применять основные методы однофакторного дисперсионного анализа. Умеет проверять статистические гипотезы. Умеет вычислять выборочный коэффициет корреляции. Умеет получать результирующую таблицу. Умеет интерпретировать полученные результаты. Умеет работать с ППП Statistica 10. Умеет доносить полученную в процессе Компетенция поиска и обработки информацию до «Коммуникативдругих пользователей. ные навыки» Умеет проводить критический анализ научных публикаций. Умеет проводить поиск научной используя Компьютерная и информации, библиографические указатели, информационная каталоги, картотеки, электронные базы компетентность данных, ресурсы Интернет. Умеет обрабатывать статистический материал с помощью специальных пркладных программ. C. D. E. Формулировать аргументы и решать проблемы в изучаемой области Формулирует цели и задачи научного исследования, составляет план научного исследования, адекватно отвечающий цели и задачам. Проводит сбор материала. Компетенция Обрабатывает и анализирует материал с «Навыки научных использованием методов исследований» статистического анализа и информационных технологий. Анализирует и обобщает данные, полученные в результате статистического исследования. Умеет интерпретировать результаты, полученные с помощью ППП Statistica Компьютерная и 10. Осуществлять сбор и информационная Грамотно оформляет различные компетентность интерпритацию документы и излагает результаты информации для исследований. формирования Использует результаты статистического суждений с учетом анализа при написании научных статей. социальных, Выступает на студенческих научных этических и научных Компетенция «Навыки научных конференциях внутри ВУЗа и соображений исследований» областных конференциях, республиканских и международных конференциях. Способен передавать студентам/преподавателям/ экзаменаторам собственные знания и умения при обработке медицинской, биологической и фармацевтической Компетенция Сообщать информации, сборе и анализе информацию, идеи и «Коммуникативинформации о состоянии здоровья ные навыки» проблемы и населения, объяснять наблюдаемые решения, как факты и полученные результаты. специалистам, так и не специалистам Способен участвовать в дискуссии и оппоненции. Компетенция Способен делиться своими идеями на «Навыки научных многогранной платформе G-Global. исследований» Способность Владеет навыками приобретения новых продолжить знаний в области доказательной дальнейшее медицины. самостоятельное обучение Р2 Р3 Примечание: Р2 – Обладает навыками обращения с современной техникой, умеет использовать информационные технологии в сфере профессиональной деятельности. Р3 – Владеет навыками приобретения новых знаний, необходимых для повседневной профессиональной деятельности и продолжения образования в магистратуре. Р10 – Умеет ориентироваться в современных информационных потоках и адаптироваться к динамично меняющимся явлениям и процессам в мировой экономике. 2.5 Пререквизиты: математика, информатика, медицинская биофизика 2.6 Постреквизиты: общественное здравоохранение, эпидемиология инфекционных и неинфекционных болезней, основы доказательной медицины 2.7 Тематический план: (темы, форма проведения и продолжительность каждого занятия) лекций, практических занятий и самостоятельной работы студента. Тематический план лекций № 1. 2. 3. 4. Темы Форма проведения Кредит № 1 Обзорная Введение. Основы биостатистики. Предмет и задачи биостатистики. Роль ученых Р. лекция Фишера, К. Пирсона, Ф. Гальтона в развитии биометрики. Классификация, сбор и представление данных. Виды измерительных шкал. Проблемна Основы теории проверки статистических гипотез. Статистические гипотезы, применительно к я лекция биостатистическим исследованиям. Доверительная вероятность, уровень значимости. Мощность критерия. Критерии согласия χ2-Пирсона, КолмогороваСмирнова. Проверка гипотез о параметрах нормально распределенных совокупностей. t-критерий Стьюдента для анализа биомедицинских данных. Непараметрические критерии проверки гипотез. Дисперсионный анализ в медицине и Проблемна я лекция здравоохранении. Основные понятия и методика дисперсионного анализа. Однофакторный и двухфакторный дисперсионные анализы. Общая, факторная и остаточная дисперсия. Применение дисперсионного анализа в общественном здравоохранении. Статистические методы в эпидемиологическом Проблемна Кол-во часов 1 1 1 1 5. я лекция анализе. Основные критерии эпидемиологического анализа. Эпидемиологические показатели. Средние величины, их размеры и количественные отношения признаков. Анализ заболеваемости по факторам риска. Количественная оценка факторов риска развития заболевания. Планирование и организация статистических Проблемна я лекция исследований. Этапы медико-биологического эксперимента. Выбор статистического метода обработки данных. Использование современной информационновычислительной техники в биостатистике. Классификация статистических пакетов и современные требования к ним. Всего часов: 1 5 Тематический план практических занятий № 1. 2. 3. 4. 5. Темы Кредит № 1 Статистическая группировка и сводка данных. Оценка параметров генеральной совокупности с помощью выборочного метода. Ошибки статистического наблюдения. Доверительный интервал. Проверка статистических гипотез. Проверка гипотез о параметрах нормально распределенных совокупностей. Проверка нулевой гипотезы Н0 при конкурирующей гипотезе Н1. Критерий Стьюдента: назначение, формула для вычисления и ограничения. Таблица критических значений t-критерия. Критерий χ2: назначение, формула для вычисления и ограничения. Схема анализа. Таблица критических значений χ2-критерия. Дисперсионный анализ. Статистические гипотезы, проверяемые с помощью дисперсионного анализа. Общая, факторная и остаточная дисперсии. Метод однофакторного дисперсионного анализа. F-критерий Фишера. Дисперсионный анализ в среде Statistica. Форма проведения Кол-во часов Лабораторная работа 1 Лабораторная работа 1 Лабораторная работа 1 Лабораторная работа 1 Практикум 1 Статистические методы в эпидемиологическом анализе. Анализ заболеваемости по факторам риска. 7. Корреляционно-регрессионный анализ. Оценка параметров по методу наименьших квадратов. Уравнение линейной регрессии. 8. Ранговая корреляция. Коэффициент ранговой корреляции Спирмена. Корреляционнорегрессионный анализ в среде Statistica. 9. Стандартизированные коэффициенты. Прямой метод стандартизации. 10. Анализ динамических рядов. Типы динамических рядов. Вычисление показателей динамического ряда. Всего часов: 6. Лабораторная работа Лабораторная работа 1 Практикум 1 Лабораторная работа Лабораторная работа 1 1 1 10 Тематический план самостоятельной работы студента № Темы Форма сдачи Кол-во часов 1. Интервальный статистический ряд распределения. Индивидуальное 1 Формула Стерджеса. Числовые характеристики задание интервального статистического ряда. Полигон и гистограмма частот. 2. Вычисление описательных статистик выборки и Индивидуальное 1 графическое представление данных в среде задание Statistica 10. 3. Параметрические методы проверки статистических Индивидуальное 1 гипотез: основная гипотеза о проверке задание нормальности распределения. 4. Проверка статистической гипотезы о нормальности Индивидуальное 1 распределения в среде Statistica 10. задание 5. Непараметрические методы проверки Индивидуальное 1 статистических гипотез: критерий знаков. задание 6. Непараметрические методы проверки Индивидуальное 1 статистических гипотез в среде Statistica 10. задание 7. Метод однофакторного дисперсионного анализа. Индивидуальное 1 Вычисление общей, факторной и остаточной задание дисперсии. 8. Дисперсионный анализ в среде Statistica 10. Индивидуальное 1 задание 9. Линейная корреляция. Коэффициент корреляции Индивидуальное 1 Пирсона. задание 10. Метод ранговой корреляции: коэффициент Индивидуальное 1 корреляции Спирмена. задание 11. Связь регрессии и корреляции. Статистическая значимость корреляции. 12. Корреляционно-регрессионный анализ в среде Statistica 10. 13. T-критерий Стьюдента для анализа биомедицинских данных. Наблюдение до и после эксперимента. 14. Множественные сравнения. Критерий Стьюдента с поправкой Бонферрони. 15. Критерий согласия. Практический пример применения критерия согласия (закон Менделя). 16. Непараметрический аналог однофакторного дисперсионного анализа: критерий КрускалаУоллиса. 17. Метод двухфакторного дисперсионного анализа. 18. 19. 20. 21. 22. 23. 24. 25. 26. Индивидуальное задание Индивидуальное задание Индивидуальное задание 1 Индивидуальное задание Индивидуальное задание Индивидуальное задание 1 1 1 1 1 Индивидуальное 1 задание Непараметрические методы оценки корреляции. Индивидуальное 1 задание Множественная регрессия. Индивидуальное 1 задание Анализ заболеваемости по факторам риска. Индивидуальное 1 задание Анализ временных рядов. Индивидуальное 1 задание Статистические методы прогнозирования. Индивидуальное 1 задание Организация статистического исследования. Индивидуальное 1 задание Ошибка измерения. Учет ошибки шкалы прибора и Индивидуальное 1 систематических ошибок. Оценка суммарной задание погрешности. Применение ППП SPSS для статистического Индивиду8-14 анализа медико-биологических данных. альное задание, недели работа на платформе GGlobal (просмотр, комментарии совместно с преподавателем) Применение ППП SАS для статистического Индивидуальное 1 анализа медико-биологических данных. задание 27. Осуждение проблем на коммуникативной Просмотры с 8-14 платформе G-Global «Инфраструктура, инновации, указанием недели инвестиции», сессия «Проблемы и перспективы статьи, инвестиционного климата в IT-отрасли комментарии Казахстана» совместно с Применение ППП Statistica для статистического преподавателем анализа медико-биологических данных. 28. Рубежный контроль по темам: «Основы Тестовые 1 биостатистики», «Основы теории проверки задания, статистических гипотез». Собеседование 29. Рубежный контроль по темам: «Дисперсионный Тестовые 1 анализ в медицине и здравоохранении», задания, «Корреляционно-регрессионный анализ», собеседование «Планирование и организация статистических исследований». 30 Итоговое занятие Тестовые 1 задания Всего часов: 30 Примечание: Виды индивидуальных заданий: самостоятельное решение задач, реферат, глоссарий, тест, презентация, эссе, 2.8 Методы обучения и преподавания (малые группы, дискуссия, ситуационные задачи, самостоятельная работа, работа в парах, упражнение, электронное обучение, тест, презентации, кейс-стади и т.д.) Лекции: обзорные и проблемные; Практические занятия: письменное выполнение индивидуальных заданий, решение тестовых заданий, статистическая обработка материалов с использованием компьютерных программы Statistica. Самостоятельная работа студентов под руководством преподавателя (СРСП) решение ситуационных задач, статистическая обработка материалов по заданной программе с использованием компьютерных программ, проведение метода многофакторного дисперсионного анализа на конкретном материале. Самостоятельная работа студентов (СРС) - работа с учетной и дополнительной литературой, с электронными носителями информации, самостоятельное решение задач, самооценка уровня подготовки по темам самостоятельной работы, статистическая обработка материалов с использованием компьютерных программ, подготовка и защита тематических рефератов. 2.9 Методы оценки знаний и навыков обучающихся: Для оценки знаний и навыков студента по завершении изучения дисциплины «Биологическая статистика» используются рейтинговая и накопительная система оценки. На аудиторных занятиях студент оценивается согласно сложности тем, решения задач и выполнения практических работ. Темы занятий, задания по темам и задания для самостоятельных работ предварительно выдаются студенту и их выполнение дает возможность получить более высокую оценку. Текущий контроль – это систематическая проверка учебных достижений обучающихся, проводимая преподавателем на текущих занятиях в соответствии с силлабусом дисциплины. При текущем контроле успеваемости учебные достижения студентов оцениваются по 100 бальной шкале за каждое выполненное задание (при выполнении тестовых заданий на текущих занятиях, ответа в устной и письменной форме, выполнении упражнений, работе с модулем, подготовке презентаций и т.п.) и окончательный результат текущего контроля успеваемости подводится расчетом среднеарифметической суммы всех оценок, полученных в течение академического периода. Рубежный контроль – это контроль, проводимый не менее двух раз в течение одного академического периода в рамках одной учебной дисциплины во время СРСП (на 7-8-ой и 14-15-ой неделях теоретического обучения). Эти темы по практическим занятиям и СРС проводятся в виде коллоквиума. Итоговый контроль: (экзамен) проводится в форме тестирования. Обеспечение вспомогательным материалом, оснащение и оборудование: Оборудование: компьютеры, мультимедийные проекторы, видеоаппаратура, экран; Оснащение: пакет компьютерных программ и мультимедийных учебных пособий, комплекты тестовых заданий и ситуационных задач, таблицы и учебные видеофильмы; специальные статистические таблицы; наборы математических таблиц; доступ в Интернет. 2.10 Рекомендуемая литература: На русском языке Основная: 1. Герасимов А.Н. Медицинская статистика: учебное пособие/ Герасимов А.Н. – М.: МИА, 2007. - 480 с. 2. Зайцев В.М., Лифляндский В.Г., Маринкин В.И. Прикладная медицинская статистика. Учебное пособие. – СПб:, Фолиант, 2006. – 432 с. 3. Жидкова О.И. Медицинская статистика (конспект лекций). – М.: Эксмо, 2007. – 160 с. 4. Применение методов статистического анализа для изучения общественного здоровья и здравоохранения: учебное пособие / ред. Кучеренко В.З. - 4-е изд., перераб. и доп. – М.: ГЭОТАР - Медиа, 2011. - 256 с. 5. Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. - М.: Медиасфера, 2008. 6. Савилов Е.Д., Мамонтова Л.М. и др. Применение статистических методов в 1. 2. 3. 4. 5. 6. 7. эпидемиологическом анализе. – М.: «МЕД пресс-информ», 2008. – 112 с. Дополнительная: Банержи А. Медицинская статистика понятным языком: вводный курс / Банержи А.; пер. Леонов В.П. – М.: Практическая медицина, 2007. - 287 с. Биостатистика в примерах и задачах: учебно - методическое пособие / Койчубеков Б.К., Сорокина М.А. [и др.]. – Алматы: Эверо, 2012. - 80 с. Петри А. Наглядная медицинская статистика: учебное пособие / Петри А., Сэбин К. – М.: ГЭОТАР - Медиа, 2009. - 168 с. Плавинский С.Л. Биостатистика: планирование, обработка и представление результатов биомедицинских исследований при помощи системы SAS/ Плавинский С.Л. – СПб: СПбМАПО, 2005. - 560 с. Юнкеров В.И., Григорьев С.Г. Математико-статистическая обработка данных медицинских исследований. – СПб.: ВМсдА, 2006 - 266 с. Жижин К.С. Медицинская статистика: Учебное пособие / К.С. Жижин. Ростов н/Д: Феникс, 2007. - 160 с. Платонов А.Е. Статистический анализ в медицине и биологии: задачи, терминология, логика, компьютерные методы. - М.: Издательство РАМН, 2009. - 52 с. На казахском языке Основная: 1. Ахметказиев А.А., Кельтенова Р.Т. Математикалық статистика. Алматы, «экономика», 2002. 2. Бөлешов М.Ə. Медициналық статистика: оқулық/ Бөлешов М.Ə. – Алматы: Эверо, 2010. - 144 б. 3. Шыныбеков Ə.Н. Ықтималдықтар теориясы жəне математикалық элементтерi: оқу құралы/ Шыныбеков Ə.Н. – Алматы: Экономика, 2008. - 236 б. Дополнительная: 1. Бектаев Қ.Б. Ықтималдықтар теориясы жəне математикалық статистика: оқу құралы/ Бектаев Қ.Б. – Алматы: Эверо, 2009. - 410 б. На английском языке Основная: 1. Norman G.R., Streiner D. Biostatistics: the bare essentials. - McMaster Univ., Hamilton, Ontario, Canada, 2008. - 260 p 2. Newman S.C. Biostatistical Methods in Epidemiology. - Wiley, 2007. - 388 p. 3. Petrie A., Sabin C. Medical Statistics at a Glance. - Wiley, 2006. - 168 p. Дополнительная: 1. Le C.T. Introductory biostatistics. - Wiley, 2003. - 536 p. 2. Armitage P. Encyclopedia of Biostatistics. - Wiley, 2006. - 6100 p. Южно-Казахстанская Государственная фармацевтическая академия Кафедра: Медицинская биофизика, информатика и математика СИЛЛАБУС Дисциплина: Биологическая статистика Код дисциплины: Bio 3214 Специальность: 5B110200 «Общественное здравоохранение» Объем учебных часов/кредитов..………….45/1 Курс…………………………………………....3 Семестр………………………………………..6 2014 – 2015 учебный год Силлабус составлен кафедрой «Медицинской биофизики, информатики и математики» на основании рабочей программы по «Биологической статистике» от ___________20___г. протокол №____ Обсужден на заседании кафедры от «____» «__________» 20 г. Протокол № _____ Зав. кафедрой, к.ф.-м.н., профессор _________________ Кудабаев К.Ж. № Сведения о преподавателях: Ф.И.О. Ученная степень к.ф.-м.н., профессор Должность Зав.кафедрой 1 Кудабаев Канаш Жумагазиевич 2 Сапрыгина Марина Борисовна к.ф.-м.н. И.о. доцента 3 Байділдаева Ақмарал Сағынтайқызы магистр Старший преподаватель 4 Халметов Закиржан Султанкулович магистр Старший преподаватель 5 Абдримова Захира Маратқызы магистр Старший преподаватель Научно-методические Электронны достижения й адрес Издано более 90 научно- Kanash48@ методических mail.ru публикаций, из них: 5 учебников, 5 учебных пособий и более 10 типовых программ Издано 15 научных статей, а также учебное пособие и методические указания, разработаны рабочие программы и комплексы методических рекомендаций для преподаваемых дисциплин Опубликовано несколько научных статей, разработаны рабочие программы и комплексы методических рекомендаций для преподаваемых дисциплин Опубликовано несколько научных статей, разработаны рабочие программы и комплексы методических рекомендаций для преподаваемых дисциплин Опубликовано несколько научных статей, разработаны рабочие программы и комплексы методических рекомендаций для преподаваемых дисциплин [email protected] 68.akmaral@ mail.ru zakir78@mail. ru zakira75@mail .ru 6 Мауленова Ақмарал Айтбекқызы магистр Старший преподаватель Опубликовано maral_tasken несколько научных @mail.ru статей, разработаны рабочие программы и комплексы методических рекомендаций для преподаваемых дисциплин Контактная информация: Местонахождение кафедры: пл. Аль-Фараби, 1, главный корпус ЮКГФА, 5 этаж, ауд. 516–533, тел. 40 82 22 (126). Электронный адрес кафедры (e-maіl) – Fіzmatіn@maіl.ru Политика дисциплины: Требования изучения данной дисциплины: 1. не пропускать занятия без уважительных причин; 2. не опаздывать на занятия; 3. на занятия приходить в форме; 4. активность во время практических занятий; 5. подготовка к занятиям; 6. своевременно, по графику, выполнять и сдавать самостоятельные работы студентов; 7. не заниматься посторонними делами во время занятий; 8. быть терпимым, открытым и доброжелательным к сокурсникам и преподавателям; 9. бережно относится к имуществу кафедры. 2. Программа 2.1 Введение: В здравоохранении и клинической медицине часто используются различные статистические концепции при принятии решений по таким вопросам, как клинический диагноз, прогнозирование возможных результатов осуществления тех или иных программ в данной группе населения, прогнозирование течения заболевания у отдельного больного; выбор соответствующей программы для данной группы населения или выбор лечения для конкретного больного и т.п. Статистика находит повседневное применение в лабораторной практике. Знание статистики стало важным для понимания и критической оценки сообщений в современных медицинских публикациях. Таким образом, знание принципов статистики абсолютно необходимо для планирования, проведения и анализа исследований, посвященных оценке различных ситуаций и тенденций в здравоохранении, а также для выполнения научных исследований в области медицинской биологии, клиники и здравоохранения. Биостатистика - научная отрасль, связанная с разработкой и использованием статистических методов в научных исследованиях в медицине, здравоохранении и эпидемиологии. Внедрение в практику принципов доказательной медицины диктует современному выпускнику медицинских вузов необходимость понимания биостатистики. Необходимость повышения культуры статистического анализа биологических и медицинских данных, как в теоретических исследованиях, так и в практической деятельности организатора общественного здравоохранения диктуется, прежде всего, современными достижениями в вопросах представления и систематизации данных. Студенту особенно важно уметь использовать статистические профессиональные пакеты прикладных программ SAS, SPSS, универсальный пакет Statisticа, и адекватно интерпретировать полученные результаты. 2.2 Цель дисциплины: сформировать теоретические знания по основам биостатистики, навыки применения методов статистической обработки и работы с прикладными пакетами программ, навыки научного анализа и практического их применения. 2.3 Задачи обучения: формирование основы знаний о современных статистических методах обработки биологических и медицинских данных; формирование основных навыков применения современных статистических методов для обработки биологических и медицинских данных 2.4 Конечные результаты обучения: Дескрипторы F. Компетенции специальности, разработанные ЮКГФА Результаты обучения дисциплины Дает определение значения для будущей профессии предмета, целей и Компетенция в задач биологической статистики и ее применение в профессиональной области естественных и деятельности. Демонстрировать Знает научную терминологию, знания и понимание специальных наук используемую в медико-биологических в изучаемой области, исследованиях. включая элементы наиболее передовых Знает специальные прикладные знаний в этой программы для обработки, анализа и области статистической Компьютерная и интерпретации информации. информационная компетентность Знает как работать с различными источниками информации в процессе медико-биологических исследований Результаты обучения по концеп ции (ГОСО) Р2 (базы данных, электронные и бумажные журналы, справочные и нормативные документы и т.д.), основы поиска медицинской информации. Знает этические и правовые нормы, Компетенция необходимые при проведении «Адвокат экспериментальных и медицинских здоровья» исследований. Знает типы данных и способы их представления. Знает виды измерительных шкал. Знает критерии соответствия и согласия. Знает типы систематических ошибок и их оценку в исследованиях. Знает свойства закона нормального распределения признаков. Знает методику проведения дисперсионного анализа. Компетенция Знает как определять корреляционную «Навыки научных зависимость с помощью линейного исследований» коэффициента корреляции Пирсона и рангового коэффициента корреляции Спирмена. Знает непараметрические критерии проверки гипотез. Знает t-критерии Стьюдента. Знает основные критерии эпидемиологического анализа, эпидемиологические показатели. Знает этапы медико-биологического эксперимента, планирование. Знает ППП Statistica 10. Знает как использовать математический аппарат для расчёта основных Компетенция показателей при предпринимательст экономических проведении медицинских ва исследований. G. Применять эти знания и понимание на профессиональном уровне Умеет применять статистические методы обработки данных. Умеет оценивать надежность и достоверность измерений в биостатистике, определять Компетенция статистическую значимость различий. «Навыки научных Умеет отбирать единицы для исследований» выбранной совокупности. Умеет определить статистические ряды распределения и оценить их соответствие теоретическим законам распределения, а так же оценить их Р10 Компетенция «Коммуникативные навыки» точность и надежность. Умеет определить доверительные интервалы по числовым характеристикам, мощность критерия. Умеет применять основные методы однофакторного дисперсионного анализа. Умеет проверять статистические гипотезы. Умеет вычислять выборочный коэффициет корреляции. Умеет получать результирующую таблицу. Умеет интерпретировать полученные результаты. Умеет работать с ППП Statistica 10. Умеет доносить полученную в процессе поиска и обработки информацию до других пользователей. Умеет проводить критический анализ научных публикаций. Умеет проводить поиск научной используя Компьютерная и информации, библиографические указатели, информационная каталоги, картотеки, электронные базы компетентность данных, ресурсы Интернет. Умеет обрабатывать статистический материал с помощью специальных пркладных программ. Формулирует цели и задачи научного исследования, составляет план научного исследования, адекватно отвечающий цели и задачам. Проводит сбор материала. Компетенция Обрабатывает и анализирует материал с «Навыки научных использованием методов исследований» статистического анализа и информационных технологий. H. Формулировать аргументы и решать проблемы в изучаемой области I. Анализирует и обобщает данные, полученные в результате статистического исследования. Умеет интерпретировать результаты, Осуществлять сбор и полученные с помощью ППП Statistica интерпритацию Компьютерная и 10. информации для информационная Грамотно оформляет различные формирования компетентность документы и излагает результаты суждений с учетом исследований. социальных, этических и научных Компетенция Использует результаты статистического соображений «Навыки научных анализа при написании научных статей. Р2 исследований» J. Сообщать информацию, идеи и проблемы и решения, как специалистам, так и не специалистам Способность продолжить дальнейшее самостоятельное обучение Выступает на студенческих научных конференциях внутри ВУЗа и областных конференциях, республиканских и международных конференциях. Способен передавать студентам/преподавателям/ экзаменаторам собственные знания и умения при обработке медицинской, биологической и фармацевтической Компетенция информации, сборе и анализе «Коммуникативинформации о состоянии здоровья ные навыки» населения, объяснять наблюдаемые факты и полученные результаты. Способен участвовать в дискуссии и оппоненции. Компетенция Способен делиться своими идеями на «Навыки научных многогранной платформе G-Global. исследований» Владеет навыками приобретения новых знаний в области доказательной медицины. Р3 Примечание: Р2 – Обладает навыками обращения с современной техникой, умеет использовать информационные технологии в сфере профессиональной деятельности. Р3 – Владеет навыками приобретения новых знаний, необходимых для повседневной профессиональной деятельности и продолжения образования в магистратуре. Р10 – Умеет ориентироваться в современных информационных потоках и адаптироваться к динамично меняющимся явлениям и процессам в мировой экономике. 2.5 Пререквизиты: математика, информатика, медицинская биофизика 2.6 Постреквизиты: общественное здравоохранение, эпидемиология инфекционных и неинфекционных болезней, основы доказательной медицины 2.7 Краткое содержание дисциплины: Введение. Основы биостатистики. Основы теории проверки статистических гипотез. Дисперсионный анализ в медицине и здравоохранении. Статистические методы в эпидемиологическом анализе. Планирование и организация статистических исследований 2.8 Тематический план: (темы, форма проведения и продолжительность каждого занятия) лекций, практических занятий и самостоятельной работы студента. Тематический план лекций № 1. 2. 3. 4. 5. Темы Кредит № 1 Введение. Основы биостатистики. Введение. Предмет и задачи биостатистики. Роль ученых Ф. Гальтона, К. Пирсона и Р. Фишера в развитии биометрики. Сбор, классификация и представление данных. Виды измерительных шкал. Основы теории проверки статистических гипотез. Статистические гипотезы, применительно к биостатистическим исследованиям. Доверительная вероятность, уровень значимости, мощность критерия. Алгоритм проверки статистических гипотез. Критерии согласия χ2-Пирсона, Колмогорова-Смирнова. t-критерий Стьюдента для анализа биомедицинских данных. Непараметрические критерии проверки гипотез. Дисперсионный анализ в медицине и здравоохранении. Основные понятия и методика дисперсионного анализа. Общая, факторная и остаточная дисперсия. Однофакторный дисперсионный анализ. Двухфакторный дисперсионный анализ. Статистические методы в эпидемиологическом анализе. Основные критерии эпидемиологического анализа. Эпидемиологические показатели. Средние величины, их размеры и количественные отношения признаков. Анализ заболеваемости по факторам риска. Количественная оценка факторов риска развития заболевания. Планирование и организация статистических исследований. Этапы медико-биологического эксперимента. Выбор статистического метода обработки данных. Использование современной информационновычислительной техники в биостатистике. Классификация статистических пакетов и современные требования к ним. Форма проведения Кол-во часов Обзорная лекция 1 Проблемная лекция 1 Проблемная лекция 1 Проблемная лекция 1 Проблемная лекция 1 Всего часов: 5 Тематический план практических занятий № 1. 2. 3. 4. 5. Темы Кредит № 1 Статистическая группировка и сводка данных. Оценка параметров генеральной совокупности с помощью выборочного метода. Ошибки статистического наблюдения. Доверительный интервал. Проверка статистических гипотез. Проверка гипотез о параметрах нормально распределенных совокупностей. Проверка нулевой гипотезы Н0 при конкурирующей гипотезе Н1. Критерий Стьюдента: назначение, формула для вычисления и ограничения. Таблица критических значений t-критерия. Критерий χ2: назначение, формула для вычисления и ограничения. Схема анализа. Таблица критических значений χ2критерия. Дисперсионный анализ. Статистические гипотезы, проверяемые с помощью дисперсионного анализа. Общая, факторная и остаточная дисперсии. Метод однофакторного дисперсионного анализа. Fкритерий Фишера. Дисперсионный анализ в среде Statistica. Статистические методы в эпидемиологическом анализе. Анализ заболеваемости по факторам риска. 7. Корреляционно-регрессионный анализ. Оценка параметров по методу наименьших квадратов. Уравнение линейной регрессии. 8. Ранговая корреляция. Коэффициент ранговой корреляции Спирмена. Корреляционнорегрессионный анализ в среде Statistica. 9. Стандартизированные коэффициенты. Прямой метод стандартизации. 10. Анализ динамических рядов. Типы динамических рядов. Вычисление показателей динамического ряда. 6. Форма проведения Кол-во часов Лабораторная работа 1 Лабораторная работа 1 Лабораторная работа 1 Лабораторная работа 1 Практикум 1 Лабораторная работа 1 Лабораторная работа 1 Практикум 1 Лабораторная работа Лабораторная работа 1 Всего часов: Тематический план самостоятельной работы студента 1 10 № 1. 2. 3. 4. 5. 6. 7. 8. 9. Форма сдачи Темы Интервальный статистический ряд распределения. Формула Стерджеса. Числовые характеристики интервального статистического ряда. Полигон и гистограмма частот. Вычисление описательных статистик выборки и графическое представление данных в среде Statistica 10. Параметрические методы проверки статистических гипотез: основная гипотеза о проверке нормальности распределения. Проверка статистической гипотезы о нормальности распределения в среде Statistica 10. Непараметрические методы проверки статистических гипотез: критерий знаков. Непараметрические методы проверки статистических гипотез в среде Statistica 10. Метод однофакторного дисперсионного анализа. Вычисление общей, факторной и остаточной дисперсии. Дисперсионный анализ в среде Statistica 10. Линейная корреляция. корреляции Пирсона. Коэффициент 10. Метод ранговой корреляции: коэффициент корреляции Спирмена. 11. Связь регрессии и корреляции. Статистическая значимость корреляции. 12. Корреляционно-регрессионный анализ в Индивидуальное задание График контроля Кол-во (с часов указанием сроков) 1-я неделя 1 Индивидуальное задание Индивидуальное задание 2-я неделя 1 3-я неделя 1 Индивидуальное задание Индивидуальное задание Индивидуальное задание Индивидуальное задание Индивидуальное задание Индивидуальное задание Индивидуальное задание Индивидуальное задание Индивиду- 4-я неделя 1 5-я неделя 1 6-я неделя 1 8-я неделя 1 9-я неделя 1 10-я неделя 1 11-я неделя 1 12-я неделя 1 13-я неделя 1 среде Statistica 10. 13. T-критерий Стьюдента для анализа биомедицинских данных. Наблюдение до и после эксперимента. 14. Множественные сравнения. Критерий Стьюдента с поправкой Бонферрони. 15. Критерий согласия. Практический пример применения критерия согласия (закон Менделя). 16. Непараметрический аналог однофакторного дисперсионного анализа: критерий Крускала-Уоллиса. 17. Метод двухфакторного дисперсионного анализа. 18. Непараметрические корреляции. методы оценки 19. Множественная регрессия. 20. Анализ заболеваемости риска. по факторам 21. Анализ временных рядов. 22. Статистические прогнозирования. 23. Организация исследования. методы статистического 24. Ошибка измерения. Учет ошибки шкалы прибора и систематических ошибок. Оценка суммарной погрешности. 25. Применение ППП SPSS для статистического анализа медикобиологических данных. альное задание Индивидуальное задание Индивидуальное задание Индивидуальное задание Индивидуальное задание Индивидуальное задание Индивидуальное задание Индивидуальное задание Индивидуальное задание Индивидуальное задание Индивидуальное задание Индивидуальное задание Индивидуальное задание Индивидуальное задание, работа на платформе G-Global 2-7 недели 1 2-7 недели 1 2-7 недели 1 2-7 недели 1 2-7 недели 1 2-7 недели 1 2-7 недели 1 8-14 недели 1 8-14 недели 1 8-14 недели 1 8-14 недели 1 8-14 недели 1 8-14 недели 1 26. Применение ППП SАS для статистического анализа медикобиологических данных. 27. Осуждение проблем на коммуникативной платформе G-Global «Инфраструктура, инновации, инвестиции», сессия «Проблемы и перспективы инвестиционного климата в IT-отрасли Казахстана» Применение ППП Statistica для статистического анализа медикобиологических данных. 28. Рубежный контроль по темам: «Введение. Основы биостатистики», «Основы теории проверки статистических гипотез». 29. Рубежный контроль по темам: «Дисперсионный анализ в медицине и здравоохранении», «Корреляционнорегрессионный анализ», «Планирование и организация статистических исследований». 30 Итоговое занятие (просмотр, комментарии совместно с преподавателем) Индивиду8-14 альное недели задание Просмотры 8-14 с указанием недели статьи, комментарии совместно с преподавателем Тестовые 7-я неделя задания, собеседова ние Тестовые 14-я неделя задания, собеседова ние Тестовые задания 1 1 1 1 15-я неделя 1 Всего часов: 30 Примечание: *Виды индивидуальных заданий: самостоятельное решение задач, реферат, презентация. ** Рубежный контроль включает изученные темы лекционных, практических занятий и СРС 2.9 Литература: основная и дополнительная На русском языке Основная: 1. Герасимов А.Н. Медицинская статистика: учебное пособие/ Герасимов А.Н. – М.: МИА, 2007. - 480 с. 2. Зайцев В.М., Лифляндский В.Г., Маринкин В.И. Прикладная медицинская статистика. Учебное пособие. – СПб:, Фолиант, 2006. – 432 с. 3. Жидкова О.И. Медицинская статистика (конспект лекций). – М.: Эксмо, 2007. – 160 с. 4. Применение методов статистического анализа для изучения общественного здоровья и здравоохранения: учебное пособие / ред. Кучеренко В.З. - 4-е изд., перераб. и доп. – М.: ГЭОТАР - Медиа, 2011. - 256 с. 5. Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. - М.: Медиасфера, 2002. 6. Савилов Е.Д., Мамонтова Л.М. и др. Применение статистических методов в эпидемиологическом анализе. – М.: «МЕД пресс-информ», 2004. – 112 с. Дополнительная: 1. Банержи А. Медицинская статистика понятным языком: вводный курс / Банержи А.; пер. Леонов В.П. – М.: Практическая медицина, 2007. - 287 с. 2. Биостатистика в примерах и задачах: учебно - методическое пособие / Койчубеков Б.К., Сорокина М.А. [и др.]. – Алматы: Эверо, 2012. - 80 с. 8. Жижин К.С. Медицинская статистика: Учебное пособие / К.С. Жижин. - Ростов н/Д: Феникс, 2007. - 160 с. 9. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах / Под ред. Ю.М. Комарова. Т. 1. Теоретическая статистика. - М.: Медицина, 2000. - 412 с. 10. Основы высшей математики и математической статистики: Учебник / И.В. Павлушков и соавт. - М.: ГЭОТАР-МЕД, 2004. - 424 с. 3. Петри А. Наглядная медицинская статистика: учебное пособие / Петри А., Сэбин К. – М.: ГЭОТАР - Медиа, 2009. - 168 с. 4. Плавинский С.Л. Биостатистика: планирование, обработка и представление результатов биомедицинских исследований при помощи системы SAS/ Плавинский С.Л. – СПб: СПбМАПО, 2005. - 560 с. 11. Платонов А.Е. Статистический анализ в медицине и биологии: задачи, терминология, логика, компьютерные методы. - М.: Издательство РАМН, 2000. - 52 с. 12. Халафян А.А. Statistica 6. Статистический анализ данных. 3-е изд. Учебник - М.: ООО «Бином-Пресс», 2007. - 512 с. 11. Юнкеров В.И., Григорьев С.Г. Математико-статистическая обработка данных медицинских исследований. – СПб.: ВМсдА, 2002 - 266 с. На казахском языке Основная: 1. Ахметказиев А.А., Кельтенова Р.Т. Математикалық статистика. Алматы, «экономика», 2002. 2. Бөлешов М.Ə. Медициналық статистика: оқулық/ Бөлешов М.Ə. – Алматы: Эверо, 2010. - 144 б. 3. Шыныбеков Ə.Н. Ықтималдықтар теориясы жəне математикалық элементтерi: оқу құралы/ Шыныбеков Ə.Н. – Алматы: Экономика, 2008. - 236 б. Дополнительная: 1. Бектаев Қ.Б. Ықтималдықтар теориясы жəне математикалық статистика: оқу құралы/ Бектаев Қ.Б. – Алматы: Эверо, 2009. - 410 б. На английском языке Основная: 4. Norman G.R., Streiner D. Biostatistics: the bare essentials. - McMaster Univ., Hamilton, Ontario, Canada, 1998. - 260 p 5. Newman S.C. Biostatistical Methods in Epidemiology. - Wiley, 2001. - 388 p. 6. Petrie A., Sabin C. Medical Statistics at a Glance. - Wiley, 2000. - 168 p. Дополнительная: 3. Le C.T. Introductory biostatistics. - Wiley, 2003. - 536 p. 4. Armitage P. Encyclopedia of Biostatistics. - Wiley, 2006. - 6100 p. 2.10 Методы обучения и преподавания (малые группы, дискуссия, ситуационные задачи, самостоятельная работа, работа в парах, упражнение, электронное обучение, тест, презентации, кейс-стади и т.д.) Лекции: проблемные, обзорные, информационные; Практические занятия: письменное выполнение индивидуальных заданий, решение тестовых заданий, статистическая обработка материалов с использованием компьютерных программ SPSS, Statistica, SAS. Самостоятельная работа студентов под руководством преподавателя (СРСП) - решение ситуационных задач, статистическая обработка материалов по заданной программе с использованием компьютерных программ, проведение метода многофакторного дисперсионного анализа на конкретном материале. Самостоятельная работа студентов (СРС) - работа с учетной и дополнительной литературой, с электронными носителями информации, самостоятельное решение задач, самооценка уровня подготовки по темам самостоятельной работы, статистическая обработка материалов с использованием компьютерных программ SPSS, Statistica, SAS, подготовка и защита тематических рефератов. Требования к выполнению СРС: студент должен своевременно и в полном объеме выполнить задание. СРС рассматривается во время внеаудиторной работы, проверочные работы могут быть выполнены во время проведения практических и СРСП занятий. При выполнении заданий: - для самостоятельного освоения темы можно получать консультации преподавателя; - студенты должны уметь классифицировать основную и дополнительную литературу, статистические данные для решения задач; - задание может быть выполнено индивидуально или вместе с группой. Виды сдачи СРС: - Самостоятельное решение задач - Реферат - Презентация Самостоятельная работа студента принимается в электронном виде. Реферат – готовится студентами по выбору. Реферат должен раскрыть суть вопроса, быть максимально информативным и содержать собственные выводы. Реферат выполняется аккуратно, пишется самостоятельно, с использованием не менее 3 литературных источников. Приводятся схемы, таблицы и рисунки, соответствующие теме реферата. Примерная схема: тема, цели и задачи, актуальность, перечень конкретных вопросов, изученных по данной теме. Объем реферата 5-10 страниц. Содержание включает введение, перечень номеров и заголовков всех разделов, выводы и предложения, список использованной литературы. Требования: грамотность, четкость, конкретность и логическая последовательность, убедительность. Формат А4, шрифт Times New Roman, размер шрифта 14, поля сверху, справа, снизу по 2 см, слева 3 см Презентация – выполнятся самостоятельно по выбранной теме, используется не менее 3 литературных источников. Слайды должны быть содержательные и лаконичные. При защите автор должен демонстрировать глубокие знания по теме, не допускать ошибок при ответе на вопросы во время обсуждения. Это наглядное объяснение своих мыслей, выбранной одной из тем по своему желанию. Время пока презентации – 7-10 минут. Презентация должна раскрыть тему, вызвать интерес у слушателя, оценивается профессионализм и уровень выполнения. Презентация хранится на компактдиске (CD-R) 2.11 Критерии и правила оценки знаний Контроль успеваемости и оценка знаний студента основаны на ГОСО РК 5.03.006.- 2006 «Система образования Республики Казахстан. Контроль и оценка знаний в высших учебных заведениях» от 25 августа 2006, согласно унифицированной методике рейтинга, принятой в ЮКГФА. если не допустил каких-либо ошибок, правильно, своевременно выполнил, сдал результаты и сумел самостоятельно систематизировать программный материал если подготовился по методическим рекомендациям, самостоятельно 49-0 50-54 55-59 60-64 65-69 70-74 75-79 80-84 85-89 90-94 95-100 2.11.1 Правила оценивания практических занятий: оценки выставляются по 100-бальной системе по следующей таблице Критерий оценки практических занятий Балл выставляется при: использовал дополнительную научную литературу при изучении дисциплины если своевременно выполнил задания, освоил программный материал нe ниже чем на 75% и при этом не допустил грубых ошибок при ответе если использовал дополнительную литературу по указанию и выполнил задания своевременно если допускал непринципиальные неточности, исправленные самим студентом, сумел систематизировать программный материал с помощью преподавателя Если освоил программный материал не менее чем на 50%, если при выполнении практических заданий нуждался в помощи преподавателя если допускал непринципиальные ошибки, неточности, не проявил активность в работе если допускал непринципиальные неточности, исправленные самим студентом если не сумел систематизировать программный материал если освоил менее 50% дисциплины 49-0 50-54 55-59 60-64 65-69 70-74 75-79 80-84 85-89 90-94 Критерий оценки СРС Балл выставляется при: полном оформлении, выполнении и защите СРС; публичной защите; выполнении работы в виде электронной презентации (на CD-носителе); выполнении наглядных пособий (стенд, плакат); 95-100 2.11.2 Правила оценивания самостоятельной работы студентов: оценивается полнотой выполнения требований к данной теме и выставляется по следующей таблице. выполнении наглядных пособий (буклет); подготовке глоссария по теме; граммотно выполненной работе; объяснении сути материала готовой работы; выполнении работы на компьютере в виде реферата; выполнении СРС не по требованиям; выполнении работы СРС позже срока сдачи или не выполнении его. При вычислении рейтинга средний балл общего рейтинга следует умножить на 60% либо на 0,6. Примечание: Если у студента рейтинг меньше 50 баллов или 30 процентов, то он не допускается к экзамену. Общая оценка: (текущий контроль + промежуточный контроль + СРС)/3 + итоговый (60%+40%) контроль выставляется по следующей таблице: Буквенное обозначение оценок A AB+ B ЗBC+ C CD+ D F Цифровой эквивалент баллов 95–100 90 – 94 85 – 89 80 – 84 75 – 79 70 – 74 65 – 69 60 – 64 55 – 59 50 – 54 0 – 49 Процентное содержание Оценка по традиционной системе 95 – 100% 90 – 94% 85 – 89% 80 – 84% 75 – 79% 70 – 74% 65 – 69% 60 – 64% 55 – 59% 50 – 54% 0 - 49% Отлично Хорошо Удовлетворительно Не удовлетворительно 2.12 Для проверки учебных достижений обучающихся предусмотрены следующие виды и формы контроля знаний обучающихся: 2.12.1 Текущий контроль – это систематическая проверка учебных достижений обучающихся, проводимая преподавателем на текущих занятиях в соответствии с силлабусом дисциплины. При текущем контроле успеваемости учебные достижения студентов оцениваются по 100 бальной шкале за каждое выполненное задание (при выполнении тестовых заданий на текущих занятиях, ответа в устной и письменной форме, выполнении упражнений, работе с модулем, подготовке презентаций и т.п.) и окончательный результат текущего контроля успеваемости подводится расчетом среднеарифметической суммы всех оценок, полученных в течение академического периода. 2.12.2 Рубежный контроль – это контроль, проводимый не менее двух раз в течение одного академического периода в рамках одной учебной дисциплины во время СРСП (на 7-8-ой и 14-15-ой неделях теоретического обучения). Эти темы по практическим занятиям и СРС проводятся в виде коллоквиума. 2.12.3 Итоговый контроль: (экзамен) проводится в форме тестирования. У студента есть возможность на экзамене набрать (максимум) 40 процентов. Южно-Казахстанская государственная фармацевтическая академия Кафедра медицинской биофизики, информатики и математики ЛЕКЦИОННЫЙ КОМПЛЕКС Дисциплина: Биостатистика Код дисциплины: Bio 3214 Специальность: 5В110200 «Общественое здравоохранение» Объем учебных часов (кредитов): 45 (2) Курс 3 Семестр 6 Лекции: 5 (часов) Шымкент-2014 г. ЛЕКЦИЯ №1 1. Тема: Введение. Основы биостатистики. 2. Цель: Сформировать у студентов основное представление о дисциплине «Биостатистика», ее предмете, задачах и истории развития. Ознакомить студентов с типами данных, методами их сбора, а также с видами измерительных шкал. План лекции: 1. Предмет и задачи биостатистики. 2. Роль Ф. Гальтона, К. Пирсона, Р. Фишера в развитии биометрики. 3. Сбор, классификация и представление данных. 4. Виды измерительных шкал. 3. Тезисы лекции: Статистика - это общественная наука, изучающая количественную сторону массовых общественных явлений в неразрывной связи их с качественной стороной. В статистике свойство объектов или явлений, которое может быть наблюдаемо или измерено, называется признаком. Статистика, изучающая вопросы, связанные с биологией, медициной, фармацией, гигиеной и здравоохранением, называется биостатистикой. Роль биостатистики в практической и научной работе врача, медсестры, фармацевта велика. Биостатистика применяет различные методы: сбор данных, их обобщение, анализ и подведение итогов, основанных на полученных наблюдениях. Статистический анализ помогает добывать информацию из данных и оценивать качество этой информации. Задачи биостатистики: количественное представление биологических фактов (измерение) – это выражение свойства отдельного биологического объекта в виде числа, варианты или значения переменной; обобщенное описание множества фактов (статистическое оценивание) – это расчет показателей и параметров, которые полноценно характеризуют свойства множества однотипных объектов или выборки; поиск закономерностей (проверка статистических гипотез) – это доказательство неслучайности отличий между сравниваемыми совокупностями, объектами, зависимости их характеристик от внешних или внутренних причин; использование классических статистических методов для обработки медицинских данных; использование современных статистических методов для обработки медицинских данных; разработка новых методов для обработки медицинских данных. Основы биометрии начинается с Фрэнсис Гальтона (1822—1911). Первоначально Гальтон готовился стать врачом. Однако, обучаясь в Кембриджском университете, он увлекся естествознанием, метеорологией, антропологией, наследственностью и теорией эволюции. В его книге, посвященной природной наследственности, изданной в 1889 году им впервые было введено в употребление слово biometry. В это же время он разработал основы корреляционного анализа. Гальтон заложил основы новой науки и дал ей имя. Однако превратил её в научную дисциплину математик Карл Пирсон (1857—1936). В 1884 году Пирсон получил кафедру прикладной математики в Лондонском университете, а в 1889 году познакомился с Гальтоном и его работами. Большую роль в жизни Пирсона сыграл английский зоолог, биометрик, первый организатор журнала «Биометрика» В.Уэлдон. Помогая Уэлдону в анализе зоологических данных, Пирсон ввёл в 1893 г. понятие среднего квадратического отклонения и коэффициента вариации. Пытаясь математически оформить теорию наследственности Гальтона, Пирсон в 1898 г. разработал основы множественной регрессии. В 1903 г. Пирсон разработал основы теории сопряженности признаков, а в 1905 г. опубликовал основы нелинейной корреляции и регрессии. Следующий этап развития биометрии связан с именем великого английского статистика Рональда Фишера (1890—1962). Во время обучения в Кембриджском университете Фишер познакомился с трудами Г. Менделя и К. Пирсона. В 1913—1915 годах Фишер работал статистиком на предприятии, а в 1915—1919 годах преподавал физику и математику в средней школе. С 1919 по 1933 год Фишер работал статистиком на опытной сельскохозяйственной станции в Ротамстеде. Затем, по 1943 год, Фишер занимал должность профессора в Лондонском университете, а с 1943 года по 1957 год заведовал кафедрой генетики в Кембридже. Он является основоположником теории выборочных распределений, методов дисперсионного и дискриминантного анализа, теории планирования экспериментов, метода максимального правдоподобия и многого другого, что составляет основу современной прикладной статистики и математической генетики. Основоположник понятия о средних величинах, бельгийский ученый А. Кетле применил статистические методы для решения задач биологии, медицины и социологии. Первым этапом при проведении любого статистического исследования является сбор данных об анализируемом объекте или процессе в виде конкретных значений переменных. Сбором статистических данных называется процесс получения информации об элементах исследуемой совокупности и их свойствах. Эти данные являются предметом статистической обработки и анализа. Вторым этапом является анализ типов данных. Классификация типов данных ДАННЫЕ Даты Качественные Количественные Дискретные Интервальные Непрерывные Номинальные Относительные Порядковые Бинарные (дихотомические) Основные типы данных делятся на количественные и качественные. Количественные данные в свою очередь подразделяются на дискретные (прерывные) и непрерывные. Дискретные данные – количественные данные, которые представлены только в виде целого числа, т.е. не могут иметь дробную часть. Например: количество детей. Непрерывные данные – это данные, которые получают при измерении на непрерывной шкале, т.е. теоретически они могут иметь дробную часть. Например: масса тела, рост, артериальное давление и т.д. Непрерывные данные бывают интервальными и относительными. Интервальные данные – вид непрерывных данных, которые измеряются в абсолютных величинах, имеющих физический смысл. Относительные данные – вид непрерывных данных, отражающих долю изменения (увеличения или уменьшения) значения признака по отношению к исходному (или к какому-либо другому) значению этого признака. Эти данные являются безразмерными величинами или выражаются в процентах. Качественные данные – подразделяются на номинальные и порядковые. Номинальные данные – вид качественных данных, которые отражают условные коды неизмеряемых категорий (коды диагноза). Порядковые данные - вид качественных данных, которые отражают условную степень выраженности какого-либо признака (стадии онкологических заболеваний, степени сердечной недостаточности). Их основное отличие от дискретных количественных данных заключается в отсутствии пропорциональной шкалы для измерения выраженности признака. Бинарные (дихотомические) данные - особо выделяемый вид качественных данных. Признак такого типа имеет лишь два возможных значения (пол, наличие или отсутствие какого-либо заболевания). Особым видом данных являются даты. Поскольку в ряде случаев бывает необходимо произвести с ними некоторые арифметические действия (вычисление абсолютного периода времени между двумя событиями по датам этих событий). Иногда выделяют также некоторые особые подтипы данных, являющиеся частными случаями вышеперечисленных типов: ранги, очки, визуальные аналоговые шкалы, цензурированные данные. Перед тем как проводить угубленный статистический анализ, важно провести предварительный анализ данных. На этом этапе для сжатия и систематизации набора данных используют графические методы. Это позволяет оценить особенности набора данных и выявить аномалии, т.е. выбрать для дальнейшого анализа подходящие статистические методы. Дискретные данные могут быть представлены в виде таблицы, столбиковой диаграммы, пиктограммы, круговой диаграммы, точечного рисунка. Непрерывные данные могут быть представлены в виде группированной выборки, гистограммы, диаграммы «стебель с листьями» или «ящик с усами», кривой Лоренца и т.д. Смешанные данные могут быть представлены в виде диаграммы рассеяния. Графические методы представления данных. График, в котором статистические данные изображаются различными геометрическими фигурами, называется диаграммой. Виды наиболее часто используемых диаграмм: Диаграммы, изображающие динамику явления, выраженного в показателях интенсивности, соотношения, наглядности, средних или абсолютных величинах, называются линейными. Вид линейной диаграммы, применяемой для изображения динамики явления за замкнутый цикл времени (сутки, неделя, месяц, год), называется радиальной. Диаграммы, изображающие динамику или статику явления в соответствии с избранным масштабом, называются столбиковыми. Диаграммы, изображающие структуру явления, выраженного экстенсивными показателями, и представляющие собой прямоугольник, в котором цветом выделены составляющие его части в соответствии с их удельным весом, называются внутристолбиковыми. График, который представляет собой смесь диаграммы и таблицы, эффективен для отображения данных по увеличению порядка величины, называется графиком «стебель и листья». 3 1 04 ,0 665 1 39 ,1 53 1 99 ,2 9751 1 113567 ,3 7999 9554 1 0148 10 ,4 9876 1 003388 65 ,5 99 9531 1 000135 100 ,6 5 731 1 001145 ,7 69 9984 1 6 3110 ,8 6544 1 01 00 ,9 6 2 ,0 7 2 19 ,1 10 2 ,2 График, представляющий собой ломаную, соединяющую точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов, называется полигоном. График, который представляет собой прямоугольник, где две параллельных стороны соответствуют верхнему и нижнему квартилям данных, а линии, начинающиеся в конце прямоугольника, показывают минимальные и максимальные значения, называется график «ящик с усами». Квартили в статистике – это три величины, которые делят набор данных на четыре равные части. Верхний квартиль это часть набора данных с наиболее высокими значениями. Перцентили - величины, делящие вариационный ряд на 100, а децили - на 10 равных частей. Графическое изображение, характеризующее зависимость частоты попадания элементов выборки от соответствующего интервала группировки называется гистограммой. Измерение – это процедура сравнения объектов по определенным показателям или характеристикам (признакам, атрибутам). Шкала – необходимый, обязательный элемент измерительной процедуры. Основные типы измерительных шкал, применяемые в медикобиологических исследованиях: номинальная или шкала наименований используетя для классификации свойств объекта, присвоения им числовых, буквенных и иных символьных характеристик (пол, национальность, цвет глаз, цвет волос, диагноз и т.д.); порядковая или ранговая – упорядочивает значения признака (шкала стадий гипертонической болезни по Мясникову, шкала степеней сердечной недостаточности по Стражеско-Василенко-Лангу, шкала степени выраженности коронарной недостаточности по Фогельсону и др.); интервальная – показывает «размах» отдельных измерений признака (время, шкала температур, тестовые баллы); шкала отношений – выявляет соотношение измеренных значений признака (рост, вес, время реакции, количество выполненных заданий теста). 4. Иллюстративный материал: презентация, слайды. 5. Литература: 1. Жижин К.С. Медицинская статистика: Учебное пособие/ - Ростов н/д: Феникс, 2007. - 160 с. 2. Петри А., Сэбин К. Наглядная медицинская статистика/ пер. с англ. под ред. 3. 4. 5. В.П. Леонова. 2-е изд., перераб. и доп. - М.: ГЭОТАР-Медиа, 2009. - 168 с. Платонов А.Е. Статистический анализ в медицине и биологии: задачи, терминология, логика, компьютерные методы. - М.: Издательство РАМН, 2000. - 52 с. Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. - М.: МедиаСфера, 2002. - 312 с. Рокицкий П.Ф. Биологическая статистика. Изд. 3-е, испр. Минск, «Высшая. школа», 1973. - 320 с. http://www.biometrica.tomsk.ru 6. 7. http://ru.wikipedia.org 6. Контрольные вопросы: 1. Что такое «биостатистика»? 2. Какова роль ученых Ф. Гальтона, К. Пирсона, Р. Фишера в развитии биометрики? 3. Что подразумевается под сбором статистических данных? ЛЕКЦИЯ №2 1. Тема: Основы теории проверки статистических гипотез. 2. Цель: Ознакомить студентов с основами теории проверки статистических гипотез. План лекции: 1. Статистические гипотезы, применительно к биостатистическим медикобиологическим исследованиям. 2. Доверительная вероятность, уровень значимости, мощность критерия. Алгоритм проверки статистических гипотез. 3. Критерии согласия χ2 Пирсона, Колмогорова – Смирнова. 4. t-критерий Стьюдента для анализа биомедицинских данных. 5. Непараметрические критерии проверки гипотез. 3. Тезисы лекции. В прикладных задачах часто требуется по наблюдениям выборки высказать некоторое суждение (гипотезу) относительно интересующих экспериментатора характеристик генеральной совокупности, из которой эта выборка извлечена. То есть, речь идет о проверке статистических гипотез. Гипотеза – это некоторое предположение о параметрах известных распределений (параметрическая) или о виде неизвестного закона распределения (непараметрическая) случайных величин, выдвигаемое в качестве предварительного, условного объяснения. Генеральная статистическая совокупность – это совокупность элементов, которая состоит из бесконечно большого числа единиц. Выборка или выборочная совокупность – это часть генеральной совокупности элементов, которая охватывается наблюдением. Репрезентати́вность – это соответствие характеристик выборки характеристикам генеральной совокупности в целом. Она определяет, насколько возможно применить результаты исследования с привлечением определённой выборки для характеристики генеральной совокупности, из которой она была выбрана. Виды репрезентативности выборки: Качественная – соответствие признаков единиц наблюдения в выборочной и генеральной совокупностях. Количественная – достаточное число наблюдений. Объем выборки – это число случаев, включённых в выборочную совокупность. Единица наблюдения – это каждый частный случай явления, которое изучается. Основа выборочного метода исследования – это закон больших чисел, который характеризует тенденцию показателя выборочной совокупности при увеличении числа наблюдений максимально приближаться к генеральной совокупности. Теория проверки статистических гипотез является основным инструментом доказательной, а не интуитивной медицины. Задачи медицинских и биологических исследований, для решения которых необходимо сформулировать статистические гипотезы: анализ соответствия распределения значений признака в изучаемой группе какому-либо определенному закону (анализ соответствия распределения нормальному закону); сравнение групп по параметрам распределений признака (по средним значениям, дисперсиям). Например, при проверке статистических гипотез можно получить ответ на следующий вопрос. В двух однородных группах больных гриппом была проведена вакцинация: одной лекрственным средством «А», а другой - «В», среднее время выздоровления в группах неодинаково. Указывает ли это обстоятельство на то, что одно противогриппозное средство по эффективности превосходит другое или же выявленное различие случайно? Для решения любой подобной задачи выдвигаются две статистические гипотезы: нулевая гипотеза Н0 - гипотеза об отсутствии различий между группами, либо об определенных значениях параметров, либо о соответствии распределения нормальному закону; альтернативная гипотеза Н1 - гипотеза о существовании различий между группами, либо об отличающихся от заданных значениях параметров, либо о несоответствии распределения нормальному закону. Нулевая гипотеза формулируется таким образом, чтобы она была противоположной той исследовательской (медицинской, биологической) гипотезе, которая послужила поводом для проведения исследования. Для проверки нулевой гипотезы применяют статистические методы (тесты, критерии). Статистика – это функция от выборочных наблюдений на основе которой принимается или отвергается нулевая гипотеза. Статистическими критериями называются правила, согласно которым выясняется, соответствует или нет интересующая нас гипотеза опытным данным. Статистические критерии - это наиболее широко применяемые статистические средства. Значение критерия, которое рассчитано по выборочной совокупности, подчиняющейся определённому закону распределения, называется наблюдаемым. Множество возможных значений статистического критерия, при которых основная гипотеза принимается, называется областью принятия. Множество возможных значений статистического критерия, при которых основная гипотеза отвергается, называется критической областью. Точки, разграничивающие критическую область и область принятия гипотезы, называются критическими точками. В результате проверки статистических гипотез возникают следующие ситуации: 1. Н0 неверна и отклонена согласно статистическому критерию истинноположительный результат; 2. Н0 верна, но ошибочно отклонена согласно статистическому критерию ложноположительный результат (ошибка первого рода); 3. Н0 неверна, но ошибочно не отклонена согласно статистическому критерию - ложноотрицательный результат (ошибка второго рода); 4. Н0 верна и не отклонена согласно статистическому критерию истинноотрицательный результат. Возможные решения при различных соотношениях результатов статистического теста и истинной ситуации в генеральной совокупности В статистическом тесте В генеральной совокупности Н0 не верна Н0 верна Ложно Истинно положительный Н0 отклонена положительный результат (ошибка результат первого рода) Ложно Истинно отрицательный Н0 не отрицательный результат (ощибка отклонена результат второго рода) Ошибка первого рода иначе называется уровнем статистической значимости. Уровень значимости - это максимально приемлемая для исследователя вероятность ошибочно отклонить нулевую гипотезу, когда на самом деле она верна, т.е. допускаемая исследователем величина ошибки первого рода. При иссследованиях в фармации, медицине и биологии используется величина уровня значимости, равная 0,05. При разработке стандартов используют уровень значимости равный 0,01. Уровень значимости или вероятность ошибки первого рода обозначается через «р», а вероятность ошибки второго рода - через «γ». Доверительная вероятность (γ) - это вероятность не совершить ошибку первого рода и принять верную гипотезу Н0 (γ=1-р). Важнейшей характеристикой любого статистического критерия является его мощность. Мощностью критерия называется его способность правильно исключать ложную гипотезу. Мощность оценивается вероятностью 1-γ, где γ - вероятность ошибки второго рода. Функция, определяющая значения 1-γ в зависимости от указанных вероятностей и числа наблюдений, называется функцией мощности критерия. Эта функция позволяет выбрать подходящий критерий для практического использования, а также учитывается при разработке новых критериев. Гипотеза Н0 Решение Вероятность Принимается 1-р Отвергается р Принимается γ Отвергается 1- γ Верна Неверна Примечание Доверительная вероятность Вероятность ошибки первого рода Вероятность ошибки второго рода Мощность критерия Алгоритм проверки статистических гипотез: 1) Выдвигаются две гипотезы: основная (нулевая) Н0 и альтернативная (конкурирующая) Н1. 2) Задается уровень значимости. Статистический вывод никогда не может быть сделан со стопроцентной уверенностью. Всегда допускается риск принятия неправильного решения. При проверке статистических гипотез мерой такого риска является уровень значимости. 3) По исходным данным, т.е. по выборке, вычисляется наблюдаемое значение критерия. 4) По специальным статистическим таблицам определяется табличное, т.е. критическое, значение критерия. 5) Путем сравнения наблюдаемых и критических значений делается вывод о правильности той или иной гипотезы. В биостатистике часто проверяются гипотезы о виде распределения случайной величины. Соотношение, устанавливающее связь между возможными значениями случайной величины и соответствующими им вероятностями, называется законом распределения случайной величины. Существуют различные законы распределения случайной величины (равномерный, биноминальный, экпонециальный, Пуассона, нормальный и др.). Нормальный закон распределения (закон Гаусса) играет важную роль в биостатистике. Во-первых, это наиболее часто встречающийся на практике закон распределения непрерывных случайных величин. Во-вторых, он является предельным законом в том смысле, что к нему при определенных условиях приближаются другие законы распределения. Нормальный закон распределения характеризуется формулой для плотности вероятности: 1 f ( x) e 2 х 2 2 2 где х – возможное значение случайной величины «X»; µ или М(Х)- ее математическое ожидание; –среднее квадратическое отклонение. Если случайная величина распределена по нормальному закону, то достаточно знать только два числовых параметра: µ и , чтобы полностью знать закон ее распределения. График функции называется нормальной кривой распределения (кривой Гаусса). Он имеет симметричный вид относительно ординаты х=µ=М(Х). 1 Максимальная плотность вероятности, равная 0,4 , соответствует 2 математическому ожиданию, которое выражает среднее значение М(Х)= X . По мере удаления от нее плотность вероятности f(х) уменьшается и постепенно приближается к нулю. Нормальное распределение случайной величины. Множество биологических и медицинских показателей (показатели физического развития, составляющие плазмы крови и др.), а также ошибки их измерения подчиняются нормальному распределению. Поэтому важно уметь проверять гипотезы о параметрах нормально распределенных случайных величин. Все предположения о характере того или иного распределения - являются гипотезами. Поэтому они должны подвергаться статистической проверке с помощью критериев согласия. Эти критерии дают возможность определить, когда расхождения между теоретическими и эмпирическими частотами следует признать несущественными, т.е. случайными, а когда – существенными, т.е. неслучайными. Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду. Наиболее распространенными критериями согласия являются критерии 2 χ -Пирсона и Колмогорова-Смирнова. 1. Критерий согласия χ2 -Пирсона. Критерий Пирсона применяется в двух случаях: для сопоставления расчетного распределения признака с теоретическим распределением (нормальным, экспоненциальным, равномерным и т.д.); для сопоставления двух расчетных распределений одного и того же признака. Цель метода - определение степени расхождения соответствующих частот i , i , т.е., чем больше это расхождение, тем больше значение χ2расч. Пусть х1,х2,…,хn - выборка наблюдений случайной величины «Х». Проверяется гипотеза Н0, утверждающая, что случайная величина «Х» имеет функцию распределения F(x). Формула критерия χ : 2 k 2 расч i 1 i i i 2 , где k - число групп, на которое разбито эмпирическое распределение, υi наблюдаемая частота признака в i-й группе, i - теоретическая частота. Для распределения χ2 составлены таблицы. В которых указано критическое значение критерия согласия χ2кр для выбранного уровня значимости «р» и степеней свободы «f». Число степеней свободы находят по равенству f=s-1-r, где s - число групп выборки, r - число параметров предполагаемого распределения. Например, если предполагаемое распределение – нормальное, то оценивают два параметра (математическое ожидание и среднее квадратическое отклонение), поэтому r=2 и число степеней свободы f=s-1-2=s-3. Если 2 эмп < 2 кр , то при заданном уровне значимости и числе степеней свободы нет оснований отвергнуть гипотезу «H0». Если 2 эмп ≥ 2 кр , то при заданном уровне значимости и числе степеней свободы гипотезу «H0» отвергают и принимают гипотезу «Н1». Критерий согласия Пирсона применяется, если объем совокупности достаточно велик N≥50, при этом частота каждой группы должна быть не менее пяти. 2. Критерий согласия Колмогорова - Смирнова. Пусть х1,х2,…,хn – выборка наблюдений случайной величины «Х». Проверяется гипотеза «Н0», утверждающая, что случайная величина «Х» имеет определенный закон распределения. В данном критерии при расчете расхождения между теоретическим и наблюдаемым распределениями применяют максимальное значение абсолютной величины разности между наблюдаемой частотой υi и соответствующей теоретической частотой i : dmax= max i i Формула критерия: расч d max N , где N - число наблюдений в статистическом ряду. При уровне значимости р=0,05 λкр=1,36. Если расч ≤ кр , то при заданном уровне значимости нет оснований отвергнуть гипотезу H0. Если расч > кр , то при заданном уровне значимости гипотезу H0 о предполагаемом распределении отвергают и принимают гипотезу Н1. Критерий Колмогорова-Смирнова применяется при достаточно большом числе наблюдений (N≥50). t-критерий Стьюдента – это метод проверки однородности выборок. Он позволяет принять или отвергнуть гипотезу о равенстве средних значений двух выборок. Основные условия применимости критерия Стьюдента: • рассматриваемые выборки имеют нормальное распределение; • дисперсии выборок равны. Критерий Стьюдента может применяться при малых выборках (n1,2≤30). Два случая использования t-критерия Стьюдента: 1. При проверке гипотезы о равенстве средних значений двух независимых выборок (двухвыборочный t-критерий). В этом случае анализируются контрольная и экспериментальная (опытная) выборки разных объемов. 2. При проверке гипотезы о равенстве средних двух зависимых выборок (парный t-критерий). В этом случае анализируется одна и та же выборка до и после эксперимента. Порядок применения двухвыборочного t-критерия Стьюдента: 1. Н0: х1 х2 Н1:х1 х2 2. р=0,05 3. t расч х1 х2 n1 1s 2 1 n2 1s 2 2 n1n2 (n1 n2 1) , n1 n2 где n1, n2 - объемы рассматриваемых выборок, s12 , s 22 - дисперсии рассматриваемых выборок, x1 , x2 - сравниваемые средние значения выборок, n1+n2-1=f - степень свободы. 4. t крит ( р; f ) . 5. Если t расч < t крит , то различия между средними значениями данных не являются статистически значимыми, т.е. нулевая гипотеза (Н0: х1 х2 ) принимается. Если t расч > t крит , то различия между средними значениями данных являются статистически значимыми, т.е. нулевая гипотеза отвергается. Порядок применения парного t-критерия: 1. Н0: х1 х2 Н1:х1 х2 2. р=0,05 3. n(n 1) t расч d , n d i 1 2 i nd 2 d xi yi - разности между соответствующими значениями пар где переменных, d - среднее значение этих разностей, n - объем выборки, n-1=f степень свободы. 4. t крит ( р; f ) . 5. Если t расч < t крит , то различия между средними значениями данных не являются статистически значимыми, т.е. нулевая гипотеза (Н0: х1 х2 ) принимается. Если t расч > t крит , то различия между средними значениями данных являются статистически значимыми, т.е. нулевая гипотеза отвергается. Статистические критерии делятся на параметрические и непараметрические. Параметрические критерии - статистические критерии, предполагающие наличие нормального распределения переменных, которые измеряются на шкале интервалов или отношений (например, t-критерий Стьюдента, χ2 Пирсона). Непараметрические критерии - критерии, которые не рассматривают анализируемое статистическое распределение как функцию, их применение не предполагает предварительного вычисления параметров распределения (например, критерий Манна-Уитни, критерий Уилкоксона, критерий знаков). Эти критерии сопоставляют не сами по себе полученные величины, а порядок (ранг) их расположения, их соотношение по типу больше-меньше. Применимость непараметрических критериев именно к порядковым (а не строго количественным) показателям выступает их серьезным преимуществом перед критериями параметрическими. Это особенно важно для измерений в медицине. Кроме того, непараметрические критерии не требуют анализа формы распределения, т.е. не рассчитаны только лишь на нормальное распределение, хотя и в его условиях дают надежные результаты. В математической статистике для различных приложений создано большое количество параметрических и непараметрических критериев, многие из которых маломощны или не определены по мощности. Поэтому в медицинских приложениях лучше пользоваться сравнительно небольшим набором основных критериев, наиболее мощных в большинстве случаев. 4. Иллюстративный материал: презентация, слайды. 5. Литература: 1. Васильева Л.А. Статистические методы в биологии, медицине и сельском хозяйстве: Учеб. пособие для вузов. - Новосибирск, Новосибирский Государственный университет, 2007. - 128 с 2. Герасимов А.Н. Медицинская статистика: Учеб. Пособие. – М.: МИА, 2007. - 480 с. 3. Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов.- 9-е изд., стер. - М.: Высш. шк., 2003. - 479 с. 4. Зайцев В.М., Лифляндский В.Г., Маринкин В.И. Прикладная медицинская статистика. Учебное пособие. – СПб:, Фолиант, 2006. – 432 с. 5. Жижин К.С. медицинская статистика: Учебное пособие. - Ростов н/Д: Феникс, 2007. - 160 с. 6. Кендалл М., Стюарт А. Статистические выводы и связи. - М.: Наука, 1973. 470 с. 7. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах/ Под ред. Ю.М. Комарова. Т. 1. Теоретическая статистика. - М.: Медицина, 2000. - 412 с. 8. Основы высшей математики и математической статистики: Учебник / И.В. Павлушкин и соавт. - М.: ГЭОТАР-МЕД, 2004. - 424 с. 9. Петри А., Сэбин К. Наглядная медицинская статистика / А. Петри, К. Сэбин; пер. с англ. под ред. В.П. Леонова. 2-е изд., перераб. и доп. - М.: ГЭОТАРМедиа, 2009. - 168 с. 10.Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. - М.: МедиаСфера, 2002. - 312 с. 11.http://matstats.ru/ 6. Контрольные вопросы: 1. Что называется ошибкой первого рода? 2. Что называется ошибкой второго рода? 3. Что называется доверительной вероятностью? 4. Что называется уровнем значимости? 5. Что называется мощностью критерия? ЛЕКЦИЯ №3 Тема: Дисперсионный анализ в медицине и здравоохранении. Цель: Ознакомить студентов с основами дисперсионного анализа. План лекции: 1. Основные понятия и методика дисперсионного анализа. 2. Общая, факторная и остаточная дисперсии. 3. Однофакторный дисперсионный анализ. 4. Двухфакторный дисперсионный анализ 3. Тезисы лекции. Дисперсионным анализом называют группу статистических методов, разработанных английским математиком и генетиком Р. Фишером в 20-х годах ХХ-го столетия для ряда экспериментальных задач биологии и сельского хозяйства. Однако математическая постановка задачи указывает на универсальность этих методов, которые в настоящее время с успехом применяются и в медицинских исследованиях, и в экономике, и в других самых разных областях, где исследуются экспериментальные наборы данных. Постановка задачи. Пусть даны генеральные совокупности X1, X2,…, Xk., где: все «k» генеральных совокупностей распределены нормально; дисперсии всех генеральных совокупностей одинаковы. При этих условиях и заданном уровне значимости «р» требуется проверить нулевую гипотезу равенства средних, т.е. H0: x1 х2 ... хk . Извлекая из каждой генеральной совокупности по выборке, требуется определить значимость или незначимость различия полученных «k» выборочных средних. Можно предполагать, что все «k» генеральных совокупностей в нормальном виде идентичны, т.е. имеют не только равные дисперсии, но и одинаковые средние значения. Однако каждая из генеральных совокупностей подвержена влиянию одного или нескольких качественных факторов, входящих в эксперимент, которые могут изменять их средние значения. Фактором называется показатель, который оказывает влияние на конечный результат. Фактор может быть один или несколько. Конкретную реализацию фактора называют уровнем фактора. Значение измеряемого признака называют откликом на фактор. Например, некоторое количество больных гипертонией разбиты случайным образом на «k» групп, каждой из которых назначен прием определенного лекарства. В результате контролируется среднее значение показателя изменения артериального давления. В данном примере: значения показателя в «i»-ой группе, состоящей из «ni» больных – это «i»-я выборка из объема «ni»; лекарство - это фактор, влияющий на величину контролируемого показателя; показатель изменения артериального давления - это отклик на воздействие фактора. Предполагается, что по группам принимаемые лекарства различаются либо видом, либо дозой, либо еще каким-либо образом. Тогда воздействующий фактор подразделяется на некоторые составляющие, называемые уровнями фактора. Для сравнения влияния факторов на результат необходим определенный статистический материал. Для этого каждый из «k» способов обработки применяют несколько раз к исследуемому объекту и регистрируют результаты. Итогом этих испытаний являются «k» выборк разных объемов. В зависимости от количества изучаемых факторов дисперсионный анализ делится на однофакторный и многофакторный. В примере с изменением артериального давления можно исследовать: фактор времени года (уровни: зима, весна, лето, осень); фактор места эксперимента (уровни: лечение в стационаре или дома); фактор режима (уровни: постельный, обычный или регулярные пешие прогулки на свежем воздухе) и т.п. Выборочные данные оформляют в виде таблицы. Данные для однофакторного дисперсионного анализа Номер испытания 1 2 ... nj Групповое среднее A1 x11 x21 x n11 x гр1 Уровень фактора А A2 … x12 … x22 … … … … xn 2 … x гр 2 2 Ak x1k x2k x nk k x грk Основная цель дисперсионного анализа состоит в разбиении выборочной дисперсии S 2 1 n ( xi x) 2 n 1 i 1 на две компоненты: первая – это факторная дисперсия, она соответствует влиянию фактора на изменчивость средних значений; вторая – это остаточная дисперсия, она обусловлена случайными причинами и не влияет на изменчивость средних значений). Для численной оценки влияния исследуемого фактора используют сравнение этих компонент с помощью критерия Фишера. Факторная дисперсия ( S 2 факт ) – это дисперсия, которая соответствует влиянию фактора на изменение средних значений выборки: k 2 S факт SS фатк k 1 r x гр j x 2 j 1 k 1 , где SS факт - факторная сумма квадратов отклонений, k - количество уровней фактора, r -количество значений в каждой группе, х - общая средняя, х гр групповая средняя. 2 Остаточная дисперсия ( S ост ) – это дисперсия, возникающая по случайными причинами и не влияющая на изменение средних значений выборки: x r 2 MS ост SS ост k (r 1) i 1 r xi 2 x гр 2 i 1 x гр1 2 r ... xi k x гр k 2 i 1 2 i 1 k (r 1) , где SS ост - остаточная сумма квадратов отклонений. Общая дисперсия – это сумма факторной и остаточной дисперсий: x k 2 S общ SS общ n 1 j 1 r i 1 ij n 1 x 2 , где SS общ SS факт SS ост Однофакторный дисперссионный анализ – система статистических методов исследования действия на признак только одного фактора. Метод однофакторного дисперсионного анализа применяется в тех случаях, когда исследуются изменения результативного признака под влиянием изменяющихся условий или градаций какого-либо фактора. Порядок проведения однофакторного дисперсионного анализа. 1) Формулируем нулевую и альтернативную гипотезы: Н0: групповые генеральные средние равны x1 х2 ... хk . Различие выборочных средних получилось случайно, фактор влияния не оказывает. H1: различие между выборочными средними не случайно и обусловлено влиянием фактора. 2) Задается уровень значимости «р» (в фармации, медицине и биологии р=0,05). 2 3) Вычисляются S 2 факт и S ост 2 2 Если Sфакт , то принимается нулевая гипотеза. Sост 2 2 Если Sфакт , то вычисляется критерий, который имеет распределение Sост Фишера-Снедекора: Fнабл 2 S факт 2 S ост . 4) По таблицам критических значений распределения Фишера-Снедекора, соответственно числам степеней свободы f1=k-1 и f2=k(r-1), находится Fкр . 5) Сравниваются Fнабл и Fкр : Если Fнабл < Fкр , то при заданном уровне значимости нулевая гипотеза Н0 принимается и делают вывод, что фактор не влияет существенно на средние значения. Если Fнабл > Fкр , то нулевая гипотеза отвергается и влияние фактора признается существенным. Поведение критерия «F» напрямую связано с принятием или отвержением нулевой гипотезы о равенстве средних, расчитанных по выборкам. Критерий «F» называют дисперсионным отношением. Результат дисперсионного анализа сводят в таблицу: Источник вариации, дисперсии Межгрупповая (фактор А) Сумма Число квадратов степеней отклонений свободы SS факт k-1 Внутригрупповая SS ост (остаточная) SS общ Общая Средний квадрат MS S 2 факт Fкр Fнабл Fнабл 2 S факт S Fкр 2 ост 2 ост k(r-1) S n-1 2 S общ Пример. Влияние курения на заболеваемость дыхательных путей. Среди взрослого населения определенной возрастной категории фиксировалось число заболеваний дыхательных путей за два года. Цель исследования – статистическое доказательство влияния курения на заболеваемость дыхательных путей. Случайным образом были отобраны 3 группы по 4 человека каждая, из них: 1 группа - некурящие, 2 группа - стаж курильщика - до 5 лет, 3 группа стаж курильщика более 5 лет. Таким образом, исследуемый фактор «А» - курение, уровни фактора, А1, А2, А3 - стаж курильщика. Отклик на фактор курения - число заболеваний дыхательных путей. Были получены 12 значений числа заболеваний – х ij , где j - номер уровня фактора (j=1, 2, 3), i - номер элемента в соответствующей выборке (группе), i =1, 2, 3, 4: x11 x 21 x31 x41 x12 x13 1 0 x22 x23 1 x32 x33 x42 x43 2 3 3 2 4 2 5 1 3 Предполагаем, что xij - выборка из нормальной генеральной совокупности. Все данные необходимо занести в таблицу: Уровень фактора «А» Номер испытания A1 A2 А3 1 1 3 3 2 0 2 4 3 1 2 5 4 2 1 3 Групповое 4/4=1 8/4=2 15/4=3,75 среднее Алгоритм решения: 1. Вычисляются: Общая средняя: х (4 8 15) / 12 2,25 Факторная сумма квадратов отклонений: SSфакт 4 * ((1 2,25) 2 (2 2,25) 2 (3,75 2,25) 2 ) 15,5 Остаточная сумма квадратов отклонений: SS ост (1 1) 2 (0 1) 2 (1 1) 2 (2 1) 2 (3 2) 2 (2 2) 2 (2 2) 2 (1 2) 2 (3 3,75) 2 (4 3,75) 2 (5 3,75) 2 (3 3,75) 2 6,75 Общая сумма квадратов отклонений: SS общ 15,5 6,75 22,25 15,5 7,75 3 1 6,75 0,75 3(4 1) Факторная дисперсия: S 2 факт Остаточная дисперсия: S 2 ост 2. Полученные данные заносятся в таблицу: Источник Сумма Число Средний Fкр Fнабл вариации, квадратов степеней квадрат дисперсии отклонений свободы S2 Межгруппо SS факт =15,5 k-1=3-1=2 S 2 факт = Fкр (0,05;2;9) S 2 факт Fнабл 2 = вая (фактор S ост =7,75 =4,26 А) 7,75/0,75=10,3 Внутригруп SS ост =6,75 k(r-1) = S 2 ост = повая (оста=3(4-1)=9 =0,75 точная) Общая n-1= SS общ =22,25 =12-1=11 3. Сравниваются Fнабл и Fкр : Fнабл > Fкр – значит нулевая гипотеза отвергается и влияние фактора признается существенным, т.е. фактор курения значимо влияет на заболеваемость дыхательных путей. Двухфакторный дисперсионный анализ – система статистических методов исследования действия на признак двух организованных факторов. Двухфакторный дисперсионный анализ позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие. 4. Иллюстративный материал: презентация, слайды. 5. Литература: 1. Васильева Л.А. Статистические методы в биологии, медицине и сельском хозяйстве: Учеб. пособие для вузов. - Новосибирск, Новосибирский Государственный университет, 2007. - 128 с 2. Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов. - 9-е изд., стер. - М.: Высш. шк., 2003. - 479 с. 3. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах / Под ред. Ю.М. Комарова. Т. 1. Теоретическая статистика. - М.: Медицина, 2000. - 412 с. 4. Основы высшей математики и математической статистики: Учебник / И.В. Павлушкин и соавт. - М.: ГЭОТАР-МЕД, 2004. - 424 с. 5. Плохинский Н.А. Биометрия / изд. 2. - М.: МГУ, 1970. - 367 с. 6. Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. - М.: МедиаСфера, 2002. - 312 с. 6. Контрольные вопросы: 1. Какие статистические гипотезы проверяются с помощью дисперсионного анализа? 2. Какова основная идея дисперсионного анализа? ЛЕКЦИЯ №4 1. Тема: Статистические методы в эпидемиологическом анализе. 2. Цель: ознакомить студентов с основами применения статистических методов в эпидемиологическом анализе. План лекции: 1. Основные критерии эпидемиологического анализа: 1.1. Эпидемиологические показатели. 1.2.Средние величины, их размеры и количественные отношения признаков. 2. Анализ заболеваемости по факторам риска, количественная оценка факторов риска развития заболевания. 3. Тезисы лекции. Эпидемиологический анализ — это анализ уровня, структуры и динамики заболеваемости среди какой-либо группы населения или на определенной территории с целью установления причин и условий, определяющих проявления эпидемиологического процесса. Изучение и анализ эпидемиологической ситуации на различных территориях с целью выявления и устранения причин возникновения инфекционных заболеваний представляют важную научную и прикладную задачу. На основании знаний закономерностей эпидемического процесса и факторов, способствующих его проявлению, можно сделать заключение о дальнейшем ходе развития этого процесса во времени и пространстве. Важнейшим инструментом для реализации подобного заключения являются методы статистического анализа. 1.1. Оценка эпидемиологической ситуации и эффективности профилактических и противоэпидемических мероприятий проводится с использованием ряда статистических показателей, которые являются общими для многих инфекций. Под термином «эпидемиологические показатели» следует понимать качественную или количественную характеристику эпидемических явлений. Эпидемиологические показатели рассчитываются на определенную численность населения (на 1000, 10 000, 100 000 и т. д.), поэтому они являются относительными величинами и называются интенсивными показателями. Важнейшим критерием эпидемического процесса является заболеваемость инфекционными болезнями за определенный период, которая определяется по формуле: число заболеваний 100 000 численность населения При анализе заболеваемости дополнительно используют следующие показатели: инфицированность (число инфицированных лиц на 100, 1000 и т.д. обследованных), пораженность (число выявленных больных на 100 или 1000 обследованных), болезненность (число больных с активными и неактивными формами болезни на 10000 населения). В ходе анализа необходимо определить структуру заболеваемости, долю различного по форме или по степени тяжести течения болезни, оценить результаты лабораторного исследования и т.д. Для этой цели используется экстенсивный показатель – удельный вес, который характеризует распределение целого на составные части и выражается в процентах. При этом за 100% принимается общее количество рассматриваемых случаев. Например, при изучении качества воды из 95 проб 60 оказалось без кишечной палочки, 30 – с допустимым ее содержанием, 5 – с высоким содержанием кишечной палочки. Соответственно в процентах: 63,2; 31,6 и 5,2. Из экстенсивных показателей наиболее широко применяются: вспышечная заболеваемость число заболеваний во время впсышек 100 общее число заболеваний число больных, обследованных лабораторное обследование лабораторно 100 больных число заболевших данной инфекцией число диагнозов , подтвержденных лабораторное подтверждение лабораторно 100 диагноза число поставленных диагнозов число подтвержденных первичных подтверждение окончательного диагноза степень выявления больных диагнозов число поставленных диагнозов 100 число активно выявленных больных 100 число заболевших число первоначальных диагнозов расхождение первоначального число окончательных диагнозов 100 и окончательного диагнозов число поставленных диагнозов показатель госпитализации число госпитализированных больных 100 число заболевших Индексом эпидемиологической эффективности является практическая ценность профилактических мероприятий (вакцинирования, фагирования и др.): индекс эффективности а b Иногда пользуются коэффициентом эпидемиологической эффективности: коэффициен т а b 100 , эпидемиологической эффективности b где а - заболеваемость в испытуемой группе, b - в контрольной. Индекс эффективности показывает во сколько раз заболеваемость в испытуемой группе ниже заболеваемости в контрольной группе. Коэффициент эффективности отражает на сколько процентов заболеваемость в испытуемой группе ниже заболеваемости в контрольной группе. Все рассмотренные выше эпидемиологические показатели обрабатываются с помощью методов статистического анализа. 1.2. Средняя величина есть обобщающая количественная характеристика совокупности по одному варьирующему признаку. Например: продолжительность инкубационного периода, число заболевших в очагах и т.д. Эти величины имеют огромное познавательное значение, так как теснейшим образом связаны с существом рассматриваемых процессов и являются основным средством статистических расчетов. Отличительная особенность средних величин в том, что в них взаимно погашаются индивидуальные отклонения признаков единиц совокупности, тем самым устраняются случайные колебания и проявляются значения признаков, объективно присущие тому или иному массовому явлению. Рассмотрим некоторые виды средних: 1. Средняя арифметическая – одна из распространенных форм средней величины. Рассчитывается как частное от деления суммы индивидуальных значений (вариантов) признака на их число: М х n или М взв хр , р где М - средняя арифметическая, Мвзв - средняя арифметическая взвешенная, х варианты признака, n - число вариантов, р - веса. Арифметической взвешенной удобно пользоваться в тех случаях, когда эпидемиологу необходимо проанализировать большой вариационный ряд, в котором многие варианты повторяются часто. 2. Средняя геометрическая применяется в основном при изучении динамики (при расчете роста или снижения в вариационных рядах): М геом n x1 x2 ...xn , где x1, x2... – показатели 1-го, 2-го и последующих лет исследований. 3. Медиана – числовая характеристика вариационного ряда, находящаяся посередине и делящая его пополам. Например, мы имеем вариационный ряд, состоящий из 13 значений, описывающих различную длительность инкубационного периода при дизентерии: 6; 5; 7; 5; 3; 9; 5; 8; 10; 14; 5; 7; 8. Располагаем варианты в порядке возрастания: 3; 5; 5; 5; 5, 6; 7; 7; 8; 8; 9; 10; 14. В середине ряда находится варианта, имеющая числовое значение 7, она и будет медианой. Если совокупное число единиц вариационного ряда четное, медиана равна средней арифметической двух соседних вариант, находящихся посередине. 4. Мода – это случайная величина, наиболее часто встречающаяся варианта в вариационном ряду. В нашем условном вариационном ряду: 6; 5; 7; 5; 8; 9; 5; 8; 10;14; 5; 7; 3 – наиболее часто встречается варианта 5 – она и будет модой. Изучаемые эпидемиологией явления чаще имеют характер нормального распределения. При этом из всех вариант подавляющее большинство составляют варианты среднего размера, и чем дальше они отклоняются от среднего значения признака, тем реже встречаются в данной совокупности. В симметричном вариационном ряду, соответствующем нормальному распределению, значения средней арифметической, моды и медианы совпадают. В случаях, когда какие-нибудь причины благоприятствуют появлению значений признака (например, аварии водопроводной сети могут повысить численность заболевших инфекциями, передающимися водным путем; правильно выполненные профилактические мероприятия уменьшают количество заболевших и т. д.), отличающихся от среднего значения в сторону уменьшения или увеличения, образуются асимметричные распределения. В таких рядах средняя арифметическая, мода и медиана не совпадают. Асимметрия учитывается при помощи вычисления Аs D3 коэффициента n 2 асимметрии. Где Аs - показатель асимметрии; D3 ( х M )3 - сумма кубов отклонений вариант от средней арифметической; σ3 - среднее квадратическое отклонение, возведенное в третью степень; n - общее количество наблюдений. Этот показатель колеблется от –3 до +3. Если Аs>0, то асимметрия будет положительной (т.е. большинство вариантов располагаются справа от середины ряда). Если Аs<0, то асимметрия будет отрицательной (т.е. большинство вариант располагаются слева от середины ряда). Если Аs=0, то вариационный ряд будет симметричным. Таким образом, коэффициент асимметрии позволяет проверить гипотезу о законе распределения генеральной совокупности. Для оценки формы распределения случайных величин применяется коэффициент эксцесса: D Е n 4 4 3, где Е – показатель эксцесса; ΣD4=Σ(х-M)4 – сумма отклонений вариант (х) от средней арифметической (М) в четвертой степени; σ4 – среднее квадратическое отклонение в четвертой степени; n – общее число наблюдений. Для нормального распределения эксцесс равен нулю. Если значение коэффициента эксцесса больше нуля, то эксцесс будет положительным, если меньше нуля – отрицательным. При нормальном распределении показатели асимметрии и эксцесса должны быть близки к нулю. При изучении массовых явлений нельзя ограничиться только средними значениями их признаков, необходимо широко подвергать всестороннему анализу отклонения от средней, поскольку без этого нельзя увидеть весь процесс в его динамическом развитии. Для этого в статистике используются показатели вариации или колеблемости: 1. В эпидемиологических исследованиях широко применяется среднее квадратическое отклонение (σ). Оно является вторым по значимости параметром характеристики вариационного ряда. По средней арифметической и среднему квадратическому отклонению можно определить с известной статистической значимостью принадлежность любой варианты к рассматриваемому вариационному ряду. Этот показатель представляет собой меру колеблемости и определяется по формулам: невзв х М n 2 взв х М 2 p n 2. Дисперсия (σ ) – среднее квадратическое отклонение варианты (х) от среднего арифметического значения (М). Она является мерой вариации, т. е. колеблемости признака. Этот показатель является основным при проведении дисперсионного факторного анализа и определяется по формулам: 2 х М 2 2 невзв 2 взв n 2 х М p n Цель анализа заболеваемости по факторам риска: проверка гипотез о причинах, способствующих заболеваемости; выявление факторов, способствующих риску заражения и заболевания людей; установление ведущих типов эпидемий. Для количественной оценки факторов риска используется корреляционный анализ. Корелляционный анализ показывает характер и тесноту связи между заболеваемостью и возможной ее причиной. Одним из наиболее совершенных способов измерения связи является вычисление линейного коэффициента корреляции: rxy ( x x)( y y) ( x x) ( y y ) 2 2 , где rxy – коэффициент корреляции; х и у – коррелируемые ряды; x , y - средние значения. При положительной (прямой) связи (рост заболеваемости дизентерией при увеличении в воде водопровода доли нестандартных проб воды) коэффициент корреляции может принимать значения от «0» до «+1». В случае отрицательной (обратной) связи (снижение заболеваемости гепатитом «В» по мере увеличения охвата населения вакцинацией против этой инфекции) коэффициент корреляции выражается отрицательным числом и принимает значения от «0» до «–1». Чем ближе значения коэффициента корреляции к единице, тем связь становится теснее. Если коэффициент корреляции равен единице, то связь строго функциональная. Если коэффициент корреляции равен нулю, то связь отсутствует. В зависимости от коэффициента корреляции можно сделать следующее заключение: 0 < r < 0,3 – слабая (малая) связь; 0,3 < r < 0,7 – средняя (умеренная) связь; 0,7 < r <1 – сильная (тесная) связь. 4. Иллюстативные материалы: презентация, слайды. 5. Литература: 1. Васильева Л.А. Статистические методы в биологии, медицине и сельском хозяйстве: Учеб. пособие для вузов. - Новосибирск, Новосибирский Государственный университет, 2007. - 128 с 2. Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов В.Е. Гмурман. - 9-е изд., стер. - М.: Высш. шк., 2003. 479 с. 3. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах / Под ред. Ю.М. Комарова. Т. 1. Теоретическая статистика. - М.: Медицина, 2000. - 412 с. 4. Основы высшей математики и математической статистики: Учебник/ Павлушкин и соавт. - М.: ГЭОТАР-МЕД, 2004. - 424 с. 5. Плохинский Н.А. Биометрия / изд. 2. - М.: МГУ, 1970. - 367 с. 6. Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. - М.: МедиаСфера, 2002. 312 с. 7. Е.Д. Савилов, В.А. Астафьев, C.Н. Жданова, Е.А. Заруднев. Эпидемиологический анализ: Методы статистической обработки материала. – Новосибирск: Наука-Центр, 2011. – 156 с. 8. Урбах В.Ю. Статистический анализ в биологических и медицинских исследованиях. - М.: Медицина, 1975. - 295 с. 6. Контрольные вопросы: 1. Какие показатели называются интенсивным и экстенсивными? 2. В каких случаях используются асимметрия? 3. Дайте определение терминам «среднее квадратическое отклонение» и «дисперсия». По каким формулам рассчитываются эти величины? 4. В каких случаях в эпидемиологическом анализе используется корреляционный анализ? 5. По какой формуле рассчитывается парный коэффициент корреляции? 6. В каких пределах изменяется коэффициент корреляции? Как этот показатель характеризует тесноту связи? ЛЕКЦИЯ №5 1. Тема: Планирование и организация статистических исследований. 2. Цель: ознакомить студентов с этапами медико-биологического эксперимента, произвести обзор статистических пакетов, применяемых в биостатистике. План лекции: 1. Этапы медико-биологического эксперимента. 2. Выбор статистического метода обработки данных. 3. Использование современной вычислительной техники в биостатистике. 4. Классификация статистических пакетов и современные требования к ним. 3. Тезисы лекции. Независимо от того, какие задачи ставятся при проведении научного медико-биологического исследования, оно должно проводится в определенной последовательности. Определяют цель и задачи исследования: Цель исследования должна быть актуальной для медицинской науки и практики здравоохранения (зачем проводятся исследования?). Задачи исследования - это конкретизированное, расширенное и уточненное определение цели (как будет достигнута цель?). Основные этапы медико-биологического эксперимента: 1) составление плана и программы; 2) сбор статистического материала (статистическое наблюдение); 3) обработка собранного материала; 4) анализ полученных данных. I этап. Составление плана и программы План исследования: Определение объекта наблюдения - статистической совокупности, о которой будут собирать сведения. Определение места исследования - территории, учреждений. Определение времени (сроков) проведения исследования. Определения вида (единовременное, текущее) и метода (сплошной, не сплошной) наблюдения. Исполнители и руководитель исследования. Материально-техническое обеспечение исследования. Оценка стоимости исследования. Программа исследования: Определение статистической совокупности, единицы совокупности, единицы наблюдения. Определение программы наблюдения, т.е. определение первичного статистического документа, содержащего перечень признаков, подлежащих регистрации. Определение программы разработки материала, т.е. выбор группировки материала и составление макетов разработочных таблиц с различной группировкой признаков. II этап. Сбор статистического материала (статистическое наблюдение). Статистическое наблюдение – это регистрация изучаемых единиц на специальных учетных медицинских документах. Статистическое наблюдение классифицируется с учетом полноты охвата единиц совокупности, учета факторов по времени и по способу наблюдения. Классификация статистического наблюдения Признаки классификации Учет факторов по времени По полноте охвата единиц совокупности По способу наблюдения Виды наблюдения Текущее (постоянное) Единовременное (одномоментное) Сплошное Не сплошное Непосредственное наблюдение Выкопировка данных, анамнестический метод III этап. Обработка собранного материала: Проверка собранного материала на полноту и правильность заполнения учетных документов, устранение дубликатов. Шифровка (кодирование) путем проставления условного знака около каждого признака. Раскладка карт по группам в соответствии с шифром, подсчет карт в каждой группе. Составление общей сводки, т.е. занесение результатов подсчета в макеты таблиц заранее установленной формы для получения сравнительных и обобщающих величин. IV этап. Анализ полученных данных Алгоритм анализа: вычисление показателей (средних и относительных величин); построение графических изображений, иллюстрирующих полученные данные; сравнение результатов исследования; формулировка выводов, заключения и предложений по данному исследованию. На этом этапе применяются специальные статистические методики: метод стандартизации, метод корреляции, дисперсионный анализ, дискриминантный анализ и пр. В процессе медико-биологического исследования очень часто возникает проблема выбора статистического метода, необходимого для решения конкретной задачи. Статистические методы, применяемые при решении типичных медико-биологических задач: Статистический Задача Метод показатель Оценить принадлежность … варианты к выборке средняя арифметическая (M) и значение отдельной варианты (x) t-критерий Стьюдента Оценить достоверность отличия … двух выборок по величине признака средняя арифметическая (M) двух выборок по изменчивости признака дисперсия, стандартное отклонение, коэффициент вариации двух выборок в целом ранги эмпирического и теоретического распределений частоты встречаемости вариант сравнение средних арифметических по tкритерию Стьюдента сравнение дисперсий по F-критерию Фишера сравнение степени упорядоченности вариант по критериям U-Уилкоксона и QРозенбаума сравнение частотных распределений по χ2 критерию Пирсона Оценить достоверность влияния … фактора на величину признака факториальная и случайная дисперсия, сила влияния одного признака на другой признак коэффициент регрессии двух признаков друг на друга (взаимодействие) коэффициент корреляции дисперсионный анализ по F-критерию Фишера регрессионный анализ по критериям F-Фишера и tСтьюдента корреляционный анализ по t-критерию Стьюдента В последнее время к проведению статистического анализа практически всегда привлекаются различные компьютерные статистические пакеты. Современные международные стандарты практики проведения клинических исследований и практики распространения лекарственных препаратов предъявляют высокие требования к использованию статистических методов при анализе результатов медико-биологических и фармацевтических исследований. Появление мощных статистических пакетов дало широкий доступ к проведению анализа лицам - профессионалам в своей предметной области, но не имеющим специальной математической подготовки. В тоже время необходимо отметить, что применение статистических методов является творческой деятельностью и, как любая творческая деятельность требует от биостатистика при выборе методов анализа и интерпретации полученных результатов глубоких знаний не только в области биомедицины, но и математики. Неадекватное применение мощных математических методов может приводить к ложным выводам. В связи с этим актуальной является задача выбора адекватных критериев из множества возможных, предоставляемых различными статистическими пакетами, а также правильная интерпретация полученных результатов. Среди статистических пакетов анализа данных чаще используют следующие три вида программ: 1) профессиональные пакеты - предназначены для анализа очень больших объемов данных либо для применения узкоспециализированных методов; 2) универсальные пакеты - рассчитаны на использование для анализа самых различных предметных областей, содержат широкий диапазон статистических методов (Statistica 6.0, StatSoft); 3) специализированные пакеты - обычно содержат небольшое число статистических методов, наиболее часто используемых в конкретной предметной области (MedStat, Biostat, CIA). Универсальные пакеты обладают большими мощностями, профессиональным интерфейсом, в то же время их универсальность требует от пользователя достаточной подготовки в области математической статистики для выбора адекватных критериев из большого их разнообразия и правильной интерпретации в терминах конкретной предметной области. Специализированные пакеты точно адресованы конечному пользователю, однако зачастую они предназначены для решения узкого круга задач. Остановимся на описании некоторых универсальных статистических пакетов. 1) Система SAS известна с 1976 г. и способна работать под управлением практически любой операционной системы. Она включает свыше 20 различных программных продуктов, объединенных друг с другом «средствами доставки информации». Основным достоинством SAS является непревзойденная мощность по набору статистических алгоритмов среди универсальных пакетов. Кроме того, SAS предоставляет пользователю возможность подключения собственных алгоритмов. Однако, высокая стоимость системы и малая распространенность ее в Казахстане делает ее малоизвестной среди отечественных специалистов, занимающихся исследованием качества жизни. 2) Пакет SPSS предназначен в первую очередь для статистиковпрофессионалов. Он включает развитый аппарат статистического анализа, соизмеримый по мощности с SAS. Программу SPSS для Windows считают в настоящее время одним из лидеров среди универсальных статистических пакетов. Алгоритмы шкалирования опросников качества жизни распространяются также в виде скриптов на языке SPSS. Научиться самостоятельно писать подобные алгоритмы может любой специалист без начального программистского образования. SPSS имеет более 50 типов удобных диаграмм, а также развитые средства подготовки отчетов. Аналитические параметры отображаются на экране в виде простых и понятных меню и диалоговых окон. Его новая «контекстно-ориентированная» справочная система содержит пошаговые инструкции для наиболее важных операций. В литературных источниках, посвященных исследованию качества жизни, упоминания об использовании SPSS встречаются практически наравне с упоминаниями о SAS. 3) Пакет Statistica 6.0 не стоит использовать пользователю-новичку в статистике, так как он предполагает владение статистической терминологией. Тем не менее на отечественном рынке этот пакет пользуется популярностью благодаря высокой активности фирмы-разработчика Statsoft, способствующей популяризации пакета. Ряд авторов считает, что пакет Statistica является хорошо сбалансированным по соотношению «мощность/удобство». Наличие достаточно широкого спектра функциональных алгоритмов делает его достаточно привлекательным для статистиков-профессионалов. В частности, он включает в себя ряд непараметрических методов анализа и методы многомерного анализа. В пакете Statistica хорошо развиты средства манипулирования исходными данными, данные легко редактируются. Сильной стороной пакета является графика и средства редактирования графических материалов. В пакете представлены сотни типов графиков, матрицы и пиктограммы. Предоставляется возможность разработки собственного дизайна графика. 4. Иллюстративный материал: презентация, слайды. 5. Литература: 1. Е.Д. Савилов, В.А. Астафьев, C.Н. Жданова, Е.А. Заруднев. Эпидемиологический анализ: Методы статистической обработки материала. – Новосибирск: Наука-Центр, 2011. – 156 с. 2. Ивантер Э.В., Коросов А.В. Элементарная биометрия: Учеб. Пособие. ПетрГУ. –– Петрозаводск, 2005. –– 104 с. 3. Лях Ю.Е., Гурьянов В.Г., Хоменко В.Н., Панченко О.А. Основы компьютерной биостатистики: анализ информации в биологии, медицине и фармации статистическим пакетом Medstat/ - Д.: 2006. - 214 с. 6. Контрольные вопросы 1. Какие основные этапы медико-биологического эксперимента вы знаете? 2. Какие статистические пакеты используются при решении биостатистических задач? Южно-Казахстанская государственная фармацевтическая академия Кафедра медицинской биофизики, информатики и математики Дисциплина: Биологическая статистика Код дисциплины: Bio 3214 Специальность: 051102 «Общественное здравоохранение» Практические занятия: 10 (часов) Курс: 3 Семестр: 6 МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ДЛЯ ПРАКТИЧЕСКИХ ЗАНЯТИЙ 2014-2015 учебный год Обсуждено на заседании кафедры от «___»___________20___ г. Протокол № ____ Зав. кафедрой _______________ Занятие №1 1. Тема: Статистическая группировка и сводка данных. Оценка параметров генеральной совокупности с помощью выборочного метода. Ошибки статистического наблюдения. Доверительный интервал. 2. Цель: Изучение организации и проведения выборочного исследования, а также интерпретации его результатов. 3. Задачи обучения: Сформировать навыки работы со статистическими совокупностями: производить группировку данных, оценивать параметры генеральной совокупности, определять ошибки статистического наблюдения, строить доверительные интервалы. 4. Основные вопросы темы: 1. В чем заключается суть выборочного исследования? 2. Какое применение выборочное исследование находит в медицине, здравоохранении и фармации? 3. Что такое генеральная и выборочная совокупность? 4. Что такое репрезентативность выборки? 5. Какие методы отбора Вы знаете? 6. Что такое вариационный ряд? 7. Что такое полигон и гистограмма? 8. Какие числовые характеристики выборки Вы знаете? 9. Что такое закон распределения? 10. Какие виды статистических распределений Вы знаете? 11. Что такое параметры распределения? 12. Как строятся точечные оценки для параметров распределения? 13. Как строятся интервальные оценки для параметров распределения? 5. Методы обучения и индивидуальных заданий преподавания: письменное выполнение Задания: Задача 1. Из таблицы 1.1. чисел выборки из нормального распределения N(0,1) возьмите подряд 100 чисел, начиная с номера 4N, где «N» – ваш порядковый номер в списке группы (дойдя до конца таблицы, перейдите в ее начало). Возьмите в качестве интервалов группировки интервалы (-3,-2), (-2,-1)…(2,3) и напишите таблицу выборочного распределения для этих интервалов. По этой таблице постройте гистограмму и полигон, сосчитайте выборочные среднее, дисперсию, среднеквадратическое отклонение. Выпишите теоретические значения для этих величин и сравните их с эмпирическими. Таблица 1.1 0,414 0,011 0,666 -1,132 -0,410 -1,077 1,484 -0,340 0,789 -0,494 0,364 -1,237 -0,044 -0,111 -0,210 0,931 0,616 -0,377 -0,433 1,048 -0,037 0,759 0,609 -2,043 -2,290 0,404 -0,543 0,486 0,869 0,347 2,816 -0,464 -0,632 -1,614 0,372 -0,074 -0,916 1,314 -0,038 0,673 0,563 -0,107 0,131 -1,808 0,284 0,458 1,307 -1,625 -0,629 -0,504 -0,0056 -0,131 0,048 1,879 -1,016 0,360 -0,119 2,331 1,672 -1,053 0,840 0,246 -0,237 -1,312 1,603 -0,952 -0,566 1,600 0,465 1,951 0,110 0,251 0,116 -0,957 -0,190 1,479 -0,986 1,249 1,934 0,070 -1,358 -1,246 -0,959 -1,297 -0,722 0,925 0,783 -0,402 0,619 1,826 1,272 -0,945 0,494 0,050 -1,696 1,876 0,063 0,132 0,682 0,544 -0,417 -0,666 -0,104 -0,253 -2,543 -1,133 1,987 0,668 0,360 1,927 1,183 1,211 1,765 0,035 -0,359 0,193 -1,023 -0,222 -0,616 -0,060 -1,319 -0,785 -0,430 -0,298 0,248 -0,088 -1,379 0,295 -0,115 -0,621 -0,618 0,209 0,979 0,906 -0,096 -1,376 1,047 -0,872 -2,200 -1,384 1,425 -0,812 0,748 Задача 2. В условиях предыдущей задачи построить 95%-ный доверительный интервал для математического ожидания генеральной совокупности, при условии, что дисперсия генерального распределения известна и равна единице. Проверить попадание оцениваемого значения в доверительный интервал. Задача 3. Имеются данные по клинической оценке тяжести серповидноклеточной анемии: 0; 0; 0; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 2; 2; 2; 2; 3; 3; 3; 3; 4; 4; 5; 5; 5; 5; 6; 7; 9; 10; 11. Представьте выборку в виде вариационного ряда, найдите среднее значение, дисперсию, среднеквадратическое отклонение, медиану, моду, 25-й и 75-й процентили. Можно ли считать, что выборка извлечена из совокупности с нормальным распределением? Задача 4. Имеются данные по продолжительности (в секундах) физической нагрузки до развития приступа стенокардии у 12 человек с ишемической болезнью сердца: 289, 203, 359, 243, 232, 210, 251, 246, 224, 239, 220, 211. Найдите среднее, дисперсию, среднеквадратическое отклонение, медиану, 25-й и 75-й процентили. Можно ли считать, что выборка извлечена из совокупности с нормальным распределением? Задача 5. Имеются результаты оценки проницаемости сосудов сетчатки: 1,2; 1,4; 1,6; 1,7; 1,7; 1,8; 2,2; 2,3; 2,4; 6,4; 19,0; 23,6. Найдите среднее, дисперсию, среднеквадратическое отклонение, медиану, 25-й и 75-й процентили. Можно ли считать, что выборка извлечена из совокупности с нормальным распределением? Задача 6. В течение 25 дней фиксировалось количество обратившихся за экстренной врачебной помощью. В результате получена выборка: 1, 0, 4, 2, 3, 5, 2, 4, 0, 1, 8, 5, 2, 4, 3, 3, 2, 5, 1, 3, 2, 5, 1, 3, 2. Представьте выборку в виде вариационного ряда, найдите среднее, дисперсию, среднеквадратическое отклонение, моду и медиану. Задача 7. При медицинском осмотре 300 учащихся специализированных школ и колледжей в 48,0% случаев были выявлены жалобы на головную боль и быструю утомляемость. Определите генеральную совокупность, на которую предполагается перенести результаты данного выборочного исследования. Проведите точечную оценку параметра выборочной совокупности. Проведите интервальную оценку параметра выборочной совокупности и сделайте соответствующие выводы. Краткая теория Выборочный метод – метод статистического обследования, при котором из совокупности выбирают ограниченное число объектов и подвергают их изучению. Выборочный метод находит широкое применение в медицине, здравоохранении и фармации. Например: нет возможности обследовать всех больных с определенной патологией, поэтому обследуют их некоторое число; нет возможности проверить все лекарственные препараты на соответствие стандарту, поэтому проводят их выборочный контроль и т.д. Генеральная статистическая совокупность - это совокупность, которая состоит из бесконечно большого числа единиц. Например: все больные с данной патологией, все жители данной территории и т.д. Выборочная совокупность (выборка) - это совокупность, которая включает определенную часть единиц наблюдения, которые отображают всю генеральную совокупность. Объем совокупности - это общее число единиц наблюдения. Объем генеральной совокупности обозначается «N», а объем выборочной совокупности – «n». Выборка называется малой, если n≤30. Единица наблюдения - это каждый частный случай явления, которое изучается. Выборочный метод исследования является единственно возможным в случае бесконечной генеральной совокупности или в случае, когда исследование связано с уничтожением наблюдаемых объектов (например, проверка лекарственных препаратов). Кроме того, он позволяет существенно экономить затраты ресурсов. Недостатком выборочного метода является появление ошибок исследования, которые связаны с тем, что изучается только часть объекта. Главным свойством выборки является репрезентати́вность, т.е. соответствие характеристик выборки характеристикам генеральной совокупности в целом. Она определяет, насколько возможно применить результаты исследования с привлечением определённой выборки для характеристики генеральной совокупности, из которой она была выбрана. Виды репрезентативности выборки: Качественная – соответствие признаков единиц наблюдения в выборочной и генеральной совокупностях. Количественная – достаточное число наблюдений. Ошибка репрезентативности - величина, которая показывает на сколько отличаются показатели выборочной и генеральной совокупностей. Существуют определенные методы отбора, обеспечивающие репрезентативность выборки. Наиболее распространенным способом обеспечить простой случайный отбор является выбор «наудачу». Однако, более корректным считается выбор с использованием таблицы случайных чисел или генератора случайных чисел, имеющегося во многих компьютерных программах. В этом случае каждый объект генеральной совокупности получает свой порядковый номер, а таблица случайных чисел поставляет совершенно произвольные номера, которые следует использовать при выборе объектов из совокупности. Выбор бывает с возвращением (повторная выборка), т.е. когда один раз отобранный объект возвращается в выборку и может быть отобран повторно, и без возвращения (бесповторная выборка), т.е. когда отобранный объект не возвращается в выборку. В основе выборочного метода исследования лежит закон больших чисел, который устанавливает тенденцию показателя выборочной совокупности при увеличении числа наблюдений максимально приближаться к генеральной совокупности. Вариационный ряд - это упорядоченное распределение единиц совокупности по возрастающим значениям признака X(x1,x2,…xn) и подсчет числа единиц с тем или иным значением признака υ(υ1, υ2,… υn), т.е. вариационный ряд - это упорядоченная выборка. Выборка и вариационный ряд дают одну и ту же информацию, но с вариационным рядом легче работать в силу его упорядоченности. Расстояние xmax–xmin между крайними членами вариационного ряда называется размахом вариационного ряда. Число, показывающее сколько раз значение xi встретилось в ряде наблюдений, называется частотой варианта, или его весом. В дальнейшем частоту варианта «xi» будем обозначать через «υi», где i – индекс варианта. Данные наблюдений, среди которых много повторяющихся, удобно изобразить не в виде ряда, а в виде таблицы. Значения xi Частоты υ i 1 2 1 2 … … k k Отношение υi/n называется относительной (эмпирической) частотой значения «xi», где υi – число повторения значения xi (его частота) в выборке объема «n». Относительные частоты – характеристика более универсальная, чем просто частоты, так как позволяет сравнивать выборки разного объема. Построим таблицу по выборке из двух строк, в верхней строке которой указаны в порядке возрастания наблюдаемые значения «xi», а в нижней – соответствующие им относительные частоты. Эта таблица называется таблицей статистического распределения выборки. Значения xi x1 x2 … х k Относительные частоты υi/n υ1/n υ2/n … υk/n В случае, когда вариационный ряд содержит очень много разных значений, прибегают к группировке данных. Группировка состоит в том, что область на оси «x», куда попали значения x1,...,xn, разбивают на интервалы I1,...,Ik и подсчитывают частоту попадания значений величины в каждый интервал. Число интервалов «k» следует брать не очень большим, чтобы после группировки ряд не был очень объемным, и не очень малым, чтобы не потерять особенности распределения признака. Поэтому берут от 6 до 11 интервалов. Согласно формуле Стерджеса рекомендуемое число интервалов: k=1+3,322lgn Например, так как lg100=2, для выборки объема 100 рекомендуемое число интервалов 8, а для выборки объема 50, число интервалов равно 5-6. x x h max min 1 3,322 lg n Величина интервала «h» вычисляется по формуле: За начало первого интервала рекомендуется брать величину: хнач=xmin–0,5h. Кроме того, необходимо следить, чтобы не было интервалов, в которые попало меньше 5 значений. Число значений, попавших в «i» интервал частоты «υi», называются интервальными частотами, а отношения υi/n – относительными (эмпирическими) интервальными частотами. Вариационный ряд, представленный таблицей, построенной с помощью группировки, называется интервальным. Для наглядного представления статистического распределения пользуются графическим изображением вариационных рядов (полигоном и гистограммой). Полигон - это график, представляющий собой ломаную, соединяющую точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов. Гистограмма - это ступенчатая фигура, отображающая зависимость частоты попадания элементов выборки от соответствующего интервала группировки. Рассмотрим некоторые числовые характеристики выборки. Модой называется варианта с наибольшей частотой. Медианой называется варианта, находящаяся в середине ряда. Средняя арифметическая простая – это величина, вычисляемая по n x формуле: x i 1 i . n Средняя арифметическая взвешенная – это величина, вычисляемая по n формуле: x x i i 1 i . n Средняя геометрическая простая – это величина, вычисляемая по формуле: x n x1 x 2 ...x n . Средняя квадратическая простая – это величина, вычисляемая по n x формуле: x i 1 2 i . n Средняя квадратическая взвешенная – это величина, вычисляемая по n x формуле: x i 1 2 i i . n Выборочная дисперсия – это мера разброса случайной величины от ее среднего значения: если выборка задана вариационным рядом, тогда вычисляется по n x формуле: S 2 i 1 x i 2 , n если выборка задана в виде таблицы, тогда вычисляется по формуле: n S2 x i 1 x i 2 i . n Исправленная выборочная дисперсия - величина, вычисляемая по формуле: s 2 n S2. n 1 Среднеквадратическое отклонение - величина, вычисляемая по n формуле: S S 2 x i 1 i x n 2 . Исправленное среднеквадратическое отклонение - величина, вычисляемая по формуле: s s 2 . Показателями уровня ряда являются средние величины и структурные средние (мода и медиана). Показателями разнообразия вариационного ряда являются размах выборки, дисперсия, среднеквадратическое отклонение. Процентили - это значения изучаемого количественного признака, делящие вариационный ряд на сто равных частей. Квартили - это значения изучаемого количественного признака, делящие вариационный ряд на четыре равновеликие части. Децили – это значения изучаемого количественного признака, делящие вариационный ряд на десять равных частей. Характеристики генеральной совокупности (генеральная средняя, генеральная дисперсия, генеральное среднеквадратическое отклонение) называются параметрами. Параметры обычно неизвестны, поэтому их можно оценить на основе выборочных данных лишь приближенно. Эти приближенные значения называются оценками параметров генеральной совокупности. Оценивание некоторого отдельного параметра дает точечную оценку. Выборочная средняя « х » является точечной оценкой генеральной средней, а исправленная выборочная дисперсия « s 2 » - точечной оценкой генеральной дисперсии. Оценка будет давать верное представление о параметре, если она рассчитана по репрезентативной выборке. Только случайная выборка может представлять генеральную совокупность, и только на ее основе можно получить «хорошие» оценки. «Хорошая» оценка должна удовлетворять четырем критериям: доказательности, несмещенности, эффективности и достаточности. Стандартная ошибка – это величина, на которую изменяются средние значения нескольких различных экспериментальных значений одной и той же выборки при их повторном рассмотрении. Интервальной оценкой параметра генеральной совокупности называют интервал, который с заданной вероятностью накрывает истинное значение параметра. Интервальную оценку называют доверительным интервалом, а связанную с ним вероятность – доверительной вероятностью или надежностью оценки, которая определяется как (1-р), где р - это уровень значимости доверительного интервала. Для большинства медикобиологических исследований р=0,05. Доверительный интервал для средней арифметической величины генеральной совокупности симметричен относительно выборочной средней и определяется из соотношения: х t р / 2 S x ; х t р / 2 S x , где t р / 2 – р / 2 процентная точка распределения Стьюдента, S x - стандартная ошибка выборки, S x = s/ n , где s - исправленное среднеквадратическое отклонение. Случайной величиной называется величина, которая в результате опыта может принять заранее неизвестное значение. Дискретной (прерывной) случайной величиной называется случайная величина, принимающая отдельные друг от друга значения, которые можно пронумеровать. Непрерывной случайной величиной называется случайная величина, которая принимает все значения из некоторого конечного или бесконечного интервала. Законом распределения дискретной случайной величины называется соответствие между ее возможными значениями и их вероятностями. Рядом распределения дискретной случайной величины «Х» называется таблица, где перечислены возможные значения этой случайной величины х1, х2, ..., хn с соответствующими им вероятностями (р1, р2, ..., рn) или частотами (υ1, υ2, ..., υn): Х х 1 х2 … xi … xn Р(Х) p1 p2 … pi … pn Для непрерывной случайной величины закон распределения задается в виде функции распределения и плотности распределения. Если плотность вероятности непрерывной случайной величины имеет вид: xa 0 , 1 f ( x) , b a 0 , a x b, тогда эта величина имеет равномерное xb распределение на промежутке [a, b]. Если плотность вероятности непрерывной случайной величины имеет вид: x0 0 , f ( x) x e , x0 , тогда эта величина имеет показательное распределение. Если плотность вероятности непрерывной случайной величины имеет 1 вид: f ( x) e 2 x 2 2 2 , тогда эта величина имеет нормальное распределение. К параметрами, определяющими нормальное распределение N(µ,σ), относятся: µ – математическое ожидание и σ – среднеквадратическое отклонение. Если µ=0, σ=1, тогда случайная величина имеет стандартное нормальное распределение и записывается в виде: N(0,1). Если генеральная совокупность распределена нормально, то ее параметры: генеральное среднее равно нулю, а генеральная дисперсия равна единице. Эти значения называются теоретическими значениями параметров генеральной совокупности, а значения, найденные по выборке - выборочными или эмпирическими. 6. Литература: Основная: 1. Гланц С. Медико-биологическая статистика. Пер. с англ.-М.: Практика, 1998. - 459 с. 2. Гмурман В.Е. Теория вероятностей и математическая статитсика: Учеб. пособие для вузов / В.Е. Гмурман. - М.: Высшая школа, 2003. - 479 с. 3. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах / Под ред. Ю.М. Комарова. Т. 1. Теоретическая статитсика. - М.: Медицина, 2000. - 412 с. 4. Основы высшей математики и математической статистики: Учебник / И.В. Павлушков и соавт. - М.: ГЭОТАР-МЕД, 2004. - 424 с. 5. Петри А., Сэбин К. Наглядная медицинская статистика /А. Петри, К. Сэбин; пер. с англ. - М.: ГЭОТАР-Медиа, 2009. - 168 с. 6. Применение методов статистического анализа для изучения общественного здоровья и здравоохранения: учебное пособие / ред. Кучеренко В.З. - М.: ГЭОТАР-Медиа, 2011. - 256 с. 7. Контроль: Тесты Занятие №2 1. Тема: Проверка статистических гипотез. Проверка гипотез о параметрах нормально распределенных совокупностей. 2. Цель: изучение методических основ проверки статистических гипотез о параметрах нормально распределенных совокупностей 3. Задачи обучения: сформировать навыки проверки гипотезы о параметрах нормально распределенных совокупностей, выдвижения нулевой и альтернативной гипотез 4. Основные вопросы темы: 1. Что такое статистическая гипотеза? 2. Какие виды статистических гипотез знаете? 3. Что такое статистический критерий? 4. Какие виды статистических критериев знаете? 5. Из каких этапов состоит общая схема проверки статистических гипотез? 6. Как осуществляется сравнение дисперсий двух нормальных генеральных совокупностей? 5. Методы обучения и преподавания: письменное выполнение индивидуальных заданий Задания: Задача 1. Пусть при лечении некоторого заболевания применяются две методики: «А» и «В». Эффективность методик характеризуется изменением численных значений определенного показателя. Отобраны две однородные группы больных. Первая группа с численностью n1=20, а вторая n2=15 человек. В первой группе (с методикой «А») значения рассмотренного показателя X1, X2,…, X20, во второй (с методикой «В») - Y1, Y2,…, Y15. Их генеральные совокупности распределены нормально. Для обеих групп средние значения показателя x и y практически равны, а исправленные выборочные дисперсии s x2 21,5 , s y2 32,8 . Требуется сопоставить две методики лечения при уровне значимости р 0,05 . Задача 2. При производстве лекарственных препаратов руководствуются стандартом. Контролируется определенный показатель, допустимая характеристика рассеяния которого определена числом 02 10 . Из произведенной партии продукции извлекается контрольная выборка объема n=15 единиц продукции. Выборочная дисперсия контролируемого показателя s 2 15,8 . Требуется по выборке проверить значимость различия дисперсий, наблюдаемой « s 2 » и контрольной « 02 ». Также известно, что уровень значимости р 0,05 и генеральная совокупность распределена по нормальному закону. Краткая теория Статистической гипотезой называется некоторое предположение о параметрах известных распределений (параметрическая) или о виде неизвестного закона распределения (непараметрическая) случайных величин, выдвигаемое в качестве предварительного, условного объяснения. Нулевой или основной гипотезой называется исходная гипотеза, которая должна быть подтверждена или отвергнута с помощью определенного критерия. Альтернативной или конкурирующей гипотезой называется гипотеза, которая противоречит основной гипотезе. Параметрической гипотезой называется гипотеза о значениях параметров распределения или о сравнительной величине параметров двух распределений. Непараметрической гипотезой называется гипотеза о виде распределения случайной величины. Статистическим критерием называется правило, которое используется для проверки нулевой гипотезы. Критерии согласия дают возможность определить, когда расхождения между теоретическими и эмпирическими частотами следует признать несущественными, т.е. случайными, а когда – существенными, т.е. неслучайными. Таким образом, они позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду. Параметрические критерии статистические критерии, предполагающие наличие нормального распределения переменных, которые измеряются на шкале интервалов или отношений (например, t-критерий Стьюдента, χ2 Пирсона). Непараметрические критерии - критерии, которые не рассматривают анализируемое статистическое распределение как функцию, их применение не предполагает предварительного вычисления параметров распределения (например, критерий Манна-Уитни, критерий Уилкоксона, критерий знаков). Значение критерия, которое рассчитано по выборочной совокупности, подчиняющейся определённому закону распределения, называется наблюдаемым (расчетным). Множество возможных значений статистического критерия, при которых основная гипотеза отвергается, называется критической областью. Множество возможных значений статистического критерия, при которых основная гипотеза принимается, называется областью принятия. Точки, разграничивающие критическую область и область принятия гипотезы, называются критическими точками. Ошибка, состоящая в опровержении верной гипотезы, называется ошибкой первого рода. Ошибка, состоящая в принятии ложной гипотезы, называется ошибкой второго рода. Вероятность совершения ошибки первого рода называется уровнем значимости. Вероятность не совершить ошибку первого рода называется доверительной вероятностью. Общая схема проверки статистических гипотез: 1 этап - выдвигаются две гипотезы: основная (нулевая) Н0 и альтернативная (конкурирующая) Н1. 2 этап – задается уровень значимости. Статистический вывод никогда не может быть сделан со стопроцентной уверенностью. Всегда допускается риск принятия неправильного решения. При проверке статистических гипотез мерой такого риска является уровень значимости - «р». 3 этап – по исходным данным, т.е. по выборке вычисляется наблюдаемое (расчетное) значение статистики критерия. 4 этап - по специальным статистическим таблицам вычисляется табличное (критическое) значение статистики критерия. 5 этап – путем сравнения найденных наблюдаемых и критических значений делается вывод о правильности этой или иной гипотезы. Сравнение дисперсий двух нормальных генеральных совокупностей. Даны две нормальные генеральные совокупности «Х» и «Y», дисперсии которых D(X) и D(Y) неизвестны. По выборкам X1, X2,…, Xn и Y1, Y2,…, Ym объемов «n» и «m» соответственно требуется сравнить дисперсии. Подобные сравнения возникают в случаях сравнения точности измерений, точности приборов, сравнения методик. Т.к. дисперсия характеризует степень рассеяния значений относительно среднего, то наилучшей характеристикой является та, у которой дисперсия меньше. Дано: 1. H0: D(X) = D(Y) H1: D(X) ≠ D(Y) 2. p =0,05 3. Вычисляется наблюдаемое значение статистики критерия: Fнабл.= s n2 . s m2 Примечание: в числителе нужно ставить большую из данных оценок, а в знаменателе меньшую. р 2 4. Вычисляется критическое значение статистики критерия Fкр ( , f1 , f 2 ) [см. Таблицу 2, Приложения 2], где f1=n-1, f2=m-1. 5. Сравниваются Fнабл..и Fкр: Если Fнабл.> Fкр, то различие дисперсий значимо и Н0 отвергается. Еесли Fнабл.< Fкр, то различие дисперсий не значимо и Н0 принимается. Проверка гипотезы о равенстве неизвестной дисперсии конкретному значению. Генеральная совокупность «Х» имеет нормальное распределение. Дисперсия генеральной совокупности известна, она равна определенному числу: D(X)= 02 . Требуется проверить указанное предположение. Подобные сравнения применяются в практике для оценки точности измерительных приборов, устойчивости методов исследования, стабильности протекания различных процессов, характеризующихся численными показателями. Дано: 1. H0: М(S2) = 02 H1: М(S2)> 02 2. p =0,05 3. Вычисляется наблюдаемое значение статистики критерия: χ 2 набл.= S2 02 (n 1) 4. Вычисляется критическое значение статистики критерия χ2кр..(p, f) [см. Таблицу 1, Приложения 3], где p - уровень значимости, f=n-1 число степеней свободы 5. Сравнивнение χ2набл и χ2кр: Если χ2набл.<χ2кр, то различия между s 2 и 02 незначимы, т.е. вызваны случайными причинами, и Н0 принимается. Если χ2набл.>χ2кр, то различия между s 2 и 02 , значимы, т.е. вызываны объективными причинами, и Н0 отвергается. 6. Литература: 1. Гланц С. Медико-биологическая статистика. Пер. с англ.-М.: Практика, 1998. - 459 с. 2. Гмурман В.Е. Теория вероятностей и математическая статитсика: Учеб. пособие для вузов / В.Е. Гмурман. - М.: Высшая школа, 2003. - 479 с. 3. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах / Под ред. Ю.М. Комарова. Т. 1. Теоретическая статитсика. - М.: Медицина, 2000. - 412 с. 4. Основы высшей математики и математической статистики: Учебник / И.В. Павлушков и соавт. - М.: ГЭОТАР-МЕД, 2004. - 424 с. 5. Петри А., Сэбин К. Наглядная медицинская статистика /А. Петри, К. Сэбин; пер. с англ. - М.: ГЭОТАР-Медиа, 2009. - 168 с. 6. Применение методов статистического анализа для изучения общественного здоровья и здравоохранения: учебное пособие / ред. Кучеренко В.З. - М.: ГЭОТАР-Медиа, 2011. - 256 с. 7. Контроль: Тесты Занятие №3 1. Тема: Критерий Стьюдента: назначение, формула для вычисления и ограничения. Таблица критических значений t-критерия. Критерий χ2: назначение, формула для вычисления и ограничения. Схема анализа. Таблица критических значений χ2-критерия. 2. Цель: изучение методических основ и условий применения t-критерия Стьюдента и χ2-критерия Пирсона при анализе биомедицинских данных. 3. Задачи обучения: сформировать навыки постановки и проверки статистических гипотез при использовании t-критерия Стьюдента и χ2критерия Пирсона. 4. Основные вопросы темы: 1. Какова общая постановка задачи, для которой может быть использован критерий Стьюдента? 2. Как формулируется нулевая гипотеза при использовании критерия Стьюдента? 3. Какова формула статистики критерия Стьюдента? 4. Как пользоваться таблицами критических значений t-критерия? 5. Почему критерий Стьюдента находит широкое применение при анализе медико-биологических данных? 6. Какова общая постановка задачи, для которой может быть использован 2 χ -критерий Пирсона? 7. Как формулируется нулевая гипотеза при использовании χ2-критерия Пирсона? 8. Какова формула статистики χ2-критерия Пирсона? 9. Как пользоваться таблицами критических значений χ2-критерия? 5. Методы обучения и индивидуальных заданий преподавания: письменное выполнение Задания: Задача 1. Если при родах шейка матки долго не раскрывается, то продолжительность родов увеличивается и может возникнуть необходимость кесарева сечения. Ученые решили выяснить, ускоряет ли гель с простагландином Е2 раскрытие шейки матки. В исследование вошло 2 группы рожениц. Роженицам первой группы вводили в шейку матки гель с простагландином Е2, роженицам второй группы вводили гель-плацебо. В обеих группах было по 21 роженице возраст, рост и сроки беременности были примерно одинаковы. Роды в группе, получавшей гель с простагландином Е2, длились в среднем 8,5 часов (стандартное отклонение 4,7 часа), в контрольной группе 13,9 часа (стандартное отклонение 4,1 часа). Можно ли утверждать, что гель с простагландином Е2 сокращал продолжительность родов? Задача 2. Ученые определили среднее артериальное давление и общее периферическое сосудистое сопротивление при операциях на открытом сердце с галотановой (9 больных) и морфиновой (16 больных) анестезией. Результаты: Показатель Среднее артериальное давление при наилучшем сердечном индексе, мм рт. ст. Общее периферическое сосудистое сопротивление при наилучшем сердечном индексе, дин с см-5 Галотан (n=9) Стандартное Среднее отклонение Морфин (n=16) Стандартное Среднее отклонение 76,8 13,8 91,4 19,6 2210 1200 2830 1130 Можно ли утверждать, что в группах галотановой и морфиновой анестезии эти гемодинамические показатели различаются статистически значимо? Задача 3. Две группы детей, одинаковых по оценке умственных способностей, независимо обучались по двум различным методикам преподавания. В ходе тестирования были получены следующие результаты: - объем выборки из первой группы n1=20, х 29,233 , s х2 5,62 ; - объем выборки из второй группы n2=10, у 27,562 , s у2 2,19 . В предположении, что изучаемые показатели в каждой группе имеют нормальное распределение с неизвестными средними и неизвестными, но одинаковыми дисперсиями. Проверить при уровне значимости р 0,05 , сильно отличаются средние показатели групп? Задача 4. С помощю специальных исследований было определено, что у стариков до лечения инсулином среднее содержание белков в крови составляло 81.04±1.7, а после лечения 79.33±1.6. Можно ли утверждать, что различие показателей достоверно, закономерно ли оно? Можно ли на его основании утверждать, что лечение инсулином понижает содержание белков в крови? Задача 5. У студентов - медиков проводилось исследование пульса до и после сдачи экзамена. Частота пульса до экзамена составила 98,8 4,0, а после экзамена 84,0 5,0. Можно ли считать, что после экзаменов частота пульса снижается и приближается к норме? Задача 6. У студентов-медиков проводилось исследование артериального давления до и после сдачи экзамена. Максимальное давление до сдачи экзамена составило 127,26,0, после сдачи 1174,0 мм рт. ст. Можно ли считать, что до сдачи экзаменов у студентов действительно имеется повышение максимального артериального давления? Задача 7. Содержание холестерина в сыворотке крови у больных с коронарным атеросклерозом составило 231,04,0 мг% до применения холина и 204,03,0 мг% после лечения. Применение холина снижает содержание холестерина в сыворотке крови? Задача 8. Выборка объема n=200 из генеральной совокупности «Х» представлена в виде статистического ряда: хi 0,3 0,5 0,7 0,9 1,1 1,3 1,5 1,7 1,9 2,1 2,3 υi 6 9 26 25 30 26 21 24 20 8 5 Проверить гипотезу о нормальном распределении генеральной совокупности «Х» с помощью χ2-критерия Пирсона при р=0,05. Задача 9. Изучалось среднее артериальное давление (мм рт. ст.) в начальной стадии шока. Выборка объема n=50 представлена следующими данными: 112, 110, 107, 103, 108, 109, 111, 110, 103, 103, 109, 102, 113, 106, 108, 105, 108, 104, 99. 112, 112, 103, 101, 98, 100, 97, 98, 100, 98, 107, 108, 99, 98, 92, 98, 110, 106, 105, 102, 100, 101, 100, 95, 100, 105, 100, 102, 102, 99, 97. Проверить гипотезу о нормальном распределении генеральной совокупности с помощью χ2-критерия Пирсона при уровне значимости р=0,05. Краткая теория t-критерий Стьюдента. Критерий был разработан Уильямом Госсеттом, который публиковался в журнале «Биометрика» под псевдонимом «Student». t-критерий Стьюдента – это метод проверки однородности выборок. Он позволяет принять или отвергнуть гипотезу о равенстве средних значений двух выборок. Основные условия применимости критерия Стьюдента: • рассматриваемые выборки имеют нормальное распределение; • дисперсии выборок равны. Критерий Стьюдента может применяться при малых выборках (n1,2≤30). Два случая использования t-критерия Стьюдента: 3. При проверке гипотезы о равенстве средних значений двух независимых выборок (двухвыборочный t-критерий). В этом случае анализируются контрольная и экспериментальная (опытная) выборки разных объемов. 4. При проверке гипотезы о равенстве средних двух зависимых выборок (парный t-критерий). В этом случае анализируется одна и та же выборка до и после эксперимента. Порядок применения двухвыборочного t-критерия Стьюдента: 2. Н0: x1 x2 Н1: x1 x2 2. р=0,05 t расч x1 x2 n1 n2 n1 n2 1 n1 n2 n1 1s1 n2 1s2 3. где n1, n2 - объемы рассматриваемых выборок, s12 , s 22 - дисперсии рассматриваемых выборок, x1 , x2 - сравниваемые средние значения выборок, n1+n2-1=f - степень свободы. 4. t крит ( р; f ) . 5. Если t расч < t крит , то различия между средними значениями данных не 2 2 являются статистически значимыми, т.е. нулевая гипотеза (Н0: x1 x2 ) принимается. Если t расч > t крит , то различия между средними значениями данных являются статистически значимыми, т.е. нулевая гипотеза отвергается. Порядок применения парного t-критерия: 3. Н0: x1 x2 Н1: x1 x2 2. р=0,05 3. t расч d nn 1 n d i 1 2 i nd 2 где d xi yi - разности между соответствующими значениями пар переменных, d - среднее значение этих разностей, n - объем выборки, n-1=f степень свободы. 6. t крит ( р; f ) . 7. сли t расч < t крит , то различия между средними значениями данных не являются статистически значимыми, т.е. нулевая гипотеза (Н0: x1 x2 ) принимается. Если t расч > t крит , то различия между средними значениями данных являются статистически значимыми, т.е. нулевая гипотеза отвергается. Примечание: иногда оценка достоверности разности выборочных средних проводится по следующей формуле: t расч х1 х2 m12 m22 , где х1 , х2 - сравниваемые средние величины; m1 и m2 - ошибки сравниваемых средних величин. Полученный критерий tрасч оценивается по общепринятым правилам: если tрасч2, то различие показателей следует считать достоверным при р=0,05 (принимается Н1: х1 х2 ). χ2-критерий Пирсона. Если закон распределения генеральной совокупности неизвестен, то для проверки гипотезы о его виде используются критерии согласия (например, χ2 критерий Пирсона). х1, х2, …, хn – возможные значения случайной величины «Х», а υ1, υ2, …, υn – соответствующие им частоты. 1. H0: случайная величина «Х» имеет функцию распределения F(x), т.е. случайная величина «Х» распределена нормально или равномерно. H1: случайная величина «Х» не имеет функцию распределения F(x), т.е. случайная величина «Х» распределена не нормально или не равномерно. 2. р=0,05 3. Определяется расчетное значение k 2 расч i 1 i i i 2 статистического критерия, где k - число групп, на которое разбито эмпирическое распределение, υi - наблюдаемая частота признака в i-й группе, i - теоретическая частота. Формула для расчета теоретических частот i попадания случайной величины в интервал [xi, xi+1]: pi xi X xi1 1 xi1 x i 2 , где µ - математическое ожидание, σ - среднеквадратическое отклонение, Ф(х) – функция Лапласа, [см. Таблицу 1, Приложения 7]. Если «µ» и «σ» неизвестны, то нужно вычислять их оценки х, s . Вид расчетной таблицы: Интервал Относительные Вероятности Теоретические i i 2 2 [xi, xi+1] частоты νi pi частоты i i i npi i 4. Определяется критическое значение статистического критерия χ2крит ( р, f ) [см. Таблицу 1, Приложения 3], где f k 1 r - число степеней свободы, k - число групп (частичных интервалов) выборки, r - число параметров предполагаемого распределения, которые оценены по данным выборки. Например, если предполагаемое распределение - нормальное, то оценивают два параметра (математическое ожидание и среднеквадратическое отклонение), поэтому r=2 и число степеней свободы f= k -1-2= k -3. 5. Сравниваются χ2расч. и χ2кр.: Если χ2расч.<χ2кр, то принимается H0. Если 2 расч. ≥ 2 кр , то принимается Н1. Критерий согласия Пирсона используется, если объем совокупности достаточно велик N≥50, при этом частота каждой группы должна быть не менее пяти. 6. Литература: 1. Герасимов А.Н. Медицинская статистика: учебное пособие/ Герасимов А.Н. – М.: МИА, 2007. - 480 с. 2. Гланц С. Медико-биологическая статистика. Пер. с англ.-М.: Практика, 1998. - 459 с. 3. Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов / В.Е. Гмурман. - М.: высшая школа, 2003. - 479 с. 4. Кобзарь А.И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с. 5. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах / Под ред. Ю.М. Комарова. Т. 1. Теоретическая статистика. - М.: Медицина, 2000. - 412 с. 6. Основы высшей математики и математической статистики: Учебник / И.В. Павлушков и соавт. - М.: ГЭОТАР-МЕД, 2004. - 424 с. 7. Петри А., Сэбин К. Наглядная медицинская статистика /А. Петри, К. Сэбин; пер. с англ. - М.: ГЭОТАР-Медиа, 2009. - 168 с. 7. Контроль: Тесты Занятие №4 1. Тема: Дисперсионный анализ. Статистические гипотезы, проверяемые с помощью дисперсионного анализа. Общая, факторная и остаточная дисперсии. Метод однофакторного дисперсионного анализа. F-критерий Фишера 2. Цель: изучение методических основ однофакторного дисперсионного анализа 3. Задачи обучения: сформировать навыки проведения однофакторного дисперсионного анализа 4. Основные вопросы темы: 10. Какова цель использования дисперсионного анализа? 11. Как формулируется нулевая гипотеза при использовании дисперсионного анализа? 12. В чем различие между факторной и остаточной дисперсиями? 13. В каких случаях применяется однофакторный дисперсионный анализ? 14. Какова методика проведения однофакторного дисперсионного анализа? 15. Для чего используется F-критерий Фишера? 5. Методы обучения и преподавания: письменное выполнение индивидуальных заданий. Задания: Задача 1. Произведено по пять испытаний на каждом из четырех уровней фактора F. Все четыре выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями. Результаты испытаний занесены в таблицу, в которой также указаны и групповые средние. Номер Уровень фактора F испытания i F1 F2 F3 F4 1 36 56 52 39 2 47 61 57 57 3 50 64 59 63 4 58 66 58 61 5 67 66 79 65 хгр j 51,6 62,6 61,0 57,0 При уровне значимости р 0,05 , методом дисперсионного анализа требуется проверить гипотезу о равенстве групповых средних. Задача 2. Двум группам белых мышей, по 10 животных в каждой, вводились биопрепараты. Животным первой группы вводился лизат сердца «N/10», а животным второй группы - экстракт мышц «10N». Через 86 дней животные были забиты и определено отношение веса сердца к общему весу каждого в %. Все выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями. Данные опытов сведены в таблицу: Уровень фактора F F1 (лизат сердца) F2 (экстракт мышц) F3 (контроль) N/10 10N 1 0,46 0,47 0,55 2 0,48 0,46 0,58 3 0,45 0,48 0,60 4 0,49 0,50 0,62 5 0,47 0,51 0,61 6 0,50 0,48 0,57 7 0,44 0,52 0,60 8 0,48 0,45 0,59 9 0,46 0,50 0,58 10 0,43 0,49 0,56 При уровне значимости р 0,05 , методом дисперсионного анализа Номер испытания i требуется проверить гипотезу о равенстве групповых средних. Задача 3. Если при родах шейка матки долго не раскрывается, то продолжительность родов увеличивается и может возникнуть необходимость кесарева сечения. Ученые решили выяснить, ускоряет ли гель с простагландином Е2 раскрытие шейки матки. В исследование вошло 2 группы рожениц. Роженицам первой группы вводили в шейку матки гель с простагландином Е2, роженицам второй группы вводили гель-плацебо. В обеих группах было по 21 роженице возраст, рост и сроки беременности были примерно одинаковы. Роды в группе, получавшей гель с простагландином Е2, длились в среднем 8,5 часов (стандартное отклонение 4,7 часа), в контрольной группе - 13,9 часа (стандартное отклонение 4,1 часа). Можно ли утверждать, что гель с простагландином Е2 сокращал продолжительность родов? Задача 4. Низкий уровень холестерина липопротеидов высокой плотности (ХЛПВП) приводит к развитию ишемической болезни сердца. Некоторые исследования показали, что физическая нагрузка может повысить уровень ХЛПВП. Был исследован уровень ХЛПВП у бегунов-марафонцев, бегунов трусцой и лиц, не занимающихся спортом, по 70 человек в каждой группе. Средний уровень ХЛПВП у лиц, не занимающихся спортом, составил примерно 43,3 мг% (стандартное отклонение 14,2 мг%), у бегунов трусцой - 58,0 мг% (стандартное отклонение 17,7 мг%) и у марафонцев - 64,8 мг% (стандартное отклонение 14,3 мг%). Оцените значимость различий между группами. Краткая теория Дисперсионный анализ – это группа статистических методов, разработанных английским математиком и генетиком Р. Фишером в 20-х годах ХХ-го века. Дано: генеральные совокупности X1, X2,…, Xk со следующими условиями: все «k» генеральных совокупностей распределены нормально; дисперсии всех генеральных совокупностей одинаковы. При этих условиях и заданном уровне значимости «р» требуется проверить нулевую гипотезу равенства средних, т.е. H0: x1 х2 ... хk . На каждую из генеральных совокупностей могут влиять один или несколько качественных факторов, входящих в эксперимент, которые могут изменять средние значения генеральных совокупностей. Фактором называется показатель, который оказывает влияние на конечный результат. Конкретную реализацию фактора называют уровнем фактора. Значение измеряемого признака называют откликом на фактор. Данные для дисперсионного анализа обычно оформляют в виде таблицы. Основная цель дисперсионного анализа состоит в разбиении выборочной дисперсии S 2 1 n n 1 i 1 ( xi x) 2 на две компоненты: первая – это факторная дисперсия, она соответствует влиянию фактора на изменчивость средних значений; вторая – это остаточная дисперсия, она обусловлена случайными причинами и не влияет на изменчивость средних значений). Для численной оценки влияния исследуемого фактора используют сравнение этих компонент с помощью критерия Фишера. Факторная дисперсия ( S 2 факт ) – это дисперсия, которая соответствует влиянию фактора на изменение средних значений выборки: k S 2 факт где SS факт SS фатк k 1 r x гр j x 2 j 1 k 1 , - факторная сумма квадратов отклонений, k - количество уровней фактора, r - количество значений в каждой группе, х - общая средняя, х гр групповая средняя. Остаточная дисперсия ( S 2 ост ) – это дисперсия, возникающая по случайным причинам и не влияющая на изменение средних значений выборки: x r S 2 ост SS ост k (r 1) i 1 i1 r x гр1 xi 2 x гр 2 2 2 i 1 r ... xi k x гр k 2 i 1 k (r 1) , где SS ост - остаточная сумма квадратов отклонений. Общая дисперсия – это сумма факторной и остаточной дисперсий: x k S 2 общ SS общ n 1 j 1 r i 1 ij x n 1 2 , где SS общ SS факт SS ост Однофакторный дисперсионный анализ – система статистических методов исследования действия на признак только одного фактора. Методика проведения однофакторного дисперсионного анализа. 1. Н0: групповые генеральные средние равны x1 х2 ... хk , а также различие выборочных средних получилось случайно, реального влияния фактор не оказывает. H1: различие между выборочными средними не случайно и обусловлено влиянием фактора. 2. р=0,05 3. Вычисляются S 2 факт и S 2 ост . Если S 2 факт S 2 ост , то признается нулевая гипотеза. Если вычисляется статистика, которая имеет S 2 факт S 2 ост , то распределение Фишера Fнабл SS S 2 факт SS 2 = факт : ост . S ост k 1 n 1 4. Вычисляется критическое значение статистики критерия Фишера Fкр . (р, f1, f2) [Таблица 2, Приложение 2], где f1=k-1, f2=k(r-1) – степени свободы. 5. Сравниваются Fнабл и Fкр : Если Fнабл < Fкр , то Н0 принимается и делают вывод, что фактор не влияет существенно на средние значения. Если Fнабл > Fкр , то Н0 отвергается и влияние фактора признается существенным. 6. Литература: 1. Гланц С. Медико-биологическая статистика. Пер. с англ.-М.: Практика, 1998. - 459 с. 2. Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов / В.Е. Гмурман. - М.: Высшая школа, 2003. - 479 с. 3. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах / Под ред. Ю.М. Комарова. Т. 1. Теоретическая статистика. - М.: Медицина, 2000. - 412 с. 4. Основы высшей математики и математической статистики: Учебник / И.В. Павлушков и соавт. - М.: ГЭОТАР-МЕД, 2004. - 424 с. 5. Петри А., Сэбин К. Наглядная медицинская статистика /А. Петри, К. Сэбин; пер. с англ. - М.: ГЭОТАР-Медиа, 2009. - 168 с. 7. Контроль: Тесты Занятие №5 1. Тема: Дисперсионный анализ в среде Statistica 2. Цель: реализация однофакторного и двухфакторного дисперсионного анализа в среде Statistica 3. Задачи обучения: сформировать навыки проведения однофакторного и двухфакторного дисперсионного анализа в среде Statistica 4. Основные вопросы темы: 1. Как провести тест на нормальность распределения в среде Statistica 10 и зачем это нужно? 2. В каком меню находится процедура Дисперсионный анализ? 3. Какие виды дисперсионного анализа представлены в Statistica 10? 4. Какие виды задания дисперсионного анализа представлены в Statistica 10? 5. Как заполнять поля в окне Переменные? 6. Какова общая схема проведения однофакторного дисперсионного анализа в Statistica 10? 7. Как объяснить результаты дисперсионного анализа, представленные в конечной таблице? 8. Какова общая схема проведения двухфакторного дисперсионного анализа в Statistica 10? 9. Как объяснить результаты двухфакторного дисперсионного анализа, представленные в конечной таблице? 10.Как объяснить результаты двухфакторного дисперсионного анализа с помощью графиков? 5. Методы обучения и преподавания: статистическая обработка материалов с помощью компьютерной программы Statistica 10 Задания: Задача 1. В течение нескольких дней подопытные животные подвергались радиоактивному облучению, получнные результаты представлены в таблице: Радиоактивность в условных единицах День облучения 1-я 2-я 3-я 4-я группа группа группа группа 1-й 30 28 26 24 1-й 28 30 27 26 1-й 34 32 30 28 1-й 42 40 38 34 2-й 36 38 34 32 2-й 28 30 29 26 2-й 34 32 30 28 2-й 36 30 32 26 3-й 40 38 36 24 3-й 38 36 34 32 3-й 34 45 40 38 3-й 37 38 40 36 Является ли распределение полученных результатов нормальным? Можно ли говорить об изменении радиоактивности крови в связи с длительностью облучения в разных группах животных? Указание. Для решения использовать пакет прикладных программ Statistica 10. Задача 2. Исследовалось влияние на вестибуло-вегетативную устойчивость (ВВУ) здоровых мужчин в возрасте 20-30 лет двух факторов: «А» - специальной физической и аутогенной тренировки на трех уровнях; «В» - медикаментозных средств, предупреждающих укачивание, на четырех уровнях. Уровни фактора «А»: А1 - систематическая тренировка в течение более 3 месяцев; А2 - систематическая тренировка в течение 1-3 месяцев; А3 - несистематическая тренировка. Уровни фактора «В»: В1 - алмид; В2 - амтизол; В3 - бемитил; В4 - гутимин. Испытания проводились с людьми со слабой ВВУ (со временем укачивания на кресле двойного вращения до неприятных ощущений не более 3 мин.). На каждом сочетании уровней наблюдали трех человек. Всего опытов проведено 36. Параметром, характеризующим влияние факторов «А» и «В», являлось время укачивания до появления неприятных ощущений – «Х» (мин). Данные опытов представлены в таблице: № А В Х 1 1 1 15 2 1 1 14 3 1 1 15 4 1 2 12 5 1 2 8 6 1 2 10 7 1 3 8 8 1 3 9 9 1 3 6 10 1 4 7 11 1 4 10 12 1 4 4 13 2 1 12 14 2 1 14 15 2 1 13 16 2 2 10 17 2 2 9 18 2 2 6 19 2 3 7 20 2 3 5 21 2 3 6 22 2 4 6 23 2 4 3 24 2 4 5 25 3 1 12 26 3 1 8 27 3 1 6 28 3 2 5 29 3 2 7 30 3 2 4 31 3 3 5 32 3 3 4 33 3 3 3 34 3 4 4 35 3 4 3 36 3 4 4 Провести двухфакторный дисперсионный анализ параметра «Х», сделать выводы. Построить графики средних значений параметра «Х» на различных уровнях факторов «А» и «В». Указание. Для решения использовать пакет прикладных программ Statistica 10. Задача 3. Исследовалась длительность лечения пациентов с механической травмой в городских клиниках. Показателем длительности лечения взят срок стационарного лечения в днях - SROKL. Качественными факторами, влияющими на длительность лечения, выбраны: - тяжесть состояния при поступлении в клинику - TIAJ, на трех уровнях: 1 - легкая, 2 - средняя, 3 - тяжелая; - локализация травмы - MIKST, на трех уровнях: 1 - травма конечностей, 2 - травма груди и живота, 3 - сочетанная травма. Сопутствующие количественные факторы: - срок доставки в клинику с момента получения травмы - SROKD, ч; - частота сердечных сокращений при поступлении в клинику - CHSS, уд/мин; - систолическое артериальное давление при поступлении в клинику - AD, мм рт. ст. Факторы TIAJ и MIKST варьировались на 9 сочетаниях их уровней. На каждом сочетании уровней наблюдалось по три человека, всего 27 человек. Данные наблюдений представлены в таблице: № TIAJ MIKST SROKD CHSS AD SROKL 1 2 1 2 100 110 58 2 1 2 2 98 125 43 3 2 3 4 130 80 110 4 1 2 2 84 120 48 5 3 1 3 115 80 96 6 1 1 1 84 120 28 7 1 2 2 80 115 41 8 2 2 2 96 120 64 9 2 2 2 78 110 78 10 2 3 4 95 70 115 11 1 1 1 64 140 15 12 2 2 2 84 120 64 13 1 1 2 68 110 35 14 2 1 2 110 125 49 15 1 1 1 78 140 28 16 3 2 4 130 70 112 17 2 3 3 120 80 88 18 2 1 2 110 85 77 19 1 3 1 78 140 41 20 1 3 1 72 130 36 21 3 3 4 140 45 120 22 3 3 3 110 65 100 23 2 3 3 105 65 98 24 1 3 2 90 130 45 25 2 1 2 84 110 58 26 3 1 3 120 60 98 27 3 2 4 130 65 100 Провести двухфакторный дисперсионный анализ, сделать выводы. Указание. Для решения использовать пакет прикладных программ Statistica 10. Краткая теория Реализация однофакторного дисперсионного анализа в среде Statistica 10 Разнообразие роста 12 взрослых человек: 7 женщин и 5 мужчин заданы в таблице: № Пол Рост 1 Мужчина 186 2 Женщина 169 3 Женщина 166 4 Мужчина 188 5 Женщина 172 6 Женщина 179 7 Женщина 165 8 Мужчина 174 9 Женщина 163 10 Мужчина 162 11 Женщина 162 12 Мужчина 190 Провести однофакторный дисперсионный анализ: сравнить, значимо ли отличаются мужчины и женщины в охарактеризованной группе по росту. Создадим таблицу в программе Statistica, куда внесем данные из примера. 1. Тест на нормальность распределения Дальнейшие рассуждения основываются на том, что распределение в рассматриваемой выборке нормальное или близкое к нормальному. Если распределение далеко от нормального, дисперсия не является адекватной мерой его изменчивости. Впрочем, дисперсионный анализ относительно устойчив к отклонениям распределения от нормальности. Тест этих данных на нормальность можно провести двумя способами: 1) Первый способ – Statistics/Basic Statistics/Descriptive Statistics (Рис.5.1) Вкладка Normality (Рис.5.2). Рис.5.1 Окно Basic Statistics and Tables Во вкладке Normality можно выбрать используемые тесты нормальности распределения. При нажатии на кнопку Frequency tables появится частотная таблица, а на кнопку Histograms — гистограмма. На таблице и гистограмме будут приведены результаты различных тестов. Рис. 5.2 Окно Descriptive Statistics 2) Второй способ связан с использованием соответствующих возможностей при построении гистограмм. В диалоге построения гистограмм (Graphs/Histograms...) следует выбрать вкладку Advanced (Рис.5.3). В ее нижней части есть блок Statistics. Отметим на ней Shapiro-Wilk test и Kolmogorov-Smirnov test, как это показано на рисунке. Рис.5.3 Статистические тесты на нормальность распределения в диалоге построения гистограмм Как видно по гистограмме (Рис.5.4), распределение роста в нашей выборке отличается от нормального (в середине — «провал»). Рис.5.4 Гистограмма, построенная с параметрами, указанными на предыдущем рисунке Третья строка в заголовке графика указывает параметры нормального распределения, к которому оказалось ближе всего наблюдаемое распределение. Генеральное среднее составляет 173, генеральное стандартное отклонение — 10,4. Внизу во врезке на графике указаны результаты тестов на нормальность. D — это критерий Колмогорова-Смирнова, а SW-W — Шапиро-Вилка. Как видно, для всех использованных тестов отличия распределения по росту от нормального распределения оказались незначимыми (во всех случаях р>0,05). Дисперсионный анализ относительно устойчив к отклонениям от нормальности, поэтому применяется в статистике. 2. Однофакторный анализ в Statistica 10 Чтобы проанализировать данный пример с помощью простейшего варианта дисперсионного анализа, нужно запустить для файла с соответствующими данными процедуру Statistics/ANOVA и выбрать в окне Type of analysis вариант One-way ANOVA (однофакторный дисперсионный анализ), а в окне Specification method – вариант Quick specs dialog (Рис.5.5). В открывшемся окне быстрого диалога в поле Variables (Переменные) нужно указать те столбцы, которые содержат данные, изменчивость которых мы изучаем (Dependent - Зависимые переменные; в нашем случае: столбецРост), а также столбец, содержащий значения, разбивающие изучаемую величину на группы (Categorical factor - Категориальный фактор; в нашем случае: столбец - Пол) (Рис.5.6). Рис.5.5 Диалог General ANOVA / MANOVA (Дисперсионный анализ) Рис.5.6 Диалог One-Way ANEVA (Однофакторный дисперсионный анализ) В данном варианте анализа, в отличие от многофакторного анализа, может рассматриваться только один фактор. В окне Factor codes (Коды факторов) следует указать те значения рассматриваемого фактора, которые нужно обрабатывать в ходе данного анализа. Все имеющиеся значения можно посмотреть с помощью кнопки Zoom; если, как в нашем примере, нужно рассматривать все значения фактора (а для пола в нашем примере их всего два), можно нажать кнопку All (Все). Когда заданы обрабатываемые столбцы и коды фактора, нажимая кнопку OK можно перейти в окно быстрого анализа результатов: ANOVA Results 1, во вкладку Quick (Быстрый) (Рис.5.7). Рис. 5.7 Вкладка Quick (Быстрый) окна результатов дисперсионного анализа Кнопка All effects/Graphs (Все эффекты/Графики) позволяет увидеть, как соотносятся средние двух групп. Над графиком указывается число степеней свободы, значения «F» и «p» для рассматриваемого фактора (Рис.5.8). Рис.5.8 Графическое отображение результатов дисперсионного анализа Кнопка All effects (Все эффекты) позволяет получить таблицу дисперсионного анализа (Рис.5.9). Рис.5.9 Таблица с результатами дисперсионного анализа В нижней строке таблицы указана сумма квадратов, количество степеней свободы и средние квадраты для ошибки (внутригрупповой изменчивости). На строку выше – аналогичные показатели для исследуемого фактора (в данном случае: признак – Пол), a также критерий «F», и уровень его значимости. То, что действие рассматриваемого фактора оказалось значимым, показывает выделение красным цветом. В первой строке приведены данные по показателю «Intercept», данные этой строки можно проигнорировать. Реализация двухфакторного дисперсионного анализа в среде Statistica 10 Рассмотрим данные с результатами тестирования студентов мужского и женского пола по трем тестам: «легкому», «среднему» и «сложному». Данные расположены не случайно, а сгруппированы по полу, по сложности теста, а внутри этих групп – по возрастанию полученного балла: № Пол Тест Балл 1 Женщина Легкий 64 2 Женщина Легкий 69 3 Женщина Легкий 73 4 Женщина Легкий 90 5 Женщина Легкий 94 6 Женщина Средний 30 7 Женщина Средний 39 8 Женщина Средний 63 9 Женщина Средний 72 10 Женщина Средний 76 11 Женщина Сложный 10 12 Женщина Сложный 25 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Женщина Женщина Женщина Мужчина Мужчина Мужчина Мужчина Мужчина Мужчина Мужчина Мужчина Мужчина Мужчина Мужчина Мужчина Мужчина Мужчина Мужчина Сложный Сложный Сложный Легкий Легкий Легкий Легкий Легкий Средний Средний Средний Средний Средний Сложный Сложный Сложный Сложный Сложный 34 41 60 41 43 53 65 78 43 45 65 71 96 34 41 60 64 71 Создадим в программе Statistica таблицу, куда внесем данные из примера. Выберем меню Statistics/ANOVA. В диалоге Quick в окне Type of analysis укажем Factorial ANOVA, а в окне Specification method укажем Quick specs dialog (Рис.5.10). Рис.5.10 Стартовое окно для проведения многофакторного анализа Нажав «OK», переходим в следующий диалог. Во вкладке Quick необходимо указать столбцы с факторами и исследуемыми признаками, а также необходимые коды факторов. Нажав кнопку Variables (Переменные), в окне Dependent variables list укажем столбец - Балл, а в окне Categorical predictors (factor) - столбцы -Пол и Тест (в этом и подобном окнах, если нужно выбрать несколько переменных, то их можно выделять щелчком мыши на их названии при нажатой клавише Ctrl). Нажимаем «OK». В диалоге Factor codes для обоих факторов выбираем All (Рис. 5.11). Рис. 5.11 Выбор кодов факторов (значений переменных Пол и Тест, для которых будет выполняться анализ). В обоих случаях нажаты кнопки All (Все) Очередное «OK» переводит в окно ANOVA Results 1. Кнопка All effects выводит таблицу дисперсионного анализа (Рис.5.12). Рис.5.12 Основная таблица результатов двухфакторного анализа Как видно из таблицы, влияние признака Пол незначимо, но и влияние признака Тест, и взаимодействие Пол*Тест оказывается значимым. Чтобы понять, в чем заключается такое взаимодействие, полезно построить график с помощью кнопки All effects/Graphs в окне ANOVA Results 1. В открывающемся диалоговом окне выбираем строку Пол*Тест. Программа предлагает два варианта построения графика: с отображением на оси абсцисс признака Тест или признака Пол. Приведем оба варианта (Рис.5.13 и Рис.5.14). Рис. 5.13 Вариант графика, отражающего взаимодействие факторов, в котором на оси абсцисс показан признак Пол, а точки, соответствующие определенным значениям признака Тест, показаны линиями Рис.5.14 Вариант графика, отражающего взаимодействие факторов, в котором на оси абсцисс показан признак Тест, а точки, соответствующие определенным значениям признака Пол, показаны линиями Очевидно, что проще работать со вторым из графиков. Линиями на нем показаны результаты испытуемых двух полов. Из графика видно, что женщины хорошо решают легкие тесты, при решении средних тестов они получают плохие результаты, а в случае сложных тестов их результаты опять повышаются. Реакция мужчин другая: легкие тесты они решают хорошо, на тестах средней сложности результат практически такой же, а сложные тесты они решают лучше всего. Итак, вывод о том, что пол человека не влияет на результаты тестов, нуждается в корректировке. Нет оснований утверждать, что один пол сдает тесты хуже или лучше, чем другой; зато ясно, что мужчины реагируют на усложнение тестов совсем иначе, чем женщины. Значит, пол все-таки влияет на баллы, но не повышая или понижая оценку, а меняя реакцию на изменение другого фактора. 6. Литература: 1. Гланц С. Медико-биологическая статистика. Пер. с англ.-М.: Практика, 1998. - 459 с. 2. Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов / В.Е. Гмурман. - М.: высшая школа, 2003. - 479 с. 3. Жижин К.С. Медицинская статистика: Учебное пособие / К.С. Жижин. Ростов н/Д: Феникс, 2007. - 160 с. 4. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах / Под ред. Ю.М. Комарова. Т. 1. Теоретическая статистика. - М.: Медицина, 2000. - 412 с. 5. Основы высшей математики и математической статистики: Учебник / И.В. Павлушков и соавт. - М.: ГЭОТАР-МЕД, 2004. - 424 с. 6. Халафян А.А. Statistica 6. Статистический анализ данных. 3-е изд. Учебник - М.: ООО «Бином-Пресс», 2007. - 512 с. 7. Юнкеров В.И., Григорьев С.Г. Математико-статистическая обработка данных медицинских исследований. - СПб.: ВМедА, 2002. - 266 с. 7. Контроль: Тесты Занятие №6 1. Тема: Статистические методы в эпидемиологическом анализе. Анализ заболеваемости по факторам риска. 2. Цель: применение методов корреляционного заболеваемости по факторам риска. анализа при анализе 3. Задачи обучения: сформировать навыки установления корреляционной зависимости методом наименьших квадратов, а также оценки силы, направленности и достоверности полученного коэффициента корреляции. 4. Основные вопросы темы: 1. Почему для количественной оценки факторов риска используется корреляционный анализ? 2. Что представляет собой корреляционная зависимость? 3. Как вычисляется линейный коэффициент корреляции? 4. Какие виды корреляционной зависимости Вы знаете? 5. Как определяется достоверность коэффициента корреляции? 5. Методы обучения и индивидуальных заданий. преподавания: письменное выполнение Задания: Задача 1. В одном населенном пункте зарегистрировано наличие хронической эпидемии дизентерии Флекснера. Предварительный анализ и лабораторные исследования показали, что в питьевой воде водопроводной сети наблюдаются частые «проскоки» нестандартных проб по бактериологическим показателям (фактор риска). Необходимо проверить гипотезу о наличии связи между этими двумя признаками, сделать выводы. Исходные данные представлены в таблице: Месяц Число больных дизентерией (х) Январь Февраль Март Апрель Май Июнь Июль Август Сентябрь Октябрь Ноябрь Декабрь 10 9 2 7 6 11 26 32 46 38 8 5 Доля нестандартных проб воды (у) 0 0,5 1,1 2,0 1,8 2,9 6,7 4,5 8,7 7,1 3,2 0 Задача 2. Вычислить коэффициент корреляции, определить направление и силу связи между количеством кальция в воде и жесткостью воды. Оценить достоверность связи. Сделать вывод. Исходные данные представлены в таблице: Жесткость воды (в градусах) Количество кальция в воде (в мл/л) 4 28 8 56 11 77 27 191 34 241 37 262 Задача 3. Проведено изучение зависимости заболеваемости инфарктом миокарда по месяцам года в зависимости от среднемесячной температуры воздуха. Вычислить коэффициент корреляции, определить направление и силу связи между показателями. Оценить достоверность связи. Сделать вывод. Исходные данные представлены в таблице: Заболеваемость инфарктом Среднемесячная Месяц миокарда по месяцам температура воздуха (на 10 000 тыс. жителей) Январь 1,6 -7,1 Февраль 1,23 -7,7 Март 1,14 -5,8 Апрель 1,13 -4,1 Май 1,12 +13 Июнь 1,02 +14,9 Июль 0,91 +18,8 Август 0,82 +15,6 Сентябрь 1,06 +9,0 Октябрь 1,22 +6,0 Ноябрь 1,33 -1,0 Декабрь 1,4 -7,7 Краткая теория Цель анализа заболеваемости по факторам риска: проверка гипотез о причинах, вызывающих заболевание; выявление факторов, определяющих риск заражения и заболевания людей; установление типов эпидемий. Для количественной оценки факторов риска используется корреляционный анализ, показывающий характер и тесноту связи между заболеваемостью и возможной ее причиной. Корреляционная связь (корреляция) - связь, при которой каждому определенному значению одного признака соответствует несколько значений другого взаимосвязанного с ним признака (связь между ростом и массой тела человека; связь между температурой тела и частотой пульса и др.). Корреляционная связь характерна для социально-гигиенических процессов, клинической медицины и биологии. Линейный (парный) коэффициент корреляции (Пирсона) показатель, характеризующий силу связи и ее направление, рассчитывается по формуле: rxy ( x x)( y y) ( x x) ( y y ) 2 2 , где rxy – коэффициент корреляции; «х» и «у» – коррелируемые ряды; « x », « y » - средние. Линейный коэффициент корреляции принимает значения в промежутке [-1, 1]. По направлению различают прямую и обратную корреляционную связь. Связь, при которой увеличение одной переменной связано с увеличением другой переменной, называется прямой корреляционной связью. Связь, при которой увеличение одной переменной связано с уменьшением другой переменной, называется обратной корреляционной связью. При прямой связи коэффициент корреляции принимает значения от 0 до +1. При обратной связи коэффициент корреляции принимает значения от –1 до 0. Если коэффициент корреляции равен 0, то связь между явлениями отсутствует. Если коэффициент корреляции равен +1 или –1, то связь между явлениями функциональная. Если 0 < rxy< 0,3 - связь слабая (малая), 0,3 < rxy< 0,7 - связь средняя (умеренная), 0,7 < r xy<1 - связь сильная (тесная). Достоверность коэффициента корреляции определяется сравнением его с вычисляемой средней ошибкой. Средняя ошибка коэффициента корреляции равна: mr 1 rxy2 n , где rxy – коэффициент корреляции; n - число наблюдений. Коэффициент корреляции считается достоверным, если не менее чем в 3 раза превышает свою среднюю ошибку. Иначе необходимо увеличить число наблюдений и вновь вычислить коэффициент и его ошибку. Достоверность коэффициента корреляции определяется по специальным таблицам [см. Таблицу 1, Приложения 4] 6. Литература: 1. Гланц С. Медико-биологическая статистика. Пер. с англ.-М.: Практика, 1998. - 459 с. 2. Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов / В.Е. Гмурман. - М.: высшая школа, 2003. - 479 с. 3. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах / Под ред. Ю.М. Комарова. Т. 1. Теоретическая статистика. - М.: Медицина, 2000. - 412 с. 4. Основы высшей математики и математической статистики: Учебник / И.В. Павлушков и соавт. - М.: ГЭОТАР-МЕД, 2004. - 424 с. 5. Петри А., Сэбин К. Наглядная медицинская статистика /А. Петри, К. Сэбин; пер. с англ. - М.: ГЭОТАР-Медиа, 2009. - 168 с. 6. Применение методов статистического анализа для изучения общественного здоровья и здравоохранения: учебное пособие / ред. Кучеренко В.З. - 4-е изд., перераб. и доп. – М.: ГЭОТАР - Медиа, 2011. - 256 с. 7. Савилов Е.Д. Эпидемиологический анализ: Методы статистической обработки материала / Е.Д. Савилов, В.А. Астафьев, C.Н. Жданова, Е.А. Заруднев. – Новосибирск: Наука-Центр, 2011. – 156 с. 7. Контроль: Тесты Занятие №7 1. Тема: Корреляционно-регрессионный анализ. Оценка параметров по методу наименьших квадратов. Уравнение линейной регрессии. 2. Цель: применение методов корреляционно-регрессионного анализа при проведении медико-биологических и фармацевтических исследований. 3. Задачи обучения: на основе взаимосвязи между факторным и результативным признаками, выявленной методом корреляции, научить студентов измерять и анализировать изменения одного признака в зависимости от изменений другого. 4. Основные вопросы темы: 1. В чем заключается суть регрессионного анализа? 2. Что такое регрессия и каких видов она бывает? 3. Какие виды уравнений парной регрессии Вы знаете? 4. В чем заключается суть метода наименьших квадратов? 5. По каким формулам определяются коэффициенты парной линейной регрессии? 5. Методы обучения и преподавания: письменное выполнение индивидуальных заданий Задания: Задача 1. В одном населенном пункте зарегистрировано наличие хронической эпидемии дизентерии Флекснера. Предварительный анализ и лабораторные исследования показали, что в питьевой воде водопроводной сети наблюдаются частые «проскоки» нестандартных проб по бактериологическим показателям (фактор риска). Необходимо построить уравнение парной регрессии; изобразить графически теоретическую и фактическую кривые; проверить значимость уравнения регрессии. Исходные данные представлены в таблице: Месяц Число больных Доля дизентерией (х) нестандартных проб воды (у) Январь 10 0 Февраль 9 0,5 Март Апрель Май Июнь Июль Август Сентябрь Октябрь Ноябрь Декабрь 2 7 6 11 26 32 46 38 8 5 1,1 2,0 1,8 2,9 6,7 4,5 8,7 7,1 3,2 0 Задача 2. Построить уравнение регрессии между количеством кальция в воде и жесткостью воды; изобразить графически теоретическую и фактическую кривые; проверить значимость уравнения регрессии. Исходные данные представлены в таблице: Жесткость воды (в градусах) 4 8 11 27 34 37 Количество кальция в воде (в мл/л) 28 56 77 191 241 262 Задача 3. Проведено изучение зависимости заболеваемости инфарктом миокарда по месяцам года в зависимости от среднемесячной температуры воздуха. Необходимо построить уравнение парной регрессии; изобразить графически теоретическую и фактическую кривые; проверить значимость уравнения регрессии. Исходные данные представлены в таблице: Месяц Январь Февраль Март Апрель Май Июнь Июль Заболеваемость инфарктом миокарда по месяцам (на 10 000 тыс. жителей) 1,6 1,23 1,14 1,13 1,12 1,02 0,91 Среднемесячная температура воздуха -7,1 -7,7 -5,8 -4,1 +13 +14,9 +18,8 Август Сентябрь Октябрь Ноябрь Декабрь 0,82 1,06 1,22 1,33 1,4 +15,6 +9,0 +6,0 -1,0 -7,7 Задача 4. Построить уравнение регрессии между проницаемостью сосудов сетчатки глаз и ее электрической активностью; изобразить графически теоретическую и фактическую кривые; проверить значимость уравнения регрессии. Исходные данные представлены в таблице: Номер наблюдения 1 2 3 4 5 6 7 8 9 10 Проницаемость сосудов сетчатки 19,5 15,0 13,5 23,3 6,3 2,5 13,0 1,8 6,5 1,8 Электрическая активность сетчатки 0,0 38,5 59,0 97,4 119,2 129,5 198,7 248,7 318,0 438,5 Задача 5. Азотистый баланс - разность между количеством азота, который попадает в организм с пищей, и количеством азота, выводимого из организма. Это важный показатель полноценного питания. Отрицательный азотистый баланс показывает, что организм не получает достаточно белка. Нормы суточного потребления белка, рекомендуемые ВОЗ, рассчитаны на мужчин. Определите количество белка в рационе, необходимое для поддержания нулевого азотистого баланса у женщин. Связь суточного потребления азота и азотистого баланса определили при калорийности суточного рациона 37 и 33 ккал/кг. Найдите уравнения регрессии для обеих групп. Изобразите на одном графике результаты наблюдений и линии регрессий. Является ли различие между линиями регрессии статистически значимым? Для группы 37 ккал/кг найдите величину потребления азота, обеспечивающую нулевой азотистый баланс. Исходные данные представлены в таблице: Калорийность суточного рациона 37 ккал/кг 33 ккал/кг Потребление Азотистый Потребление Азотистый азота, мг/кг 49 47 50 76 77 99 98 103 118 105 100 98 баланс, мг/кг -30 -22 -29 -22 -15 -10 -11 -10 -1 -4 -13 -14 азота, мг/кг 32 32 32 51 53 51 52 74 72 74 98 97 баланс, мг/кг -32 -20 -17 -10 -20 -18 -21 4 -16 -14 6 -7 Краткая теория Регрессионный анализ – это метод статистической обработки данных, позволяющий по средней величине одного признака определить среднюю величину другого. Регрессия - это функция, позволяющая по средней величине одного признака определить среднюю величину другого. Различают два вида регрессии: парную и множественную. Парная (простая) регрессия – это уравнение вида: у=f(x), где y зависимая переменная (результативный признак), x – независимая переменная (признак – фактор). Результативный признак при парной регрессии рассматривается как функция от одного аргумента, т.е. одного факторного признака. Различают следующие виды уравнений парной регрессии: линейное у=a+bx; экспоненциальное y=eax+b; гиперболическое y=a+b/x; параболическое y=a+b1x+b2x2 ; показательное y=abx и др. где a, b1, b2 - коэффициенты (параметры) уравнения; у - результативный признак; х - факторный признак. Построение уравнения регрессии сводится к оценке его коэффициентов (параметров), для этого используют метод наименьших квадратов (МНК). Методика регрессионного анализа (на примере линейного уравнения парной регрессии) 1. Выбор формы зависимости между признаками, т.е. уравнения регрессии. 2. Определение параметров уравнения регрессии у = a + bх по методу наименьших квадратов: a y bx , b yx y x x2 x 2 , где b - коэффициент регрессии, который показывает на сколько изменится результативный признак (y) при изменении факторного (x) на единицу измерения. 3. Нахождение теоретических значений «уx» путем подставления в уравнение регрессии фактических значений «х». 4. Построение графиков фактических (у) и теоретических значений (ух). 5. Проверка допустимости расхождения между реальной и теоретической кривыми регрессии, т.е. проверка правильности выбранного уравнения регрессии. Порядок проверки правильности выбранного уравнения регрессии: 1) Определяется наблюдаемое значение критерия Фишера Fнабл : (y x y)2 rxy2 k Fнабл (n 2) , 1 rxy2 ( y yx )2 n k 1 где n - число единиц совокупности, k - число параметров в уравнении при переменных «х». «у» - значение результативного признака, полученное в исследовании (фактическое); yx - значение результативного признака, полученного при решении уравнения регрессии (теоретическое). 2) Определяется критическое значение критерия Фишера Fкрит. (р, f1, f2), по таблице [см. Таблицу 1, Приложения 2], где k= f1 - число степеней свободы большей дисперсии, n-k-1=f2 – меньшей. 3) Сравниваются Fнабл. и Fкрит : Если Fнабл.>Fкрит, то расхождение между фактической и теоретической кривой считается незначительным, т.е. уравнение регрессии подобрано верно и может применяться на практике. Если Fнабл.<Fкрит, то расхождение между фактической и теоретической кривой считается значительным, т.е. уравнение регрессии подобрано неверно. Множественная регрессия – это уравнение вида: у = f (x1, х2, …, хn). Результативный признак рассматривается как функция от нескольких аргументов, т.е. факторных признаков. 6. Литература: 1. Гланц С. Медико-биологическая статистика. Пер. с англ.-М.: Практика, 1998. - 459 с. 2. Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов / В.Е. Гмурман. - М.: высшая школа, 2003. - 479 с. 3. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах / Под ред. Ю.М. Комарова. Т. 1. Теоретическая статистика. - М.: Медицина, 2000. - 412 с. 4. Основы высшей математики и математической статистики: Учебник / И.В. Павлушков и соавт. - М.: ГЭОТАР-МЕД, 2004. - 424 с. 5. Петри А., Сэбин К. Наглядная медицинская статистика /А. Петри, К. Сэбин; пер. с англ. - М.: ГЭОТАР-Медиа, 2009. - 168 с. 6. Применение методов статистического анализа для изучения общественного здоровья и здравоохранения: учебное пособие / ред. Кучеренко В.З. - 4-е изд., перераб. и доп. – М.: ГЭОТАР - Медиа, 2011. - 256 с. 7. Контроль: Тесты Занятие №8 1. Тема: Ранговая корреляция. Коэффициент ранговой корреляции Спирмена. Корреляционно-регрессионный анализ в среде Statistica. 2. Цель: применение методов корреляционного анализа при проведении клинических и фармацевтических исследований; корреляционно-регрессионного анализа в среде Statistica. реализация 3. Задачи обучения: сформировать навыки установления ранговой корреляционной зависимости, а также навыки проведения корреляционнорегрессионного анализа в среде Statistica при обработке клинических и фармацевтических данных. 4. Основные вопросы темы: 1. В каких случаях для оценки зависимости применяют ранговую корреляцию? 2. Что такое ранжирование? 3. Как рассчитывается коэффициент ранговой корреляции Спирмена? 4. В каком модуле программы Statistica производится вычисление коэффициента ранговой корреляции Спирмена? 5. В каком модуле программы Statistica осуществляется регрессионный анализ? 6. Какая информация содержится в итоговой таблице результатов корреляционно-регрессионного анализа в Statistica? 5. Методы обучения и преподавания: письменное выполнение индивидуальных заданий, статистическая обработка материалов с помощью компьютерной программы Statistica10. Задания: Задача 1. По имеющимся данным исследовать зависимость роста сына «Y» от роста отца «Х» с помощью коэффициента Спирмена. хi 180 172 173 169 175 170 179 170 167 174 yi 186 180 176 171 182 166 182 172 169 177 Задача 2. По имеющимся данным исследовать зависимость уровня интеллекта студентов «Y» от времени, которое было потрачено на решение логических задач «Х», с помощью коэффициента Спирмена. хi(сек.) 154 yi 100 123 118 120 112 213 97 200 99 187 103 155 102 100 132 114 122 115 121 107 176 143 111 115 117 109 111 Задача 3. Провести корреляционно-регрессионный анализ в среде Statistica 10 для показателей: количество кальция в воде и жесткость воды. Сделать выводы. Исходные данные представлены в таблице: Жесткость воды (в градусах) Количество кальция в воде (мл/л) 4 28 8 56 11 77 27 191 34 241 37 262 Задача 4. Провести корреляционно-регрессионный анализ в среде Statistica10 для показателей: заболеваемость инфарктом миокарда по месяцам года и среднемесячная температура воздуха. Сделать выводы. Исходные данные представлены в таблице: Заболеваемость инфарктом Среднемесячная Месяц миокарда по месяцам температура воздуха (на 10 000 тыс. жителей) Январь 1,6 -7,1 Февраль 1,23 -7,7 Март 1,14 -5,8 Апрель 1,13 -4,1 Май 1,12 +13 Июнь 1,02 +14,9 Июль 0,91 +18,8 Август 0,82 +15,6 Сентябрь 1,06 +9,0 Октябрь 1,22 +6,0 Ноябрь 1,33 -1,0 Декабрь 1,4 -7,7 Краткая теория При анализе клинических и фармацевтических явлений часто приходится прибегать к различным условным оценкам, например рангам, а взаимосвязь между отдельными признаками можно измерить с помощью непараметрических коэффициентов связи. Непараметрические коэффициенты связи: - ранговой корреляции Спирмена; - «τ» (тау) Кендалла; - ассоциации Юла; - контингенции Пирсона; - сопряженности Чупрова; - «γ» (гамма) и др. Ранжирование - это процедура упорядочения объектов исследования, которая выполняется на основе выбора, а ранг - это порядковый номер значений признака, расположенных в порядке возрастания или убывания их величин. Коэффициент ранговой корреляции - коэффициент, который измеряет связь между рангами данной варианты по разным признакам. Коэффициент ранговой корреляции Спирмена используется для определения тесноты связей как между количественными, так и между качественными признаками при условии, если их значения упорядочить по степени убывания или возрастания признака. Коэффициент ранговой корреляции Спирмена рассчитывается по следующей формуле: 1 n 6 2 xi yi , где n - объем совокупности, xi-yi n 3 n i 1 разность между рангами «i»-го объекта. Коэффициент ранговой корреляции значения на интервале [-1; 1]. Спирмена принимает любые Корреляционно-регрессионный анализ в Statistica 10 В программе Statistica выполнение корреляционно-регрессионного анализа проводится в модуле Multiple regression (Множественная регрессия). Общее назначение модуля: построить модель, описывающую связи между переменными; оценить существенность полученной модели; на основе полученной модели определить требуемые значения зависимой переменной. Проведем однофакторный корреляционно-регрессионный анализ между переменными: число больных дизентерией и число нестандартных проб воды. На рис.8.1 изображена стартовая панель модуля Multiple regression (Множественная регрессия). Рисунок 8.1 Заполнение стартовой панели модуля Multiple regression (Множественная регрессия) Кнопка Open Data (Открыть данные) позволяет выбрать файл с данными для анализа. Кнопкой Variables (Переменные) активизируется диалоговое окно, в котором необходимо указать, в соответствии с заданием, Dependent (Зависимые) и Independent (Независимые) переменные. Выберем вкладку Advanced (Дополнительно)/Review descriptive statistics, correlation matrix (Просмотр описательных статистик, корреляционная матрица), рис.8.2. Рисунок 8.2 Модуль Multiple regression (Множественная регрессия), вкладка Advanced (Дополнительно) Далее активизируется окно Review descriptive statistics (Просмотр описательных статистик), опять выберем вкладку Advanced (Дополнительно), рис.8.3. Рисунок 8.3 Диалоговое окно Review descriptive statistics (Просмотр описательных статистик), вкладка Advanced (Дополнительно) Рассмотрим некоторые элементы этого окна. В результате нажатия кнопки Means & standard deviations (Средние и стандартные отклонения) появляется таблица, см. рис.8.4, содержащая информацию о средних значениях рассматриваемых показателей и их стандартных отклонениях. Рисунок 8.4 Результат нажатия кнопки Means & standard deviations (Средние и стандартные отклонения) В результате нажатия кнопки Correlations (Корреляции) появляется матрица линейных коэффициентов парной корреляции, см. рис.8.5. Кнопка Matrix plot of correlation (Матричный график корреляции) создает графики корреляции, которые позволяют визуально проверить распределения на наличие «выбросов». Эти «выбросы» могут повлиять на расположение кривой регрессии, а также показать факт наличия и направления связи между зависимыми и независимыми переменными (рис.8.6). Рисунок 8.5 Результат нажатия кнопки Correlations (Корреляции) После просмотра основных параметров окна Review Descriptive statistics (Просмотр описательных статистик), щелчком на кнопке «ОК» переходим в окно Multiple Regression Results (Результат множественной регрессии). При нажатии кнопки Summary на экран выводится итоговая таблица регрессионного анализа: Regression results (Итоговые результаты регрессии), см. рис.8.7. Рисунок 8.6 Результат нажатия кнопки Matrix plot of correlation (Матричный график корреляции) Рисунок 8.7 Итоговая таблица регрессионного анализа В заголовке таблицы расположена следующая информация: R – коэффициент корреляции, R2 – коэффициент детерминации, Adjusted R2 – скорректированный коэффициент детерминации, значение F-критерия Фишера, число степеней свободы (1,10), уровень значимости р, стандартная ошибка оценки. В первом столбце таблицы даны значения стандартизированных коэффициентов регрессионного уравнения. Во втором – стандартные ошибки. В третьем – точечные оценки параметров модели: коэффициент а=0,192, коэффициент b=0,181. Далее: стандартные ошибки, значение t-критерия, значение уровня значимости «р». Из приведенных результатов анализа следует: зависимость между предиктором и откликом сильная (R2=0,829); построенная линейная модель соответственно описывает взаимосвязь между откликом и предиктором, свободный член «а» статистически незначим, а коэффициент «b» статистически значим (выделен красным цветом). Для рассчета коэффициента ранговой корреляции Спирмена в Statistica: выбрать модуль Nonparametrics (Непараметрические статистики), выбрать процедуру Correlations (Spearman, Kendall tau, gamma) (рис.8.8), задать переменные, Рисунок 8.8 Меню модуля Nonparametrics (Непараметрические статистики) нажать кнопку Spearman rank R (Коэффициент Спирмена) (рис.8.9). Рисунок 8.9 Расчет коэффициента ранговой корреляции Спирмена Результатом расчета коэффициента ранговой корреляции Спирмена является следующая таблица, см. рис.8.10. Рисунок 8.10 Результат расчета коэффициента ранговой корреляции Спирмена 6. Литература: 1. Гланц С. Медико-биологическая статистика. Пер. с англ.-М.: Практика, 1998. - 459 с. 2. Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов / В.Е. Гмурман. - М.: высшая школа, 2003. - 479 с. 3. Жижин К.С. Медицинская статистика: Учебное пособие / К.С. Жижин. Ростов н/Д: Феникс, 2007. - 160 с. 4. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах / Под ред. Ю.М. Комарова. Т. 1. Теоретическая статистика. - М.: Медицина, 2000. - 412 с. 5. Халафян А.А. Statistica 6. Статистический анализ данных. 3-е изд. Учебник М.: ООО «Бином-Пресс», 2007. - 512 с. 6. Юнкеров В.И., Григорьев С.Г. Математико-статистическая обработка данных медицинских исследований 7. Контроль: Тесты Занятие №9 1. Тема: Стандартизированные коэффициенты. Прямой метод стандартизации. 2. Цель: применение прямого метода стандартизации для выявления влияния факторного признака на результативный признак при анализе клинических и фармацевтических данных. 3. Задачи обучения: сформировать навыки применения прямого метода стандартизации для выявления влияния факторного признака на результативный признак при анализе клинических и фармацевтических данных. 4. Основные вопросы темы: 1. Каковы условия применения метода стандартизации? 2. В чем заключается сущность метода стандартизации? 3. Что такое стандартизированные коэффициенты? 4. Какие методы вычисления стандартизированных коэффициентов существуют? 5. Какова последовательность этапов расчета стандартизованных коэффициентов при прямом методе стандартизации? 6. Что такое стандарт и как его получить? 5. Методы обучения и преподавания: письменное выполнение индивидуальных заданий Задания: Задача 1. Проанализировать показатели смертности на двух территориях РК, имеющих различие по возрастному составу населения с помощью метода стандартизации. В качестве стандарта можно взять возрастную структуру населения любой территории, то в данном случае за базу сравнения принят известный возрастной состав населения на территории «С». Данные для расчета приведены в таблице: Возраст больных (в годах) До 19 От 20 до 39 От 40 до 59 От 60 и старше Всего Территория «А» Территория «Б» Численность населения Число умерших Численность населения Число умерших 30 000 40 000 40 000 150 320 600 10 000 15 000 20 000 40 105 240 Стандартное насе-ление территории «С» (доли) 0,25 0,30 0,20 20 000 600 25 000 625 0,25 130 000 1670 70 000 1010 1 Задача 2. Проанализировать показатели смертности на двух территориях РК, имеющих различие по возрастному составу населения с помощью метода стандартизации. В качестве стандарта можно взять возрастную структуру населения любой территории, то в данном случае за базу сравнения принят известный возрастной состав населения на территории «С». Данные для расчета приведены в таблице: Возраст больных (в годах) До 19 От 20 до 39 От 40 до 59 От 60 и старше Всего Территория «А» Численность Число населения умерших Территория «Б» Численность Число населения умерших 50 000 45 000 40 000 300 405 640 20 000 25 000 30 000 100 200 390 Стандартное насе-ление территории «С» (доли) 0,25 0,30 0,20 30 000 960 35 000 980 0,25 165 000 2305 11 000 1670 1 Задача 3. Сравнить показатели летальности в двух группах больных СПИДом, получавших различные лекарственные препараты, с показателями, стандартизованными по тяжести течения заболевания. За стандарт принять сумму составов больных, получивших различное лечение. Данные для расчета показателей приведены в таблице: Традиционное Новое средство средство Тяжесть течения заболевания Число Из них Число Из них больных умерло больных умерло Очень тяжелое 800 304 250 88 Тяжелое 400 120 200 70 Средней 300 81 300 105 тяжести Легкое 100 24 900 252 Всего 1600 529 1650 515 Краткая теория Метод стандартизации применяется при сравнении интенсивных показателей (например, общие показатели рождаемости, смертности, заболеваемости и др.) в совокупностях, отличающихся по составу (например, по возрасту, полу, профессиям и т.д.). Данный метод позволяет устранить возможное влияние различий в составе совокупностей по какому-либо признаку на величину сравниваемых интенсивных показателей. С этой целью составы совокупностей по данному признаку уравниваются, что в дальнейшем позволяет рассчитать стандартизованные коэффициенты. Стандартизированные коэффициенты (показатели) - условные предположительные величины, свидетельствующие о том, каковы были бы значения сравниваемых интенсивных показателей, если бы были исключены различия в составе совокупностей. Стандартизированные коэффициенты используют для сравнительного анализа уровней рождаемости, смертности, заболеваемости в неоднородных по возрастному и половому составу совокупностях. Существуют следующие методы вычисления стандартизированных коэффициентов: прямой, косвенный, обратный. Косвенный и обратный методы стандартизации применяют при отсутствии информации о возрастном составе умерших (родившихся) или о возрастной структуре населения. В настоящее время эти методы мало востребованы, поскольку имеется достаточно широкий доступ к получению данных для использования прямого метода стандартизации. Прямой метод стандартизации применяется в случае, если известен возрастной состав населения и имеются данные для расчета возрастных коэффициентов смертности (рождаемости). Этот метод состоит из следующих этапов: 1. Расчет общих и частных интенсивных показателей: общих — по совокупностям в целом; частных — по признаку различия (полу, возрасту, стажу работы и т.д.). 2. Определение стандарта, т.е. выбор одинакового численного состава среды по данному признаку (по возрасту, полу и т.д.) для сравниваемых совокупностей. Как правило, за стандарт принимается сумма или полусумма численностей составов соответствующих групп. В то же время стандартом может стать состав любой из сравниваемых совокупностей, а также состав по аналогичному признаку какой-либо другой совокупности. 3. Вычисление ожидаемых абсолютных величин явления в группах стандарта на основе групповых интенсивных показателей, рассчитанных на 1-м этапе. Итоговые числа по сравниваемым совокупностям являются суммой ожидаемых величин в группах. 4. Вычисление стандартизированных показателей для сравниваемых совокупностей, используя итоговые ожидаемые величины в группах и новую среду-стандарт. 5. Сопоставление соотношений стандартизованных и интенсивных показателей, формулировка вывода. Задача-эталон Проанализировать показатели летальности в двух больницах «А» и «Б», имеющих различие по возрастному составу пациентов с помощью метода стандартизации, сделать выводы. Данные для расчета показателей приведены в таблице: Больница «А» Больница «Б» Возраст Число Число больных (в Из них Из них выбывших выбывших годах) умерло умерло больных больных До 40 600 12 1400 42 От 40 до 59 200 8 200 10 От 60 и старше 1200 60 400 24 Всего 2000 80 2000 76 1-Этап. Сначала определяют общие показатели летальности в больницах «А» и «Б». Больница «А»: 80 - х 2000 - 100 80 × 100/2000 = 4 на 100 выбывших больных; Больница «Б»: 76 - х 2000 - 100 76 × 100/2000 = 3,8 на 100 выбывших больных. Затем находят показатели летальности в зависимости от возраста больных (частные показатели). Например, в больнице «А» у больных в возрасте до 40 лет летальность составляет: 12 × 100/600 = 2%, а в больнице «Б»: 42 × 100/1400 = 3%. Аналогично проводят расчеты и в других возрастных группах (см. таблицу 9.1 - 1 этап). 2-Этап. За стандарт принимают сумму выбывших больных по каждой возрастной группе в обеих больницах, см. таблицу: Возраст больных (в Число выбывших больных в Стандарт годах) больницах А и Б До 40 600+1400 2000 От 40 до 59 200+200 400 От 60 и старше 1200+400 1600 Всего 2000+20000 4000 3-Этап. Определяют ожидаемое число умерших в стандарте по каждой возрастной группе в больницах «А» и «Б», с учетом соответствующих показателей летальности. Возраст до 40 лет: Больница «А» 100 - 2 2000 - х 2×2000/100 =40 Больница «Б» 100 - 3 2000 - х 3×2000/100=60 Возраст от 40 до 59 лет: Больница «А» 100 - 4 400 - х 4×400/100 =16 Больница «Б» 100 - 5 400 - х 5×400/100=20 Возраст 60 лет и старше: Больница «А» 100 - 5 1600 - х 5×1600/100 =80 Больница «Б» 100 - 6 1600 - х 6×1600/100=96 Находят сумму ожидаемых чисел умерших в стандарте в больнице «А»: (40 + 16 + 80 = 136) и больнице «Б»: (60 + 20 + 96 = 176). 4-Этап. Определяют общие стандартизованные показатели летальности в больницах «А» и «Б». Больница «А»: 136 × 100/4000 = 3,4 на 100 выбывших больных; Больница «Б»: 176 × 100/4000 = 4,4 на 100 выбывших больных. Результаты поэтапного расчета стандартизированных коэффициентов летальности оформляют в виде таблицы, см. таблицу 9.1: Таблица 9.1 2 этап Из них умерло Больниц а «Б» Стандар т (сумма составов больных обеих больниц) 3 этап Выбыло больных До 40 От 40 до 59 От 60 и старше Всего 1 этап Из них умерло Возраст больны х (в годах) Больниц а «Б» Выбыло больных Больниц а «А» Больниц а «А» 600 200 12 8 1400 200 42 10 2 4 3 5 2000 400 40 16 60 20 1200 60 400 24 5 6 1600 80 96 2000 80 3,8 4000 136 176 100 3,4 Летальность на 100 выбывших больных 2000 76 4,0 4 - этап Определение стандартизированных коэффициентов Ожидаемое число умерших в стандарте Больница «А» Больни ца «Б» 4,4 5- Этап. Сопоставление соотношения интенсивных и стандартных показателей летальности в больницах «А» и «Б». Показатели Интенсивные Стандартизированные Больница «А» 4,0 3,4 Больница «Б» 3,8 4,4 Соотношение «А» и «Б» A>Б A<Б Выводы: 1. Уровень летальности в больнице «А» выше, чем в больнице «Б». 2. Однако если бы возрастной состав выбывших больных в этих больницах был одинаков, то летальность была бы выше в больнице «Б». 3. Следовательно, на различия в уровнях летальности (в частности, на «завышение» ее в больнице «А» и «занижение» в больнице «Б») оказала влияние неоднородность возрастного состава больных, а именно, преобладание в больнице «А» пожилых пациентов (60 лет и более) с относительно высоким показателем летальности, и наоборот, в больнице «Б» — больных в возрасте до 40 лет, имеющих низкие показатели летальности. 6. Литература: 1. Общественное здоровье и здравоохранение: руководство к практическим занятиям: учебное пособие / В.А. Медик, В.И. Лисицын, М.С. Токмачев. 2012. - 400 с.: ил. 2. Применение методов статистического анализа для изучения общественного здоровья и здравоохранения: учебное пособие/ ред. Кучеренко В.З. - М.: ГЭОТАР-Медиа, 2011.- 256 с. 7. Контроль: Тесты Занятие №10 1. Тема: Анализ динамических рядов. Типы динамических рядов. Вычисление показателей динамического ряда. 2. Цель: анализ уровней динамического ряда для выводов о закономерностях и тенденциях явлений в области медицины и фармации 3. Задачи обучения: сформировать навыки анализа уровней динамического ряда для выводов о закономерностях и тенденциях явлений в области медицины и фармации 4. Основные вопросы темы: 1. Что такое динамический ряд? Из каких элементов он состоит? Какие типы динамических рядов Вы знаете? 2. Что такое тренд? 3. Какими способами осуществляется выравнивание динамического ряда? 4. Как определяются коэффициенты линейного тренда? 5. В чем разница между базисными и цепными показателями? 6. Какие относительные показатели динамики Вы знаете? 7. Какие средние показатели динамики Вы знаете? 5. Методы обучения и индивидуальных заданий преподавания: письменное выполнение Задания: Задача 1. Изучена заболеваемость населения ветряной оспой за 10 лет (на 10 000 населения): Годы 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 Показатель 3,5 4,9 3,6 5,7 6,5 5,5 8,1 7,2 5,0 7,3 На основании данного динамического ряда требуется: 1. Выровнять ряд по способу наименьших квадратов; 2. Изобразить графически исходный и выровненный ряды динамики; 3. Рассчитать показатели динамического ряда (абсолютный прирост, темп прироста) по сравнению с предыдущим годом и по сравнению с 2000 годом, а так же абсолютное значение 1% прироста; 4. Рассчитать средние показатели динамического ряда (средний абсолютный прирост, средний коэффициент роста, средний темп прироста); 5. Сделать выводы о динамике явления по выровненным уровням. Задача 2. Изучена заболеваемость населения гепатитом «В» за 10 лет (на 10 000 населения): Годы 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 Показатель 9,4 9,3 8,5 17,2 5,9 10,1 7,8 6,5 4,5 8,5 На основании данного динамического ряда требуется: 1. Выровнять ряд по способу наименьших квадратов; 2. Изобразить графически исходный и выровненный ряды динамики; 3. Рассчитать показатели динамического ряда (абсолютный прирост, темп роста, темп прироста) по сравнению с предыдущим годом и по сравнению с 2000 годом, а так же абсолютное значение 1% прироста; 4. Рассчитать средние показатели динамического ряда (средний абсолютный прирост, средний коэффициент роста, средний темп прироста); 5. Сделать выводы о динамике явления по выровненным уровням. Краткая теория Динамический (временной) ряд — совокупность значений какого-либо показателя за несколько последовательных моментов или периодов. Каждый временной ряд состоит из двух элементов: 1) моменты или периоды времени, к которым относятся приводимые статистические данные; 2) статистические показатели, которые характеризуют изучаемый объект на определенный момент или за указанный период времени. Статистические показатели, характеризующие изучаемый объект, называют уровнями ряда. Различают два типа динамических рядов: моментный и интервальный. Моментный ряд — характеризует изменение размеров явления на определенную дату (момент). Интервальный ряд — характеризует изменения размеров явления за определенный период (интервал времени). Тренд - это функция от времени, определяющая основную тенденцию развития показателя во времени. Для установления тренда динамический ряд выравнивают. Выравнивание осуществляется следующими способами: укрупнение периодов, расчет групповой средней, расчет скользящей средней, метод наименьших квадратов. Метод наименьших квадратов применяется для более точной 2 количественной оценки динамики изучаемого явления: y yt min , где у фактические (эмпирические) уровни ряда, yt - выровненные значения уровней ряда, т.е. вычисленные по соответствующему аналитическому уравнению на момент времени «t». Обычно строят линейный тренд – это уравнение прямой линии, выражающее тенденцию изменения временного ряда, которое имеет вид: yt a bt , где «a» и «b»- коэффициенты, рассчитываемые по формулам: a y bt , b yt yt . t2 t 2 Подставляя последовательно в уравнение yt a bt значения «t», находят выровненные значения уровней ряда. Анализ скорости и интенсивности развития явлений во времени осуществляется с помощью статистических показателей, которые получаются в результате сравнения уровней между собой. К таким показателям относятся: абсолютный прирост, темп прироста, абсолютное значение одного процента прироста. При этом принято сравниваемый уровень называть отчетным, а уровень, с которым производится сравнение - базисным. Показатели динамики с постоянной базой (базисные показатели) характеризуют окончательный результат всех изменений в уровнях ряда от периода, к которому относится базовый уровень, до данного (i-го) периода. Показатели динамики с переменной базой (цепные показатели) характеризуют интенсивность изменения уровня от периода к периоду в пределах изучаемого промежутка времени. 1. Абсолютный прирост (Δi) - показатель, определяемый как разность между двумя уровнями динамического ряда. Он показывает, на сколько данный уровень ряда превышает уровень, принятый за базу сравнения: бi уi y 0 , где бi - абсолютный базисный прирост; уi - уровень сравниваемого периода; у0 - уровень базисного периода. При сравнении с переменной базой абсолютный прирост будет равен: цi у i y i 1 , где уi-1 - уровень непосредственно предшествующего периода. Абсолютный прирост с переменной базой называют скоростью роста. 2. Коэффициент роста определяется как отношение двух сравниваемых уровней и показывает, во сколько раз данный уровень превышает уровень базисного периода: базисный kiб yi ; y0 цепной k iц yi . yi 1 3. Если коэффициенты роста выражают в процентах, то их называют темпами роста, т.е. они характеризуют скорость изменения показателя в единицу времени, выраженную в процентах: Т р k 100% . 4. Темп прироста показывает, на сколько процентов уровень данного периода больше (или меньше) базисного уровня. Этот показатель может быть рассчитан двояко: как отношение абсолютного прироста к базисному уровню: ТП уi y 0 100% y0 или Т П уi yi 1 100% . yi 1 как разность между темпом роста (в %) и 100% : Т П Т р 100% . 5. Чтобы правильно оценить значение полученного темпа прироста, его рассматривают в сопоставлении с показателем абсолютного прироста. Результат выражают показателем, который называют абсолютным значением одного процента прироста «Аi»: Ai y i y i 1 TП 6. При сопоставлении динамики развития двух явлений можно использовать показатели, представляющие собой отношения темпов прироста за одинаковые отрезки времени по двум динамическим рядам. Эти показатели называют коэффициентами опережения: k оп Т р Т р или k оп Т П , Т П Т р , Т р , Т П , Т П - соответственно темпы роста и темпы прироста где сравниваемых динамических рядов. С помощью этих коэффициентов могут сравниваться: ряды одинакового содержания, но относящиеся к разным территориям (странам, регионам, районам и т.п.) или различным организациям; ряды разного содержания, характеризующие один и тот же объект. Для обобщающей характеристики динамики исследуемого явления за ряд периодов определяют различного рода средние показатели. 1. Средний абсолютный прирост - средняя величина изменения показателя за интервал времени. Рассчитывается как средняя арифметическая величина из показателя n скорости роста за отдельные промежутки времени: i 1 ц i n 1 y n y1 , n 1 где n - число уровней ряда; - абсолютные изменения по сравнению с предшествующим уровнем. Средний абсолютный прирост дает возможность рассчитать, на сколько в среднем за единицу времени должен увеличиваться уровень ряда. 2. Средний темп роста – это характеристика интенсивности изменения уровней ряда динамики. Он показывает во сколько раз в среднем за единицу времени изменился уровень динамического ряда: Т k 100% , ц i где k n1 yn - средний коэффициент роста; n- число уровней ряда. y1 3. Средний темп прироста вычисляется по следующей формуле: Т ПР Т Р 100% . 6. Литература: 1. Общественное здоровье и здравоохранение: руководство к практическим занятиям: учебное пособие / В.А. Медик, В.И. Лисицын, М.С. Токмачев. 2012. - 400 с.: ил. 2. Применение методов статистического анализа для изучения общественного здоровья и здравоохранения: учебное пособие/ ред. Кучеренко В.З. - М.: ГЭОТАР-Медиа, 2011.- 256 с. 3. Савилов Е.Д. Эпидемиологический анализ: Методы статистической обработки материала/ Е.Д. Савилов, В.А. Астафьев, C.Н. Жданова, Е.А. Заруднев. – Новосибирск: Наука-Центр, 2011. – 156 с. 7. Контроль: Тесты Приложение 1 Таблица 1. Значения tкрит(p, f) распределения Стьюдента Число степеней свободы f 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 40 60 120 Уровень значимости, р 0,10 6,31 2,92 2,35 2,13 2,01 1,94 1,89 1,86 1,83 1,81 1,80 1,78 1,77 1,76 1,75 1,75 1,74 1,73 1,73 1,73 1,70 1,68 1,67 1,66 1,64 Таблица 2. Значения t р 0,1 0,05 0,02 0,01 0,0025 0,05 12,7 4,30 3,18 2,78 2,57 2,45 2,36 2,31 2,26 2,23 2,22 2,18 2,16 2,14 2,13 2,12 2,11 2,10 2,09 2,09 2,04 2,02 2,00 1,98 1,96 р/2 0,02 31,82 6,97 4,54 3,75 3,37 3,14 3,00 2,90 2,82 2,76 2,72 2,68 2,65 2,62 2,60 2,58 2,57 2,55 2,54 2,53 2,46 2,42 2,39 2,36 2,33 0,01 63,7 9,92 5,84 4,60 4,03 3,71 3,50 3,36 3,25 3,17 3,11 3,05 3,01 2,98 2,95 2,92 2.90 2,88 2,86 2,85 2,75 2,70 2,66 2,62 2,58 нормального распределения ~ р р/2 t 0,05 0,025 0,01 0,005 0,00125 1,65 1,96 2,3 2,58 3,02 р/2 Приложение 2 Таблица 1. Критические значения распределения Фишера-Снедекора (f1 число степеней свободы большей дисперсии, f2 – меньшей) Значения F при р=0,05 Таблица 2. Критические значения распределения Фишера-Снедекора (f1 число степеней свободы большей дисперсии, f2 – меньшей) Значения F при р=0,025 f1 f2 Приложение 3 Таблица 1. Критические значения распределения χ2 (f - степень свободы, р уровень значимости). р f Приложение 4 Таблица 1. Критические значения выборочного коэффициента корреляции Пирсона (r) n Маңыздылық деңгейі, р, % 5 1 n Маңыздылық деңгейі, р, % 5 1 Приложение 5 Таблица 1. Критические значения критерия Манна-Уитни U для р = 0,05 N2 N1 7 8 9 10 11 12 13 14 15 16 17 18 3 1 2 2 3 3 4 4 5 5 6 6 7 4 3 4 4 5 6 7 8 9 10 11 11 12 5 5 6 7 8 9 11 12 13 14 15 17 18 6 6 8 10 11 13 14 16 17 19 21 22 24 7 8 10 12 14 16 18 20 22 24 26 28 30 8 10 13 15 17 19 22 24 26 29 31 34 36 9 12 15 17 20 23 26 28 30 34 37 39 42 10 14 17 20 23 26 29 33 36 39 42 45 48 11 16 19 23 26 30 33 37 40 44 48 51 55 12 18 22 26 29 33 37 41 45 49 53 57 61 13 20 24 28 33 37 41 45 50 54 59 63 67 14 22 26 31 36 40 45 50 55 59 64 67 74 15 24 29 34 39 44 49 54 59 64 70 75 80 16 26 31 37 42 47 53 59 64 70 75 81 86 17 28 34 39 45 51 57 63 67 75 81 87 93 18 30 36 42 48 55 61 67 74 80 86 93 99 19 32 38 45 52 58 65 72 78 85 92 99 106 20 34 41 48 55 62 69 76 83 90 98 105 112 Приложение 6 Таблица 1. Критические значения критерия Уилкоксона W для двухсторонней критической области в зависимости от количества наблюдений n при уровне значимости р р р Приложение 7 Таблица 1. Значения функции Лапласса Ф( х) 2 2 х е 0 t2 2 dt Приложение 8 Таблица 1. Критические значения критерия знаков G для уровней статистической значимости ρ ≤ 0,05 и ρ ≤ 0,01 (по Оуєну Д.Б., 1966) Преобладание "типичного" сдвига является достоверным, если G'эмп ≤ G'0,05 , и тем более достоверным, если G'эмп ≤ G'0,01 n 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Уровни стат. значимости (ρ) 0,05 0,01 0 0 0 0 1 0 1 0 1 0 2 1 2 1 3 1 3 2 3 2 4 2 4 3 5 3 5 4 5 4 6 4 6 5 7 5 7 5 7 6 8 6 n 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 Уровни стат. значимости (ρ) 0,05 0,01 8 7 8 7 9 7 10 8 10 8 10 8 11 9 11 9 12 10 12 10 13 10 13 11 13 11 14 12 14 12 15 13 15 13 16 13 16 14 16 14 17 15 17 15 n 49 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 Уровни стат. значимости (ρ) 0,05 0,01 18 15 18 16 19 17 20 18 21 18 22 19 23 20 24 21 24 22 25 23 26 23 27 24 28 25 29 26 30 27 31 28 32 29 33 30 33 30 34 31 35 32 36 33