Статистическая гипотеза Статистической гипотезой (statistical hypothesis) мы называем любое предположение о свойствах и характеристиках исследуемых генеральных совокупностей, которое может быть проверено на основе анализа выборок. © Иванов О.В., 2005 2 Как проверяют статистические гипотезы Проверка статистических гипотез состоит из шести этапов. Нам необходимо изучить каждый сначала теоретически, а затем применять в различных задачах. © Иванов О.В., 2005 4 1. Основная и альтернативная гипотезы Проверяемая гипотеза в статистике называется основной (или нулевой) гипотезой. Основная гипотеза H0 подлежит проверке, по результатам которой ее можно принять либо отклонить. «Принять» означает «не получить убедительных аргументов для отклонения гипотезы». Альтернативная гипотеза H1 принимается только тогда, когда есть убедительное статистическое доказательство для отклонения основной гипотезы. Принять основную гипотезу H0 © Иванов О.В., 2005 Принять альтернативную гипотезу H1 5 Ситуация А. Новая методика преподавания Исследователь хочет проверить, повлияет ли новая методика преподавания на уровень успеваемости студентов. Повысится или понизится успеваемость у студентов, прослушавших курс по новой методике? Исследователю известно, что средняя успеваемость без нововведений составляет 4,23 балла. Гипотезы в этом случае будут сформулированы следующим образом: Н0: µ = 4,23 Н1: µ ≠ 4,23 © Иванов О.В., 2005 6 Ситуация Б. Аккумуляторы для ноутбуков Производители аккумуляторных батарей для ноутбуков утверждают, что разработали принципиально новый тип батареи, которая существенно дольше может работать без подзарядки. Из предыдущих исследований известно, что среднее время работы существующих аккумуляторов составляет 2,5 часа, после чего их требуется заряжать. Гипотезы будут сформулированы так: Н0: µ ≤ 2,5 Н1: µ > 2,5 © Иванов О.В., 2005 7 Ситуация В. Расходы на канцелярию Менеджер бюро переводов хочет снизить расходы компании на канцелярские принадлежности. В среднем эти расходы составляют 5 300 рублей в неделю. После принятия определенных мер по экономии бумаги и скрепок менеджер хотел бы проверить, снизились ли расходы или остались на прежнем уровне. Гипотезы будут записаны так: Н0: µ ≥ 5300 Н1: µ < 5300 © Иванов О.В., 2005 8 Три вида критериев От решаемой задачи зависит, какой из критериев будет выбран: Двусторонний Левосторонний Н 0: = Н 0: ≥ Н 1: ≠ Н 1: < © Иванов О.В., 2005 Правосторонний Н 0: ≤ Н 1: > 9 Ошибки первого и второго рода Ошибка первого рода (type I error) происходит, если мы отвергаем верную нулевую гипотезу. Ошибка второго рода (type II error) происходит, если мы принимаем нулевую гипотезу, когда она неверна. Основная гипотеза верна Основная гипотеза неверна Мы приняли основную гипотезу Верное решение Ошибка II рода Мы отклонили основную гипотезу Ошибка I рода Верное решение © Иванов О.В., 2005 10 2. Уровень значимости гипотезы Уровнем значимости (level of significance) гипотезы называют вероятность совершить ошибку первого рода, то есть отклонить верную нулевую гипотезу. Обозначение: α. Значение α обычно выбирается небольшим: 10%, 5% или 1%. © Иванов О.В., 2005 11 3. Статистика - критерий проверки гипотезы Статистика (критерий, statistical test) есть специальная функция от элементов выборки, по значениям которой принимают решение о принятии или отклонении основной гипотезы. Статистика зависит от выборки, поэтому является случайной функцией. © Иванов О.В., 2005 12 4. Критическая область Множество значений статистики включает две области: Область принятия гипотезы, то есть множество тех значений статистики, при которых гипотеза H0 принимается, Критическую область, то есть множество тех значений статистики, при которых гипотеза H0 отклоняется и принимается альтернативная гипотеза. Критическая область Область принятия гипотезы Критическая область Возможные значения статистики © Иванов О.В., 2005 13 Критические значения Критические значения (critical value(s)) отделяют критическую область от области принятия гипотезы. Критические значения Критическая область Область принятия гипотезы Критическая область Возможные значения статистики © Иванов О.В., 2005 14 Вид критической области Критическая область строится, исходя из имеющихся знаний о законе распределения статистики, и зависит от: • объема выборки, • уровня значимости, задаваемого исследователем, • вида альтернативной гипотезы. Левосторонняя критическая область © Иванов О.В., 2005 Двусторонняя критическая область Правосторонняя критическая область 15 5-6. Вычисление статистики и вывод После построения критической области вычисляют значение статистики по выборке и сравнивают его с критической областью. Если значение статистики попало в область принятия гипотезы, то гипотеза H0 принимается Если значение статистики попало в критическую область, то гипотеза H0 отклоняется и принимается альтернативная гипотеза H1 © Иванов О.В., 2005 16 Последовательность действий Шаг 1. Шаг 2. Шаг 3. Шаг 4. Шаг 5. Шаг 6. © Иванов О.В., 2005 Сформулировать основную и альтернативную гипотезы. Задать уровень значимости α. По таблице найти критические значения и построить критическую область. По выборке сосчитать значение статистики. Сравнить полученное значение с критической областью. Если значение попало в критическую область – отклонить основную гипотезу, не попало – принять. Написать ответ. 17 Постановка задачи Имеется генеральная совокупность с нормальным законом распределения. Параметры (µ, σ). Требуется на основе анализа простой случайной выборки проверить гипотезу о среднем значении генеральной совокупности µ. © Иванов О.В., 2005 19 Метод Используем общий принцип проверки статистических гипотез. © Иванов О.В., 2005 20 Гипотезы Нулевая и альтернативная гипотезы могут быть трех разных видов: Нулевая гипотеза: Альтернативная гипотеза: I © Иванов О.В., 2005 Нулевая гипотеза: Нулевая гипотеза: Альтернативная гипотеза: Альтернативная гипотеза: II III 21 Статистика (σ известно) В качестве статистики выбираем следующую функцию: где - выборочное среднее - гипотетическое генеральное среднее - генеральное стандартное отклонение - объем выборки © Иванов О.В., 2005 22 Распределение статистики Формула для статистики представляет собой выражение: Используемая статистика имеет нормальное распределение. При проверке гипотезы пользуемся известными нам свойствами нормального закона. © Иванов О.В., 2005 23 I – Левосторонняя критическая область Альтернативная гипотеза: Уравнение критической области: Критическое значение находим по таблице z-значений © Иванов О.В., 2005 24 II – Правосторонняя критическая область Альтернативная гипотеза: Уравнение критической области: Критическое значение находим по таблице z-значений © Иванов О.В., 2005 25 III – Двусторонняя критическая область Альтернативная гипотеза: Уравнение критической области: Критическое значение находим по таблице z-значений © Иванов О.В., 2005 26 Пример. Чем занимаются старшеклассники В одном из журналов утверждается, что старшеклассники смотрят телевизор меньше других. Известно, что люди проводят перед телевизором в среднем 29,4 часа в неделю со стандартным отклонением 2 часа. Случайная выборка из 25 старшеклассников имеет среднее 27 часов. Необходимо проверить утверждение на уровне значимости α = 0,01. © Иванов О.В., 2005 27 Решение Шаг 1. Основная и альтернативная гипотезы: Н0: µ ≥ 29,4 Н1: µ < 29,4 Шаг 2. Шаг 3. Задан уровень значимости α = 0,01. По таблице находим критическое значение z = -2,33. Критическая область левосторонняя. По выборке вычисляем значение статистики: Шаг 4. © Иванов О.В., 2005 28 Решение Шаг 5. Сравним полученное значение с критической областью. Полученное значение статистики попало в критическую область. Отклоняем основную гипотезу. Шаг 6. Старшеклассники значимо меньше смотрят телевизор, чем обычные жители. © Иванов О.В., 2005 29 Если σ неизвестно … Предыдущая проверка гипотезы о среднем проводилась при условии, что нам известно стандартное отклонение генеральной совокупности σ. Теперь рассмотрим проверку гипотезы, если стандартное отклонение неизвестно. © Иванов О.В., 2005 31 Постановка задачи… … осталась прежней: © Иванов О.В., 2005 32 Гипотезы … тоже прежние: © Иванов О.В., 2005 33 Метод Используем общий принцип проверки статистических гипотез. © Иванов О.В., 2005 34 Статистика (σ неизвестно) В качестве статистики выбираем следующую функцию: где - выборочное среднее - гипотетическое генеральное среднее - выборочное стандартное отклонение - объем выборки © Иванов О.В., 2005 35 Распределение статистики Используемая статистика имеет t-распределение c количеством степеней свободы df = n – 1: Критические значения будем искать при помощи таблиц распределения Стьюдента. © Иванов О.В., 2005 36 I – Левосторонняя критическая область Альтернативная гипотеза: Уравнение критической области: Критическое значение находим по таблице t-значений. © Иванов О.В., 2005 37 II – Правосторонняя критическая область Альтернативная гипотеза: Уравнение критической области: Критическое значение находим по таблице t-значений © Иванов О.В., 2005 38 III – Двусторонняя критическая область Альтернативная гипотеза: Уравнения критической области: Критическое значение находим по таблице t-значений © Иванов О.В., 2005 39 Пример. Уровень преступности За последние 20 лет средний уровень преступности в городе N составляет 399,40 преступлений на 100 тысяч жителей. Руководство города заявило в печати, что преступность находится на среднем региональном уровне. Если известно, что средний уровень преступности в регионе составляет 394,82 со стандартным отклонением 8,93, требуется проверить справедливость утверждения на уровне значимости 5%. © Иванов О.В., 2005 40 Решение Шаг 1. Основная и альтернативная гипотезы: Н0: µ ≤ 394,82 Н1: µ > 394,82 Шаг 2. Шаг 3. Задан уровень значимости α = 0,05. По таблице находим критическое значение t = 2,093. Критическая область левосторонняя. По выборке вычисляем значение статистики: Шаг 4. © Иванов О.В., 2005 41 Решение Шаг 5. Сравним полученное значение с критической областью. Полученное значение 2,234 статистики попало в критическую область. Отклоняем основную гипотезу. Шаг 6. Отличие в уровне преступности от регионального является статистически значимым на уровне 5%. © Иванов О.В., 2005 42