Элементы описательной статистики статистики. 1. Введение. Много веков врачи принимали жизненно важные решения, вынося вердикт, как лучше всего лечить пациентов на основании небольшого количества, а то и при отсутствии каких-либо научных доказательств. Новые методы лечения обычно проверяли на небольшом количестве пациентов и часто получали противоречивые результаты. Классическим примером подобного исследования является попытка простого помощника корабельного врача шотландца Джеймса Линда в 1747 найти лекарство от цинги. Линд (Lind) Джеймс (1716—13.7.1794, Госпорт), английский морской врач, основоположник морской гигиены в Великобритании. Медицинское образование получил в Эдинбурге; с 1758 и до конца жизни — врач Хасларского морского госпиталя. В 1753 дал подробное описание цинги и предложил способы её лечения и предупреждения. Описал заболевания европейцев в жарких странах, тифозную лихорадку, многие болезни матросов. Ввёл на кораблях ряд гигиенических приспособлений (прибор для получения пресной воды из морской и др.), предлагал использование специальных санаторных кораблей в тропических портах и др. До открытия Линда цинга уносила 40% моряков королевского флота Великобритании. Линд был убежден, что причина болезни – плохое питание 1 моряков. Он подобрал шесть пар пациентов, симптомы болезни которых подходили под описание цинги, и назначил им усиленное питание. Через неделю один курс лечения оказался особенно эффективным: ежедневная порция лимонов и апельсинов. Линд первым применил научно обоснованный подход в медицине и в результате открыл эффективное лечение от цинги. Но запутанный отчет о результатах исследованиях Линда и нехватка данных не убедили военно-морское министерство Великобритании – лишь через 40 лет фруктовые соки вошли в ежедневный рацион моряков. Несмотря на такое очевидное доказательство значимости научно обоснованного метода в медицине, медики не спешили приобретать так необходимые знания статистических методов для исследований. Большой прорыв настал в 1940-х годах, когда в Совете медицинских исследований в Великобритании ввели рандомизированные контролируемые испытания (РКИ), для которых пациентов отбирали методом случайной выборки и проверяли на них новый метод лечения или уже существующий (или просто плацебо). Первые такие испытания были настолько успешными, что РКИ стали основой радикально нового направления, известного как научно обоснованный подход в медицине. Знание основ математической статистики абсолютно необходимо для планирования, проведения и анализа научных исследований в медицине, является важным для понимания и критической оценки сообщений в медицинских журналах, монографиях, докладах и т.д. Математическая статистика – раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов. Математическая статистика как наука начинается с работ знаменитого немецкого математика Карла Фридриха Гаусса (1777-1855), который на основе теории вероятностей исследовал и обосновал метод наименьших квадратов, созданный им в 1795 г. и примененный для обработки астрономических данных (с целью уточнения орбиты малой планеты 2 Церера). Его именем часто называют одно из наиболее популярных распределений вероятностей – нормальное, а в теории случайных процессов основной объект изучения – гауссовские процессы. Иоганн Карл Фри́дрих Га́усс (нем. Johann Carl Friedrich Gauß; 30 апреля 1777, Брауншвейг — 23 февраля 1855, Гёттинген) — немецкий математик, астроном и физик, считается одним из величайших математиков всех времён, «королём математиков»[1] В конце XIX в. – начале ХХ в. крупный вклад в математическую статистику внесли английские исследователи, прежде всего К.Пирсон (18571936) и Р.А.Фишер (1890-1962). В частности, Пирсон разработал критерий проверки статистических гипотез, а Фишер – дисперсионный анализ, теорию планирования эксперимента, метод максимального правдоподобия оценки параметров. В 30-е годы ХХ в. поляк Ежи Нейман (1894-1977) и англичанин Э.Пирсон развили общую теорию проверки статистических гипотез, а советские математики академик А.Н. Колмогоров (1903-1987) и член-корреспондент АН СССР Н.В.Смирнов (1900-1966) заложили основы непараметрической статистики. В сороковые годы ХХ в. румын А. Вальд (1902-1950) построил теорию последовательного статистического анализа. 3 Очевидно, что теоретическим фундаментом математической статистики стала теория вероятностей. 2. Случайные события и вероятности. Исходное понятие теории вероятностей – опыт (испытание). Примерами опытов являются проверка качества единицы лекарственной продукции, бросание монет независимо друг от друга и т.д. Первый шаг при построении вероятностной модели реального явления или процесса – выделение возможных исходов опыта. Их называют элементарными случайными событиями: А1, А2,…, Аn. Совокупность случайных событий называется полной группой событий для данного испытания, если в результате испытания происходит только одно событие из совокупности. Примеры: Обычно считают, что в первом опыте возможны два исхода – «единица продукции годная» и «единица продукции дефектная». Естественно принять, что при бросании монеты осуществляется одно из двух элементарных событий – «выпала решетка (цифра)» и «выпал герб». События бывают достоверными (обязательно происходит) и невозможными ( не происходит в результате испытаний). Перейдем к основному понятию теории вероятностей – понятию вероятности события. Вероятность Р(А) события является мерой возможности осуществления события. Классическое определение вероятности случайного события для испытаний с конечным числом исходов, причем исходов равновероятных: Вероятностью наступления случайного события А называют отношение количества m элементарных событий, в результате которых произошло бы событие А, к общему числу элементарных событий n: 4 𝑃(𝐴) = Пример: Из соображений 𝑚 𝑛 равновозможности: при бросании симметричной монеты и герб, и решетка имеют одинаковые шансы оказаться сверху, а именно, 1 шанс из 2, а потому вероятности выпадения герба и решетки равны 1/2. Вероятность достоверного события равна 1, а невозможного – 0, то 0 ≤ P(A) ≤ 1. В медицинских исследованиях достаточной считается вероятность появления события не менее 0,95. При изучении заболеваний и ситуаций, имеющих важнейшие медико-социальные последствия или высокие показатели летальности и инвалидности, а также при фармакологических исследованиях вероятность появления события должна быть не менее 0,99. Статистический подход к определению вероятности случайного события при возможности неограниченного числа испытаний и отсутствия равной вероятности элементарных событий: Относительная частота наступления данного события 𝑃∗ (𝐴) – это число, к которому приближается отношение количества осуществлений события А к общему числу всех опытов (т.е. частота осуществления события А) – при увеличении числа опытов, проведённых независимо друг от друга. Р ∗ (𝐴) = Проиллюстрируем соотношение 𝑚∗ 𝑛∗ между двумя подходами формированию понятия вероятности на следующем примере: 5 к Эксперимент Пирсона: Всего опытов Выпал «орёл» Статистическая Классическая вероятность, вероятность, Р(А) Р*(А) 4 1 0,25 1/2 24000 12012 0,5005 1/2 Таким образом, 𝑃(𝐴) = lim 𝑃∗ (𝐴) 𝑛→∞ Случайная величина - это величина, которая в результате испытания примет одно и только одно возможное значение, наперед неизвестное и зависящее от случайных причин, которые заранее не могут быть учтены. 6 Будем обозначать случайные величины буквами латинского алфавита X, Y, Z .Случайная величина бывает: дискретной дискретная непрерывной случайная величина непрерывная случайная величина принимает конечное (или счетное) с может принимать все значения из определенными вероятностями. некоторого бесконечного конечного промежутка. или Число возможных значений непрерывной случайной величины, независимо от величины промежутка, бесконечно. Пример: число пациентов на приёме у Пример: рост студентов - рост врача. студента может принимать любое значение из числового промежутка 1 м до 2,5 м. Число возможных значений - бесконечно. 7 3. Закон распределения дискретной случайной величины Для задания дискретной случайной величины недостаточно перечислить все ее возможные значения, нужно указать еще и их вероятность. Законом распределения дискретной случайной величины называют соответствие между возможными значениями случайной величины и вероятностями их появления. Закон распределения можно задать таблично, аналитически (в виде формулы) или графически (в виде многоугольника распределения). Рассмотрим случайную величину X, которая принимает значения x1, x2, x3 ... xn с некоторой вероятностью pi, где i = 1.. n. Сумма вероятностей pi равна 1. Таблица соответствия значений случайной величины и их вероятностей вида x1 x2 x3 p1 p2 p3 ... xn ... pn называется рядом распределения дискретной случайной величины или просто рядом распределения. Эта таблица является наиболее удобной формой задания дискретной случайной величины. Графическое представление этой таблицы называется многоугольником распределения. По оси абсцисс откладываются возможные значения дискретной случайной величины, а по оси ординат соответствующие вероятности. 8 4. Числовые характеристики дискретных случайных величин Закон распределения полностью характеризует дискретную случайную величину. Однако, когда невозможно определить закон распределения, или этого не требуется, можно ограничиться нахождением значений, называемых числовыми характеристиками случайной величины: Математическое ожидание, Дисперсия, Среднее квадратичное отклонение Эти величины определяют некоторое среднее значение, вокруг которого группируются значения случайной величины, и степень их разбросанности вокруг этого среднего значения. Математическое ожидание M дискретной случайной величины - это среднее значение случайной величины, равное сумме произведений всех возможных значений случайной величины на их вероятности. 9 Для описания многих практически важных свойств случайной величины необходимо знание не только ее математического ожидания, но и отклонения возможных ее значений от среднего значения. Дисперсия случайной величины — мера разброса случайной величины, равная математическому ожиданию квадрата отклонения случайной величины от ее математического ожидания. Принимая во внимание свойства математического ожидания, легко показать что Казалось бы, естественным рассматривать не квадрат отклонения случайной величины от ее математического ожидания, а просто отклонение. Однако математическое ожидание этого отклонения равно нулю. Это объясняется тем, что одни возможные отклонения положительны, другие отрицательны, и в результате их взаимного погашения получается ноль. Можно было бы принять за меру рассеяния математическое ожидание модуля отклонения случайной величины от ее математического ожидания, но, как правило, действия связанные с абсолютными величинами, приводят к громоздким вычислениям. Средним квадратическим отклонением случайной величины (иногда применяется термин «стандартное величины») называется число равное 10 отклонение случайной Среднее квадратическое отклонение, следовательно, является, как и дисперсия, мерой рассеяния распределения, но измеряется, в отличие от дисперсии, в тех же единицах, которые используют для измерения значений случайной величины. Задача: На приёме у врачей разного профиля было соответственно 10,9,11,10,12,8,11,9,10,10,11,8,9,10,9,11,12,10,9,11 пациентов. Составьте закон распределения случайной величины Х, определяемой как число пациентов на приёме у произвольно выбранного специалиста и найдите основные числовые характеристики случайной величины числа пациентов. 5. Основы выборочного метода. 5.1. Генеральная и выборочная совокупности Генеральной совокупностью называется совокупность объектов или наблюдений, все элементы которой подлежат изучению при статистическом анализе. В математической статистике генеральная совокупность часто понимается как совокупность всех мыслимых наблюдений, которые могли быть произведены при выполнении данного комплекса условий. Число объектов (наблюдений) в генеральной совокупности называется ее объемом. Изучение всего набора элементов генеральной совокупности часто оказывается невозможным, в таких случаях рассматривают некоторую часть объема. Часть объектов генеральной совокупности, используемая для исследования, называется выборочной совокупностью или выборкой. Описательная статистика сжато описывает полученные статистические данные для какой-либо выборки. 11 Пример. Число единиц лекарственного средства N, произведенного фирмой в течение года, есть конечная генеральная совокупность. Для исследования качества продукции на практике рассматривается выборка, состоящая из п единиц товара. Признаком, или случайной величиной, может быть число единиц товара, удовлетворяющих сертификатным требованиям. Сущность выборочного метода в математической статистике заключается в том, чтобы по определенной части генеральной совокупности (выборке) судить о ее свойствах в целом. Выборочный метод является единственно возможным в случае бесконечной генеральной совокупности или когда исследование связано с уничтожением (гибелью) наблюдаемых объектов (например, исследование предельных режимов приборов, исследование действия вирусов на подопытных животных и т.д.). Для того чтобы по выборке можно было адекватно судить о случайной величине, она должна быть представительной (репрезентативной). Репрезентативность выборки обеспечивается случайностью отбора ее элементов, так как все элементы генеральной совокупности должны иметь одинаковую вероятность попадания в выборку. 5.2. Точечные оценки основных числовых характеристик генеральной совокупности Рассмотрим генеральную совокупность всех первокурсников страны, т.е. генеральную совокупность из объектов. Пусть надо узнать их средний рост. Но, как правило, измерить все объекты генеральной совокупности не представляется возможным, или это просто нецелесообразно - всю жизнь можно потратить на это. А проблему решать надо. Вот тогда и используется математическая статистика - она оценивает все неизвестные параметры генеральной совокупности: генеральную среднюю, 12 генеральную дисперсию, генеральное среднее квадратическое отклонение на основании точного расчета свойств выборки объема . 5.2.1.Генеральная средняя. Пусть изучается генеральная совокупность относительно количественного признака Х. Генеральной средней называют среднее арифметическое значений признака генеральной совокупности. 5.2.2.Выборочная средняя. Пусть для изучения генеральной совокупности относительно количественного признака Х извлечена выборка объема n. Выборочной средней называют среднее арифметическое значение признака выборочной совокупности. Если все значения признака выборки различны, то хВ x1 x2 ... xn n Выборочная средняя представляет собой наилучшую оценку генеральной средней. 5.2.3. Генеральная дисперсия. Для того чтобы охарактеризовать рассеяние значений количественного признака Х генеральной совокупности вокруг своего среднего значения, вводят сводную характеристику — генеральную дисперсию. Генеральной дисперсией Dг называют среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения. Если все значения признака генеральной совокупности объема N различны, то 13 Кроме дисперсии для характеристики рассеяния значений признака генеральной совокупности вокруг своего среднего значения пользуются сводной характеристикой— средним квадратическим отклонением. Генеральным средним квадратическим отклонением (стандартом) называют квадратный корень из генеральной дисперсии: 5.2.4.Выборочная дисперсия. Для того, чтобы наблюдать рассеяние количественного признака значений выборки вокруг своего среднего значения, вводят сводную характеристику - выборочную дисперсию. Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения. Если все значения признака выборки различны, то Для характеристики рассеивания значений признака выборки вокруг своего среднего значения пользуются сводной характеристикой - средним квадратическим отклонением. Выборочным средним квадратическим отклоненим называют квадратный корень из выборочной дисперсии: Вычисление дисперсии выборочной или генеральной, можно упростить, используя формулу: Но наилучшей оценкой генеральной дисперсии является исправленная выборочная дисперсия. 14 5.2.5.Исправленная дисперсия. Выборочная дисперсия является смещенной оценкой генеральной дисперсии, т.е. математическое ожидание выборочной дисперсии не равно оцениваемой генеральной дисперсии, поэтому в качестве оценки генеральной дисперсии принимают исправленную выборочную дисперсию. s2 Для ( x1 x В ) 2 ( x 2 x В ) 2 ... ( x n x В ) 2 n 1 оценки среднего квадратического генеральной совокупности используют исправленное среднее квадратическое отклонение Замечание: исправленной формулы дисперсии для вычисления отличаются выборочной только дисперсии знаменателями. и При достаточно больших n выборочная и исправленная дисперсии мало отличаются, поэтому на практике исправленной дисперсией пользуются, если n<30. 5.3. Интервальная оценка числовых основных числовых характеристик генеральной совокупности Интервальной называют оценку, которая определяется двумя числами— концами интервала. Интервальная оценка - оценка представляемая интервалом значений, внутри которого с задаваемой исследователем вероятностью находится истинное значение оцениваемого параметра (генеральная средняя). называется доверительным вероятность называется Интервал в интервалом, доверительной статистических вычислений доверительной вероятности: 0,95, интервальной задаваемая вероятностью. применяются 0,98 исследователем В стандартные и оценке практике значения 0,99 (95%, 98% и 99% соответственно). Например, интервальная оценка математического 15 ожидания (3,8) при доверительной вероятности 0,95. Это означает, что математическое ожидание лежит в пределах от 3 до 8 с вероятностью 0,95, следовательно, вероятность того, что математическое ожидание меньше 3 или больше 8 не превышает 0,05. Очевидно, что чем выше доверительная вероятность, тем выше точность оценки, но шире доверительный интервал. Отсюда следует – для непрерывных случайных величин вероятность того, что точечная оценка совпадает с оцениваемым параметром равна 0. Пусть известна выборка: х1, х2, ..., хn, где n – объем выборки (n˂30), то можно рассчитать ее характеристики: выборочное среднее х В x1 x 2 ... x n , n исправленная выборочная дисперсия s 2 ( x1 x В ) 2 ( x 2 x В ) 2 ... ( x n x В ) 2 , n 1 выборочное среднеквадратическое отклонение s s 2 . Тогда полуширина доверительного интервала для генерального среднего рассчитывается по формулу x t ( , f ) s n , где t – коэффициент Стьюдента, – доверительная вероятность, f = n – 1 – степень свободы (число независимых случайных величин, по которым вычисляется данная статистика). .Верхняя и нижняя границы доверительного интервала определятся по формулам: Х min = 𝑥в − ∆𝑥 , где x t ( , f ) s n Х mах = 𝑥в + ∆𝑥 , где x t ( , f ) s . n 16 Можно применять и другой вариант этой формулы: x t ( P, n) s n, где Р – доверительная вероятность, а n – число наблюдений. Таблица значений коэффициента Стьюдента. В данной таблице n – число наблюдений, а Р - доверительная вероятность. Распределение Стьюдента, коэффициенты Стьюдента были введены в 1908 г. английским статистиком Вильямом Госсетом, работавшем на фабрике, выпускающей пиво. Вероятностно-статистические методы использовались для принятия экономических и технических решений на этой фабрике, поэтому ее руководство 17 запрещало В. Госсету публиковать научные статьи под своим именем. Таким способом охранялась коммерческая тайна, «ноу-хау» в виде вероятностно-статистических методов, разработанных В. Госсетом. Однако он имел возможность публиковаться под псевдонимом «Стьюдент». История Госсета - Стьюдента показывает, что еще сто лет назад менеджерам Великобритании была очевидна большая экономическая эффективность вероятностно-статистических методов. Пример: Найти доверительный интервал для оценки математического ожидания с надежностью 0,95, если объем выборки n =16, среднее выборочное и исправленная дисперсия соответственно равны 20,2 и 0,8. По таблице приложения найдем t по заданной надежности =0,95 и n= 16: t =2,13. Подставим в формулу s =0,8 и t =2,13 , вычислим границы доверительного интервала: , откуда получим доверительный интервал (19,774; 20,626) Смысл полученного результата: если взять 100 различных выборок, то в 95 из них математическое ожидание будет находится в пределах данного интервала, а в 5 из них- нет. Для вычислений точечной и интервальных оценок можно использовать статистические функции Excel. 18