МЕДИЦИНСКАЯ СТАТИСТИКА ОСНОВНЫЕ ПОНЯТИЯ СТАТИСТИКИ Цель науки – описание, объяснение и предсказание явлений действительности на основе установленных законов. В основе научных знаний лежит наблюдение. Для обнаружения закономерности, которой подчиняется явление, необходимо многократно наблюдать это явление в одинаковых условиях. Многие явления взаимно связаны и влияют одно на другое. Проследить все связи и определить влияния каждого фактора на явление не всегда представляется возможным. Поэтому ограничиваются изучением влияния лишь основных факторов, определяющих течение явления. Тогда под одинаковыми условиями наблюдений понимается соблюдение практически одинаковых значений основных факторов. Статистическое исследование состоит из следующих стадий: наблюдение; сводка и группировка результатов наблюдения; анализ полученных обобщающих показателей. Все стадии связаны между собой, и на каждой из них используются специальные методы, объясняемые содержанием выполняемой работы. Статистика – это наука, изучающая методы обработки результатов наблюдений массовых случайных явлений, обладающих закономерностью, с целью выявления этой закономерности. Исходя из характера и основных черт предмета статистики как науки, можно сформулировать следующие ее задачи: изучение структуры, взаимосвязей и динамики массовых явлений и процессов. 123 Статистика, как наука, исследует не отдельные факты, а массовые явления и процессы, выступающие как множество отдельных факторов, обладающих как индивидуальными, так и общими признаками. Выводы о закономерностях, которым подчиняются явления, изучаемые статистикой, всегда основываются на ограниченном, выборочном числе наблюдений. При большем или меньшем числе наблюдений эти выводы могут оказаться иными. Для вынесения более определенного заключения о закономерностях явлений статистика опирается на теорию вероятностей. Статистика имеет дело с результатами наблюдений случайных явлений, а теория вероятностей логически изучает закономерности и имеет дело с моделями случайных явлений. Обработав результаты наблюдений, исследователь выдвигает ряд гипотез (предположений) о том, что рассматриваемое явление можно описать той или иной вероятностной теоретической моделью. Далее, используя математико-статистические методы, можно дать ответ на вопрос, какую из гипотез или моделей следует принять. Именно эта модель и считается закономерностью изучаемого явления. Правомерен такой выбор или нет покажет практика использования выбранной модели. Статистика, опираясь на вероятностные модели, влияет на развитие теории вероятностей. Окружающий мир многообразен, и задачи, возникающие при изучении случайных явлений, при обработке результатов наблюдения над ними требуют разработки новых вероятностных моделей. Статистика и теория вероятностей – это две неразрывно связанные науки, они влияют друг на друга, развивают друг друга. Генеральная совокупность и выборка Объект статистического исследования в статистике называют статистической совокупностью. Статистическая совокупность – это множество единиц, обладающих однородностью. Каждый отдельно взятый элемент данного множества называется единицей совокупности. Единицы статистической совокупности характеризуются общими свойствами, именуемыми в статистике признаками. Под однородностью совокупности понимается сходство единиц 124 (объектов, явлений, процессов) по каким-либо существенным признакам, но различающихся по каким-либо другим признакам. По форме внешнего выражения признаки делятся на качественные и количественные. Единицы совокупности наряду с общими для всех единиц признаками, обусловливающими качественную определенность совокупности, также обладают индивидуальными особенностями и различиями, отличающими их друг от друга. Именно наличие вариации предопределяет необходимость статистики. Зачастую реально существующую совокупность объектов можно мысленно дополнить любым количеством таких же однородных объектов. Возьмем, к примеру, лекарства, выпущенные в первом квартале. Эту совокупность можно дополнить лекарствами, выпущенными во втором, третьем и так далее кварталах. Такие совокупности называются генеральными. Итак, совокупность всех мыслимо возможных объектов данного вида, над которыми проводятся наблюдения с целью получения конкретных значений определенной случайной величины, или совокупность результатов всех мыслимых наблюдений, проводимых в неизменных условиях над одной из случайных величин, связанных с данным видом объектов, называется генеральной совокупностью. Генеральная совокупность может быть конечной или бесконечной в зависимости от того, конечна или бесконечна совокупность составляющих ее элементов. Не следует смешивать понятие генеральной совокупности с реально существующими совокупностями. Если на склад поступила продукция некоторого фармацевтического предприятия – это является реально существующей совокупностью, которую нельзя назвать генеральной, поскольку выпуск этого лекарства можно мысленно продолжить сколь угодно долго. Статистическое наблюдение – это источник первичной статистической информации. Оно сводится к сбору данных о массовых явлениях путем регистрации их признаков. Статистическое наблюдение должно проводиться по заранее составленному плану: должны быть определены цели, объект, единица наблюдения, программа (перечнь вопросов, на которые надо получить ответы, и набор гипотез, которые надо проверить). От правильно организованного и хорошо продуманного 125 наблюдения зависят полнота получаемых данных и точность выводов в результате обработки собранных данных. Следует особое внимание обратить на составление статистического формуляра бланка, в котором регистрируются сведения о единицах наблюдения, и на составления инструкций – письменных разъяснений по вопросам заполнения статистических формуляров и организации наблюдения. Зачастую невозможно провести сплошное обследование (это либо дорого, либо приводит к уничтожению исследуемого объекта). Поэтому приходится из всей совокупности объектов для обследования отбирать только часть, т.е. проводить выборочное обследование. Например, на фармацевтическом предприятии надо проверить партию лекарства на качество. Каждое лекарство приходится вскрывать, т.е. портить товар. Следовательно, сплошное обследование невозможно. Поэтому берут небольшую часть лекарственной продукции и проверяют на качество. По полученным результатам можно судить о качестве всей продукции, не приводя в негодность всю партию лекарств. Часть отобранных объектов генеральной совокупности называется выборочной совокупностью или выборкой. Число N объектов генеральной совокупности называют объемом генеральной совокупности, а число n объектов выборочной совокупности – объемом выборки. N значительно больше, чем n. Однако не всякая выборка может быть действительным представлением о генеральной совокупности. Для того, чтобы по выборке можно было сделать правильные выводы о всей генеральной совокупности, она должна быть репрезентативной. Это значит, что все пропорции генеральной совокупности должны быть представлены в выборке. Репрезентативность выборки обеспечивается случайностью отбора. Это означает, что любой объект выборки отобран случайно, при этом все объекты имеют одинаковую вероятность попасть в выборку. Существуют несколько способов отбора, обеспечивающих репрезентативность. Обычно поступают следующим образом, все объекты генеральной совокупности нумеруют (по возможности), после чего карточки с номерами перемешиваются и из полученной пачки выбирают одну наудачу. Объект, номер 126 которого совпал с номером карточки, считается попавшим в выборку. Такую операцию повторяют до тех пор пока не образуется необходимая выборка. При этом существуют два различных варианта выборки: случайная повторная и случайная бесповторная. При случайной повторной выборке каждая вынутая карточка возвращается в пачку. При случайной бесповторной выборке карточки в пачку не возвращаются. При большом объеме генеральной совокупности применение карточек для организации случайной выборки затруднено. В таких случаях используют таблицы или датчик случайных чисел. Если объем генеральной совокупности велик, то различие между выборками с возвратом и без возврата незначительно и практически не сказывается на окончательных результатах. Эмпирическая функция распределения и гистограмма Полученные результаты представляют собой множество беспорядочных данных. Для изучения их подвергают обработке. Следующим этапом статистического исследования является сводка, суть которой в обработке первичных материалов наблюдения в целях получения итоговых или упорядоченных определенным образом числовых характеристик изучаемой совокупности. Основным моментом сводки является группировка, т.е. объединение статистических данных в однородные по определенным признакам группы. Группировки помогают изучать структуру совокупности, взаимосвязь между явлениями. Изучение структуры совокупности достигается построением рядов распределения, характеризующих распределение единиц совокупности по одному признаку. Распределение единиц совокупности по количественному признаку называют вариационным рядом. Ряд может быть построен как по дискретному, так и по непрерывному признаку. Дискретным называется признак, который может принимать определенные значения из конечного набора таких 127 значений, выражаемых, как правило, целыми числами, например, число детей в семье. Непрерывный признак может принимать любые промежуточные значения. Как правило, при построении вариационных рядов по непрерывному признаку последний указывается в виде интервалов «от и до», и ряд называется интервальным. Кроме обычных частот в вариационном ряду можно рассчитывать нарастающим итогом накопленные (кумулятивные) частоты, по которым строим суждение о том, какое число единиц в совокупности обладает значением признака «не более» или «не менее» определенного. Для наглядности вариационные ряды изображают графически с помощью полигона (преимущественно дискретные ряды) и гистограммы (интервальные ряды). Операция, заключающаяся в том, что результаты наблюдений над случайной величиной, т.е. наблюдаемые значения, располагают в порядке неубывания, называется ранжированием опытных данных. После ранжирования опытные данные легко объединить в группы, т.е. сгруппировать так, что в каждой отдельной группе значения случайной величины будут одинаковые. Значение случайной величины, соответствующее отдельной группе сгруппированного ряда наблюдаемых данных, называется вариантом, а изменение этого значения – варьированием. Варианты обозначают буквами конца латинского алфавита x,y,z. Для каждой группы сгруппированного ряда данных можно подсчитать их численность, т.е. определить число, которое показывает, сколько раз встречается соответствующий вариант в ряде наблюдений. Численность отдельной группы сгруппированного ряда наблюдаемых данных называется частотой или весом соответствующего варианта и обозначается mi. Практический интерес представляет относительная частота варианта. Отношение частоты данного варианта к общей сумме частот всех вариантов называется долей этого варианта и обозначается pi , где i – индекс варианта. 128 mi pi ν , mj j 1 ν где ν – число вариантов. Так как объем выборки n m j , то j 1 pi mi n . pi Заметим, что доля является статистической вероятностью появления варианта xi . Подсчитав частоты и доли для каждого варианта, представим наблюдения в виде таблицы, где в первой строке расположены индексы вариантов i, во второй – варианты xi, в третьем – частоты mi, в четвертой доли pi . Индекс Вариант Частота Доля i xi mi pi 1 2 x1 x2 m1 m2 p p2 1 3 x3 m3 p3 … … … … i xi mi pi … … … … n xn mn pn Полученная таблица называется дискретным вариационным рядом. Причем варианты расположены в порядке возрастания. Дискретным вариационным рядом распределения называется ранжированная совокупность вариантов xi с соответствующими им частотами mi и долями pi . Данный ряд считается выборочным аналогом ряда ν распределения и p i 1 . i 1 Если изучаемая случайная величина является непрерывной, то ранжирование и группировка затруднены. Нецелесообразно это и для дискретных случайных величин, число возможных значений которой велико. В подобных случаях следует построить интервальный ряд. Для построения такого ряда весь интервал варьирования наблюдаемых значений случайной величины 129 разбивают на частичные интервалы и подсчитывают частоту попадания значений величины в каждый частичный интервал. Интервальным вариационным рядом называется упорядоченная совокупность интервалов варьирования значений случайной величины с соответствующими частотами (или долями) попаданий в каждый из них значений величины. Для построения интервального ряда необходимо определить величину частичных интервалов, на которые разбивается весь интервал варьирования наблюдаемых значений случайной величины. Длину частичного интервала Δx выбирают следующим образом: находят размах варьирования R x max x min , затем делят размах на количество интервалов ν, т.е. получается Δx x max x min б ν Количество интервалов может быть выбрано по усмотрению исследователя. При графическом представлении распределения наблюдений нашей целью является выбор интервалов группировки таким образом, чтобы основные, характерные черты распределения оказались выделенными, а случайные колебания были бы сглажены. Если длина интервала группировки мала, то влияние случайных колебаний начинает преобладать, так как каждый интервал содержит при этом лишь небольшое число наблюдений, если же длина интервала велика, то скрадываются основные характерные черты распределения. Иногда интервальный вариационный ряд для простоты исследования условно заменяют дискретным. В этом случае серединное значение i-го интервала принимают за вариант xi, а соответствующую интервальную частоту – за частоту варианта. Мы разобрали выборочный аналог теоретического вариационного ряда. Теперь разберем выборочные аналоги для интегральной и дифференциальной функций распределения, а также рассмотрим полигон и гистограмму. Пусть имеется выборочная совокупность объема n значений некоторой случайной величины Х. И каждому варианту в этой совокупности поставлена в соответствие его доля p. Пусть далее х – некоторое действительное число, а mx – количество 130 выборочных значений случайной величины Х, меньших х. Тогда число mx n является долей наблюдаемых в выборке значений величины Х, меньших х, т.е. долей появления события А = (Х<x). При изменении х в общем случае будет изменяться и величина mx . Это означает, относительная частота n mx n является функцией аргумента х. А так как эта функция находится по выборочным данным, которые были получены в результате опытов, то ее называют выборочной, или эмпирической. и йфцф уфо В ычур нко распределения называется ~ F(x), функция задающая для каждого значения х относительную частоту события (Х<х). m ~ Итак, по определению F ( x ) x ,где mx – число n выборочных значений, меньших х, n – объем выборки. Функцию генеральной совокупности F(x) называют теоретической функцией распределения, а функцию выборки ~ F(x)– эмпирической. Их отличие в том, что F(x) определяет ~ (x) вероятность события (X<x) , а выборочная F – относительную частоту этого события. ~ F(x)В еВобладает теми же свойствами, что и F(x): ~ (x ) 1 ; 1. 0 F ~ (x) – неубывающая; 2. F ~ 3. F() 0; ~ ( ) 1. 4. F ~ F(x) можно задать и аналитически ⎧ 0 ⎪ i 1 ~ F ( x ) ⎨ ~p j ⎪ j 1 ⎩ 1 x x min x i 1 x x i i 1,,ν x x max 131 i 1 p называются накопленными (кумулятивными) ~ j 1 j частотами. Выборочным аналогом плотности f (x ) считают функцию Частоты ~ ~ F( x Δx ) F( x ) ~ , f (x ) Δx ~ ~ (x Δx) F(x) где F частость попадания наблюдаемых значений случайной величины Х в интервал x; x Δx . Выборочную функцию плотности можно задать соотношением ⎧ 0 ⎪⎪ ~p i ~ f ( x ) ⎨ ⎪ n ⎪⎩ 0 x x1 x i x x i 1 i 1,,ν , x x ν 1 pi – доля попадания случайной величины в интервал где ~ x;x Δx , где Δx – длина частичного интервала, xν1 – конец последнего ν-го интервала. Также наблюдаемые данные можно представить в виде графических изображений: полигона, гистограммы, графика функции. Полигон обычно используется для дискретного ряда- это pi ), затем точки точки с координатами (xi; mi) или (xi; ~ соединяются. Это выборочный аналог полигону теоретического распределения. Гистограмма – обычно используется для интервальных вариационных рядов. Для построения гистограммы в прямоугольной системе координат на оси OX откладывают отрезки, изображающие частичные интервалы варьирования, и на этих отрезках, как на основаниях строят прямоугольники с высотами, равными частотам или долям соответствующих интервалов. В результате получаем ступенчатую фигуру, которую называем гистограммой. Заметим, что если мы используем доли, то сумма площадей всех прямоугольников, построенных на частичных интервалах, равна единице. 132 Рис. 35. Гистограмма. Сумма площадей прямоугольников равна 1 133