МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Статистика (от латинского «статус» – состояние) – наука, обрабатывающая и изучающая количественные показатели развития общественного производства и общества, их соотношения и изменения. Математическая статистика – раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов. ГЛАВА I. СТАТИСТИЧЕСКИЕ РЯДЫ РАСПРЕДЕЛЕНИЯ §1. Задачи математической статистики Методы математической статистики позволяют решать следующие задачи: 1. Изучение большой совокупности объектов по небольшому числу случайно отобранных объектов (выборочный метод); 2. Нахождение приближенных значений параметров, которыми определяется распределение вероятностей изучаемого признака (статистические оценки параметров распределения); 3. Установление формы и силы связи между случайными величи- нами (теория корреляции). Теоретической основой математической статистики является теория вероятностей. Методы математической статистики применяются в различных отраслях науки: экономики, техники, биологии и т.д. Пример: статистические методы используются для правильной и целесообразной организации технологического процесса (предупредительного и приемочного контроля качества продукции). §2 Основные понятия выборочного метода На практике редко имеет место сплошное наблюдение за изучаемым объектом процессом и т.д. Это не только физически невозможно, но и исключено, так как иногда исследования объекта связаны с его физическим уничтожением или требует больших материальных затрат. Определение. Исследуемая совокупность объектов называется генеральной совокупностью. Определение. Совокупность n объектов отобранных случайным обра- 2 зом из генеральной совокупности, называют выборочной или выборкой. Определение. Объемом совокупности называют число объектов этой совокупности. Определение. Метод, состоящий в том, что на основе изучений выборочной совокупности делается заключение о всей генеральной совокупности, называется выборочным методом. Определение. Повторной называют выборку, при которой отобранный объект возвращается в генеральную совокупность. Определение. Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается. Замечание: на практике объем генеральной совокупности велик по сравнению с объемом выборки, поэтому различие между повторной и бесповторной выборками стирается. Определение. Выборка должна быть репрезентативной (представительной): если каждый объект выборки отобран случайно из генеральной совокупности и если все объекты имеют одинаковую вероятность попасть в выборку. Определение. Отношение объема выборки к объему генеральной совокупности называют относительным показателем выборки n , где n – объем N выборки, а N – объем генеральной совокупности. Определение. Каждый результат, вычисленный по данным выборки имеет некоторую погрешность – ошибку репрезентативности (величина расхождения между показателями выборки и показателями генеральной совокупности). §3. Вариационные ряды Определение. Статистической совокупностью называется множество однородных предметов или явлений. Пусть у данной статистической совокупности изучается некоторый 3 признак. Определение. Изменение этого признака называется вариацией, а значение признака называется вариантой; а числа, показывающие сколько раз встретилась каждая варианта, называются их частотами (весами). Определение. Вариационным рядом называется ранжированный в порядке возрастания или убывания ряд – вариант с соответствующими им частотами. Ранжир (франц. "ставить в ряд по росту"). Вариационные ряды бывают дискретные и непрерывные (интервальные). Дискретный вариационный ряд: xi x1 x2 x3 … xn Mi M1 M2 M3 … Mn x2 x3 … xn 1 xn … Mn Непрерывный вариационный ряд: xi 1 xi x0 x1 x1 x2 Mi M1 M2 M3 Объем статистической совокупности: n Mi n . i 1 От непрерывного вариационного ряда можно перейти к дискретному, для этого надо взять середины интервалов, а частоты оставить теми же. Для построения интервального ряда следует определить величину интервала и соответственно сгруппировать результаты наблюдений. При выборе величины интервала можно: 1. учитывать требования наибольшего удобства; 2. для определения оптимального интервала используют формулу Стэрджеса: 4 h xmax xmin . 1 3,322 lg n Если h – дробное число, то за величину интервала следует взять либо ближайшее целое число, либо ближайшую несложную дробь. Начало первого интервала равно a1 xmin h , второго a2 x1 h , и 2 т.д. §4. Графическое изображение вариационных рядов Позволяет представить в наглядной форме закономерности варьирования значений признаков с помощью полигона, гистограммы, кумуляты и огивы. Определение. Полигоном (для дискретного вариационного ряда) называется ломаная, соединяющая на плоскости точки с координатами xi ,Wi или M i , xi ,Wi . Wi Mi n Определение. Гистограммой (для непрерывного вариационного ряда) называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которого служат интервалы xi 1 xi , а высотами частоты (частоты) Wi . Определение. Накопленной частотой (частостью) варианты x i называют суммарную частоту членов вариационного ряда со значением признака меньше чем xi . Обозначаются: М iнак или Wiнак . Определение. Если в вариационном ряду вместо частот взяты соответственно накопленные частоты, то полученный ряд называют кумулятивным рядом (кумуляция – от лат. «скопление»). Определение. Кумулятой называется ломаная, соединяющая на плос- 5 кости точки вида xi , M iнак или xi ,Wiнак . Кумуляту еще иначе называют полигоном накопленных частот. Определение. Если поменять местами абсциссы и ординаты, и постро- ить на плоскости ломаную по точкам Wiнак , xi или M iнак , xi , то она будит называться огивой. Построение вариационного ряда – первый шаг к изучению статистической совокупности. На практике этого бывает недостаточно, особенно, когда надо сравнить два ряда или более. Сравнению подлежат только так называемые однотипные ряды, то есть ряды, которые построены по результатам обработки статистических данных. Однотипные вариационные ряды обычно имеют похожую форму при графическом изображении, однако могут отличаться существенно друг от друга: 1. иметь различные значения признаков, вокруг которых концен- трируются наблюдения (средние величины); 2. различаются рассеянием наблюдений вокруг средних величин (показатели вариации). Определение. Средние величины и показатели вариации, позволяющие судить о характерных особенностях вариационных рядов, называются статистическими характеристиками. ГЛАВА II. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ РЯДОВ РАСПРЕДЕЛЕНИЯ §1. Средние величины Часто возникает необходимость охарактеризовать одним числом совокупность изменяющихся значений какого-либо признака х. Для этого отыскивают некоторую постоянную величину, соответствующую среднему уровню данного распределения, которую и называют средним значением x , то 6 есть вариационный ряд заменяют абстрактной математической совокупностью, где каждый член характеризуется одним и тем же значением признака x . Такая абстракция правомерна, если осреднение не нарушило основного свойства совокупности – «определяющего свойства». Определение. Определяющее свойства требует, чтобы при замене индивидуальных значений xi соответствующей средней сохранялось равенство: f x1 , x2 ,..., xn f x1 , x2 ,..., xn . Из этого равенства и находят соответствующую среднюю величину. В дальнейшем: xa - средняя арифметическая величина; xгеом. - средняя геометрическая; xгарм. - средняя гармоническая; xкв. - средняя квадратическая. При выборе средней следует ответить на вопрос: «Какое свойство ряда нужно представить средней величиной? Какая цель преследуется при вычислении средней?». §2. Средняя арифметическая Основное свойство, определяющее среднюю арифметическую (правило): Определение. Сумма результатов наблюдений должна оставаться неизменной, если каждый из них заменить средней арифметической. n n n xi x xa n , следовательно i 1 i 1 xa xi i 1 n - средняя арифметическая про- стая величина. Аналогично, если определяющее свойство выглядит так: n n n n i 1 i 1 i 1 i 1 xi M i xM i M i xa xa M i 7 n xa n xi M i xi M i i 1 n Mi i 1 n - средняя арифметическая взвешенная. i 1 Свойство средней арифметической: n 1. xa xiWi i 1 n Wi n xiWi , т т. i 1 n Wi 1 i 1 i 1 n 2. xi x 0 i 1 или n xi x M i 0 (взвешенная) i 1 Сумма отклонений значений х от x равна нулю. 3. Если ко всем значениям признака xi прибавить или отнять ка- кую-то величину А, то и среднее значение изменится на эту же величину, то есть: при xi A . n Формула простой средней арифметической xi A i 1 n xA Формула взвешенной средней арифметической n xi AM i i 1 n xA Это свойство называется свойством монотонности. 4. Если все значения признака xi умножить или разделить на какое- то число С, то и среднее арифметической увеличится или уменьшится в С раз. При взвешенной средней арифметической При простой средней арифметической 5. xi CM i n xC . xi C x C . n Если каждую из частот M i умножить на постоянную величину 8 C 0 , то среднее арифметическое признака не изменится: xi CM i nC x Эти свойства используют для упрощения вычисления: xhi A h A , xa n где А – значение xi с наибольшей частотой, или значение близкое к сере- дине ряда; h – шаг, наибольший общий делитель разностей xi A . §3. Средняя геометрическая xгеом. Основное свойство, определяющее среднюю геометрическую: Определение. Общий объем признака определяется как произведение осредняемых значений xi . x1 x2 ... xi ... xn xгеом. ; n xгеом. n x1 x2 ... xi ... xn , иначе: простая средняя геометрическая xгеом. n n xi . i 1 n mi Взвешенная средняя геометрическая xгеом. i 1 x1m1 x2m2 ... xnmn . Обычно это выражение логарифмируется: n ln xгеом. n 1 ln xi ln xi , n i 1 i 1 n 1 ln x1 ln x2 ... ln xn , n ln x1 ln x2 ... ln xn . n ln xгеом. ln xгеом. Эта формула похожа на формулу средней арифметической, так как натуральный логарифм средней геометрической равен средней арифметиче- 9 ской из значений логарифмов осредняемых величин, поэтому все свойства средней арифметической распространяются и на логарифмированную среднюю геометрическую. Замечание: 1. xгеом 0 , если хотя бы один элемент xi 0 ; 2. xгеом. может быть мнимой величиной, если среди значений xi встречаются отрицательные величины. Задача: 1. В хозяйстве в течение ряда лет осуществляется производство горшочков для рассады, в штуках. Определить средний тип изменения объема производства за эти годы. 1996г. – 2000шт. 1997г. – 9000шт. 1998г. – 27000шт. 1999г. – 54000шт. Определим темпы роста по отношению к предыдущему году: 1997г. к 1996г. 9000:2000 = 4,5 1998г. к 1997г. 27000:9000 = 3,0 1999г. к 2998г. 54000:27000 = 2,0 Определяющее свойство: сохранить неизменным общий объем признака – произведение темпов роста x1 4,5; x2 3,0; x3 2,0 xi 4,5 3 2 mi 1 1 1 xгеом. 3 V x1 x2 x3 xгеом. 3 x1 x2 x3 3 4,5 3 2 3,0 Средний темп изменения объема производства за эти годы был равен 3. 10 2. Дан признак xi x1 x2 mi 1 1 при условии, что x1 x2 . Доказать, что среднее арифметическое больше или равно среднему геометрическому. x1 m1 x2 m2 x1 x2 ; x1 1 x2 1 2 x1 x2 ; 2 x1 x2 2 4 x1 x2 ; x12 2 x1 x2 x22 4 x1 x2 ; x12 2 x1 x2 x22 0; x1 x2 2 0. 2 Но так как x1 x2 , то x1 x2 0 , следовательно, x1 x2 x1 x2 . 2 При соблюдении условия x1 x2 , выражение меняет знак на >. 2 x 2 2 или 1 2 x 2 2 или 1 , поэтому в ответе у нас получается, что x12 x22 2 x1 x2 . §4. Средняя гармоническая xгарм. Остается неизменной сумма величин, обратных данным n 1 i 1 i n 1 i 1 i x x 1 1 1 1 1 ... ... ; x1 x2 x3 xi xn 1 xгарм. 1 xгарм. ... 1 xгарм. n 1 xгарм. n xгарм. Формула простой средней гармонической xгарм. n . n i 1 1 xi Формула взвешенной средней гармонической xгарм. n n i 1 mi xi n , mi n . i 1 11 Задача. Товарооборот каждого из трех предприятий составляет 18 млн. руб. При этом первое предприятие выполнило план на 120%, второе – на 150%, а третье – на 120%. Установить средний процент выполнения плана по предприятиям. xгарм. 18 3 18 18 18 120 150 120 3 1 120 1 1 150 120 128,6% . §5. Средняя квадратическая xкв. Остается неизменной сумма квадратов наблюдений. 2 2 2 x12 x22 x32 ... xn2 xкв. xкв. ... xкв. n n n xi2 n xкв.2 , i 1 2 xкв. xi2 1 n n Простая средняя квадратическая xкв. xi2 1 . n n xi2 mi Взвешенная средняя квадратическая xкв. 1 n n , n mi . i 1 Задача. При штамповке 30 квадратных пластинок со стороной 2 см, 20 – со стороной 1,5 см и 50 – со стороной 1 см, необходимо заменить их на 100 одинаковых при том же расходе материала. Каких размеров должны быть пластинки? xкв. xi 2 1,5 1 mi 30 20 50 2 2 30 1,52 20 12 50 2,15 1,5 . 100 12 §6. Медиана и мода вариационного ряда Они – описательные характеристики вариационного ряда. Определение. Медианой M e называется значение признака, приходящегося на середину ранжированного ряда наблюдений. Медиана делит всю совокупность на две равные по численности значений части, то есть x M e и x M e . Если число значений признака нечетное n 2 p 1 , то M e совпадает с х со знаком р, M e = р. Если же n 2 p , то на середину ряда приходится два значения x p и x p 1 , M e x p x p 1 2 . n mi 1 Для интервального ряда формула: M e xe 2 S M e 1 mM e k , где xe - начало медианного интервала; n mi - сумма всех частот; i 1 S M e 1 - сумма частот до медианного интервала; mM e - частота медианного интервала; k – ширина медианного интервала. Для нахождения медианного интервала находят накопленные частоты. n Первой из miнак. mi 1 2 соответствует медианный интервал (в случае дис- кретного ряда mMнак.e соответствует самой M e ). Определение. Модой M o называется такое значение признака, которое наблюдалось наибольшее число раз. Для дискретного ряда нахождение моды не требует никаких вычислений, а для интервального ряда мода вычисляется по формуле: 13 M o xo m mM o mM o 1 Mo mM o 1 mM o mM o 1 k , где xo - начало модального интервала; mM o - частота модального интервала; mM o 1 - частота предшествующего первому интервала; mM o 1 - частота следующего за модальным интервала; k – ширина модального интервала. §7. Показатели вариации R, ,V , Определение. Размах варьирования вариационного ряда называется разность между наибольшим и наименьшим значениями признака. R xнаиб. xнаим. . Размах варьирования – простейший показатель вариации, так как он не зависит от изменения вариант, а крайние, как правило, бывают ненадежными. Размах характеризует амплитуду колебаний значений признака в совокупности. Определение. Дисперсией признака 2 называют средний квадрат отклонений значений признака от средней арифметической. n Для несгруппированных данных mi 1 D 2 xi xa 2 i 1 n . n Для сгруппированных данных D 2 xi xa 2 mi i 1 n . Особенности: 1) учитывает различие не только 2 крайних, а всех значений признака; 2) характеризует рассеяние значений признака относительно его наиболее типичного уровня – средней арифметической, но измеряется только в квадратных единицах. 14 Определение. Средним квадратическим отклонением называется корень из дисперсии D . Измеряется в тех же единицах, что и сам признак. Свойства: 1. Dc 0; 2 c 0 ; 2. Dx c Dx ; 3. Dcx c 2 Dx . Определение. Средним линейным отклонением называется средняя арифметическая из всех абсолютных индивидуальных отклонений значений признака от средней арифметической. n n xi xa 1 n или xi xa mi 1 n R, , 2 , - абсолютные характеристики вариационного ряда, а V (ко- эффициент вариации) – относительная характеристика. Определение. Коэффициентом вариации называется отношение среднего квадратического отклонения к средней арифметической, выраженной в процентах: V xa 100% . V – универсальная характеристика, которая служит для сравнения вариаций различных признаков. Определение. Суммарная величина вариаций признака в совокупности n n называется объемом вариации: W xi xa , W xi xa mi . 2 1 2 1 Использование этих показателей вариаций входит в задачи дисперсионного анализа, позволяющего оценить действия изучаемых факторов на результативные показатели. §8. Моменты распределения 15 Статистические моменты – это числовые характеристики распределения. Любой вид распределения однозначно определяется своими моментами. Средняя арифметическая xa и дисперсия 2 являются частными случаями статистических моментов. Определение. Моментом порядка ( K 0 , целое число) относительно n постоянной А называется величина M k A xi Ak mi 1 n . mi 1 Если А = 0 – момент называют начальным и обозначают k . n k xik mi 1 . n mi 1 Определение. Начальный момент первого порядка k 1 является xa . n 1 xi mi 1 n mi n 2 xa ; 1 xi2 mi 1 n mi x a2 . 1 Определение. Если А равно xa , то момент называют центральным и обозначают . n Mk xi xa k mi 1 n mi k . 1 Определение. Центральный момент первого порядка равен нулю (см. первой свойство xa ). 16 n 1 xi xa mi 1 n 0. Определение. Центральный момент второго порядка есть дисперсия. n 2 xi xa 2 mi 1 n 2. Аналогично находятся центральные моменты третьего и четвертого порядков. n 3 xi xa 3 1 n n mi 4 ; xi xa 4 mi 1 n . Определение. Показателем асимметрии распределения называют отношение момента третьего порядка к кубу среднего квадратического отклонения . Ka 3 - показатель асимметрии. 3 Если K a 0 , то распределение симметрично, если K a 0 - распределение асимметрично. Принято считать распределение существенно асимметричными, то есть K a по абсолютной величине превосходит 0,5. m Ka 0 Ka 0 Ka 0 x 1. K a 0 , правосторонняя (правая ветвь длиннее левой) положи- тельная асимметрия; 2. распределение – симметричное и K a 0 ; 17 3. распределение ( K a 0 ) левосторонняя асимметрия, левая ветвь длиннее правой. Величины xa , M o и M e распределяются по разному при различных видах асимметрии одномодального распределения. Определение. Показателем крутизны распределения называется отношение центрального момента четвертого порядка к квадрату дисперсии – 4. Kэ 4 3 4 K э - коэффициент крутизны или эксцесса. Kэ 0 m Kэ 0 Kэ 0 x При K э 0 распределение называется островершинным, а при K э 0 пологим. Нормальное распределение имеет нулевые значения показателя асимметрии и показателя эксцесса. Величины начальных и центральных моментов связаны некоторыми соотношениями: n 2 2 2 1 2 2 xi2 mi 1 n n xi mi x2 x 2 . 1 n 18 ГЛАВА III. ОСНОВНЫЕ ВИДЫ ТЕОРЕТИЧЕСКИХ РАСПРЕДЕЛЕНИЙ §1. Понятие теоретических распределений Все разнообразие эмпирических распределений может быть распределено на классы в соответствии с некоторыми общими свойствами. 0 (1) 0 (2) 0 (3) 0 (4) 1 – прямоугольное или равномерное распределение; 2 – колокообразное распределение; 3 – бимодальное распределение; 4 – экспоненциальное распределение. Линии первого класса не обнаруживают никакой тенденции к концентрации (одинаковые частоты у всех значений признака x i ). Пример: появление шаров из барабана в тиражах спортлото. Кумулята у этого распределения – прямая наклонная линия. Линия второго класса – наиболее распространенная форма распределения. Она встречается настолько часто, что одна из его разновидностей называется нормальным распределением. Наибольшая частота соответствует M o , частоты других значений признака уменьшаются по мере удаления от M o . Нормальное распределение симметрично, так как K a 0 . Пример: нормально распределены различные показатели умственного и физического развития людей (коэффициент умственных способностей, 19 рост, вес и д.т.). В странах с устойчивой рыночной экономикой нормально распределены дневные изменения курса ценных бумаг. Распределение коров по дневному удою тоже имеет распределение близкое к нормальному. Линии третьего класса – бимодальное распределение, характерно для неоднородных данных. Оно может быть результатом наложения двух нормальных распределений. Наличие бимодальности является основанием для поиска источников неоднородности данных изучаемой совокупности. Линии четвертого класса. Среди экспоненциальных распределений преобладают убыточные. Они особенно распространены в экономике. Так, среди различных уровней дохода, получаемого гражданами любого государства, низкие значения встречаются чаще. Частоты соответствующие более высоким доходам устойчиво убывают. Итак: соответствие эмпирического распределения одному из теоретических (это может быть установлено с помощью специальных методов) позволяет с большой надежностью делать вывод о параметрах генеральной совокупности. Рассмотрим две группы теоретических распределений: а) 1. нормальное распределение; 2. бимодальное распределение; 3. распределение Пуассона. б) 1. x 2 - распределение xu ; 2. F – распределение; 3. распределение Стьюдента. Распределение второй группы используются для построения критериев, с помощью которых проверяют статистические гипотезы. §2. Нормальное распределение Х – случайная переменная, которая испытывает воздействие множества независимых факторов, из которых ни один не имеет преобладающего значения. 20 Функция плотности распределения имеет вид: 1 f x e 2 x a 2 2 2 1 или так как a xa , то f x e 2 Если принять x xa x a 2 2 2 . t2 1 t , то f t e 2 - нормированные откло 2 нение. t2 1 При xa 0 и 1 , t e 2 - локальная функция Лапласа соот2 ветствует стандартной кривой нормального распределения. Значения ее табулированы (таблица для t ). С помощью значений этой функции можно получить теоретические частоты, удовлетворяющие закону нормального распределения для выборочных данных. t S S1 S2 0 t Площадь под стандартной кривой нормального распределения равна единице, так как F x x dx S S1 S 2 ; S 1; x2 1 e 2 dx; 2 F x P x X 1 S1 S 2 0,5 Функция Лапласа используется при построении интервальных оценок, когда по заданной вероятности определяют границы интервала, в которых содержится неизвестный параметр. 21 История открытия нормального закона распределения связана с именами Гаусса и Лапласа, поэтому его еще называют законом Гаусса или II законом Лапласа, или распределением Гаусса-Лапласа. Термин «нормальное распределение» ввел К. Пирсон. §3. Распределение Стьюдента Стьюдент – псевдоним английского математика Госсета. Он установил: при небольших объемах выборки, несмотря на все условия для проявления закона нормального распределения, имеют место отклонения от него, причем тем больше, чем меньше выборка. Определение. Под выборочным распределением понимают распределение частот (частостей или вероятностей) значений какого-либо выборочного показателя (не путать с распределением частот внутри выборки). Пример: распределение, представленное как среднее значение Х из большего числа выборок одинакового объема, называют выборочным распределением частот. В этом случае величина нормированного отклонения вычисляется по формуле: ~ x j xr , где t ~x ~ x j - средняя j-ой выборки; x r - средняя генеральной совокупности; ~x - средняя квадратического отклонения выборочной средней от средней величины генеральной совокупности. ~x r n , где r - среднее квадратическое отклонение признака Х в генеральной совокупности (средняя ошибка выборки). Таким образом, значение t во многом зависит от n (объем выборки) и при увеличении n распределение Стьюдента приближается к нормальному. 22 Уже при n = 50 расхождения между ними несущественны. Распределение Стьюдента лежит в основе одноименного критерия. С помощью t – распределения Стьюдента устанавливается соотношение между возможным расхождением значений средних выборки и генеральной совокупности с одной стороны и вероятностью такого события с другой. §4. Распределение Пуассона Определение. Распределение Пуассона – это распределение частот признака Х, имеющего целые, неотрицательные значения, задающиеся формулой: x x x f x n e , x 0,1,2,... , (1) x! n – объем выборки; х – случайная величина целых положительных значений x 1,2,3,...; x 2 - дисперсия. При малом значении Х распределение Пуассона сильно отличается от нормального, имея крайнюю правую положительную асимметрию. m 0 x С увеличением Х это распределение приближается к нормальному. Одним из наиболее распространенных применений распределения Пуассона служит описание числа появления редких случайных событий. Пример: Х – число поломок трактора в течение смены. Пусть проведено наблюдение среди множества машин, то распределение частот среди множества значений X x 0; x 1; x 2;... будет подчиняться формуле (1). Сумма «m» независимых случайных величин, имеющих распределение 23 Пуассона, также подчинена этому закону со средним значением x x1 x2 x3 ... xm , если рассматривать тот же самый пример с распреде- лением вероятностей различного числа поломок трактора в течение m последовательных смен. ГЛАВА IV. ОЦЕНКА ПАРАМЕТРОВ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ ПО ДАННЫМ ВЫБОРКИ §1. Задачи выборочного метода Основная задача: получение показателей, пригодных для характеристики генеральной совокупности, так как обследуется только часть генеральной совокупности, то показатели выборки в большинстве случаев будут отклоняться от показателей генеральной совокупности. Определение. Расхождение (разность) между параметрами выборочной и генеральной совокупности называют ошибкой выборки. Пример: расхождение между ~xb и x r - называют ошибкой средней (дисперсии среднего квадратического). Чтобы ошибка выборки была как можно меньше, применяется специальные способы формирования выборки с целью обеспечить всем единицам генеральной совокупности равную возможность быть отобранными. Способы отбора: 1. собственно случайный повторный и бесповторный отбор; 2. механический; 3. типический (районированный); 4. серийный. Собственно случайный отбор проводится путем жеребьевки или таблицы случайных чисел. Если в процессе отбора однажды отобранная единица не исключается из генеральной совокупности и может быть снова отобрана, то такой отбор называют повторным. Если отобранная единица не возвраща- 24 ется в генеральную совокупность, то отбор называется бесповторным. Механический: единицы генеральной совокупности отбирают через определенные интервалы (например: 10% отбор). Он возможен только из конечной генеральной совокупности. Типический: генеральная совокупность предварительно разбивается на группы или районы, затем из каждой группы по схеме собственно случайным повторным и бесповторным методом выборки отбирают определенное число элементов (если внутри генеральной совокупности есть подсовокупности, различающиеся между собой по какому-либо признаку) Серийный: в генеральной совокупности выделяют непересекающиеся серии и группы, а потом по схеме собственно случайного отбора выделяют определенное число серий, все элементы которых образуют выборку. Увеличение объема выборки также уменьшает величину ошибки выборки, поэтому одной из частных задач выборочного метода – обоснование такого объема выборки, который позволяет оценить параметры генеральной совокупности с заданной точностью. §2. Точечные оценки параметров генеральной совокупности Определение. Точечная оценка – это приближенное значение параметра генеральной совокупности, вычисленное по данным выборки или точечной оценки называют статистическую оценку, которая определяется одним числом. Определение. Точечная оценка называется несмещенной, если ее математическое ожидание (или ее среднее значение, взятое по всем возможным выборкам данного объема) равно оцениваемому параметру генеральной совокупности. Определение. Оценка называется смещенной, если ее математическое ожидание не равно оцениваемой параметру генеральной совокупности. 25 Определение. Несмещенной оценкой генеральной совокупности средней служит выборочная средняя. n Для xr ~xb xi mi 1 n . Определение. Дисперсия выборки 2 b Db является смещенной оценкой генеральной дисперсии. Db b2 Dr r2 ; n Db 2 r 2 b xi ~xb 2 i 1 mi n Так как оценка дисперсии смещена, то следовательно M Db Dr , M Db n Dr n 1 n 2 r2 , поэтому находят несмещенную M b n 1 ошибку дисперсии. Определение. Несмещенной оценкой r2 является исправленная выборочная дисперсия и обозначается: n n S Db b2 n 1 n 1 2 или S 2 xi ~xb 2 mi n 1 Определение. Среднее квадратическое выборки также является смещенной оценкой r . Определение. Точная оценка называется состоятельной, если ее точность повышается по мере увеличения объема выборки (n). А при n N , она полностью совпадает с оцениваемым параметром генеральной совокупности. Определение. Оценка называется эффективной, если она имеет наименьшую дисперсию среди всех возможных оценок, вычисленных по выборкам одного объема. Всеми перечисленными свойствами обладает оценка генеральной x ; средней величины по среднему значению выборки x и ~ r b 26 1. xb x r ; несмещенность, так как M ~ 2. xb x r ; состоятельность, при n N ~ 3. эффективность ~xb - более эффективная оценка, чем другие из- вестные выборочные характеристики. §3. Интервальные оценки Определение. Разность между характеристиками выборки и генеральной совокупности называют ошибкой репрезентативности. Обозначается . Для: 1. генеральной совокупностью x r ~xb xr 2. доли признака W P Определение. Предел, которого не превышает по абсолютной величине ошибка репрезентативности, называется предельной ошибкой выборки. - предельная оценка выборки. . xb ~ xr ~ xb называется доверительным Определение. Интервал ~ интервалом для средней генеральной совокупности xr или интервальной оценкой x r . То есть интервальная оценка имеет форму 2-х чисел, представляющих собой границы интервала, в которых находится оцениваемый параметр генеральной совокупности. Определение. Вероятность попадания оцениваемого параметра в этот x x - доверительная. интервал называется доверительной, то есть: P ~ b r Теория устанавливает связь между (предельной ошибкой выборки), гарантируемой некоторой вероятностью Р, величиной t, связанной с этой вероятностью, и так называемой средней ошибкой выборки : t 27 То есть предельная ошибка выборки равна t – кратному числу средних ошибок выборки, а t – нормированное отклонение. Нормированное отклонение по заданному уровню доверительной вероятности Р находят: при n 30 по функции Лапласа, то есть 1. P~ xb br 2t 2. если n 30 , используют распределение вероятности Стьюдента, где t есть функция 2 параметров t ; . Определение. n 1 называется числом степеней свободы признака, то есть это то количество вариант, которые могут принимать произвольные значения, не имеющие величины средней. Определение. Уровнем значимости признака называется разность между единицей и доверительной вероятностью р. 1 P Соотношение параметров и α в таблице Стьюдента: Число степеней свободы, 0,10 Уровень значимости, α 0,05 0,01 1 9 Формула для средней ошибки выборки зависит от способа отбора данных (повторные и бесповторные отборы): 1. для повторного отбора S2 , n S 2 - исправленная оценка генеральной дисперсии; n – объем выборки; 2. для бесповторного отбора 28 S2 n n 1 , N N – объем генеральной совокупности. §4. Оценка доли Определение. Доля – относительная численность единиц совокупности, обладающих определенным признаком или определенным значением. Обозначается: в выборке - Wb , генеральной совокупности - Wr . Их формулы: m M Wb i ; Wr i , n N mi - число единиц, обладающих данным признаком выборки; n – объем выборки; M i - число единиц, обладающих данным признаком генеральной сово- купности; N – объем генеральной совокупности. mi Wb n , M i Wr N Wb является хорошей точечной оценкой Wr . Для получения генераль- ных оценок с заданным уровнем доверительной вероятности используется формула: Wb Wr Wb , где также t , а равно: 1. для повторного отбора Wb 1 Wb ; n 2. для бесповторного отбора Wb 1 Wb n 1 . n N Эти формулы дают хорошие результаты, если точечная оценка доли удовлетворяет неравенству: 0,25 Wb 0,75 . Иначе формула Wb Wr Wb записывается как Bz,u Wb t , где B z и Bu - нижняя и верхняя границы доверительного интервала (смотри- 29 те распределение Пуассона). §5. Определение объема выборки Всегда желательно знать величину n, при которой обеспечивается требуемая точность оценки при минимальных затратах времени и средств на отбор и обработку информации. Величина n для оценки средней: 1. (повторный отбор) t ; S2 t n Для получения формулы n возведем данную формулу в квадрат и выразим объем выборки (n). S2 t2 S2 2 t 2 n t 2 S 2 n n 2 2 t2 S2 n 2 2. (бесповторный отбор) S2 n t ; t 1 ; n N n S 2 1 n N 2 t 2 ; 2 n t 2 S 2 1 ; n N t 2S 2n t 2S 2n 2 2 2 nt S ; n t S ; N N t 2S 2 2 2 2 N t 2 S 2 t S ; n n 2 t 2S 2; N N 2 2 2 n 2 N t 2 S 2 t 2 S 2 N ; n t 2S 2 N . 2 N t 2 S 2 Формула величины n для доли: 1. при повторном отборе: 30 t ; 2. Wb 1 Wb ; n Wb 1 Wb n 2 t 2 n t t 2Wb 1 Wb 2 для бесповторного отбора t ; t Wb 1 Wb n 1 ; n N n Wb 1 Wb 1 N ; 2 t 2 n t 2Wb 1 Wb n n t Wb 1 Wb ; N t 2Wb 1 Wb n 2 2 n t Wb 1 Wb ; N 2 nN Wb 1 Wb nt 2 t 2 NWB 1 Wb ; 2 2 n 2 N Wb 1 Wb t 2 t 2 NWb 1 Wb n t 2 NWb 1 Wb 2 N t 2Wb 1 Wb Это формулы, позволяющие определить необходимый объем собственно случайной выборки по заданному уровню доверительной вероятности Р, предельной ошибки и исправленной оценки генеральной дисперсии. 31