1. Математическая статистика. Статистические оценки. Предметом математической статистики является систематизация данных с целью их практического использования. В качестве необходимого элемента математическая статистика включает методы построения вероятностных моделей. Статистическими оценками называют функции от наблюдаемых значений. Скалярные оценки называют точечными. К точечным оценкам предъявляется ряд общих требований, в числе которых – требование несмещенности: математическое ожидание оценки должно быть равно оцениваемой величине. 2. Методы описательной статистики Описательная (дескриптивная) статистика – совокупность методов обработки данных, не включающих построение параметрических моделей. Центральное положение в описательной статистике занимают методы обработки (первичного анализа) выборки (обычно – большого объема) значений одного признака. Генеральной совокупностью будем называть произвольное числовое множество X, а выборкой – любое его подмножество xi X . Элементы выборки называют вариантами, а их полное число n (с учетом повторений) называют объемом выборки. Частотой варианты xi называют число ni ее вхождений в выборку; относительной частотой называют частное от деления частоты на объем выборки. Если все частоты вариант равны единице, то выборку называют бесповторной. Последовательность вариант и соответствующих им частот, упорядоченная по возрастанию, называется дискретным вариационным рядом. После его построения для бесповторной выборки оценку медианы генеральной совокупности можно найти как значение, соответствующее «центру» ряда: n 2k 1 x n 1 / 2 , , kN . Me x x n/ 2 n / 2 1 , n 2 k 2 Оценкой математического ожидания является выборочное среднее – среднее арифметическое вариант: 1 n x xi . n i 1 Для характеристики «рассеяния» значений около «центра» используют оценки дисперсии, среднего квадратичного и среднего абсолютного отклонения. Несмещенная оценка дисперсии вычисляется по формуле: 1 n 2 s2 xi x . n 1 i 1 Замечание: если из каких-либо посторонних соображений для генеральной совокупности уже известно математическое ожидание 1 , то несмещенной оцен- 1 n xi 1 2 . n i1 Оценка стандартного отклонения связана с оценкой дисперсии: кой дисперсии будет величина s s2 ; эта оценка не является несмещенной, на практике ее используют по причине простоты отыскания. Если генеральная совокупность подчинена нормальному закону, то можно найти и несмещенную оценку стандартного отклонения; для выборки объема n 10 она отличается (в большую сторону) от s 2 на 3%, для выборки объема n 1000 отличие составляет менее 0,03%. Замечание. В теории случайных величин термины «стандартное отклонение» и «среднее квадратическое отклонение» равноправны. В статистике их могут наделять различным смыслом; например, термин «стандартное отклонение» используют для обозначения величины 1 n xi x 2 , s n 1 i 1 в то время как термином «среднее квадратическое отклонение» обозначают величину 1 n xi x 2 , s n i1 или наоборот. Неоднозначность можно уменьшить, добавляя всюду перед статистическими аналогами показателей распределений (генеральных совокупностей) слово «оценка». Далее термины «стандартное» и «среднее квадратическое» отклонение считаются равноправными. В записи формул оценка обозначается буквой s, а само стандартное отклонение – буквой . Стандартная ошибка оценки математического ожидания вычисляется как частное от деления стандартного отклонения на корень из объема выборки: s2 serr . n Безразмерный коэффициент вариации вычисляется как частное от деления оценок стандартного отклонения и математического ожидания: s2 . v x Характеристиками рассеяния также являются нижняя x1/4 и верхняя x3/4 квартили – вычисляемые по выборке (т.е. являющиеся оценками квантилей) процентные точки, для которых числа вариант, удовлетворяющих неравенствам xi x1 4 и xi x3 4 , составляют 25% и 75%, соответственно. Оценки моментов третьего и четвертого порядков и связанные с ними безразмерные оценки асимметрии и эксцесса без необходимости использовать не следует. Для выборки большого объема дискретный вариационный ряд теряет наглядность. Принято выполнять группировку данных, разбивая весь диапазон xmin min xi ; xmax maxxi изменения исследуемого признака (диапазон, включающий минимальное и максимальное значение вариант) на l подинтервалов – разрядов, число которых выбирают по правилу Стерджеса: l 1 3,3 lg n , где n – объем выборки. При этом длины разрядов обычно равны между со- бой: xmax xmin , j 1, l , x0 xmin , xl xmax , l а границы разрядов находятся в точках xk xmin kx , k 1, l 1. Частоты nj, соответствующие каждому разряду, находятся как суммы частот всех вариант, попавших в этот разряд; для бесповторной выборки частота равна числу попавших в разряд вариант. Относительной частотой разряда называют частное n j n от деления частоты разряда на объем выборки. Графическим представлением непрерывного вариационного ряда является гистограмма – ступенчатая фигура, состоящая из прямоугольников, основания которых построены на соответствующих разрядах, а высоты hj равны частным от деления относительных частот на длины разрядов: nj . hj nx Гистограмма позволяет сделать предварительное суждение о плотности распределении генеральной совокупности. По гистограмме обычно находят оценку моды. Для этого на гистограмме находят прямоугольник с наибольшей высотой и проводят из противоположных вершин его верхнего основания два отрезка к противоположным вершинам верхних оснований соседних прямоугольников. В качестве оценки моды принимается абсцисса точки пересечения отрезков. x x j x j 1 3. Важнейшие распределения математической статистики Термин «статистика» используют, помимо прочего, для обозначения закона, которому подчинена случайная величина, или же для обозначения скалярной функции от наблюдаемых значений (близко к понятию точечной оценки, которое является не столь общим). Распределением (статистикой) Пирсона, или 2 -распределением, называют распределение суммы квадратов k независимых случайных величин, каждая из которых распределена по стандартному нормальному закону. При этом число слагаемых k называют числом степеней свободы распределения. 0,5 k 2 0,4 0,3 f x 0,2 k 4 0,1 0 k 10 0 4 8 Рис. 3.1. Плотность x 12 16 20 2 -распределения Распределением Стьюдента с k степенями свободы называется распределеU ние частного , где числитель подчинен стандартному нормальному закону, kY а под корнем находится случайная величина, подчиненная распределению Пирсона с k степенями свободы. 0,4 k 100 0,3 k 3 f x 0,2 k 1 0,1 0 5 3 1 x 1 Рис. 3.2. Плотность распределения Стьюдента 3 5 Распределением Фишера, или F-распределением с m и n степенями свободы n Ym называется распределение частного , в котором Ym и Yn – случайные велиm Yn чины, подчиненные 2 -распределениям со степенями свободы m и n, соответственно. m3 n 100 0,6 f x 0,4 0,2 m 100 n3 0 0 mn3 1 2 x Рис. 3.3. Плотность F-распределения 3 4