Лекция 6 Тема Основные понятия математической статистики Содержание темы Задача математической статистики Научные предпосылки математической статистики Основные понятия математической статистики Основные характеристики выборок Основные категории I I I выборка, вариационный ряд, медиана, мода варианты, статистический ряд, частоты, частости, полигон выборочное среднее, среднее квадратическое отклонение, выборочная дисперсия, несмещенная оценка. Различные значения термина «статистика» Статистика – семейство дисциплин, изучающих объем накопленных данных в определенной отрасли и приемы их обработки (социальная статистика, финансовая статистика, экономическая статистика, статистика отраслей народного хозяйства, статистика преступлений и т.п.). Статистика – процесс сбора отчетной информации об определенном наборе показателей по определенному вопросу. Статистика, или статистическая информация – числовая и структурированная информация о некоторых объектах или процессах. Структурированность предполагает, что четко определен набор числовых признаков, значения которого собраны по множеству однородных объектов или процессов. Математическая статистика – наука об обоснованных способах обработки статистической информации. Обеспечивает отраслевые смежные дисциплины научным теоретическим фундаментом. Предпосылки МС – «предельные теоремы» Неточные, гипотетические утверждения: Первая идея – при большом количестве экспериментов средняя величина измеренного признака стремится к его математическому ожиданию. Вторая идея – при большом количестве экспериментов любой измеренный признак «в среднем» подчиняется нормальному закону (Гаусса). Напоминание. Плотность распределения нормально распределенной случайной величины – закон Гаусса N (µ, σ) – с математическим ожиданием µ и дисперсией σ 2 имеет вид f (x) = (x−µ)2 1 √ e− 2σ2 . σ 2π Определение. Стандартной нормальной случайной величиной называется случайная величина, распределенная по закону N (0, 1), то есть с плотностью распределения и характеристиками x2 1 f (x) = √ e− 2 , 2π M (X) = 0, D(X) = 1, σ(X) = 1. Первые предпосылки – теоремы Бернулли и Чебышева Теорема Бернулли. В схеме Бернулли с вероятностью успеха p относительная частота успеха в n испытаниях стремится «по вероятности» к p при неограниченном увеличении числа испытаний, то есть для любого сколь угодно малого положительного числа ε и количества успехов k lim P {| n→∞ k − p| 6 ε} = 1. n Теорема Чебышева. Пусть X1 , X2 , . . . , Xn , . . . – одинаково распределенные независимые случайные величины с математическим ожиданием a. Пусть Yn обозначает среднее арифметическое первых n величин X1 + . . . + Xn Yn = . n Тогда для любого сколь угодно малого положительного числа ε lim P {|Yn − a| > ε} = 0. n→∞ Это – одна из формулировок Закона Больших Чисел. Дальнейшие предпосылки – «предельные теоремы» Теорема Муавра–Лапласа. Рассмотрим схему Бернулли с фиксированной вероятностью успеха p. Пусть X – биномиальная случайная величина – количество успехов в n испытаниях, а через q = 1 − p обозначена вероятность неудачи. Если количество испытаний n стремится к ∞, то случайная величина X − np Z= √ npq стремится к стандартному нормальному закону N (0, 1). Центральная предельная теорема (Ляпунов и последователи). Пусть X1 , . . . , Xn , . . . – произвольные случайные величины, одинаково распределенные и M (Xi ) = a, σ(Xi ) = σ. Тогда закон распределения «средней и нормализованной» величины Yn = X1 +...+Xn n √ σ/ n −a . стремится к нормальному закону N (0, 1) при n → ∞. Пример Задача для страховой компании В определенном регионе средняя продолжительность жизни составляет 60 лет, среднеквадратичное отклонение – 15 лет. Какова вероятность того, что средняя продолжительность жизни 100 случайно выбранных жителей будет от 60 до 63 лет? Набросок решения X – СВ, выражающая продолжительность жизни. Тогда по исходным данным: a = M (X) = 60, σ = σ(X) = 15. Выбрали n = 100 человек и вычислили среднее Z= 1 (X1 + X2 + ... + X100 ). 100 По ЦПТ эту величину можно считать нормально распределенной с математическим √ ожиданием a = 60 и среднеквадратическим отклонением σ/ n = 1.5. Вероятность того, что 60 6 Z 6 63 теперь можно найти по правилу трех сигм. Начала математической статистики Предположение. Выбран и измеряется в последовательности экспериментов некоторый числовой признак (случайная величина) X. Определение. Генеральная совокупность – все возможные значения признака в результате всех возможных мыслимых экспериментов. Как правило, генеральная совокупность нам недоступна, а если и может быть указана, то только теоретически. Определение. Выборка – полная последовательность значений признака, полученная в результате всех экспериментов. Объем выборки – количество полученных значений признака (в том числе и повторяющихся) в результате всех экспериментов (фактически – количество экспериментов). Важное понятие – репрезентативность выборки Определение. Выборка называется репрезентативной (представительной), если она составлена так, что является достаточной для надежных выводов о всей генеральной совокупности. Почти невозможно доказать репрезентативность выборки, однако, часто можно обосновать обратное – то есть указать некоторые свойства, при невыполнении которых выборка заведомо не будет репрезентативной (например, при социологическом опросе перед выборами нельзя ограничиваться только пенсионерами или только людьми, имеющими мобильные телефоны). Вариационный ряд Определение. Вариационным рядом называются значения признака выборки, расположенные в порядке возрастания: x1 6 x2 6 . . . 6 xn . Определение. Медианой Me вариационного ряда называется значение, расположенное в его середине (если n – нечетное, то в точности в середине, если n – четное, то либо два соседних в середине, либо их полусумма). Определение. Модой Mo вариационного ряда называется значение, которое встречается в нем чаще всего. Если таких значений несколько, то ряд называется полимодальным. Определение. Вариационным размахом R вариационного ряда называется разность между наибольшим и наименьшим значениями признака в ряде. Статистический ряд Пусть дана выборка. Рассмотрим только различные значения признака в выборке и обозначим их в порядке возрастания через x1 , . . . , xk . Они называются вариантами. Варианта может встречаться несколько раз. Количество появлений значения xi в вариационном ряде называется частотой этого значения и обозначается ni . Сумма всех частот равна объему выборки: n1 + . . . + nk = n. Определение. Статистическим рядом называется ранжированный (то есть упорядоченный по возрастанию) набор различных значений признака в выборке (вариант), вместе с их весами (частотами). Таким образом, статистический ряд – это таблица, аналогичная ряду распределения дискретной случайной величины: xi ni x1 n1 ... ... xk nk Частости Определение. Отношение частот значений статистического ряда к объему выборки называются частостями или относительными частотами и обозначаются через wi : wi = ni , n i = 1, 2, . . . , k. Статистический ряд удобно представлять и в виде таблицы частостей: xi wi x1 w1 ... ... xk wk Упражнения. 1) Чему равна сумма частостей? 2) Как статистическому ряду сразу указать моду вариационного ряда? по Полигон частот или частостей Определение. Полигоном частот статистического ряда называется ломаная, составленная по точкам (xi , ni ), то есть по оси абсцисс откладываются значения признака x1 , . . . , xk , а по оси ординат – их частоты n1 , . . . , nk . Если вместо частот по оси ординат откладываются частости, то ломаная называется полигоном частостей. Пример. Полигон частостей. Статистический ряд задан таблицей: xi wi −1 0.2 0 0.1 2 0.4 3 0.1 5 0.2 Эмпирическая функция распределения Определение. Пусть дана выборка объема n. Для любого числа x вычислим k(x) – количество элементов в выборке со значением меньшим, чем x. Эмпирическая функция распределения определяется по формуле: F (x) = k(x) . n Важно! График эмпирической функции распределения имеет ступенчатый вид. Упражнение. Построить график эмпирической распределения по статистическому ряду: xi ni −1 20 0 10 2 40 3 10 5 20 функции Выборочные характеристики Определение. Пусть дана выборка объема n. Если x1 6 . . . 6 xn – вариационный ряд, то величина n x= 1X xi n i=1 называется средней арифметической (вариационного ряда) или выборочным средним. Упражнение. Найти статистический ряд: xi ni выборочное −1 20 0 10 2 40 среднее, 3 10 если задан 5 20 Следствие. Для статистического ряда (x1 , n1 ), . . . , (xk , nk ) выборочное среднее вычисляется по формуле Pk k X ni xi x = Pi=1 = wi xi . k i=1 ni i=1 Выборочные характеристики (продолжение) Определение. Выборочная определяется по формуле 2 s = Pk i=1 дисперсия k статистического X ni (xi − x)2 = wi (xi − x)2 = n i=1 k X ряда ! wi x2i − x2 . i=1 Определение. Среднее квадратическое отклонение статистического ряда определяется как корень квадратный из выборочной дисперсии: √ s = s2 . Определение. Несмещенная оценка выборочной статистического ряда определяется по формуле s2H n 2 = s = n−1 Pk i=1 ni (xi − x)2 . n−1 дисперсии Контрольные вопросы 1. Различные понимания термина «статистика» 2. Теоремы Бернулли и Чебышева 3. Теорема Муавра–Лапласа и ЦПТ (Ляпунова) 4. Понятия генеральной вариационный ряд совокупности и выборки, 5. Медиана, мода, вариационный размах 6. Варианты, статистический ряд, частоты, частости, полигон 7. Эмпирическая функция распределения, пример графика 8. Выборочное среднее. Формулы для вариационного и статистического рядов 9. Среднее квадратическое отклонение, дисперсия, несмещенная оценка выборочная