Лекция 5 Элементы математической статистики Статистика – процесс сбора и первичной обработки числовой структурированной информации о некоторых объектах или процессах. Также: Статистика или статистическая информация – числовая и структурированная информация о некоторых объектах или процессах. 1 Математическая статистика – наука о том, как на основе статистической информации сделать определенные выводы о свойственных ей закономерностях, выраженных в числовой форме, а также применение этой науки на практике (то есть сам процесс построения научно обоснованных заключений). 2 Предмет математической статистики МС и ТВ тесно связаны, обе дисциплины изучают массовые случайные явления. При этом • ТВ выводит из математической модели свойства реального процесса, • МС устанавливает свойства математической модели, исходя из наблюдаемых данных (из статистических данных). Предмет МС – изучение СВ (или сл. событий, процессов) по результатам наблюдений. 1 задача: Полученные данные сначала надо обработать, представить в удобном для анализа виде (оценки студентов в сессию – расположить по сумме баллов, по академическим группам и т.п.) 2 задача: Оценить интересующие нас характеристики наблюдаемой величины (вычислить частоты набранных баллов, средний балл, кол-во отличников и т.д.), сформулировать статистические гипотезы. 3 задача: Проверить статистические гипотезы, т.е. согласование 3 результатов оценивания с опытными данными. Практическое использование Обработка статистических данных производится при помощи специальных пакетов прикладных программ (SPSS, STADIA, STATISTICA и др.). Небольшие задачи можно решить в программах обработки электронных таблиц (Excel). Результаты исследования статистических данных методами МС используются для принятия решения (в задачах планирования, управления, прогнозирования и организации производства, при контроле качества, в юридической практике, в социальном управлении и т.д.), т.е. для научных и практических выводов. Таким образом: МС – это теория и методология принятия управленческих решений в условиях массовой случайности, неопределенности. 4 Генеральная совокупность В конкретной задаче МС всегда имеется некоторая мыслимая совокупность изучаемых объектов, обладающих выбранным для изучения признаком, который можно измерить (числовой признак, числовая характеристика) и который носит случайный характер. Изучаемое множество объектов может быть и одним и тем же объектом, но фигурирующим в процессе последовательности экспериментов. Опр. Все изучаемое множество объектов с некоторым случайным признаком называется генеральной совокупностью. Примеры: 1. Множество предприятий данной отрасли с целью изучения рентабельности. 2. Множество избирателей (перед выборами) с целью изучения рейтинга кандидатов. 3. Множество студентов перед тестированием с целью изучения уровня знаний. Вся генеральная совокупность недоступна для изучения в целом, а иногда является лишь мыслимым множеством Пример – азартные игры. 5 Генеральная совокупность математически С точки зрения дальнейших математических исследований и приложений Генеральная совокупность – это: исследуемая случайная величина X(ω), заданная на пространстве элементарных событий Ω, в котором определена вероятность событий P(ω). 6 Выборочная совокупность (выборка) Опр. Выборка – доступная, случайным образом отобранная часть элементов генеральной совокупности, по которой изучаются свойства всей совокупности. Опр. Выборка называется репрезентативной (представительной), если она составлена так, что является достаточной для надежных выводов о всей генеральной совокупности. Опр. Объемом выборки называется количество выбранных из всей генеральной совокупности элементов. Объем выборки обычно обозначается через n. Говорят, что “имеется выборка объема n”. 7 Результат выборки (реализация) Результат выборки – полученная совокупность значений признака. Пример 1. Время опоздания студентов на лекцию согласно журналу (по алфавиту): Иванов – 5 мин; Петрова – 2 мин; Сидоров – 1 мин; Чернов 2 мин. Результат выборки из 4 элементов (объема 4): 5; 2; 1; 2. Вариационный ряд – результат выборки, расположенный в порядке возрастания значений (а не в порядке их получения). В примере 1 вариационный ряд - 1; 2; 2; 5. 8 Варианты и статистический ряд Опр. Различные значения, полученные в вариационном ряде, называются вариантами. В примере 1 варианты - 1; 2; 5 (минут опоздания). Варианты обозначаются x1,…,xk Опр. Числа n1,…,nk , показывающие, сколько раз встречаются варианты в выборке, называются частотами. Опр. Частость (или относительная частота) варианта – это частота варианта, деленная на объем выборки. Частости обозначаются, например, pi* или wi. Сумма всех частостей всегда равна единице! Опр. Статистический ряд (статистическое распределение выборки) – перечень вариантов и соответствующих им частот или частостей. 9 В примере 1 статистический ряд xi (минут) 1 2 5 ni (раз) 1 2 1 xi (минут) 1 2 5 wi 1 4 1 2 1 4 или 10 Полигон статистического ряда Рассмотрим выборку с вариантами x1,…,xk и частотами n1,…,nk (объем выборки n = n1+…+ nk) Опр. Полигон частот статистического ряда – это ломаная, построенная по точкам с координатами (xi,ni). Вычислим частости nk n1 w1 = ,..., wk = n n Опр. Полигон частостей статистического ряда – это ломаная, построенная по точкам с координатами (xi,wi). 11 В примере 1 полигоны Полигон частот xi (минут) 1 2 5 ni (раз) 1 2 1 n 2 1 x 0 0 1 2 3 4 5 12 В примере 1 полигоны Полигон частостей xi (минут) 1 2 5 1 4 1 2 1 4 wi w 1/22 1/41 x 0 0 1 2 3 4 5 13 Эмпирическая функция распределения Опр. Пусть дана выборка объема n. Для любого числа x вычислим kx – количество элементов в выборке со значением меньшим, чем x. Эмпирическая функция распределения определяется по формуле: kx F ( x) = n График эмпирической функции распределения имеет ступенчатый вид! 14 В примере 1 эмпирическая функция распределения x ≤1 ≤2 ≤5 >5 xi (минут) 1 2 5 kx 0 1 3 4 1 2 1 F(x) 0 1/4 3/4 1 ni (раз) Статистический ряд 15 Некоторые характеристики вариационного (статистического) ряда Опр. Мода Mo вариационного ряда – это значение (вариант), у которого наибольшая частота. Опр. Медиана Me вариационного ряда – это значение (вариант), которое приходится на середину вариационного ряда. Для дискретного вариационного ряда с нечетным числом членов медиана равна серединному варианту, а для ряда с четным числом – полусумме двух серединных элементов. Опр. Вариационный размах R вариационного ряда – это разность между наибольшим и наименьшим значением (вариантом) ряда. В примере 1? (мода и размах , медиана) 16 Средняя арифметическая Рассмотрим выборку с вариантами частотами n1,…,nk и частостями x1,…,xk , (объем выборки n = n1+…+ nk) nk n1 w1 = ,..., wk = n n Средняя арифметическая выборки, вариационного или статистического ряда вычисляется по формуле k k xi ni = ∑ xi wi x=∑ i =1 n i =1 17 Средняя арифметическая (продолжение) Если рассматривается вариационный (несгруппированный) ряд со значениями x1≤ x2 ≤ … ≤ xn, то используется формула n xi x=∑ i =1 n Результат один и тот же (почему?), но эта формула называется «невзвешенная» средняя арифметическая вариационного ряда. 18 Другие статистические характеристики Опр. Выборочная дисперсия статистического ряда: k s = 2 ∑ ( x − x) n i =1 2 i i n k = ∑ ( xi − x) wi 2 i =1 Опр. Среднее квадратическое отклонение статистического ряда: s= s 2 19 Выборочные оценки характеристик генеральной совокупности Опр. Несмещенная оценка дисперсии: k s = 2 ∑ ( x − x) n i =1 2 i i n −1 Опр. Несмещенная оценка арифметической (математического равна самой средней. средней ожидания) 20