Лекция 6 Тема: Интервальный статистический ряд 1. Основные определения В случае, когда число значений признака Х велико или признак является непрерывным, составляют интервальный ряд. Опр. Интервальный статистический ряд содержит в качестве значений интервалы (могут быть равными или неравными) и частоты значений, попадающих в этот интервал. Размер равных интервалов называется шагом; обозначается - hi. 1 Пример 1. Данные по среднемесячному доходу (в руб.) на человека в выборке из 100 человек: Хi, <1000 [1000, [2000, [3000, [4000, >5000 2000) 3000) 4000) 5000) доход mi, колво 10 15 20 25 18 12 2 Замечания 1. Число интервалов следует брать не очень большим, чтобы после группировки ряд не был громоздким, и не очень малым, чтобы не потерять особенности распределения признака. 2. Формулой Стерджеса задается рекомендуемое число интервалов xmax − xmin R m=1+3.322· lg n и шаг h = = . 1 + 3.322 ⋅ lg n m Начало первого интервала: x1 = xmin − h / 2. 3 Пример 2. Рост студентов на потоке от 158 см до 198 (всего n=100 чел.). Найдем по формулам число интервалов и шаг: R=198-158=40 m=1+3.322lg100=1+3.322*2=7.644 h=40/7.644=5.23 Выберем h=6 и x1=158-6/2=158-3=155. 4 2. Характеристики интервального ряда Опр. Выборочное среднее: k x= ∑x i i =1 n * mi k = ∑ xi ωi . * i =1 Опр. Выборочная дисперсия: k s = 2 * 2 ( x − x ) mi ∑ i i =1 n k = ∑ ( xi − x) ωi . * 2 i =1 В формулах хi* – середина интервала i. 5 Задача. Найти выборочное среднее. Решение. n=70 Середина Хi, 500 2500 3500 0-1000 1000-2000 2000-3000 3000-4000 mi, 10 k x= 1500 ∑x i =1 i * mi 15 = 20 25 n 500 ⋅ 10 + 1500 ⋅ 15 + 2500 ⋅ 20 + 3500 ⋅ 25 = ≈ 2357. 70 6 Опр. Гистограммой частот (частостей) называется ступенчатая фигура, состоящая из прямоугольников с основаниями, равными интервалам значений hi, и высотами, равными отношению частот (или частостей) к шагу mi ωi mi = . hi hi n ⋅ hi Площадь гистограммы частот равна объему выборки, а площадь гистограммы частостей равна 1. 7 Час то та / инте рвал mi hi Гис то грамма час то т 0.025 0.020 0.018 0.015 0.010 0.006 [0;1000) [1000;2000) [2000;3000) [3000;4000) [4000;5000) [5000;7000] Инте рвалы 8 Тема: Элементы теории оценок 1. Основные определения Виды статистических наблюдений: • сплошное, когда изучаются все объекты генеральной совокупности (перепись населения); • выборочное, когда изучается часть объектов (соц. исследования). Основные характеристики: • генеральная и выборочная средняя; • генеральная и выборочная дисперсия; • генеральная и выборочная доля (отношение числа элементов с признаком к числу всех элементов).9 Способы образования выборок: повторный отбор (каждый элемент после изучения возвращается обратно и может быть выбран повторно); бесповторный отбор (отобранный элемент в общую совокупность не возвращается). Задача выборочного метода: оценка параметров (характеристик) генеральной совокупности по данным выборки. 10 Понятие оценки параметров Пусть изучается СВ Х c законом распределения, зависящим от одного или нескольких параметров (например, для нормального закона). Требуется по выборке Х1, Х2, …, Хn, оценить неизвестный параметр θ. Опр. Оценкой θn параметра θ называют всякую функцию результатов наблюдений над СВ Х, с помощью которой судят о значении параметра θ: n ( X , X ,..., X ). θn = θ 1 2 n Функцию результатов наблюдений (т.е. функцию выборки) называют статистикой. 11 Т.к. Х1, Х2, …, Хn – случайные величины, то и оценка является случайной величиной. Если произвести другую выборку, то и функция примет, вообще говоря, другое значение. К оценке любого параметра предъявляется ряд требований, которым она должна удовлетворять, чтобы быть «близкой» к истинному значению параметра, т.е. быть в каком-то смысле «наилучшей» оценкой. 12 2. Свойства оценок 1) несмещенность: Опр. Оценка θ n параметра θ называется несмещенной, если ее математическое ожидание равно оцениваемому параметру: M ( θ n ) = θ . В противном случае оценка называется смещенной. Опр. Оценка θn параметра θ называется асимптотически несмещенной, если: M ( θ n ) → θ . n→ ∞ 13 Замечания. 1. Если требование равенства математического ожидания оценки самому параметру не выполняется, то оценка, полученная по разным выборкам, будет в среднем либо завышать значение θ, либо занижать его. 2. Требование несмещенности гарантирует отсутствие систематических ошибок при оценивании. 14 2)состоятельность: Опр. Оценка θ n параметра θ называется состоятельной, если она удовлетворяет ЗБЧ, т.е. сходится по вероятности к оцениваемому параметру: P θ n → θ n→ ∞ lim P { | θ n − θ |< ε } = 1 . n→ ∞ 15 Замечания. 1.Состоятельность оценки означает, что с увеличением объема выборки мы все ближе к истинному значению параметра. 2.Если оценка параметра является несмещенной и ее дисперсия →0 при n→∞, то эта оценка является и состоятельной. 3. Свойство состоятельности обязательно для любого правила оценивания (несостоятельные оценки не используются). 16 3) эффективность: Опр. Оценка θ n параметра θ называется эффективной, если она имеет наименьшую дисперсию среди всех возможных несмещенных оценок параметра θ, вычисленных по выборкам одного и того же объема n. Пример. Выборочная средняя является несмещенной, эффективной и состоятельной оценкой генеральной средней. 17 Несмещенные оценки 1)для выборочной средней: xΗ = x ; 2)для выборочной дисперсии: k n 2 s = s = n −1 2 Η ∑ (x i =1 i − x ) ni n −1 2 . 18