ФЕДЕРАЛЬНОЕ АГЕНТСТВО ЖЕЛЕЗНОДОРОЖНОГО ТРАНСПОРТА ИРКУТСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУТЕЙ СООБЩЕНИЯ Г. Д. Гефан ОСНОВЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ Учебное пособие по дисциплине «Математика» для студентов очной формы обучения всех специальностей ИРКУТСК 2011 УДК 519.2 ББК 22.172 Г 45 Рецензенты: О.М. Раджабова, кандидат физико-математических наук, доцент кафедры математики ИрГТУ; Л.А. Астраханцев, доктор технических наук, профессор кафедры «Электроподвижной состав» ИрГУПС; О.Д. Толстых, кандидат физико-математических наук, доцент кафедры «Высшая математика» ИрГУПС Г45 Гефан Г.Д. Основы математической статистики : учебное пособие. – Иркутск : ИрГУПС, 2011. – 72 с. Учебное пособие представляет собой руководство к изучению математической статистики в объёме, достаточном для ряда технических и экономических специальностей вузов. Пособие содержит курс лекций, типовые задания для практических занятий и самостоятельной работы студентов, а также руководство к выполнению этих заданий на компьютере (с использованием офисной программы Excel). Для студентов, аспирантов, преподавателей и специалистов, сталкивающихся с проблемой обработки и анализа статистической информации. Библиогр.: 12. УДК 519.2 ББК 2.172 © Гефан Г.Д., 2011 © Иркутский государственный университет путей сообщения, 2011 2 Предисловие Лекция 1 Тема 1: 1.1. 1.2. 1.3. 1.4. 1.5. Тема 2: 2.1. 2.2. 2.3. Лекция 2 Тема 3: 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. Лекции 3, 4 Тема 4: 4.1. 4.2. ОГЛАВЛЕНИЕ ……………………………………………………………. …………………………………………………………….. Статистическое распределение………………………… Статистический метод…………………………………... Начальные понятия……………………………………… Точность статистической информации……………… Статистическое распределение количественного признака. Полигон и гистограмма………………………….. Накопленные частоты. Эмпирическая функция распределения……………………………………………… Точечные оценки генеральных характеристик………. Выборочная и генеральная средние……………………. Понятие оценки. Несмещённость и состоятельность оценок……………………………………………………. Характеристики вариации количественного признака: дисперсия и среднеквадратическое отклонение………. …………………………………………………………….. Метод доверительных интервалов……………………... Понятие интервальной оценки. Точность и надёжность оценки, доверительный интервал……………… Интервальная оценка генеральной средней (математического ожидания) нормального распределения при известном генеральном среднеквадратическом отклонении……………………………………………… Минимальный объём выборки, обеспечивающий заданную точность и надёжность интервальной оценки генеральной средней…………………………………….. Интервальная оценка генеральной средней нормального распределения при неизвестном генеральном среднеквадратическом отклонении (малая выборка)… Интервальная оценка среднеквадратического отклонения нормального распределения …………………… Интервальная оценка генеральной доли альтернативного признака…………………………………………… ……………………………………………………………. Метод статистических гипотез. Гипотезы о генеральных средних……………………………………………… Понятие статистической гипотезы. Принципы проверки гипотез……………………………………………… Гипотеза о генеральной средней нормального распределения при известном генеральном среднеквадратическом отклонении……………………………………… 3 5 6 6 6 6 8 9 11 12 12 13 14 15 15 15 16 18 18 20 20 22 22 22 24 4.3. Гипотеза о равенстве двух генеральных средних…….. Тема 5: Гипотеза о типе распределения………………………… 5.1. Построение предполагаемого распределения по данным наблюдений………………………………………… 5.3. Гипотеза о типе распределения………………………… Типовые задания к лекциям 1–4………………………………………… Лекция 5 ……………………………………………………………. Тема 6: Корреляционно-регрессионный анализ………………... 6.1. Понятие корреляции. Выборочный коэффициент линейной корреляции……………………………………… 6.2. Проверка гипотезы о значимости коэффициента корреляции………………………………………………… 6.3. Понятие регрессии и регрессионного анализа. Метод наименьших квадратов…………………………………. 6.4. Выборочное уравнение линейной регрессии и его связь с коэффициентом корреляции…………………… Типовое задание к лекции 5……………………………. Руководство по решению типовых заданий на компьютере………… Приложение 1. Таблица значений функции Гаусса (z ) …………… Приложение 2. Таблица значений функции Лапласа (x) …………… Приложение 3. Коэффициенты Стьюдента t ( , n) ……………………. Приложение 4. Таблица значений q( , n) ……………………………… Приложение 5. Критические точки распределения 2 ………………. Приложение 6. Критические точки распределения Стьюдента……… Словарь терминов ……………………………………………………… Библиографический список ……………………………………………. 4 27 29 29 36 39 42 42 42 44 45 46 48 50 59 60 61 62 63 64 65 70 Предисловие Согласно современным определениям, математическая статистика – это наука, разрабатывающая математические методы систематизации и использования статистических данных для научных и практических выводов. Во всех своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надёжность и точность выводов, делаемых на основании ограниченного статистического материала. Многие положения статистической теории были разработаны как бы «по заказу» естествознания, техники, а также социальных наук. Так метод наименьших квадратов, предложенный Гауссом и Лежандром, родился как метод решения геодезической задачи и использовался в астрономических исследованиях. Теория корреляции и регрессионный анализ возникли благодаря английскому антропологу Гальтону, изучавшему зависимость роста сыновей от роста их отцов (биометрия). Дисперсионный анализ был предложен английским статистиком Фишером для решения сугубо прагматической задачи – обработки результатов агрономических опытов по выявлению условий, в которых испытываемый сорт сельскохозяйственной культуры даёт максимальный урожай. Наконец, в XX веке статистическая теория получила дальнейшее развитие в связи с необходимостью математического описания сложных явлений рыночной экономики, что привело к возникновению эконометрики. Эти примеры показывают ярко выраженный прикладной характер математической статистики. Необходимо учитывать, что для инженеров, экономистов, естествоиспытателей, социологов знание математики и статистики не является самоцелью. Этим соображением и объясняется желание автора изложить статистическую теорию, следуя логике практических проблем, возникающих при обработке и анализе цифровых данных. В пособии следует различать задачи, постановка которых предшествует (и способствует) получению теоретических выводов, и примеры, играющие роль иллюстраций применения различных методов, подходов, формул. В настоящее время огромную роль в математической статистике играют компьютеры. Они используются как для расчётов, так и для имитационного моделирования (генерация случайных выборок и оценивание по ним статистических характеристик). Для целей преподавания представляется оптимальным использование офисной программы электронных таблиц Microsoft Excel, которая имеет целый ряд встроенных математических и статистических функций. Работа в Microsoft Excel позволяет, не тратя времени на однообразные вычисления, глубже понять суть статистической теории. О решении несложных статистических задач на компьютере рассказывается в разделе «Руководство по решению типовых заданий на компьютере», которое адресовано начинающим пользователям Excel. 5 Лекция 1 Тема 1: СТАТИСТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ 1.1. Статистический метод Для того чтобы создать представление о так называемом статистическом методе, начнём со следующего примера. В газетах часто публикуются календари, предписывающие высаживать семена огородных культур в определённые числа, соответствующие тем или иным фазам лунного цикла. Как реагировать на подобные рекомендации? Перед нами выбор из двух возможных способов поведения. 1. Основываясь на объективных законах физики, химии, биологии и других фундаментальных наук, попытаться доказать (или опровергнуть) гипотезы о том, что фазы Луны оказывают определённое воздействие, скажем, на развитие семени, на движение соков и т. д. 2. Провести эксперимент, в ходе которого осуществить посадки семян в разные дни лунного цикла, а осенью замерить соответствующий урожай. Под цифрой 1 сформулирован подход, который можно было бы назвать фундаментальным или теоретическим. Сам по себе он не плох. Весь вопрос в том, хватит ли для него нашей научной квалификации, наших знаний о мире. Под вторым номером значится метод, который следует назвать статистическим. ● Статистический метод не занимается глубоким индивидуальным изучением объектов. Его сутью является систематизация, обработка, анализ и использование так называемых статистических данных. Последние представляют собой информацию о том, сколько объектов изучаемой совокупности обладают определёнными (качественными или количественными) признаками. Сами объекты при этом «обезличиваются». Целью статистических исследований являются научные и практические выводы об изучаемых явлениях и процессах. Практические приёмы статистических исследований достаточно сильно зависят от изучаемых явлений или объектов. Тем не менее, специфика любых областей применения статистического метода, будь то экономика, естествознание или техника, не в силах повлиять на теоретическую основу статистики – её формально-математическую сторону, которая и составляет предмет математической статистики. 1.2. Начальные понятия Изучение совокупности однородных объектов относительно некоторого качественного или количественного признака начинается со сбора статистических данных. В зависимости от степени охвата объектов обследование совокупности (наблюдение) может быть сплошным или выборочным. При сплошном наблюдении производится регистрация значения признака для каждого объекта генеральной (т. е. полной) совокупности. При выборочном обследовании из генеральной совокупности выделяется выбо6 рочная совокупность (выборка). Объёмом выборки называется число её объектов. Выборочный метод применяется тогда, когда проведение сплошного обследования нецелесообразно или вообще невозможно. Например, требуется выяснить предел прочности на сжатие большой партии кирпича. В процессе такой проверки при определённой нагрузке изделие разрушается. Ясно, что обследование всей партии путём её уничтожения – нелепость. В данном случае, с точки зрения экономической целесообразности, выборочная совокупность должна быть лишь очень незначительной частью генеральной совокупности. При определении средней засорённости зерна оно не уничтожается, но и здесь сплошное обследование нецелесообразно, так как гораздо проще и дешевле будет просмотреть некоторое небольшое количество продукта. Для изучения статистической зависимости между диаметром ствола сосны и её высотой выборочный метод является единственно возможным. Ниоткуда, однако, не следует, что любая выборка достаточно точно представляет характеристики генеральной совокупности. Например, поддон кирпича, взятый для проверки, по какой-то причине содержит сплошной брак, что совершенно нехарактерно для всей партии. Горсточка зерна слишком мала, чтобы по ней судить о концентрации примеси сорняков. Свойство выборки представлять характеристики генеральной совокупности называется репрезентативностью (по-русски – представительностью). Для того чтобы выборка была репрезентативной, желательно обеспечить случайность отбора объектов. Это означает, что включение каждого объекта генеральной совокупности в выборку должно быть равновероятным. Пусть, например, требуется получить определённые характеристики совокупности семей, проживающих в многоквартирном доме (среднее число человек в семье, средний доход на одного члена семьи и т. п.). В доме 16 подъездов и 16 этажей, на каждой лестничной площадке по 4 квартиры. Дом слишком велик, чтобы проводить сплошное наблюдение. Решено провести выборочное наблюдение, причём объём выборки должен составить одну четверть от объёма генеральной совокупности. Обсудим следующие способы формирования выборочной совокупности: (1) включить в выборку только первые четыре этажа; (2) включить в выборку только первые четыре подъезда; (3) включить в выборку каждую четвёртую квартиру на каждой лестничной площадке. К сожалению, все три перечисленных подхода могут дать нерепрезентативную выборку. Действительно, первый и второй подходы вряд ли пригодны, поскольку нам ничего не известно о характере заселения данного дома: возможно, первые четыре этажа или первые четыре подъезда заселены какой-то особой категорией жильцов. Относительно третьего подхода: если включить в выборку только квартиры, расположенные, скажем, справа на каждой лестничной площадке, то выборка будет состоять из одинаковых (допустим, трёхкомнатных) квартир и наверняка будет нерепрезентативной. Ещё раз повторим: лучшим способом получить репрезентативную выборку является случайный характер отбора. Проще говоря, это жребий или (что, конечно, современнее) использование генератора случайных чисел. (Генератором случайных чисел называется специальная программа, генерирующая числа как значения случайной величины с заданным законом распределения). 7 Другим требованием является достаточно большой объём выборки – настолько большой, чтобы обеспечить нужную точность. Например, с целью прогнозирования результатов предстоящих выборов опрашивается примерно 2000 человек, живущих в разных городах и населённых пунктах. При таком объёме выборки статистическая погрешность составляет 2 процентных пункта (о способах оценивания статистической погрешности речь пойдёт ниже, в частности, в теме 3). 1.3. Точность статистической информации Ошибки (погрешности) статистического исследования, т. е. отклонения зарегистрированных или вычисленных показателей от истинных величин – это ключевой вопрос статистики. Чтобы работа по сбору данных не оказалась обесцененной, мы должны представлять себе степень достоверности и точности информации. Классификация ошибок статистического исследования может быть представлена в виде следующей схемы: Ошибки регистрации Случайные Ошибки репрезентативности Систематические Случайные Преднамеренные Непреднамеренные Систематические Ошибки регистрации могут возникать как при сплошном, так и при выборочном наблюдении. Например, неправильно зафиксирован вес товара. Если это произошло в результате грубого округления или неразборчивой записи показателя, то имеет место случайная ошибка. Главное свойство случайных ошибок заключается в том, что при большом числе обследуемых объектов они (ошибки) компенсируют, иначе говоря, гасят друг друга. В нашем примере так происходит потому, что завышение и занижение веса из-за неаккуратности работника равновозможно. Иное дело – систематические ошибки (вес товара стабильно завышается или занижается; виной тому могут быть плохие весы, а может и обвес или приписки). При социологическом опросе преднамеренные ошибки могут быть следствием неискренности опрашиваемых. Ошибки регистрации, как мы видим, в основном имеют субъективный характер и потому не имеют отношения к математической стороне статистики. Ошибки репрезентативности свойственны только выборочному методу обследования. Неслучайный характер отбора – причина систематической ошибки репрезентативности. Случайные ошибки репрезентативности – следствие ограниченного объёма выборки. Не исключено, что 8 результат, полученный по выборке, совпадёт с истинным значением, но это будет случайной удачей. В общем же случае объективные статистические ошибки неизбежны. Теоретическая оценка этих ошибок – важнейшая проблема статистики, решение которой основывается на принципах теории вероятностей. 1.4. Статистическое распределение количественного признака. Полигон и гистограмма ▼ Наблюдаемые значения количественного признака (синоним понятия «случайная величина») X , которые в дальнейшем обозначаются символом xi , называются вариантами. Последовательность вариантов, записанная в возрастающем порядке, называется вариационным рядом. ▼ Число появлений ni варианта x i в выборке называется выборочной частотой этого варианта; ni n , где n объём выборки. i ▼ Статистическим распределением выборки называется перечень вариантов и их частот (или относительных частот wi ni / n , где wi 1). i Как известно из теории вероятностей, случайные величины (количественные признаки) могут относиться к дискретному или непрерывному типу. Если признак дискретный, то в качестве графика распределения строится полигон частот или полигон относительных частот – ломаная линия, соединяющая точки ( x i , ni ) или ( x i , wi ) . Пример 1. Статистическое распределение числа баллов, набранных на трёх вступительных экзаменах, представлено графиком и таблицей. число студентов 60 40 20 0 9 10 11 12 13 14 15 число баллов xi (сумма баллов) 9 10 11 12 13 14 15 Объём совокупности n ni ni (число студен- 11 32 55 50 29 12 11 200 ■ тов) 9 ● Полигон частот является статистическим аналогом многоугольника распределения дискретной случайной величины. При большом числе вариантов или непрерывном характере признака вместо отдельных значений используются интервалы, для каждого из которых определяется частота попадания значений признака. Графическим изображением статистического распределения в случае интервального ряда является гистограмма частот – ступенчатая фигура, каждый прямоугольник которой имеет в качестве основания частичный интервал, а в качестве высоты – соответствующую плотность частоты ni / h , где h – длина интервала. Площадь отдельных столбиков численно равна соответствующим частотам, а площадь всей гистограммы равна объn ёму совокупности S i h n . h Иногда строится гистограмма относительных частот. В этом случае по оси ординат откладываются значения wi / h . Площадь такой гистограммы будет равна единице (аналогия: условие нормировки вероятности непрерывной случайной величины). Пример 2. Среднедушевой доход в 100 семьях составляет от 20 до 260 долларов. Если ввести 8 интервалов равной длины, то длина интервала составит h (260 20) / 8 30 . Статистическое распределение выборки может быть представлено в виде таблицы или в виде графика: Интервал, i Начало интервала, xi 1 2 Конец интервала, xi 1 2 Середина интервала, x i Частота, ni Относительная частота, wi ni / n 1 2 3 4 5 6 7 8 20 50 80 110 140 170 200 230 50 80 110 140 170 200 230 260 35 65 95 125 155 185 215 245 6 7 23 20 18 14 5 7 0.06 0.07 0.23 0.20 0.18 0.14 0.05 0.07 плотность частоты 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 35 65 95 125 155 185 215 245 интервалы 10 ● Гистограмма является статистическим аналогом графика плотности вероятности непрерывной случайной величины. По виду полигона и гистограммы можно делать предположения о законе распределения количественного признака в ге- неральной совокупности. Подробно этот вопрос будет рассмотрен в одной из следующих лекций (пункты 5.2 и 5.3). 1.5. Накопленные частоты. Эмпирическая функция распределения ▼ Число наблюдений n x , при которых значение количественного признака X оказалось меньше некоторого заданного значения x , называется накопленной частотой. ▼ Функция n F * ( x) x w( X x) , n задаваемая для каждого значения x относительной накопленной частотой, называется эмпирической функцией распределения. ● В соответствии с теоремой Бернулли, F * ( x) при n сходится по вероятности к теоретической функции распределения F ( x) P ( X x) : F * ( x) F ( x), n . p Пример 3 (продолжение примера 1). Выпишем ряд накопленных час- тот: x (сумма баллов) n x (накопленная частота) 9 10 11 12 13 14 15 16 0 11 43 98 148 177 189 200 Соответствующая эмпирическая функция распределения имеет вид если x 9, 0, 0.055, если 9 x 10, 0.215, если 10 x 11, 0.49, если 11 x 12, * F ( x) 0.74, если 12 x 13, 0.865, если 13 x 14, 0.945, если 14 x 15, 1, если x 15. ● Эмпирическая функция распределения есть ступенчатая функция, значения которой заключены в интервале от 0 до 1. Её график имеет ступенчатый вид. Легко заметить сходство между эмпирической функцией распределения и теоретической функцией распределения дискретной случайной величины. ■ 11 Тема 2: ТОЧЕЧНЫЕ ОЦЕНКИ ГЕНЕРАЛЬНЫХ ХАРАКТЕРИСТИК 2.1. Выборочная и генеральная средние ▼ Если данные не сгруппированы и частоты вариантов не определены, то выборочная средняя определяется по формуле x 1 n xi . n i 1 В том случае, когда определены частоты ni всех значений количественного признака, они выступают в качестве весов: x 1 k nx i i, n i 1 где k – число различных вариантов в выборке. Пример 4 (продолжение примера 1). Расчёт по последней формуле даёт средний балл x (9 11 10 32 ... 15 11) / 200 11.67 . ■ ● Если данные сгруппированы в виде интервальных рядов, то в качестве вариантов обычно берут середины интервалов. Пример 5 (продолжение примера 2). Выборочная средняя для среднедушевого дохода: x (35 6 65 7 ... 245 7) / 100 135.2 . Подлинный результат (по несгруппированным данным) был бы несколько иным. ■ Задача 1. Установить связь выборочной и генеральной средних. ► Пусть имеется статистическое распределение некоторого количественного признака X в генеральной совокупности, т. е. определена генеральная частота N i каждого варианта x i ( i 1, 2, ..., k ); объём генеральной k совокупности равен N N i . Если извлекать наугад один объект совоi 1 купности, то, согласно классическому определению вероятности, P( X x i ) N i N . Поэтому математическое ожидание случайной величины X равно M (X ) 1 N k N i xi . i 1 Выражение, стоящее в правой части равенства, есть не что иное, как генеральная средняя, т. е. средняя, определённая по всей генеральной совокупности. Таким образом, математическое ожидание признака равно генеральной средней этого признака (неслучайная величина, константа). Напротив, выборочная средняя есть случайная величина 12 X 1 n Xi , n i 1 где каждое слагаемое X i (значение количественного признака в i-м наблюдении) имеет то же распределение, что и X. Найдём математическое ожидание выборочной средней: M (X ) M ( n 1 n 1 n X ) M ( X i ) M (X ) M (X ). i n i 1 n n i 1 Полученный результат может быть записан и в иной форме: M ( X M ( X )) 0 .◄ ● Математическое ожидание выборочной средней равно генеральной средней. Практический смысл этого положения: мы имеем возможность оценивать генеральную среднюю по выборке значений признака, причём эта оценка не содержит систематической ошибки. Иначе говоря, отклонение выборочной средней от генеральной средней есть случайная величина с нулевым математическим ожиданием. (Необходимо подчеркнуть, что всё сказанное относится только к такой выборочной средней, которая рассчитывается по репрезентативной выборке). 2.2. Понятие оценки. Несмещённость и состоятельность оценок ▼ Определённая числовая характеристика, полученная по выборочным данным, называется статистикой или оценкой. Если оценка даётся одним числом, то она называется точечной. ▼ Величина * называется несмещённой оценкой величины , если M (* ) (математическое ожидание оценки равно оцениваемой величине). Напротив, если M (* ) , то * называется смещённой оценкой величины . ● Выборочная средняя – несмещённая оценка генеральной средней. ● Согласно теореме Бернулли [1, 4, 5], выборочные относительные частоты отдельных значений признака ( wi ni / n ) сходятся по вероятности к генеральным относительным частотам при n : ni Ni P X x ( ) , n . i p n N Значит, и выборочная средняя с ростом объёма выборки сходится по вероятности к генеральной средней: 13 X M ( X ), n . p ▼ Оценка, сходящаяся по вероятности к истинному значению оцениваемой величины при n , называется состоятельной: * , n . p ● Выборочная средняя является состоятельной оценкой генеральной средней. 2.3. Характеристики вариации количественного признака: дисперсия и среднеквадратическое отклонение ▼ Пусть известно статистическое распределение некоторого количественного признака. Выборочной дисперсией D и выборочным среднеквадратическим отклонением количественного признака X называются величины, определяемые формулами: k D ( xi x ) i 1 2 ni n k xi2 ni i 1 n 2 2 x x2 x ; D. Здесь, как и прежде, k это либо число различных вариантов в выборке, либо число интервалов (для интервального ряда). Если данные вообще не сгруппированы, то все ni 1 , а суммирование проводится от 1 до n. ● Можно показать, что выборочная дисперсия является смещённой (а именно заниженной) оценкой генеральной дисперсии D( X ) : M ( D) n 1 D( X ) . n ▼ Исправленной выборочной дисперсией называется величина s2 n D, n 1 являющаяся несмещённой оценкой генеральной дисперсии. Величина s s 2 называется исправленным среднеквадратическим отклонением. ● Считается, что при достаточно больших n (больше чем 30) отношение выборочного и исправленного среднеквадратических отклонений близко к 1, и различием между ними пренебрегают. 14 Пример 6. При выпуске или закупке швейных изделий необходимо учитывать распределение людей по размеру и по росту. Требуется найти оценки среднего значения, дисперсии и среднеквадратического отклонения роста женщин по выборочным данным. (Обследовано 50 человек; результаты сгруппированы в интервалы длиной 4 см каждый, в таблице указаны середины интервалов.) xi ni 156 160 164 168 172 176 180 5 7 13 14 6 4 1 Расчёты дают следующие значения характеристик: 1 x 166; D (156 166) 2 5 ... (180 166) 2 1 33.44; 50 50 2 s D 34.12; 5.783; s 5.841. 49 ■ Лекция 2 Тема 3: МЕТОД ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ 3.1. Понятие интервальной оценки. Точность и надёжность оценки, доверительный интервал Если точечная оценка – это оценка одним числом, то интервальные оценки, к рассмотрению которых мы переходим, указывают два числа – начало и конец интервала, который (с определённой вероятностью) заключает в себе оцениваемую величину. Для того чтобы лучше понять различие и специфику точечных и интервальных оценок, рассмотрим следующий пример. Оговоримся, что этот пример условен и не имеет никакого отношения к статистике, но очень прост и доходчив. Вам показывают человека и предлагают на глазок оценить его возраст (под возрастом будем понимать число исполнившихся лет). Вы говорите, что, по вашему мнению, ему 43 года. Это точечная оценка. Если вы скажете, что человеку на вид от 41 до 45 лет, то это будет оценка интервальная. Дальше диалог развивается так: – Вы абсолютно уверены в своей правоте? – спрашивают вас. – Нет, процентов на 70, – задумчиво отвечаете вы. – Но я на 99 % уверен, что ему больше 36 и меньше 50. То, что вы интуитивно сделали, на научном языке называется так: увеличение надёжности интервальной оценки ценой ухудшения её точности. ▼ Пусть * – найденная по выборке точечная оценка неизвестного параметра , с вероятностью удовлетворяющая условию * , то есть P * . 15 Тогда: полуширина симметричного относительно * интервала называется точностью оценки; вероятность называется доверительной вероятностью или надёжностью оценки; интервал (* , * ) , который заключает в себе (покрывает) неизвестный параметр с вероятностью , называют доверительным интервалом. 3.2. Интервальная оценка генеральной средней (математического ожидания) нормального распределения при известном генеральном среднеквадратическом отклонении Задача 1. Пусть количественный признак X распределён в генеральной совокупности нормально с известным генеральным среднеквадратическим отклонением . Требуется найти доверительный интервал для оценки генеральной средней a по выборочной средней x с надёжностью . Объём выборки равен n. ► Из теории вероятностей известно, что вероятность попадания в интервал (a , a ) для нормально распределенной величины равна P( X a ) 2 ( ) , где 1 t z2 / 2 (t ) e dz – функция Лапласа. 2 0 1 n X a , где X X i – случайn i 1 (X ) ная выборочная средняя, определяемая по выборке объёма n . Величина Y также имеет нормальное распределение. В теории вероятностей существует следующая теорема: среднее арифметическое n независимых одинаково распределённых случайных величин имеет среднеквадратическое отклонение в n раз меньшее, чем сама случайная величина, т. е. Введём новую случайную величину Y (X ) (X ) n. При этом M ( X ) M ( X ) a . Учитывая эти свойства X , найдём характеристики случайной величины Y: M (Y ) M (X ) a (X ) 0 , (Y ) 16 ( X a) 1. (X ) Нормальную случайную величину с такими характеристиками называют стандартной. Для неё вероятность попадания в симметричный интервал равна P( Y t ) 2 (t ) . Поэтому P ( X a t n ) 2 (t ) , где – заданное нами значение надёжности. Для оценки параметра a по известному значению выборочной средней x получаем доверительный интервал t t x ax , n n где t определяется выбранной надёжностью оценки. Итак, полуширина доt верительного интервала в данном случае составляет . n Так как 2 (t ) , коэффициент t может быть найден как аргумент функции Лапласа, когда значение последней равно 2 . В частности, для задаваемых обычно значений надёжности имеем: t 0.95 1.96 0.99 2.57 0.999 3.3 ◄ Значения функции Лапласа помещены в приложении 2. Пример 1. Сделана партия электроламп. Известно, что среднеквадратическое отклонение нормально распределённой продолжительности горения лампы равно 70 часов. По выборке определена средняя продолжительность горения – 548.53 часа. Требуется определить доверительный интервал для средней продолжительности горения. Допустим, что объём выборки, по которой определена средняя продолжительность горения, равен 144. Зададим надёжность оценки = 0.95. Тогда t 1.96 , и полуширина доверительного интервала составит 1.961270 11.43 . Таким образом, 537.1 < a < 559.96. Пусть объём выборки был равен 225. При той же надёжности получаем: 9.15 , 539.38 < a < 557.68. Наконец, если при прежнем объёме выборки (144) задать = 0.99, то получим: 14.99 , 533.54 < a < 563.52.■ ● При заданной надёжности с увеличением объёма выборки улучшается точность интервальной оценки. При постоянном объёме выборки с ростом требуемой надёжности растёт коэффициент t и, следовательно, 17 ухудшается точность интервальной оценки. Невозможно одновременно повышать надёжность и улучшать точность интервальной оценки, если не увеличивать объём выборки. 3.3. Минимальный объём выборки, обеспечивающий заданную точность и надёжность интервальной оценки генеральной средней Задача 2. Пусть известно генеральное среднеквадратическое отклонение нормально распределённого признака, а также заданы требуемые точность и надёжность интервальной оценки генеральной средней a . Как определить минимальный объём выборки, обеспечивающий заданные параметры оценки? ► Из формулы t / n следует, что минимальный требуемый объём выборки в этом случае равен n min t 2 2 2 .◄ Пример 2. Известно, что для нормально распределённого контролируемого размера детали = 0.2. Какого объёма выборка требуется для того, чтобы с надёжностью = 0.999 определить средний размер деталей с точностью 0.05 ? n 3.3 2 0.2 2 0.05 2 175 . ■ Необоснованное наращивание объёма ведёт к дополнительным затратам времени и труда, а иногда и к материальным потерям. Поэтому в каждом конкретном случае приходится делать выбор между качеством оценки и затратами на неё. Например, если бы в примере 2 мы потребовали точности не 0.05, а 0.01, то необходимый объём выборки возрос бы в 25 раз! 3.4. Интервальная оценка генеральной средней нормального распределения при неизвестном генеральном среднеквадратическом отклонении (малая выборка) Очевидно, при неизвестном параметре нормального распределения можно заменить эту величину выборочным среднеквадратическим отклонением или (если объём выборки мал) исправленным среднеквадратическим отклонением ( s s 2 ). Вспомним, однако, что получение доверительного интервала для оценки a по x было основано на том, что случайная величина 18 Y ( X a) n является стандартной нормальной величиной. Заменяя на s, получаем случайную величину T ( X a) n , s которая уже не подчиняется нормальному закону распределения. Виной тому – величина, стоящая в знаменателе, сама (в отличие от ) являющаяся случайной и имеющая распределение, зависящее от n. ● Случайная величина T подчиняется распределению, которое принято называть распределением Стьюдента. При n оно совпадает с нормальным, а при n > 30 (большая выборка) отличается от него несущественно. Из условия P ( T t ) или P ( X a ts n ) можно с помощью специальной таблицы, составленной на основе распределения Стьюдента, определить значение t t ( , n) . В результате имеем доверительный интервал x t ( , n) s n ax t ( , n) s n . Величину t ( γ, n) будем называть коэффициентом Стьюдента. Таблица значений t ( γ, n) помещена в приложении 3. Пример 3. Рыбак поймал 7 рыб. Эти рыбы весили (в килограммах): 0.65, 0.48, 0.96, 0.67, 1.24, 1.07, 0.87. С надёжностью 0.95 оценить средний вес рыб, попадающихся на крючок в этом водоёме. Предполагается, что имеет место нормальное распределение рыб по весу. Обработка статистических данных даёт: x = 0.849; D = 0.060; s2 = 0.070; s = 0.265. При t (0.95, 7) = 2.45 точность составляет 2.45 0.265 / 7 0.245 . Доверительный интервал для среднего веса рыбы 0.604 a 1.094 . Оценка имеет невысокую точность. Причин этому две: во-первых, слишком сильно рассеяны значения количественного признака, во-вторых, слишком мала выборка. ■ ● Коэффициент Стьюдента t ( γ, n) отличается от величины t , определённой из уравнения 2 (t ) , тем сильнее, чем меньше объём выбор19 ки n . Так, для надёжности 0.95 по таблице значений функции Лапласа можно получить t 1.96 . Коэффициент же Стьюдента для этой надёжности составляет 2.45 при n = 7 и 1.98 при n = 100. 3.5. Интервальная оценка среднеквадратического отклонения нормального распределения ● Пусть по выборке объёма n определено исправленное выборочное среднеквадратическое отклонение s нормально распределённого количественного признака. Тогда интервальной оценкой генерального среднеквадратического отклонения при заданной надёжности служит доверительный интервал [4, 5] s (1 q ) s(1 q ) (при q 1), 0 s (1 q ) (при q 1), где q можно найти из приложения 4 при заданных n и . Пример 4. Произведено 10 измерений одной и той же физической величины одним прибором (без систематической ошибки). Результаты измерений распределены нормально. Исправленное среднеквадратическое отклонение случайных ошибок измерений оказалось равным 0.8. Найти точность прибора с надёжностью 0.95. Точность прибора характеризуется среднеквадратичным отклонением случайных ошибок измерений. Из приложения 4 для заданных значений n 10 и = 0.95 получаем q 0.65 . По первой из приведённых выше двух формул получаем: 0.28 1.32 . ■ 3.6. Интервальная оценка генеральной доли альтернативного признака Как можно догадаться из самого названия, альтернативный признак имеет только 2 взаимоисключающих значения, отражающих наличие или отсутствие некоторого качественного состояния. Иначе говоря, часть объектов генеральной совокупности обладает этим признаком, а остальная часть – не обладает. Например, среди работников предприятия есть мужчины и женщины; среди изготовленных деталей есть годные и бракованные; среди проголосовавших на референдуме есть ответившие «да» и «нет» и т. п. ▼ Пусть из N объектов генеральной совокупности M объектов обладают альтернативным признаком, а остальные N – M объектов – не обладают. Величина pM N 20 называется генеральной долей альтернативного признака. Если из n объектов выборки m объектов обладает альтернативным признаком, то величина wm n называется выборочной долей признака. ● Вероятностно-статистический смысл генеральной и выборочной долей альтернативного признака состоит в следующем. Генеральная доля представляет собой вероятность того, что один случайно отобранный объект генеральной совокупности обладает альтернативным признаком. Выборочная доля есть относительная частота появления альтернативного признака в выборке. Согласно теореме Бернулли, для большой ( n ) репрезентативной выборки выборочная доля сходится по вероятности к генеральной доле: w p. p Характеристики случайной величины w известны из теории вероятностей: M ( w) p, D( w) p (1 p ) . n Задача 3. Построить доверительный интервал для оценки генеральной доли альтернативного признака по его выборочной доле. ► Рассмотрим случайную величину U w p ( w) w p p(1 p ) / n . Согласно центральной предельной теореме [1, 4, 5], при достаточно больших n распределение относительной частоты w (и, следовательно, случайной величины U) удовлетворительно описывается нормальным законом. Найдём числовые характеристики U: M (U ) 0; (U ) ( w) 1. ( w) Таким образом, U – стандартная нормальная величина. Следовательно, P( U t ) 2 (t ) , т. е. P( w p t p(1 p ) / n 2t , где – заданное значение надёжности оценки. Для того чтобы построить доверительный интервал, следует преобразовать последнюю формулу, решая неравенство относительно p. Это будет несложно, хотя и несколько громоздко. Более простой подход заключается в замене в подкоренном вы- 21 ражении вероятности p на её точечную оценку w, что допустимо при большом объёме выборки n. Итак, с вероятностью w p t w(1 w) / n , или w t w(1 w) / n p w t w(1 w) / n . ◄ Пример 5. Для проверки игрового автомата проведено 500 игр, выигрыш был 8 раз. Задавшись надёжностью 0.95 , построить доверительный интервал для вероятности выигрыша в одной игре. Получаем: w 0.016; n 500; t 1.96; 0.005 p 0.027. ■ Лекции 3, 4 Тема 4: МЕТОД СТАТИСТИЧЕСКИХ ГИПОТЕЗ. ГИПОТЕЗЫ О ГЕНЕРАЛЬНЫХ СРЕДНИХ 4.1. Понятие статистической гипотезы. Принципы проверки гипотез ▼ Статистическими гипотезами называются утверждения о виде или характеристиках распределений количественных признаков в генеральных совокупностях, выдвигаемые и проверяемые на основе обработки выборочных данных. Выдвинутая гипотеза H0 называется нулевой или основной, а противоречащая ей H1 – альтернативной или конкурирующей. При принятии или отклонении гипотезы возможны 4 различные ситуации. Проанализируем их, пользуясь понятием условной вероятности. 1. Ошибка 1-го рода: отклонена правильная гипотеза. Вероятность такого исхода равна P ( H 1 H 0 ) . 2. Ошибка 2-го рода: принята неправильная гипотеза. Вероятность такого исхода P( H 0 H 1 ) . 3. Принята правильная гипотеза: P( H 0 H 0 ) 1 . 4. Отклонена неправильная гипотеза: P( H 1 H 1 ) 1 . Пример 1. Сделана большая партия деталей. Производитель предполагает, что разброс значений (дисперсия) контролируемого количественного признака соответствует паспортным данным того устройства, на котором изготовлены детали. Основная гипотеза имеет вид H0: D(X) = D0 при конкурирующей гипотезе H1: D(X) > D0 . Выборочное обследование деталей либо подтверждает, либо опровергает основную гипотезу. Ошибка 1-го рода будет заключаться в том, что хорошая партия деталей окажется забракованной («риск производителя»). Ошибка 2-го рода будет состоять в 22 том, что плохая партия деталей будет признана годной («риск потребителя»). ■ ● Если объём выборки жёстко ограничен, то вероятность ошибки одного рода можно снизить только ценой роста вероятности ошибки другого рода. В примере 1 проверяется выборка деталей, после чего вся партия принимается или бракуется. Если мы требуем очень строгого соответствия выборки известным требованиям, то снижаем вероятность ошибки 2-го рода (т.е. маловероятно, что плохая партия будет признана годной). Но при этом повышается риск ошибки 1-го рода ( ), т. к. возрастает вероятность забраковать хорошую в целом партию из-за неудачной выборки. ● При проверке гипотезы прежде всего задаются вероятностью совершения ошибки 1-го рода , которая называется уровнем значимости гипотезы. Обычно уровень значимости принимают равным 0.05, 0.01 или 0.001. ▼ Статистическим критерием называется случайная величина K с известным законом распределения вероятностей, служащая для проверки нулевой гипотезы. Вся область значений K делится на критическую область, где H0 отвергается, и область принятия гипотезы, где отвергать гипотезу H0 нет оснований. Названные области отделяются друг от друга критическими точками k cr . Существует 3 вида критических областей: правосторонняя, левосторонняя и двусторонняя. Если допустить, что основная гипотеза верна, то вероятность попадания критерия в критическую область есть вероятность ошибки 1-го рода . Из этого условия и исходят при отыскании критических точек. Вид критической области зависит от конкурирующей гипотезы. Для правосторонней критической области P( K k cr ) ; для левосторонней критической области P( K k cr ) ; для симметричной двусторонней критической области P( K kcr ) P( K k cr ) 2 . Сам критерий для заданного уровня значимости выбирается так, чтобы вероятность ошибки 2-го рода была минимальной. Вероятность отклонения неправильной основной гипотезы (1 – ) называется мощностью критерия. Из всех возможных критериев с заданным уровнем значимости выбирается наиболее мощный. 23 4.2. Гипотеза о генеральной средней нормального распределения при известном генеральном среднеквадратическом отклонении Задача 1. Пусть известно генеральное среднеквадратическое отклонение некоторого количественного признака X, подчиняющегося нормальному закону распределения. Требуется сформулировать правила проверки гипотезы о том, что генеральная средняя этого признака равна некоторому предполагаемому значению a0. ►Основная гипотеза будет иметь вид H 0 : M ( X ) a0 , тогда как конкурирующая гипотеза в зависимости от конкретного смысла задачи может быть записана по-разному: H 1 : M ( X ) a0 ; H 1 : M ( X ) a0 ; H 1 : M ( X ) a 0 . Строгое обоснование выбора статистического критерия, базирующееся на условии его наибольшей мощности при заданном уровне значимости, представляет собой довольно трудоёмкую задачу. В качестве критерия рассмотрим величину Y , удовлетворяющую сформулированному условию: Y X a0 (X ) X a0 n. Здесь X – случайная выборочная средняя, n – объём извлечённой выборки. В соответствии со смыслом статистического критерия, возрастание (в данном случае – по модулю) случайной величины Y приводит к тому, что основная гипотеза может быть отвергнута. Очевидно, такому результату могут способствовать следующие факторы: сильное отклонение значения выборочной средней x от гипотетической средней a0; слабое рассеивание признака в генеральной совокупности ( мало); большой объём выборки. Можно сказать, что последние два фактора повышают наше доверие к выборочным данным и увеличивают значимость различия между x и a0. Случайная величина Y уже использовалась нами при построении доверительного интервала для оценки математического ожидания нормального распределения, где она была названа стандартной нормальной величиной: M (Y ) 0, (Y ) 1. Распределение критерия Y представлено на рисунке. 24 f(y) 0.4 - ycr ycr 0.2 α/2 α/2 y 0 -3 -2 -1 0 1 2 3 f(y) 0.4 ycr 0.2 α y 0 -3 -2 -1 0 2 3 1 2 3 f(y) 0.4 - ycr 1 0.2 α y 0 -3 -2 -1 0 Построение критической области будет зависеть от вида конкурирующей гипотезы. В случае H 1 : M ( X ) a 0 критическая область будет двусторонней. Критические точки должны соответствовать формуле для вероятности попадания стандартной нормальной величины в симметричный интервал: P( Y y cr ) 2 ( y cr ) . В предположении, что основная гипотеза верна, записанная вероятность есть вероятность принятия правильной гипотезы (1 – ). Таким образом, 25 ( y cr ) 1 . 2 При H 1 : M ( X ) a 0 критическая область будет правосторонней. Здесь вероятность принятия правильной гипотезы равна P(Y ycr ) P(Y 0) P(0 Y ycr ) 12 ( ycr ) 1 , откуда ( y cr ) 12 . При H 1 : M ( X ) a 0 критическая область будет левосторонней. Например, при уровне значимости основной гипотезы = 0.05 двусторонняя критическая область ограничена точками 1.96 , тогда как для односторонних критических областей ycr 1.64 . Этот случай показан на рисунке, где уровень значимости фигурирует как площадь криволинейных трапеций, которые отсечены границами критических областей. ● Правила проверки основной гипотезы H 0 : M ( X ) a 0 при известном генеральном среднеквадратическом отклонении на уровне значимости . Для конкурирующей гипотезы H 1 : M ( X ) a 0 находим правую гра1 . При ницу двусторонней критической области из условия ( y cr ) 2 Y ycr нет оснований отклонить основную гипотезу; в противном случае H0 отвергается. Для конкурирующей гипотезы H 1 : M ( X ) a 0 находим границу правосторонней критической области из условия ( y cr ) 12 . При Y ycr нет оснований отклонить основную гипотезу; в противном случае H0 отвергается. Для конкурирующей гипотезы H 1 : M ( X ) a 0 находим границу левосторонней критической области ( y cr ) из условия ( y cr ) 12 . При Y y cr нет оснований отклонить основную гипотезу; в противном случае H0 отвергается. ◄ Пример 2. На педсовете учитель математики заявил, что средняя оценка его учеников на вступительных экзаменах в вуз по математике равна 4.5. Для проверки этого утверждения была собрана информация о 81 абитуриенте (репрезентативная выборка). Их средняя оценка составила 4.17. Опровергается ли утверждение учителя этим результатом? Экзаменационная оценка имеет нормальное распределение со среднеквадратическим отклонением 0.5 балла. 26 Проверим гипотезу H 0 : M ( X ) 4.5 при конкурирующей гипотезе H1 : M ( X ) 4.5 на уровне значимости = 0.05. Имеем левостороннюю критическую область, причём ( y cr ) 12 0.45 , ycr 1.64 . Наблюдаемое значение критерия Y 4.17 4.5 81 -5.94 -1.64 , 0.5 и, следовательно, основная гипотеза (а с ней и утверждение учителя) отклоняется. Надо, однако, иметь в виду, что при заданном уровне значимости довольно велика вероятность ошибки 1-го рода, и это могло явиться причиной ошибочного отклонения правильной гипотезы. Уменьшим до 0.001 (в этом случае отклонение правильной гипотезы практически невозможно). Тогда ( y cr ) 12 0.499 , ycr 3.1 , но это не спасает учителя, т. к. – 5.94 < – 3.1. С практической достоверностью можно утверждать, что учитель преувеличивает успехи своих выпускников. ■ 4.3. Гипотеза о равенстве двух генеральных средних Пусть имеются два нормально распределённых в генеральных совокупностях количественных признака: X и Y. Генеральные дисперсии D( X ) и D(Y ) известны. Есть основания предположить, что генеральные средние M ( X ) и M (Y ) равны друг другу. Нулевая гипотеза имеет вид H 0 : M ( X ) M (Y ) . В качестве критерия рассматривается величина Z X Y D( X ) D(Y ) X Y , D( X ) / n X D(Y ) / nY где n X и nY – объёмы выборок значений количественных признаков X и Y соответственно. Рост (по модулю) значения случайной величины Z снижает «шансы» основной гипотезы. Очевидно, этому могут способствовать следующие факторы: (а) сильное различие выборочных средних x и y ; (б) слабое рассеивание признаков; (в) большие объёмы выборок. ● Для трёх случаев конкурирующей гипотезы имеем следующие правила проверки основной гипотезы H 0 : M ( X ) M (Y ) при известных генеральных дисперсиях на уровне значимости . 27 1. Для конкурирующей гипотезы H 1 : M ( X ) M (Y ) находим правую 1 . При границу двусторонней критической области из условия ( z cr ) 2 Z z cr нет оснований отклонить основную гипотезу; в противном случае H0 отвергается. 2. Для конкурирующей гипотезы H 1 : M ( X ) M (Y ) находим границу правосторонней критической области из условия ( z cr ) 12 . При Z z cr нет оснований отклонить основную гипотезу; в противном случае H0 отвергается. 3. Для конкурирующей гипотезы H 1 : M ( X ) M (Y ) находим границу левосторонней критической области ( z cr ) из условия ( z cr ) 12 . При Z z cr нет оснований отклонить основную гипотезу; в противном случае H0 отвергается. ● Можно обобщить описанную методику на случай произвольного (т.е. необязательно нормального) распределения количественных признаков X и Y. Но для этого необходимо располагать достаточно большими ( n X >30 и nY >30) независимыми выборками. Действительно, согласно центральной предельной теореме, выборочные средние в этом случае будут распределены почти нормально. Кроме того, если нам неизвестны генеральные дисперсии D( X ) и D(Y ) , то их достаточно точными оценками могут служить выборочные дисперсии D x и D y или исправленные дисперсии s x2 и s 2y . Пример 3. В цехе, производящем посуду, поочерёдно работают два грузчика. Каждый их них отработал по 100 дней. В дни работы 1-го грузчика оказывалось повреждёнными в среднем за смену 36 изделий, в дни работы 2-го грузчика – 38 изделий. При этом исправленные дисперсии числа повреждённых изделий составили соответственно 12 изд2 и 13 изд2. Можно ли считать различие качества работы двух грузчиков незначимым? Заметим, что количественные признаки здесь должны подчиняться закону Пуассона (закону редких событий). Тем не менее, наличие двух больших независимых выборок позволяет нам воспользоваться критерием Z. Проверим основную гипотезу H 0 : M ( X ) M (Y ) на уровне значимости = 0.02 при конкурирующей гипотезе H1 : M ( X ) M (Y ) . Имеем: Z 36 38 4 ; 12 / 100 13 / 100 ( z cr ) 0.49 ; zcr 2.33 ; Z zcr – нулевая гипотеза отвергается. 2-й грузчик работает существенно хуже 1-го. ■ 28 Тема 5: ГИПОТЕЗА О ТИПЕ РАСПРЕДЕЛЕНИЯ 5.1. Построение предполагаемого распределения по данным наблюдений В математической статистике проверяются гипотезы не только о параметрах распределений (например, о математических ожиданиях), но и о самом типе распределения. Изучая распределение выборки (вид гистограммы или полигона частот), можно сделать предположение о том, что количественный признак в генеральной совокупности имеет нормальное (или биномиальное, пуассоновское, равномерное и др.) распределение. Иногда предположение о типе распределения делается не по эмпирическим данным, а по теоретическому анализу природы количественного признака. Например, если есть основания считать, что количественный признак ведёт себя как число наступлений некоторого события в серии однородных независимых (или «почти однородных», «почти независимых») испытаний, то можно предположить, что он подчинён биномиальному закону. Если же дополнительно известно, что число испытаний велико, а вероятность наступления события в одном испытании мала, то можно сделать предположение о законе Пуассона и т. д. Подгонку выборочного распределения под предполагаемое генеральное распределение признака называют выравниванием статистического ряда. Выборка, приведённая в примере 6 лекции 1, возможно, извлечена из нормальной генеральной совокупности. Действительно, распределение имеет почти симметричную форму с максимумом вблизи среднего значения признака. ▼ Теоретическими частотами ni (в отличие от эмпирических частот ni ) называются частоты, полученные в предположении о справедливости некоторого закона распределения (при заданном объёме выборки n ): ni nP( X xi ) для дискретного количественного признака или ni nP( xi 1 X xi 1 ) 2 2 для непрерывного количественного признака, когда за варианты xi берутся середины интервалов. Задача 1. Получить формулу для расчёта теоретических частот в случае предполагаемого нормального распределения. ► Плотность нормального распределения описывается формулами: z2 ( z) xa 1 2 , f ( x) e , z , ( z) 2 29 где a M ( X ), D( X ) – генеральные характеристики, оценками которых являются следующие величины: a * x, * s . Если все частичные интервалы имеют одинаковую (и малую) длину h , то вероятность попадания в интервал i приблизительно равна hf ( xi ) , что даёт следующую формулу для теоретических частот нормального распределения: ni nh ( zi ) s xi a * . zi s , Значения функции (z ) приводятся в статистических таблицах (см. приложение 1). ◄ Пример 1 (продолжение примера 6 лекции 1). Произведём выравнивание статистического ряда. Для x1 156 получаем: z1 1.71, ( z ) 0.092, n1 3.2 . Аналогично вычисляются остальные теоретические частоты: xi ni 156 3.2 160 8.1 164 12.9 168 12.9 172 8.1 176 3.2 180 0.7 ■ Задача 2. Случайная величина X предположительно подчинена равномерному закону распределёния 0, x a, 1 f ( x) , a x b, b a 0, x b, с неизвестными параметрами a и b. Необходимо оценить значения a и b по выборочным данным и построить гипотетическое распределение случайной величины X. ► Используем числовые характеристики равномерного распределения, известные из теории вероятностей: ( a b) 2 ba . ; D( X ) M(X ) 2 12 Для оценивания неизвестных a и b приравняем выборочные характеристики к генеральным: 30 b* a * , x 2 * * 2 D (b a ) . 12 Решая систему относительно неизвестных оценок, приходим к следующему выводу: если случайная величина X подчинена равномерному закону распределения, то оценками параметров a и b могут служить величины a * x 3D , b * x 3D . Формула для теоретических частот равномерного распределения достаточно очевидна: xi 1 xi 1 2 . ni n *2 * b a Исключение составляют лишь первый (i = 1) и последний (i = k) интервалы, которые несколько расширяются за счёт того, что a * x1 1 , b * x k 1 . 2 2 Поэтому n1 n x1 1 a * 2 * b a * , n k n b* xk 1 2 * b a * .◄ Пример 2. Интервал движения (время между приходами автобусов на остановку) не выдерживается строго, а представляет собой случайную величину X, подчинённую равномерному закону распределёния, 0, x a, 1 f ( x) , a x b, b a 0, x b, с неизвестными параметрами a и b. Наблюдения за интервалом движения при объёме выборки n = 100 дали следующее статистическое распределение (действительно, напоминающее равномерное): xi 1 xi 1 (минуты) от 3 до 5 от 5 до 7 от 7 до 9 от 9 до 11 от 11 до 13 от 13 до 15 от 15 до 17 от 17 до 19 ni 14 12 13 10 11 12 14 14 2 2 Необходимо оценить неизвестные значения a и b и построить гипотетическое распределение времени между приходами автобусов. 31 Опираясь на результаты, полученные при решении задачи 2, получим точечные оценки параметров распределения a * 2.833, b * 19.327 и само теоретическое распределение: Интервал (минуты) ni ni от 2.833 до 5 14 13.140 от 5 до 7 12 12.125 от 7 до 9 13 12.125 от 9 до 11 10 12.125 от 11 до 13 11 12.125 от 13 до 15 12 12.125 от 15 до 17 14 12.125 от 17 до 19.327 14 14.110 ■ ● Сумма теоретических частот равномерного распределения точно равна объёму выборки. Для нормального распределения сумма теоретических частот чуть меньше объёма выборки, т. к. случайная величина нормирована на бесконечном интервале значений, а исследуемый интервал конечен. Задача 3. Случайная величина X предположительно подчинена биномиальному закону распределёния P ( X xi ) Cmxi p xi (1 p ) m xi , xi i 0, m с неизвестным параметром p . Проведено n серий по m испытаний в каждой серии и определены выборочные частоты ni вариантов xi признака X (числа наступлений события в серии). Необходимо оценить значение p по выборочным данным и построить гипотетическое распределение случайной величины X. ► Математическое ожидание (генеральная средняя) биномиального распределения равно M ( X ) pm . Выборочная средняя может быть найдена по статистическому распределению выборки значений X: 1 m x ni xi . n i 0 Предполагая, что M ( X ) x , получаем, что оценкой вероятности p будет x (не что иное, как относительная частота наступm ления события во всех проведенных испытаниях).◄ являться величина p * 32 Теоретические частоты биномиального распределения равны ni nP ( X xi ) , где P( X xi ) – вероятности, вычисленные по формуле Бернулли, в которой неизвестная величина p заменяется оценкой p * . Пример 3. Спортсмен, готовясь к соревнованиям, произвёл 10 серий из 5 выстрелов каждая (по одной и той же мишени). В четырёх сериях в цель попали все выстрелы, в трёх сериях было по одному промаху, в остальных сериях – по 2 промаха. Считая, что при каждом выстреле вероятность попадания p одинакова, оценить её. Найти теореx i ni ni 0 0 0.002 тические частоты распределения количественного при1 0 0.043 знака X – числа попаданий в одной серии. 2 0 0.392 Выборочная средняя равна x (9 12 20) / 10 4.1 . То3 3 1.786 гда оценкой вероятности является величина 4 3 4.069 * 5 4 3.707 p 4.1 / 5 0.82 . Теоретические частоты указаны в таблице. ■ Задача 4. Случайная величина X предположительно подчинена закону Пуассона (закону редких событий) P( X xi ) xi e xi ! , xi i 0, 1, 2,... с неизвестным . Проведено n серий с одинаковым числом испытаний в каждой серии и определены выборочные частоты ni вариантов xi признака X (числа наступлений события в серии). Необходимо оценить значение по выборочным данным и построить гипотетическое распределение случайной величины X. ► Математическое ожидание M ( X ) в этом случае равно . Поэтому оценкой параметра является выборочная средняя x , а теоретические частоты следует находить как ni nP( X xi ) , где P( X xi ) – вероятности, вычисленные по закону Пуассона, в котором неизвестная величина заменяется оценкой x . ◄ Пример 4. Для проверки качества товара 30 человек сгрызли по 1 стакану кедровых орехов. Каждый из них определил число пустых орехов в своей порции. Число порций ni , в каждой из которых число «пустышек» составило x i , представлено ниже: xi ni 0 1 2 3 4 5 6 2 5 8 6 4 3 2 Считая, что случайная величина X – число пустых орехов в одной порции – распределена по закону Пуассона, найти параметр распределения . Найти теоретические частоты распределения. 33 Расчёт даёт x ≈ 2.733. Распределение теоретических частот таково: xi 0 1 2 3 4 5 6 n i 1.95 5.33 7.29 6.64 4.53 2.48 1.13 ■ Пример 5. В теории систем массового обслуживания рассматривается задача Эрланга. Её решением является распределение вероятностей случайной величины X – числа занятых каналов m -канальной системы массового обслуживания (с отказами): 1 2 3 i m , P( X 0) p0 1 ... ... 2 ! 3 ! ! ! i m P( X xi ) pi i i! p0 ; xi i 1, m , где есть параметр системы, называемый коэффициентом загрузки канала. Назовём записанный закон распределением Эрланга. (Не путать с эрланговским входящим потоком! Подробнее об этих понятиях можно узнать в пособии [12]). Можно показать, что для распределения Эрланга m M ( X ) 1 p0 . ! m Это даёт возможность по выборочной средней x оценить параметр и затем рассчитать теоретические частоты распределения как ni nP ( X xi ) . Однако мы будем считать, что коэффициент загрузки канала известен. Пусть, например, имеется станция с тремя линиями связи и коэффициент загрузки 3 . Тогда 1 1 6 18 27 27 1 2 3 p0 1 , 2! 3! 6 13 3 9 27 9 p1 , p2 , p3 . 13 26 6 16 26 Если, например, проводится 26 наблюдений, то теоретические частоты распределения Эрланга составляют n0 2, n1 6, n2 9, n3 9 . ■ Задача 5. Получить формулу для расчёта теоретических частот в случае предполагаемого показательного распределения. ► Плотность показательного распределения определена как 34 0, x 0, f ( x ) x e , x 0 с M ( x) 1 , а вероятность попадания случайной величины в интервал (a, b) равна P ( a X b ) e a e b . Поэтому статистической оценкой параметра будет величина, обратная выборочной средней * 1/ x , а теоретические частоты следует вычислять по формуле xi 1 xi 1 2 2 e ni n e . ◄ Пример 6. Время безотказной работы некоторого устройства представляет собой случайную величину X, подчинённую показательному закону распределения с неизвестным параметром . Наблюдения за временем безотказной работы при объёме выборки n = 100 дали следующее статистическое распределение (действительно, напоминающее показательное): xi 1 xi 1 2 2 (дни) ni от 0 до 5 от 5 до 10 от 10 до 15 от 15 до 20 от 20 до 25 от 25 до 30 от 30 до 35 от 35 до 40 34 22 13 10 6 8 5 2 Необходимо оценить неизвестное значение и построить гипотетическое распределение времени безотказной работы устройства. При расчёте выборочной средней примем в качестве вариантов середины интервалов. Тогда x 11.8 , * 0.0847 . Опираясь на результаты, полученные при решении задачи 5, получим теоретическое распределение: Интервал (дни) от 0 до 5 от 5 до 10 от 10 до 15 от 15 до 20 от 20 до 25 от 25 до 30 от 30 до 35 от 35 до 40 ni ni 34 34.54 22 22.61 13 14.80 10 9.69 6 6.34 8 4.15 5 2.72 2 1.78 ■ 35 5.2. Гипотеза о типе распределения Пусть имеется частотное распределение выборки значений количественного признака X . Есть основания предположить, что в генеральной совокупности признак X распределён по нормальному (или равномерному, биномиальному, пуассоновскому и т. д.) закону. В качестве критерия проверки этой гипотезы логично выбрать величину, которая равнялась бы нулю при полном совпадении эмпирических и теоретических частот ( ni ni для всех i). При этом необходимо, чтобы противоположные по знаку отклонения не гасили друг друга. Этим требованиям удовлетворяет так называемый критерий согласия (критерий Пирсона) (ni ni ) 2 . ni i 1 2 k Если исходить из того, что ni ni (как отмечалось выше, это равенство в некоторых случаях, например при нормальном законе распределения, выполняется не совсем точно), то легко показать, что можно использовать формулу k ni2 n , n ni . i 1 ni 2 Распределение 2 зависит от числа степеней свободы m k 1 l , где k – число групп выборки, т. е. число вариантов или частичных интервалов, l – число оцениваемых по выборке параметров гипотетического распределения (например, для нормального и равномерного распределений l = 2, для биномиального и пуассоновского распределений l = 1). Критическая точка cr2 ( , m) находится в специальной таблице, входом в которую являются уровень значимости и число степеней свободы m (приложение 5). При 2 < cr2 ( , m) нет оснований отклонить основную гипотезу о виде распределения. В противном случае H0 отвергается. Пример 7 (продолжение примера 1). Проверим гипотезу о нормальном распределении, которая использовалась при получении теоретических частот. Получаем: 2 2.1 , m 7 1 2 4 , cr2 (0.05, 4) 9.5 . Нет оснований для отклонения гипотезы. При данном уровне значимости ( 0.05 ) гипотезу о нормальном распределении признака в генеральной совокупности можно принять. ■ 36 Пример 8 (продолжение примера 2). Проверим гипотезу о равномерном распределении: 2 0.89 ; m 8 1 2 5 ; cr2 (0.05, 5) 11.1. Нет оснований для отклонения гипотезы. В генеральной совокупности признак распределён по равномерному закону. ■ Пример 9. Итальянский психиатр и криминалист Чезаре Ломброзо (1835–1909) в своей книге «Гениальность и помешательство» анализирует влияние времени года на творческую активность поэтов, композиторов, художников, учёных. Пользуясь тем, что многие из них обозначали даты своих достижений, Ломброзо составил таблицу: Месяцы Произведения по части изящных искусств и литературы Январь Февраль Март Апрель Май Июнь Июль Август Сентябрь Октябрь Ноябрь Декабрь Итого 101 82 103 134 149 125 105 113 138 83 103 86 1322 Изобретения и открытия в области физики, химии и математики 0 1 4 5 9 4 5 0 5 4 5 2 44 Основываясь на этих данных, Ломброзо утверждает: «Наибольшее число эстетических работ, как и достижений в точных науках, приходится на май, апрель и сентябрь... Преобладание умеренно тёплых месяцев здесь очевидно, хотя ещё нельзя сделать вполне точного вывода вследствие малочисленности данных.» Подойдём к этим выводам критически и попытаемся их опровергнуть, предполагая, что на самом деле творческая активность не зависит от времени года, а сезонные различия в количестве достижений искусства и науки, обнаруженные Ломброзо, имеют случайный характер. Иными словами, проверим гипотезу о равномерном распределении количества достижений по времени года. Теоретические частоты в данном случае рассчитать очень просто, т. к., в отличие от задачи 2, нет необходимости оценивать границы полного интервала. При равномерном распределении на каждый месяц приходилось бы 1322 110.17 произведений 12 литературы и искусства и 44 3.67 научных открытия. Сравнивая эмпирические 12 частоты с теоретическими, рассчитываем наблюдаемые значения критерия согласия. Для произведений литературы и искусства 2 49.1 , для научных открытий 2 19.8 . Число степеней свободы распределения 2 в обоих случаях равно s 12 1 2 9 . В зависимости от уровня значимости основной гипотезы имеем cr2 (0.01, 9) 21.7 , cr2 (0.05, 9) 16.9 . Итак, для произведений литературы и искусства основная гипотеза отвергается; распределение неравномерно и нужно признать правоту Ломброзо. Что касается числа научных достижений, то гипотеза о равномерном распределении принимается на уров- 37 не значимости 0.01 , но отвергается при более жёсткой проверке ( 0.05 ). Поэтому в части, касающейся достижений науки, на основании имеющихся данных трудно прийти к надёжному выводу. ■ Пример 10 (продолжение примера 3). Проверим гипотезу о биномиальном распределении, которая использовалась при получении теоретических частот. Получаем: 2 1.57 , m 10 1 1 8 , cr2 (0.05, 8) 15.5 . Нет оснований для отклонения гипотезы. При данном уровне значимости ( 0.05 ) гипотезу о биномиальном распределении признака в генеральной совокупности можно принять. ■ Пример 11 (продолжение примера 4). Проверим гипотезу о пуассоновском распределении: 2 0.99 ; m 7 1 1 5 ; cr2 (0.05, 5) 11.1. Нет оснований для отклонения гипотезы. В генеральной совокупности признак распределён по закону Пуассона. ■ Пример 12 (продолжение примера 5). Проведена серия из 26 наблюдений за телефонной станцией с тремя линиями. Статистическое распредеxi 0 1 2 3 ление числа занятых каналов (линий) показано в таблице. В примере 5 были получены теоретичеni 5 9 8 4 ские частоты распределения Эрланга в предположении, что коэффициент загрузки канала известен и равен 3. Если использовать этот результат, то можно получить значение критерия Пирсона 2 8.89 . Число степеней свободы здесь следует определять как m 4 1 3 , поскольку ни один параметр распределения по выборке не оценивался. Имеем cr2 (0.05, 3) 7.8 2 , т. е. гипотеза о распределении Эрланга с 3 должна быть отклонена. Следовательно, если не отвергать сам тип распределения, то необходимо отказаться от предположения о величине . Можно показать, что оценка параметра через равенство выборочной средней и математического ожидания (см. пример 5) даёт значение * 1.71 , что приведёт к пересчёту теоретических частот n0 5.194, n1 8.882, n2 7.594, n3 4.329 и новому значению критерия Пирсона 2 0.05 . Число степеней свободы теперь следует определять как m 4 1 1 2 и, следовательно, cr2 (0.05, 2) 6.0 . Теперь гипотезу о распределении Эрланга следует принять. ■ Пример 13 (продолжение примера 6). Проверим гипотезу о показательном распределении: 2 5.78 ; m 8 1 1 6 ; cr2 (0.05, 6) 12.6 . Нет оснований для отклонения гипотезы. В генеральной совокупности признак распределён по показательному закону. ■ 38 ТИПОВЫЕ ЗАДАНИЯ К ЛЕКЦИЯМ 1–4 Задание 1. Для определения средней дальности грузоперевозок проведено наблюдение за 20 грузами. В таблице приведена масса каждого груза (в тоннах) и дальность перевозки (в км). Масса Дальн. 1. Найти минимальное и максимальное значения 25 792 дальности перевозки в выборке. Построить гисто36 432 грамму частот для дальности перевозок (без учёта 32 235 масс перевезённых грузов), введя интервалы 27 1030 44 1425 0–200, 200–400, 400–600, 600–800, 800–1000, 21 727 1000– 1200, 1200–1400, 1400–1600. 38 159 2. Найти точечную несмещённую оценку средней 22 980 дальности перевозок: 12 407 а) с учётом масс грузов; 23 225 б) без учёта масс грузов. 45 527 48 1299 3. Найти точечную несмещённую оценку дисперсии 57 290 дальности перевозок в генеральной совокупности 10 64 и исправленное среднеквадратическое отклонение 13 1216 (СКО) без учёта масс грузов. 15 895 4. Считая генеральное СКО известным (приняв его 43 774 равным исправленному СКО), а распределение – 23 545 30 755 нормальным, построить доверительный интервал 40 958 для средней дальности перевозок с надёжностью, Надёжн. 0.94 указанной в таблице. 5. Считая генеральное СКО неизвестным, построить доверительный интервал для средней дальности перевозок с надёжностью 0.99. Объяснить причины того, что доверительный интервал оказался шире, чем в пункте 4. Решение 1. x min 64; x max 1425. Составим статистический ряд распределения непрерывного количественного признака. Интервал, i Начало интервала, 1 2 3 4 5 6 7 8 xi 1 0 200 400 600 800 1000 1200 1400 200 400 600 800 1000 1200 1400 1600 xi 100 300 500 700 900 1100 1300 1500 Частота, ni 2 3 4 4 3 1 2 1 2 Конец интервала, xi 1 2 Середина интервала, 39 плотность частоты Для построения гистограммы частот необходимо для каждого интерn вала рассчитать значение величины i ( h 200 – длина интервала). Реh зультат изображён на рисунке. 0,025 0,02 0,015 0,01 0,005 0 100 300 500 700 900 1100 1300 1500 дальность перевозок, км 2. Несмещённой точечной оценкой генеральной средней является выборочная средняя. Средняя дальность перевозок с учётом масс грузов (mi ) рассчитывается по формуле n x x i mi i 1 n , mi i 1 где массы являются аналогом частот. Числитель представляет собой грузооборот (тонно-километры), знаменатель – объём перевозок (тонны). В нашем случае n xi mi 425567 , i 1 n mi 604 , x 704.58 . i 1 Средняя дальность перевозок без учёта масс грузов может быть оценена двумя способами. Теоретически более точной оценкой является выборочная средняя, рассчитанная по несгруппированным данным: x 686.75 . Расчёт по сгруппированным данным с использованием в качестве вариантов середин интервалов даёт значение x 690 . 3. Несмещённой оценкой генеральной дисперсии является исправлен20 ная дисперсия. В нашем случае s 2 19 D , где D – выборочная дисперсия. Если последнюю величину рассчитать по несгруппированным данным, то получим следующие значения исправленной дисперсии и исправленного среднеквадратического отклонения: s 2 156606 , s 395.734 . 40 4. При известном генеральном среднеквадратическом отклонении доверительный интервал для оценки генеральной средней (математического ожидания) строится с помощью функции Лапласа по заданной надёжности . Полуширина этого интервала равна t , n где (t ) / 2 . В нашем случае ( 0.94 ) по таблице (приложение 2) находим t 1.88 . Если, в соответствии с заданием, принять s , то получим 166.4 . Доверительный интервал для средней дальности перевозок 686.8 166.4 a 686.8 166.4 520.4 a 853.2 . 5. На самом деле, использованное в предыдущем пункте приближение ( s ) годится только для больших выборок ( n 30) . В нашем случае правильнее считать генеральное среднеквадратическое отклонение неизвестным и строить доверительный интервал с помощью коэффициента Стьюдента. Согласно приложению 3, t (0.99, 20) 2.86 . Тогда 253.1 . Доверительный интервал для средней дальности перевозок 686.8 253.1 a 686.8 253.1 433.7 a 939.9 оказался шире, чем в пункте 4, по двум причинам. Во-первых, он построен с более высокой надёжностью ( 0.99 0.94 ). Во-вторых, даже если бы в пункте 4 была задана надёжность 0.99, значение t составило бы только 2.6 2.86 , т.к. значение генерального среднеквадратического отклонения полагалось известным, а не оценивалось по выборке объёма 20. Задание 2. С целью изучения прочности некоторого изделия исследованы образцы, для каждого из которых определён предел прочности на Весь интервал значений (от 40 10 7 до Сер. Часто разрыв. интерв. ты 58 10 7 Н/м 2 ) разбит на 9 интервалов равной длины, и оп41 0 ределены частоты попадания в каждый интервал. В табли43 5 це указаны середины интервалов (в 10 7 Н/м 2 ) и частóты. 45 8 1. Полагая, что в генеральной совокупности количествен47 12 49 10 ный признак (предел прочности на разрыв) распределён 51 17 нормально, произвести выравнивание статистического 53 13 ряда. На одном графике показать эмпирические и тео55 6 ретические частоты. 57 4 2. Проверить гипотезу о нормальном распределении, заОбъём 75 давшись уровнем значимости 0.05 . Решение 1. Нахождение теоретических частот нормального распределения описано в п. 5.1. Поскольку в данном случае объём выборки велик, не будем 41 «исправлять» значения выборочной дисперсии и выборочного среднеквадратического отклонения. Необходимые для расчёта величины составляют: n 75, h 2, x 49.9, s 3.73 . В результате получаем следующее распределение теоретических частот: xi ni 41 43 45 47 49 51 53 55 57 0.9 2.9 6.8 11.8 15.6 15.4 11.4 6.3 2.6 Частоты 20 15 10 5 0 41 43 45 47 49 51 53 55 57 X (предел прочности на разрыв, 10000000 Н/ кв. м) Совместный график эмпирических и теоретических частот показывает качественное согласие распределений. 3. Наблюдаемое значение критерия 2 в нашем случае составляет 5.8. В таблице (приложение 5) находим критическую точку cr2 (0.05, 9 1 2) cr2 (0.05, 6) 12.6 . Т. к. 2 < cr2 , нет оснований для отклонения гипотезы при уровне значимости 0.05 . При данном уровне значимости принимается гипотеза о том, что в генеральной совокупности признак распределён по нормальному закону. Лекция 5 Тема 6: КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ 6.1. Понятие корреляции. Выборочный коэффициент линейной корреляции Корреляционной связью количественных признаков называется вероятностная или статистическая зависимость, не имеющая строгого функционального характера. Например, рыночная цена квартиры сильно зави42 сит от полезной площади, но эта зависимость не выражается функционально. Существенное влияние оказывают и другие характеристики: район, этаж, планировка, состояние жилища, наличие удобств, срочность продажи и т. п. Для визуального анализа корреляционной связи служит диаграмма рассеивания. Например, вид графика, изображённого на Y рисунке, даёт основания предположить, что между двумя признаками существует отрицательная линейная корреляционная связь: величина Y в среднем приблизительно линейно убывает с ростом X. Степень близости точек на диаграмме рассеивания к некоторой X функциональной зависимости (например, к прямой линии) принято называть теснотой корреляции. Измерителем тесноты линейной корреляции служит выборочный (эмпирический) коэффициент корреляции rxy xy x y x y , где x 1 n xi , n i 1 x2 y 1 n yi , n i 1 xy 1 n xi y i ; n i 1 1 n 2 1 n xi ( x ) 2 , y2 yi2 ( y ) 2 . n i 1 n i 1 Приведённые формулы относятся к случаю несгруппированных данных. Группировка данных с определением частотного распределения количественного признака, часто применяемая для идентификации типа распределения (тема 5), в корреляционном и регрессионном анализе используется нечасто, так как при современных вычислительных средствах в ней нет особой необходимости. Заметим, что числитель коэффициента корреляции представляет собой статистическую оценку корреляционного момента (ковариации). Коэффициент корреляции может принимать значения в пределах от –1 до 1. Если количественные признаки тесно коррелируют (т. е. близки к линей43 ной функциональной зависимости), то rxy 1 . В статистической практике принято считать корреляционную связь заметной при rxy 0.5 и достаточно тесной при rxy 0.8 . Нет оснований ожидать, что для некоррели- рованных величин мы обязательно получим нулевое или близкое к нулю значение коэффициента rxy . Пример 1. В таблице приводятся выборочные данные о площади (Х, кв. м) и цене (Y, тыс. долларов) 10 квартир. xi 58 74 36 44 70 52 57 65 37 45 yi 20 21 12 15 22 18 17 23 14 16 Найдём выборочный коэффициент корреляции rxy. Расчёты дают: x 53.8, y 17.8, xy 998.4, x 12.6475, y 3.4583, rxy 0.932 . Имеется тесная корреляционная связь между площадью квартиры и её ценой. ■ 6.2. Проверка гипотезы о значимости коэффициента корреляции Результаты рассмотрения примера 1 достаточно очевидны. Однако при значениях rxy 0.5 (и меньше) мы не могли бы с уверенностью утверждать, что признаки корреляционно связаны. Из rxy 0 ещё нельзя заключить, что не равен нулю и генеральный коэффициент корреляции r ( X , Y ) . Необходимо проверить гипотезу о том, что отклонение rxy от нуля незначимо и случайно, т. е. H 0 : r ( X , Y ) 0, H 1 : r ( X , Y ) 0 . В качестве критерия используется случайная величина Tr rxy n2 1 rxy2 , подчиняющаяся распределению Стьюдента. Строится двусторонняя критическая область. Правая критическая точка t 2.cr ( , k ) , где k = n – 2, может быть найдена в таблице (приложение 6). На заданном уровне значимости при Tr t 2.cr ( , k ) нет оснований отклонить нулевую гипотезу; в противном случае H0 отвергается. Пример 2. По выборке объёма n = 10 парных значений двух признаков найден выборочный коэффициент корреляции rxy 0.4 . Проверим гипотезу H 0 : r ( X , Y ) 0 на уровне значимости = 0.05. Найдём наблюдаемое значение критерия: 44 Tr 0.4 8 1.23 . 1 0.16 По таблице критических точек распределения Стьюдента находим t 2.cr (0.05, 8) 2.31. Поскольку Tr t 2.cr , нет оснований отклонить нулевую гипотезу. Выборочный коэффициент корреляции незначим. Между признаками нет линейной корреляции. ■ 6.3. Понятие регрессии и регрессионного анализа. Метод наименьших квадратов Цель регрессионного метода – отыскание параметров функциональной зависимости, наиболее точно описывающей поведение среднего значения количественного признака Y при изменении значения другого количественного признака X (или нескольких признаков). Пусть изучается взаимозависимость двух количественных признаков (X,Y). В результате n опытов или наблюдений получены пары чисел: ( xi , yi ), где i 1, n . Теоретическая функция регрессии Y по X нам, как правило, неизвестна. Однако на основе предварительного анализа этих данных и с учётом самой природы признаков мы можем сделать предположение о некоторой линии связи y x f ( x, ) , где под y x подразумевается среднее значение признака Y, соответствующее значению X = x, а под – совокупность варьируемых параметров. Например, если визуально убедиться в том, что эмпирическая картина рассеивания свидетельствует о линейной форме корреляции, то в качестве линии связи можно выбрать прямую y x ax b . В других случаях линия регрессии ищется в виде параболы, гиперболы или экспоненты. Оптимальные значения коэффициентов a и b должны быть каким-то способом подобраны. В методе наименьших квадратов критерием оптимизации служит условие n S (a, b) ( yi axi b) 2 min . i 1 Найденные из этого условия коэффициенты a и b обеспечивают минимальные отличия значений функции y x ( x i ) ax i b от наблюдаемых ординат yi. Задача 1. Получить формулы для оценки коэффициентов a и b по методу наименьших квадратов. ►Необходимые условия экстремума функции S (a, b): 45 n S a 2 (ax i b y i ) x i 0, i 1 n S 2 (ax b y ) 0. i i b i 1 Опуская для простоты индексацию, получим ( x 2 )a ( x)b xy, ( x)a nb y. После деления на n система принимает вид x 2 a xb xy, xa b y. Решение системы может быть легко найдено по правилу Крамера: a * a , b * b , т. е. * a xy x y x 2 ( x) 2 * , b y x 2 x xy x 2 ( x) 2 . Однако, если оценка a * найдена, то для нахождения b * удобнее пользоваться формулой b * y a * x . ◄ 6.4. Выборочное уравнение линейной регрессии и его связь с коэффициентом корреляции ▼ Уравнение вида y x ax b , в котором значения коэффициентов a a * и b b* вычислены по статистическим данным методом наименьших квадратов, называется выборочным уравнением линейной регрессии Y по X. Угловой коэффициент a* называется выборочным коэффициентом регрессии. Сравнивая формулы для выборочных коэффициентов корреляции rxy и регрессии a* , нетрудно убедиться, что a* xy x y 2 x Из второго уравнения системы 46 y x rxy . x 2 a xb xy, xa b y выражаем b и подставляем в уравнение y x ax b : y x y a( x x) или yx y y rxy ( x x) . x Таким образом, линия регрессии проходит через точку ( x, y ) с угловым коэффициентом (коэффициентом регрессии), прямо пропорциональным коэффициенту корреляции. Поскольку признаки X и Y абсолютно равноправны, можно записать и уравнение регрессии X по Y : xy x x rxy ( y y ) . y Ясно, что описываемая этим уравнением линия регрессии также пройдёт через точку ( x, y ). Две линии регрессии (Y по X и X по Y) совпадают друг с другом только в том случае, когда между количественными признаками существует точная линейная зависимость ( rxy 1 ). Пример 3 (продолжение примера 1). Пусть требуется дополнительно: записать уравнение линейной регрессии Y по X; предсказать цену квартиры площадью 50 кв. м. Используя полученные ранее результаты, найдём: y x rxy 0.255; y x 17.8 0.255( x 53.8); y x 0.255 x 4.09 . Точно такой же результат может быть получен непосредственно с использованием приведённых выше формул для a * и b * . Воспользовавшись найденным уравнением регрессии, получим y x (50) 16.84. Итак, цена квартиры площадью 50 кв. м составит (в среднем) 16840 долларов. ■ Y , тыс. 25 долл. 20 15 X, кв.м. 47 10 35 45 55 65 75 В заключение данного параграфа отметим, что исследование корреляции и регрессии не ограничивается линейным случаем. Если линия регрессии – кривая, то и корреляцию называют криволинейной (или нелинейной). В этих случаях коэффициент (линейной) корреляции не применяется. Общий подход к изучению нелинейной корреляции и регрессии включает в себя так называемый дисперсионный анализ – один из методов математической статистики, позволяющий общую дисперсию (вариацию) количественного признака разложить на две части: дисперсию, обусловленную регрессией Dy x 2 1 n yx y , n i 1 где y x f ( xi , ) – функция регрессии (п. 6.3), и дисперсию, вызванную всеми остальными, не учтёнными в модели факторами 2 1 n De yi y x . n i 1 Можно доказать, что D D y De . Величина 2 D y / D называется коx x эффициентом детерминации, а 2 – корреляционным отношением. Очевидно, что 0 1 . Конечно, корреляционное отношение может быть рассчитано и для линейной модели. В этом случае оно просто оказывается равным модулю коэффициента линейной корреляции rxy . Страны США Великобр. Франция ФРГ Италия Япония СССР Болгария Чехосл. ГДР Венгрия Польша Румыния Густота сети на 100 кв.км терр., км (X) 4.3 8.5 6.6 13.6 6.7 7.1 0.6 3.8 10.4 13.7 10.0 8.5 4.6 Средн. дальн. перевозок, км (Y) 778 113 277 183 288 239 858 201 236 156 164 254 256 ТИПОВОЕ ЗАДАНИЕ К ЛЕКЦИИ 5 В таблице указаны X – густота сети на 100 кв. километров территории и Y – средняя дальность грузоперевозок по железным дорогам 13 стран в 1969 году (БСЭ, т. 9, с. 139). 1. Найти выборочный коэффициент корреляции между указанной парой показателей X, Y. 2. Проверить гипотезу о значимости коэффициента корреляции при уровне значимости гипотезы 0.05 . 3. Найти выборочное уравнение линейной регрессии Y по X и построить соответствующий график. 48 Решение 1. Для нахождения выборочного коэффициента корреляции требуется рассчитать ряд характеристик. Найдём выборочные средние количественных признаков: x 7.569 , y 307.923 . Среднее значение произведения: xy 1776.631 . Выборочные дисперсии составляют x2 13.3698, y2 49943.4556 . В результате получаем rxy 0.678 . Между густотой сети и средней дальностью грузоперевозок – заметная отрицательная корреляция. (Объяснение. Густота сети обычно выше в странах с небольшой территорией. Средняя дальность грузоперевозок, напротив, с территорией страны растёт). 2. Основная и конкурирующая гипотезы имеют вид H 0 : r ( X , Y ) 0, H 1 : r ( X , Y ) 0, где r ( X , Y ) – генеральный коэффициент корреляции. При объёме выборки n 13 наблюдаемое значение критерия Tr 3.06 . Критическую точку распределения Стьюдента находим в приложении 5: t 2.cr (0.05, 11) 2.2 . Поскольку Tr 2.2 , основная гипотеза отвергается. Коэффициент корреляции значим. 3. Запишем уравнение регрессии в виде yx y y r ( x x) . x xy Y (Средняя дальность грузоперевозок, км) После арифметических преобразований получим y x 41.4 x 621.6 . К такому же результату можно прийти непосредственно, найдя оценки коэффициентов уравнения регрессии a * , b * по методу наименьших квадратов. На рисунке показана найденная линия регрессии. 1000 800 600 400 200 0 0,0 5,0 10,0 15,0 X (густота сети, км на 100 кв. км территории) 49 РУКОВОДСТВО ПО ВЫПОЛНЕНИЮ ТИПОВЫХ ЗАДАНИЙ НА КОМПЬЮТЕРЕ Статистика относится к тем областям научно-практической деятельности, которые более всего нуждались в появлении компьютеров, поскольку ручная обработка и анализ статистической информации крайне неэффективны. В данном разделе рассматривается решение типовых заданий на компьютере с помощью офисной программы Excel операционной системы Windows. Microsoft Excel привлекает тем, что это пакет общего назначения, применяемый во многих практических задачах и знакомый подавляющему большинству специалистов и студентов. В качестве примеров рассматриваются образцы типовых заданий с теми же исходными данными, что и в предыдущих разделах «Типовые задания к лекциям 1–4» и «Типовое задание к лекции 5» (тексты заданий не повторяются). Выполнение типового задания 1 к лекцим 1–4 После запуска программы Excel указатель ячейки, как правило, находится в ячейке А1. Данная ячейка является активной, т. е. пользователь может вводить в неё данные. Введём заголовок: Статистическое изучение дальности грузоперевозок. Длина вводимого текста превышает ширину ячейки А1. Поэтому текст будет выступать за правый край ячейки. После нажатия клавиши [Enter] указатель переместится в ячейку А2. Нажмём клавишу [] для перемещения указателя ячейки из А2 в А3 или активизируем ячейку А3 посредством щелчка. Запишем в эту ячейку заголовок Масса, а в ячейки А4 – А23 – массы грузов. Переместимся в ячейку В3 (это можно сделать с помощью клавиш [] и [], но проще – посредством щелчка). Поместим в этой ячейке заголовок Дальн., а в ячейках В4 – В23 – значения дальности каждой перевозки. В ячейке A24 введём Надёжн., а в ячейке B24 – заданное значение надёжности интервальной оценки (0.94). Столбцы цифр могут быть выровнены по левому краю, по центру, по правому краю. Соответствующие кнопки расположены на панели форматирования. Если расположение полученной таблицы на экране вас не устраивает, вы можете улучшить её внешний вид, используя изменение масштаба и шрифта. Для того чтобы таблица полностью помещалась на экране, можно установить масштаб 75 %. Найдём минимальное и максимальное значения дальности в выборке. Конечно, когда данных немного, это можно сделать и «вручную». Однако, как правило, статистические ряды довольно велики, и имеет смысл воспользоваться так называемыми функциями рабочего листа. Итак, введём в ячейку D4 текст Минимальная дальность, а в ячейку D5 – Максимальная 50 дальность. Активизируем ячейку H4. Этим мы готовим её для помещения минимального значения из списка. Щёлкнем по кнопке Вставка функций, находящейся на панели инструментов, – откроется соответствующее диалоговое окно. Теперь необходимо выбрать нужную нам функцию. В списке категорий выбираем Статистические, в списке функций находим МИН. После щелчка на кнопке ОК открывается диалоговое окно с описанием функции МИН, где должны быть заданы аргументы. Курсор ввода находится в поле ввода первого аргумента. Задать аргументы можно различными способами. Можно ввести адрес диапазона ячеек, содержащих значения, среди которых мы ищем минимальное (в нашем случае это B4:B23). Можно просто выделить этот диапазон в таблице (эта операция выполняется с помощью удерживания нажатой левой кнопки мыши). В результате выделенный диапазон будет окружён движущейся штриховой рамкой, а в поле ввода появится адрес B4:B23. Наконец, можно просто ввести сами значения в поле ввода. (Конечно, в данном случае это будет совершенно нерациональным способом, т. к. придётся заново набрать весь список. Однако когда нужно вводить всего 1–2 числа, такой способ удобен.) Так или иначе, после ввода аргументов в нижней части окна появится результат (64). Щёлкнув на кнопке ОК, мы перенесём его в ячейку H4. Имейте в виду, что теперь эта ячейка всегда будет показывать минимальное значение из диапазона B4:B23, «отслеживая» все происходящие в нём изменения. Если вы забудете о содержимом этой ячейки, вы всегда можете щелчком активизировать её и прочесть в Строке формул (над таблицей) формулу или функцию, по которой вычислено значение, хранящееся в ячейке. Теперь поместите в ячейку H5 максимальное значение из того же списка. Единственное отличие в ваших действиях будет заключаться в том, что вместо функции МИН вы должны использовать функцию МАКС. Результатом будет число 1425. Приступим к нахождению частотного распределения дальности перевозок. Введём в ячейках D7, E7 и F7 тексты Нач., Сер., Кон. соответственно, что будет означать начала, середины и концы интервалов. Теперь, согласно условию, в диапазоне D8:D15 должны быть введены числа 0, 200, 400, …, 1400, в диапазоне E8:E15 – числа 100, 300, 500, …, 1500, в диапазоне F8:F15 – числа 200, 400, 600, …, 1600. Следующий столбец таблицы будет заполнен эмпирическими частотами, для нахождения которых мы воспользуемся одной из функций рабочего листа. В ячейке G7 введём текст Частота. Выделим ячейки G8:G15. Щёлкнем на кнопке Вставка функций. В открывшемся диалоговом окне выберем: Статистические, ЧАСТОТА. Мы выбрали функцию, которая, как вы видите, «возвращает распределение частот в виде вертикального массива». Эта функция, в отличие от МИН и МАКС, обязательно должна иметь два 51 аргумента: массив данных и двоичный массив. В первое окно ввода мы вводим все наблюдавшиеся значения дальности (диапазон B4:B23). Переместив с помощью мыши курсор во второе окно ввода, мы выделяем ячейки F8:F15, в которых находятся концы интервалов. (Обратите внимание, что все эти действия отражаются в строке формул). В правой части окна появился результат: {2,3,4,4,3,1,2,1,0}. Это и есть искомые частоты. Для того чтобы поместить их в таблицу, щёлкнем на кнопке ОК. В ячейке G8 появилось значение 2, но остальные ячейки столбца остались незаполненными. Дело в том, что результатом обращения к функции ЧАСТОТА является не просто одно число, как это было с функциями МИН или МАКС, а массив. Это требует от нас следующих дополнительных действий. Нажмём клавишу [F2]. В строке состояния (она находится в нижней части экрана) появится надпись Правка, а в активной ячейке – информация о её содержимом. Теперь нажмём на комбинацию клавиш [Ctrl]+[Shift] и, не отпуская, на клавишу [Enter]. Все ячейки столбца должны заполниться числами. Приступим к построению гистограммы частот. Для этого в каждом интервале необходимо определить плотность частоты, поделив соответствующую частоту на длину интервала (на 200). В ячейке H7 введём текст Плотн. Для определения плотности воспользуемся заданием Формул в соответствующих ячейках рабочего листа. Например, мы хотим поместить в ячейку H8 формулу для вычисления плотности частоты внутри 1-го интервала. Активизируем эту ячейку, введём с клавиатуры знак =. Соответствующая частота находится в ячейке G8. Мы можем либо ввести с клавиатуры G8/200, либо воспользоваться выделением нужной ячейки с помощью мыши (арифметические знаки всё равно придётся вводить с клавиатуры). Так или иначе, после этого в Строке формул и в самой ячейке H8 должна появиться надпись: = G8/200. Это и есть Формула, которая будет автоматически «отслеживать» все изменения, происходящие в ячейке G8. После нажатия на клавишу [Enter] вместо формулы в ячейке появится результат вычисления. Естественно, в дальнейшем вы всегда можете, активизировав ячейку, прочесть (и, при желании, отредактировать) хранящуюся в данной ячейке формулу. Казалось бы, теперь нам придётся вводить формулу в ячейки данного столбца, каждый раз изменяя адрес ссылки, что, конечно, заняло бы немало времени. На самом деле всё гораздо проще: можно воспользоваться процедурой Автозаполнения. Активизировав ячейку H8, поместите курсор мыши на маркер заполнения в правом нижнем углу ячейки. Курсор приобретает форму чёрного крестика. Нажав на левую кнопку мыши, переместите курсор на ячейку H15. Как только вы отпустите кнопку, выделенные ячейки автоматически заполнятся числами. Обратите внимание: программа «поняла», что мы хотим посчитать каждый элемент столбца по одной и той же формуле, но с разными частотами, расположенными в соответствующих строках. 52 В программе Excel существует широкий круг средств графического представления числовых данных. Гистограмма является частным случаем (типом) диаграммы, часто используемым в статистике. Прежде всего необходимо выделить в рабочем листе диапазон ячеек, данные из которого должны быть представлены в гистограмме. Удалим название Сер. из ячейки E7 (чтобы программа воспринимала этот столбец как ряд значений аргумента, а не функции). Выделим несмежные диапазоны ячеек: E7:E15 и H7:H15. Для этого придётся после выделения первого диапазона нажать и удерживать кнопку Ctrl. Активизируем кнопку Мастер диаграмм на панели инструментов. На экране появится первое диалоговое окно Мастера диаграмм, в котором можно выбрать тип диаграммы. Мы выберем Гистограмму (обычную) и нажмём кнопку Далее. Во втором окне необходимо подтвердить, что ряды данных находятся в столбцах. В третьем диалоговом окне задаётся описание диаграммы. Можно добавить легенду, дать название диаграмме и дать названия по осям (назовём категории по оси Х – Дальность перевозок, км, по оси Y – Плотность частоты). В последнем окне определим размещение диаграммы. Вставим её в имеющийся лист. В рабочем листе гистограмма может находиться в закрытом состоянии (для этого нужно щёлкнуть мышью вне области диаграммы) или в активном, выделенном состоянии (щёлкнуть мышью в области диаграммы). Удерживая левую кнопку мыши нажатой, можно позиционировать диаграмму в любом месте листа. Обратите также внимание на маркеры, расположенные на границе выделенной диаграммы. Перемещая эти маркеры с помощью мыши, можно изменять размеры окна диаграммы. Поместим гистограмму в диапазоне ячеек J7:P21. Для обработки гистограммы с помощью специальных средств следует активизировать её с помощью двойного щелчка мышью. Форматирование диаграммы может включать в себя вставку или изменение легенды, задание цвета и узора, помещение текста на осях, форматирование осей и т. п. Допустим, что нас не устраивают какие-то элементы графика, например зазор между отдельными столбиками гистограммы. Установив курсор на любом из столбиков, с помощью щелчка правой кнопкой можно открыть контекстное меню и выбрать в нём Формат данных. В диалоговом окне активизируем кнопку Параметры, установим ширину зазора, равную нулю, и щёлкнем на кнопке ОК. Желаемое изменение в график внесено. Перейдём к статистическим оценкам. Средняя дальность перевозок с учётом масс грузов представляет собой частное от деления грузооборота на объём перевозок. Введем в ячейке D17 текст Грузооборот, а в ячейке H17 – функцию СУММПРОИЗВ (она находится в списке Математические). В качестве аргументов этой функции зададим два массива: масс грузов и дальностей. Результат: 425567 (тонно-километров). В ячейке D18 53 введем текст Объём перевозок, а в ячейке H18 – функцию СУММ (она находится в том же списке). Результат: 604 (тонны). В ячейке D19 введем текст Ср. дальность (с учётом масс), а в ячейке H19 – формулу, определяющую эту величину (с адресами числителя и знаменателя). Результат в этом случае окажется нецелым числом, причём количество знаков после точки (или запятой) будет зависеть от размера ячейки, шрифта и масштаба. Допустим, мы хотим, чтобы были указаны только сотые. Активизируем ячейку H19, откроем меню Формат, в нём выберем Ячейки… В открывшемся диалоговом окне установим числовой формат с двумя десятичными знаками. Результат: 704.58 (км). Это вовсе не означает, что мы, пользуясь в дальнейшем данной ячейкой, потеряем точность: изменился лишь вид числа на экране. В ячейке D20 введем текст Ср. дальность (без учёта масс), а в ячейке H20 – функцию СРЗНАЧ (она находится в списке Статистические). Её аргументом будет массив дальностей. Результат: 686.75. Более грубый вариант оценки основан на интервальном ряде. В ячейке D21 введем текст Ср. дальность (по сгрупп. данным), а в ячейке H20 – уже знакомую нам функцию СУММПРОИЗВ. В данном случае её аргументами будут следующие два массива: середины интервалов и частόты. Теперь скорректируем формулу в ячейке D21, добавив деление на объём выборки (на 20). Результат: 690 (км). В ячейке D22 введем текст Исправленная дисперсия, а в ячейке H22 – функцию ДИСП с массивом дальностей в качестве аргумента. Результат: 156606 (км2). Исправленное среднекв. откл. (этот текст введём в ячейке D23) вычисляется как квадратный корень из исправленной дисперсии, но в Excel для этой цели существует специальная функция СТАНДОТКЛОН (введите её в ячейке H23). Результат: 395.734 (км). Построение интервальной оценки генеральной средней (математического ожидания) можно выполнить с помощью функции ДОВЕРИТ, которая даёт значение полуширины доверительного интервала по считающемуся известным генеральному среднеквадратическому отклонению. Функция ДОВЕРИТ имеет 3 аргумента: уровень значимости «альфа» ( α 1 γ , где γ – заданное значение надёжности), «стандартное отклонение» (исправленное среднеквадратическое отклонение) и «размер» (объём выборки). В нашем случае α 0.06 , объём выборки составляет 20. В качестве второго аргумента («стандартное отклонение») удобнее задавать не конкретные числа, полученные с помощью функции СТАНДОТКЛОН, а адреса ячеек, куда эти значения помещены. Введите текст Полуширина доверит. интерв. в ячейке D24 и функцию ДОВЕРИТ с соответствующими аргументами в ячейке H24. Результат: 166.429 (км). 54 A B C D E F G H 1 Задание 1. Статистическое изучение дальности грузоперевозок 2 3 Масса Дальн. 4 25 792 Минимальная дальность 64 5 36 432 Максимальная дальность 1425 6 32 235 7 27 1030 Нач. Кон. Частоты Плотн. 8 44 1425 0 100 200 2 0.01 9 21 727 200 300 400 3 0.015 10 38 159 400 500 600 4 0.02 11 22 980 600 700 800 4 0.02 12 12 407 800 900 1000 3 0.015 13 23 225 1000 1100 1200 1 0.005 14 45 527 1200 1300 1400 2 0.01 15 48 1299 1400 1500 1600 1 0.005 16 57 290 17 10 64 Грузооборот 425567 18 13 1216 Объём перевозок 604 19 15 895 Ср.дальность (с учётом масс) 704.58 20 43 774 Ср.дальность (без учёта масс) 686.75 21 23 545 Ср.дальность по сгрупп. данным 690 22 30 755 Исправленная дисперсия 156606 23 40 958 Исправленное среднекв. откл. 395.734 24 Надёжн. 0.94 Полуширина доверит. интерв. (1) 166.429 25 Нижн. граница доверит. интерв. (1) 520.321 26 Верхн. граница доверит. интерв. (1) 853.179 27 Коэффициент Стьюдента 2.86 28 Полуширина доверит. интерв. (2) 253.078 29 Нижн. граница доверит. интерв. (2) 433.672 30 Верхн. граница доверит. интерв. (2) 939.828 В ячейках D25 и D26 введите текст Нижн. граница доверит. интерв. и Верхн. граница доверит. интерв. соответственно. Для определения этих границ в ячейке H25 должна быть введена формула =H20-H24, а в ячейке H26 формула =H20+H24. Отметим, что эти формулы можно задать и с помощью функций. Например, мы могли бы использовать для нижней границы доверительного интервала формулу =СРЗНАЧ(...) - ДОВЕРИТ(...), где в скобках должны присутствовать аргументы функций. Другой вариант построения доверительного интервала для генеральной средней применяется, когда генеральное среднеквадратическое отклонение неизвестно. В этом случае необходимо воспользоваться таблицей коэффициентов Стьюдента (приложение 3). Введите значение коэффициента в рабочий лист и завершите выполнение задания самостоятельно. (Для вычисления квадратного корня из объёма выборки воспользуйтесь функцией КОРЕНЬ из списка Математические.) 55 Выполнение типового задания 2 к лекциям 1–4 Подготовьте в новом рабочем листе следующую таблицу: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 A Варианты 41 43 45 47 49 51 53 55 57 Суммы B C D Эмпир. част. Теор. част. Слагаемые 0 5 8 12 10 17 13 6 4 средняя среднекв. отклонение В данном случае мы имеем дело со сгруппированными данными, и функции СРЗНАЧ, ДИСП, СТАНДОТКЛОН не годятся. Однако можно применить известную нам функцию СУММПРОИЗВ. Прежде всего, введите в ячейке B11 функцию СУММ, которая будет, суммируя эмпирические частоты, давать объём выборки. Результат: 75. В ячейке B13 должна быть введена формула, рассчитывающая среднюю по сгруппированным данным. Сделайте это с помощью функции СУММПРОИЗВ. Деля на объём выборки, набирайте не конкретное число, а адрес ячейки. Результат: 41.91. Т. к. объём выборки достаточно велик, не будем «исправлять» значения выборочной дисперсии и выборочного среднеквадратического отклонения. Найдём последнюю величину как k xi2 ni i 1 n 2 x , для чего введём в ячейке D14 формулу =КОРЕНЬ(СУММПРОИЗВ(A2:A10;A2:A10;B2:B10)/B11-D13^2). Результат: 3.728. В ячейках следующего столбца таблицы должны быть помещены формулы для расчёта теоретических частот. Для этого воспользуемся функцией НОРМРАСП из списка Статистические, которая вычисляет значение плотности вероятности нормального распределения. Как вы видите из описания синтаксиса этой функции, в качестве первых трёх её аргументов 56 должны быть введены значения x, x , σ , а на месте четвертого аргумента необходимо набрать Ложь (мы ищем не интегральную функцию распределения, а функцию плотности). Используем формулу массива. Выделим диапазон C2:C10 и введём формулу массива: =НОРМРАСП(A2:A10;D13;D14;ЛОЖЬ)*2*B11. (Здесь мы учли длину интервала h 2 и адреса ячеек, в которых введены объём выборки, средняя и среднеквадратическое отклонение.) Далее поступаем точно так, как мы делали ранее (задание 1) при обращении к функции ЧАСТОТА, когда результатом являлся массив (через клавишу [F2] и комбинацию клавиш [Ctrl]+[Shift]+[Enter]). В результате столбец C2:C10 заполнится теоретическими частотами нормального распределения. Постройте диаграмму, показывающую распределение эмпирических и теоретических частот. Среди нестандартных диаграмм выберите График/гистограмма и отформатируйте. Для вычисления слагаемых наблюдаемого значения χ 2 в ячейку D2 введём формулу =(B2-C2)^2/C2 и с помощью Автозаполнения заполним остальные ячейки столбца (до D10 включительно). Теперь применим Автозаполнение к ячейкам C11, D11 от «источника» B11, где введена функция СУММ. В результате получим наблюдаемое значение критерия χ 2 =5.845. В таблице (приложение 4) находим критическую точку 2 2 2 χ cr (0.05, 9 1 2) χ cr (0.05, 6) 12.6 . Т. к. 2 < χ cr , нет оснований для отклонения гипотезы. В генеральной совокупности признак распределён по нормальному закону. Выполнение типового задания к лекции 5 Откройте новый рабочий лист. Расположите ряды данных X и Y в два столбца. Для того чтобы получить значение выборочного коэффициента корреляции, достаточно обратиться к функции КОРРЕЛ из списка Статистические, задав в качестве аргументов два соответствующих друг другу массива данных. Сделав это, вы получите значение – 0.6781. При объёме выборки n 13 наблюдаемое значение критерия Tr 3.06 . Критическую точку распределения Стьюдента находим в приложении 5: t 2.cr (0.05, 11) 2.2 . Т. к. Tr 2.2 , основная гипотеза отвергается. Коэффициент корреляции значим. Снова выделите ряды данных X и Y. В диалоговом окне Мастера диаграмм выберите тип диаграммы Точечная, вид первый. При необходимости последовательно отформатируйте оси абсцисс и ординат, щёлкнув на них дважды мышью и активизировав кнопку Шкала в диалоговом окне 57 Формат оси (для этого необходимо отключить режим Авто при определении желаемых параметров шкалы). В Excel имеется возможность интерпретировать ряды данных в виде Линий тренда, представляющих собой аппроксимации, полученные на основе регрессионного анализа. Активизируем диаграмму двойным щелчком, а затем установим курсор мыши на любую точку графика и сделаем щелчок на правой кнопке. В открывшемся контекстном меню выберем Добавить линию тренда, а в соответствующем диалоговом окне – тип аппроксимации Линейная. Теперь в этом же окне активизируем кнопку Параметры и установим опцию Показывать уравнение на диаграмме. После нажатия на кнопку [OK] на диаграмме появится линия тренда и соответствующее ей уравнение линейной регрессии: y 41.445 x 621.63 . Конечно, для того чтобы получить уравнение регрессии в Excel, вовсе не обязательно пользоваться графическими средствами. Имеется функция НАКЛОН из списка Статистические, которая позволяет найти выборочный коэффициент регрессии a * по массивам известных значений Y и X. Обратитесь к ней, и вы получите значение a * 41.445 . Функция ПРЕДСКАЗ из того же списка даёт значение линейного тренда (иначе говоря, значение Y в уравнении регрессии) для любого заданного значения X. В качестве первого аргумента задаётся значение X = x, а в качестве второго и третьего аргументов – массивы известных значений Y и X (именно в таком порядке!). Если в качестве первого аргумента этой функции задать 0, то мы получим оценку другого коэффициента уравнения регрессии b * 621.629 . В качестве дополнительного упражнения: убедитесь в справедливости формулы a* xy x y x2 используя известные вам функции Excel. 58 y r , x xy Приложение 1 Таблица значений функции z2 1 2 e ( z) 2 z 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20 0.22 0.24 0.26 0.28 0.30 0.32 0.34 0.36 0.38 0.40 0.42 0.44 0.46 0.48 0.50 0.52 0.54 0.56 0.58 0.60 0.62 0.64 0.66 0.68 0.70 0.72 0.74 0.76 0.78 0.80 0.82 0.84 0.86 0.88 0.90 0.92 0.94 0.96 0.98 φ( z ) 0.39894 0.39886 0.39862 0.39822 0.39767 0.39695 0.39608 0.39505 0.39387 0.39253 0.39104 0.38940 0.38762 0.38568 0.38361 0.38139 0.37903 0.37654 0.37391 0.37115 0.36827 0.36526 0.36213 0.35889 0.35553 0.35207 0.34849 0.34482 0.34105 0.33718 0.33322 0.32918 0.32506 0.32086 0.31659 0.31225 0.30785 0.30339 0.29887 0.29431 0.28969 0.28504 0.28034 0.27562 0.27086 0.26609 0.26129 0.25647 0.25164 0.24681 φ( z ) z 1.00 1.02 1.04 1.06 1.08 1.10 1.12 1.14 1.16 1.18 1.20 1.22 1.24 1.26 1.28 1.30 1.32 1.34 1.36 1.38 1.40 1.42 1.44 1.46 1.48 1.50 1.52 1.54 1.56 1.58 1.60 1.62 1.64 1.66 1.68 1.70 1.72 1.74 1.76 1.78 1.80 1.82 1.84 1.86 1.88 1.90 1.92 1.94 1.96 1.98 59 0.24197 0.23713 0.23230 0.22747 0.22265 0.21785 0.21307 0.20831 0.20357 0.19886 0.19419 0.18954 0.18494 0.18037 0.17585 0.17137 0.16694 0.16256 0.15822 0.15395 0.14973 0.14556 0.14146 0.13742 0.13344 0.12952 0.12566 0.12188 0.11816 0.11450 0.11092 0.10741 0.10396 0.10059 0.09728 0.09405 0.09089 0.08780 0.08478 0.08183 0.07895 0.07614 0.07341 0.07074 0.06814 0.06562 0.06316 0.06077 0.05844 0.05618 z 2.00 2.02 2.04 2.06 2.08 2.10 2.12 2.14 2.16 2.18 2.20 2.22 2.24 2.26 2.28 2.30 2.32 2.34 2.36 2.38 2.40 2.42 2.44 2.46 2.48 2.53 2.58 2.63 2.68 2.73 2.78 2.83 2.88 2.93 2.98 3.03 3.08 3.13 3.18 3.23 3.28 3.38 3.48 3.58 3.68 3.78 3.88 3.98 4.20 5.00 φ( z ) 0.05399 0.05186 0.04980 0.04780 0.04586 0.04398 0.04217 0.04041 0.03871 0.03706 0.03547 0.03394 0.03246 0.03103 0.02965 0.02833 0.02705 0.02582 0.02463 0.02349 0.02239 0.02134 0.02033 0.01936 0.01842 0.01625 0.01431 0.01256 0.01100 0.00961 0.00837 0.00727 0.00631 0.00545 0.00470 0.00405 0.00348 0.00298 0.00254 0.00216 0.00184 0.00132 0.00094 0.00066 0.00046 0.00031 0.00021 0.00014 0.00006 0.00000 Приложение 2 Таблица значений функции Лапласа Φ( x) x 1 e 2π 0 z2 2 dz x Φ( x) x Φ( x) x Φ( x) 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20 0.22 0.24 0.26 0.28 0.30 0.32 0.34 0.36 0.38 0.40 0.42 0.44 0.46 0.48 0.50 0.52 0.54 0.56 0.58 0.60 0.62 0.64 0.66 0.68 0.70 0.72 0.74 0.76 0.78 0.80 0.82 0.84 0.86 0.88 0.90 0.92 0.94 0.96 0.98 1.00 0.00798 0.01595 0.02392 0.03188 0.03983 0.04776 0.05567 0.06356 0.07142 0.07926 0.08706 0.09483 0.10257 0.11026 0.11791 0.12552 0.13307 0.14058 0.14803 0.15542 0.16276 0.17003 0.17724 0.18439 0.19146 0.19847 0.20540 0.21226 0.21904 0.22575 0.23237 0.23891 0.24537 0.25175 0.25804 0.26424 0.27035 0.27637 0.28230 0.28814 0.29389 0.29955 0.30511 0.31057 0.31594 0.32121 0.32639 0.33147 0.33646 0.34134 1.02 1.04 1.06 1.08 1.10 1.12 1.14 1.16 1.18 1.20 1.22 1.24 1.26 1.28 1.30 1.32 1.34 1.36 1.38 1.40 1.42 1.44 1.46 1.48 1.50 1.52 1.54 1.56 1.58 1.60 1.62 1.64 1.66 1.68 1.70 1.72 1.74 1.76 1.78 1.80 1.82 1.84 1.86 1.88 1.90 1.92 1.94 1.96 1.98 2.00 0.34614 0.35083 0.35543 0.35993 0.36433 0.36864 0.37286 0.37698 0.38100 0.38493 0.38877 0.39251 0.39617 0.39973 0.40320 0.40658 0.40988 0.41308 0.41621 0.41924 0.42220 0.42507 0.42785 0.43056 0.43319 0.43574 0.43822 0.44062 0.44295 0.44520 0.44738 0.44950 0.45154 0.45352 0.45543 0.45728 0.45907 0.46080 0.46246 0.46407 0.46562 0.46712 0.46856 0.46995 0.47128 0.47257 0.47381 0.47500 0.47615 0.47725 2.02 2.04 2.06 2.08 2.10 2.12 2.14 2.16 2.18 2.20 2.22 2.24 2.26 2.28 2.30 2.32 2.34 2.36 2.38 2.40 2.42 2.44 2.46 2.48 2.50 2.55 2.60 2.65 2.70 2.75 2.80 2.85 2.90 2.95 3.00 3.05 3.10 3.15 3.20 3.25 3.30 3.40 3.50 3.60 3.70 3.80 3.90 4.00 4.20 5.00 0.47831 0.47932 0.48030 0.48124 0.48214 0.48300 0.48382 0.48461 0.48537 0.48610 0.48679 0.48745 0.48809 0.48870 0.48928 0.48983 0.49036 0.49086 0.49134 0.49180 0.49224 0.49266 0.49305 0.49343 0.49379 0.49461 0.49534 0.49598 0.49653 0.49702 0.49744 0.49781 0.49813 0.49841 0.49865 0.49886 0.49903 0.49918 0.49931 0.49942 0.49952 0.49966 0.49977 0.49984 0.49989 0.49993 0.49995 0.49997 0.49999 0.50000 60 Приложение 3 Коэффициенты Стьюдента t ( , n) Объём выборки n 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 60 70 80 90 100 120 ∞ Надёжность оценки 0.95 2.78 2.57 2.45 2.37 2.31 2.26 2.23 2.20 2.18 2.16 2.15 2.13 2.12 2.11 2.10 2.09 2.06 2.05 2.03 2.02 2.02 2.01 2.00 2.00 1.99 1.99 1.98 1.98 1.96 0.99 4.60 4.03 3.71 3.50 3.36 3.25 3.17 3.11 3.06 3.01 2.98 2.95 2.92 2.90 2.88 2.86 2.80 2.76 2.72 2.71 2.69 2.68 2.66 2.65 2.64 2.63 2.63 2.62 2.58 61 0.999 8.61 6.86 5.96 5.41 5.04 4.78 4.59 4.44 4.32 4.22 4.14 4.07 4.02 3.97 3.92 3.88 3.75 3.66 3.60 3.56 3.53 3.50 3.46 3.44 3.42 3.40 3.39 3.37 3.29 Приложение 4 Таблица значений q ( , n) Объём выборки n 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 60 70 80 90 100 150 200 250 Надёжность оценки γ 0.95 1.37 1.09 0.92 0.80 0.71 0.65 0.59 0.55 0.52 0.48 0.46 0.44 0.42 0.40 0.39 0.37 0.32 0.28 0.26 0.24 0.22 0.21 0.188 0.174 0.161 0.151 0.143 0.115 0.099 0.089 0.99 2.67 2.01 1.62 1.38 1.20 1.08 0.98 0.90 0.83 0.78 0.73 0.70 0.66 0.63 0.60 0.58 0.49 0.43 0.38 0.35 0.32 0.30 0.269 0.245 0.226 0.211 0.198 0.160 0.136 0.120 62 0.999 5.64 3.88 2.98 2.42 2.06 1.80 1.60 1.45 1.33 1.23 1.15 1.07 1.01 0.96 0.92 0.88 0.73 0.63 0.56 0.50 0.46 0.43 0.38 0.34 0.31 0.29 0.27 0.211 0.185 0.162 Приложение 5 Критические точки распределения 2 Число степеней свободы s 0.05 0.01 0.001 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 30.14 31.41 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56 43.77 6.63 9.21 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.73 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89 10.83 13.82 16.27 18.47 20.52 22.46 24.32 26.13 27.88 29.59 31.26 32.91 34.53 36.12 37.70 39.25 40.79 42.31 43.82 45.32 46.80 48.27 49.73 51.18 52.62 54.05 55.48 56.89 58.30 59.70 Уровень значимости α 63 Приложение 6 Критические точки распределения Стьюдента Число степеней свободы k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 40 60 120 ∞ Уровень значимости α (двусторонняя критическая область) 0.10 6.31 2.92 2.35 2.13 2.01 1.94 1.89 1.86 1.83 1.81 1.80 1.78 1.77 1.76 1.75 1.75 1.74 1.73 1.73 1.73 1.71 1.70 1.68 1.67 1.66 1.64 0.05 0.05 12.7 4.30 3.18 2.78 2.57 2.45 2.36 2.31 2.26 2.23 2.20 2.18 2.16 2.14 2.13 2.12 2.11 2.10 2.09 2.09 2.06 2.04 2.02 2.00 1.98 1.96 0.025 0.02 31.82 6.97 4.54 3.75 3.37 3.14 3.00 2.90 2.82 2.76 2.72 2.68 2.65 2.62 2.60 2.58 2.57 2.55 2.54 2.53 2.49 2.46 2.42 2.39 2.36 2.33 0.01 0.01 63.7 9.92 5.84 4.60 4.03 3.71 3.50 3.36 3.25 3.17 3.11 3.05 3.01 2.98 2.95 2.92 2.90 2.88 2.86 2.85 2.79 2.75 2.70 2.66 2.62 2.58 0.005 0.002 318.3 22.33 10.22 7.17 5.89 5.21 4.79 4.50 4.30 4.14 4.03 3.93 3.85 3.79 3.73 3.69 3.65 3.61 3.58 3.55 3.45 3.39 3.31 3.23 3.17 3.09 0.001 0.001 631.0 31.6 12.9 8.61 6.86 5.96 5.40 5.04 4.78 4.59 4.44 4.32 4.22 4.17 4.07 4.01 3.96 3.92 3.88 3.85 3.72 3.65 3.55 3.46 3.37 3.29 0.0005 Уровень значимости α (односторонняя критическая область) 64 Словарь терминов Альтернативная (конкурирующая) гипотеза – гипотеза, противоречащая основной (проверяемой) гипотезе. Альтернативный признак – признак, имеющий только 2 взаимоисключающих значения, отражающих наличие или отсутствие некоторого качественного состояния. Биномиальное распределение – распределение дискретной случайной величины Х, представляющей собой число появлений некоторого события в серии m независимых опытов и принимающей целые неотрицательные значения с вероятностями, определяемыми по формуле Бер- нулли: P X i C mi p i (1 p ) mi , i 0, 1, ..., n . Здесь p – вероятность появления события в одном опыте. Числовые характеристики случайной величины X , распределенной по биномиальному закону: M ( X ) mp и D( X ) np(1 p ) . Варианты – наблюдаемые значения количественного признака. Выборочная совокупность (выборка) – совокупность, выделяемая из генеральной совокупности при выборочном наблюдении. Идеальным способом получения выборки является случайный отбор. Выборочная дисперсия – средний квадрат отклонения наблюдавшихся значений количественного признака от выборочной средней. Является состоятельной, но смещённой оценкой генеральной дисперсии. Выборочная средняя – среднее арифметическое наблюдаемых значений количественного признака (с учётом частот их появления). Является несмещённой состоятельной оценкой генеральной средней (математического ожидания). Выборочное среднеквадратическое отклонение – квадратный корень из выборочной дисперсии. Выборочное уравнение регрессии – уравнение, в котором среднее значение одного количественного признака представлено как функция значения другого количественного признака (или нескольких признаков), а коэффициенты этой функции оценены по статистическим данным (например, методом наименьших квадратов). Выборочный коэффициент регрессии – угловой коэффициент линейного выборочного уравнения регрессии. Выборочный (эмпирический) коэффициент корреляции – статистическая оценка коэффициента корреляции системы двух случайных величин. Характеристика тесноты линейной корреляции. Выравнивание статистического ряда – подгонка выборочного распределения под предполагаемое генеральное распределение признака. Генеральная совокупность – вся совокупность изучаемых объектов. 65 Гистограмма частот – графическое изображение статистического распределения количественного признака, представленного в виде интервального ряда. Ступенчатая фигура, каждый прямоугольник которой имеет в качестве основания частичный интервал, а в качестве высоты – соответствующую плотность частоты или относительной частоты статистического распределения. Диаграмма рассеивания – точечная диаграмма, на которой изображены результаты парных наблюдений двух количественных признаков. Дискретная случайная величина – случайная величина, принимающая отдельные изолированные значения, которые можно заранее перечислить. Доверительный интервал – симметричный интервал, который заключает в себе (покрывает) неизвестный параметр с некоторой заданной вероятностью. Доля альтернативного признака – отношение числа объектов, обладающих данным признаком, к общему числу объектов (или наблюдений). Интервальная оценка – оценка неизвестного значения некоторого параметра двумя числами (начало и конец интервала). Исправленная выборочная дисперсия – величина, являющаяся несмещённой оценкой генеральной дисперсии. При большом объёме выборки практически совпадает с выборочной дисперсией. Исправленное среднеквадратическое отклонение – квадратный корень из исправленной дисперсии. Корреляционная связь – вероятностная или статистическая зависимость, не имеющая строгого функционального характера. Коэффициент Стьюдента – величина, влияющая на полуширину доверительного интервала для оценки математического ожидания нормального распределения при неизвестном генеральном среднеквадратическом отклонении и малом объёме выборки. Критерий согласия (критерий Пирсона) – статистический критерий, используемый при проверке гипотезы о типе распределения. Критическая область – область значений статистического критерия, при которых основная гипотеза должна быть отвергнута. Мощность критерия – вероятность отклонения неправильной основной гипотезы. Надёжность (доверительная вероятность) интервальной оценки – вероятность того, что доверительный интервал покрывает истинное значение оцениваемой величины. Наименьших квадратов метод – метод отыскания параметров функциональной зависимости, наиболее точно описывающей имеющийся набор данных. 66 Накопленная частота – число наблюдений, при которых значение количественного признака оказалось меньше некоторого заданного значения. Независимые опыты – опыты, для которых вероятность исхода отдельного опыта не зависит от того, какие исходы имели предыдущие опыты. Непрерывная случайная величина – случайная величина, которая может принимать любые значения из некоторого интервала (конечного или бесконечного). Несмещённая оценка – точечная оценка некоторой генеральной характеристики, не содержащая систематического отклонения от истинного значения. Нормальное распределение (закон Гаусса) – распределение непрерывной случайной величины X , плотность распределения вероятностей которой задается функцией вида: 1 f x e 2π σ x a 2 2σ 2 , xR. Для случайной величины X , распределенной по нормальному закону M ( X ) a , D( X ) 2 . Нулевая (основная) гипотеза – гипотеза, проходящая проверку. Область принятия гипотезы – область значений статистического критерия, при которых нет оснований отвергнуть основную гипотезу. Объём выборки – число объектов выборочной совокупности (число наблюдений). Ошибка 1-го рода – отклонение правильной статистической гипотезы. Ошибка 2-го рода – принятие неправильной статистической гипотезы. Плотность распределения вероятностей – функция, определяемая как предел отношения вероятности попадания непрерывной случайной величины X в интервал к длине этого интервала, когда последняя стремится к нулю (производная функции распределения F x ): P( x X x x) F ( x x) F ( x) lim F ( x) . x0 x0 x x f ( x) lim Полигон частот – ломаная линия, изображающая статистическое распределение дискретного количественного признака. Пуассона распределение – распределение дискретной случайной величины Х, которая представляет собой число появлений некоторого события в m независимых испытаниях и принимает целые неотрицатель- 67 λi λ ные значения с вероятностями P(i ) e , i 1, 2, 3, , m , mp , i! где m – достаточно большое число, а вероятность появления события в одном опыте p является достаточно малым числом. Для случайной величины Х, распределенной по закону Пуассона, M ( X ) и D( X ) . Равномерное распределение – распределение непрерывной случайной величины X , при котором плотность распределения вероятностей постоянна на некотором отрезке и равна нулю вне этого отрезка. Регрессионный метод – метод изучения взаимозависимости количественных признаков. Цель регрессионного метода – отыскание параметров функциональной зависимости, наиболее точно описывающей поведение среднего значения количественного признака Y при изменении значения другого количественного признака X (или нескольких признаков). Репрезентативность выборки – способность выборки представлять характеристики генеральной совокупности. Обеспечивается случайным отбором объектов и достаточно большим объёмом выборки. Состоятельная оценка – оценка, сходящаяся по вероятности к истинному значению оцениваемой величины при объёме выборки, стремящемуся к бесконечности. Статистические гипотезы – утверждения о виде или характеристиках распределений количественных признаков в генеральных совокупностях, выдвигаемые и проверяемые на основе обработки выборочных данных. Статистические ошибки – отклонения вычисленных показателей от истинных величин из-за недостаточной репрезентативности выборки. Систематические ошибки связаны с неслучайным характером отбора. Случайные ошибки – следствие ограниченного объёма выборки. Статистический критерий – случайная величина с известным законом распределения вероятностей, которая служит для проверки нулевой гипотезы. Статистическое наблюдение – начальный этап любого статистического исследования, заключающийся в сборе статистических данных. Наблюдение может быть сплошным или выборочным. Статистическое распределение – перечень вариантов и их частот (или относительных частот). Стьюдента распределение – распределение случайной величины, приближающееся к нормальному при неограниченном возрастании числа степеней свободы. 68 Теоретические частоты – частоты, полученные в предположении о некотором законе распределения при заданном объёме выборки. Теснота корреляции – степень близости точек на диаграмме рассеивания к некоторой функциональной зависимости (например, к прямой линии). Точность интервальной оценки – полуширина симметричного интервала, с заданной вероятностью заключающего оцениваемую величину. Уровень значимости гипотезы – вероятность совершения ошибки 1 рода при проверке статистической гипотезы. t2 1 x 2 Функция Лапласа – функция Ф x e dt . 2π 0 Функция распределения случайной величины X – функция, определяющая вероятность события X x : F x P X x . Центральная предельная теорема. Если X 1 , X 2 , X 3 , , X n – независимые случайные величины, имеющие один и тот же закон распределения, то при неограниченном возрастании числа случайных величин n закон распределения их суммы X X 1 X 2 X 3 X n неограниченно приближается к нормальному закону. Частота – число появлений данного варианта. Эмпирическая функция распределения – функция, задаваемая для каждого значения признака частным от деления относительной накопленной частоты на объём выборки. 69 Библиографический список 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. Вентцель Е.С. Теория вероятностей. – М. : Наука, 1969. – 576 с. Гефан Г.Д. Математическая статистика : метод. указания. – Иркутск : ИрГУПС, 2003. – 40 с. Гефан Г.Д. Статистический метод и основы его применения : учебное пособие. Иркутск : ИрГУПС, 2003. – 208 с. Гмурман В.Е. Теория вероятностей и математическая статистика. – М. : Высшая школа, 1997. – 480 с. Колемаев В.А., Калинина В.Н. Теория вероятностей и математическая статистика. – М. : Инфра-М, 1997. – 304 с. Браунли К.А. Статистическая теория и методология в науке и технике. – М. : Наука, 1977. – 408 с. Вентцель Е.С., Овчаров Л.А. Теория вероятностей и её инженерные приложения. – М. : Наука, 1988. – 480 с. Смирнов Н.В., Дунин-Барковский И.В. Курс теории вероятностей и математической статистики для технических приложений. – М. : Наука, 1969. – 512 с. Статистические методы повышения качества / под ред. Х. Куме. – М.: Финансы и статистика, 1990. – 304 с. Шеломовский В.В. Математическая статистика. – Мурманск : МГПУ, 2005. – 128 с. Кремер Н. Ш. Теория вероятностей и математическая статистика. – М. : Юнити-Дана, 2006. – 572 с. Толстых О.Д. Цепи Маркова. Системы массового обслуживания. – Иркутск : ИрИИТ, 1999. – 204 с. 70 ДЛЯ ЗАМЕТОК ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ ________________________________________________________________ 71 Учебное издание Гефан Григорий Давыдович ОСНОВЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ УЧЕБНОЕ ПОСОБИЕ Редактор В.С. Смирнова Компьютерная вёрстка – Г.Д. Гефан Подписано в печать 16.12.2010. Формат 60х84/16. Печать офсетная. Усл. печ. л. 4,5. Уч.-изд. л. 4,9. План 2011 г. Тираж 500 экз. Заказ Типография ИрГУПСа, г. Иркутск, ул. Чернышевского, 15 72