ФЕДЕРАЛЬНОЕ АГЕНСТВО СВЯЗИ Государственное образовательное учреждение высшего профессионального образования ПОВОЛЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ И ИНФОРМАТИКИ Кафедра высшей математики КОНСПЕКТ ЛЕКЦИЙ ПО УЧЕБНОЙ ДИСЦИПЛИНЕ Теория вероятностей и математическая статистика Самара, 2010 УДК 519.2 Блатов И.А., Старожилова О.В. Теория вероятностей и математическая статистика. Конспект лекций.- Самара: ГОУВПО ПГУТИ, 2010.-286 Конспект лекций затрагивает такие разделы высшей математики как: теория вероятностей, элементы комбинаторики, математическая статистика, регрессионный, корреляционный анализ. Каждая лекция заканчивается контрольными вопросами, которые помогут проверить теоретическое освоение курса, содержит большое количество задач для самостоятельного решения и ответы для проверки. Рецензент: Асташкин С.В. – д.ф.м.н., проф., зав.кафедрой Самарского государственного университета Государственное образовательное учреждение высшего профессионального образования Поволжский государственный телекоммуникаций и информатики ©Блатов И.А., Старожилова О.В., 2010 2 университет Введение ........................................................................................ 8 Лекция 1......................................................................................... 10 Случайные события, классификация ..................................... 10 Парадокс игры в кости ............................................................ 12 Классификация событий ......................................................... 13 Классическое определение вероятности ............................... 15 Ошибка Даламбера .................................................................. 17 Контрольные вопросы............................................................. 18 Элементы комбинаторики ...................................................... 19 Формула Стирлинга ................................................................ 24 Лекция 2........................................................................................ 26 Геометрическая вероятность .................................................. 26 Статическая вероятность ........................................................ 28 Условная вероятность ............................................................. 31 Парадокс Монти Холла........................................................... 33 Контрольные вопросы............................................................. 34 Задачи для самостоятельно решения ..................................... 35 Лекция 3......................................................................................... 37 Алгебра событий - сумма двух событий ............................... 37 Алгебра событий – произведение двух событий .................. 37 Вероятность появления хотя бы одного из событий............ 39 Диаграммы Эйлера-Венна ...................................................... 41 Принцип практической невозможности................................ 43 Контрольные вопросы............................................................. 44 Формула Бейеса ....................................................................... 45 Физический смысл и терминология формулы Бейеса ......... 49 Формула полной вероятности события ................................. 50 Метод фильтрации спама ....................................................... 52 Контрольные вопросы............................................................. 52 Задачи для самостоятельно решения ..................................... 53 Лекция 4......................................................................................... 56 Случайные величины, классификация .................................. 56 Законы распределения случайной величины ........................ 57 Интегральный закон распределения ...................................... 60 3 Числовые характеристики дискретной случайной величины .................................................................................. 62 Характеристики положения ................................................... 62 Характеристики рассеивания ................................................. 67 Параметры формы ................................................................... 70 Вероятность попадания дискретной случайной величины в заданный интервал ............................................................... 72 Контрольные вопросы............................................................. 72 Лекция 5......................................................................................... 74 Законы распределения дискретной случайной величины ... 74 Двухточечное распределение ................................................. 74 Распределение выборочного значения признака.................. 75 Биноминальное распределение (закон Бернулли) ................ 76 Наивероятнейшее значение случайной величины ............... 81 Закон Пуассона ........................................................................ 84 Числовые характеристики пуассоновского распределения 85 Контрольные вопросы............................................................. 90 Лекция 6......................................................................................... 91 Непрерывные случайные величины ...................................... 91 Функция распределения непрерывной случайной величины .................................................................................. 91 Функция плотности непрерывной случайной величины ..... 92 Числовые характеристики непрерывной случайной величины .................................................................................. 95 Контрольные вопросы............................................................. 100 Задачи для самостоятельного решения ................................. 100 Лекция 7......................................................................................... 102 Основные законы непрерывных случайных величин .......... 102 Равномерный закон распределения ....................................... 102 Экспоненциальное распределение ......................................... 106 Задачи для самостоятельного решения ................................. 108 Закон Вейбулла ........................................................................ 109 Нормальное распределение (закон Гаусса)........................... 111 Доска Гальтона ........................................................................ 112 Функция Лапласа..................................................................... 116 Правило трех сигм ................................................................... 118 Контрольные вопросы............................................................. 120 4 Задачи для самостоятельного решения ................................. 122 Лекция 8......................................................................................... 124 Дискретные двумерные случайные величины...................... 124 Числовые характеристики двумерных случайных величин 126 Плотности вероятности составляющих двумерной случайной величины ............................................................... 132 Условные законы распределения составляющих двумерной случайной величины ............................................ 132 Корреляционный момент системы двух случайных величин ..................................................................................... 134 Контрольные вопросы............................................................. 141 Лекция 9......................................................................................... 142 Функция одного случайного аргумента ................................ 142 Математическое ожидание функции одного аргумента ...... 143 Функция двух случайных величин ........................................ 144 Лекция 10....................................................................................... 147 Равномерный закон распределения на плоскости ................ 147 Нормальный закон распределения на плоскости ................. 148 Вероятность попадания в прямоугольник............................. 149 Лекция 11....................................................................................... 150 Закон больших чисел .............................................................. 150 Неравенство Чебышева ........................................................... 151 Теоремы Чебышева и Бернулли ............................................. 154 Практическое значение теоремы Чебышева ......................... 157 Предельные теоремы............................................................... 159 Характеристические функции ................................................ 159 Контрольные вопросы............................................................. 167 Лекция 12....................................................................................... 168 Математическая статистика ................................................... 168 Виды выборки .......................................................................... 170 Способы отбора ....................................................................... 173 Табличное представление статистических данных.............. 175 Графическое представление статистических данных .......... 180 Выборочная функция распределения .................................... 183 Числовые характеристики вариационного ряда ................... 184 Меры разброса опытных данных ........................................... 189 Контрольные вопросы............................................................. 191 5 Лекция 13....................................................................................... 192 Проверка статистических гипотез ......................................... 192 Критическая область ............................................................... 197 Распределение ................................................................... 198 Критерий Пирсона................................................................... 199 Схема применения критерия .................................................. 202 2 Схема применения критерия для непрерывных 2 случайных величин ................................................................. 203 Контрольные вопросы............................................................. 206 Задачи для самостоятельного решения ................................. 206 Лекция 14...................................................................................... 208 Регрессивный анализ............................................................... 208 Метод наименьших квадратов для получения уравнения выборочной линии регрессии ................................................. 210 Линейный регрессионный анализ .......................................... 212 Проблемы применения метода линейной регрессии ........... 217 Основные предпосылки статистической модели линейной регрессии .................................................................................. 218 Задачи регрессионного анализа ............................................. 219 Многомерная нормальная регрессионная модель ................ 222 Вариация зависимой переменной и коэффициент детерминации ........................................................................... 223 Контрольные вопросы............................................................. 225 Лекция 15....................................................................................... 226 Статистические оценки параметров распределения ............ 226 Метод наибольшего правдоподобия...................................... 230 Метод моментов ...................................................................... 231 Бейесовский подход к получению оценок ............................ 233 Контрольные вопросы............................................................. 234 Лекция 16....................................................................................... 235 Доверительные интервалы ..................................................... 235 Доверительный интервал для оценки математического ожидания нормального распределения при известной дисперсии ................................................................................. 236 6 Доверительный интервал для оценки математического ожидания нормального распределения при неизвестной дисперсии ................................................................................. 237 Доверительные интервалы для оценки среднего квадратического отклонения нормального распределения . 239 Контрольные вопросы............................................................. 241 Лекция 17....................................................................................... 242 Случайные процессы и их характеристики .......................... 242 Классификация случайных процессов .................................. 243 Законы распределения случайного процесса........................ 246 Моментные характеристики случайного процесса .............. 247 Корреляционная функция ....................................................... 249 Глоссарий ...................................................................................... 255 К лекции 1 ..................................................................................... 255 К лекции 2 ..................................................................................... 256 К лекции 3 ..................................................................................... 257 К лекции 4 ..................................................................................... 258 К лекции 4 ..................................................................................... 259 К лекции 5 ..................................................................................... 261 К лекции 6 ..................................................................................... 262 К лекции 7 ..................................................................................... 263 К лекции 8 .................................................................................... 264 К лекции 9 ..................................................................................... 266 К лекции 10 ................................................................................... 267 К лекции 11 ................................................................................... 267 К лекции 12 ................................................................................... 267 К лекции 13 ................................................................................... 270 К лекции 14 ................................................................................... 270 К лекции 16 ................................................................................... 271 К лекции 17 ................................................................................... 271 Список основных формул ............................................................ 277 Список литературы....................................................................... 286 7 Введение "Случай играет в мире столь большую роль, что и без моей помощи он позаботится о себе." A. Дюма 345 лет назад, в 1657 году, было опубликовано сочинение выдающегося голландского ученого Христиана Гюйгенса "О расчетах при игре в кости", которое является одним из первых исследований в области теории вероятностей. Трудно установить, кто впервые поставил вопрос о возможности количественного измерения возможности появления случайного события. Ясно только, что более или менее удовлетворительный ответ на этот вопрос потребовал большого времени и значительных усилий выдающихся исследователей целого ряда поколений. Обычно считают, что теория вероятностей возникла в середине XVII столетия, причем ее появление связывают с именами П. Ферма (1601-1665), Б. Паскаля (1623-1662) и Х. Гюйгенса (1629-1695). Отправным пунктом исследований являлись задачи, связанные с азартными играми, особенно играми в кости, поскольку при их изучении можно ограничиваться простыми и понятными математическими моделями. Игра в карты –тоже азартная игра. потому, что в ней главную роль играет случай - от него зависит, какие именно карты окажутся у партнеров. С азартных игр математики и начали изучать его величество Случай. ―Математика случая‖ — так еще в XVII в. назвал теорию вероятностей один из ее основателей, французский ученый Блез Паскаль Классическая теория вероятностей рассматривает вероятность как отношение числа благоприятствующих случаев ко всем возможным. При этом предполагается, что все рассмотренные случаи являются равновозможными, равновероятными. 8 Гюйгенс в сочинении "О расчетах при игре в кости" писал: "...думаю, при внимательном изучении предмета читатель заметит, что имеет дело не только с игрой, но что здесь закладываются основы очень интересной и глубокой теории". Одной из задач, давших начало теории вероятностей, является знаменитый парадокс игры в кости, разрешенный еще в "Книге об игре в кости" Д. Кардано (1501-1576), которая вышла лишь в 1663г. Значительное влияние на развитие теории вероятностей оказали Д. Бернулли (1654-1705), А. Муавр (1667-1754), Т. Байес (1702-1763), П. Лаплас (1749-1827), К. Гаусс (1777-1855), С. Пуассон (1781-1840). Например, Д. Бернулли принадлежит первое доказательство одного из важнейших положений теории вероятностей - так называемого "закона больших чисел". Теорема, которую он доказал, устанавливает связь между вероятностью события и частотой его появления. Развитие теории вероятностей тесно связано с традициями и достижениями русской науки. Фундаментальные результаты были получены П. Л. Чебышевым (1821-1894), А. М. Ляпуновым (1857-1918), позже большой вклад в ее развитие внесли Е. Е. Слуцкий (1903-1987) и ряд других. Курс построен в соответствии с требованиями Государственного образовательного стандарта России к дисциплине «Теория вероятностей и математическая статистика». Учебная программа разработана на основе учебных планов специальностей 230105 «Программное обеспечение вычислительных и автоматизированных систем», 230201 «Информационные системы и технологии». Каждая лекция заканчивается контрольными вопросами, которые помогут проверить теоретическое освоение курса, содержит большое количество задач для самостоятельного решения и ответы для проверки 9 Лекция 1 Случайные события, классификация Теория вероятностей (ТВ) изучает закономерности, возникающие в случайных экспериментах, раскрывает объективные закономерности, присущие массовым явлениям. Ее методы не дают возможности предсказать исход отдельного случайного явления, но позволяют предсказать средний суммарный результат массы однородных случайных явлений. Одна из важнейших задач любой науки – найти закономерности в водовороте «случайных» явлений окружающей нас жизни. Основатель теории вероятностей как строгой математической дисциплины – Колмогоров Андрей Николаевич (1903 –1988). В 1933г. он опубликовал аксиоматическое построение этой теории. Одно из основных понятий теории вероятностей – понятие случайного события. Его работа «Основные понятия теории вероятностей»(1933) новый этап в развитии теории вероятностей как науки. Для изучения физических явлений производят наблюдение и опыты, их результаты обычно регистрируют в виде значений некоторых наблюдаемых величин. При повторении опытов обнаруживается разброс их результатов. Говорят, что результат измерения есть величина случайная. Математический аппарат для изучения таких случайностей и закономерностей в них дает теория вероятностей. Определение Случайные события – любые события или факты, относящиеся к результату эксперимента, которые могут происходить или не происходить. Название объясняется тем, что именно случай определяет, произойдет данное событие или не произойдет. Отдельные случайные события в ТВ обозначают прописными латинскими буквами, например, A , B и т.д. Accident (французский) – случайность. Случайные события – результаты эксперимента, его исходы. 10 Пример Компания Н занимает целый этаж. В конце коридора расположена комната отдыха, в ней аппарат для приготовления кофе. В среднем работник фирмы выпивает в день n чашек кофе. Спрашивается: Какова вероятность, что когда сотрудник идет с кофе к себе в комнату, он получит удар по лбу открывающейся дверью? Какова вероятность, что при резком открытии двери сотрудник даст по лбу коллеге, несущему кофе? И что же теперь, кофе не пить? Даже если до сих пор Вы не любили кофе, Вы полюбите его с нашими кофейными аппаратами Не все случайные явления можно изучать методами теории вероятностей, а лишь те, которые могут быть воспроизведены в одних и тех же условиях Основной числовой характеристикой случайного события является его вероятность. Пример Испытание – подбрасывание монеты; события – монета упала «орлом» или «решкой». Случайное событие – выпадение решки или орла. Замечание Решка - лицевая сторона монеты (аверс), орел - обратная сторона монеты (реверс). Пример Игральная кость - маленький кубик, грани которого помечены цифрами 1,2,3,4,5,6 или точками. Бросание игральной кости - выпадение цифр 1,2,3,4,5,6. Пусть производится серия из n испытаний, в каждом из которых может появиться или не появиться событие A . Если в результате испытания наблюдалось (появилось) событие A , то такой исход испытания называется благоприятным исходом. Определение Элементарное событие – событие или каждый отдельный возможный результат испытания. Определение Набор элементарных событий - набор всех возможных отдельных результатов испытаний. 11 Парадокс игры в кости Правильная игральная кость при бросании с равными шансами падает на любую из граней 1, 2, 3, 4, 5, 6. В случае бросания двух костей сумма выпавших чисел заключена между 2 и 12. Как 9, так и 10 из чисел 1, 2, ..., 6 можно получить двумя разными способами: 9=3+6= или 9=4+5 и 10=4+6 или 10=5+5. Почему 9 появляется чаще, когда бросают две кости, а 10 когда бросают три? Решение В случае двух костей 9 и 10 могут получиться следующим образом: =3+6, или 9=6+3, или 9=4+5, или =5+4 10=4+6, или 10=6+4, или 10=5+5. Это значит, что при двух костях 9 можно "выбросить" четырьмя способами, а 10 - лишь тремя. Следовательно, здесь шансы получить 9 предпочтительней. В случае трех костей ситуация меняется на противоположную: 9 можно "выбросить" 25 способами, а 10 - уже 26 способами. Потому 10 получается чаще, чем 9. (Проверьте!!!) Определение Генератор случайных чисел - устройство для получения наборов случайных чисел. Различают три типа генераторов: урны, кости, рулетки. Замечание Ящик с шарами представляет собой одну из разновидностей урн Теория вероятностей как наука раскрывает объективные закономерности, присущие массовым явлениям. Методы не дают возможности предсказать исход отдельного случайного явления, но позволяют предсказать средний суммарный результат массы однородных случайных явлений 12 Классификация событий Различные события различают по степени возможности их проявления и бывают взаимно связаны. Типы событий: случайное, достоверное, невозможное. Определение Достоверное событие – событие, которое в результате опыта обязательно должно произойти. Пример Выпадение не менее одного очка при бросании игральной кости, отказ радиоэлемента при работе долгого времени, появление непрерывно действующей помехи в некотором заданном интервале времени. Определение Невозможное событие – событие, которое не может иметь место в данном опыте. Пример Выпадение более 6 очков при бросании игральной кости, появление напряжения, большего порога ограничения, на выходе ограничителя. В партии все изделия стандартны, извлечение из нее стандартного изделия – событие достоверное. Если событие в данном опыте невозможно, то говорят, что вероятность его равна P( A) 0 , если достоверно, т.е. обязательно должно появиться, то его вероятность равна P( A) 1 .Чем ближе вероятность события к 1, тем больше объективная возможность появления его в опыте. Определение Два или несколько событий называются равновозможными, если нет оснований утверждать, что одно из них имеет больше данных появиться в итоге опыта по сравнению с другими. Равновозможность исходов – основная гипотеза классической теории вероятностей. 13 Пример Выпадение герба и цифры при однократном бросании монеты, выход из строя любой из радиоламп, работающих в одинаковых условиях извлечение туза, валета, короля или дамы из колоды карт. По характеру совместной связи события подразделяются на совместные и несовместные. Определение События, называются несовместными, если появление какого-нибудь одного из них в данном опыте исключает возможность появления других. Пример Выпадение 3 и 5 вместе при однократном бросании монеты. Определение События, называются совместными, если появление одного из них в данном опыте не исключает возможность появления других. Замечание События несовместны, если они не могут произойти одновременно в одном и том же опыте. Пример Выпадение 3 и 5 вместе при двукратном бросании монеты, искажение различных знаков при передаче телеграмм. Получение студентом на экзамене по одной дисциплине оценок «5», «4»,»3» – события несовместные, а получение тех же оценок на экзамене по трем дисциплинам – события совместные. Определение Полная группа событий – группа событий, сумма которых есть достоверное событие Замечание Полная группа событий -группа событий, из которых хотя бы одно непременно должно произойти в данном опыте. Пример Попадание и непопадание в мишень при выстреле, выпадение 1,2,3,4,5,6 при бросании кости. Подавление и неподавление радиоимпульса помехой, искажение и неискажение какого-либо знака при передаче, 14 Определение Вероятность события – численная мера, принимающая значения между 0 и 1 и характеризующая степень возможности появления события в данном опыте. Обозначается: P( A) , где А - случайное событие. Обозначение P происходит от первой буквы французского слова probabilite – вероятность. Замечание Этим определением предполагается, что все элементарные события равновероятны (не всегда можно определить равновероятность наступления отдельных элементарных событий). Пример Какова вероятность выпадения четного числа очков при бросании кости P( A) 3 1 6 2 Определение Противоположные события - два единственно возможных и несовместных события, для которых справедливо, что А наступает, когда не наступает А и наоборот. q( A) 1 P( A) Замечание Противоположные события – частный случай событий, образующих полную группу. Классическое определение вероятности Классическое определение вероятности дал еще Лаплас, но тогда ее приложение не выходило за сферу азартных игр. Пьер-Симон Лаплас (1749 1827) — французский математик; один из создателей теории вероятностей. Классическое определение вероятности несовершенно и имеет много недостатков. применимо лишь в тех случаях, когда число элементарных событий конечно, но на практике не всегда имеет место; предполагается, что все элементарные события равновероятны (не всегда можно определить равновероятность наступления отдельных элементарных событий). 15 Определение (классическое по Лапласу определение) Вероятность случайного события А - число элементарных событий, благоприятствующих появлению события А, деленному на все число элементов в наборе элементарных событий. P A m , n 0 P( A) 1 Пример Какова вероятность выпадения четного числа очков при бросании кости Решение n 6 , m 3 , P A 3 1 6 2 Пример Петя забыл последнюю цифру номера телефона знакомой и набрал ее наугад. Какова вероятность того, что он поговорит с ней по телефону? Решение n 10 , m 1 , P A 1 10 Пример Буквы образующие слова «Теория вероятностей» перемешаны и наугад извлекается одна буква. Найти вероятность того, что эта буква гласная Решение Общее число исходов n 18 (число букв в словах). Число благоприятствующих исходов m 9 P A 16 m 9 1 n 18 2 Ошибка Даламбера Классическое определение вероятности справедлива только в случае с равновозможными исходами. Пренебрежение этим требованием приводит к ошибкам при решении простых вероятностных задач. Рассмотрим знаменитую задачу о бросании обычной монеты, связанную с именем знаменитого математика Ж.Даламбера. Жан Лерон Д’Аламбер (1717 —1783) — французский учѐный-энциклопедист. Широко известен как философ, математик и механик, вошел в историю теории вероятностей со своей знаменитой ошибкой, суть которой в том, что он неверно определил равновозможность исходов в опыте всего с двумя монетами! Опыт. Подбрасываем две одинаковые монеты. Какова вероятность того, что они упадут на одну и ту же сторону? Решение Даламбера: Опыт имеет три равновозможных исхода: 1) обе монеты упадут на «орла»; 2) обе монеты упадут на «решку»; 3) одна из монет упадет на «орла», другая на «решку». Из них благоприятными будут два исхода. n 3, m 2, P A m 2 n 3 Правильное решение: Опыт имеет четыре равновозможных исхода: 1) обе монеты упадут на «орла»; 2) обе монеты упадут на «решку»; 3) первая монета упадет на «орла», вторая на «решку»; 4) первая монета упадет на «решку», вторая на «орла». Из них благоприятными будут два исхода. n 4, m 2, P A m 2 1 n 4 2 Замечание Классическое определение вероятности с 17 до 19 века было как определение, в настоящее время 17 определение не дается, а используют понятие относительной частоты события. Замечание События, вероятности которых малы или очень велики, называются практически невозможными или практически достоверны. Контрольные вопросы 1. Что изучает теория вероятностей? 2. Кто основатель теории вероятностей как строгой математической дисциплины? 3. Основная числовая характеристика случайного события. 4. Как определяются случайное, достоверное и невозможное события? 5. В чем недостатки классического определения вероятностей? 6. Как подразделяются события по характеру совместной связи ? 7. Классификация событий по степени возможности их проявления 8. Что такое генератор случайный чисел? 9. Приведите классификацию генераторов случайных чисел. 10. Приведите примеры полной группы событий. 11. С какой вероятностью монета, брошенная дважды, по крайней мере один раз выпадет гербом? 12. Докажите, что события A, B, A B образуют полную группу. 18 Элементы комбинаторики Комбинаторика как раздел математики появилась в трудах Блеза Паскаля и Ферма по теории азартных игр. Эти труды, составив основу теории вероятностей, одновременно содержали принципы нахождения числа комбинаций элементов данного конечного множества. С появлением работы Лейбница и Бернулли «Искусство предположений» посвященной теории вероятностей комбинаторные схемы выделились в отдельную часть математики. Возрождение интересов к комбинаторике относится к 50 годам ХХ века. Этот интерес связан с развитием кибернетики. Большой развивающийся раздел комбинаторики это теория блок-схем. Основные проблемы этого раздела связаны с вопросами классификации, условиями существования и методами построения некоторых классов блок-схем. Определение Комбинаторика - раздел математики, изучающий комбинации конечных множеств элементов различной природы. Предположим вначале, что все элементы рассматриваемых множеств различны и будем изучать комбинации этих элементов различающихся количеством и/или порядком. Будем рассматривать такие множества, в которых каждый элемент входит не более одного раза. Такие соединения называются без повторений. Предположим, что требуется подсчитать количество комбинаций из конечного числа элементов. Предположим, что построение этой комбинации мы разбили на k последовательных шагов, причем первой шаг можно осуществить b1 вариантами, независимо от результата действия на первом шаге 2-й шаг можно реализовать одним из b2 вариантов; независимо от результатов первых двух шагов третий шаг можно осуществить b3 способами и т.д.; наконец, 19 независимо от решений принятых на предыдущих шагах имеется bk возможноcтей осуществить k -й шаг. Тогда общее количество комбинаций равно произведению b1 b2 b3 bk . Пример. Найти число делителей числа 64800 25 52 34 . Решение Общий вид делителя исходного числа: 2a3b5c . В состав делителя "2" -можно включить 6-ю вариантами a 0,1,2,3,4,5 ,"5" -3-мя способами b 0,1,2 ,"3" - 5-ю споcобами c 0,1,2,3,4 . В силу независимости включения каждой цифры 2, 5 и 3 общее число делителей равно 6 3 5 90 . При вычислении вероятности приходится использовать формулы комбинаторики. Рассмотрим основные. Определение Размещения из n по m - соединения, различающиеся самими элементами или их порядком. Anm n! n m ! Пример Расписание состоят из 4 пар. Определить число вариантов расписания при выборе из 11 предметов. Решение Каждый вариант расписания представляет набор 4 дисциплин из 11, отличающийся от других вариантов как составом дисциплин, так и порядком их следования. Т.е. размещение из 11 по 4. 4 A 11 11! 8 9 10 11 7920 7! Пример На четырех карточках написаны цифры 1,2,3,4. Карточки перевернули и перемешали. Затем открыли наугад последовательно три карточки и положили в ряд. Какова вероятность того, что в результате получилось: число 123. 20 Решение Исходами опыта являются все возможные размещения четырех карточек на трех местах (порядок расположения важен). Общее число исходов: n A 4! 2 3 4 24 4 3! . Рассмотрим события и их вероятности: Событие А={из трех карточек образовано число 123}, P A m 1 n 24 . Пример Пусть даны шесть цифр: 1;2;3;4;5;6. Определить сколько трехзначных чисел можно составить из этих цифр. Решение Если цифры могут повторяться, то количество трехзначных чисел будет m n k 6 3 216 . Если цифры не повторяются, то m A63 6 5 4 120 . Определение Перестановками из n элементов называются соединения, различающиеся только порядком входящих в них элементов. Pn Ann n! Замечание Перестановки комбинации, отличающиеся порядком, но не составом входящих элементов. Пример Порядок выступления определяется жеребьевкой. 7 участников. Сколько вариантов возможно. Решение Каждый вариант жеребьевки отличается порядком участников конкурса, т.е. перестановка из 7 элементов. P7 7! 5040 Пример На четырех карточках написаны буквы О, Т, К, Р. Карточки перевернули и перемешали. 21 Затем открыли наугад последовательно эти карточки и положили в ряд. Какова вероятность того, что получится слово «КРОТ»? Решение Исходы – все возможные перестановки из четырех элементов (О, Т, К, Р); общее число исходов: n P 4! 24, m 1 , Событие А = {после открытия карточек получится слово «КРОТ»}: P A m 1 n 24 Замечание В комбинаторике факториал натурального числа интерпретируется как количество n ! 1 2 3 n перестановок множества из n элементов. Например, для множества {A,B,C,D} из 4-х элементов существует 4!=24 перестановок Определение Сочетаниями из n элементов по m называются соединения, различающиеся только своими элементами n! С nm m! n m ! Сочетания (выборки) из n по m различных элементов комбинации, отличающиеся лишь составом входящих элементов. Замечание Число различных сочетаний (выборок) из n по m элементов C nm - число способов, которыми можно выбрать из n группу по m элементов (порядок выбора безразличен). Свойства сочетаний 1. 0!=1 22 2. Сn0 1 3. Сnm Cnn m 4. Сnm Cnm11 Сnm11 Замечание Числа Сn называют так же биномиальными коэффициентами по причине использования их в формуле разложения бинома Ньютона. m x y n n Cnm x m y n m m0 Пример В ящике лежат 1 белый и три черных шара. Наугад вынимаются 2 шара. Какова вероятность того, что вынуты: 1) 2 черных шара; 2) белый и черный шар? Решение Исходы – все возможные пары шаров. Общее число исходов C 42 4! 3 4 6 2!4 2 ! 1 2 1) Событие А={вынуты два черных шара}; m C32 3! m 3 1 3; P A 2!1! n 6 2 2) Событие В={вынуты белый и черный шары}; m C31 1 3 3, PB m 3 1 n 6 2 Пример Из урны, в которой K белых и N K чѐрных шаров, наудачу и без возвращения вынимают n шаров, n N . Термин «наудачу» означает, что появление любого набора из шаров равновозможно. Найти вероятность того, что будет выбрано k белых и n k чѐрных шаров. Решение C Kk C Nn kK P A C Nn 23 Формула Стирлинга Формула Стирлинга дает приближенное выражение произведения n первых натуральных чисел (факториала): n ! 1 2 3 n , когда число n сомножителей велико, получена Джеймсом. Стирлингом. Джеймс. Стирлинг(1692-1770) шотландский математик. Труды по теории рядов и исчислению конечных разностей, рассмотрел бесконечные произведения. По определению полагают 0! 1 . Факториал определѐн только для целых неотрицательных чисел. Эта функция часто используется в комбинаторике, теории чисел и функциональном анализе. Формула Стирлинга n ! nn e n 2 n Приближенное равенство носит асимптотический характер, т.е. уточняется с ростом n . Для краткости удовлетворимся правдоподобным рассуждением (не выдавая его однако за строгое доказательство), но удобное для запоминания. По определению факториал n ! 1 2 3 n Заменим n! произведением такого ж количества одинаковых сомножителей: n! x x x x x n ,где x - своего рода "среднее факториальное" первых n натуральных чисел. Оно разумеется растет вместе с n . Сделаем простейшее предположение, что при больших n это среднее факториальное приблизительно пропорционально n : x n , a где a - почти постоянная величина. n n n!~ a и характерное тождество для факториала Тогда 24 n 1 ! n 1 n ! запишется в виде n 1 a n 1 n n n 1 . a n 1 Поскольку известно, что 1 e при n так, что n n среднее факториальное близко к . e Ясно, что формула Стирлинга приближенная и нужна поправка, учитывающая не постоянство a при малых n . Поправка 2 n t n эта зависит от n , но далеко не так сильно как сам факториал, пределах 0 t n 2 n t n , величина t n заключена в 1 . 12n 25 Лекция 2 Геометрическая вероятность Паскаль впервые употребил слово вероятность. Он был математик, философ, писатель, физик (1623-1662). В письме к Ферма он писал: «Я буду пользоваться термином вероятность для обозначения числа, обозначающего степень уверенности». Одним из недостатков классического определения вероятности, ограничивающим его применение, является то, что оно предполагает конечное число возможных исходов испытания. Этот недостаток преодолен в классическом геометрическом определении вероятности, т.е. находя вероятность попадания точки в некоторую область (отрезок, часть плоскости и т.д.) Пусть плоская фигура g составляет часть плоской фигуры G . На фигуру G наудачу бросается точка. Это означает, что все точки области G «равноправны» в отношении попадания туда брошенной случайной точки. Фигуру g называют благоприятствующей событию A . Sg P A SG Геометрическая вероятность имеет различное значение в зависимости от определения элементарных событий и от метода отбора в случайном порядке. Имеется отрезок ОА. Разделим его пополам в точке В и найдем вероятность того, что точка отрезка ОА, выбранная в случайном порядке находится на ОВ. Р длинаОВ 1 ДлинаОА 2 на практике может быть меры длины, площади, объемы. 26 Область, на которую распространятся понятие геометрической вероятности, может быть одномерной (прямая, отрезок), двумерной и трехмерной. Пример В некоторой ограниченной области случайно выбирается точка. Какова вероятность, что точка попадет в область А? На прямую L? Решение S A P A L S Ω A 0 S ( L) 0 ; PL 0 S Ω Ω Область, на которую распространятся понятие геометрической вероятности, может быть одномерной (прямая, отрезок), двумерной и трехмерной. Определение Геометрическая вероятность события A - отношение меры области, благоприятствующей появлению события A к мере всей области P A mes g mesG Пример В квадрат со стороной 4см «бросают» точку. Какова вероятность, что расстояние от этой точки до ближайшей стороны квадрата будет меньше 1 см? Решение Закрасим в квадрате множество точек, удаленных от ближайшей стороны меньше, чем на 1см. Площадь закрашенной части квадрата 16см 2 4см 2 12см 2 . Значит, P A 12 3 0.75 16 4 Обобщением классического определения вероятности на случайный эксперимент с бесконечным числом равновозможных случайных исходов, изображаемых точками, прямой, плоскостью, пространством и т.д. служит геометрическое определение вероятности. Пример Два лица A и B условились 27 встретиться в определенном месте между 11 и 12 ч. и ждать друг друга 30 мин. Если партнер к этому времени не пришел или уже ушел встреча не состоится. Найти вероятность того, что встреча состоится. Решение Обозначим моменты прихода в определенное место лиц A и B - соответственно через x и y . За начало отсчета возьмем 11 ч., а за единицу измерения 1 ч. По условию 0 x 1 , 0 y 1 . Это квадрат со стороной 1. Событие C - встреча двух лиц произойдет, если разность между x и y не превзойдет 0.5 ч, т.е. y x 0.5 . PC 1 2 1 / 2 0.52 0.75 12 ( площадь области g равна площади квадрата G без суммы площадей двух угловых треугольников). Статическая вероятность Недостатком классического определения вероятности является то, что не всегда удается узнать, являются исходы испытания равновозможными или не являются. Число равновозможных исходов конечно. Результат испытаний не всегда можно представить в виде совокупности элементарных событий. Введем понятие статической вероятности. Если производить многократно повторение одного и того же опыта, то относительное число появлений данного события во всей серии опытов, или частота его появления, будет близка к значению его вероятности. Оказывается, что при большом числе испытаний n, относительная частота появления события А в различных сериях отличается друг от друга мало и это отличие тем меньше, чем больше испытаний в сериях. Пример 28 Выпадение герба. При небольшом количестве опытов относительное число появлений герба будет отличаться от 0.5, но если увеличить число до несколько десятков тысяч, то небольшие отклонения не могут оказать влияния на общий результат. Такие опыты проводились Бюффоном (Франция), и Пирсоном (Англия), при этом получены следующие результаты. Число бросаний 4040 12000 24000 Частота появления герба 0,50693 0,5016 0,5005 Французский естествоиспытатель Бюффон (XVIII в.) бросил монету 4040 раз, и при этом герб выпал в 2048 случаях. Следовательно, частота выпадения герба в данной серии испытаний равна 2048 0,50693 4040 Английский математик Карл Пирсон (1857-1936) бросал монету 24000 раз, причем герб выпал 12012 раз. Следовательно, частота выпадения герба в данной серии испытаний равна: 12012 0,5005 24000 Расхождение с математической вероятностью в четвертом знаке после запятой. Это закон больших чисел. Определение Абсолютной частотой случайного события A в серии из N случайных опытов называется число N A , которое показывает, сколько раз в этой серии произошло событие A . Определение Относительной частотой случайного события называют отношение числа появлений этого события к общему числу проведенных экспериментов: 29 W A NA N где A – случайное событие по отношению к некоторому испытанию, N - раз проведено испытание и при этом событие A наступило в N A случаях. Замечено, что будучи числом неотрицательным, относительная частота обладает определенной устойчивостью, то есть ее значение изменяясь, колеблется около некоторого неотрицательного числа, к которому она стремится при n→ ∞, (неограниченном возрастании числа испытаний). Определение При статистическом определении вероятностью события называют относительную частоту события при большом числе испытаний или число близкое к ней: P( A) lim W ( A) . n P A выражает количественную меру Вероятность появления события в данных сериях испытаний. Пример Наблюдения показывают, что в среднем среди 1000 новорожденных детей 515 мальчиков. Какова частота рождения мальчика в такой серии наблюдений? Решение W A 515 0.515 1000 Пример Демографы утверждают, что вероятность рождения близнецов равна 0,012. В скольких случаях из 10 000 рождений можно ожидать появление близнецов? Решение P( A) 0.012, N 10000 N P( A) A 0.012 , N 0.012 10000 120 N Ответ в 120 случаях можно ожидать появление близнецов. 30 Пример За лето на Черноморском побережье было 67 солнечных дней. Какова частота солнечных дней на побережье за лето? Частота пасмурных дней? Решение 1. W A 67 0.728 92 побережье за лето, W B частота солнечных дней на 25 0.272 - частота пасмурных 92 дней. Условная вероятность Пусть имеем два последовательных случайных событий, то какова вероятность наступления второго события, если первое событие уже произошло. Пример Пусть в урне было 5 шаров, (2 белых+ 3 черных). Найти вероятность извлечь белый шар во втором испытании. Решение После извлечения первого шара в ней останется 4 шара и один белый в их числе (если извлекли белый) или 2 белых ( если в первый раз извлечен не белый шар). В первом случае вероятность извлечь белый шар во второй раз будет 1 1 , во втором . 4 2 Таким образом вероятность извлечь белый шар во втором испытании зависит от результата первого испытания. Понятия условной вероятности и независимости введены А.Муавром в 1718 г. Абрахам де Муавр (1667 -1754) — английский математик французского происхождения. Провѐл вероятностное исследование азартных игр. Определение Условная вероятность- вероятность одного события, вычисленная в предположении, что другое событие произошло. 31 Вероятность события A1 в предположении, что произошло событие A 2 обозначаем P A1 / A2 Определение Два события называются независимыми, если вероятность появления каждого из них не зависит от того, имели ли место другие. Определение Два события называются зависимыми, если появление одного из них влияет на вероятность наступления другого Если P A1 / A2 P A1 , то говорят, что A1 независимо от A 2 , т.к. его вероятность не зависит от того, произошло ли событие A 2 или нет. Аналогично, если P A2 / A1 P A2 , то говорят, что A 2 независимо от A1 Независимость двух событий – свойство симметричное. Пример A – извлечение из колоды туза, B – то, что и вторая вынутая из колоды карта туз. Тогда, если после первого раза карта была возвращена в колоду, то вероятность вынуть вторично туз не меняется: PB P A 4 1 0.125 32 8 Если же первая карта в колоду не возвращается, то осуществление события A приводит к тому, что в колоде осталась 31 карта, из которых только 3 туза. Поэтому B 3 P 0.097 . A 31 Пример К экзамену надо подготовить 25 вопросов. Студент пришел на экзамен, зная 20. Какова вероятность того, что студент ответит на все три вопроса билета? Решение Пусть события: A – студент знает первый вопрос; 32 B – студент знает второй вопрос; C – студент знает третий вопрос. Тогда нужная вероятность будет 20 19 18 57 B . P ABC P AP PC. AB 25 24 23 115 A Парадокс Монти Холла Задача формулируется как описание гипотетической игры, основанной на американском телешоу «Let’s Make a Deal», и названа в честь ведущего этой передачи. Вы стали участником игры, в которой нужно выбрать одну из трех дверей. За одной из дверей находится автомобиль, за двумя другими дверями — козы. Вы выбираете одну из дверей, например, номер 1, после этого ведущий, который знает, где находится автомобиль, а где — козы, открывает одну из оставшихся дверей, например, номер 3, за которой находится коза. Вопрос: не желаете ли вы изменить свой выбор и выбрать дверь номер 2. Увеличатся ли ваши шансы выиграть автомобиль, если вы примете предложение ведущего и измените свой выбор? Решение Построим дерево принятия решений. 33 Когда игрок сначала выбрал дверь, за которой находится коза, изменение выбора приводит к выигрышу. В двух последних случаях, когда игрок сначала выбрал дверь с автомобилем, изменение выбора приводит к проигрышу. Суммарная вероятность того, что изменение выбора приведѐт к выигрышу, эквивалентна сумме вероятностей первых двух исходов, то есть 1 1 2 . 3 3 3 Соответственно, вероятность того, что отказ от изменения выбора приведѐт к выигрышу, равна 1 1 1 6 6 3 Вывод Изменение первоначального выбора приводит к выигрышу в двух случаях из трѐх в среднем!!!! Контрольные вопросы 2. Дайте статическое определение вероятности. 3. В чем отличие от классического определения вероятности В чем разница абсолютной и относительной частоты? 34 Задачи для самостоятельно решения 1. В ящике имеется 50 одинаковых деталей, из них 5 окрашенных. Наудачу вынимают одну деталь. Найти вероятность того, что извлеченная деталь окажется окрашенной. Отв. p 0.1 . 2. Брошена игральная кость. Найти вероятность того, что выйдет четное число очков. Отв. p 0.5 . 3. Участники жеребьевки тянут из ящика жетоны с номерами от 1 до 100. Найти вероятность того, что номер первого, наудачу извлеченного жетона, не "содержит цифры 5. Отв. p 0.81 . 4. В мешочке имеется 5 одинаковых кубиков. На всех гранях каждого кубика написана одна из следующих букв: о, п, р, с, т. Найти вероятность того, что на вынутых по одному из расположенных «в одну линию» кубиках можно будет прочесть слово «спорт». Отв. p 1 . 120 5. На каждой из шести одинаковых карточек напечатана одна из следующих букв: а, т, м, р, с, о. Карточки тщательно перемешаны, Найти вероятность того, что на четырех, вынутых по одной и расположенных «в одну линию» карточках, можно будет прочесть слово «трос» Отв. `p = 1/А_6^4=1/360. 6. Куб, все грани которого окрашены, распилен на тысячу кубиков одинакового размера, которые затем тщательно перемешаны. Найти вероятность того, что наудачу извлеченный кубик будет иметь окрашенных граней: а) одну; б) две; в) три. Отв. а) 0,384; б) 0,096; в) 0,008. 7. Из тщательно перемешанного полного набора 28 костей домино наудачу извлечена кость. Найти вероятность того, что вторую наудачу извлеченную кость можно приставить к первой, если первая кость: а) оказалась дублем, б) не есть дубль. Отв. (а) 2 4 (б) 9 9 8. В замке на общей оси пять дисков, каждый из которых разделен на шесть секторов с различными написанными на них 35 буквами. Замок открывается, только в том случае, если каждый диск занимает одно определенное положение относительно корпуса замка. Найти вероятность того, что при произвольной установке дисков замок можно будет открыть Отв. `р =1/6^5`. 9. Восемь различных книг расставляются наудачу на одной полке. Найти вероятность того, что две определенные книги окажутся поставленными рядом. Отв. 0.25 10. Библиотечка состоит из десяти различных книг, причем пять книг стоят по 4 рубля каждая, три книги — по одному рублю и две книги — по 3 рубля Найти вероятность того, что взятые наудачу две книги стоят 5 рублей. Отв. 5 /12 ` 11. В партии из 100 детален отдел технического контроля обнаружил 6 нестандартных деталей. Чему равна относительная частота появления нестандартных деталей?Отв. w 0.06 . 12. При стрельбе из винтовки относительная частота попадания в цель оказалась равной 0,85 Найти число попаданий, если всего было произведено 120 выстрелов. Отв. 102 попадания. 36 Лекция 3 Алгебра событий - сумма двух событий Определение Суммой двух событий A1 и A2 называется событие, состоящее в появлении хотя бы одного из этих событий. A A1 A2 Теорема Вероятность суммы двух событий равняется сумме их вероятностей. несовместных P A1 A2 P A1 P A2 Если события A1 и A2 взаимно не исключают друг друга, то теорема будет другая. Заметим, что сформулированная теорема справедлива для любого числа несовместных событий: n n P A i P A i i 1 i 1 Следствие теоремы сложения Сумма вероятностей полной группы несовместимых событий равна единице. Доказательство Пусть несовместимые события A, B, C , , N - образуют полную группу событий, следовательно они единственно возможные и несовместные. При испытании хотя бы одно их этих событий появится, т.к. оно достоверно P A 1 или РB 1 или Р N 1 но события по условию являются несовместимыми и следовательно, на основании теоремы сложения что и т.д. Алгебра событий – произведение двух событий Определение Произведением нескольких событий называется событие, состоящие в совместном наступлении всех этих событий в результате испытания. Обозначают A B, A B, A и B 37 Замечание Произведение означает союз «и» (АВС, это означает, что наступило событие A и B и C ). Пример A – «из колоды карт вынута дама», B – «из колоды карт вынута карта пиковой масти». A B означает «вынута дама пик». Пример A – « число выпавших очков < 5», B – «число выпавших очков > 2», C – «число выпавших очков четное». Тогда A B C – «выпало 4 очка». Теорема Вероятность суммы двух совместных событий равняется сумме их вероятностей, уменьшенная на вероятность произведения этих событий. P A1 A2 P A1 P A2 P A1 A2 Теорема Вероятность произведения взаимно независимых событий равна произведению их вероятностей. P A1 A2 P A1 P A2 . Теорема Вероятность произведения зависимых событий равна произведению вероятности одного события на условную вероятность другого события, вычисленную в предположении, что первое случайное событие уже произошло P A 1 A 2 P A 1 P A 2 P A 1 A 2 Свойства операций сложения и умножения 1. 2. 3. 4. 5. 38 A B B A коммутативность сложения. A B C A B C - ассоциативность сложения. A B B A коммутативность умножения. A B C A B C ассоциативность умножения A B C A B A C закон дистрибутивности. Вероятность появления хотя бы одного из событий Теорема Вероятность появления хотя бы одного из событий A1 , A 2 , , A n , независимых в совокупности, равна разности между единицей и произведением вероятностей противоположных событий P A 1 P A1 P A 2 P A n 1 q1 q2 qn Следствие. При производимых n одинаковых независимых испытаниях, в каждом из которых события A появляется с вероятностью p , вероятность появления события A хотя бы один раз равна P A 1 1 p n Пример В урне 30 шаров: 10 красных, 5 синих и 15 белых. Найти вероятность появления цветного шара. Решение Появление цветного шара означает появление либо красного, либо синего шара. Вероятность появления красного шара (событие A ) P A 10 1 30 3 Вероятность появления синего шара (событие B ) P B 5 1 30 6 События A и B несовместны (появление шара одного цвета исключает появление шара другого цвета), поэтому теорема сложения применима. Искомая вероятность P A B P A P B 1 1 1 3 6 2 Пример На стеллаже в библиотеке стоит 15 учебников, причем 5 из них в переплете. Библиотекарь берет три учебника. Найти вероятность того, что хотя бы один из взятых учебников окажется в переплете. Решение 39 Первый способ. Пусть события A – хотя бы один учебник в переплете; B – один из взятых учебников в переплете, два – без переплета; C – два в переплете, один без переплета; D – все три учебника в переплете. Очевидно, A B C D . Найдем вероятности событий B , C , и D . C 51C102 45 , 3 C15 91 3 C 2 . P( D ) 53 C15 91 P (C ) P( B ) Тогда P( A) P( B ) P(C ) P( D ) C 52 C101 20 , 3 C15 91 67 . 91 Второй способ. Вновь A – хотя бы один учебник в переплете; A - ни один из взятых учебников не имеет переплета. Так как события A и A противоположные, то C103 24 67 . P( A) 1 P( A) 1 3 1 C15 91 91 Пример Студент разыскивает нужную ему формулу в трех справочниках. Вероятности того, что формула содержится в первом, втором и третьем справочниках равны 0,6; 0,7 и 0,8. Найти вероятности того, что формула содержится 1) только в одном справочнике; 2) только в двух справочниках; Решение A – формула содержится в одномсправочнике; B – формула содержится в двух справочниках; Воспользуемся теоремами сложения и умножения вероятностей. P ABC ABC ABC P ABC P ABC P ABC 0,6 0,3 0,2 0,4 0,7 0,2 0,4 0,3 0,8 0,188 P ABC ABC ABC 0,6 0,7 0,2 0,6 0,3 0,8 0,4 0,7 0,8 0,452 40 Диаграммы Эйлера-Венна Основные действия над событиями можно интерпретировать с помощью диаграмм Венна. Леонард Эйлер (1707-1783) — российский и швейцарский математик, внѐсший значительный вклад в развитие теории вероятностей и ряда прикладных наук. Эйлер — автор более чем 800 работ. Почти полжизни провѐл в России, где внѐс существенный вклад в становление российской науки. Диаграммы Венна- Эйлера используется в математике, логике, менеджменте и других прикладных направлениях, обычно изображается в виде кругов одинакового радиуса. Особенного расцвета графические методы достигли в сочинениях английского логика Джона Венна (1843—1923), подробно изложившего их в книге «Символическая логика», изданной в Лондоне в 1881 году. Поэтому такие схемы иногда называют диаграммы Эйлера — Венна. На диаграмме ЭйлераВенна сумму событий можно изобразить в виде кругов (прямоугольник – изображение множества всех возможных исходов опыта). Диаграммы Венна нашли применение в современной логико-математической теории «формальных нейронных сетей». Диаграмма, иллюстрирующая совместных событий. сумму Диаграмма, иллюстрирующая сумму несовместных событий 41 Диаграмма, иллюстрирующая сумму трех совместных событий. A B C Диаграмма, произведение событий. 42 иллюстрирующая совместных Принцип практической невозможности При решении многих практических задач приходится иметь дело с событиями, вероятность которых весьма мала, т. е. близка к нулю. Можно ли считать, что маловероятное событие A в единичном испытании не произойдет? Такого заключения сделать нельзя, так как не исключено, хотя и мало вероятно, что событие A наступит. Казалось бы, появление или не появление маловероятного события в единичном испытании предсказать невозможно. Однако длительный опыт показывает, что маловероятное событие в единичном испытании в подавляющем большинстве случаев не наступает. На основании этого факта принимают следующий «принцип практической невозможности маловероятных событий»: если случайное событие имеет очень малую вероятность, то практически можно считать, что в единичном испытании это событие не наступит. Естественно возникает вопрос: насколько малой должна быть вероятность события, чтобы можно было считать невозможным его появление в одном испытании? На этот вопрос нельзя ответить однозначно. Для задач, различных по существу, ответы будут разными. Например, если вероятность того, что парашют при прыжке не раскроется, равна 0,01, то было бы недопустимым применять такие парашюты. Если же вероятность того, что поезд дальнего следования прибудет с опозданием, равна 0,01, то можно практически быть уверенным, что поезд прибудет вовремя. Определение Достаточно малую вероятность, при которой событие можно считать практически невозможным, называют уровнем значимости. На практике обычно принимают уровни значимости, заключенные между 0,01 и 0,05. Уровень значимости, равный 0,01, называют однопроцентным; уровень значимости, равный 0,02, называют двухпроцентным и т. д. 43 Подчеркнем, что рассмотренный здесь принцип позволяет делать предсказания не только о событиях, имеющих малую вероятность, но и о событиях, вероятность которых близка к единице. Действительно, если событие A имеет вероятность близкую к нулю, то вероятность противоположного события близка к единице. С другой стороны, не появление события A означает наступление противоположного события A . Таким образом, из принципа невозможности маловероятных событии вытекает следующее важное для приложении следствие: если случайное событие имеет вероятность очень близкую к единице, то практически можно считать, что в единичном испытании это событие наступит. Разумеется, и здесь ответ на вопрос о том, какую вероятность считать близкой к единице, зависит от существа задачи. Контрольные вопросы 1. Что относится к основным понятиям теории вероятностей? 2. Назовите действия над событиями. 3. Виды случайных событий. 4. Дайте классическое определение вероятности. 5. Дайте статистическое определение вероятности. 6. Чему равна вероятность суммы двух несовместных событий? 7. Дайте определение произведения двух событий 8. Как определяется вероятность появления хотя бы одного события 9. Как определяется условная вероятность? 10. Сформулируйте теорему совместного появления двух событий. 11. Приведите формулу для вычисления вероятностей совместных событий. 44 Следствием двух основных теорем теории вероятностей – теоремы сложения и умножения – являются формула полной вероятности и формула Бейеса. Формула Байеса, дает возможность оценить вероятность событий эмпирическим путѐм, играет важную роль в современной математической статистике и теории вероятностей. Томас Байес (Бейес, Reverend Thomas Bayes]) (1702 —1761) — английский математик. Математические интересы Байеса относились к теории вероятностей. Он сформулировал и решил одну из основных задач этого раздела математики (теорема Байеса). Работа, посвящѐнная этой задаче, была опубликована в 1763 году, уже после его смерти. Формула Байеса — одна из основных теорем элементарной теории вероятностей, которая определяет вероятность того, что произошло какое-либо событие (гипотеза), имея на руках лишь косвенные тому подтверждения (данные), которые могут быть неточны. Названа в честь ее автора, преп. Томаса Байеса (посвященная ей работа впервые опубликована в 1763 году, уже после его смерти). Полученную по формуле вероятность можно далее уточнять, принимая во внимание данные новых наблюдений. Изучение какого-либо объекта исследователь начинает с предположений ( версии, гипотезы).Например: экзаменатор, предлагающий студенту билет, выдвигает гипотезы, что студент учил материал и т.д. Определение Гипотезы Н1, Н 2 , Н s - события, в условиях которых только и может появиться событие A , обозначим Н1, Н 2 , Н s Вычисляя вероятность выдвигаем различные A предположения (гипотезы) относительно обстоятельств, которые могут привести к событию A . Определение Априорные гипотезы – гипотезы, полученные до предстоящего опыта, апостериорные - после. Формула Бейеса 45 После выдвижения гипотезы исследователь ставит опыты, результат опыта фиксируют. На их основании надо высказать новое мнение о первоначальной гипотезе. Какая из них подтвердилась, какая нет. Стоит ли продолжать опыты? Как долго? Томас Бейес изложил свой подход к решению таких задач. Томас Бейес (1702-1761) – английский математик, был священником. Его формула позволяет эмпирически оценить вероятность события, работа была опубликована после его смерти. Она применяется, когда событие А , которое может появиться только с одной из гипотез A1, A2 An образующих полную группу событий, произошло и необходимо произвести количественную переоценку априорных вероятностей этих гипотез, т.е. найти апостериорные условные вероятности . Рассмотрим полную группу несовместных событий, вероятности появления которых PH1 , PH 2 ,…, PH s . Считаем, что они известны. Событие А может наступить только вместе с каким-либо из событий H1 , H 2 , H s Вероятность появления события А по формуле полной вероятности будет P A P H1 P A H1 P H 2 P A H 2 P H s P A H s Пусть событие А произошло, тогда это изменит вероятности гипотез PH1 , PH 2 ,, PH s . Тогда определим условные вероятности осуществления этих гипотез в предположении, что событие А произошло, т.е определим Р Н A , Р Н 2 A , Р Н s A 1 Тогда P A H1 PH1 P A H1 P A P H1 A PH1 A 46 PH1 PA H1 P A Или P H i A P H i P A H i P A Формула называется – формулой Бейеса Значение формулы Бейеса состоит в том, что при наступлении события А , т.е. по мере получения новой информации, мы можем проверять и корректировать выдвинутые до испытания гипотезы. Такой подход называемый бейесовским, дает возможность корректировать управленческие решения в экономике, оценки неизвестных параметров распределения изучаемых признаков в статистическом анализе. Замечание Формула Бейеса предназначена для вычисления апостериорных вероятностей гипотез после проведения опыта с учетом полученной информации (событие А уже произошло. Замечание Психологические эксперименты показали, что люди при оценках вероятности игнорируют различие априорных вероятностей (ошибка базовой оценки), и потому правильные результаты, получаемые по теореме Бейеса, могут очень отличаться от ожидаемых. Пример. После двух выстрелов двух стрелков, вероятности попаданий которых равны 0,6 и 0,7, в мишени оказалась одна пробоина. Найти вероятность того, что попал первый стрелок. Решение Пусть событие А – одно попадание при двух выстрелах, а гипотезы: H1 – первый попал, а второй промахнулся, H 2 – первый промахнулся, а второй попал, H 3 – оба попали, H 4 – оба промахнулись. Вероятности гипотез: 47 pH1 0,6 0,3 0,18 , pH 2 0,4 0,7 0,28 , , pH 4 0,4 0,3 0,12 . Тогда p H 3 0,6 0,7 0,42 A A A A p p 1 , p 0 . p H1 H2 H4 H3 Следовательно, полная вероятность p A 0,18 1 0,28 1 0,42 0 0,12 0 0,46 . Применяя формулу Бейеса, получим: Пример Студент подготовил к экзамену 20 билетов из 25. В каком случае шансы взять известный билет больше - когда студент пришел на экзамен первым или вторым? Решение 20 4 P1 25 5 Выбор 1-го 20 25 20 20 25 + 5 20 25 20 25 Найдем вероятность P2 взять известный билет, придя на экзамен вторым, учитывая, что первый может взять как известный, так и неизвестный второму билет. P2 20 19 5 20 4 25 24 25 24 5 Пример Студент приходит в медпункт и жалуется на плохое самочувствие. У медсестры две гипотезы H1 - он действительно болен, H 2 - он здоров, но хочет получить справку. По внешнему виду она оценивает априорные 48 вероятности PH1 0,3 , PH 2 0,7 и ставит ему градусник. Измеренная температура 37.5 (событие А ). A 0,9 P H1 Предположим, повышается температура), (не при A 0,05 P H2 всякой (у болезни некоторых здоровых людей нормальная температура немного повышена или студент мог незаметно натереть градусник). Теперь апостериорная вероятность того, что студент болен: 0.3 0.9 H P 1 0.885 A 0.3 0.9 0.7 0.05 и у медсестры есть все основания направить студента к врачу. Физический смысл и терминология формулы Бейеса Формула Бейеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной. События, отражающие действие «причин», в данном случае обычно называют гипотезами, так как они — предполагаемые события, повлекшие данное. Безусловную вероятность справедливости гипотезы называют априорной, а условную - с учетом факта произошедшего события — апостериорной (насколько вероятна причина оказалась с учетом данных о событии). Можно также уточнять вероятность гипотезы, учитывая другие имеющиеся данные (другие произошедшие события). Для учета каждого следующего события нужно в качестве априорной вероятности гипотезы подставлять ее апостериорную вероятность с предыдущего шага. Формулу Бейеса иногда называют формулой переоценки гипотез. Она позволяет дать оценку вероятности гипотез после 49 того, как произошло событие. Томас Бейес формулу не выводил, она названа в честь признания его работ по теории вероятностей. Формула полной вероятности события Важным следствием формулы Байеса является формула полной вероятности события, зависящего от нескольких несовместных гипотез (и только от них!). Следствием двух основных теорем теории вероятностей – теоремы сложения и умножения – являются формула полной вероятности. Теорема Полная вероятность события A равна сумме произведений вероятностей гипотез на условные вероятности события вычисленные соответственно при каждой из гипотез. is P A PH i PA H i i 1 Доказательство Пусть А - событие, вероятность которого надо вычислить. Полагаем, что это события несовместимы, а их совокупность охватывает всевозможные события, которые могут привести к А , т.е. они образуют полную группу несовместимых событий. Вероятности их обозначим P H 1 , P H 2 ,, P H s На основании следствия из теоремы сложения PH1 PH 2 PH s 1 Введем условные вероятности осуществления А при каждой из гипотез P A H1 , P A H 2 ,, P A H s Найдем полную вероятность события А Событие А может наступить, если наступит событие Вероятность наступления умножения равна H 1 и затем А на основании теоремы PH1 и A PH1 PA H1 50 H1 . Но событие А может наступить, если наступит событие H 2 . и т.д. Для определения полной вероятности события А безразлично каким образом появится А На основании теоремы сложения о несовместных событиях получим P A PH1 и A PH 2 и A PH s и A Заменяя слагаемые их значениями, имеем P A PH1 P A | H1 PH 2 P A | H 2 PH s P A | H s is Или P A PH i PA H i . i 1 Пример Имеются три одинаковые урны с шарами. В первой из них 3 белых и 4 черных шара, во второй – 2 белых и 5 черных, в третьей – 10 черных шаров. Из случайно выбранной урны наудачу вынут шар. Найти вероятность того, что он белый. Решение Будем считать гипотезами H1 , H 2 и H 3 выбор урны с соответствующим номером. Так как по условию задачи все гипотезы равновозможны, то PH1 PH 2 PH 3 1 3 Найдем условную вероятность А при реализации каждой гипотезы: A A 3 A 2 0 . , P , P P H 7 H H 7 1 2 3 Тогда 1 3 1 2 1 P A 0 0.238 . 3 7 3 7 3 Замечание Вероятность наступления события B , зависящего от ряда гипотез H i , если известны степени достоверности этих гипотез (например, измерены экспериментально); 51 Метод фильтрации спама При проверке письма вычисляется вероятность того, что оно — спам для множества гипотез. «гипотезы» — это слова, и для каждого слова «достоверность гипотезы» — % этого слова в письме, а «зависимость события от гипотезы» P B Ai — вычисленный ранее «вес» слова. То есть «вес» письма - усредненный «вес» всех его слов. Отнесение письма к «спаму» или «не-спаму» производится по тому, превышает ли его «вес» планку, заданную пользователем ( 60-80 %). После принятия решения по письму в базе данных обновляются «веса» для вошедших в него слов. Недостаток метода :базируется на том, что одни слова чаще встречаются в спаме, а другие — в обычных письмах, и неэффективен, если данное предположение неверно Замечание если 80% писем, содержащих словосочетание "разговорный английский", являлись спамом, то и следующее письмо с этим словосочетанием - спам, причем с большой долей вероятности. Контрольные вопросы 1. Как определяется условная вероятность? 2. При каких условиях применяется формула Байеса? 3. В каких случаях применяется формула полной вероятности? Каким свойствам должны удовлетворять гипотезы? 4. Что такое априорные и апостериорные вероятности? 5. Если все априорные вероятности гипотез одинаковы, то остаются ли их апостериорные вероятности также всегда одинаковыми? 52 Задачи для самостоятельно решения 1. В денежно-вещевой лотерее на каждые 10 000 билетов разыгрывается 150 вещевых и 50 денежных выигрышей. Чему равна вероятность выигрыша, безразлично денежного или вещевого, для владельца одного лотерейного билета? Отв. p 0.02 . 2. Вероятность того, что стрелок при одном выстреле выбьет 10 очков, равна 0,1; вероятность выбить 9 очков равна 0.3; вероятность выбить 8 или меньше очков равна 0,6. Найти вероятность того, что при одном выстреле стрелок выбьет не менее 9 очков. Отв. p 0.4 . 3. В партии из 10 деталей 8 стандартных. Найти вероятность того, что среди наудачу извлеченных 2 деталей есть хоти бы одна стандартная Отв. p 44 . 45 4. В ящике 10 деталей, среди которых 2 нестандартных. Найти вероятность того, что в наудачу отобранных 6 деталях окажется не более одной нестандартной детали. Отв. `р = 2/3`. 5. Указание. Если A — нет ни одной нестандартной детали, B — есть одна нестандартная деталь, то 6. `P(A+B)=P(A)+P(B)=(C_8^6)/ (C_10^6)+(C_2^1*C_8^5)/(C_10^6)` 7. События A , B , C и D образуют полную систему. P A 0.1 ; PB 0.4 ; Вероятности событий таковы: PC 0.3 . Чему равна вероятность события D ? Отв. PD 0.2 8. По статистическим данным ремонтной мастерской в среднем на 20 остановок токарного станка приходится: 10—для смены резца; 3 — из-за неисправности привода; 2 — из-за несвоевременной подачи заготовок. Остальные остановки происходят по другим причинам. Найти вероятность остановки станка по другим причинам. Отв. `р = 0,25`. 53 9. Вероятность того, что стрелок при одном выстреле попадает в мишень, равна р = 0,9. Стрелок произвел 3 выстрела. Найти вероятность того, что все 3 выстрела дали попадание. Отв. 0,729. 10. Брошены монета и игральная кость. Найти вероятность совмещения событий: «появился герб», «появилось 6 очков» Отв. `1/12`. 11. В двух ящиках находятся детали: в первом — 10 (из них 3 стандартных), во втором — 15 (из них 6 стандартных). Из каждого ящика наудачу вынимают по одной детали. Найти вероятность того, что обе детали окажутся стандартными. Отв. 0,12. 12. В студии телевидения 3 телевизионных камеры. Для каждой камеры вероятность того, что она включена в данный момент, равна р= 0,6. Найти вероятность того, что в данный момент включена хотя бы одна камера (событие А ) Отв. 0,936 13. Чему равна вероятность того, что при бросании трех игральных костей 6 очков появится хотя бы на одной из костей (событие А)? Отв. 91 216 14. Предприятие изготовляет 95% изделий стандартных, причем из них 86%— первого сорта. Найти вероятность того что взятое наудачу изделие изготовленное на этом предприятии окажется первого сорта. Отв. 0,817 15. Монета бросается до тех пор, пока 2 раза подряд она не выпадет одной и той же стороной. найти вероятность следующих событий: а) опыт окончится до шестого бросания. б) потребуется четное число бросания. Отв. а) 2 15 б) 3 16 16. Из цифр 1,2,3,4,5 сначала выбирается одна, а затем из оставшихся четырех — вторая цифра. Предполагается, что все 20 возможных исходов равновероятны Найти вероятность того, что будет выбрана нечетная цифра: а) в первый раз; б) во второй раз; в) в оба раза Отв. а) 54 3 3 3 б) в) 7 5 5 17. Вероятность того, что при одном выстреле стрелок попадет в десятку, равна 0,6. Сколько выстрелов должен сделать стрелок, чтобы с вероятностью не менее 0,8. он попал в десятку хотя бы один раз? Отв. n 2 . 18. Три электрические лампочки последовательно включены в цепь. Вероятность того, что одна (любая) лампочка перегорит, если напряжение в сети превысит номинальное, равна 0,6. Найти вероятность того, что при повышенном напряжении тока в цепи не будет разрыва.Отв. 0,936 19. Вероятность того, что событие А появится хотя бы один раз при двух независимых испытаниях, равна 0,75. Найти вероятность появления события в одном испытании (предполагается, что вероятность появления события в обоих испытаниях одна и та же), Отв. 0,5. 20. Вероятность поражения цели первым стрелком при одном выстреле равна 0,8, а вторым стрелком — 0,6. Найти вероятность того, что цель будет поражена только одним стрелком Отв. 0,44 . 21. Отдел технического контроля проверяет изделия на стандартность. Вероятность того, что изделие нестандартно, равна 0,1 Найти вероятность того, что: а) из трех проверенных изделий только одно окажется нестандартным; б) нестандартным окажется только четвертое по порядку проверенное изделие. Отв. а) 0.243; б) 0,0729 . 55 Лекция 4 Случайные величины, классификация Теоретические и экспериментальные исследования показывают, что случайные величины являются существенным элементом любой модели, предназначенной для описания условий и результатов многих экспериментов. Пусть в результате опыта могут наступать различные сл. события, причем наступлению каждого из них можно поставить в соответствие однозначное число. Случайные события - это качественная характеристика случайного результата опыта, но случайный результат можно характеризовать и количественно. Определение Случайная величина – величина, которая в результате опыта может принять то или иное значение, но неизвестно заранее какое именно. Случайная величина – числовая функция от случайного события, определенное обобщение понятия случайного события. Принятие случайной величиной конкретного значения представляет собой событие, все теоремы можно применять для случайных величин. Пример Число выпадания герба про бросании монеты, -ошибка при измерении, - количество транзисторов, отказывающих за некоторый промежуток времени Случайные величины обозначают заглавными буквами X , Y , Z , а их всевозможные значения, соответственно малыми x, y, z Фундаментальные условия определения СС – непредсказуемость исхода, – и устойчивая относительная частота СС. Среди случайных величин можно выделить два основных класса: дискретные случайные величины 56 непрерывные случайные величины. Определение Дискретная случайная величина – величина, возможные значения которой отделимы друг от друга, принимающая конечное или счетное множество значений. Определение Непрерывная случайная величина – величина, возможные значения которой неотделимы друг от друга и непрерывно заполняют некоторый интервал. Законы распределения случайной величины Полное описание случайной величины дает закон ее распределения. Определение Закон распределения вероятностей случайной величины – соотношение, устанавливающее связь между вероятностями, с которыми случайная величина принимает различные значения и самими возможными значениями случайной величины.. Закон распределения может быть представлен в виде: таблицы, аналитической зависимости графика. Пусть X некоторая случайная величина, которая принимает значения x1, x2 , , xs Вероятность того, что случайная величина X примет конкретное значение x i , обозначим P X xi Пример Случайная величина X число очков, выпадающих при бросании игральной кости. P X xi 1 6 Пример Вероятности того, что студент сдаст экзамен в сессию по дисциплинам А и Б равны 0.7 и 0.9. Составить закон распределения числа экзаменов, которые сдаст студент. Решение 57 Случайная величина x – число сданных экзаменов 0,1, 2. P x 1 P A A A A 0.7 0.1 0.3 0.9 0.34 P x 0 P A1 A2 0.3 0.1 0.03 1 2 2 1 P x 2 P A1 A2 0.7 0.9 0.63 Определение Ряд распределения - закон распределения вероятностей дискретной случайной величины, заданный в виде таблицы, в первой строке даны значения СВ, а во второй – соответствующие им вероятности. Пример. Два стрелка делают по одному выстрелу по мишени. Вероятности их попадания при одном выстреле равны соответственно 0,6 и 0,7. Составить ряд распределения случайной величины Х – числа попаданий после двух выстрелов. Решение Очевидно, что Х может принимать три значения: 0, 1 и 2. Их вероятности найдены в примере, рассмотренном в лекции 3. Следовательно, ряд распределения имеет вид: xi 0 1 2 pi 0,12 0,46 0,42 Простейшая форма закона распределения дискретной случайной величины - ряд. Для наглядности ряд распределения представляют графически, в виде гистограмм, диаграмм. Определение Многоугольник распределения (полигон распределения)– график, по оси абсцисс всевозможные значения случайной величины, по оси ординаты вероятности и ординаты соединены непрерывной кривой. 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 58 0 1 2 3 4 Замечание Сумма все ординат многоугольника распределения - вероятность всех значений случайной величины, и, следовательно, равна 1. Замечание При построении многоугольника распределения надо помнить, что соединение полученных точек носит условный характер. В промежутках между значениями случайной величины вероятность не принимает никакого значения. Точки соединены только для наглядности. Определение Многомодальное распределение (двухмодальное) – распределение, имеющее два или несколько максимумов у многоугольника распределения для дискретной случайной величины или на кривой распределения для непрерывной случайной величины. Если распределение имеет минимум, но не имеет максимума, то оно называется антимодальным Теорема (характерное свойство многоугольника распределения) Сумма ординат многоугольника распределения или сумма всех возможных значений случайной величины всегда равна 1 is Pxi 1 i 1 Доказательство Значения, которые может принимать сл.величина, являются событиями несовместными( в одном опыте может выпасть только одно какое-либо значение) и в совокупности составляют полную группу событий. Замечание is Pxi 1 - говорят единица распределена между i 1 значениями случайной «распределение». величины, отсюда и термин 59 Интегральный закон распределения Определение Функцией распределения F(x) случайной величины X называется вероятность того, что случайная величина примет значение, меньшее x : F x P X x 0 P 1 P P F x 1 2 P1 P2 Pn 1 1 x x1 x1 x x2 x2 x x3 xn 1 x xn x xn Свойства функции распределения 1) 0 F x 1 . Действительно, так как функция распределения представляет собой вероятность, она может принимать только те значения, которые принимает вероятность. 2)Функция распределения является неубывающей функцией, то есть F x2 F x1 при x2 x1 . Это следует из того, что F x2 P X x2 P X x1 P x1 X x2 F x1 . 3) lim F x 0, lim F x 1 . x x В частности, если все возможные значения Х лежат на интервале a, b , то F x 0 при x a и F x 1 при x b . Действительно, X a – событие невозможное, а X b – достоверное. 4) Вероятность того, что случайная величина примет значение из интервала a, b , равна разности значений функции распределения на концах интервала: 60 Pa X b F b F a Справедливость этого утверждения следует из определения функции распределения. Для дискретной случайной величины значение F(x) в каждой точке представляет собой сумму вероятностей тех ее возможных значений, которые меньше аргумента функции. Функция распределения дискретной случайной величины имеет – ступенчата со скачками в точках возможных значений случайной величины. Высоты ступени равны в каждой точке вероятности соответствующего значения случайной величины. График функции распределения имеет ступенчатый вид: З амеча ние Кажда я случай ная велич ина полностью определяется своей функцией распределения. Замечание Функция распределения связана с законом распределения и является одной из форм его выражения (интегральный закон распределения). Пример Пусть X -случайное число очков, выпавших при одном бросании игральной кости. Написать интегральный закон распределения случайной величины. Решение Функция распределения (интегральный закон распределения случайной величины) имеет вид: 61 0, x 1 1 , 1 x 2 5 1 1 , 2 x3 5 6 1 1 1 F x , 3 x 4 5 6 6 1 1 1 1 5 6 6 6 4 x 5 1 1 1 1 1 5 x 6 5 6 6 6 6 x6 1, Числовые характеристики дискретной случайной величины В ТВ для общей характеристики случайной величины используются числовые характеристики. Они выражают наиболее существенные особенности того или иного распределения. Закон распределения полностью характеризует случайную величину. Однако, когда невозможно найти закон распределения, или этого не требуется, можно ограничиться нахождением значений, называемых числовыми характеристиками случайной величины. Эти величины определяют некоторое среднее значение, вокруг которого группируются значения случайной величины, и степень их разбросанности вокруг этого среднего значения. Характеристики положения Характеристики положения дают представление о положении случайной величины на числовой оси. К ним относятся: Математическое ожидание 62 Мода Медиана Определение Математическое ожидание – величина, равная сумме произведений отдельных значений, которые может принимать переменная на соответствующие им вероятности: is x М X xi pxi . i 1 Замечание Если X - дискретная случайная величина, принимающая счетное количество значений, то математическое ожидание существует тогда и только тогда, когда ряд сходится и при том абсолютно. Математическое ожидание – основная характеристика распределения. Она информирует о том, каков средний уровень значений, принимаемых случайной величиной. Математическое ожидание – число, около которого колеблются значения случайных величин и их средние значения по сериям опытов. Среднее арифметическое наблюдаемых значений случайной величины, при неограниченном возрастании числа испытаний, стремится к математическому ожиданию. Определение Отклонение – - центрированная случайная величина: xi M X Теорема Математическое ожидание центрированной случайной величины равно нулю. Доказательство n M x m x xk m x pk k 1 n n n k 1 k 1 k 1 xk pk m x pk m x m x pk m x m1 1 0 63 Замечание Отклонения противоположных знаков в среднем взаимно погашаются. Поэтому в качестве меры рассеивания берут математическое ожидание квадрата отклонения случайной величины. Свойства математического ожидания 1. Мат. ожидание линейно n n M ci xi ci M xi . i 1 i 1 2. Математическое ожидание - взвешенное среднее, так как оно приближенно равно среднему арифметическому наблюдаемых значений случайной величины при большом числе опытов. 3. Математическое ожидание не меньше наименьшего возможного значения случайной величины и не больше наибольшего. 4. Математическое ожидание дискретной случайной величины есть неслучайная (постоянная) величина 5. Математическое ожидание дискретной случайной величины X может не совпадать ни с одним из ее возможных значений. 6. Математическое ожидание постоянной равно самой постоянной M C C Доказательство Если рассматривать C как дискретную случайную величину, принимающую только одно значение C с вероятностью p 1 , M C C 1 C то: 7. Постоянный множитель можно математического ожидания M C x C M x 64 выносит за знак Доказательство Если случайная величина x задана рядом распределения x2 pi p2 то ряд расположения для Cx имеет вид pn Cxn xi Cxi pi x1 p1 Cx1 p1 Cx2 p2 xn pn 8. Математическое ожидание случайной величины определяет положение центра распределения вероятностей. 9. Математическое ожидание произведения двух независимых случайных величин равно произведению их математических ожиданий M X Y M X M Y 10. Математическое ожидание суммы двух случайных величин (зависимых или независимых) равно сумме математических ожиданий слагаемых: M X Y M X M Y Замечание Одному и тому же заданному математическому ожиданию может соответствовать бесчисленное множество случайный величин, различных не только по своей природе, но и по характеру. Математическое ожидание с.в. определяет положение центра распределения вероятностей. Определение Мода –значение случайной величины xi , имеющее наибольшую вероятность или наиболее вероятное значение. Обозначается m0 . Определение Число называется наивероятнейшее, если вероятность осуществления этого события не меньше вероятности других событий (мода) 65 np q m0 np p Определение Медиана - такое значение случайной величины, что выполняется условие. 1 P( X x1 ) P( X x1 ) 2 2 2 Обозначается медиана ME . Геометрически медиана – абсцисса точки, в которой площадь, ограниченная кривой распределения делится пополам. Замечание Все три характеристики (математическое ожидание, мода и медиана) не совпадают. Замечание Если распределение симметрично и модальное (имеет одну моду), то все они характеризуются одним положением и совпадают. Пример Если ряд распределения дискретной случайной величины Х имеет вид: x 1 2 3 4 p 0.1 0.7 0.15 0.05 то мода M 0 2 . Замечание Если распределение одномодальное, то мода и медиана совпадают с математическим ожиданием. Пример Рассмотрим две случайные величины: X и Y , заданные рядами распределения вида X 49 50 51 Y 0 100 p 0.1 0.8 0.1 p 0.5 0.5 Найти математическое ожидание дискретных случайных величин. Решение 66 M X 49 0.1 50 0.8 51 0.1 50 , M Y 0 0.5 100 0.5 50 . M X M Y , но если для случайной величины X M x хорошо описывает поведение случайной величины, являясь ее наиболее вероятным возможным значением, то значения Y существенно отстоят от M y . Следовательно, наряду с математическим ожиданием желательно знать, насколько значения случайной величины отклоняются от него, т.е. дисперсию. Характеристики рассеивания Значения наблюдаемых в практике с.в. всегда колеблются около среднего значения. Это явление называется рассеиванием величины около ее среднего значения. Числовые характеристики, описывающие это явление называются характеристиками рассеивания и основные из них дисперсия и среднее квадратичное отклонение. Само слово дисперсия – «рассеивание». Определение Дисперсией– называется математическое ожидание квадрата разности с.в. и ее мат.ожидания is D X M x mx 2 xi mx 2 p xi i 1 Дисперсия – сумма квадратов возможных отклонений с.в. от ее среднего значения, взятых с «весовыми» коэффициентами, равными вероятностям соответствующих отклонений. Или Дисперсия – математическое ожидание квадратов отклонений с.в. от ее среднего значения, количественная характеристика распределения с.в. Дисперсия, как и математическое ожидание являются величиной не случайной. 67 Таким образом, дисперсия – характеристика возможных отклонений с.в. от ее среднего значения. Чем большие отклонения в обе стороны от среднего значения возможны у данной с.в. и чем больше вероятности таких отклонений, тем больше дисперсия с.в. В частном случае, когда среднее значение равно нулю, дисперсия характеризует разброс значений с.в. в обе стороны от нуля. Теорема Дисперсия разность математического ожидания квадрата сл.в. и квадрата мат. ожидания с.в. D X M X 2 M 2 X Доказательство n n n k 1 k 1 k 1 D x x k m x 2 p k x 2k p k 2 x k m x p k n n n k 1 k 1 k 1 n m 2k pk k 1 x 2k p k 2 m x x k p k m 2k p k M x 2 2m x m x m x2 M x 2 m 2x Теорема нулю: Дисперсия постоянной величины С равна Dc 0 Доказательство Dc M c c 2 M 0 0 Теорема Постоянный множитель можно выносить за знак дисперсии, возведя его в квадрат DcX c 2 D X Доказательство M c X M X c M x M x c D X DcX M cX M cX 2 M cX cM x 2 2 68 2 2 2 2 Дисперсия суммы двух независимых случайных величин равна сумме их дисперсий: D X Y D X DY Дисперсия разности двух независимых случайных величин равна сумме их дисперсий: D X Y D X DY Замечание В определении дисперсии оценивается не само отклонение от среднего, а его квадрат. Это сделано для того, чтобы отклонения разных знаков не компенсировали друг друга. Замечание Из определения дисперсии следует, что эта величина принимает только неотрицательные значения. Замечание Существует более удобная для расчетов формула для вычисления дисперсии D X M X 2 M 2 X Пример Известны законы распределения сл.в. X , Y - числа очков выбиваемых 1, 2 стрелком. Какой из стрелков стреляет лучше. 1 – имеет большие вероятности при крайних случаях, у 2 – промежуточные значения. Стреляет лучше тот, кто в среднем выбивает большее количество очков. Это среднее количество и есть математическое ожидание. Но, если среднее число выбиваемых очков одинаково, тогда лучше стреляет тот, у кого меньше отклонения (разброс, вариация, рассеяние) этого числа относительно среднего значения. А это и есть дисперсия. В нашем примере D( X ) D(Y ) , следовательно 2 стрелку нужно сместить «центр» распределения числа выбиваемых очков, научиться лучше целиться в мишень. Определение Среднеквадратическое отклонение корень квадратный из дисперсии D X . – 69 Пользоваться среднеквадратичном отклонением удобнее, т.к. это величина имеет размерность самой с.в. Замечание Чем меньше рассеиваются значения с.в., тем точнее можно их предсказать. Замечание В финансовом анализе имеют большое значение характеристики мат.ожидание и дисперсия. X - распределение доходности некоторого актива (например акции), тогда M ( X ) - средняя (прогнозная) доходность актива, а D( X ) - мера отклонения, колебания доходности от ожидаемого среднего значения, т.е. риск данного актива Определение Начальным моментом k - порядка сл.величины Х называется математическое ожидание k степени этой величины. k M X k xik pi n i 1 Определение Центральным моментом k - порядка сл.величины Х называется математическое ожидание k степени отклонение сл.величины Х от ее мат.ожидания. n k M X M X xi a pi k k i 1 Замечание k 1 - первый начальный момент – мат.ожидание, k 2 - второй центральный момент – дисперсия. Параметры формы Если распределение не является симметричным, то можно оценить асимметрию кривой распределения с помощью центрального момента 3-го порядка. Действительно, для симметричного распределения все нечетные центральные моменты равны 0 ( как интегралы от 70 нечетных функций в симметричных пределах), поэтому выбран нечетный момент наименьшего порядка, не тождественно равный 0. Определение Коэффициент ассиметрии случайной .величины -числовая характеристика ассиметрии распределения A 3 3 Если A 0 , то распределение симметрично относительно мат.ожидания. Замечание Третий центральный момент – служит для характеристики ассиметрии распределения. Для оценки поведения кривой распределения вблизи точки максимума (для определения того, насколько «крутой» будет его вершина) применяется центральный момент 4-го порядка Определение Эксцесс - числовая характеристика крутости распределения E 4 4 3 . Эксцесс — показатель, который используется для характеристики островершинности фактического распределения по отношению к нормальному распределению. Для оценки эксцесса распределения используется четвертый центральный момент для двух типов данных Замечание Четвертый центральный момент – служит для характеристики крутости распределения. 71 E0 E 0 E0 Вероятность попадания дискретной величины в заданный интервал случайной Пусть задан закон распределения некоторой случайной величины X .Определим вероятность того, что случайная величина попадет в интервал a, b Pa X b i Pxi i где - выбирается так, чтобы x a , x - равное или ближайшее после a значение случайной величины, выбирается так, чтобы x b , x ближайшее значение сл.величины слева от b . Контрольные вопросы Дайте определение дискретной случайной величины. 2. Какими способами можно задать дискретную случайную величину? 3. Функция распределения. Свойства функции распределения. График функции распределения. 1. 72 Плотность распределения. Свойства распределения 5. Нахождение функции распределения по плотности распределения. 6. .Дайте определение математического дискретной случайной величины. Назовите математического ожидания. 7. Определение дисперсии дискретной величины. Формула для вычисления дисперсии. дисперсии. 4. плотности известной ожидания свойства случайной Свойства 73 Лекция 5 Законы распределения дискретной случайной величины Двухточечное распределение Пусть вероятность некоторого случайного события A равна , p где 0 p 1 . X - сл.вел. – число наступлений сл. события A в одном испытании. X - сл.вел может принять одно из двух значений 0 – если сл. событие A не наступило, 1 – если оно произошло. Закон распределения вероятностей сл. вел., имеющей двухточечное распределение можно записать следующим образом: PX 0 1 p PX 1 p Математическое ожидание этой случайной величины будет M X 0 1 p 1 p p Дисперсия D X M X 2 M 2 X M X 2 0 1 p 1 p p D X p p 2 p 1 p Двухточечное распределение редко применяется непосредственно, но его можно представить как суммы сл. вел., имеющих двухточечное распределение. 74 Распределение выборочного значения признака Рассмотрим пример. Пусть в университете обучаются N студентов. В качестве выборочного признака возьмем количественный признак- размер обуви. Обозначим его xk . после обследования всех студентов, получили следующие результаты, которые занесены в таблицу, где 1-ый столбик- xk , 2-ой- количество студентов с данным количественным признаком (размером обуви): x1 x2 M1 M2 … xk … Mk k Mi N i 1 Вероятность того, что y наудачу выбираемого студента размер обуви будет равен xi , вычислим по классической формуле P X xi Mi , N где M i - количество студентов с данным размером обуви. Получим ряд распределения ДСВХ - размера обуви всех студентов университета: xi pi x1 p1 x2 p2 … xk … pk k pi 1 i 1 Пример: Подбрасывают два кубика. Составить ряд распределения ДСВХ- сумма очков на двух кубиках. 75 Решение Выборочный количественный признак- сумма очков на кубиках. Общее количество исходов по правилу умножения n 6 6 36 . Всевозможные значения ДСВХ: все натуральные числа от 2-х до 12. Найдем количество благоприятствующих исходов для каждого значения ДСВХ: X 2: m 1; X 3 : m 2 ; X 4: m 3; X 5 : m 4 ; X 6: m 5; X 7 : m 6 ; X 8 : m 5; X 9 : m 4 ; X 10 : m 3 ; X 11 : m 2 ; X 12 : m 1 . Сумма всех mi равна 36. Находя отношения ряд распределения: 3 4 5 xi 2 pi 1 36 2 36 3 36 4 36 m , вычислим вероятности и заполним n 6 7 8 9 10 11 12 5 36 6 36 5 36 4 36 3 36 2 36 1 36 По полученному ряду распределения можно построить многоугольник распределения, вычислить числовые характеристики, построить интегральную функцию распределения, используя методы и формулы описанные в предыдущем параграфе. Биноминальное распределение (закон Бернулли) Данное распределение описывает весьма характерную для практики ситуацию последовательного осуществления ряда независимых опытов с одинаковыми возможными исходами при каждом из них. Например, если производится группа выстрелов по одной и той же цели, нас интересует не результат каждого выстрела, о общее число попаданий. 76 Подобно династиям монархов, существовала знаменитая династия ученых Бернулли - их даже звали, как королей: Якоб I, Иоганн I, Даниил I... Эти трое - математики и механики - снискали наибольшую известность. Всего в семье было 11 детей Якоб Бернулли доказал частный случай важнейшей теоремы теории вероятностей - закона больших чисел (названный позднее закон Пуассона). Он был опубликован после смерти Якоба Бернулли в его книге 'Искусство предположений' (1713). Через 200 лет та часть книги, что относилась к закону больших чисел, была переведена на русский язык Я.В.Успенским и издана в Петербурге под редакцией академика А.А.Маркова. Пусть вероятность наступления некоторого случайного события A при единичном испытании равна p , производится n - испытаний и в каждом из них случайное событие A может наступить с вероятностью p . Отдельные испытания независимы одно от другого. Это означает, что наступление (или ненаступление) случайного события A в данном испытании не влияет на вероятность наступления этого события в последующих испытаниях. Данное распределение описывает весьма характерную для практики ситуацию последовательного осуществления ряда независимых опытов с одинаковыми возможными исходами при каждом из них. Например, если производится группа выстрелов по одной и той же цели, нас интересует не результат каждого выстрела, о общее число попаданий. Найдем вероятность PX m - вероятность того, что событие A наступит в m испытаниях. Для того чтобы X m необходимо и достаточно, чтобы событие A наступило в m испытаниях, и не наступило в n m испытаниях. Так как по условию испытания независимы, то в соответствии с теоремой об умножении вероятностей независимых событий 77 p m 1 p n m - вероятность того что событие A наступило в m испытаниях, и не наступило в n m испытаниях, если заранее установлено, в каких испытаниях событие произойдет, а в каких нет. Но так как, безразлично произойдет ли событие A в 1, 3 или 5 испытании – лишь бы общее число наступлений его было m , то необходимо учесть все порядки наступления события A . Число таких порядков есть Сnm Таким образом, закон распределения будет PX m Cnm p m 1 p n m где m 0,1,, n , n -известное количество всех проведенных испытаний, m -число тех испытаний, в которых произошло событие A , p -вероятность появления события A в одном опыте. Определение ДСВХ, которая может принимать только целые неотрицательные значения с вероятностью Pn m P X m Cnm p m q n m , где p q 1 , m 0,1,2,3, , n , называется распределенной по биноминальному закону, а p - параметром биноминального распределения. Ряд распределения случайной величины, подчиненной биномиальному закону, можно представить в следующем виде: X m Pn m 0 1 Cn0 p 0 q n Cn1 p1q n 1 Функция формулой распределения … … в k nk … … случае определяется k Cnk этом p q 0 x0 m m nm 0 xn F x Cn p q 1 xn 78 n Cnn p n q 0 При значениях p близких к 0 , весьма вероятны малые значения X т.е. весьма вероятны малые числа наступлений случайного события A . При значениях p близких к 1 , весьма вероятны значения X , близкие к n т.е. весьма вероятно, что сл. событие A наступит почти во всех испытаниях Замечание Формула Бернулли совпадает с общим членом бинома Ньютона p q n p n C n1 p n1 q C n2 p n2 q 2 C nn1 p q n1 q n Замечание При p 1 - распределение симметрично, 2 при остальных ассиметрично. Пример Пассажиру удобно, когда все его попутчики лица одного пола, что и он. Сколько % таких пассажиров попадают в удобные условия. Решение Каждый пассажир покупает билет независимо от других людей. Мужчин, путешествующих, столько же сколько и женщин. Опыт – продажа одного билета. Событие A - пассажир мужчина. p A 0.5 , P4 4 P4 0 0.0625 P P4 4 P4 0 0.125 , 12% пассажиров попадают в удобные условия. Пример Составим ряд распределения случайной величины X – числа попаданий при 5 выстрелах, если вероятность попадания при одном выстреле равна 0,8. p X 0 1 0.25 0.00032 ; p X 1 1 0.24 0.0064 ; p X 2 10 0.82 0.2 3 0.0512 ; p X 3 10 0.83 0.22 0.2048 ; p X 4 5 0.84 0.2 0.4096 ; p X 5 1 0.85 0.32768 . 79 Таким образом, ряд распределения имеет вид: X p 0 0.00032 1 2 0.0064 0.0512 3 0.2048 4 0.4096 5 0.32768 Пример Определить вероятность того, что в семье, имеющей 5 деталей, будет не больше трех девочек. Вероятности рождения мальчика и девочки предполагаются одинаковыми. Решение Вероятность рождения девочки p 1 1 , тогда q .Найдем 2 2 вероятности того, что в семье нет девочек, родилась одна, две или три девочки: 5 1 , P5 1 C51 p1q 4 , 32 32 10 10 , P5 3 C53 p3q 2 . P5 2 C52 p 2q3 32 32 P5 0 q5 Следовательно, искомая вероятность P P5 0 P5 1 P5 2 P5 3 Числовые характеристики 13 . 16 биноминального распределения Математическое ожидание M X n n m0 m0 m PX m m Cnm p m 1 pn m np Если вероятность наступления некоторого сл. события в единичном испытании равна p , то при n испытаниях число наступлений его в среднем должно быть np Дисперсия D X np 1 p npq 80 Дисперсия имеет максимальное значение при p наоборот, чем более p отличается от p 1 , и 2 1 , тем дисперсия 2 меньше. Вывод: Для того чтобы случайная величина была распределена по закону Бернулли необходимо, чтобы все контролируемые факторы были неизменные, а испытания не должны зависеть друг от друга. Вероятность попадания ДСВХ, распределенной по биноминальному закону в k1 , k 2 . Рассмотрим теперь вероятность попадания ДСВХ, распределенной по биноминальному закону в некоторый интервал k1 , k 2 . По теореме сложения несовместных событий, вероятность того, что событие A появилось в n испытаниях от k1 до k 2 раз, равна Pn k1 , k 2 Cnm p m q n m k1 m k 2 Наивероятнейшее значение случайной величины Пусть в одном испытании вероятность появления события A равна P A p . Производится n таких испытаний. Будем считать, что исход каждого из n испытаний не зависит от исхода предшествующего испытания, то есть от того наступило ли событие A в предыдущем испытании или нет. Такие испытания называются независимыми относительно события А. В каждом из n испытаний вероятность появления события A вообще говоря может быть различной или одинаковой. Будем считать, что условия каждого испытания организованы одни и те же для того, чтобы событие A могло 81 появиться в каждом из них с одной и той же постоянной вероятностью p . Испытания, проведѐнные по такой схеме, то есть повторные независимые испытания с постоянной вероятностью появления события A называются испытаниями, проведѐнными по схеме Бернулли. Заметим, что P А в одном испытании P А 1 P A 1 p q Определение Наивероятнейшее значение случайной величины k0 – число испытаний, при котором достигается максимальная вероятность в n независимых испытаниях np q k0 np p Замечание Наивероятнейшее значение k 0 числа наступления события A при проведении n повторных независимых испытаний, удовлетворяющих схеме Бернулли, является целым числом. Пример Вероятность того, что стрелок при одном выстреле попадет в мишень равна 0,8. Стрелок произвел 7 выстрелов. Найти а) наивероятнейшее число попаданий в мишень; б) вероятность наивероятнейшего числа попаданий в мишень. Решение Эксперимент состоит в том, что стрелок последовательно производит 7 выстрелов по мишени, т.е. проводится 7 повторных независимых испытаний (количество испытаний конечно). Каждое испытание имеет два исхода: стрелок попал в мишень и стрелок не попал в мишень. Вероятность попадания в мишень в каждом испытании постоянно. Каждое испытание является независимым, так как по условию задачи вероятность попасть в мишень при одном выстреле (испытании) является величиной постоянной и не зависит от других испытаний. 82 Следовательно, указанный эксперимент удовлетворяет схеме Бернулли (схема Бернулли выполняется). a). По условию имеем: n 7 - число выстрелов (число испытаний в эксперименте); p 0.8 - вероятность попасть в мишень при одном выстреле (вероятность «успеха»); q 1 p 1 0.8 0.2 - вероятность не попасть в мишень при одном выстреле (вероятность «неудачи»). Найдем наивероятнейшее число k 0 числа попаданий в мишень по формуле: np q k0 np p . Тогда, 7 0.8 0.2 k0 7 0.8 0.8 Или 5.4 k0 6.4 . Так как наивероятнейшее число есть целое число, то наивероятнейшее число попаданий в мишень равно 6, то есть k0 6 . б). Рассмотрим событие F – из 7 выстрелов стрелок попадет в мишень ровно 6 раз. По условию имеем: n 7 - число выстрелов (число испытаний в эксперименте); p 0.8 - вероятность попасть в мишень при одном выстреле (вероятность «успеха»); q 1 p 1 0.8 0.2 - вероятность не попасть в мишень при одном выстреле (вероятность «неудачи»); k 6 – число попаданий в мишень. Найдем вероятность события F , то есть PF используя формулу Бернулли (1), так как эксперимент проводится по схеме Бернулли: Pn k Cnk p k q n k . Тогда, подставляя исходные данные, получим искомую вероятность PF P7 6 C76 0.86 0.27 6 C77 6 0.86 0.21 C71 0.86 0.2 7 0.262144 0.2 0.3670016 0.367 83 При вычислении числа сочетаний C76 воспользовались известным свойством Cnk Cnn k Ответ: а) k 0 6 ; б) PF 0.367 Закон Пуассона Закон Пуассона используют в технических исследованиях, действует в теории помехозащищенности, теории надежности. Пуассон Симеон Дени 1781-1840-выдающийся французский ученый, один из создателей современной математической физики, уже в двадцать лет Пуассон сделал свои первые математические работы, сразу принесшие ему известность . Написал свыше 350 работ в области небесной механики, механики, определенных интегралов, дифференциальных уравнений, рядов, теории вероятностей, статистики. Ввел термин «закон больших чисел» . Он уделял большое внимание применениям теории вероятностей в уголовном судопроизводстве. Один из его трактатов называется «Исследования о вероятности приговоров в уголовных и гражданских делах», трактат «О преимуществе банкира при игре в тридцать и сорок». С помощью открытой им же формулы можно, подсчитать вероятность того, что в коллективе, состоящем из 1999 человек, ровно k человек родились в тот же день, что и Пуассон ( k = 0,1,2,3,4,....). Можно вычислить как распределены опечатки в какойнибудь книге при условии, что существует постоянная вероятность того, что любая буква будет набрана наборщиком неправильно. Наблюдается некоторое случайное событие, вероятность наступления которого в единичном испытании есть p . Отдельные испытания независимы друг от друга, так что, наступление данного события в одном испытании не влияет на вероятность наступления этого события в других испытаниях. Эта вероятность находится по формуле Бернулли. 84 Пусть вероятность в единичном испытании есть p . – весьма мала и что число испытаний весьма велико. Т.е. np - есть постоянное, не слишком большое число. m PX m e m! Закон Пуассона. np - параметр Пуассона. m - число тех опытов, в которых произошло СС, m является случайной величиной в законе Пуассона. PX m вероятность того, что СС произойдет ровно m раз. Определение ДСВХ, которая принимает целые неотрицательные значения с вероятностями, PX m m m! e вычисляемыми по формуле Пуассона:, называется распределенной по закону Пуассона, где np - параметр распределения. Замечание При большом числе испытаний n и малой вероятности p формулой Бернулли пользоваться неудобно, например, 0.97 999 вычислить трудно. В этом случае для вычисления вероятности того, что в n испытаниях ( n – велико) событие произойдет k раз, используют формулу Пуассона. Эта формула дает удовлетворительное приближение для p 0.1 и np 10 . При больших np рекомендуется применять формулы Лапласа (Муавра-Лапласа). Числовые распределения характеристики пуассоновского Математическое ожидание и дисперсия M X np DX np 85 Отличительная особенность данного распределения состоит в том, что математическое ожидание и дисперсия равны параметру распределения X np , т.е. M X np D X . Это свойство часто применяют на практике для решения вопроса, правдоподобна ли гипотеза о том, что сл. величина распределена по закону Пуассона. Для этого определяют из опыта мат. ожидание и дисперсию. Если их значения близки, то это пуассоновское распределение. Распределение Пуассона находит широкое применение в статистическом контроле качества продукции. Один из методов контроля состоит в том, что в небольших контрольных партиях, случайно отобранных из готовой продукции, выясняется число X дефектных изделий в каждой партии. Это число есть случайная переменная с распределением Пуассона. Параметр Пуассона – среднее число дефектных изделий, обнаруженных в партиях Свойства распределения Пуассона 1. Вероятность того, что событие не появится ни разу при m0 P0 e 2. Вероятность того, что событие появится хотя бы один раз .P 1 1 P0 1 e - 3. Вероятность того, что сл. величина примет значение не меньшее заданного k P X k Pk Pk 1 1 P0 P1 Pk 1 4. Закон Пуассона приближенное выражение формулы Бернулли, когда число опытов велико, а вероятность 86 наступления события в каждом из них мала (закон Пуассона асимптотичен закону Бернулли). От этого свойства закона Пуассона – выражать биноминальное распределение при большом числе опытов и малой вероятности события происходит и его другое название закон редких явлений. Изучается редкий случай, когда вероятность появления случайного события в одном испытании p 1 . Теоретически считается, что p 0 . Рассмотрим примеры решения задач на применение биноминального закона и закона Пуассона. Пример В партии, содержащей 30 деталей имеется 20 стандартных. Наудачу выбирают три детали с возвращением. Составить ряд распределения ДСВХ- количество стандартных деталей среди отобранных. Решение: ДСВХ имеет биноминальное распределение, т.к. вероятность появления стандартной детали в каждом испытании - отбора детали, постоянна и равна 20 . Возможные значения ДСВХ: 30 0,1,2,3 . Найдем по формуле Бернулли вероятность появления каждого из возможных значений: P X 0 2 C30 0 3 1 1 1 1 1 27 27 3 3 1 2 2 1 2 2 1 P X 1 C31 3 3 9 9 3 3 P X 2 2 C32 P X 0 2 C33 2 4 1 4 1 3 9 3 9 3 3 3 0 8 8 1 1 1 27 27 3 3 Проверка: 1 2 4 8 1 27 9 9 27 87 Ряд распределения имеет вид: 0 1 X p 1 27 2 9 2 3 4 9 8 27 Найдем числовые характеристики : M X np 3 2 1 2 D X 3 3 3 3 2 2 3 X 2 0.8165 3 Пример АТС производит в среднем 2000 соединений в час. Вероятность неверного соединения равна 0,001. Какова вероятность того, что за час неверных соединений будет а) ровно три; б) менее трех; в) более трех. Решение Число n 2000 - велико, вероятность p 0.001 - мала и рассматриваемые события (неверные соединения) независимы, поэтому имеет место формула Пуассона Pn k а) Найдем параметр : np 2000 0.001 2 . а) Найдем вероятность того, что будет неверных соединения: k e k! ровно 3 ( k 3 ) e 2 0.0226 3! б) Найдем вероятность того, что будет менее трех неверных соединений: e 2 P2000 0 P2000 1 P2000 2 e 2 e 2 0.338 2 в) Найдем вероятность P того, что будет повреждено более трех изделий. События «повреждено более трех изделий» и «повреждено не более трех изделий» (обозначим вероятность этого события через q)—противоположны, поэтому p q 1 . P2000 3 88 Отсюда: P2000 1 P2000 0 P2000 1 P2000 2 P2000 3 1 0.338 0.0226 0.6394 Пример. Завод выпускает 96% изделий первого сорта и 4% изделий второго сорта. Наугад выбирают 1000 изделий. Пусть Х – число изделий первого сорта в данной выборке. Найти закон распределения, математическое ожидание и дисперсию случайной величины X . Решение Выбор каждого из 1000 изделий можно считать независимым испытанием, в котором вероятность появления изделия первого сорта одинакова и равна р = 0,96. Таким образом, закон распределения может считаться биноминальным. mx pn 1000 0,96 960; Dx npq 1000 0,96 0,04 38,4; 89 Контрольные вопросы Что называется биноминальным законом? Какие значения принимает ДСВХ? Записать формулы для вычисления числовых характеристик. 2. Когда применяются теоремы Муавра- Лапласа? При каком условии приближенные формулы дают более точный результат? 3. В каком случае применяется закон распределения Пуассона и в чем состоит его особенность? 4. Какое распределение называется геометрическим? Какие значения может принимать ДСВХ? Почему распределение называется геометрическим? Чем отличаются ряды распределения в случае, если число испытаний неограниченно и в случае, если - ограниченно? 5. Какое распределение называется биномиальным? 6. Какое распределение называется распределением Пуассона? 7. Какое распределение называется равномерном? 8. Какая формула используется для вычисления вероятности того, что в n испытаниях событие А появится ровно m раз при малом числе испытаний? 9. Какая формула используется для вычисления вероятности того, что в n испытаниях событие А появится ровно m раз при большом числе испытаний и вероятности p, отличной от 0 и 1? 10. Какая формула используется для вычисления вероятности того, что в n испытаниях событие А появится ровно m раз при большом числе испытаний и малой вероятности p? 11. Какая формула используется для вычисления вероятности того, что в n испытаниях событие А появится от a до b раз при большом числе испытаний и вероятности p, отличной от 0 и 1? 1. 90 Лекция 6 Непрерывные случайные величины В противоположность дискретной случайной величине совокупность возможных непрерывных значений случайной переменной не только неконечна, но и не поддается счислению. Определение Непрерывная случайная величина (НСВ) случайная величина, которая может принимать все значения из некоторого конечного или бесконечного промежутка. Пример Диаметр изготавливаемой детали на станке непрерывная случайная величина, т.к. возможны отклонения изза возникающих погрешностей ввиду температурных изменений, силы трения, неоднородности материала и т.д., а диаметр может принять любое значение из промежутка c, d . Замечание Множество возможных значений непрерывной случайной величины бесконечно и несчетно. Функция распределения непрерывной случайной величины Непрерывную случайную величину, так же как и ДСВ, можно задать с помощью функции распределения, которая равна вероятности того, что СВХ приняла значение меньшее заданного х. Она полностью характеризует случайную величину и является одной из форм закона распределения, а именно: F ( x) x f ( x)dx где f ( x) - функция плотности, F ( x) .-функция распределения или интегральный закон распределения. Функция распределения непрерывной величины всюду непрерывна. По виду функции распределения трудно судить о характере распределения случайной величины в небольшой окрестности той или иной точки числовой оси. 91 Функция величины плотности непрерывной случайной Законом распределения вероятностей непрерывной случайной величины – называют зависимость плотности от x . В такой форме закон распределения вероятностей непрерывной случайной величины называется дифференциальным. Определение Функция f (x) , называемая плотностью распределения непрерывной случайной величины, определяется по формуле: f ( x) F x , где F x - функция распределения. Замечание Смысл функции плотности распределения состоит в том, что она показывает как часто появляется случайная величина X в некоторой окрестности точки x при повторении опытов. Из геометрического смысла определенного интеграла следует, что вероятность попадания НСВХ в заданный интервал равна площади криволинейной трапеции, ограниченной осью абсцисс, прямыми x a и x b графиком функции f (x) который называется кривой распределения вероятностей. Т.к. в результате опыта случайная величина обязательно примет какое - либо из возможных значений, то : f ( x)dx 1 или b f ( x)dx 1 a -условие нормировки плотности. 92 Свойства функции плотности распределения. 1) Функция плотности неотрицательна f ( x) 0 , так как функция распределения является неубывающей. 2) Функция распределения F x x f t dt , что следует из определения плотности распределения. 3) Вероятность попадания случайной величины в интервал a, b определяется формулой b pa X b f x dx a Действительно, P a x b F b F a b a f x dx b f x dx f x dx a 4) Условие нормировки f x dx 1 Его справедливость следует из того, что а lim F x 1 . f x dx F , x 5) lim f x 0 так как F x const при x . x Таким образом, график плотности распределения представляет собой кривую, расположенную выше оси Ох. Эта ось является ее горизонтальной асимптотой при x (последнее справедливо только для случайных величин, множеством возможных значений которых является все множество действительных чисел). 93 Площадь криволинейной трапеции, ограниченной графиком этой функции, равна единице. Замечание. Если все возможные значения непрерывной случайной величины сосредоточены на интервале [a, b], то все интегралы вычисляются в этих пределах, а вне интервала [a, b] f ( x) 0 . Пример Плотность распределения непрерывной случайной величины задана формулой f x C 1 x2 , x Найти: а) значение константы C ; б) вид функции распределения; в)вероятность попадания в интервал p 1 x 1 . Решение. а) значение константы С найдем из условия нормировки: C 1 x 2 dx C arctgx C 2 2 C 1 откуда значение константы равно C б) F x вид 1 x 1 1 . функции x 1 распределения 1 1 1 dt arctgt arctgx arctgx 1 t 2 2 2 в) вероятность попадания в интервал p 1 x 1 p 1 x 1 1 1 1 1 1 1 Пример Функция распределения случайной величины имеет вид: 94 1 1 x 2 dx arctgx 1 4 4 0.5 непрерывной x2 0, x 2 F x ,2 x4 2 x4 1, Найти плотность распределения. Решение Плотность распределения определяется по формуле: f ( x) F x , где F x - данная функция распределения. x2 0, 0, x 2 x 2 f x , 2 x 4 0.5, 2 x 4 2 0, x 4 x4 1, Числовые характеристики непрерывной случайной величины Определение Мода – числовая характеристика, определяющая наиболее вероятностное значение для непрерывной случайной величины, то значение, в котором плотность максимальна. Обозначается M 0 . Определение Медиана Me – числовая характеристика, для которой одинаково вероятно окажется ли случайная величина меньше или больше Me P X Me P X Me Замечание Геометрически медиана – это абсцисса точки, в которой площадь, ограниченная кривой распределения, делится пополам. В случае симметричного модального распределения медиана совпадает с математическим ожиданием и модой. 95 Определение Математическое ожидание M x непрерывной случайной величины x , возможные значения которой принадлежат отрезку a, b - числовая характеристика, выраженная определенным интегралом M x x f x dx Здесь предполагается, что несобственный интеграл сходится абсолютно, т. е. существует. Определение Дисперсия непрерывной случайной величины X - числовая характеристика возможные значения которой принадлежат отрезку a, b , вида: D x 2 x M x f xdx При вычислении пользоваться формулой дисперсии НСВХ также можно Dx M x 2 M x 2 Определение Среднее квадратическое отклонение числовая характеристика, равная корню квадратному из дисперсии x Dx . Свойства математического ожидания и дисперсии НСВХ аналогичны свойствам числовых характеристик ДСВХ. Пример. НСВХ задана интегральной функцией 0; x 1; 1 1 F x x ; 1 x 3; 4 4 1; x 3 Найти вероятность того, что НСВХ примет значение из интервала(-2;2). Решение: 96 Т.к. значения НСВХ распределены на интервале (-1;3) и левее данного интервала F(x)=0, то интервал (-2;2) заменим на интервал (-1;2), тогда P 1,2 1 1 1 1 3 2 1 4 4 4 4 4 Пример НСВХ задана плотностью распределения 0, x 2 p x a cos x, x 2 2 0, x 2 Найти вероятность попадания в интервал ; . 4 Решение: b Найдем коэффициент а из условия px dx 1 a 2 a cos x a sin x 2 2 2a 1, a 1 2 2 ; , 2 2 Все значения НСВХ распределены на интервале тогда задача сводится к вычислению вероятности попадания ; : 2 4 НСВХ в интервал 97 1 P ; 2 4 2 1 4 1 2 1 0.8536 cos xdx sin x 2 2 2 2 2 2 Пример F x 1 0 x 6 Задан график интегральной функции распределения НСВХ (парабола с вершиной в начале координат). Задать НСВХ аналитически. Найти плотность распределения px и построить график, вероятность попадания в интервал (-2;4), числовые характеристики. Решение Все значения НСВХ распределены на интервале (0;6). На данном интервале графиком функции F x является парабола, уравнение которой y kx2 . Найдем k , подставив в уравнение параболы координаты точки (6;1): 1 36 k , откуда k 1 . 36 Тогда интегральная функция имеет вид: 0, x 0; 1 F x x 2 , 0 x 6; 36 1, x 6. Плотность распределения интегральной функции: 98 равна первой производной 0, x 0; 1 F x x, 0 x 6; 18 0, x 6. Построим ее график: Вычислим вероятность попадания НСВХ в интервал (-2;4). Т.к. левее х=0 вероятность равна нулю, вычислим вероятность попадания в интервал (0;4): P0,4 1 16 16 0.44 36 36 Найдем числовые характеристики: 6 1 x 3 6 63 2 M x x dx 4, 18 0 54 0 54 6 1 x 4 6 63 3 M x x dx 4, 18 0 72 0 54 2 Dx M x 2 M x 2 18 16 2 , x 2 1.41. Вероятность попадания в интервал b P a X b f ( x)dx F (b) F (a) a Если надо найти вероятность того, что случайная величина превысит заданное значение или меньше какого-то значения, то необходимо верхний предел положить или нижний 99 Контрольные вопросы Сформулировать определение непрерывной случайной величины. 2. Что такое плотность распределения вероятностей? 3. Каким свойством обладает плотность распределения вероятностей? 4. Какими свойствами обладает функция распределения непрерывной случайной величины? 5. Как найти интегральную функцию, зная плотность распределения и наоборот? 6. Перечислить свойства интегральной функции. 7. Дать определения числовым характеристикам НСВХ. 8. В чем различие между дискретной и непрерывной случайными величинами? 9. Как можно задать случайные величины? 10. Чем можно охарактеризовать случайные величины? 11. В чем смысл математического ожидания случайной величины? 12. Что характеризует дисперсия случайной величины? 1. Задачи для самостоятельного решения Плотность равномерного распределения сохраняет в интервале (а, b) постоянное значение, равное С; вне этого интервала f(x)=0. Найти значение постоянного параметра С. 2. Закон равномерного распределения задан плотностью вероятности f(x)=1/(b—а) в интервале (а, b); вне этого интервала f(x)=0. Найти функцию распределения F (х). 3. Найти математическое ожидание случайной величины X, равномерно распределенной в интервале (а, b). 4. Найти математическое ожидание случайной величины, X, распределенной равномерно в интервале (2, 8). 5. Найти дисперсию и стандартное отклонение случайной величины X, распределенной равномерно в интервале (a, b). 6. Найти дисперсию и стандартное отклонение случайной величины X, распределенной равномерно в интервале (2, 8). 1. 100 Равномерно распределенная случайная величина Х задана плотностью распределения f(x)= 1/(2l) в интервале (а-1, а+l); вне этого интервала f(x)=0. Найти математическое ожидание и дисперсию X. 8. Диаметр круга х измерен приближенно, причем а<x<b. Рассматривая диаметр как случайную величину X, распределенную равномерно в интервале {а, b), найти математическое ожидание и дисперсию площади круга. 9. Ребро куба х измерено приближѐнно, причѐм a<x<b. Рассматривая ребро куба как случайную величину Х, распределѐнную равномерно в интервале (a,b), найти математическое ожидание и дисперсию объѐма куба. 10. Цена деления шкалы амперметра равна 0,1 А. Показания округляют до ближайшего целого деления. Найти вероятность того, что при отсчете будет сделана ошибка, превышающая 0,02А. 7. 101 Лекция 7 Основные законы непрерывных случайных величин В теории и практике надежности чаще всего используются следующие законы распределения: равномерный закон распределения нормальный (Гаусса), логарифмически нормальный, Вейбулла, экспоненциальный (показательный) и др. Равномерный закон распределения Часто на практике мы имеем дело со случайными величинами, распределенными определенным типовым образом, то есть такими, закон распределения которых имеет некоторую стандартную форму. В лекции 8 были рассмотрены примеры таких законов распределения для дискретных случайных величин (биномиальный и Пуассона). Для непрерывных случайных величин тоже существуют часто встречающиеся виды закона распределения, и в качестве первого из них рассмотрим равномерный закон. Определение Закон распределения непрерывной случайной величины называется равномерным, если на интервале, которому принадлежат все возможные значения случайной величины, плотность распределения сохраняет постоянное значение const , при a x b ,. f x 0, при x a, x b Для того чтобы случайная величина подчинялась закону равномерного распределения необходимо, чтобы ее значения лежали внутри некоторого определенного интервала, и внутри 102 этого интервала значения этой случайной величины были бы равновероятны. Найдем значение, которое принимает f x при x a, b Из условия нормировки следует, что b b a a f x dx cdx cb a 1 Откуда f x c 1 . ba Плотность равномерного распределения имеет вид: 1 , x a, b f x b a 0, x a, b Непрерывное равномерное распределение характеризуется тем, что вероятность любого интервала зависит только от его длины. График плотности распределения Вероятность попадания равномерно распределенной случайной величины на интервал , (a Ј a < b Ј b) равна при этом 1 b a dx ba P x . ba 103 Замечание Равномерное распределение непрерывный аналог дискретного распределения вероятностей для опытов с равновероятными исходами. Вид функции распределения для нормального закона: 0, x a x a F x ,a xb b a 1, x b График функции распределения равномерной случайной величины Пример Автобусы некоторого маршрута идут с интервалом 5 минут. Найти вероятность того, что пришедшему на остановку пассажиру придется ожидать автобуса не более 2 минут. Решение Время ожидания является случайной величиной, равномерно распределенной в интервале [0, 5]. Тогда f x 1 2 , p0 x 2 0.4 . 5 5 Замечание Случайная величина имеет непрерывную строго возрастающую функцию распределения. Замечание Случайная величина, распределенная по равномерному распределению имеет практическое применение в имитационном моделировании, выступая основой генерирования любых случайных величин, потоков и случайных процессов. 104 Математическое ожидание и дисперсия случайной величины, распределенной по равномерному закону По определению вычислим математическое ожидание: x b2 a 2 ab dx ba 2b a 2 a ab или , M X 2 b 1 2 2 M ( X ) v2 x f x dx x 2dx ba a M X v1 xf x dx b a b ba a 3 b a 3 3 3 2 b , 2 D( X ) 2 M ( X 2 ) M 2 ( X ) b 2 ba a 2 a 2 2ba b 2 b a 3 4 12 2 или b a D( X ) 2 12 Замечание Мода равномерного распределения – любое число из отрезка a, b Замечание Коэффициент ассиметрии равен нулю Замечание Коэффициент эксцесса равен -6/5. Замечание Медиана совпадает с математическим ожиданием. 105 Экспоненциальное распределение Экспоненциальное распределение является одним из основных распределений, используемых в теории надежности. Например, продолжительность безотказной работы многих технических устройств, а также время задержки вылета самолѐта по вине технических служб аэропорта удовлетворительно описываются соответствующими экспоненциальными распределениями. Экспоненциальное распределение описывает наработку до отказа объектов, у которых в результате сдаточных испытаний отсутствует период приработки, а назначенный ресурс установлен до окончания периода нормальной эксплуатации. Экспоненциальный закон характерен для распределения случайных величин, изменение которых обусловлено влиянием доминирующего фактора. Он используется при рассмотрении внезапных отказов деталей в тех случаях, когда явления изнашивания и усталости выражены настолько слабо, что ими можно пренебречь. x Определение Случайная величина имеет экспоненциальное (показательное) распределение с параметром 0 , если плотность распределения . e x , x 0 f x x0 0, Функция распределения при x 0 0, F ( x) x при x 0 1 e Графически функция плотности и функция распределения экспоненциального распределения имеет вид представленный ниже. 106 Математическое ожидание и дисперсия u x; e x dx dv; M ( X ) xf ( x)dx xe x d e x v; 0 du dx; xe x e x x e x 1 dx e dx . 0 0 0 0 Следовательно, окончательно имеем M (X ) 1 1 1 ; D( X ) 2 ; x . Замечание Коэффициент ассиметрии равен 2. Замечание Коэффициент эксцесса равен 6. Замечание Медиана равна ln 2 . Замечание Экспоненциального распределения имеет одинаковое математическое ожидание и среднее квадратичное отклонение. Вероятность попадания случайной величины в заданный интервал. P(a x b) F (b) F (a) e a e b . 107 Задачи для самостоятельного решения Непрерывная случайная величина Х распределена по показательному закону, заданному плотностью вероятности f ( x ) 3e 3 x при x 0 ; f ( x ) 0 при x 0 . Найти вероятность того, что в результате испытания Х попадает в интервал (0.13, 0.7). 2. Непрерывная случайная величина Х распределена по показательному закону, заданному при x 0 плотностью распределения f ( x ) 0.04e 0.04 x ; при x 0 функцией f ( x ) 0 . Найти вероятность того, что в результате испытания Х попадает в интервал (1, 2). 3. Непрерывная случайная величина Х распределена по показательному закону, заданному функцией распределения F ( x ) 1 e 0.6 x при x 0 ; при x 0 F ( x ) 0 . Найти вероятность того, что в результате испытания Х попадет в интервал (2, 5). 4. Найти математическое ожидание показательного распределения f ( x ) e x при x 0 ; f ( x ) 0 при x 0 . 5. Найти математическое ожидание показательного распределения, заданного при x 0 : а) плотностью f ( x ) 5e 5 x ; б) функцией распределения F ( x ) 1 e 0.1x . 6. Найти: а) дисперсию; б) стандартное отклонение показательного распределения, заданного плотностью x вероятности: f ( x ) e при x 0 ; f ( x ) 0 при x 0 . 7. Найти дисперсию и стандартное отклонение показательного распределения, заданного плотностью вероятности f ( x ) 10e 10 x при x 0 . 8. Найти дисперсию и стандартное отклонение показательного закона, заданного функцией распределения F ( x ) 1 e 0.4 x при x 0 . 1. 108 Закон Вейбулла Опыт эксплуатации очень многих электронных приборов и значительного количества электромеханической аппаратуры показывает, что для них характерны три вида зависимостей интенсивности отказов от времени, соответствующих трем периодам жизни этих устройств Интен сивность отказов монотонно убывает (период приработки), монотонно возрастает (период износа). Распределение Вейбулла - двухпараметрическое семейство абсолютно непрерывных распределений. Распределение Вейбулла достаточно близко подходит для ряда механических объектов (к примеру, шарикоподшипников), оно может быть использовано при ускоренных испытаниях объектов в форсированном режиме Определение Случайная величина X имеет распределение Вейбулла с параметрами m и a , если плотность распределения f x m a x m 1 a x e m Функция распределения имеет вид: 1 ex , x 0 Fx x f x t dt 0, x 0 x 109 Плотность с различными значениями m имеет вид: Плотность с различными значениями a имеет вид: Замечание Значение параметра m зависит от коэффициента вариации и определяется по таблицам, расчетом или графоаналитическим путем. Величина его влияет на форму дифференциальной кривой. При m 1 распределение Вейбулла преобразуется в экспоненциальное, при m 2,53,5 и a 0,3 0,4 — приближается к нормальному. Замечание Если a 1 , то распределение Вейбулла превращается в показательное распределение. 110 Нормальное распределение (закон Гаусса) Нормальное распределение играет исключительно важную роль в теории вероятностей и занимает среди других законов распределения особое положение. Это—наиболее часто встречающийся на практике закон распределения. Главная особенность, выделяющая нормальный закон среди других законов, состоит в том, что он является предельным законом, к которому приближаются другие законы распределения при весьма часто встречающихся типичных условиях. Нормальное распределение имеет очень широкое распространение в прикладных задачах. Это связано с тем, что в реальной жизни многие исследуемые случайные величины являются следствием различных случайных событий. Рост людей на нашей планете хорошо описывается нормальным распределением. Это, по-видимому, связано с тем, что на рост влияют разнообразные независимые случайные факторы: климат, экология окружающей среды, экономические условия, болезни и т.д. Хотя, конечно, "бесконечно" большие люди (великаны) и "бесконечно" маленькие люди (гномы) бывают только в сказках. Это говорит о том, что "хвосты" истинного распределения роста людей отличаются от нормального распределения. В частности, при достаточно общих предположениях сумма большого числа независимых СВ имеет распределение близкое к нормальному. Часто нормальное распределение называют распределением Гаусса (Карл Фридрих Гаусс (1777-1855), или Муавра, в честь тех, кто, как считается, открыл его и, веком ранее, что не так достоверно, Авраам де Муавр (1667-1754). Термин был впервые использован Гальтоном в 1889 г. CВ подчиняется нормальному распределению, когда она подвержена влиянию огромного числа случайных помех. Такая ситуация распространена, поэтому в природе чаще всего 111 встречается именно нормальное распределение — отсюда и произошло одно из его названий. Нормальный закон наблюдается, когда на измеряемую случайную величину действуют разнообразные факторы, не связанные между собой и равнозначно действующие на случайную величину. Нормальное распределение или распределение Гаусса является наиболее универсальным, удобным и широко применяемым Доска Гальтона Доска Гальтона -вертикально установленная доска в форме равнобедренного треугольника. В доске расположены колышки, один в верхнем ряду, два во втором, и так далее. Каждый последующий ряд имеет на один колышек больше. Колышки в сечении треугольные, так что, когда падает шарик, у него есть вероятность 50/50 пойти вправо или влево. В основании доски находится серия желобов для подсчета попаданий каждого броска. Шарики, падающие через доску Гальтона и достигающие желобов, начинают формировать нормальное распределение. Чем «глубже» доска (то есть чем больше рядов она имеет) и чем больше шариков бросается, тем больше конечный результат будет напоминать нормальное распределение. Определение Нормальное распределение (гауссовское) определяется функцией плотности следующим образом 1 x e 2 где a – математическое ожидание. 112 x a 2 2 2 , Нормальный закон - это двухпараметрический закон, для записи которого нужно знать математическое ожидание и среднее квадратичное отклонение. Нормальное распределение зависит от двух параметров — смещения и масштаба График плотности нормального распределения называется нормальной кривой или кривой Гаусса Функция плотности при различных значениях параметров Замечание Графики плотности нормального распределения, имеют единственный максимум в точке x m . Функция распределения имеет вид: 113 F x x f x dx 1 2 Δxm y xm x m exp 2 2 x 2 , dy 1 dx dx y2 2 dy x m Φ Нормальная кривая обладает следующими свойствами: 1 2 e 1) Функция определена на всей числовой оси. 2) При всех x функция распределения принимает только положительные значения. 3) Ось ОХ является горизонтальной асимптотой графика плотности вероятности, т.к. при неограниченном возрастании по абсолютной величине аргумента x , значение функции стремится к нулю. 4) Найдем экстремум функции. y xm e ( x m) 2 2 2 0; x m; 3 2 Т.к. при y 0 при x m и y 0 при x m , то в точке 1 . x m функция имеет максимум, равный 2 5) Функция является симметричной относительно прямой x a , т.к. разность x a входит в функцию плотности распределения в квадрате. 6) Для нахождения точек перегиба графика найдем вторую производную функции плотности. y 114 1 3 2 e ( x m) 2 2 2 ( x m) 2 1 2 При x m и x m вторая производная равна нулю, а при переходе через эти точки меняет знак, т.е. в этих точках функция имеет перегиб. В этих точках значение функции равно 1 . e 2 Построим график функции плотности распределения. 0.4 0.3 0.2 0.1 -6 -4 -2 2 4 6 Построены графики при т =0 и трех возможных значениях среднего квадратичного отклонения 1 , 2 и 7 . Как видно, при увеличении значения среднего квадратичного отклонения график становится более пологим, а максимальное значение уменьшается.. если a 0 , то график сместится в положительном направлении, если a 0 – в отрицательном. при a 0 и 1 кривая называется нормированной. Определение Стандартным нормальным распределением называется нормальное распределение с математическим ожиданием 0 и стандартным отклонением 1 N 0,1 . Замечание Нормальное распределение формируется под влиянием большого числа случайных факторов, служит хорошим приближением для построения математических моделей. 115 Функция Лапласа. Найдем вероятность попадания случайной величины, распределенной по нормальному закону, в заданный интервал. b 1 f ( x)dx 2 P ( a X b) a Обозначим xm 2 t; am 2 dx a bm ; 2 b ( x m) 2 e 2 ; 2 Тогда P ( a X b) 1 e 2 Так как интеграл t 2 2dt e t 2 1 e t 2 dt 1 () () 2 dt не выражается через элементарные функции, то вводится в рассмотрение функция, Φ( x) x 2 e t 2 dt , 0 которая называется функцией Лапласа вероятностей. Ниже показан график функции Лапласа. или интегралом 1 0.75 0.5 0.25 -3 -2 -1 1 -0.25 -0.5 -0.75 -1 116 2 3 Свойства функции Лапласа 1. 2. Ф x определена при всех значениях х. Ф(0)=0. 1 t2 1 2 1 . ( ) e dt 2 2 2 0 2 1. ( ) 2 Ф x монотонно возрастает при всех x ( ,) . 2 3. 4. 5. 6. Ф x – функция нечетная: Ф x = –Ф x . Значения этой функции при различных значениях x посчитаны и приводятся в специальных таблицах, приведены в приложении. Функцию Лапласа также называют функцией ошибок и обозначают erf x . Еще используется нормированная функция Лапласа, которая связана с функцией Лапласа соотношением: 1 x 1 Φ ( x) Φ 2 2 2 x e t 2 / 2 dt; 0 Ниже показан график нормированной функции Лапласа. 1 0.75 0.5 0.25 -3 -2 -1 1 2 3 -0.25 -0.5 -0.75 -1 Замечание Математическое ожидание, мода и медиана совпадают и равны математическому ожиданию. 117 Замечание Коэффициент ассиметрии и коэффициент эксцесса равны 0. Правило трех сигм Нормально распределенная случайная величина с большой вероятностью принимает значения, близкие к своему математическому ожиданию. Величина (среднее арифметическое) показывает X смещение кривой f x вдоль оси абсцисс без изменения ее формы, т. е. расстояние от начала координат до абсциссы с максимальной ординатой. Величина (среднее квадратичное отклонение) показывает разброс отдельных значений случайной величины x относительно среднего арифметического. На участке кривой, ограниченной ординатами и расположено 68,3% значений случайной величины; на участке, ограниченном ординатами 2 -95,4%; на участке с ординатами 3 - 99,7%. Правило трех сигм: вероятность того, что случайная величина x лежит в пределах 3 , близка к единице или к 100%. Следовательно, значения случайной величины, лежащие за пределами 3 - сигм, можно отбросить как промахи. 118 Т.е. вероятность того, что случайная величина отклонится от своего математического ожидание на величину, большую чем утроенное среднее квадратичное отклонение, практически равна нулю. Правило k : 0.6827, k 1, P X m k Φk Φ k 0.9545, k 2, 0.9973, k 3. Пример Поезд состоит из 100 вагонов. Масса каждого вагона – случайная величина, распределенная по нормальному закону с математическим ожидание а = 65 т и средним квадратичным отклонением = 0,9 т. Локомотив может везти состав массой не более 6600 т, в противном случае необходимо прицеплять второй локомотив. Найти вероятность того, что второй локомотив не потребуется. Решение Второй локомотив не потребуется, если отклонение массы состава от ожидаемого (10065 = 6500) не превосходит 6600 – 6500 = 100 т. Т.к. масса каждого вагона имеет нормальное распределение, то и масса всего состава тоже будет распределена нормально. Получаем: 100 P( X M ( X ) 100 2Φ 2Φ1,111 2 0,3665 0,733 100 Пример. Нормально распределенная случайная величина Х задана своими параметрами – а =2 – математическое ожидание и = 1 – среднее квадратическое отклонение. Требуется написать плотность вероятности и построить ее график, найти вероятность того, Х примет значение из интервала (1; 3), найти вероятность того, что Х отклонится (по модулю) от математического ожидания не более чем на 2. Решение Плотность распределения имеет вид: 119 f ( x) 1 e 2 ( x 2) 2 2 ; Построим график: 0. 4 0. 3 0. 2 0. 1 1 2 3 4 Найдем вероятность попадания случайной величины в интервал (1; 3). P 1 X 3 1 e t 2 dt 1 3 2 1 2 Φ Φ 2 2 2 1 Φ0.7071 Φ0.7071 0.6778 2 Найдем вероятность отклонение случайной величины от математического ожидания на величину, не большую чем 2. Δ 2 P( X 2 2) Φ Φ Φ( 2 ) 0,95. 2 2 Контрольные вопросы Верно ли, что математическое ожидание, медиана и мода нормально распределенной НСВ X совпадают. 2. Верно ли, что кривая Гаусса симметрична относительно своего математического ожидания. 3. Верно ли, что кривая Гаусса имеет максимум в точке равной значению M(X). 4. Верно ли, что кривая Гаусса тем круче, чем больше сигма? 1. 120 Верно ли, что математическое ожидание и среднее квадратическое отклонение показательно распределенной НСВ X совпадают. 6. Верно ли, что кривая плотности, показательно распределенной НСВ X убывает на всей своей области определения? 5. Объясните почему распределение Гаусса называется нормальным? 7. Поясните на изменении кривой плотности распределения отказов влияние параметров распределения: математическое ожидания и дисперсии? 8. Почему нормальный закон распределения вынесен в отдельную тему теории вероятностей? К какому типу случайных величин он относится? 10. Что такое функция Лапласа, для чего она используется и какими свойствами обладает? Функция распределения нормально распределѐнной случайной величины. 11. Математическое ожидание и дисперсия нормально распределѐнной случайной величины, их влияние на график функции плотности вероятностей. 12. Свойства случайной величины, имеющей нормальный закон распределения. Правило трѐх сигм. 9. 121 Задачи для самостоятельного решения Математическое ожидание и стандартное отклонение нормально распределенной случайной величины Х соответственно равны 10 и 2. Найти вероятность того, что в результате испытания Х примет значение, заключенное в интервале (12, 14). 2. Математическое ожидание и стандартное отклонение нормально распределенной случайной величины Х соответственно равны 20 и 5. Найти вероятность того, что в результате испытания Х примет значение, заключенное в интервале (15, 25). 3. Автомат штампует детали. Контролируется длина детали X, которая распределена нормально с математическим ожиданием (проектная длина), равным 50 мм. Фактически длина изготовленных деталей не менее 32 и не более 68 мм. Найти вероятность того, что длина наудачу взятой детали больше 55 мм. 4. Производится измерение диаметра вала без систематических (одного знака) ошибок. Случайные ошибки измерения Х подчинены нормальному закону со стандартным отклонением 10 мм. Найти вероятность того, что измерение будет произведено с ошибкой, не превосходящей по абсолютной величине 15 мм. 5. Автомат изготовляет шарики. Шарик считается годным, если отклонение Х диаметра шарика от проектного размера по абсолютной величине меньше 0,7 мм. Считая, что случайная величина Х распределена нормально со стандартным отклонением 0.4 мм. Найти, сколько в среднем будет годных шариков среди ста изготовленных. 6. Деталь, изготовленная автоматом, считается годной, если отклонение ее контролируемого размера от проектного не превышает 10 мм. Случайные отклонения контролируемого размера от проектного подчинены нормальному закону со стандартным отклонением 5 мм и математическим 1. 122 ожиданием a 0 . Сколько процентов годных деталей изготавливает автомат? 7. Случайная величина Х распределена нормально с математическим ожиданием a 10 . Вероятность попадания Х в интервал (10, 20) равна 0,3. Чему равна вероятность попадания Х в интервал (0, 10)? 8. Случайная величина Х распределена нормально с математическим ожиданием a 25 . Вероятность попадания Х в интервал (10, 15) равна 0,2. Чему равна вероятность попадания Х в интервал (35, 40)? 9. Случайная величина Х распределена нормально с математическим ожиданием a 10 и стандартным отклонением Найти интервал, симметричный относительно 5. математического ожидания, в который с вероятностью 0,9973 попадет величина Х в результате испытания. 10. Случайная величина Х распределена нормально со стандартным отклонением 5 мм. Найти длину интервала, симметричного относительно математического ожидания, в который с вероятностью 0,9973 попадет Х в результате испытания. 123 Лекция 8 Дискретные двумерные случайные величины Закон распределения дискретной двумерной случайной величины X , Y имеет вид таблицы с двойным входом, задающей перечень возможных значений каждой компоненты и вероятности p xi , yi с которыми величина принимает значение xi , yi . x y x1 x2 … xi … xn y1 px1 , y1 px2, y1 … pxi , y1 … pxn y1 … … … … … … … yi px1 , yi p x 2 , y i … p xi y i … p x n y i … … … … … … … ym px1 , y m p x 2 , y m … px1 , y m … p x n y m При этом сумма вероятностей, стоящих во всех клетках таблицы, равна 1. Зная закон распределения двумерной случайной величины, можно найти законы распределения ее составляющих. 124 Действительно, событие X x1 представляется собой сумму несовместных событий X x1Y y m , поэтому X x1 Y y1 , X x1Y y 2 ,…, p X x1 px1 , y1 px1 , y 2 +…+ px1 , y m (в правой части находится сумма вероятностей, стоящих в столбце, соответствующем X x1 . Так же можно найти вероятности остальных возможных значений X . Для определения вероятностей возможных значений Y нужно сложить вероятности, стоящие в строке таблицы, соответствующей Y y i . Пример Дан закон распределения двумерной случайной величины: Y X -2 3 6 -0,8 0,1 0,3 0,1 -0,5 0,15 0,25 0,1 Найти законы распределения составляющих. Решение Складывая стоящие в таблице вероятности «по столбцам», получим ряд распределения для X : -2 3 6 X p 0,25 0,55 0,2 Складывая те же вероятности «по строкам», найдем ряд распределения для Y: -0,8 -0,5 Y p 0,5 0,5 125 Числовые характеристики двумерных случайных величин Определение Функцией распределения F(x, y) двумерной случайной величины X , Y называется вероятность того, что X x, a Y y: F x, y p X x , Y y . Это означает, что точка X , Y попадет в область, заштрихованную, если вершина прямого угла располагается в точке x, y . Замечание Определение функции распределения справедливо как для непрерывной, так и для дискретной двумерной случайной величины. Свойства функции распределения 0 F x, y 1 (так как F x, y является вероятностью). 2) F x, y есть неубывающая функция по каждому 1) аргументу: F x2 , y F x1 , y ,если x2 x1 ; F x, y2 F x, y1 ,если y2 y1 . Доказательство F x2 y p X x2 , Y y p X x1 , Y y px1 x x2 , Y y p X x1 , Y y F x1 , y Аналогично доказывается и второе утверждение. 126 3) Имеют место предельные соотношения: F , y 0 ; F x, 0 ; F , 0 ; F , 1 . Доказательство События F , y 0 ; F x, 0 , F , 0 невозможны ( так как невозможно событие x или y ), событие достоверно, откуда следует F , 1 справедливость приведенных равенств. 4) При функция распределения двумерной y случайной величины становится функцией распределения составляющей Х: F x, F1 x . При x функция распределения двумерной случайной величины становится функцией распределения составляющей Y : F , y F2 y . Доказательство Так как событие Y достоверно, то F x, p X x F1 x . Аналогично доказывается второе утверждение. Определение Плотностью совместного распределения вероятностей (двумерной плотностью вероятности) непрерывной двумерной случайной величины называется смешанная частная производная 2-го порядка от функции распределения: f ( x, y ) 2 F ( x, y ) . xy Замечание Двумерная плотность вероятности представляет собой предел отношения вероятности попадания случайной точки в прямоугольник со сторонами Δх и Δy к площади этого прямоугольника при Δх 0, Δу 0. 127 Свойства двумерной плотности вероятности 1) f x, y 0 (вероятность попадания точки в прямоугольник неотрицательна, площадь этого прямоугольника положительна, следовательно, предел их отношения неотрицателен). y x F ( x, y ) 2) f ( x, y)dxdy 3) f ( x, y)dxdy 1 Вероятность попадания произвольную область случайной точки в Пусть в плоскости Оху задана произвольная область D . Найдем вероятность того, что точка, координаты которой представляют собой систему двух случайных величин (двумерную случайную величину) с плотностью распределения f x, y , попадет в область D . Разобьем эту область прямыми, параллельными осям координат, на прямоугольники со сторонами Δх и Δy . Вероятность попадания в каждый такой прямоугольник равна f ( i , i )xy , где ( i , i ) - координаты точки, принадлежащей прямоугольнику. Тогда вероятность попадания точки в область D есть предел интегральной суммы n f ( , )xy , то есть i 1 i i p(( X , Y ) D) f ( x, y )dxdy. D Определение Две случайные величины называются независимыми, если закон распределения одной из них не зависит от того, какие значения приняла другая. В противном случае случайные величины зависимы. 128 Определение Сумма случайных величин Х и Y случайная величина X Y , возможные значения которой равны суммам каждого возможного значения X с каждым возможным значением Y ; вероятности таких сумм равны произведениям вероятностей слагаемых (для зависимых случайных величин – произведениям вероятности одного слагаемого на условную вероятность второго). Определение Произведение независимых случайных величин Х и Y - случайная величина XY, возможные значения которой равны произведениям всех возможных значений X на все возможные значения Y , а соответствующие им вероятности равны произведениям вероятностей сомножителей. Математическое ожидание двумерных случайных величин Теорема Математическое ожидание суммы двух случайных величин ( зависимых или независимых ) равно сумме математических ожиданий слагаемых: M X Y M X M Y . Доказательство Рассмотрим случайные величины, заданные рядами распределения, тогда возможными значениями X Y являются x1 y1 , x1 y 2 , x2 y1 , x2 y 2 . Обозначим их вероятности соответственно р11, р12, р21 и р22. M X Y x1 y1 p11 x1 y2 p12 x2 y1 p21 x2 y2 p22 x1 p11 p12 x2 p21 p22 y1 p11 p21 y2 p12 p22 Докажем, что p11 p 22 p1 . Действительно, событие, состоящее в том, что X Y примет значения x1 y1 или x1 y 2 и вероятность которого равна p11 p 22 , совпадает с событием, заключающемся в том, что X x1 (его вероятность – р1). Аналогично доказывается, что p 21 p 22 p 2 , p11 p 21 g1 , p12 p 22 g 2 . M X Y x1 p1 x2 p2 y1 g 2 M X M Y . 129 Замечание сумма любого числа случайных величин равна сумме математических ожиданий слагаемых. Пример Найти математическое ожидание суммы числа очков, выпавших при броске пяти игральных костей. Решение Найдем математическое ожидание числа очков, выпавших при броске одной кости: 1 7 M X 1 = (1 + 2 + 3 + 4 + 5 + 6) . 6 2 Тому же числу равно математическое ожидание числа очков, выпавших на любой кости. Следовательно, по свойству 4 M X = 5 1 5 . 6 6 Теорема Математическое ожидание произведения двух независимых случайных величин равно произведению их математических ожиданий: M XY M X M Y . Доказательство Для упрощения вычислений ограничимся случаем, когда Х и Y принимают только по два возможных значения: xi x1 x2 pi p1 yi p2 y1 g1 y2 g2 gi Тогда ряд распределения для XY выглядит так: XY p x1 y1 p1 g1 Следовательно, 130 x 2 y1 p 2 g1 x1 y 2 p1 g 2 x2 y 2 p2 g 2 M XY x1 y1 p1 g1 x2 y1 p2 g1 x1 y2 p1 g 2 x2 y2 p2 g 2 y1g1 x1 p1 x2 p2 y2 g2 x1 p1 x2 p2 y1 g1 y 2 g 2 x1 p1 x2 p 2 M X M Y . Замечание Аналогично можно доказать это свойство для большего количества возможных значений сомножителей. Дисперсия двумерных случайных величин 1) Дисперсия постоянной величины C равна нулю: DC 0 . Доказательство 2 2 DC M C M C M C C M 0 0 . 2) Постоянный множитель можно выносить за знак дисперсии, возведя его в квадрат: DCX C 2 D X . Доказательство CX M CX . M CX CM CM X M C X M X C D X D CX M 2 2 2 2 2 3) Дисперсия суммы двух независимых случайных величин равна сумме их дисперсий: D X Y D X DY . Доказательство D X Y M X 2 2 XY Y 2 M X M Y 2 M X 2 2 M X M Y M Y 2 M 2 X 2M X M Y M 2Y M X M 2 2 . X M Y 2 M 2 Y D X D Y 131 Следствие Дисперсия суммы нескольких взаимно независимых случайных величин равна сумме их дисперсий. Следствие Дисперсия суммы постоянной и случайной величин равна дисперсии случайной величины. 4) Дисперсия разности двух независимых случайных величин равна сумме их дисперсий: D X Y D X DY . Доказательство 2 D X Y D X D Y D X 1 DY D X D X Плотности вероятности составляющих двумерной случайной величины По определению плотности распределения x d f ( x, y ) dF ( x) dF ( x, ) f ( x, y )dy. f1 ( x) 1 dx dx dx Аналогично находится f 2 ( y) f ( x, y)dx. Условные законы распределения составляющих двумерной случайной величины Рассмотрим дискретную двумерную случайную величину и найдем закон распределения составляющей X при условии, что Y примет определенное значение (например, Y y1 . Для этого воспользуемся формулой Бейеса, считая гипотезами события X x1 , X x2 ,…, X xn , а событием А – событие Y y1 . При такой постановке задачи нам требуется найти условные вероятности гипотез при условии, что А произошло. Следовательно, 132 р( xi / y1 ) p( xi , y1 ) . p( y1 ) Таким же образом можно найти вероятности возможных значений Х при условии, что Y принимает любое другое свое возможное значение: р ( xi / y j ) Аналогично находят составляющей Y: p ( xi , y j ) p( y j ) условные p ( y j / xi ) . законы распределения p ( xi , y j ) . p ( xi ) Пример Найдем закон распределения Х при условии Y = -0,8 и закон распределения Y при условии Х = 3 для случайной величины, рассмотренной в примере 1. 0,1 1 0,3 3 р ( x1 / y1 ) 0,2; р( x 2 / y1 ) 0,6; 0,5 5 0,5 5 0,1 1 р ( x3 / y1 ) 0,2. 0,5 5 0,3 6 0,25 5 р ( у1 / х 2 ) ; р( у 2 / х2 ) . 0,55 11 0,55 11 Определение Условной плотностью φ(х/у) распределения составляющих данном значении X при Y y называется f ( x, y ) f ( x, y ) . ( х / у) f 2 ( y) f ( x, y)dx Аналогично определяется условная плотность вероятности Y при X x : ( у / х) f ( x, y ) f1 ( х) f ( x, y ) f ( x, y)dу 133 Определение Начальным моментом порядка k , s двумерной случайной величины ( X , Y ) называется математическое ожидание произведения X k на Y s : k ,s M ( X kY s ) Для дискретных случайных величин k ,s xik y sj pij , i j для непрерывных случайных величин k ,s x k y s f ( x, y )dxdy. Определение Центральный момент порядка k, s двумерной случайной величины ( X , Y ) математическое ожидание произведения ( X M ( X )) k на (Y M (Y )) s : k ,s M (( X M ( X ))k (Y M (Y ))s ). Для дискретных случайных величин k , s ( xi M ( X )) k ( y j M (Y )) s pij , i j для непрерывных случайных величин k ,s ( x M ( X )) k ( y M (Y )) s f ( x, y)dxdy. При этом M ( X ) 1, 0 , M (Y ) 0,1 , D( X ) 2, 0 , D (Y ) 0, 2 . Корреляционный момент системы двух случайных величин Определение Ковариация или корреляционный момент K xy случайных величин ( X , Y ) называется математическое ожидание произведения отклонений этих величин от своих математических ожиданий. K xy M X M x Y M y 134 Для дискретных момент находим случайных величин корреляционный K xy xi a x y j a j pij n m i 1 j 1 для непрерывных случайных величин К ху ( x M ( X ))( y M (Y )) f ( x, y)dxdy. Корреляционный момент описывает связь между составляющими двумерной случайной величины. Действительно, убедимся, что для независимых X и Y K xy 0. В этом случае f ( x, y ) f1 ( x) f 2 ( y ), тогда K xy ( x M ( X )) f1 ( x)dx ( y M (Y )) f 2 ( y )dy 1 ( x) 2 ( y ) 0. Итак, две независимые случайные величины являются и некоррелированными. Замечание Корреляционный момент системы двух случайных величин - второй смешанный центральный момент: Ковариация (от англ. covariation - "совместная вариация") мера линейной зависимости двух величин. Ковариация показывает, есть ли линейная взаимосвязь между двумя случайными величинами, Определение Коэффициент корреляции безразмерный коэффициент коррелированности двух случайных величин q K xy x y . Коэффициент корреляции показывает характер изменения двух случайных величин. Однако, понятия коррелированности и зависимости не эквивалентны, а именно, величины могут быть зависимыми, но при этом некоррелированными. 135 Дело в том, что коэффициент корреляции характеризует не всякую зависимость, а только линейную. В частности, если Y aX b, то q 1 . Формула для коэффициента корреляции была введена Фрэнсисом Гальтоном Фрэнсис Гальтон (1822-1911) — английский исследователь, внес вклад во многих областях науки: метеорология (антициклон и первые общедоступные погодные карты), статистику (регресс и корреляция) криминологию (отпечатки пальцев). Математически обосновал практическую невозможность совпадения отпечатков пальцев у людей Найдем возможные значения коэффициента корреляции. Теорема Коэффициент корреляции | q | 1. Доказательство Докажем сначала, что | K xy | x y . Действительно, если рассмотреть случайную величину и найти ее дисперсию, то Z1 y X xY получим: D( Z1 ) 2 x2 y2 2 x y K xy . Так как дисперсия всегда неотрицательна, то 2 x2 y2 2 x y K xy 0, откуда Отсюда | K xy | x y . K xy x y q 0, что и требовалось доказать. Определение Случайные величины называются некоррелироваными, если их коэффициент корреляции равен нулю q0 Таким образом из независимости случайных величин следует их некоррелированность. Обратно не верно 136 Свойства ковариации и коэффициента корреляции 1. Ковариация двух случайных величин характеризует степень зависимости случайных величин. 2. Ковариация двух независимых случайных величин равна нулю. 3. Корреляционный момент K xy M ( XY ) M ( X ) M (Y ) 4. Ковариация по абсолютной величине не превосходит их средних квадратических отклонений. 5. Коэффициент корреляции отношение их ковариации к произведению средних квадратических отклонений 6. Коэффициент корреляции 1 q 1 7. Коэффициент корреляции q 0 равен нулю, если сл.величины независимы. 8. Если q 1 , то между сл.величинами существует линейная функциональная зависимость. Замечание Если случайные величины независимы, то они и некоррелированы, но из некоррелированности нельзя сделать вывод о их независимости. Пример Коэффициент корреляции стремится к нулю, любому значению X может соответствовать любое значение Y , то есть события X и Y не зависят или почти не зависят друг от друга, не коррелируют друг с другом Пример При q близких к единице одному значению X могут соответствовать уже несколько значений Y , события X и Y менее коррелированы, менее зависимы друг от друга 137 Пример Если q 1 коэффициент корреляции, зависимость событий X и Y взаимно однозначная. то Пример Вид зависимости двух случайных величин при отрицательном коэффициенте корреляции a) q 1 ; б) 1 q 0 ; в) q 0 138 Определение Корреляционная матрица системы двух случайных величин X и Y - матрица вида D K q x xy Пример Распределение величины задано таблицей q D xy y вероятностей случайной Определить математические ожидания случайных величин X ,Y . Решение 3 M X i 1 3 M Y i 1 3 x p j 1 i ij 3 y p j 1 i ij 1(0,1 0,2 0) 0(0,3 0 0,1) 1(0,1 0 0,2) 0 0(0,1 0,3 0,1) 1(0,2 0 0) 2(0 0,1 0,2) 0,8 Пример Задана плотность распределения системы случайных величин X и Y . 139 f ( x, y ) 1 ( x y x 2 y 2 1) 2 2 2 Выяснить являются ли независимыми случайные величины и X Y. Для решения этой задачи преобразуем плотность распределения: f ( x, y) 1 1 1 1 2 2 2 2 2 2 (1 x y (1 x )) (1 x )(1 y ) (1 x ) (1 y 2 ) 2 2 Плотность распределения - произведение двух функций, Т.е. случайные величины X и Y независимы, они также будут и некоррелированы В отличие от коэффициента корреляции, который меняется от -1 до 1, ковариация не инвариантна относительно масштаба, т.е. зависит единицы измерения и масштаба случайных величин. Случайные величины могут быть зависимыми в то время как их ковариация нулевая! Замечание Знак ковариации указывает на вид линейной связи между рассматриваемыми величинами: если ковариация 0 - это означает прямую связь (при росте одной величины растет и другая), ковариация 0 указывает на обратную связь. При ковариации 0 линейная связь между переменными отсутствует. Пример По данным корреляционной таблицы найти выборочный корреляционный момент (ковариацию): X -1 0 1 2 2 20 10 0 30 3 0 10 20 10 Y Решение Выборочный корреляционный момент xy равенством: xy 140 1 n xy xy x y . n определяется Здесь x , y - варианты (наблюдавшиеся значения) признаков X и Y , n xy - частота пары вариант x, y , n - объем выборки, x , y - выборочные средние. Найдем выборочные средние с помощью соотношения: x 1 1 nx x , y n y y , n n где частоты вариант x и y . Так как nx , n y n 20 10 30 10 20 10 100 , получаем 1(20 0) 010 10 10 20 230 10 x 0,8 100 220 10 0 30 30 10 20 10 y 2,4 . 100 Тогда xy 2 120 2 0 10 2 1 0 2 2 30 3 1 0 3 0 10 3 1 20 3 2 10 100 0,8 2,4 0,8. Контрольные вопросы 1. Что такое ковариация? 2. Приведите примеры «положительной корреляции» 3. К каким изменениям коэффициента корреляции приводят ошибки измерений тех признаков для которых оценивается взаимосвязь. 4. Может ли коэффициент корреляции быть равным нулю , если между измеряемыми признаками существует функциональная зависимость? 5. Приведите пример случайных величин, у которых ковариация нулевая. 6. Какие характеристики составляют корреляционную матрицу? 141 Лекция 9 Функция одного случайного аргумента При решении задач часто удобно бывает представить исследуемую случайную величину как функцию других случайных величин с известными законами распределения, что помогает установить и закон распределения заданной случайной величины. Определение Если каждому возможному значению случайной величины X соответствует одно возможное значение случайной величины Y , то случайную величину Y называют функцией случайного аргумента X : Y (X) . Выясним, как найти закон распределения функции по известному закону распределения аргумента. 1) Пусть аргумент X – дискретная случайная величина, причем различным значениям X соответствуют различные значения Y . Тогда вероятности соответствующих значений X и Y равны.. Пример. Ряд распределения для X имеет вид: X p 5 0,1 6 0,2 7 0,3 8 0,4 Найдем закон распределения функции Y 2 X 2 3 : Решение Закон распределения функции будет иметь вид: Y p 47 0,1 69 0,2 95 0,3 125 0,4 (при вычислении значений Y в формулу, задающую функцию, подставляются возможные значения X ). 2) Если разным значениям X могут соответствовать одинаковые значения Y , то вероятности значений аргумента, 142 при которых функция принимает одно и то же значение, складываются. Пример Ряд распределения для X имеет вид: X 0 1 2 3 0,1 0,2 0,3 0,4 Найдем закон распределения функции Y X 2 2 X : Решение p Закон распределения функции Y p -1 0,2 0 0,4 3 0,4 (так как при и X 0 Y 0 X 2, p(Y 0 ) p(X 0 ) p(X 2 ) 0,1 0,3 0,4 ). Математическое аргумента ожидание функции то одного Пусть Y (X) – функция случайного аргумента X , и требуется найти ее математическое ожидание, зная закон распределения X . 1) Если X – дискретная случайная величина, то n M (Y ) M ( ( x)) ( xi ) pi . i 1 Пример Найдем M(Y) , если случайная величина Y задана рядом распределения: Y p 47 0,1 69 0,2 95 0,3 125 0,4 Решение M(Y) 47 0,1 69 0,2 95 0,3 125 0,4 97 143 Если X – непрерывная случайная величина, то математическое ожидание функции одного аргумента можно искать по-разному. Если известна плотность распределения g(y) , то M (Y ) yg ( y)dy. Если же g(y) найти сложно, то можно использовать известную плотность распределения f(x) : M (Y ) ( x) f ( x)dx. В частности, если промежутку (a, b) , то все значения X принадлежат b M (Y ) ( x) f ( x)dx. а Функция двух случайных величин Определение Если каждой паре возможных значений случайных величин X и Y соответствует одно возможное значение случайной величины Z , то Z называют функцией двух случайных аргументов X и Y : Z ( X,Y ) . Рассмотрим в качестве такой функции сумму X Y . В некоторых случаях можно найти ее закон распределения, зная законы распределения слагаемых. 1) Если X и Y – дискретные независимые случайные величины, то для определения закона распределения Z X Y нужно найти все возможные значения Z и соответствующие им вероятности. Пример Рассмотрим дискретные случайные величины X и Y , законы распределения которых имеют вид: 144 X -2 0,3 p Y 0 0 p ,2 1 0,4 1 0 3 0,3 2 0,3 ,5 Найдем возможные значения Z : -2 0 -2 ( p 0,3 0 ,2 0,06 ), -2 1 -1 (p 0 ,3 0 ,5 0,15 ), -2 2 0 (p 0 ,3 0,3 0,09 ), 1 0 1 (p 0 ,4 0 ,2 0,08 ), 1 1 2 (p 0 ,4 0,5 0,2 ), 1 2 3 (p 0 ,4 0,3 0,12 ), 3 0 3 (p 0 ,3 0,2 0 ,06 ), 3 1 4 (p 0 ,3 0,5 0 ,15 ), 3 2 5 (p 0 ,3 0 ,3 0 ,09 ) Сложив вероятности повторившегося дважды значения Z 3 , составим ряд распределения для Z : Z -2 -1 0 1 2 3 4 5 p 0,06 0,15 0,09 0,08 0,2 0,18 0,15 0,09 2) Если X и Y – непрерывные независимые случайные величины, то, если плотность вероятности хотя бы одного из аргументов задана на (-, ) одной формулой, то плотность суммы g(z) можно найти по формулам 145 g ( z) f1 ( x) f 2 ( z x)dx f ( z y) f 1 2 ( y )dy, где f1 ( x) , f 2 ( y ) – плотности распределения слагаемых. Если возможные значения аргументов неотрицательны, то z z 0 0 g ( z ) f1 ( x) f 2 ( z x)dx f1 ( z y) f 2 ( y)dy. Замечание Плотность распределения суммы независимых случайных величин называют композицией. 146 двух Лекция 10 Равномерный закон распределения на плоскости Определение Система двух случайных величин называется равномерно распределенной на плоскости, если ее плотность вероятности f x, y = const внутри некоторой области и равна 0 вне ее. Пусть данная область – прямоугольник вида a x b, c y d . Тогда из свойств функции плотности f x, y следует, что 1 1 S (b a)(d c) f ( x, y ) np 0 внутри прямоугольника, вне его. Найдем двумерную функцию распределения: 1 ( x a)( y c) dxdy (b a)( d c) c a (b a)( d c) при a x b, c y d , y x F ( x, y ) F x, y 0 при x a, y c , F x. y 1 при x b, y d . Функции распределения составляющих, имеют вид: F1 ( x) xa , ba F2 ( y) yc . d c 147 Нормальный закон распределения на плоскости Из законов распределения системы двух случайных величин имеет смысл специально рассмотреть нормальный закон, как имеющий наибольшее распространение на практике. Так как система двух случайных величин изображается случайной точкой на плоскости, нормальный закон для системы двух величин часто называют «нормальным законом на плоскости». Многочисленные исследования, проведѐнные профессорами А.Б.Яхиным, А.А.Зыковым и другими, показали, что распределение действительных размеров деталей изготовленных, обработанных на настроенных станках, очень часто подчиняется закону нормального распределения (закону Гаусса). Это объясняется тем, что результирующая погрешность обработки обычно формируется в результате одновременного воздействия большого числа погрешностей, зависящих от станка, приспособления, инструмента и заготовки, которые по существу представляют собой взаимно независимые случайные величины. Влияние каждой из них на результирующую погрешность имеет один порядок, поэтому распределение результирующей погрешности обработки, а значит, и распределение действительных размеров изготовленных деталей подчиняются закону нормального распределения Определение Нормальный закон распределения на плоскости - распределение вероятностей двумерной случайной величины (X, Y), если плотность распределения f x, y 1 2 x y 1 rxy2 e x a1 2 y a 2 2 x a1 y a 2 1 2 xy 2 21 xy x2 y2 x y Нормальный закон на плоскости определяется 5 параметрами: a1 , a2 – математические ожидания, x , y – средние квадратические отклонения, rxy – коэффициент корреляции Х и Y. Ниже показан график плотности нормального распределения 148 Вероятность попадания в прямоугольник Пусть случайная нормальному закону точка f x, y на плоскости 1 2 x y e подчинена x ax 2 y a y 2 x2 y2 Вероятность попадания случайной точки X , Y в прямоугольник стороны которого параллельны координатным осям P X , Y R f x, y dxdy ax a x a y Φ0 Φ0 P X , Y R Φ0 x x y ay Φ0 y где Φ0 x - нормальная функция распределения. 149 Лекция 11 Закон больших чисел Изучение статистических закономерностей позволило установить, что при некоторых условиях суммарное поведение большого количества случайных величин почти утрачивает случайный характер и становится закономерным (иначе говоря, случайные отклонения от некоторого среднего поведения взаимно погашаются). В частности, если влияние на сумму отдельных слагаемых является равномерно малым, закон распределения суммы приближается к нормальному. Математическая формулировка этого утверждения дается в группе теорем, которые принято называть законами больших чисел. Сущность закона больших чисел состоит в том, что при большом числе независимых опытов частота появления какогото события близка к его вероятности. Пример Если из большого P100 мешка с орехами достать любые 10 штук и 5 из них будут пустыми, можно делать выводы о содержимом всего 45 50 55 мешка. Вывод в мешке ―почти количество полных орехов половина‖ всех орехов пустые имеет для этого определенное основание. Имеется вероятность в две трети за то, что в мешке находится не меньше 45 процентов и не больше 55 процентов полных орехов. 150 Неравенство Чебышева Неравенство Чебышева, используемое для доказательства дальнейших теорем, справедливо как для непрерывных, так и для дискретных случайных величин. Чебышѐв Пафнутий Львович - русский математик и механик. Докажем неравенство Чебышева для дискретных случайных величин. Теорема (первое неравенство Чебышева- неравенство Маркова) Для каждой неотрицательной случайной величины , имеющей математическое ожидание M [ ] , при любом 0 справедливо P{ } М [ ] . Пример Пусть - время опоздания студентов на лекцию. Известно, что M [ ] =1 мин. Оценить вероятность того, что студент опоздает не менее чем на 5 минут. Решение Используя первое неравенство Чебышева P{ } Имеем М [ ] 1 P{ 5} . 5 151 Теорема (второе неравенство Чебышева ) Для каждой СВ , имеющей дисперсию D[ ] 2 , при любом 0 справедливо 2 P{ M [ ] } 2 Неравенства Чебышева имеют не столь большое практическое значение, но огромное теоретическое для доказательства теорем из закона больших чисел. Теорема (неравенство Чебышева) D2X . p X M X ε ε Доказательство Пусть Х задается рядом распределения x1 p1 X P Так как события xn x2 pn p2 X M X ε и X M X ε противоположны, то: p X M X ε 1 , p X M X ε следовательно, 1 p X M X ε. p X M X ε 152 Найдем p X M X ε . D X x1 M X p1 x2 M X p2 xn M X pn 2 2 2 Исключим из этой суммы те слагаемые, для которых X M X ε. При этом сумма может только уменьшиться, так как все входящие в нее слагаемые неотрицательны. Для определенности будем считать, что отброшены первые k слагаемых. Тогда 2 2 D X x k 1 M X p k 1 x k 2 M X p k 2 xn M X 2 pn ε2 pk 1 pk 2 pn . Отметим, что p k 1 p k 2 p n есть вероятность того, что X M X ε, так как это сумма вероятностей всех возможных значений X , для которых это неравенство справедливо. Следовательно, 2 D X ε p X M X ε, или p X M X D X 2 . Тогда вероятность противоположного события p X M X ε D X ε2 , что и требовалось доказать. Пример Средний расход воды на ферме составляет 1000 л в день, а среднее квадратичное =200 л. Оценить вероятность того, что расход воды в любой выбранный день не превысит 2000 л. Решение Т.к. границы интервала относительно M [ ] 1000 и 0 2000 симметричны P{ 2000} P{0 2000} P{ 1000 1000} , 153 тогда, учитывая P{ M [ ] } 2 2 P { M [ ] } 1 2 2 получим P{ 1000 1000} 1 2002 0.96 10002 Вероятность не менее 0.96 Теоремы Чебышева и Бернулли Обычно при измерении некоторой физической величины ее измеряют несколько раз и берут среднее арифметическое. При каких условиях это правильно (частный случай теоремы Чебышева): 1) измерения попарно независимы; 2) имеют одно и тоже математическое ожидание; 3) дисперсии их ограничены. Теорема Чебышева Если X 1 , X 2 , , X n – попарно независимые случайные величины, дисперсии которых равномерно ограничены D X i C , то для сколь угодно малого числа εвероятность неравенства X 1 X 2 X n M X 1 M X 2 M X n ε n n будет сколь угодно близка к 1, если число случайных величин достаточно велико. Замечание Иначе говоря, при выполнении этих условий X1 X 2 X n n lim p ε 1 n M X 1 M X 2 M X n n 154 Доказательство Рассмотрим новую случайную величину X X2 Xn X 1 n и найдем ее математическое ожидание. Используя свойства математического ожидания, получим, что X X 2 X n M X 1 M X 2 M X n p 1 ε 1 n n X X2 Xn D 1 n 2 ε X X 2 X n D X 1 D X 2 D X n Cn C D 1 2 n n2 n n X X 2 X n M X 1 M X 2 M X n . M 1 n n Применим к X неравенство Чебышева: Так как рассматриваемые случайные величины независимы, то, учитывая условие теоремы, имеем: Используя этот результат, представим предыдущее неравенство в виде: X X 2 X n M X1 M X 2 M X n С p 1 ε 1 2 n n nε Перейдем к пределу при n : 155 X1 X 2 X n n lim p ε 1 n M X1 M X 2 M X n n Поскольку вероятность не может быть больше 1, можно утверждать, что: X1 X 2 X n n lim p ε 1 n M X1 M X 2 M X n n Теорема доказана. Следствие Если X 1 , X 2 , , X n – попарно независимые случайные величины с равномерно ограниченными дисперсиями, имеющие одинаковое математическое ожидание, равное а, то для любого сколь угодно малого ε 0 вероятность неравенства X1 X 2 X n a ε n будет как угодно близка к 1, если число случайных величин достаточно велико. Иначе говоря, X X 2 X n 1 lim p 1 a ε n n Вывод: среднее арифметическое достаточно большого числа случайных величин принимает значения, близкие к сумме их математических ожиданий, то есть утрачивает характер случайной величины. Например, если проводится серия измерений какой-либо физической величины, причем: а) результат каждого измерения не зависит от результатов остальных, то есть все результаты представляют собой попарно независимые случайные величины; 156 б) измерения производятся без систематических ошибок (их математические ожидания равны между собой и равны истинному значению a измеряемой величины); в) обеспечена определенная точность измерений, следовательно, дисперсии рассматриваемых случайных величин равномерно ограничены; то при достаточно большом числе измерений их среднее арифметическое окажется сколь угодно близким к истинному значению измеряемой величины. Практическое значение теоремы Чебышева Если все измерения проводятся с одинаковой точностью 2 , то дисперсия их средней 2 ... n 1 D 1 n 2 D 1 2 ... n n 1 2 2 ( D[1 ] D[ 2 ] ... D[ n ]) . n n Т.о., увеличивая число измерений, можно увеличивать точность измерений. Теорема Бернулли Если в каждом из n независимых опытов вероятность p появления события A постоянна, то при достаточно большом числе испытаний вероятность того, что модуль отклонения относительной частоты появлений A в n опытах от p будет сколь угодно малым, как угодно близка к 1: m lim p p ε 1 n n Доказательство Введем случайные величины X 1 , X 2 , , X n , где X i – число появлений A в i -м опыте. При этом X i могут принимать только два значения: а) 1(с вероятностью p ) б) 0 (с вероятностью q 1 p ). 157 Кроме того, рассматриваемые случайные величины попарно независимы и их дисперсии равномерно ограничены (так как D X i pq , p q 1 , откуда pq 1 ). Следовательно, к ним 4 можно применить теорему Чебышева при M i p : X X2 Xn 1 . lim p 1 p ε n n Но X1 X 2 X n m n n так как X i принимает значение, равное 1, при появлении A в данном опыте, и значение, равное 0, если A не произошло. Таким образом, m lim p p ε 1 n n что и требовалось доказать. Замечание Из теоремы Бернулли не следует, что m lim p n n Речь идет лишь о вероятности того, что разность относительной частоты и вероятности по модулю может стать сколь угодно малой. Разница заключается в следующем: при обычной сходимости, рассматриваемой в математическом анализе, для m всех n , начиная с некоторого значения, неравенство p ε n выполняется всегда; в нашем случае могут найтись такие значения n , при которых это неравенство неверно. Этот вид сходимости называют сходимостью по вероятности. Замечание Теорема Бернулли – следствие теоремы Чебышева, т.к. статистическую вероятность события 158 m n можно представить как среднее арифметическое n независимых случайных величин , имеющих одинаковый закон распределения: 1 . n Предельные теоремы Закон больших чисел не исследует вид предельного закона распределения суммы случайных величин. Этот вопрос рассмотрен в группе теорем, называемых центральной предельной теоремой. Они утверждают, что закон распределения суммы случайных величин, каждая из которых может иметь различные распределения, приближается к нормальному при достаточно большом числе слагаемых. Этим объясняется важность нормального закона для практических приложений. Характеристические функции Для доказательства центральной предельной теоремы используется метод характеристических функций. Дадим определение характеристической функции. Определение Характеристической функцией случайной величины X называется функция g t M e itX Таким образом, g t представляет собой математическое ожидание некоторой комплексной случайной величины U e itX , связанной с величиной X . В частности, если X – дискретная случайная величина, заданная рядом распределения, то itx k g t e k 1 pk 159 Для непрерывной случайной величины с плотностью распределения f (x) g t e itx f x dx Пример Найдем характеристическую функцию для случайной величины X – число выпадений 6 очков при одном броске игральной кости. Решение g t e it 0 5 5 e it it 1 1 e 6 6 6 Пример Найдем характеристическую функцию для нормированной непрерывной случайной величины, распределенной по закону 2 1 x2 f x e 2π Решение g t e x2 itx x2 t2 itx 1 2 1 e dx e 2 dx e 2 2π 2π ( использовалась формула e Ax 2 2 Bx C dx π A e AC B 2 A и то, что i 2 1 ). Свойства характеристических функций 1) Функцию f x можно найти по известной функции g t по формуле f x 160 1 2 e itx g t dt 2) Если случайные величины X и Y связаны соотношением Y Ax , то их характеристические функции связаны соотношением gyt gxat . 3) Характеристическая функция суммы независимых случайных величин равна произведению характеристических n функций слагаемых: для Y X k k 1 g y t g x1 t g x2 t g xn t Теорема (центральная предельная теорема) Если X 1 , X 2 ,, X n - независимые случайные величины с одинаковым законом распределения, математическим ожиданием m и дисперсией σ2 , то при неограниченном увеличении n закон распределения суммы n Yn X k k 1 неограниченно приближается к нормальному. Доказательство Докажем теорему для непрерывных случайных величин X 1 , X 2 , , X n (доказательство для дискретных величин аналогично). Согласно условию теоремы, характеристические функции слагаемых одинаковы: g x t e itx f x dx Тогда по свойству 3 характеристическая функция суммы Yn будет g y n t g xn t . Разложим функцию g x t в ряд Маклорена: g 0 g x t g x 0 g x 0t x αt t 2 2 Где t 0 , при t 0 . Найдѐм: 161 g x 0 f x dx 1, g x 0 ixeitx f x dx t 0 i xe itx f x dx t 0 i xf x dx im Если предположить, что m 0 ( то есть перенести начало отсчета в точку m ), то g x 0 0 . g x 0 x e f x dx t 0 x 2 f x dx σ2 2 itx Подставив полученные результаты в формулу Маклорена, найдем, что σ2 g x t 1 αt t 2 . 2 Рассмотрим новую случайную величину Zn Yn σn , отличающуюся от Yn тем, что ее дисперсия при любом n равна 0. Так как Yn и Z n связаны линейной зависимостью, достаточно доказать, что Z n распределена по нормальному закону, или, что то же самое, что ее характеристическая функция приближается к характеристической функции нормального закона. По свойству характеристических функций n t t g xn t g yn g x σ n σ n σ2 t t 2 1 α 2 σ n nσ 2 n Прологарифмируем полученное выражение: ln g xn t n ln 1 k , 162 σ2 t t 2 где k , lim k 0 . α 2 σ n nσ n 2 Разложим ln1 k в ряд при n , ограничившись двумя членами разложения, тогда ln 1 k k . Отсюда t2 t t2 lim ln g xn t lim n k lim α 2 n n n σ n σ 2 t2 t2 t lim 2 α , 2 n σ σ n где последний предел равен 0, так как αt 0 при t 0 . t2 t2 Следовательно, lim ln f x n t , то есть lim g x n t e 2 n n 2 характеристическая функция нормального распределения. Итак, при неограниченном увеличении числа слагаемых характеристическая функция величины Z n неограниченно приближается к характеристической функции нормального закона; следовательно, закон распределения Z n ( и Yn ) неограниченно приближается к нормальному. Теорема доказана. Ляпунов Александр Михайлович(1857-1918).Русский математик и механик. Исследовал проблемы устойчивости движения материальных систем. Методы, предложенные Ляпуновым, применяются во многих разделах теории дифференциальных уравнений. Дал простое и строгое доказательство центральной предельной теоремы в общем виде. Для доказательства разработал метод характеристических функций, который широко применяется в современной теории вероятностей. Замечание (практическое значение предельной теоремы) Пусть производится измерение некоторой физической величины. Каждое из измерений является приблизительным, на него влияют многие факторы – температура, колебания прибора, влажность и т.д. Каждый из факторов порождает ничтожно малую ошибку, но совокупность факторов – заметную 163 суммарную ошибку. Рассматривая суммарную ошибку как сумму очень большого числа взаимно независимых случайных величин, можно заключить, что ошибка имеет нормальное распределение. На этом строится статистическое оценивание погрешности. А.М.Ляпунов доказал центральную предельную теорему для условий более общего вида: Теорема (теорема Ляпунова) Если случайная величина Х представляет собой сумму очень большого числа взаимно независимых случайных величин, для которых выполнено условие: n b lim n k 1 k Dk k 1 n 3 2 где bk – третий абсолютный центральный момент величины X k , а Dk – ее дисперсия, то X имеет распределение, близкое к нормальному ( условие Ляпунова означает, что влияние каждого слагаемого на сумму ничтожно мало). Практически можно использовать центральную предельную теорему при достаточно небольшом количестве слагаемых, так как вероятностные расчеты требуют сравнительно малой точности. Опыт показывает, что для суммы даже десяти и менее слагаемых закон их распределения можно заменить нормальным. Замечание Смысл условия теоремы состоит в том, чтобы в сумме не было слагаемых, влияние которых на разброс подавляюще велико по сравнению с остальными и не должно быть большого числа слагаемых, влияние которых очень мало. Т.о. удельный вес каждого отдельного слагаемого должен стремиться к нулю при увеличении числа слагаемых. Частным случаем центральной предельной теоремы для дискретных случайных величин является теорема МуавраЛапласа. 164 Муавр Абрахам (1667-1754) - английский математик. Труды по теории рядов, теории вероятностей, теории комплексных чисел. В теории вероятностей доказал важную предельную теорему (1730). В теории комплексных чисел вывел правила возведения в степень и извлечения корней. Лаплас Пьер Симон (1749-1827) -французский математик, физик и астроном. Фундаментальные работы по математике, экспериментальной и математической физике и небесной механике. Является одним из создателей теории вероятностей. Доказал важную предельную теорему, развил теорию ошибок. Ввел теоремы сложения и умножения вероятностей, понятия производящих функций и математического ожидания. Теорема (теорема Муавра-Лапласа) Если производится n независимых опытов, в каждом из которых событие A появляется с вероятностью p , то справедливо соотношение: Y np p α β Φ β Φα , npq где Y – число появлений события A в n опытах, q 1 p . Доказательство n Будем считать, что Y X i , где X i – число появлений i 1 события A в i -м опыте. Тогда случайную величину Z Y my σy можно считать распределенной по нормальному закону и нормированной, следовательно, вероятность ее попадания в интервал α,β можно найти по формуле pα Z β Φ β Φα . Поскольку Y имеет биномиальное распределение, m y np , D y npq , y npq . 165 Y np . npq Подставляя это выражение в предыдущую формулу, получим равенство Y np p α β Φ β Φα . npq Следствие В условиях теоремы Муавра-Лапласа вероятность того, что событие A появится в n опытах ровно k раз, при большом количестве опытов можно найти по формуле: 1 pn k x npq Тогда Z x2 1 2 k np где x , а x (значения этой функции e 2π npq приводятся в специальных таблицах). Пример Найти вероятность того, что при 100 бросках монеты число выпадений герба окажется в пределах от 40 до 60. Решение Применим формулу Y np p α β Φ β Φα npq учитывая, что n 0,5 . npq 50 1 0,5 5 . Y 50 Тогда, если 40 y 60 , 2 2. 5 Тогда np 100 0,5 05 , Следовательно, Y 50 p40 Y 60 p 2 2 Φ2 Φ 2 5 0,9772 0,0228 0,9544 Пример 166 В условиях предыдущего примера найти вероятность того, что выпадет 45 гербов. Решение 45 50 1 , тогда 5 1 1 1 1 1 0,2420 0,0484 . 5 5 5 Найдем x p100 Контрольные вопросы 1. Что такое закон больших чисел в широком смысле и в узком смысле? 2. Что позволяет оценить неравенство Чебышева? 3. Сформулируйте теорему Чебышева и условия еѐ применения. 4. Сформулируйте теорему Бернулли и теорему Пуассона. 5. Что устанавливает центральная предельная теорема? 6. Сформулируйте теорему Ляпунова. 7. Сформулируйте условия, при которых нормальное распределение может служить аппроксимацией к биноминальному. 167 Лекция 12 Математическая статистика Математическая статистика изучает различные методы сбора, обработки и осмысления результатов многократно повторяемых случайных событий. Понятие случайного события определяется в теории вероятностей, обработка результатов также производится при помощи теоретически разработанных вероятностных методов. Для процесса построения и применения моделей характерно, чем больше данных, тем точнее, адекватнее модель. О современной математической статистике можно говорить как о науке о принятии решений в условиях неопределенности. Определение Математическая статистика – раздел математики, занимающейся установлением закономерностей, которым подчинены массовые случайные явления, на основе обработки статистических данных, полученных в результате наблюдений. Двумя основными задачами математической статистики являются: - определение способов сбора и группировки этих статистических данных; - разработка методов анализа полученных данных в зависимости от целей исследования, к которым относятся: а) оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости от других случайных величин и т.д.; б) проверка статистических гипотез о виде неизвестного распределения или о значениях параметров известного распределения. Для решения этих задач необходимо выбрать из большой совокупности однородных объектов ограниченное количество объектов, по результатам изучения которых можно сделать прогноз относительно исследуемого признака этих объектов. 168 Пример Имеется партия деталей, качественным признаком может служить стандартность детали, а количественным — контролируемый размер детали. Иногда проводят сплошное обследование, т. е. обследуют каждый из объектов совокупности относительно признака, которым интересуются. На практике, однако, сплошное обследование применяется сравнительно редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование практически не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов и подвергают их изучению. Обычно совокупность исследуется относительно некоторого качественного или количественного признака, характеризующего эти объекты. Определим основные понятия математической статистики. Определение Генеральная совокупность –- полное множество некоторых единиц, которые обладают теми или иными общими свойствами, существенными для их характеристики. В математической статистике понятие генеральной совокупности трактуется как совокупность всех мыслимых наблюдений, которые могли бы быть произведены при данном реальном комплексе условий и аналогично понятию случайной величины. Определение Выборочной совокупностью, или просто выборкой, называют совокупность случайно отобранных объектов. Определение Объем генеральной совокупности N и объем выборки n – число объектов в рассматриваемой совокупности. Сущность выборочного метода состоит в том, чтобы по некоторой части генеральной совокупности выносить суждение о свойствах в целом. 169 Пример Из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N 1000 , а объем выборки n 100 . Исследуемый признак генеральной совокупности является дискретным, если он принимает отдельные, изолированные возможные значения с определѐнными вероятностями. Исследуемый признак генеральной совокупности является непрерывным, если он может принимать все значения из некоторого конечного или бесконечного промежутка. По всякой ли выборке можно достаточно уверенно судить об генеральной совокупности? Случайная выборка строится таким образом, что каждый объект генеральной совокупности имеет одинаковую вероятность быть отобранным; объекты выбирают независимо друг от друга. случайность гарантирует надежность. Виды выборки Пусть случайная величина X принимает в выборке значение x1 - n1 раз, x2 - n2 раз, …, xn - nn раз, и k n i 1 k n, где n – объем выборки. Определение Варианты - наблюдаемые значения x1 , x2 ,…, xn случайной величины X , принимаемые в выборке n1 раз, n2 раз, …, nn раз. Определение Частоты n1 , n2 ,…, nk –. величины, показывающие, сколько раз встречается то или иное значение признака Определение Относительные частоты - отношение частот к объему wi 170 ni n Определение Вариационный ряд - последовательность вариант, записанных в порядке возрастания, а перечень вариант и соответствующих им частот или относительных частот . Определение Статистический ряд последовательность частот или относительных частот, записанных в порядке возрастания. Различные значения признака X называются вариантами. xi x1 x2 … xk ni n1 n2 … xk wi w1 w2 … wk Замечание: В теории вероятности под распределениями понимают соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике — соответствие между наблюдаемыми вариантами и их частотами. Пример При проведении 20 серий из 10 бросков игральной кости число выпадений шести очков оказалось равным 1,1,4,0,1,2,1,2,2,0,5,3,3,1,0,2,2,3,4,1. Составим вариационный ряд: 0,1,2,3,4,5. Статистический ряд для абсолютных и относительных частот имеет вид: 0 1 2 3 4 5 xi ni 3 6 5 3 2 1 wi 0,15 0,3 0,25 0,15 0,1 0,05 Определение Расположение, упорядочение вариантов в порядке возрастания (убывания) называется ранжированием вариантов ряда. При составлении выборки можно поступать двояко: после того, как объект отобран и над ним произведено наблюдение, он 171 может быть возвращен, либо не возвращен в генеральную совокупность. В соответствии со сказанным, выборки подразделяют на повторные и бесповторные Определение Повторная выборка – каждый отобранный объект перед выбором следующего возвращается в генеральную совокупность; Определение Бесповторная выборка – отобранный объект в генеральную совокупность не возвращается. На практике обычно пользуются бесповторным случайным отбором. Замечание Для того, чтобы по исследованию выборки можно было сделать выводы о поведении интересующего признака генеральной совокупности, нужно, чтобы выборка правильно представляла пропорции генеральной совокупности, то есть была репрезентативной (представительной). Выборка будет репрезентативной, если еѐ осуществить случайно, когда все объекты генеральной совокупности имеют одинаковую вероятность быть отображенными и отбор одного объекта не влияет на вероятность отбора другого объекта совокупности. Учитывая закон больших чисел, можно утверждать, что это условие выполняется, если каждый объект выбран случайно, причем для любого объекта вероятность попасть в выборку одинакова. Если объем генеральной совокупности достаточно велик, а выборка составляет лишь незначительную часть этой совокупности, то различие между повторной и бесповторной выборками стирается; в предельном случае, когда рассматривается бесконечная генеральная совокупность, а выборка имеет конечный объем, это различие исчезает. 172 Способы отбора На практике применяются различные способы отбора. Принципиально эти способы можно подразделить на два вида: 1. Отбор, не требующий расчленения генеральной совокупности на части, сюда относятся: простой случайный бесповторный отбор; простой случайный повторный отбор. 2. Отбор, при котором генеральная совокупность разбивается на части, сюда относятся: типический отбор; механический отбор; серийный отбор. Определение Простой случайный отбор - отбор, при котором объекты извлекают по одному из всей генеральной совокупности. Осуществить простой отбор можно различными способами. Например, для извлечения n объектов из генеральной совокупности объема N поступают так: пронумеровывают все объекты генеральной совокупности и выписывают номера от 1 до N на карточках, которые тщательно перемешивают и наугад вынимают одну карточку; объект, имеющий одинаковый номер с извлеченной карточкой, подвергают обследованию; затем карточка возвращается в пачку, и процесс повторяется, т. е. карточки перемешиваются, наугад вынимают одну из них и т. д. Так поступают n раз; в итоге получают простую случайную повторную выборку объема n . Если извлеченные карточки не возвращать в пачку, то выборка будет простой случайной бесповторной. При большом объеме генеральной совокупности описанный процесс оказывается очень трудоемким. В этом случае пользуются готовыми таблицами «случайных чисел», в которых числа расположены в случайном порядке. Для того чтобы отобрать, например 50 объектов из пронумерованной генеральной совокупности, открывают любую страницу таблицы случайных чисел и выписывают подряд 50 173 чисел; в выборку попадают те объекты, номера которых совпадают с выписанными случайными числами. Если бы оказалось, что случайное число таблицы превышает число N , то такое случайное число пропускают. При осуществлении бесповторной выборки случайные числа таблицы, уже встречавшиеся ранее, следует также пропустить. Определение Типический отбор - отбор, при котором объекты отбираются не из всей генеральной совокупности, а из каждой ее «типической» части. Например, если детали изготовляют на нескольких станках, то отбор производят не из всей совокупности деталей, произведенных всеми станками, а из продукции каждого станка в отдельности. Типическим отбором пользуются тогда, когда обследуемый признак заметно колеблется в различных типических частях генеральной совокупности. Например, если продукция изготовляется на нескольких машинах, среди которых есть более и менее изношенные, то здесь типический отбор целесообразен. Определение Механический отбор - отбор, при котором генеральная совокупность «механически» делится на столько групп, сколько объектов должно войти в выборку, и из каждой группы отбирается один объект. Например, если нужно отобрать 20% изготовленных станком деталей, то отбирают каждую пятую деталь; если требуется отобрать 5% деталей, то отбирают каждую двадцатую деталь и т. д.Следует указать, что иногда механический отбор может не обеспечить репрезентативности выборки. Например, если отбирается каждый двадцатый обтачиваемый валик, причем сразу же после отбора производят замену резца, то отобранными окажутся все валики, обточенные затупленными резцами. В таком случае надо устранить совпадение ритма отбора с ритмом замены резца, для чего надо отбирать, скажем, каждый десятый валик из двадцати обточенных. 174 Определение Серийный отбор - отбор, при котором объекты отбирают из генеральной совокупности не по одному, а «сериями», которые подвергаются сплошному обследованию. Например, если изделия изготовляются большой группой станков-автоматов, то подвергают сплошному обследованию продукцию только нескольких станков. Серийным отбором пользуются тогда, когда обследуемый признак колеблется в различных сериях незначительно. На практике часто применяется комбинированный отбор, при котором сочетаются указанные выше способы. Например, иногда разбивают генеральную совокупность на серии одинакового объема, затем простым случайным отбором выбирают несколько серий и, наконец, из каждой серии простым случайным отбором извлекают отдельные объекты. Табличное представление статистических данных После того, как данные собраны, выполняется их обработка, при этом необходимо обеспечить наглядность представления данных, позволяющую получить какие-то первоначальные представления об их закономерности. Эта наглядность достигаются путем построения таблиц и графиков Если исследуется некоторый непрерывный признак, то вариационный ряд может состоять из очень большого количества чисел. В этом случае удобнее использовать группированную выборку. Для ее получения интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько равных частичных интервалов длиной h , а затем находят для каждого частичного интервала ni – сумму частот вариант, попавших в i -й интервал. Составленная по этим результатам таблица называется группированным статистическим рядом: Определение Числа, показывающие, сколько раз встречаются варианты из данного интервала, называются частотами, а отношение их к общему числу наблюдений – относительными частотами. 175 Номера интервалов 1 2 … k Границы интервалов Сумма частот вариант, попавших в интервал (a, a + h) (a + h, a + 2h) … (b – h, b) n1 n2 … nk Частоты и относительные частоты называют весами. Определение Вариационный ряд – ранжированный ряд вариантов с соответствующими весами. Пример Распределение рабочих по тарифному разряду Тарифный разряд Частота (кол-во рабочих) xi 1 2 3 4 5 6 2 3 6 8 22 9 50 ni Пример Составить дискретный вариационный ряд успеваемости студентов, сдавших экзамен по курсу "Математическая статистика". На курсе 100 человек. Полученные студентами оценки представляют собой следующий набор чисел: 5 3 4 5 4 3 5 4 2 4 5 4 4 3 3 4 2 5 4 5 3 4 3 3 4 5 4 5 3 4 5 4 4 5 2 3 5 4 5 4 3 4 4 4 5 5 4 3 4 5 5 4 5 4 3 5 2 4 4 4 3 5 4 2 5 4 5 3 5 4 5 4 4 5 2 3 5 4 5 4 5 5 3 5 4 3 3 4 5 4 5 4 3 5 3 4 5 4 5 4 Решение Полученные сведения образуют выборку или статистический ряд. Выборку надо "организовать". Расположим наблюдавшиеся значения признака (оценки) в порядке возрастания (ранжирование) Оценка принимает дискретные значения от 2 до 5. Ранжированный ряд удобно представлять в табличной форме в виде дискретного вариационного ряда 176 Частота признака m x - величина, показывающая, сколько раз встречается то или иное значение признака. Относительная частота wx - отношение частоты m x к общему объему выборки n : x mx mx n mx Оценка (х) Количество студентов (частота m x ) Доля Накопленная студентов (относительная частота m нак x частота x ) Накопленная относительная 2 3 4 5 Итого 6 20 40 34 100 0,06 0,2 0,4 0,34 1,0 0,06 026 0,66 1 - 6 26 66 100 - нак частота x Наряду с понятиями частоты и относительной частоты, в математической статистике рассматриваются понятия нак накопленной частоты m x и накопленной относительной частоты нак которые показывают, во скольких наблюдениях x признак принял значения не больше заданного значения x : m xнак n В случае непрерывной случайной величины рассматривают не дискретные значения признака, а их значения в пределах определенного интервала. В качестве частоты при таком подходе выступает количество случаев, в которых признак принял значения, входящие в некоторый интервал. Такую величину называют интервальной частотой и обозначают тh (соответственно рассматривается также и интервальная относительная частота wh ). Полученный таким образом ряд называют интервальным вариационным рядом. m xнак m x , нак x 177 Интервальный вариационный ряд строят не только на основе наблюдений за непрерывно меняющимся признаком. Во многих случаях, когда признак варьирует дискретно, однако число наблюдений достаточно велико, удобнее как раз строить интервальный ряд. Для построения интервального ряда необходимо установить величину интервала h. Она должна быть такой, чтобы ряд был не слишком громоздким и не отвлекал внимание на частности, и, в то же время, обеспечивал выявление характерных черт и закономерностей исследуемых явлений. Определение Вариационный размах – разность между наибольшим и наименьшим вариантами ряда R x max x min Определение Группировка - разбиение вариантов на различные интервалы. Для определения величины интервала h можно использовать формулу Стэрджесса: h RB 1 3.3221lg( n ) где RB - вариационный размах и является мерой разброса данных; xmax и xmin - соответственно наибольшее и наименьшее значение признака в выборке. Ширина интервала k xmax xmin h Когда величина интервала h выбрана, строят шкалу интервалов. При этом за верхнюю границу первого интервала принимают обычно величину a1 xmin h / 2 а верхняя граница каждого последующего интервала определяется добавлением к верхней границе предыдущего значения интервала h a j a j 1 h , ( j 2,3...) 178 до тех пор, пока начало очередного интервала не окажется больше xmax . Затем все значения признака, входящие в выборку, распределяются между соответствующими интервалами, и строится интервальный вариационный ряд. Пример Студенты некоторого факультета, состоящего из 100 человек, написали выпускную контрольную работу. Каждый студент набрал определенное количество баллов. Приведем эти баллы (в порядке алфавитного списка студентов): 64 59 116 89 76 55 87 65 99 94 76 59 78 34 89 42 91 41 99 49 59 66 57 79 65 94 67 103 38 68 85 51 78 38 87 43 104 49 58 33 53 75 28 67 37 50 98 56 71 83 68 58 82 67 57 72 59 86 51 64 70 53 32 56 100 57 69 87 82 67 37 74 39 84 337 99 47 110 57 96 66 46 72 54 75 47 79 61 115 65 67 70 24 73 40 58 78 75 87 51 Решение В таблице подчеркнуты максимальное и минимальное значения признака. Величина интервала h = 12. Тогда h 24 6 30 ; a2 a1 h 30 12 42 ; 2 a3 a2 h 54 ;… a1 xmax Результаты построения интервального вариационного ряда по приведенным объемам выпуска ДСП представлены: 179 Верхняя граница Частота Относительная интервала а частота mx x 30 42 54 66 78 90 102 114 126 Итого 2 12 13 23 24 12 9 3 2 100 Графическое Накопленная нак частота m x 0,02 0,12 0,13 0,23 0,24 0,12 0,09 0,03 0,02 1 представление 2 14 27 50 74 86 95 98 100 - Накопленная относительная частота нак x 0,02 0,14 0,27 0,50 0,74 0,86 0,95 0,98 1,00 - статистических данных Для наглядного представления о поведении исследуемой случайной величины в выборке можно строить различные графики. Наиболее часто используют следующие виды графического представления характеристик выборки: полигон, гистограмма и кумулятивная кривая. Гистограмма и полигон позволяют выявить преобладающие значения признака и характер распределения частот и относительных частот. Определение Полигон - ломаная линия с координатами xi , mx где xi откладываются на оси абсцисс, а mx , – на оси ординат. Если на оси ординат откладывать не абсолютные, а относительные ( wi ) частоты, то получим полигон относительных частот. Полигон служит обычно для представления дискретного вариационного ряда. В системе координат ( x , m x ,) строятся точки, соответствующие значениям частот или относительных частот ряда, а затем эти точки соединяются прямыми линиями. 180 Показан полигон частот для ряда, представленного ранее в примере. 50 Частота mx 40 30 20 10 0 2 3 4 5 Оценка х Для непрерывного признака графической иллюстрацией служит гистограмма, то есть ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длиной h , а высотами – отрезки длиной ni h (гистограмма частот) или wi h (гистограмма относительных частот). В первом случае площадь гистограммы равна объему выборки, во втором – единице Определение Гистограмма – прямоугольники, с основаниями, равными интервалам значений признака и высотами, равными частотам. Полигон (гистограмма) аналогичны кривой распределения, эмпирическая функция распределения – функции распределения случайной величины. Гистограмма — это диаграмма, используемая, как правило, для представления интервального вариационного ряда. Наиболее существенное отличие от полигона в том, что частота и относительная частота отображаются не точкой, а прямой, параллельной оси абсцисс на всем интервале. Это объясняется тем, что данная частота (относительная частота) относится не к дискретному значению признака, а ко всему интервалу. 181 30 25 mh 20 15 10 5 0 30 42 54 66 78 90 102 114 126 aj Любой вариационный ряд можно изобразить графически в виде кривой накопленных частот — кумуляты. На оси абсцисс откладываются либо варианты, либо границы интервалов. На оси ординат — накопленная частота. Получают точки при пересечении каждой пары абсциссы и ординаты, которые соединяют плавной кривой. Определение Кумулятивная кривая (кривая сумм) — ломаная, составленная по последовательно суммированным, т.е. накопленным частотам или относительным частотам. При построении кумулятивной кривой дискретного признака на ось абсцисс наносятся значения признака, а ординатами служат нарастающие итоги частот. Соединением вершин ординат прямыми линиями получают кумуляту. При построении кумуляты интервального признака на ось абсцисс откладываются границы интервалов и верхним значениям присваивают накопленные частоты. Кумулятивную кривую называют полигоном накопленных частот. Кумулятивная кривая строится для накопленных частот или накопленных относительных частот, причем по оси ординат откладывают верхнюю границу интервала соответствующего интервального ряда, так что последняя точка кумулятивной кривой всегда отвечает либо количеству наблюдений в выборке, либо единице. 182 120 100 mh нак 80 60 40 20 0 30 42 54 66 78 90 102 114 126 aj По аналогии с функцией распределения случайной величины можно задать некоторую функцию, относительную частоту события X x . Кумулятивная кривая, то же, что график функции распределения. Выборочная функция распределения Определение Выборочной (эмпирической) функцией распределения называют функцию F x , определяющую для каждого значения x относительную частоту события X x . F * x nx n , где n x – число вариант, меньших x , n – объем выборки. Замечание. В отличие от эмпирической функции распределения, найденной опытным путем, функцию распределения F x генеральной совокупности называют теоретической функцией распределения. F x определяет вероятность события X x , а F x – его относительную частоту. Замечание При достаточно больших n , как следует из теоремы Бернулли, F x стремится по вероятности к F x . 183 Из определения эмпирической функции распределения видно, что ее свойства совпадают со свойствами F x , а именно: 1) 0 F x 1. 2) F x – неубывающая функция. 3) Если х1 – наименьшая варианта, то F x 0 при x x1 ; если x k – наибольшая варианта, то F x 1 при x xk . Числовые характеристики вариационного ряда К числовым характеристикам обычно относят так называемые средние (центральные) величины и меры, характеризующие разброс данных вокруг средних величин, а также некоторые другие дополнительные параметры, описывающие характер распределения опытных данных. Средние величины — это характеристики, обобщенно представляющие одним числом всю выборку. Существует несколько видов средних величин: средняя арифметическая, средняя геометрическая, средняя гармоническая Какой из них пользоваться в каждом конкретном случае определяется тем, какое свойство ряда желательно описать данной величиной. Наиболее распространенной является средняя арифметическая или, как часто говорят, просто средняя. Определение Средней арифметической вариационного ряда называется сумма произведений всех вариантов на соответствующие частоты, деленная на сумму частот. m x 184 x i ni i 1 n , где x i - варианты дискретного ряда или середины интервалов вариационного ряда, ni - соответствующие им частоты, m n ni . i 1 Это наиболее общая формула для вычисления средней арифметической. Однако при большом числе наблюдений пользоваться ей не очень удобно, поэтому существуют некоторые другие более удобные формулы. В частности, если уже построены вариационные ряды, то среднюю арифметическую можно найти с помощью частот по формулам: 1 1 x xm x и x x h mh n x n h , или x x x и x x xh h h где x и x h — соответственно значение признака для дискретного и интервального (центр интервала) ряда. Для дискретного ряда эти формулы дают точные значения величин x , а для интервального ряда — приближенные, поскольку предполагают, что все значения наблюдаемой величины совпадают с центром интервала или равномерно распределены вокруг него. Однако чем больше объем выборки, тем ближе приближенное значение к среднему. Средняя арифметическая обладает рядом свойств, основными из которых являются следующие. Свойства средней арифметической 1. Средняя арифметическая - это такая величина, которая обеспечивает неизменность суммы значений результатов наблюдений, если каждое из них заменить средней арифметической: 185 n n i 1 i 1 x i x nx 2. Сумма отклонений результатов наблюдений от средней арифметической равна нулю: n ( xi x ) 0 i 1 3. Средняя арифметическая сумм (разностей) двух рядов наблюдении с одинаковым объемом выборок равна сумме (разности) средних арифметических этих рядов, если исследуемые признаки взаимно соответствуют друг другу: (x y) x y Последнее свойство обобщается на любое количество рядов. Средняя арифметическая является важной характеристикой ряда наблюдений. Она показывает наиболее часто встречающееся, наиболее вероятное значение анализируемой величины и подобна математическому ожиданию в теории вероятностей. Но это не единственная средняя характеристика выборки. Часто в практике приходится прибегать к средней геометрической, которая определяется как корень n - ой степени из произведения всех полученных измерений (наблюдений): x геом n x1 x2 xn n xi i 1 Часто употребляемыми характеристиками являются также мода и медиана. Определение Медианой называется значение признака, приходящееся на середину ранжированного ряда наблюдений. Медиана (Me или ~ x ) - значение признака, для которого половина всех наблюдений меньше (соответственно половина больше) этого значения или, иначе говоря, срединное значение признака. Наиболее просто медиану можно найти по графику кумулятивной кривой накопленных относительных частот, 186 определяя значение ~ x , отвечающее величине h = 0,5, или ближайшего к нему целому для дискретного целочисленного ряда. К вычислению медианы прибегают в том случае, когда надо определять значение признака, которое лежит в середине распределения. Для дискретного вариационного ряда с нечетным числом членов медиана равна серединному варианту, а для ряда с четным числом членов – полусумме двух серединных вариантов. Пример четное, серединных интервалов два n 50 x 25 5, x 26 5 M x 25 x 26 5 5 5 2 2 Для интервального вариационного ряда находится медианный интервал, на который приходится середина ряда, а значения медианы на этом интервале находят с помощью линейного интерполирования. Определение Мода –вариант, которому соответствует наибольшая частота. Мода (Мо) — это такое значение признака, которому отвечает максимум частоты или относительной частоты вариационного ряда. Для дискретного вариационного ряда значение моды определяется непосредственно из таблицы или по полигону частот (относительных частот). Пример Mo 5 , так как этому варианту соответствует наибольшая частота ni 22 . Для интервального ряда сначала определяют модальный интервал, т. е. интервал, отвечающий наибольшей частоте признака. Обозначим через a 0 начало модального интервала. Через m0 ( 0 ), m0 ( 0 ) и m0( 0 ) обозначим частоту (относительная частота) модального, предшествующего и последующего интервалов. Тогда 187 Mo a0 h m0 m0 2m0 m0 m0 или 0 0 20 0 0 Обычно модой пользуются, чтобы установить, например, какая производительность труда, себестоимость продукции, объем ее выпуска и т. п. преобладают в данном ряду наблюдении, на данной группе предприятии, в данном районе, в данном году и т. п. Определение Коэффициент ассиметрии – числовая характеристика вариационного ряда Mo a0 h xi m A m3 s3 x i 1 3 ni n s3 если A 0 , то распределение имеет симметричную форму, т.е. варианты равноудалены от x , имеют одинаковую частоту. Ассиметрия характеризует симметричность распределения относительно средней арифметической. Определение Эксцесс - числовая характеристика вариационного ряда xi m E m4 s 4 3 i 1 x 4 ni n s4 3 Эксцесс или коэффициент эксцесса характеризуют остроту вершины полигона или гистограммы. Чем больше значение этих величин, тем острее вершина. Эксцесс является показателем крутости вариационного ряда по сравнению с нормальным распределением. Если E 0 - то нормальное распределение. 188 Меры разброса опытных данных Средние величины характеризуют всю выборку, при этом такие характеристики даются единственным числом. Степень изменчивости наблюдаемых значений или, как принято говорить, вариация признака такими характеристиками никак не учитывается. Однако на практике небезразлично, как разбросаны значения измеряемых величин. Средняя арифметическая характеризует только центр рассеивания опытных данных. Нужны еще какие-то меры, которые характеризовали бы рассеяние этих данных вокруг центра. Таких мер существует несколько. Простейшей из них является вариационный размах. Эта величина легко вычисляется, поэтому ею часто пользуются на практике. Однако эта характеристика, опираясь только на два крайних значения из всего ряда наблюдений, не учитывает, как расположены внутри этого интервала остальные значения. Поэтому чаще используются более эффективные меры для оценки рассеивания. Определение Дисперсия – средняя арифметическая квадратов отклонений вариантов от их средней арифметической xi m s2 x i 1 n 2 ni , где s - средне квадратическое отклонение. Выборочная дисперсия является наиболее важной из них и равна 1 n ( xi x )2 - для неранжированного ряда n i 1 2 в Или в2 ( xi x )2h - для ранжированного ряда. h Дисперсия полно характеризует меру рассеивания измеренных значений вокруг средней арифметической. 189 Чем меньше дисперсия, тем теснее группируются данные около центра рассеивания. Дисперсия и средняя арифметическая имеют разные размерности, что создает затруднения при практических оценках. Поэтому часто прибегают к выборочному стандартному отклонению: в 1 n ( xi x ) 2 n i 1 в (x x ) - для неранжированного ряда или 2 i h - для ранжированного ряда. h Достаточно удобной величиной, дающей возможность оценить меру рассеивания, является выборочный коэффициент вариации, определяемый либо в относительных значениях, либо в процентах: x x x Формулами, которыми значительно удобнее пользоваться на практике: 1 n 2в xi2 x 2 n i 1 2в xh h x 2 h Для подсчета истинных характеристик вводят поправки к группировке (поправки Шеппарда), при этом истинные моменты связываются 1 2 h , m3 m3 , 12 1 7 4 m4 m4 s 2 h 2 h 2 240 s2 s2 A 190 m3 s3 , E E h k - ширина интервала Контрольные вопросы 1. Сформулируйте основные задачи математической статистики. 2. Дайте определение генеральной и выборочной совокупностей. 3. Какие способы отбора выборки Вы знаете? Приведите примеры. 4. Что такое вариационный ряд. 5. Приведите пример статистического распределения выборки. Найдите объем выборки. 6. Что такое статистическая оценка неизвестного параметра генеральной совокупности? 7. Напишите формулы для нахождения выборочной средней и дисперии выборки. 8. Запишите формулы для нахождения генеральной средней и генеральной дисперсии. 9. Что такое исправленное среднее квадратическое отклонение? 10. В чем различие между полигоном частот и полигоном относительных частот? 11. Чему равна площадь прямоугольника в гистограмме частот? 12. Как определить моду на полигоне частот? 13. Чему равна площадь одного прямоугольника в гистограмме частот? 14. Чему равна сумма площадей всех прямоугольников в гистограмме частот? 15. Может ли значение дисперсии равно значению стандартного отклонения? 16. При каких условиях распределение случайных величин может оказаться бимодальным? 17. Какие факторы должны учитываться при выборе числа интервалов гистограммы? 191 Лекция 13 Проверка статистических гипотез Часто необходимо знать закон распределения генеральной совокупности. Если закон распределения неизвестен, но имеются основания предположить, что он имеет определенный вид (назовем его A ), выдвигают гипотезу: генеральная совокупность распределена по закону A . Таким образом, в этой гипотезе речь идет о виде предполагаемого распределения. Возможен случай, когда закон распределения известен, а его параметры неизвестны. Если есть основания предположить, что неизвестный параметр равен определенному значению 0 , выдвигают гипотезу: 0 . Таким образом, в этой гипотезе речь идет о предполагаемой величине параметра одного известного распределения. Возможны и другие гипотезы: о равенстве параметров двух или нескольких распределений, о независимости выборок и многие другие. Определение Статистическая гипотеза – гипотеза о виде неизвестного распределения, или о параметрах известных распределений. Например, статистическими будут гипотезы: 1) генеральная совокупность распределена по закону Пуассона; 2) дисперсии двух нормальных совокупностей равны между собой. В первой гипотезе сделано предположение о виде неизвестного распределения, во второй - о параметрах двух известных распределений. Гипотеза «в 2010г. не будет дождей» не является статистической, поскольку в ней не идет речь ни о виде, ни о параметрах распределения. Наряду с выдвинутой гипотезой рассматривают и противоречащую ей гипотезу. Если выдвинутая гипотеза будет отвергнута, то имеет место противоречащая гипотеза. 192 По этой причине эти гипотезы целесообразно различать. Нулевой (основной) называют выдвинутую гипотезу H 0 . Конкурирующей (альтернативной) называют гипотезу H 1 , которая противоречит нулевой. Например, если нулевая гипотеза состоит в предположении, что математическое ожидание а нормального распределения равно 10, то конкурирующая гипотеза, в частности, может состоять в предположении, что a 10 H 0 : a 10; H1 : a 10 . Нулевая гипотеза представляет собой такое утверждение, которое принимается тогда, когда нет убедительных аргументов для его отклонения. Альтернативную гипотезу принимают только тогда, когда есть убедительное статистическое доказательство, которое отвергает нулевую гипотезу. Определяя, какая из двух гипотез будет альтернативной, надо спросить себя: «Какая из гипотез требует доказательств?».Эта гипотеза и будет альтернативной Различают гипотезы, которые содержат только одно и более одного предположений. Простой называют гипотезу, содержащую только одно предположение. Например, если параметр показательного распределения, то гипотеза H 0 : 5 простая. Пример Гипотеза H 0 : математическое ожидание нормального распределения равно 3 ( известно) - простая. Сложной называют гипотезу, которая состоит из конечного или бесконечного числа простых гипотез. Например, сложная гипотеза H : 5 состоит из бесчисленного множества простых вида H i : bi , где bi любое число, большее 5. Гипотеза H 0 : математическое ожидание распределения равно 3 ( неизвестно) - сложная. нормального 193 Для проверки нулевой гипотезы используют специально подобранную случайную величину, точное или приближенное распределение которой известно. Эту величину обозначают через U или Z, если она распределена нормально, F или v2 - по закону Фишера Снедекора, Т - по закону Стьюдента, 2 - по закону «хи квадрат» и т. д. Признаем, что и принимая, и отвергая H 0 , мы подвергаем себя определѐнному риску. В итоге статистической проверки могут быть допущены ошибки двух типов: 1. Ошибка 1 рода - будет отвергнута правильная гипотеза. Принимается H1 , тогда как верна H 0 . 2. Ошибка 2 рода – будет принята неправильная гипотеза. Примем H 0 , тогда как на самом деле верна H1 . Решение Фактически H 0 верно H 0 отвергается Ошибка 1 рода Фактически H 0 не верно Правильное решение H 0 принимается Правильное решение Ошибка 2 рода Пример H 0 - подсудимый невиновен ( гипотеза либо принимается, либо отвергается). Могут быть 2 ошибки: 1.осудить невиновного (1 рода) 2.оправдать виновного (2 рода) Последствия ошибок разны. Пример Идет строительство дома. Однако выявлены ряд ошибок в проекте и самом строительстве. Продолжать ли стройку? H 0 - продолжать. Ошибка 1 рода – остановили стройку. Денежные потери. Ошибка 2 рода – продолжили строительство. Дом обвалился. Вероятность совершить ошибку 1 рода (отвергнуть правильную H 0 ) обычно обозначается и называется уровнем значимости. 194 Если 0.05 , то это означает, что имеется риск в 5 случаях из 100 отвергнуть правильную гипотезу. Вероятность совершить ошибку 2 рода (принять H 0 , когда она неверна) обычно обозначается . Вероятность 1 не допустить ошибку 2 рода (отвергнуть H 0 , когда она неверна) называется мощностью критерия. Возможностью двойной ошибки проверка гипотез отличается от интервального оценивания, где рассматривалась только одна ошибка. Определение Статистический критерий (или просто критерий)- случайная величина K , которая служит для проверки нулевой гипотезы. Например, если проверяют гипотезу о равенстве дисперсий двух нормальных генеральных совокупностей, то в качестве критерия K принимают отношение исправленных выборочных дисперсий: s12 s22 Эта величина случайная, потому что в различных опытах дисперсии будут принимать различные, наперед неизвестные значения. Для проверки гипотезы по данным выборок вычисляют частные значения входящих в критерий величин, и таким образом получают частное (наблюдаемое) значение критерия. Наблюдаемым значением K набл назначают значение критерия, вычисленное по выборкам. Например, если по двум выборкам, извлеченным из нормальных генеральных совокупностей, найдены F исправленные выборочные дисперсии s12 20 и s2 5 , то наблюдаемое значение критерия F 2 Fнабл s12 20 2 4 5 s2 195 Общий алгоритм 1.Сформулировать нулевую и альтернативную гипотезы. 2.Задать уровень значимости (допустимую вероятность ошибки 1 рода). 3.Выбрать подходящий критерий (меру расхождения) K 4. Определить критическую область. 5. По выборочным данным найти фактическое значение критерия.. 6.Если наблюденное значение критерия принадлежит критической области, то нулевая гипотеза отклоняется, иначе – принимается. Если H 0 принята, она ещѐ не доказана. Говорят, что данные согласуются с H 0 Если гипотеза отвергается, то этот вывод более категоричен. Пример Для проведения экзамена по курсу «Теория вероятностей» подготовлено 100 вопросов. Если студент знает не менее 60 вопросов, считается, что он усвоил курс и ему может быть поставлен экзамен. Каждому студенту предлагается 5 вопросов. Студент получает экзамен, если ответит не менее, чем на 3 вопроса. Решение Генеральная совокупность – 100 вопросов. Выборка –5 вопросов. Гипотеза H 0 - «студент курса не усвоил». Критерием для проверки служит число правильных ответов. Областью принятия гипотезы является совокупность чисел 0,1,2, а критической областью – 3,4,5. Пусть «хороший» студент знает 70 из 100 вопросов и объективно должен получить экзамен. Тогда H 0 неверна. Но возможно, что из 5 вопросов студент будет знать меньше 3 и не получит экзамен. Произойдет ошибка 2 рода. Наоборот, «плохой» студент, знающий 30 вопросов, может получить 3 и более известных вопросов. В этом случае будет отвергнута правильная гипотеза H 0 и произойдет ошибка 1 рода. 196 Как уменьшить вероятность ошибок 1 и 2 рода? Можно уменьшить вероятность ошибки 1 рода путем сужения критической области (ставить экзамен за 4 или 5 правильных ответов). Но при этом возрастет и вероятность ошибки 2 рода. Одновременное уменьшение вероятностей ошибок 1 и 2 рода возможно только за счет увеличения объема выборки, т.е. числа предлагаемых вопросов. Критическая область Как построить критическую область. 1. Задаем уровень значимости . 2. Зная закон распределения K ищем K кр , исходя из требования (для односторонней области) K > K кр или K K кр . 3. Находим K набл . Если K набл K кр или K набл K кр – отвергаем H 0 .. В противном случае принимаем H 0 с уровнем значимости . 197 Если критерий выбираются, K K кр двусторонний, то критические точки исходя из требования K > K кр . Чаще всего выбирается так, чтобы K K кр K > K кр 2 . 2 Распределение Пусть X i i 1,2,, n — независимые случайные величины, распределенные по гауссовскому закону, причем м.о. каждой из них равно нулю, а с.к.о. — единице. Тогда сумма квадратов этих величин распределена по закону 2 (''хи квадрат") с k n степенями свободы. n 2 X i2 i 1 Плотность этого распределения x0 0 f ( x) 1 x /2 k /2 1 x0 2k /2 Г (k / 2) e x где Γx = t x 1e t dt гамма-функция, в частности, Γn 1 n! Распределение 2 определяется одним параметром — числом степеней свободы k . С увеличением числа k распределение медленно приближается к гауссовскому. 198 Критерий Пирсона Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины по эмпирическим данным. Предположение о виде закона распределения может быть выдвинуто, исходя из теоретических предпосылок, опыта предшествующих исследований и на основании графического представления опытных данных. Параметры распределения заменяют их точечными оценками. Между теоретическим и эмпирическим распределениями неизбежны расхождения. Возникает вопрос: объясняются ли эти расхождения случайными обстоятельствами, связанными с ограниченным числом наблюдений, или они являются существенными и связаны с тем, что теоретический закон подобран неудачно. Для ответа на этот вопрос служат критерии согласия. Определение Критерий согласия -критерий проверки гипотезы о предполагаемом законе неизвестного распределения. Статистические критерии подразделяются на следующие категории: Критерии значимости. Проверка на значимость предполагает проверку гипотезы о численных значениях известного закона распределения: — нулевая гипотеза. или — конкурирующая гипотеза. Критерии согласия. Проверка на согласие подразумевает проверку предположения о том, что исследуемая случайная величина подчиняется предполагаемому закону. Критерии согласия можно также воспринимать, как критерии значимости. Критерии на однородность. При проверке на однородность случайные величины исследуются на факт взаимного соответствия их законов распределения (подчиняются ли эти величины одному и тому же закону). Используются в факторном (дисперсионном) анализе для определения наличия зависимостей. 199 Это разделение условно, и зачастую один и тот же критерий может быть использован в разных качествах. Критерий Пирсона, или критерий χ2 — наиболее часто употребляемый критерий для проверки гипотезы о законе распределения. Во многих практических задачах точный закон распределения неизвестен, то есть является гипотезой, которая требует статистической проверки. Обозначим через X исследуемую случайную величину. Пусть требуется проверить гипотезу H0 о том, что эта случайная величина подчиняется закону распределения F x . Для проверки гипотезы произведѐм выборку, состоящую из n независимых наблюдений над случайной величиной X . По выборке можно построить эмпирическое распределение F x исследуемой случайной величины. Сравнение эмпирического F x и теоретического распределений производится с помощью специально подобранной случайной величины — критерия согласия. Одним из таких критериев и является критерий Пирсона. Пусть проведено n независимых опытов, в каждом из которых случайная величина приняла определенное значение. Все значения упорядочены в таблице Xi pi* ni n X1 X2 … Xk p1* p2* … pk* Выдвигаем гипотезу H 0 , состоящую в том, что случайная величина имеет закон распределения F : Xi pi 200 X1 p1 X2 p2 … Xk … pk H 0 отклонение эмпирических частот Согласно гипотезе n pi* i pi P( X i ) n от теоретических вероятности объясняется случайными причинами. Чтобы проверить правдоподобие этой гипотезы для уровня значимости в качестве меры расхождения между гипотетическим и статистическим распределениями рассчитывается величина k (n npi ) 2 2 . набл i npi i 1 Эта величина – случайна, т.к. в различных опытах она принимает различные, заранее неизвестные значения. Чем меньше отличаются теоретические и эмпирические частоты, тем меньше величина критерия, следовательно, критерий 2 характеризует степень близости теоретического и эмпирического распределений. При n закон распределения критерия Пирсона независимо от того, какому закону подчинена генеральная совокупность, стремится к закону распределения 2 с k степенями свободы. Число степеней свободы k m r 1 где m - число значений, которые принимает случайная величина, r – число параметров предполагаемого теоретического распределения, вычисленных по экспериментальным данным. Критерий 2 – правосторонний. Потребуем, чтобы вероятность попадания в критическую область, в предположении справедливости H 0 , была равна принятому уровню значимости . 2 P{ 2 кр ( , k )} 2 2 2 По таблице находим кр – нет кр ( , k ) и если набл 2 2 оснований отвергать H 0 , если набл – отвергаем гипотезу. кр 201 Необходимо, чтобы каждое ni 5 . Если некоторые значения меньше 5, имеет смысл объединить их с соседними. Замечание 2 - критерий Пирсона в качестве меры расхождения U берется отклонений частоты 2, равная сумме квадратов m U 2 ci i p i 2 i 1 в качестве весов берут c i n pi Схема применения критерия 1. Определяется мера расхождения теоретических частот 2. Для выбранного уровня значимости по таблице распределения находят критическое значение 3. Если критического, т.е. если 202 эмпирических и 2 фактически наблюдаемое ,k 2 2 2 2 ,k , то гипотеза отвергается, 2 2 ,k то принимается. 2 больше Случайная величина r 2 ni i 1 n p i 2 n pi характеризует согласованность гипотезы Н 0 с опытными данными. 2 Схема применения критерия для непрерывных случайных величин Пусть проведено n ( n 50 ) независимых опытов, в каждом из которых случайная величина приняла определенное значение. Все значения упорядочены в виде вариационного ряда. Весь интервал значений делим на S частичных одинаковых интервалов [ ai , ai 1 ] и считаем число значений выборки, попавших в i - тый интервал Выдвигаем гипотезу H 0 , состоящую в том, что случайная величина имеет закон распределения F : В качестве меры расхождения между гипотетическим и статистическим распределениями рассчитывается величина k (ni npi ) 2 2 , набл npi i 1 где pi P(ai ai 1 ) . Число степеней свободы k m r 1 где m - число частичных интервалов, на которые разбивается выборка, r – число параметров предполагаемого теоретического распределения, вычисленных по экспериментальным данным. Задаваясь уровнем значимости, по таблице находим 2 2 2 – нет оснований отвергать H 0 , если кр кр ( , k ) и если набл 2 2 – отвергаем гипотезу. набл кр Число выборочных значений ni , i 1 r в каждом разряде должно быть не менее 5-10.Если это не выполняется, то разряды 203 надо объединять. В этом случае и соответствующие частоты надо сложить. Пример При 4040 бросаниях монеты французский естествоиспытатель Бюффон получил 2048 выпадений герба и 1992 выпадения цифры. На уровне значимости = 0,05 проверим гипотезу о том, что монета была правильной. Решение Здесь в результате испытания может произойти одно из двух событий — выпадение герба либо выпадение цифры. Поэтому имеем: A1 = {выпадение герба}, A2 = {выпадение цифры}, n = 4040, m1 = 2048, m2 = 1992. Нулевая гипотеза - H 0 : p A1 p A2 т. е. p1 p2 1 , 2 1 2 Вычислим величину 2 . Имеем: 2 m np1 1 2 np1 2048 2020 m np2 2 np2 2 2 1992 2020 2 0.776 2020 2020 Число степеней свободы k в данном случае равно r 1 2 1 1 . По известным значениям = 0.05, k = 1 находим в таблице 2kp 3.8 2 2kp , то нулевая гипотеза принимается монета была правильной. Пример Фирма владеет тремя магазинами. Руководство фирмы решило выяснить, посещают ли покупатели все три магазина одинаково охотно либо имеется некоторое различие. Для проверки была собрана информация о количестве покупателей, сделавших покупки в течение недели. Оказалось, Так как 204 что в первом магазине это число составляет 160 человек, во втором — 225. в третьем —215. Решение Нулевой гипотезой будет равенство вероятностей посещения покупателем первого ( p1 ), второго ( p 2 ) и третьего ( p3 ) магазинов: H0 : p1 p2 p3 1 . 3 В результате испытания получаем m1 =160, m2 =225, m3 =215, n =160+225+215=600 Вычислим величину 2 160 2002 225 2002 215 2002 12.25 200 200 200 Обратимся теперь к таблице критических значений (при k 2 ). Даже на уровне значимости = 0.01 имеем 2kp = 2 2kp . Поэтому, видимо, разницу в посещаемости магазинов в течение недели нельзя объяснить случайными колебаниями. Пример По выборке из 24 вариант выдвинута гипотеза о нормальном распределении генеральной совокупности. Используя критерий Пирсона при уровне значимости 9.2. Таким образом, 0,025 среди заданных значений 2 = {34, 35, 36, 37, 38} указать: а) наибольшее, для которого нет оснований отвергать гипотезу; б) наименьшее, начиная с которого гипотеза должна быть отвергнута. Решение Найдем число степеней свободы k с помощью формулы: k S r 1, где S - число групп выборки (вариант), r - число параметров распределения. Так как нормальное распределение имеет 2 параметра ( m и ), получаем 205 k 24 2 1 21 . По таблице критических точек распределения 2 , по заданному уровню значимости 0,025 и числу степеней свободы k 21 определяем критическую точку 2 кр 35,5 . В случае а) для значений 2 , равных 34 и 35, нет оснований отвергать гипотезу о нормальном распределении, так как 2 . А наибольшее среди этих значений 2 35 . 2 кр В случае б) для значений 36, 37, 38 гипотезу отвергают, так как 2 . Наименьшее среди них 2 36 . 2 кр Контрольные вопросы 1. Что произойдет со стандартной ошибкой среднего, если размер выборки увеличить в 2 раза? 2. Приведите пример нулевой, конкурирующей гипотезы. 3. Что представляют собой ошибки 1-го и 2-го рода? 4. Дайте определения свойствам эффективности, состоятельности и несмещенности оценок. Задачи для самостоятельного решения Ваш друг утверждает, что он умеет различать на вкус два близких сорта вина если и не всегда, то хотя бы в четырех случаях из пяти. Вы же склонны считать, что он просто угадывает. 2. Сформулируйте оба этих мнения в виде статистических гипотез и предложите какую-либо процедуру проверки. В чем состоят ошибки первого и второго рода? 3. Урна содержит большое количество белых и черных шаров, 100 раз производится следующее действие: из урны 1. 206 наугад достается шар, фиксируется его цвет, затем шар опускается обратно в урну, после чего шары перемешиваются. Оказалось, что 67 раз достали белый шар. 33 раза - черный. Можно ли на 5%-м уровне значимости принять гипотезу о том, что доля белых шаров в урне составляет 0,6? 4. Обычно применяемое лекарство снимает послеоперационные боли у 80% пациентов. Новое лекарство, применяемое для тех же целей, помогло 90 пациентам из первых 100 оперированных. Можно ли на уровне значимости = 0,05 считать, что новое лекарство лучше? А на уровне = 0,01? 5. Игральный кубик бросили 60 раз, при этом числа 1, 2, 3, 4,5, 6 выпали соответственно 12, 9, 13, 11, 8, 7 раз. Можно ли на 5%- м уровне значимости отвергнуть гипотезу о симметричности кубика? 6. Трое рабочих работают на трех одинаковых станках. В конце смены первый рабочий изготовил 60 деталей, второй - 80, третий -100 деталей. Можно ли на уровне значимости = 0,01 принять гипотезу о том, что производительности труда первых двух рабочих равны между собой и в 2 раза меньше производительности третьего рабочего? 7. Используя критерий Пирсона, при уровне значимости 0.05 установить, случайно или значимо расхождение между эмпирическими частотами ni и теоретическими частотами ni' , которые вычислены, исходя из гипотезы о нормальном распределении генеральной совокупности Х: ni 5 10 20 8 7 ni' 6 14 18 7 5 207 Лекция 14 Регрессивный анализ В практике экономических исследований очень часто имеющие данные нельзя считать выборкой из многомерной нормальной совокупности. В этих случаях пытаются определить поверхность, которая дает наилучшее приближение к исходным данным. Соответствующие методы приближения получили название регрессивного анализа. В регрессивном анализе рассматривается односторонняя зависимость случайной зависимой переменной Y от одной (или нескольких) неслучайной независимой переменной X . Две случайные величины X и Y могут быть связаны либо функциональной зависимостью, либо статистической, либо быть независимыми. При функциональной зависимости каждому значению переменной X соответствует вполне определенное значение переменной Y . Строгая функциональная зависимость реализуется редко, т.к. обычно величины подвержены еще действию различных случайных факторов. Тогда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной. Это статистическая (вероятностная, стохастическая) зависимость. Корреляционной зависимостью между двумя случайными величинами, называется функциональная зависимость между значениями одной из них условным математическим ожиданием другой. Рассмотрим двумерную случайную величину ( X , Y ) , где X и Y - зависимые случайные величины. Представим величину Y в виде линейной функции X : Y g ( X ) aX b , где a и b - параметры, подлежащие определению. Это можно сделать различными методами, наиболее употребительный из них – метод наименьших квадратов. 208 Функцию называют наилучшим g ( X ) aX b приближением Y в смысле метода наименьших квадратов, если математическое ожидание принимает M [Y g ( X )]2 наименьшее возможное значение. Функцию g ( x) называют линейной среднеквадратической регрессией Y на X . Теорема Линейная среднеквадратическая регрессия Y на имеет вид X g ( X ) my где mx M [ X ] , my M [Y ] , x y ( X mx ) , x D[ X ] , y D[Y ] , -коэффициент корреляции величин Y и X . y Коэффициент - коэффициент регрессии Y на X , а x прямая называется прямой среднеквадратической регрессии Y на X . y m y y ( x mx ) x Аналогично можно получить прямую среднеквадратической регрессией X на Y : x ( y my ) . y Если коэффициент корреляции 1 , то обе прямые x mx регрессии совпадают. Для отыскания уравнений регрессии необходимо знать закон распределения двумерной случайной величины ( X , Y ) . На практике обычно располагают выборкой пар значений ( xi , yi ) ограниченного объема. В этом случае речь может идти об оценке функции регрессии по выборке. 209 В качестве оценок условных математических ожиданий, принимают условные средние, которые находят по выборочным данным. Условным средним Yx называют среднее арифметическое наблюдавшихся значений Y , соответствующих X x. Например, если при x1 2 величина Y приняла значения y1 5, y2 6, y3 10 , то условное среднее Yx1 5 6 10 7. 3 Уравнения Yx g * ( x ) или X y * ( y ) называются выборочными уравнениями регрессии, g * ( x) и * ( y ) - выборочными функциями регрессии, а их графики выборочными линиями регрессии. Метод наименьших квадратов для получения уравнения выборочной линии регрессии Обычно для получения уравнения выборочной линии регрессии Yx b0 b1 x b2 x 2 ... bm x m или X y c0 c1 y c2 y 2 ... cm y m используется метод наименьших квадратов. Мы рассмотрим линейную регрессию, уравнение которой Y b b x. 0 Неизвестные параметры чтобы 1 b0 и b1 выбираются таким образом, n S ( yi (b0 b1 xi )) min 2 i 1 210 . Методом коэффициентов наименьших квадратов находим значения b0 и b1 n b1 (X i 1 n X ) (Yi Y ) i i 1 n (X i 1 i X )2 b0 Y b1 X . Угловой коэффициент b можно представить как 1 n b1 (Y Y ) i 1 n (X i 1 2 i i X )2 rr SY SX где r - выборочный коэффициент корреляции, 1 n 1 n SX 2 ( X i X ) 2 , SY 2 (Yi Y )2 . n 1 i 1 n 1 i 1 b1 - выборочный коэффициент регрессии Y на X . Он показывает, на сколько в среднем изменяется переменная X при увеличении переменной X на одну единицу. 211 Линейный регрессионный анализ Термином линейный регрессионный анализ обозначают прогнозирование одной переменной на основании другой, когда между этими переменными существует линейная взаимосвязь . Y b0 b1 X Разности между фактически полученными значениями Y и вычисленными по уравнению регрессии соответствующими значениями прогнозов Y называются отклонениями e Y Y . Величины прогноза являются моделируемыми значениями данных, а отклонения показывают отличия от модели. Пример Анализ зависимости между ценами и объемам продаж молока фермера. Значение выборочного коэффициента корреляции r 0.86 . Уравнение регрессии Задачами регрессионного анализа являются: установление формы зависимости между переменными; оценка функции регрессии; оценка неизвестных значений (прогноз значений) зависимой переменной. В регрессионном анализе рассматривается односторонняя зависимость случайной зависимой переменной Y от одной (или нескольких) независимой переменной X . также называется функцией отклика, выходной, результирующей, эндогенной переменной; X - входной, объясняющей, предсказывающей, предикторной, экзогенной переменной, фактором, регрессором. 212 Линейная зависимость может быть представлена в виде модельного уравнения регрессии M [Y X ] 0 1 x . В силу воздействия неучтенных случайных факторов отдельные наблюдения y будут в большей или меньшей степени отклоняться от функции регрессии . g ( x) 0 1 x В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлено в виде Y 0 1 X . Отклонения (возмущения, остатки) предполагаются независимыми и нормально распределенными N (0, 2 ) . Неизвестными параметрами являются 0 , 1 и 2 . Оценкой модели Y 0 1 X по выборке является уравнение регрессии y b0 b1 x . Параметры этого уравнения b0 и b1 определяются по методу наименьших квадратов. Воздействие случайных факторов и ошибок наблюдений определяется с помощью остаточной дисперсии 2 . Оценкой дисперсии является выборочная остаточная дисперсия s 2 : n s2 n 2 Yi Yi ei2 i 1 n2 i 1 n2 , 213 где Yˆ - значение Y, найденное по уравнению регрессии; . Число степеней ei Yˆi Yi - выборочная оценка возмущения i свободы n 2 , т.к. две степени свободы теряются при определении двух параметров b и b1 . 0 Y n Величина s e i 1 2 i n2 называется стандартной ошибкой оценки и демонстрирует величину отклонения точек исходных данных от прямой регрессии. Поскольку, как правило, требуется, чтобы прогноз был как можно более точным, значение s должно быть как можно меньшим. Пример Для данных продажи молока s 2.72 . Для величины Y , принимающей значения от 3 до18, значение s довольно велико. Чтобы получить точечный прогноз, или предсказание для данного значения X , надо просто вычислить значение функции регрессии в точке X . Пример Фермер хочет получить прогноз количества молока, которое будет продано при цене 1.63 рублей за литр: Y 32.14 14.54 X Y 32.14 14.54 1.63 8.44 Конечно, реальные значения величины Y не лежат в точности на регрессионной прямой. Есть два источника неопределенности в точечном прогнозе, использующем уравнение регрессии. 214 1. Неопределенность, обусловленная отклонением точек данных от выборочной прямой регрессии. 2. Неопределенность, обусловленная отклонением выборочной прямой регрессии от регрессионной прямой генеральной совокупности. Интервальный прогноз значений переменной можно построить так, что при этом будут учтены оба источника неопределенности. Суммарная дисперсия sY s 2 sY2 , где sY - стандартная ошибка прогноза, s - стандартная ошибка оценки, sY - стандартная ошибка функции регрессии. Величина sY2 измеряет отклонение выборочной прямой регрессии от регрессионной прямой генеральной совокупности и вычисляется для каждого значения X как. 1 ( X X )2 sY2 s 2 n n ( X i X )2 i 1 . sY зависит от значения X , для которого прогнозируется величина Y . Величина sY будет минимальна, когда X X , а по мере удаления X от X , будет возрастать. Стандартная ошибка прогноза sYˆ s 1 1 ( X X )2 n n ( X i X )2 i 1 Границы интервала прогноза величины с надежностью 1 будут равны Y t s , где статистика t имеет Y k n 2 степенями свободы. распределение Стьюдента с 215 Пример Найдем стандартную ошибку прогноза в точке X 1.63 с надежностью 0.95 . Ранее было получено s 2.72 , X 1.44 , n (X i 1 i X ) 2 0.824 . sYˆ 2.72 1 1 (1.63 1.44) 2 2.91 . 10 0.824 При X 1.63 значение Y 8.44 . Находим интервал прогноза Y t sY 8.44 2.306 2.91 8.44 6.71 или 1.73 Y 15.5 Построенные аналогичным образом интервалы значений прогноза по всем значениям X имеют вид: Интервал прогноза очень велик, это связано с тем, что исходная выборка мала, а значение s сравнительно велико. 216 Прогноз значений зависимой переменной по уравнению регрессии оправдан, если значение объясняющей переменной не выходит за диапазон ее значений по выборке (причем тем более точный, чем ближе X к X ). Экстраполяция кривой регрессии, т.е. использование вне пределов обследованного диапазона значений объясняющей переменной может привести к значительным погрешностям. Проблемы применения метода линейной регрессии 1. Если истинная взаимосвязь не линейная, нельзя использовать для прогноза прямую линию. Большинство компьютерных программ не предупреждают об этом. 2. Экстраполяция за пределы имеющихся данных потенциально опасна. Вы не располагаете информацией, чтобы отбросить другие возможности. 217 3.Резко отклоняющееся значение может серьезно повлиять на результаты регрессионного анализа. 4. Большое значение имеет то, какая из двух переменных прогнозируется, а какая служит основанием для прогноза. Каждому из этих подходов соответствует своя линия регрессии. Две линии регрессии сближаются, когда уменьшается фактор случайности точки данных приближаются к прямой линии. Основные предпосылки статистической модели линейной регрессии Y 0 1 X 1.Зависимая переменная Y есть величина случайная, а объясняющая переменная X - величина неслучайная. 2. Математическое ожидание возмущения M [ ] 0 , дисперсия D[ ] 2 . Возмущения являются нормально распределенными. Для заданного значения X генеральная совокупность значений Y имеет нормальное распределение относительно регрессионной прямой совокупности. 218 На практике приемлемые результаты получаются и тогда, когда значения Y имеют нормальное распределение лишь приблизительно. 3. Разброс генеральной совокупности данных относительно регрессионной прямой совокупности остается постоянным всюду вдоль этой прямой (дисперсия зависимой переменной Y остается постоянной: D[Y ] 2 ). 4 Возмущения , а, следовательно? и значения Y независимы между собой. Уравнение взаимосвязи двух переменных (парная регрессивная модель) может быть представлена y x где - случайная переменная, характеризующая отклонение от функции регрессии. - называют возмущением. Рассмотрим линейный регрессивный анализ, для которого функция x линейна M (Y ) 0 1 X Если для оценки параметров линейной функции взята выборка, то парная линейная регрессионная модель имеет вид Yi 0 1 X Задачи регрессионного анализа Цель регрессионного анализа состоит в определении общего вида уравнения регрессии, построении статистических оценок неизвестных параметров, входящих в уравнение регрессии и проверке статистических гипотез о регрессии. Корреляционный анализ позволяет устанавливать неслучайность (значимость) изменения наблюдений Yi и степень их зависимости от случайных величин X . Регрессионный анализ представляет собой следующий этап статистического анализа. 219 Определяются точные количественные характеристики изменения Y . Статистическая связь Y и X сводится к строгим (неслучайным) соотношениям. На данном этапе решаются следующие основные задачи: выбор общего вида функции регрессии f x, отбор, если необходимо, наиболее информативных факторов; оценивание параметров уравнения регрессии (1 ,..... n ) анализ точности полученного уравнения регрессии, связанный с построением доверительных интервалов для коэффициентов регрессии, т.е. компонент вектора (1 ,..... n ) , для условного среднего отклика Y ( X ) и для прогнозов наблюдений отклика Y ( X ) при значениях факторов X ( X 1 ,....... X n ) . 1. Возмущения есть случайная величина, а объясняющая переменная – неслучайная величина. 2. Математическое ожидание возмущения равно нулю M ( i ) 0 3. Дисперсия возмущения постоянна для любого i : D( i ) 2 4. Возмущения не коррелированны (независимы) M ( i j ) 0 ; i j 5. Возмущения есть нормально распределенная случайная величина. Для получения уравнений регрессий достаточно 1-4 условий, 5 условие для оценки точности уравнений регрессии и его параметров Пусть требуется исследовать зависимость Y ( X ) , величины X и Y измеряются в одном эксперименте. Восстановим Y ( X ) по результатам измерений. Точное представление Y ( X ) невозможно. Будем искать приближенную зависимость по методу наименьших квадратов. Y ( X ) g ( x) , 220 g (x) - называется наилучшим приближением, если M Y g (x) принимает наименьшее значение. Рассмотрим функцию g ( x) AX B которая наилучшим образом приближает X к Y . Введем обозначения m1 M X , m2 M Y , 1 2 D X 2 2 2 DY , - корреляционный момент, k- коэффициент корреляции этих величин. Будем искать Y ( X ) g ( x) AX BY Найти такие A и B , что Ф( A, B) M [Y AX B] 2 принимает наименьшее значение: Ф( A, B) M [Y AX B ]2 M [Y 2 ] B 2 A2 M [ X ]2 2 BM [Y ] 2 AM [ XY ] 2 AMB[ X ] 22 m22 B 2 A2 (12 m12 ) 2 Bm2 2 A( m1 m2 ) 2 ABm1 Исследуем на экстремум Ф = 2[ A( 12 m12 ) ( m1 m2 ) Bm1 ] 0 А Ф = 2[m2 B Am1 ] 0 А Коэффициент A - коэффициент регрессии. y m2 x m1 – прямая регрессии. k 2 1 Прямая Воздействие неучтенных факторов и ошибок наблюдений в модели определяется с помощью остаточной дисперсии. Минимум равен 22 (1 k 2 ) – остаточная дисперсия, которая характеризует величину ошибки, допускаемой при использовании приближенного равенства Y g ( x) AX B . 221 Пример Найти выборочное уравнение прямой линии регрессии: а) Y на X , б) X на Y , если известны: выборочные средние x 3,6 , y 4 , выборочные дисперсии D x 0,04 , D y 0,25 , выборочный коэффициент корреляции rB 0,6 . Решение а) Выборочное уравнение прямой линии регрессии Y на X имеет вид y y rB где x y x x x , Dx , y D y . Поскольку x 0,04 0,2 , y 0,25 0,5 , получаем уравнение 0,5 x 3,6 , 0,2 или y 1,5 x 1,4 . выборочному уравнению прямой y 4 0,6 б) Согласно регрессии X на Y : x x rB Поэтому x 0,24 y 2,64 получаем линии x y y . y x 3,6 0,6 0,2 y 4 , 0,5 или Многомерная нормальная регрессионная модель Когда одна случайная переменная реагирует на изменение другой изменением своего закона распределения, речь идет о так называемой стохастической связи. Частный случай такой связи - когда условное математическое ожидание одной случайной переменной 222 является функцией значения, принимаемого другой случайной переменной, т.е. M (Y / x) f ( x) , где f x - теоретическая (истинная) функция или модель регрессии Y относительно X . Статистические связи исследуются по выборкам ограниченного объема. На основании этих данных выполняют поиск подходящих аппроксимаций для f (x) . Чтобы выяснить, как значение одной случайной переменной, в среднем, изменяется в зависимости от того, какие значения принимает другая случайная переменная, используют условное среднее значение y (x) , которое является выборочной оценкой условного математического ожидания, а соответствующее выражение эмпирической функцией регрессии. Практическое значение знания регрессионной зависимости между случайными переменными X и Y заключается в возможности прогнозирования значения зависимой случайной переменной Y , когда независимая случайная переменная X принимает определенное значение. Прогноз не может быть безошибочным, однако можно определить границы вероятности ошибки прогноза. Вариация зависимой переменной и коэффициент детерминации Рассмотрим вариацию (разброс) относительно среднего значения y Tss = Обозначим yi регрессии значения n ( yi Tss значений yi y)2 . i 1 предсказанные с помощью функции yi : y a b xi . 223 n Rss = ( yi y ) 2 означает величину разброса, которая i 1 обусловлена регрессией (ненулевым значением наклона n Ess = ( yi yi ) 2 b ). означает разброс за счет случайных i 1 отклонений от функции регрессии. Оказывается, Tss Rss E ss , - полный разброс равен сумме разбросов за счет регрессии и за счет случайных отклонений. Величина Rss Tss – это доля вариации значений yi , обусловленной регрессией (т.е. доля закономерной изменчивости в общей изменчивости). Определение Коэффициент детерминации – статистика R 1 E ss R 2 ss Tss Tss показывающая, какая доля дисперсии результативного признака объясняется влиянием объясняющих переменных. Если R 2 0 , это означает, что регрессия ничего не дает, т.е. знание x не улучшает предсказания для y по сравнению с тривиальным yi y . Другой крайний случай R 2 1 означает точную подгонку: все точки наблюдений лежат на регрессионной прямой. Чем ближе к 1 значение R 2 , тем лучше качество подгонки. Линейная регрессия имеет следующие общие свойства: 1. Чем ближе значение коэффициента детерминации к 1, тем ближе модель к эмпирическим наблюдениям. 2. С увеличением количества объясняющих переменных увеличивается R2. 224 Контрольные вопросы Что показывает коэффициент регрессии? Что показывает коэффициент корреляции? В чем отличие корреляционной зависимости от функциональной? 4. Каким методом определяются параметры линейной регрессии? 5. При каких значениях коэффициента регрессии зависимость случайных величин является: а) прямой; б) обратной? 6. Чем занимается регрессионный анализ? 7. Перечислите свойства линейной регрессии. 8. Запишите уравнение регрессии. 9. Отчего зависит наклон линии регрессии? 10. Что показывает коэффициент детерминации? 11. В чем отличие многомерной от линейной регрессии? 1. 2. 3. 225 Лекция 15 Статистические оценки параметров распределения Результаты измерений могут рассматриваться законченными, только когда они сопровождаются статистической оценкой полученных данных, поскольку никогда не бывает 100% уверенности в точности определенных значений. Для статистической оценки параметров распределения используют средние значения разных степеней отклонений отдельных величин признака от его средней арифметической величины. Эти показатели называют центральными моментами распределения порядка, соответствующего степени, в которую возводятся отклонения Получив статистические оценки параметров распределения (выборочное среднее, выборочную дисперсию и т.д.), нужно убедиться, что они в достаточной степени служат приближением соответствующих характеристик генеральной совокупности. Определим требования, которые должны при этом выполняться. Определение Статистическая оценка неизвестного параметра теоретического распределения - функция от наблюдаемых случайных величин. Пусть Θ* - статистическая оценка неизвестного параметра Θ теоретического распределения. Извлечем из генеральной совокупности несколько выборок одного и того же объема n и вычислим для каждой из них оценку параметра Θ: Θ1* ,Θ2* , ,Θk* Тогда оценку Θ* можно рассматривать как случайную величину, принимающую возможные значения Θ1* ,Θ2* , ,Θk* . Если математическое ожидание Θ* не равно оцениваемому параметру, мы будем получать при вычислении оценок систематические ошибки одного знака (с избытком, если M Θ* Θ, и с недостатком, если M Θ* Θ). 226 Следовательно, необходимым условием систематических ошибок является требование M Θ* Θ. отсутствия Определение Статистическая оценка Θ* называется несмещенной, если ее математическое ожидание равно оцениваемому параметру Θ при любом объеме выборки: M Θ* Θ Определение Статистическая оценка называется смещенной оценкой, если математическое ожидание не равно оцениваемому параметру. Однако несмещенность не является достаточным условием хорошего приближения к истинному значению оцениваемого параметра. Если при этом возможные значения Θ* могут значительно отклоняться от среднего значения, то есть дисперсия Θ* велика, то значение, найденное по данным одной выборки, может значительно отличаться от оцениваемого параметра. Следовательно, требуется наложить ограничения на дисперсию. Определение Статистическая оценка называется эффективной, если она при заданном объеме выборки n имеет наименьшую возможную дисперсию. Эффективность оценки зависит от вида распределения. Можно доказать, что если случайная величина имеет нормальное распределение, то оценка математического ожидания X является и эффективной. При рассмотрении выборок большого объема к статистическим оценкам предъявляется еще и требование состоятельности. Естественно потребовать от оценки * , чтобы при увеличении числа опытов n она приближалась к искомому параметру Определение Состоятельной называется статистическая оценка, которая при n стремится по вероятности к оцениваемому параметру (если эта оценка несмещенная, то она будет состоятельной, если при n ее дисперсия стремится к 0). lim P{ * } 1 . n 227 Замечание Т.е чем больше объем выборки, тем больше вероятность того, что ошибка оценки будет очень мала. Убедимся, что среднее арифметическое значение x B представляет собой несмещенную оценку математического ожидания M x . Будем рассматривать xB как случайную величину, а x1 , x2 ,, xn , то есть значения исследуемой случайной величины, составляющие выборку, – как независимые, одинаково распределенные случайные величины X 1 , X 2 ,, X n , имеющие математическое ожидание a . Из свойств математического ожидания следует, что: X X X n M X B M 1 a n Но, поскольку каждая из величин X 1 , X 2 ,, X n имеет такое же распределение, что и генеральная совокупность, a M X , то есть M X B M X , что и требовалось доказать. Выборочное среднее является не только несмещенной, но и состоятельной оценкой математического ожидания. Если предположить, что X 1 , X 2 ,, X n имеют ограниченные дисперсии, то из теоремы Чебышева следует, что их среднее арифметическое, то есть X B , при увеличении n стремится по вероятности к математическому ожиданию каждой их величин, то есть к M X . Следовательно, выборочное среднее есть состоятельная оценка математического ожидания. В отличие от выборочного среднего, выборочная дисперсия является смещенной оценкой дисперсии генеральной совокупности. Можно доказать, что M DB где Dr – истинное совокупности. 228 n 1 Dr , n значение дисперсии генеральной Можно предложить другую оценку дисперсии – исправленную дисперсию s 2 , вычисляемую по формуле: 2 k ni x i x B n . s D B i 1 n 1 n 1 Такая оценка будет являться несмещенной. Ей соответствует исправленное среднее квадратическое отклонение 2 k s s2 Множитель ni xi x B i 1 n 1 2 . n называется поправкой Бесселя. n 1 Определение Оценка некоторого признака называется асимптотически несмещенной, если для выборки x1 , x2 ,, xn x x xn lim 1 2 X n n где X – истинное значение исследуемой величины. Пример Пусть в n испытаниях Бернулли событие A произошло m раз. В качестве оценки вероятности p принимается частота события m m * . Т.е. p , . Будет n n ли * несмещенной? Решение Т.к. случайная величина ( w) m имеет M [ ] np , то m 1 1 M [ * ] M [ ] M [ m] np p . n n n Частота события является несмещенной оценкой. 229 Метод наибольшего правдоподобия Пусть X – дискретная случайная величина, которая в результате n испытаний приняла значения x1 , x2 ,, xn . Предположим, что нам известен закон распределения этой величины, определяемый параметром , но неизвестно численное значение этого параметра. Найдем его точечную оценку. Пусть p( xi , ) – вероятность того, что в результате испытания величина X примет значение xi . Назовем функцией правдоподобия дискретной случайной величины аргумента , определяемую по формуле: L x1 , x2 X функцию , xn , p( x1 , ) p( x2 , ) p( xn , ) Тогда в качестве точечной оценки параметра Θ принимают такое его значение * x1 , x2 , xn , при котором функция правдоподобия достигает максимума. Оценку * называют оценкой наибольшего правдоподобия. Поскольку функции L и ln L достигают максимума при одном и том же значении Θ, удобнее искать максимум ln L – логарифмической функции правдоподобия. Для этого нужно: 1) найти производную d ln L ; d 2) приравнять ее нулю (получим так называемое уравнение правдоподобия) и найти критическую точку; 3) найти вторую производную d 2 ln L , d 2 если она отрицательна в критической точке, то это – точка максимума. Достоинства метода наибольшего правдоподобия: 1) полученные оценки состоятельны (хотя могут быть смещенными), распределены асимптотически нормально при больших значениях n и имеют наименьшую дисперсию по сравнению с другими асимптотически нормальными оценками; 230 2) если для оцениваемого параметра существует эффективная оценка * , то уравнение правдоподобия имеет единственное решение * ; 3) метод наиболее полно использует данные выборки и поэтому особенно полезен в случае малых выборок. Важность метода максимального правдоподобия связана с его оптимальными свойствами. Основной недостаток метода — трудность вычисления оценок, связанных с решением уравнений. Кроме того, для построения оценок необходимо точное знание типа закона распределения p( xi , ) , что иногда практически невозможно Для непрерывной случайной величины с известным видом плотности распределения f x и неизвестным параметром функция правдоподобия имеет вид: L x1 , x2 , xn , f ( x1 , ) f ( x2 , ) f ( xn , ) . Оценка наибольшего правдоподобия неизвестного параметра проводится так же, как для дискретной случайной величины. Метод моментов К методу моментов относят все статистические процедуры, основанные на использовании выборочных моментов и функций от них. Метод моментов нахождения оценок в математической статистике - это способ построения оценок, основанный на уравнивании теоретических и выборочных моментов был впервые предложен Пирсоном в 1894г. Метод моментов основан на том, что начальные и центральные эмпирические моменты являются состоятельными оценками соответственно начальных и центральных теоретических моментов, поэтому можно приравнять теоретические моменты соответствующим эмпирическим моментам того же порядка. Если задан вид плотности распределения f ( x, ) , определяемой одним неизвестным параметром , то для оценки этого параметра достаточно иметь одно уравнение. 231 Например, можно приравнять начальные моменты первого порядка: xв M X x f ( x, )dx ( ) получив тем самым уравнение для определения Θ. Его решение * будет точечной оценкой параметра, которая является функцией от выборочного среднего и, следовательно, и от вариант выборки: x1 , x2 , xn . Если известный вид плотности распределения f ( x,1 ,2 ) определяется двумя неизвестными параметрами 1 и 2 , то требуется составить два уравнения, например 1 M1 , 2 m2 ,. M X x B Отсюда - система двух уравнений с двумя D X DB неизвестными 1 и 2 . Ее решениями будут точечные оценки 1* и 2* - функции вариант выборки: 1 1 x1 , x2 , xn , 2 2 x1 , x2 , xn . Точечные оценки метода моментов обычно состоятельны, однако по эффективности они не являются наилучшими. Тем не менее, метод моментов часто используется на практике, т.к. приводит к сравнительно простым вычислениям. Пример Методом моментов по выборке 3 4 5 X n 70 20 10 найти точечную оценку параметра , предполагая, что теоретическое распределение является показательным: e x , x 0 ; f x 0, x 0 . 232 Решение Согласно методу моментов нужно приравнять начальный теоретический момент первого порядка (математическое ожидание M ( X ) ) к начальному эмпирическому моменту первого порядка (выборочному среднему x ): M ( X ) x . Для показательного распределения имеем: M (X ) 1. Выборочное среднее находим по формуле x 1 k x n , n i 1 i i где xi - варианта выборки, ni - частота xi , k n ni - объем i 1 выборки. 1 3 70 4 20 5 10 3,4 . 70 20 10 Приравнивая моменты, находим : 1 1 0,29 . 3,4 => 3,4 Получаем x Бейесовский подход к получению оценок Пусть Y , X – случайный вектор, для которого известна плотность p y | x условного распределения Y при каждом значении X x . Если в результате эксперимента получены лишь значения Y , а соответствующие значения X неизвестны, то для оценки некоторой заданной функции x в качестве ее приближенного значения предлагается математическое ожидание формуле: Y x p Y x p x d ( x ) , M ( x Y ) , искать условное вычисляемое по q(Y ) 233 где q(Y ) p y x p x d ( x) , px – плотность безусловного распределения X , q y – плотность безусловного распределения Y . Задача может быть решена только тогда, когда известна px . Иногда, однако, удается построить состоятельную оценку для q y , зависящую только от полученных в выборке значений Y. Контрольные вопросы 1. Дайте определение точечной и интервальной оценок параметра. 2. Какая оценка называется: а) смещенной; б) несмещенной; в) эффективной? 3. Какую оценку называют оценкой наибольшего правдоподобия? 4. Перечислите достоинства метода наибольшего правдоподобия. 5. На каких фактах основан бейесовский подход к получению оценок. 6. Сформулируйте основные положения метода моментов. 7. Методы получения оценок: метод моментов, метод максимального правдоподобия проведите сравнение. 234 Лекция 16 Доверительные интервалы При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, что приводит к грубым ошибкам. Поэтому в таком случае лучше пользоваться интервальными оценками, то есть указывать интервал, в который с заданной вероятностью попадает истинное значение оцениваемого параметра. Разумеется, чем меньше длина этого интервала, тем точнее оценка параметра. Поэтому, если для оценки * некоторого параметра справедливо неравенство * , число 0 характеризует точность оценки (чем меньше , тем точнее оценка). Но статистические методы позволяют говорить только о том, что это неравенство выполняется с некоторой вероятностью. Определение Надежностью (доверительной * вероятностью) оценки параметра называется вероятность того, что выполняется неравенство заменить это неравенство , то получим: двойным * . Если неравенством – * p( * , * ) Таким образом, есть вероятность того, что попадает в интервал ( * , * ) . Определение Доверительным называется интервал, в который попадает неизвестный параметр с заданной надежностью . Доверительный интервал строится с помощью случайной выборки из распределения с неизвестным параметром, накрывая данный параметр с заданной вероятностью. 235 Доверительный интервал для оценки математического ожидания нормального распределения при известной дисперсии Пусть исследуемая случайная величина X распределена по нормальному закону с известным средним квадратическим , и требуется по значению выборочного среднего x оценить математическое ожидание a . Будем рассматривать выборочное среднее x , как случайную величину X , а значения вариант выборки как одинаково распределенные x1 , x2 ,, xn независимые случайные величины X 1 , X 2 ,, X n , каждая из которых имеет математическое ожидание a и среднее квадратическое отклонение . Оценим вероятность выполнения неравенства X a . Применим формулу для вероятности попадания нормально распределенной случайной величины в заданный интервал: p X a 2Ф Тогда, с учетом того, что X n . , n p X a 2Ф 2Ф t , где t n , предыдущее равенство можно переписать так: p (x t t a x ) 2Ф(t ) . n n Итак, значение математического ожидания вероятностью (надежностью) попадает в интервал 236 a с (x t t ,x ), n n где значение t определяется из таблиц для функции Лапласа так, чтобы выполнялось равенство 2Ф(t ) . Пример Найти доверительный интервал для математического ожидания нормально распределенной случайной величины, если объем выборки n 49 , x 28 , 1.4 , а доверительная вероятность 0.9 . Определим t , при котором Φt 0,9 0,45 : t 1,645 . 2 1,645 1,4 1,645 1,4 Тогда 2,8 , или a 2,8 49 14 2,471 a 3,129 . Найден доверительный интервал, в который попадает a с надежностью 0,9. Доверительный интервал для оценки математического ожидания нормального распределения при неизвестной дисперсии Если известно, что исследуемая случайная величина X распределена по нормальному закону с неизвестным средним квадратическим отклонением, то для поиска доверительного интервала для ее математического ожидания построим новую случайную величину T xB a s n где x B - выборочное среднее, s – исправленная дисперсия, n – объем выборки. Эта случайная величина, возможные значения которой будем обозначать t , имеет распределение Стьюдента с k n 1 степенями свободы. 237 Поскольку плотность распределения Стьюдента t2 s t , n Bn 1 n 1 n 2 , n 2 где B , явным образом не зависит от a и , n n 1 n 1Γ 2 можно задать вероятность ее попадания в некоторый Γ интервал t , t , учитывая четность плотности распределения, следующим образом: xa p t s n t 2 s t , n dt 0 . Отсюда получаем: ts t s p x a x . n n Таким образом, получен доверительный интервал для a , где t можно найти по соответствующей таблице при заданных n и . Пример Пусть объем выборки n 25 , x B 3 , s 1,5 . Найдем доверительный интервал для a при 0.99 . Из таблицы находим, что t 2.797 . Тогда 2,797 1,5 2,797 1,5 , a 3 25 25 2,161 a 3,839 – доверительный интервал, в который попадает a с вероятностью 0,99 . 3 238 Доверительные интервалы для оценки среднего квадратического отклонения нормального распределения Будем искать для среднего квадратического отклонения нормально распределенной случайной величины доверительный интервал вида s , s , где s – исправленное выборочное среднее квадратическое отклонение, а для выполняется условие: p s . Запишем это неравенство в виде: s(1 ) s(1 ) s s или, обозначив, q s s(1 q) s(1 q) . Рассмотрим случайную величину , определяемую по формуле s n 1 , которая распределена по закону «хи- квадрат» с n 1 степенями свободы. Плотность ее распределения R , n 2 n 3 2 n2 x2 2 e n 1 Г 2 не зависит от оцениваемого параметра , а зависит только от объема выборки n . Преобразуем неравенство s(1 q) s(1 q) так, чтобы оно приняло вид 1 2 . Вероятность выполнения этого неравенства равна доверительной вероятности , следовательно 239 2 R , n d 1 Предположим, что q 1 , тогда неравенство можно записать так: 1 1 1 , s 1 q s 1 q или, после умножения на s n 1 n 1 s n 1 n 1 . 1 q 1 q Следовательно, n 1 n 1 . 1 q 1 q Тогда n 1 1 q R , n d . n 1 1 q Существуют таблицы для распределения «хи-квадрат», из которых можно найти q по заданным n и , не решая этого уравнения. Таким образом, вычислив по выборке значение s и определив по таблице значение q , можно найти доверительный интервал, в который значение попадает с заданной вероятностью . Замечание Если q 1 , то с учетом условия 0 доверительный интервал для будет иметь границы 0 s(1 q) Пример Пусть n 20 , s 1,3 . Найдем доверительный интервал для при заданной надежности 0,95 . Из соответствующей таблицы находим q 0.37 . Следовательно, границы доверительного интервала: 240 1,31 0,37 0,819 и 1,31 0,37 1,781 . Итак, 0,819 1,781 с вероятностью 0,95 . Контрольные вопросы 1. Запишите доверительный интервал для оценки математического ожидания . 2. От каких величин зависит точность оценки математического ожидания? 3. Напишите доверительный интервал для оценки среднее квадратическое отклонение нормально распределенного количественного признака Х. 241 Лекция 17 Случайные процессы и их характеристики Сигналы, способные передать получателю какие-либо сведения, заранее не могут быть известными и представляют собой случайный процесс (последовательность импульсов в системе телеграфной связи или некоторую непрерывную функцию при передаче телефонных сообщений). Определение Теория случайных процессовматематическая наука, изучающая случайные явления в динамике их развития. Определение Случайные сигналы (процессы)- сигналы, математическим описанием которых являются случайные функции времени. Пример Случайный процесс - флуктуационные шумы в радиотехнических устройствах. При наблюдении теплового напряжения на выходах идентичных устройств обнаруживается, что функции времени, описывающие эти напряжения, различны. Объясняется же это тем, что в любой момент времени ток в цепи обусловлен большим, но случайным числом вылетающих электронов. Реальные информационные сигналы носят случайный характер, т.к. ряд их параметров меняется во времени случайным образом. Поэтому случайные сигналы (или случайные процессы) описываются статистическими (вероятностными) законами. С практической точки зрения решение о случайности или детерминированности процесса основывается на способности воспроизвести процесс в ходе контролируемого эксперимента. Если это приводит к одним и тем же результатам – то процесс считается детерминированным. Марков Андрей Андреевич (1856-1922) русский математик, является основоположником теории случайных процессов. Существенно расширил сферу применения закона больших чисел и центральной предельной теоремы. 242 Классификация случайных процессов Различают следующие случайные процессы: Определение Детерминированные процессы – процессы, которые можно описать математическими формулами (т.е. мы можем определить положение системы в любой момент времени). Пример Движение спутника на околоземной орбите, измерение температуры воды при нагревании детерминированные процессы. А процессы, такие как высота волн при шторме, напряжение в нашей электросети, изменение численности жителей в Самаре с течением времени не являются детерминированными – точное положение системы в таких процессах точно определить невозможно. 243 Для описания этих процессов требуются вероятностные понятия и статистические характеристики. Есть еще один вид процессов - хаотические. Определение Хаотические случайные процессы – детерминированные, нелинейные, с сильной зависимостью от начальных условий. В реальности начальные условия точно повторить нельзя, и поведение системы через некоторое время становится непредсказуемым. На выходе такие системы имеют случайные характеристики и к ним требуются вероятностные подходы. Случайные процессы являются математическими моделями для описания случайных явлений, развивающихся во времени. При этом предполагается, что состояние в текущий момент времени есть случайная величина (t , w) . На пространстве элементарных событий определена алгебра его подмножеств F и для любого события A F определена его вероятность P( A) . Таким образом задано вероятностное пространство , F , P . Определение Случайный процесс - семейство случайных величин { (t , w)} , определѐнных на , F , P , где под параметром t понимается время. Пусть t0 - фиксированный момент. Определение Сечение случайного процесса в точке (t0 , w) . случайная величина 244 t0 - Случайный процесс можно рассматривать как совокупность случайных величин, зависящих от параметра t . Мы фиксировали время. А теперь пусть w0 фиксируемый результат испытания. Определение Неслучайная функция (t , w0 ) (в которую превращается процесс в результате испытания) называется реализацией (траекторией, выборочной функцией) случайного процесса. С реализациями мы чаще всего имеем дело на практике. Таким образом, случайный процесс можно рассматривать как совокупность всех возможных его реализаций. Случайные процессы классифицируют в зависимости от непрерывности или дискретности и t : Определение Случайный процесс называется процессом с дискретным временем (или случайной последовательностью) если система, в которой он протекает, может менять своѐ состояние в дискретные моменты времени. Пример Студент накупил лотерейных билетов. Выигрыши происходят в определѐнные дни. Случайный процесс t - число билетов, выигравших до момента времени t . Определение Случайный процесс называется процессом с непрерывным временем, если переходы системы могут происходить в любой момент t . Определение Случайный процесс называется процессом с дискретными состояниями, если в любой момент времени множество его состояний конечно или счѐтно (если любое его сечение – дискретная случайная величина). 245 Пример Техническое устройство может иметь три состояния: работает нормально, работает с перебоями, ремонтируется. Случайный процесс t - состояние устройства в момент времени t . Определение Случайный процесс называется процессом с непрерывными состояниями, если множество его состояний несчѐтно (если любое его сечение – непрерывная случайная величина). Законы распределения случайного процесса Универсальной, исчерпывающей характеристикой случайная величины является еѐ функция распределения F ( x) P( x) . При любом фиксированном t получим сечение случайного процесса. Это случайная величина, которая имеет закон распределения. F ( x, t ) P( (t ) x) - одномерный закон распределения. Функция зависит от двух аргументов t , x . Является ли F (t , x) исчерпывающей характеристикой? Нет, так как характеризует свойства одного отдельного сечения. Двумерный закон распределения F ( x1 , t1 , x2 , t2 ) P ( (t1 ) x1 , (t2 ) x2 ) - функция 4-х аргументов. Теоретически число сечений можно увеличивать неограниченно. Однако на практике очень часто вполне можно ограничиться двумерным законом. В общем случае мы имеем n сечений. Пусть t - случайный процесс и задано некоторое произвольное множество моментов времени. Соответствующая совокупность случайных величин (t1 ), ..., (tn ) имеет n – мерную функцию распределения: F ( x1 , ..., xn , t1 , ..., tn ) P{ (t1 ) x1 , ..., (tn ) xn } 246 Семейство конечномерных распределений случайного процесса – это совокупность n -мерных функций распределения для различных n и моментов t . Семейство конечномерных распределений является основной характеристикой случайного процесса, полностью определяющей его свойства. Говорят, что случайный процесс, задан, если задано его семейство конечномерных распределений. Моментные характеристики случайного процесса Функции распределения достаточно полно характеризуют случайный процесс. Однако часто она оказывается довольно сложная или требует для своего определения обработки большого числа экспериментальных данных. Кроме того, часто подробного описания процесса не требуется. Потому в этих случаях ограничиваются при описании процессов лишь некоторыми числовыми характеристиками. К ним относятся средние значения, дисперсии и корреляционные функции. Числовые характеристики случайных процессов аналогичны числовым характеристикам случайных величин, которые используются в теории вероятностей, но имеют ту особенность, что представляют собой в общем случае не числа, а функции времени. Для характеристики случайной величины определяют неслучайные числовые характеристики – математическое ожидание M [ ] - среднее значение случайной величины; дисперсия D[ ] - разброс значений относительно M [ ] ; корреляционный момент COV [ , ] M ( M )( M ) , который характеризует степень линейной зависимости между случайными величинами и . Определение Неслучайная функция m t , которая t равна математическому ожиданию соответствующего сечения случайного процесса, называется математическим ожиданием случайного процесса. m t M t 247 Его можно найти через одномерный закон распределения. xp ( x, t )dx . m (t ) Определение Дисперсия случайного процесса – это неслучайная функция, которая равна дисперсии t соответствующего сечения. D (t ) D[ (t )] M [( (t ) M (t )) 2 ] - можно найти через одномерный закон распределения. D (t ) x 2 p ( x, t )dx m2 (t ) . Математическое ожидание M [ (t )] и дисперсия D[ (t )] важны, но не характеризуют внутреннюю структуру процессов. 248 Пример x(t ) a t Задан случайный процесс: ~ N m, Найти его математическое . ожидание и дисперсию. Решение Реализации процесса: mx t M a t am t , Dx t D a t D a D t a 2 2 . Замечание дисперсия определяет степень разброса значений случайного процесса около среднего значения. Замечание Математическое ожидание и дисперсия характеризуют поведение случайного процесса в отдельные моменты времени. Корреляционная функция В качестве характеристики, учитывающей статистическую зависимость между значениями случайного процесса в различные моменты времени, используется корреляционная функция случайного процесса определяемая как Определение Корреляционная функция случайного процесса - неслучайная функция равная математическому ожиданию от произведения значений процесса в два различных момента времени. K (t1 , t2 ) M [( (t1 ) m (t1 ))( (t2 ) m (t2 )] M [( (t1 ) (t2 )] m (t1 )m (t2 ) 249 Корреляционная функция – функция двух аргументов - для каждой пары чисел t1 и t2 равна корреляционному моменту соответствующих сечений и характеризует степень их линейной зависимости. Для расчѐта корреляционной функции необходимо знать двумерное распределение. K (t1 , t2 ) (x 1 m (t1 ))( x2 m (t2 )) p ( x1 , x2 , t1 , t2 )dx1 , dx2 Корреляционная функция определяет степень линейной зависимости между значениями случайного процесса в различные моменты времени. Основные свойства корреляционной функции 1. При равенстве аргументов t1 t2 t K (t , t ) D (t ) 2. Корреляционная функция симметрична относительно своих аргументов K (t1 , t2 ) K (t2 , t1 ) т.е. она является симметричной относительно начала отсчета времени. 3. Модуль корреляционной функции не превосходит произведение среднеквадратичных отклонений соответствующих сечений 2 K (t1 , t2 ) D (t1 ) D (t2 ) Пример x(t ) a t функцию 250 Дан ~ N m, случайный .Найти процесс корреляционную Решение K x t1 , t2 M x t1 mx t1 x t2 mx t2 M a t1 am t1 a t2 am t2 2 a 2 M m a 2 2 Нормированная корреляционная функция r (t1 , t2 ) K (t1 , t2 ) (t1 ) (t2 ) (аналог - коэффициент корреляции COV ( X , Y ) x y ). Свойства нормированной корреляционной функции: 1. При равенстве аргументов r t 2. r t1 , t2 r t2 , t1 D t t 2 1 r t1 , t2 1 Определение Случайный процесс (t ) называется стационарным в узком смысле, если многомерные законы распределения не меняются при сдвиге всех временных переменных на одно и то же число: F ( x1 , ..., xn ; t1 , ..., tn ) F ( x1 , ..., xn ; t1 h, ..., tn h) n N h R . Более обширный класс - стационарные процессы, стационарные в широком смысле Чаще всего под стационарностью понимается стационарность в широком смысле. Определение Случайный процесс называется стационарным в широком смысле если: 251 m (t ) m const D (t ) D const , K (t1 , t2 ) K (t2 t1 ) K ( ) . , Из стационарности в узком смысле следует стационарность в широком. Пример Задан случайный процесс: t A cos t , ~ R 0, 2 252 p ( x) M t 1 , 2 2 1 2 A cos t x dx 0 2 A sin t x 0 0 2 K t1 , t2 M t1 m t1 t2 m t2 2 A cos t 1 0 x A cos t2 x 1 dx 2 2 A2 2 x cos t1 t2 dx cos t1 t2 2 x dx 2 2 0 0 2 A2 A2 A2 cos t1 t2 cos t1 t2 cos ( t1 t2 ) 4 2 2 A2 A2 . D (t ) K (t , t ) cos ( t t ) 2 2 Самыми важными (по прикладному значению) стационарных процессов для нас являются эргодические. из 253 Определение Стационарный случайный процесс называется эргодическим, если для него осреднение по ансамблю реализаций может быть заменено осреднением по времени по одной реализации. Т.е. по любой одной достаточно длинной реализации мы можем судить о свойствах всех реализаций случайного процесса. Достаточное условие эргодичности: Eсли эргодическим. 254 lim K ( ) 0 ,то случайный процесс является Глоссарий К лекции 1 Вероятность события – численная мера, принимающая значения между 0 и 1 и характеризующая степень возможности появления события в данном опыте. P A m , n 0 P( A) 1 Генератор случайных чисел - устройство для получения наборов случайных чисел. Достоверное событие – событие, которое в результате опыта обязательно должно произойти. Набор элементарных событий - набор всех возможных отдельных результатов испытаний. Невозможное событие – событие, которое не может иметь место в данном опыте. Несовместные события - события, появление одного из них в данном опыте исключает возможность появления других, т.е. они не могут произойти одновременно в одном и том же опыте. Полная группа событий – группа событий, из которых хотя бы одно непременно должно произойти в данном опыте. Противоположные события - два единственно возможных и несовместных. q( A) 1 P( A) Равновозможные события - два или несколько событий, имеющих больше данных появиться в итоге опыта по сравнению с другими. Случайные события – любые события или факты, относящиеся к результату эксперимента, которые могут происходить или не происходить. Совместные события - события, появление одного из них в данном опыте не исключает возможность появления других. 255 Элементарное событие - отдельное событие или отдельный возможный результат испытания. Комбинаторика - раздел дискретной математики, изучающий комбинации конечных множеств элементов различной природы. Независимые события - события вероятность появления каждого из них не зависит от того , имели ли место другие. Перестановки из n элементов - соединения, различающиеся только порядком входящих в них элементов. Pn Ann n! Размещения из n по m - соединения, различающиеся самими элементами или их порядком. Anm n! n m ! Сочетания из n элементов по m - соединения, различающиеся только своими элементами. n! С nm m! n m ! Формула Стирлинга 0 приближенная формула для вычисления факториалов асимптотического характера n ! nn e n 2 n К лекции 2 Абсолютная частота случайного события А в серии из N случайных опытов - число NA , которое показывает, сколько раз в этой серии произошло событие А. Геометрическая вероятность события A - отношение меры области, благоприятствующей появлению события A к мере всей области P A mes g mesG Относительная частота случайного события -отношение числа появлений этого события к общему числу проведенных экспериментов: W A 256 NA N где A – случайное событие по отношению к некоторому испытанию, N - количество испытаний и при этом событие A наступило в N A случаях. Статистическая вероятность события - относительная частота события при большом числе испытаний или число близкое к ней: P( A) lim W ( A) . n К лекции 3 Зависимые события – события, если появление одного из них влияет на вероятность наступления другого. Независимые события - события, вероятность появления каждого из них не зависит от того, имели ли место другие. Сумма двух событий A1 и A2 - событие, состоящее в появлении хотя бы одного из этих событий. A A1 A2 Произведением нескольких событий называется событие, состоящие в совместном наступлении всех этих событий в результате испытания. Уровень значимости -достаточно малая вероятность, при которой событие можно считать практически невозможным. Условная вероятность- вероятность одного события, вычисленная в предположении, что другое событие произошло. Априорные гипотезы – гипотезы, полученные до предстоящего опыта, Апостериорные гипотезы – гипотезы, полученные после опыта. Гипотеза – события, в условиях которых только и может появиться событие А . Полная вероятность события A - вероятность события, равная сумме произведений вероятностей гипотез на условные вероятности события, вычисленные соответственно при каждой из гипотез. 257 is P A P H i P A H i i 1 Формула Бейеса - формула для вычисления апостериорных вероятностей гипотез после проведения опыта с учетом полученной информации (событие A уже произошло). P H i A P H i P A H i P A К лекции 4 Дискретная случайная величина – случайная величина, возможные значения которой отделимы друг от друга, принимающая конечное или счетное множество значений. Закон распределения вероятностей данной случайной величины – соотношение, устанавливающее связь между вероятностями, с которыми данная случайная величина принимает различные значения и самими возможными значениями случайной величины. Многомодальное распределение (двухмодальное) – распределение, имеющее два или несколько максимумов у многоугольника распределения для дискретной случайной величины или на кривой распределения для непрерывной случайной величины. Если распределение имеет минимум, но не имеет максимума, то оно называется антимодальным Многоугольник распределения ( полигон распределения)– график, по оси абсцисс всевозможные значения случайной величины, по оси ординаты вероятности. Мода –значение сл.величины x i , имеющее наибольшую вероятность. Наивероятнейшее значение случайной величины – значение, вероятность которого больше , чем у других. Непрерывная случайная величина – случайная величина, возможные значения которой неотделимы друг от друга и непрерывно заполняют некоторый интервал. 258 Ряд распределения - закон распределения вероятностей дискретной случайной величины, заданный в виде таблицы, в первой строке даны значения случайной величины, а во второй – соответствующие им вероятности. Случайная величина – величина, которая в результате опыта может принять то или иное значение, но неизвестно заранее какое именно. Функцией распределения F(x) случайной величины X вероятность того, что случайная величина примет значение, меньшее x : F x P X x x x1 0 P 1 P P F x 1 2 P1 P2 Pn 1 1 x1 x x2 x2 x x3 xn 1 x xn x xn К лекции 4 Дисперсия – числовая характеристика дискретной случайной величины, характеристика рассеивания, равная математическому ожиданию квадрата разности случайной величины и ее математического ожидания is D X M x mx 2 xi mx 2 pxi i 1 Коэффициент ассиметрии случайной величины – числовая характеристика дискретной случайной величины, параметр формы, равный A 3 3 259 Математическое ожидание – числовая характеристика дискретной случайной величины, равная сумме произведений отдельных значений, которые может принимать переменная на соответствующие им вероятности is x М X xi pxi i 1 Медиана - числовая характеристика дискретной случайной величины, для которой выполняется условие . P( X x1 ) P( X x 1 ) 2 2 1 2 Мода – числовая характеристика дискретной случайной величины, значение случайной величины xi , имеющее наибольшую вероятность или наиболее вероятное значение. Наивероятнейшее событие – событие, вероятность осуществления которого не меньше вероятности других событий. np q m0 np p Начальный момент k - порядка сл.величины Х - математическое ожидание k степени этой величины. k M X k xik pi n i 1 Отклонение – центрированная случайная величина xi M X Среднеквадратическое отклонение – числовая характеристика дискретной случайной величины, характеристика рассеивания, равная корню квадратному из дисперсии D X . Центральный момент k - порядка случайной величины Х математическое ожидание степени отклонение k сл.величины Х от ее математического ожидания. 260 n k M X M X xi a pi k k i 1 Эксцесс - числовая характеристика дискретной случайной величины, характеризующая крутость распределения случайной величины, параметр формы, равный E 4 4 3 К лекции 5 Двухточечное распределение -закон распределения вероятностей случайной величины: PX 0 1 p , PX 1 p Биноминальный закон (закон Бернулли) - закон распределения вероятностей дискретной случайной величины, которая может принимать только целые неотрицательные значения с вероятностью Pn m P X m Cnm p m q n m , где - параметры p, q m 0,1,2,3, , n , p q 1, биноминального распределения. Закон Пуассона - закон распределения вероятностей дискретной случайной величины, которая принимает целые неотрицательные значения с вероятностями, PX m m e m! где np - параметр распределения Пуассона. Наивероятнейшее значение случайной величины k 0 – число испытаний, при котором достигается максимальная вероятность в n независимых испытаниях np q k0 np p 261 К лекции 6 Дисперсия непрерывной случайной величины x - числовая характеристика непрерывной случайной величины, характеристика рассеивания, возможные значения которой принадлежат отрезку a, b , выражаются через определенный интеграл D x 2 x M x f xdx Математическое ожидание M x непрерывной случайной величины x - числовая характеристика непрерывной случайной величины, возможные значения которой принадлежат отрезку a, b , выражаются через определенный интеграл M x x f x dx Медиана Me непрерывной случайной величины – числовая характеристика непрерывной случайной величины для которой выполняется: P X Me P X Me т.е. одинаково вероятно окажется ли случайная величина меньше или больше медианы. Мода непрерывной случайной величины – числовая характеристика непрерывной случайной величины, выражает наиболее вероятностное значение, в котором плотность максимальна. Непрерывная случайная величина (НСВ) - случайная величина, которая может принимать все значения из некоторого конечного или бесконечного промежутка. Плотность распределения непрерывной случайной величины – функция f (x) , определяемая по формуле: f ( x) F x 262 Среднее квадратическое отклонение - числовая характеристика равная корню квадратному из дисперсии: x Dx Функция распределении (интегральный закон распределения) непрерывной случайной величины - функция, которая равна вероятности того, что непрерывная случайная величина приняла значение меньшее заданного х: F ( x) x f ( x)dx К лекции 7 Кривая Гаусса - график плотности нормального распределения или нормальная кривая. Нормальное распределение (гауссовское) - закон распределения непрерывной случайной величины определяемый плотностью распределения, 1 x e 2 x a 2 2 2 , где a – математическое ожидание. Правило трех сигм - вероятность того, что случайная величина отклонится от своего математического ожидание на величину, большую чем утроенное среднее квадратичное отклонение, практически равна нулю. Правило k - сигм - вероятность того, что случайная величина отклонится от своего математического ожидание на величину, большую чем k -сигма, практически равна нулю 0.6827, k 1, P X m k Φk Φ k 0.9545, k 2, 0.9973, k 3. Равномерный закон распределения непрерывной случайной величины - закон для которого на интервале, которому 263 принадлежат все возможные значения случайной величины, плотность распределения сохраняет постоянное значение 1 , x a, b f x b a 0, x a, b Распределение Вейбулла с параметрами m и a -показательное распределение случайной величины X с плотностью распределения f x m a x m 1 a x e m Стандартное нормальное распределение N 0,1 - нормальное распределение с математическим ожиданием 0 и стандартным отклонением 1 Функция Лапласа - функция распределения стандартной нормальной случайной величины X ~ N 0,1 2 y y 1 Φ y e 2 dy 2 Экспоненциальное распределение - показательное распределение случайной величины X имеет с параметром 0 , если плотность распределения . e x , x 0 f x x0 0, К лекции 8 Ковариация или корреляционный момент K xy случайных величин X и Y - математическое ожидание произведения отклонений этих величин от своих математических ожиданий. K xy M X M x Y M y для дискретных случайных величин корреляционный момент 264 K xy xi a x y j a j pij n m i 1 j 1 для непрерывных случайных величин корреляционный момент К ху ( x M ( X ))( y M (Y )) f ( x, y)dxdy. Корреляционная матрица системы двух случайных величин X и Y - матрица вида D K q x xy q D xy y , где q -коэффициент корреляции Коэффициент корреляции - безразмерная характеристика коррелированности двух случайных величин q K xy x y Некоррелированные случайные величины – величины, коэффициент корреляции которых равен нулю. Плотность совместного распределения вероятностей непрерывной двумерной случайной величины - двумерная плотность, смешанная частная производная 2-го порядка от функции распределения: 2 F ( x, y ) f ( x, y ) xy Произведение независимых случайных величин Х и Y - случайная величина XY, возможные значения которой равны произведениям всех возможных значений X на все возможные значения Y , а соответствующие им вероятности равны произведениям вероятностей сомножителей. Равномерно распределенная на плоскости система двух случайных величин – система, плотность вероятности которой f x, y = const внутри некоторой области и равна 0 вне ее. Сумма случайных величин Х и Y - случайная величина X Y , возможные значения которой равны суммам каждого возможного значения X с каждым возможным значением Y ; 265 вероятности таких сумм равны произведениям вероятностей слагаемых (для зависимых случайных величин – произведениям вероятности одного слагаемого на условную вероятность второго). x Условная плотность распределения составляющих X y при данном значении Y y плотность ( х / у) f ( x, y ) f 2 ( y) f ( x, y ) . f ( x, y)dx Функция распределения F(x, y) двумерной случайной величины X , Y - вероятность того, что случайные величины X x , a Y y принимают значения: F x, y p X x , Y y . Центральный момент порядка k, s двумерной случайной величины ( X , Y ) - математическое ожидание произведения ( X M ( X )) k на (Y M (Y )) s : k ,s M (( X M ( X ))k (Y M (Y ))s ). Для дискретных случайных величин k , s ( xi M ( X )) k ( y j M (Y )) s pij , i j для непрерывных случайных величин k ,s ( x M ( X )) k ( y M (Y )) s f ( x, y)dxdy. К лекции 9 Функция случайного аргумента X - единственное возможное значение случайной величины Y , которая соответствует каждому возможному значению случайной величины X . Y (X) 266 Функция двух случайных аргументов X и Y - единственное возможное значение случайной величины Z , которая соответствует каждой паре возможных значений случайных величин X и Y Z ( X,Y ) К лекции 10 Равномерный закон на плоскости – закон распределения системы двух случайных величин, у которого плотность вероятности равна f x, y = const внутри некоторой области и равна 0 вне ее. Нормальный закон распределения на плоскости - распределение вероятностей двумерной случайной величины (X, Y) с плотностью вида: f x, y 1 2 x y 1 rxy2 e x a1 2 y a 2 2 x a1 y a 2 1 2 xy 2 21 xy x2 y2 x y К лекции 11 Закон больших чисел – группа законов распределения суммы случайных величин, каждая из которых может иметь различные распределения, приближенных к нормальному при достаточно большом числе слагаемых. Характеристическая функция случайной величины X - функция вида g t M eitX К лекции 12 Бесповторная выборка – отобранный объект в генеральную совокупность не возвращается. Вариационный размах – разность между наибольшим и наименьшим вариантами ряда 267 R x max x min Вариационный ряд – ранжированный ряд вариантов с соответствующими весами. Весы – частоты и относительные частоты. Выборка – набор объектов, случайно отобранных из генеральной совокупности. Выборочная (эмпирическая) функция распределения - функция F * x , определяющая для каждого значения x относительную частоту события X x . n F * x x , n где n x – число вариант, меньших x , n – объем выборки. Генеральная совокупность – все множество имеющихся объектов. Гистограмма – прямоугольники, с основаниями, равными интервалам значений признака и высотами, равными частотам. Группировка – разбиение вариантов на различные интервалы Дисперсия – средняя арифметическая квадратов отклонений вариантов от их средней арифметической xi x m s 2 2 i 1 ni , n где s - средне квадратическое отклонение. Интервальные частоты - частоты, в которых признак принял значения, входящие в некоторый интервал. Кумулятивная кривая (кривая сумм) — ломаная, составленная по последовательно суммированным, т.е. накопленным частотам или относительным частотам. Коэффициент ассиметрии – числовая характеристика, выражающая характер распределения выборки xi x m A 268 m3 s3 3 i 1 n s3 ni Медиана - значение признака, приходящееся на середину ранжированного ряда наблюдений. Мода – варианта соответствующая наибольшей частоте. Объем генеральной совокупности N и объем выборки n – число объектов в рассматриваемой совокупности. Относительная частота – отношение частоты к общему наблюдению Повторная выборка – каждый отобранный объект перед выбором следующего возвращается в генеральную совокупность; Полигон - ломаная линия с координатами xi , ni , где xi откладываются на оси абсцисс, а ni – на оси ординат. m n ni i 1 Ранжирование вариантов ряда – расположение, упорядочивание вариантов в порядке возрастания (убывания) Средней арифметической вариационного ряда называется сумма произведений всех вариантов на соответствующие частоты, деленная на сумму частот. m x x i ni i 1 n , где x i - варианты дискретного ряда или середины интервалов вариационного ряда, ni - соответствующие им частоты, Частота – число, показывающее, сколько раз встречаются варианты из данного интервала Эксцесс - числовая характеристика, выражающая характер распределения xi x m E m4 s4 3 4 i 1 n s4 ni 3 269 К лекции 13 Статистическая гипотеза – гипотеза о виде неизвестного распределения, или о параметрах известных распределений. Нулевая (основная) гипотеза H 0 - выдвинутая гипотеза. Конкурирующая (альтернативная) гипотеза - гипотезу H 1 , которая противоречит нулевой. Простая гипотеза - гипотеза , содержащая только одно предположение. Сложная гипотеза - гипотеза, которая состоит из конечного или бесконечного числа простых гипотез. Статистический критерий - случайная величина К, которая служит для проверки нулевой гипотезы. Наблюдаемое значение K набл - значение критерия, вычисленное по выборкам. Критерий согласия - критерий проверки гипотезы о предполагаемом законе неизвестного распределения К лекции 14 Асимптотически несмещенная оценка – оценка некоторого признака и для выборки x1 , x2 ,, xn lim n x1 x2 xn X n где X – истинное значение исследуемой величины Несмещенная оценка Θ* - статистическая оценка, ожидание которой равно оцениваемому параметру Θ при любом объеме выборки M Θ* Θ Смещенная оценка – статистическая оценка, ожидание которой не равно оцениваемому параметру. Состоятельная оценка - статистическая оценка, которая при n стремится по вероятности к оцениваемому параметру (если эта оценка несмещенная, то она будет состоятельной, если при n ее дисперсия стремится к 0). 270 Статистическая оценка неизвестного параметра теоретического распределения - функция от наблюдаемых случайных величин. Эффективная оценка – статистическая оценка, которая при заданном объеме выборки n имеет наименьшую возможную дисперсию. К лекции 16 Доверительный интервал - интервал, в который попадает неизвестный параметр с заданной надежностью . Надежность (доверительная вероятность) оценки Θ* параметра Θ - вероятность γ того, что выполняется неравенство Θ* Θ . К лекции 17 Детерминированные процессы – процессы, которые можно описать математическими формулами, определяя положение системы в любой момент времени с разумной точностью. Дисперсия случайного процесса – неслучайная функция, которая равна дисперсии соответствующего сечения для t : D (t ) x 2 p ( x, t )dx m2 (t ) . Корреляционная функция случайного процесса - неслучайная функция равная математическому ожиданию от произведения значений процесса в два различных момента времени и характеризующая степень их линейной зависимости: K (t1 , t2 ) (x 1 m (t1 ))( x2 m (t2 )) p ( x1 , x2 , t1 , t2 )dx1 , dx2 Математическое ожидание случайного процесса - неслучайная функция m (t ) , которая t равна математическому ожиданию соответствующего сечения случайного процесса: 271 m (t ) xp ( x, t )dx . Нормированная корреляционная функция, равная r (t1 , t2 ) функция - неслучайная K (t1 , t2 ) (t1 ) (t2 ) Реализация случайного процесса - неслучайная функция (t , w0 ) , в которую превращается процесс в результате испытания Случайный процесс - семейство случайных величин { (t , w)} , определѐнных на , F , P , где под параметром t понимается время. Случайные сигналы (процессы) - сигналы, математическим описанием которых являются случайные функции времени. Стационарный случайный процесс в узком смысле - случайный процесс (t ) для которого многомерные законы распределения не меняются при сдвиге всех временных переменных на одно и то же число: F ( x1 , ..., xn ; t1 , ..., tn ) F ( x1 , ..., xn ; t1 h, ..., tn h) , n N , h R . Стационарный случайный процесс в широком смысле случайный процесс, для которого m (t ) m const D (t ) D const , , K (t1 , t2 ) K (t2 t1 ) K ( ) . Теория случайных процессов - математическая наука, изучающая случайные явления в динамике их развития. Хаотические случайные процессы – детерминированные, нелинейные случайные процессы, с сильной зависимостью от начальных условий. Эргодический стационарный случайный процесс - стационарный случайный процесс, для которого осреднение по ансамблю реализаций может быть заменено осреднением по времени одной реализации. 272 273 Приложение 1 Таблица значений функции 274 Приложение 2 Таблица значений функции 275 Приложение 3 Таблица критических точек распределения 276 Список основных формул 1. P A m , n 0 P( A) 1 классическое определение вероятности случайного события 2. n! n e 2 n 3. Anm А n n формула приближенное вычисление факториала 4. 5. Стирлинга, n! размещение из n по m n m! Pn Ann n! перестановки из n элементов n! сочетаниями из n элементов по Сnm m! n m ! m 6. x y n n Cnm x m y n m разложение бинома m0 Ньютона 7. P A mes g геометрическое mesG вероятности события 8. N W A A N определение A статическое определение вероятности случайного события A 9. P A1 A2 P A1 P A2 вероятность суммы двух несовместных событий 10. P A1 A2 P A1 P A2 P A1 A2 вероятность суммы двух совместных событий 11. P A1 A2 P A1 P A2 вероятность произведения независимых событий 277 P A1 A2 P A1 P A2 / А1 вероятность 12. произведения зависимых событий P A 1 P A1 P A 2 P A n 1 q1 q2 qn 13. вероятность появления хотя независимых в совокупности бы P H i P A H i P A 14. PH i A 15. P A PH i PA H i одного из событий, формула Бейеса is полная вероятность i 1 события A F x P X x 16. функция случайной величины X распределения F(x) x x1 0 P 1 P P2 F x 1 P1 P2 Pn 1 1 x1 x x2 x2 x x3 xn 1 x xn x xn is x М X xi pxi 17. математическое i 1 ожидание дискретной случайной величины is D X M x mx 2 xi mx 2 pxi дисперсия 18. i 1 дискретной случайной величины D X Y D X DY 19. дисперсия двух независимых случайных величин D X Y D X DY дисперсия разности двух независимых случайных величин 21. M X Y M X M Y математическое ожидание суммы двух случайных величин 20. 278 суммы математическое M XY M X M Y ожидание произведения двух независимых случайных 23. D X среднеквадратическое отклонение 22. k M X k xik pi n 24. начальный момент i 1 степени k 25. n k M X M X xi a pi k k i 1 центральный момент степени k 3 26. A 27. E 28. PX m Cnm p m 1 p n m 3 4 4 коэффициент ассиметрии 3 эксцесс закон распределения (закон Бернулли) 29. математическое M X np биноминальный ожидание случайной величины, распределенной по биноминальному закону 30. PX m m m! e закон Пуассона f ( x) F x плотность распределения непрерывной случайной величины x 31. в 32. P(a X в ) f ( x)dx вероятность попадания а непрерывной случайной величины X в интервал a, b 33. M x x f x dx математическое ожидание непрерывной случайной величины x 279 D( X ) 34. x 2 f ( x)dx М 2 ( X ) дисперсия непрерывной случайной величины X 1 , x a, b f x b a 0, x a, b 35. равномерный закон распределения ex , x 0 экспоненциальное f x 0, x 0 36. (показательное) распределение 1 37. M ( X ) , , математическое ожидание случайной величины X ,распределенной по экспоненциальному закону 1 D( X ) 2 38. дисперсия случайной величины X ,распределенной по экспоненциальному закону P(a X в) е а е в 39. вероятность непрерывной случайной величины X попадания в интервал a, b , распределенной по экспоненциальному закону f x 40. f ( x) 41. m a x m 1 a x e 1 2 m распределение Вейбулла ( xm)2 e 2 2 , нормальное (гауссовское) распределение M X m , D X 2 математическое ожидание и дисперсия непрерывной случайной величины X , распределенной 42. по нормальному закону 280 43. m m P( X ) , вероятность попадания непрерывной случайной величины X a, b , распределенной по нормальному закону в интервал 44. 45. 46. 1 Φ y 2 2 y y e 2 dy функция Лапласа 1 x 1 Φ ( x) Φ 2 2 2 x t e 2 /2 dt; нормированная 0 функция Лапласа 2 F ( x, y ) f ( x, y ) xy 47. плотность совместного распределения двумерной случайной величины X , Y p(( X , Y ) D) f ( x, y)dxdy. 48. вероятность D попадания точки в область D 49. ( х / у) f ( x, y ) f 2 ( y) f ( x, y ) условная f ( x, y)dx плотность распределения 50. k , s M ( X kY s ) начальный момент порядка k , s двумерной случайной величины k ,s xik y sj pij начальный момент порядка k , s для i j дискретных случайных величин k ,s x k y s f ( x, y )dxdy начальный момент порядка k , s для непрерывных случайных величин 281 k , s M (( X M ( X )) k (Y M (Y )) s ) 51. центральный момент порядка k, s двумерной случайной величины ( X , Y ) k ,s ( xi M ( X ))k ( y j M (Y )) s pij i центральный j момент порядка k, s для дискретных случайных величин k , s ( x M ( X )) ( y M (Y )) k s f ( x, y )dxdy центральный момент порядка k, s для непрерывных случайных величин K xy 1,1 M (( X M ( X ))(Y M (Y ))) 52. корреляционный момент или ковариация K xy xi ax y j a j pij корреляционный момент для n m i 1 j 1 дискретных случайных величин К ху ( x M ( X ))( y M (Y )) f ( x, y)dxdy корреляционный момент для непрерывных случайных величин K xy 53. rxy 54. D K k x xy k D f x, y 55. коэффициент корреляции x y xy корреляционная матрица y 1 2 2 x y 1 rxy e x a1 2 y a 2 2 x a1 y a2 1 2 xy 2 21 xy x2 y2 x y нормальный закон распределения на плоскости (закон Гаусса) P X , Y R f x, y dxdy 56. попадания в прямоугольник 282 вероятность D X 57. p X M X ε 58. X1 X 2 X n M X1 M X 2 M X n ε n n неравенство Чебышева 2 ε теорема Чебышева 59. 60. m lim p p ε 1 n n g t M eitX теорема Бернулли Характеристическая функция случайной величины X n 61. g t e itxk pk X – дискретная случайная k 1 величина, заданная рядом распределения 62. g t e itx f x dx характеристическая функция для непрерывной случайной величины с плотностью распределения f (x) n 63. Yn X k центральная предельная теорема для k 1 одинаково распределенных слагаемых n b 64. lim n 65. k 1 k Dk k 1 n 3 2 теорема Ляпунова Y np p α β Φ β Φα теорема Муавра npq Лапласа 283 ni n 66. wi 67. F * x относительная частота nx выборочная функция распределения n m x 68. xi ni i 1 среднее арифметическое вариационного n ряда ni n 69. wi 70. F * x относительная частота nx выборочная функция распределения n m x 71. xi ni i 1 среднее арифметическое вариационного n ряда xi x m 72. s 2 2 i 1 ni дисперсия n xi x m A 73. m3 s3 3 i 1 ni коэффициент n s3 ассиметрии xi x m E 74. 284 m4 s4 3 4 i 1 n s4 ni 3 эксцесс m 75. U 2 ci i pi 2 критерий Пирсона i 1 76. 77. r ni n pi 2 i 1 n pi 2 y x случайная величина уравнение взаимосвязи двух переменных 2 ni xi x B k 78. n s2 DB n 1 i 1 n 1 исправленная дисперсия k 79. s s2 ni xi x B i 1 n 1 2 исправленное среднее квадратическое отклонение 80. x1 x2 xn X n n lim несмещенная оценка 81. асимптотически p Θ* Θ Θ* доверительная вероятность 285 Список литературы 1. Венцель Е.С. Теория вероятностей. М.: Академия, 2005 2. Гмурман В.Е. Теория вероятностей и математическая статистика: учеб пособие. - М.: Образование, 2007. 479с. 3. Вентцель Е.С. Задачи и упражнения по теории вероятностей. – М.: Высшая школа, 2002. – 448 с. 4. Кремер Н.Ш. Теория вероятностей и математическая статистика: Учебник для вузов. – М.: ЮНИТИ-ДАНА, 2001. 5. Калинина В.Н., Панкин В.Ф. Математическая статистика. - М.: Высшая школа, 2001. 6. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике. - М. Высшая школа , 2001 -400с. 286