О.В. Лимановская Информатика. Методы и средства автоматизации инженерных и научных расчетов. Математическое моделирование с применением ЭВМ Лекция 3. Основы теории вероятности и математической статистики Научный редактор: Обабков И.Н. Для студентов всех форм обучения Цель лекции • Дать основные понятия теории вероятности и математической статистики, необходимых для обработки экспериментальных данных План лекции 1. Основные определения 2. Законы распределения. 3. Классификация вероятностных моделей 1. Основные определения • Случайное событие – событие, реализацию которого невозможно точно предсказать. • Случайная величина – величина, которая может принимать какое либо значение из установленного множества с определенной вероятностью. Основные определения • Дискретная случайная величина – случайная величина принимающая точные значения из конечного множества чисел. Дискретная случайная величина не может принимать промежуточных значений. Основные определения • Непрерывная случайная величина – случайная величина, которая может принимать любые значения из конечного или бесконечного интервала. № 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2 3 4 1 1 2 3 5 6 5 6 4 5 6 4 3 2 1 2 6 Частоту появления определенного количества баллов можно посчитать по формуле: m W n (1) где m- количество раз появления заданного количества баллов, или, отрываясь от данного примера, число наблюдений, в которых дискретная случайная величина Х оказалась равной заданному значению х; n- общее количество наблюдений. Величину W называют частотой реализации события . Вероятность события А • предел, к которому стремится частота реализация события при неограниченном возрастании числа наблюдений, называется вероятностью Р(А) события А. Величина вероятности меняется от 0 до 1, также может измеряться в процентах от 0 до 100%. Вероятность дискретной и непрерывной случайной величины • Для дискретной случайной величины можно точно указать вероятность с которой она принимает значение из множества возможных значений. Для непрерывной случайной величины указывается вероятность попадания ее в заданный интервал значений, поскольку вероятность того, что она примет какое-либо точное значение стремится к 0. Закон распределения случайной величины • Связь между возможными значениями случайной величины и соответствующими им вероятностями задается законом распределения случайной величины. Он полностью определяет свойства случайной величины. Распределение случайной величины • Распределение случайной величины – функция, которая однозначно определяет вероятность того, что случайная величина принимает заданное значение или принадлежит к некоторому заданному интервалу. • Существует два способа описания распределения случайных величин: интегральный (функция распределения) и дифференциальный (плотность распределения). Функция распределения • Функция распределения F(x) – функция, определяющая для всех действительных х вероятность того, что случайная величина Х принимает значения не больше, чем х. F ( x) P( X x) (3) Интегральный закон распределения F(x) 1.0 F(x) 1.0 F(x2) Pn 0.5 F(x1) P2 P1 a) X1 X3 X2 б)X1 X2 X3 Xn-1 Xn 1. 2. Свойства функции распределения Её ордината, соответствующая произвольной точке х1, представляет собой вероятность того, что случайная величина Х будет меньше, чем х1, то есть F ( x1 ) P( X x1 ) . Например, температура в ходе эксперимента меняется случайным образом по нормальному закону. Известно F(t1)=0.3, для t1=200°С. Значит, что вероятность того, что измеряемая в эксперименте температура будет меньше 200°С составляет 30%. Функция распределения принимает значения от 0 до 1 . Это очевидно, поскольку она численно равна вероятности. Свойства функции распределения 3. Функция распределения стремится к 0 при уменьшении х, и стремится к 1 при возрастании х. 4. Функция распределения представляет собой монотонно возрастающую кривую F ( x2 ) F ( x1 ) Свойства функции распределения 5. Её приращение на произвольном отрезке [x1,x2] равно вероятности попадания случайной величины в интервал от х1 до х2. Вернемся к примеру с температурой из первого свойства. Известно, что F(t2)-F(t1)=0.1 для t2=180°С. Тогда вероятность того, что измеряемая температура попадет в интервал от 180 до 200°С составляет 10%. Функция распределения дискретной случайной величины • Функция распределения дискретной случайной величины всегда разрывна (рис.1б). От -∞ до х1 функция равна 0, в точке х1происходит скачок на величину Р1 и функция остается постоянной до точки х2 и т.д. до последней точки в наборе случайных величин. Сумма всех величин вероятностей Р равна 1. Плотность распределения • Плотность распределения – первая производная функции распределения. dF ( x) • (4) f ( x) dx • Вероятность события Х, попадающего в интервал от х1 до х2 равна: • P( x X x ) F ( x ) F ( x ) f ( x)dx (5) x2 1 2 2 1 x1 2. Законы распределения. Нормальный закон распределения (закон распределения Гаусса) • Этот закон применим при условии, что различные случайные величины должны иметь конечные дисперсии и дисперсия(разброс) случайной величины не должна быть слишком большой по сравнению с дисперсиями других случайных величин. Нормальный закон распределения • Таким образом, если при планировании эксперимента учтены все наиболее существенные факторы и при проведении опытов они контролируются, то можно предположить, что экспериментальные данные подчиняются нормальному закону распределения. Большинство других распределений получены на основе нормального закона распределения. Функция нормального распределения F ( x) 1 2 x2 e ( xM x )2 2 x2 dx (6) 2 • где Мх- математическое ожидание; x дисперсия случайной величины. Математическое ожидание • Математическое ожидание – среднее взвешенное по вероятности значение случайной величины. • Для дискретной случайной M x xi p i (7) i Где хi- значение дискретной случайной величины, pi=P(X=xi). Математическое ожидание непрерывной случайной величины Mx xf ( x)dx (8) Где f(x) – плотность распределения непрерывной случайной величины. Дисперсия случайной величины • Дисперсия случайной величины – математическое ожидание случайной величины. • Для дискретной случайной величины: • (9) n 2 x2 xi M x p( xi ) i 1 • Дисперсия непрерывной случайной величины рассчитывается по выражению: • 2 (10) 2 x ( x M x ) f ( x)dx Дисперсия непрерывной случайной величины x2 ( x M x ) 2 f ( x)dx (11) Дисперсия случайной величины измеряется в квадратах единицы измерения случайной величины. Положительное значение квадратного корня из дисперсии называется средним квадратичным отклонением. Плотность нормального распределения f ( x) 1 2 x2 e ( xM x )2 2 x2 (12) Графическая интерпретация функции нормального закона распределения Графическая интерпретация плотности вероятности нормального закона распределения Распределение Пирсона • Распределение Пирсона (хи - квадрат) – распределение случайной величины (12) • где случайные величины X1, X2,…, Xn независимы и имеют одно и тоже распределение N(0,1). При этом число слагаемых, т.е. n, называется «числом степеней свободы» распределения хи – квадрат. Применение распределения Пирсона • Распределение хи-квадрат используют при оценивании дисперсии (с помощью доверительного интервала), при проверке гипотез согласия, однородности, независимости. Распределение t Стьюдента • Распределение t Стьюдента – это распределение случайной величины (13) где случайные величины U и X независимы, U имеет распределение стандартное нормальное распределение N(0,1), а X – распределение хи – квадрат с n степенями свободы. При этом n называется «числом степеней свободы» распределения Стьюдента. Применение распределение Стьюдента • Его применяют при оценивании математического ожидания, прогнозного значения и других характеристик с помощью доверительных интервалов, по проверке гипотез о значениях математических ожиданий, коэффициентов регрессионной зависимости, гипотез однородности выборок и т.д. Распределение Фишера • Распределение Фишера – это распределение случайной величины (14) где случайные величины Х1 и Х2 независимы и имеют распределения хи – квадрат с числом степеней свободы k1 и k2 соответственно. При этом пара (k1, k2) – пара «чисел степеней свободы» распределения Фишера, а именно, k1 – число степеней свободы числителя, а k2 – число степеней свободы знаменателя. Применение распределения Фишера • Распределение Фишера используют при проверке гипотез об адекватности модели в регрессионном анализе, о равенстве дисперсий и в других задачах прикладной статистики Экспоненциальное или показательное распределение • Моделирует время между двумя последовательными свершениями одного и того же события. 1 e x , x 0 F ( x) 0, x 0 (15) Плотность экспоненциального распределения e x , x 0 f ( x) 0, x 0 (16) Гамма-распределение • Гамма-распределению подчинены во многих ситуациях такие величины, как общий срок службы изделия, время достижения изделием предельного состояния при коррозии, продолжительность жизни больных хроническими заболеваниями, спрос в экономико-математических моделях управления запасами (логистики) и т.д. Плотность гамма-распределения (17) • Плотность вероятности в формуле (17) определяется тремя параметрами a, b, c, где a>0, b>0. При этом a является параметром формы, b - параметром масштаба и с параметром сдвига. Множитель 1/Γ(а) является нормировочным, он введен, чтобы Гамма-функция • Γ(а) - одна из используемых в математике специальных функций, так называемая "гамма-функция", по которой названо и распределение, задаваемое формулой (17), (19) стандартное гаммараспределение • При фиксированном а формула (19) задает масштабно-сдвиговое семейство распределений, порождаемое распределением с плотностью (20) • Распределение вида (20) называется стандартным гамма-распределением. Биномиальное распределение (21) • где (22) - число сочетаний из n элементов по y, известное из комбинаторики. Для всех y, кроме 0, 1, 2, …, n, имеем P(Y=y)=0. Применение биноминального распределения • Семейство биноминальных распределений применяется при анализе данных выборочных исследований. Например, при выборочном контроле качества продукции, когда проверку качества проходит случайно выбранный образец продукции, при выборочных социологических опросах и т.д. Гипергеометрическое распределение (23) где D – число объектов, обладающих признаком А, в рассматриваемой совокупности объема N. При этом y принимает значения от max{0, n (N - D)} до min{n, D}, при прочих y вероятность в формуле (23) равна 0. Применение гипергеометрического распределения • Гипергеометрическое распределение имеет случайная величина Y, равная числу объектов, обладающих признаком А в случайной выборке объема n, где n<N. Этому распределению подчиняется, в частности вероятность выигрыша в лотерею. Пусть мы купили n билетов из общего N числа. Признак А – выигрыш по билету. Распределение Пуассона • Моделирует случайную величину, которая равна числу событий происшедших за определенное время, при условии, что эти события происходят с некоторой фиксированной средней интенсивностью и независимо друг от друга. Распределение Пуассона • Случайная величина Y имеет распределение Пуассона, если (24) где λ – параметр распределения Пуассона, и P(Y=y)=0 для всех прочих y (при y=0 обозначено 0! =1). Применение распределения Пуассона • Распределение Пуассона используется при анализе результатов выборочных маркетинговых обследований потребителей, расчете оперативных характеристик планов статистического приемочного контроля в случае малых значений приемочного уровня дефектности, для описания числа разладок статистически управляемого технологического процесса в единицу времени, числа «требований на обслуживание», поступающих в единицу времени в систему массового обслуживания, статистических закономерностей несчастных случаев и редких заболеваний, и т.д. Теоретико-вероятностные модели • Первый уровень - это случайное событие и случайная величина, которые являются качественной и количественной характеристиками экспериментальных данных. • Второй уровень -систему случайных величин, где учитывается не только свойства отдельных величин, но и их взаимодействие между собой. • Третий уровень -случайная функция(СФ) X(t), где tвещественный параметр, например, время. Случайная функция в виде набора реализаций X(t) X3(t) X2(t) X1(t) t t=t0 Статистические модели • • • Первому уровню – модель выборки Второму – модель регрессии Третьему – модель случайного процесса. модель выборки • В модели выборки предполагается, что исходный материал представляет собой реализацию одной случайной величины Х с законом распределения F(x). Основой для построения модели служит выборка данных, представленная в виде ряда наблюдений. Реализация модели связана с построением законов распределения – статистической функции распределения, плотности распределения. Модель регрессии • Модель регрессии используется для обработки экспериментальных зависимостей. Для каждой экспериментальной точки рассчитывается математическое ожидание: m xi f (t i ) (25) где f(ti) – сглаживающая функция, ее график – линия регрессии. Основной задачей метода регрессии является определение линии регрессии и оценка точности результата.