МОСКОВСКИЙ АВИАЦИОННЫЙ ИНСТИТУТ Кафедра 804 "Теория вероятности и математическая статистика" КУРСОВАЯ РАБОТА по курсу "Математическая статистика" Выполнил: студент группы 08-304 Принял: профессор каф. 804 Кан Ю. С. Дата: Оценка: Подпись: 2003 г. Задание 1. 1 1 Дан случайный вектор 2 ~ N (0, K ) , где K 1 2k 3 0 0 2k 1 , k = 15. 1 2k 1 1 2k 2 2 2 Методом Монте-Карло найти вероятность P(1 2 3 4) . 1 Метод статистических испытаний (метод Монте-Карло) заключается в моделировании требуемой случайной величины с помощью выборки большого объема. При этом вероятность попадания рассматриваемой случайной величины в заданную область Q определяется, исходя из соотношения: P(Q) m , n где n – объем выборки, m – количество реализаций случайной величины, попавших в область Q. Для того чтобы смоделировать нормальный случайный вектор с ковариационной матрицей K, задается линейное преобразование, переводящее стандартный нормальный случайный вектор в рассматриваемый случайный вектор с матрицей K. ~ ~ N (0, I ) ~ N (0, K ) ~ Чтобы найти матрицу преобразования , приводим квадратичную форму x T Kx к сумме квадратов: x x x x xx xx x2 x2 1 x T Kx x12 1 2 x22 2 3 x32 ( x12 1 2 22 ) ( 22 2 3 x32 ) (1 2 ) x22 k k k k 4k 4k 2k 2 x x 2k 1 2 ( x1 2 ) 2 ( 2 x3 ) 2 ( x2 ) 2 k 2 k 2 k 2 y1 y Ax , где 1 1 2k 2k 2 1 A 0 2k 2 1 0 2k 1 AT 1 2k 0 y3 0 0 , 1 0 2k 2 1 2k 2 0 y2 0 1 . 2k 1 Таким образом, моделируя вектор из трех некоррелированных стандартных нормальных случайных величин, с помощью преобразования получаем гауссовский вектор с ковариационной матрицей K. Вектор моделируется с помощью датчика случайных чисел. Для каждой полученной реализации случайного вектора выполняется проверка на попадание в заданный шар. Итоговая вероятность рассчитывается как отношение количества реализаций, попавших в шар, к объему выборки. На рис. 1 показан результат статистического испытания при объеме выборки n = 100000, k = 10. Полученная вероятность: P = 0,73924. Рис. 1 (n = 100000, k = 10) Задание 2. Имеются 50 опытов наблюдения X и Y: Y aX b , где ~ N (0, ) . Оценить параметры a и b методом наименьших квадратов. Решение 1: Для нахождения оценок a и b применим метод максимального правдоподобия. Yk ~ N (aX k b, ) , p( x, ) 1 2 e ( x aX k b ) 2 2 Составляем функцию правдоподобия: n Ln ( Z n , ) p(Yk , ) (2) k 1 n 2 1 n exp{ (Yk aX k b) 2 } , 2 k 1 где n – объем выборки (n = 50). Получаем логарифмическую функцию правдоподобия: n 1 n ~ L n( ) ln( Ln( Z n , )) ln( 2 ) (Yk aX k b) 2 . 2 2 k 1 ~ Задача максимизации L n( ) сводится к минимизации суммы квадратов: n (Y k k 1 aX k b) 2 min Распишем сумму квадратов: n n k 1 k 1 (Yk aX k b) 2 Yk2 2Yk (aX k b) (aX k b) 2 n Yk2 2 X k Yk a 2Yk b X k2 a 2 2 X k ab b 2 . k 1 Введем новые обозначения: n X k2 k 1 n Xk k 1 n X k Yk k 1 n Yk k 1 n Yk2 k 1 С учетом новых обозначений получаем: J(a,b) = a2 + nb2 + 2 ab – 2 a – 2 b + min a,b Берем частные производные: J 2 a + 2 b – 2, a J 2nb + 2 a – 2. b Решаем систему: a + b = , nb + a = . Получаем: n a , n 2 b . n 2 Решение 2: Оценки параметров можно получить, решая так называемую нормальную систему уравнений: b A XY , a X1 1 где X 2 X X1 1 X2 1 T , Y Y1 Y2 ... Yn , ... X n ... n ( X , X ) ( X , X ) A 2 1 n 2 2 ( X , X ) ( X , X ) X k k 1 Получаем: n Yk n b k 1 a n X Y k k k 1 т.е. то же самое в виде системы: nb + a = . a + b = , 1 1 1 2 n k 1 n 2 Xk k 1 n X k Как видно, это та же система, что и в решении 1. Таким образом, с учетом данных, полученных в опытах по наблюдению за X и Y, получаем значения коэффициентов: = 46,5000961858679, = 46,1733376283488, = 147,911922402037, = 146,973081745395, = 471,011023261011. Получив значения коэффициентов, получаем значения оценки параметров: a = 3,15684427413119, b = 0,0242209047163106. На рис. 2 представлена прямая Y aX b . Рис. 2. Результаты оценки параметров. Задание 2а. Построить доверительные интервалы уровня 0.95 для параметров a и b. Основная МНК-теорема: Пусть в условия предыдущей задачи T b b b S ( ) Y X T Y X T , a a a T b b b 2 T T S ( ) Y X Y X . a a a Тогда b b 2 1 ~ N ; A , a a 2 S (b ) ~ 2 (n 2) . 2 2 Следствие: b b c11 S c11S a a 1 , P b t b b t 1 , n 2 1 , n 2 n2 n2 2 2 b b c 22 S c 22 S a a a a t 1 , P a t 1 , n 2 1 , n 2 n2 n2 2 2 где cii - (i, i)-й элемент матрицы A 1 , t 1 , n 2 2 - квантиль уровня 1 2 для распределения Стьюдента с n 2 степенями свободы. С учетом условия задачи ( 0.05 ) и всего вышесказанного, получаем следующее: 1 Матрица A 1 , 2 n n соответственно, c11 0,240898564361575 n 2 n c 22 0,259030178559918 n 2 n b 2 0,718538058549758 S Yk aX k b a k 1 t 1 , n 2 2 2.011 Итого – доверительные интервалы уровня 0.95: для a : ( 3,13736861423897 ; 3,17631993402341 ) для b : ( 0,00610850355088199 ; 0,0423333058817393 ) Задание 3. Рассматривая ek Yk aX k b как выборку, построить гистограмму (10 интервалов одинаковой длины). Пользуясь критерием 2 и полученной гистограммой, проверить гипотезу о нормальном законе распределения с уровнем значения 0.01 случайной величины ek . Минимальное и максимальное выборочные значения равны -0,2037977 и 0,2390410, соответственно. Разобьем получившийся промежуток на 10 интервалов одинаковой длины. В таблице 1 представлены характеристики получившегося разбиения. № 1 2 3 4 5 6 7 8 9 10 Левый конец -0,203797779795623 -0,159513896959864 -0,115230014124104 -0,070946131288345 -0,026662248452585 0,017621634383174 0,061905517218934 0,106189400054693 0,150473282890453 0,194757165726212 Таблица 1. Данные для гистограммы. Рис. 3. Гистограмма. Правый конец -0,159513896959864 -0,115230014124104 -0,070946131288345 -0,026662248452585 0,017621634383174 0,061905517218934 0,106189400054693 0,150473282890453 0,194757165726212 0,239041048561972 Кол-во элементов выборки, попавших в интервал 6 1 6 2 7 16 6 4 0 2 Прежде чем проверять гипотезу о нормальном законе распределения случайной величины ek , оценим параметры закона распределения в предположении, что распределение гауссовское. Из условия предыдущей задачи Y aX b ~ N (0, ) Значит, мат. ожидание равно нулю, а дисперсия оценивается выборочной дисперсией: 1 n 2 Sn 2 (ek 0) 2 n k 1 Подставляя выборочные данные, получаем: 2 0,010326 Таким образом, выдвигаемая гипотеза: ek ~ N (0, 2 ) Для каждого интервала вычисляем вероятность, а также частоту попадания выборочных точек. Полученные результаты представлены в таблице 2. № (k) 1 2 3 4 5 6 7 8 9 10 z F ( z k ) ( k ) z F ( z k 1 ) ( k1 ) 0,0222 0,0375 0,1288 0,2427 0,3964 0,5688 0,7287 0,8519 0,9307 0,9723 0,0375 0,1288 0,2427 0,3964 0,5688 0,7287 0,8519 0,9307 0,9723 0,9907 Вероятность попадания в k-интервал: Pk F ( z k 1 ) F ( z k ) 0,0153 0,0913 0,1139 0,1537 0,1724 0,1599 0,1232 0,0788 0,0416 0,0184 Частота попадания выборочных точек в kинтервал Pk * mk , k 1,...,10 n 0,12 0,02 0,12 0,04 0,14 0,32 0,12 0,08 0,00 0,04 Таблица 2. Вероятностные и частотные характеристики. На основании полученных результатов вычисляем статистику: 10 ( P Pk *) 2 g n n k 54,5 Pk k 1 Если гипотеза верна, то статистика g n ~ 2 (9) Используя закон распределения 2 (9) , находим критическое значение для заданного уровня p = 0.01: 2 2 crit : P( 2 (9) crit ) 1 p 0.99 2 20.8 Из таблицы распределения 2 (9) получаем: crit 2 g n 54.5 20.8 crit , значит гипотеза отвергается.