эконометрике МЕТОДИЧЕСКИЕ УКАЗАНИЯ к выполнению самостоятельной работы по

519.2(07) M545 МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ САМАРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ МЕТОДИЧЕСКИЕ УКАЗАНИЯ к выполнению самостоятельной работы по эконометрике в среде MATHCAD СЫЗРАНЬ 2011 УДК 519.22(07.07) Составитель: Порунов А.Н. Методические указания к выполнению самостоятельной работы по эконометрике в среде MATHCAD. Самара: Изд-во СамГТУ, 2011, 46 с. Методические указания предназначены для студентов, изучающих общую теориюэконометрики. Целью работы является обучение студентов решению статистических задач с использованием математического пакета Mathcad. Указания содержат теоретические сведения, необходимые при подготовке к лабораторным работам, варианты заданий и контрольные вопросы для самопроверки, а также, примеры решения задач с помощью указанного пакета. Табл. 3. Библиогр.: 3 назв. Рецензент: ……………. СамГТУ. 2 Введение Статистические расчеты без помощи ЭВМ являются сложными и требуют применения многочисленных таблиц функций и квантилей стандартных распределений. Поэтому они не дают возможности почувствовать элемент новизны в изучаемом материале, изменять произвольно условия задач и т.д. Специализированные математические пакеты не могут использоваться для обучения, т.к. их использование требует достаточно высокого уровня подготовки в эконометрике. Поэтому в данных указаниях предлагается использовать универсальный математический пакет Mathcad Professional. Весь материал разбит на шесть лабораторных работ. На каждом занятии студент получает индивидуальное задание, которое выполняет самостоятельно под руководством преподавателя. В конце каждой лабораторной работы приведены варианты заданий, контрольные вопросы и примеры, демонстрирующие способы решения поставленных задач с помощью математических пакетов. Таким образом, методические указания позволяют, во-первых, интенсифицировать практическую составляющую обученияэконометрике и, во-вторых, обучить студентов навыкам использования универсального математического пакета Mathcad. Методические указания могут также быть использованы для проведения практики по теории вероятностей иэконометрике параллельно – первую на практических занятиях, а вторую на лабораторных, поскольку применение математического пакета значительно сократит время на решение задачэконометрики. С этой целью в указаниях приводятся необходимые теоретические сведения по эконометрике. 3 1. Equation Section 1Метод наименьших квадратов Пусть на вход некоторого устройства подается сигнал x , а на выходе измеряется сигнал y . Известно, что величины x и y связаны функциональной зависимостью, но какой именно – неизвестно. Требуется приближенно определить эту функциональную зависимость y    x  по опытным данными. Пусть в результате n измерений получен ряд экспериментальных точек  xi , yi  . Известно, что через n точек можно всегда провести кривую, аналитически выражаемую многочленом  n  1 -й степени. Этот многочлен называют интерполяционным. И вообще, замену функции   x  на функцию   x  так, что их значения совпадают в заданных точках (1.1)   xi     xi  , i  1, 2,..., n , называют интерполяцией. Однако такое решение проблемы не является удовлетворительным, поскольку yi    xi  из-за случайных ошибок измерения и влияния на измерения значений yi помех и шумов в устройстве. Так что yi    xi    i , (1.2) где  i – некоторая случайная ошибка. Поэтому требуется провести кривую так, чтобы она в наименьшей степени зависела от случайных ошибок. Эта задача называется сглаживанием (аппроксимацией) экспериментальной зависимости и часто решается методом наименьших квадратов. Сглаживающую кривую называют аппроксимирующей. Задача аппроксимации решается следующим образом. В декартовой прямоугольной системе координат наносят точки  xi , yi  . По расположению этих точек высказывается предположение о принадлежности искомой функции к определенному классу функций. Например, линейная функция   x   a0  a1 x , квадратичная   x   a0  a1 x  a2 x2 и т.д. В общем случае   x     x, a0 , a1 ,..., ar  . Неизвестные параметры функции a0 , a1 ,..., ar определяются из требования минимума суммы квадратов случайных ошибок, т.е. минимума величины n n i 1 i 1    i2    yi    xi , a0 , a1 ,..., ar   . 2 (1.3) Величина  называется также суммарной невязкой. Необходимым условием минимума функции нескольких переменных является обращение в нуль частных производных невязки: 4   0 , j  0,1,..., r . (1.4)  aj i 1 Решая систему уравнений (1.4), находим неизвестные параметры a j и тем самым полностью определяем функцию, которая наилучшим образом (в смысле наименьших квадратов отклонений от исходных точек или наименьшей суммарной невязки) аппроксимирует (приближает) искомую функцию   x  . n  y i    xi , a0 , a1 ,..., ar   Остановимся подробнее на линейной зависимости   x   a0  a1 x . Дифференцируя (1.3), получим следующую систему уравнений  n   yi  a0  a1 xi   0,  i 1 (1.5)  n   y  a  a x  x  0. i 0 1 i i  i 1 Из первого уравнения находим a0  My  a1Mx , где 1 n 1 n xi , My   yi .  n i 1 n i 1 Подставляя выражение для a0 во второе уравнение, найдем Mx  a1  Kxy , S2 (1.6) (1.7) где Kxy  1 n 1 n 2  xi  Mx  yi  My  , S 2    xi  Mx  .  n i 1 n i 1 (1.8) Таким образом, Kxy   Kxy (1.9) Mx   2 x S2   S есть искомая линейная функция. Ввиду простоты расчетов аппроксимация линейной зависимости используется довольно часто. Кроме того, многие функции, зависящие от двух параметров, можно линеаризовать путем замены переменных. Для этого необходимо подобрать такое преобразование исходной зависимости y  x     x, a0 , a1  , в результате которого она приобретает   x    My  линейный вид v  b0  b1  u . Далее решается задача линейной аппроксимации для новой зависимости и вычисленные коэффициенты b0 и b1 пересчитываются в коэффициенты a0 и a1 . Для ряда часто встречающихся двухпараметрических зависимостей возможные замены переменных (а также, обратные замены для 5 пересчета b0 и b1 в a0 и a1 ) приведены в табл. 1.1. Таблица 1.1. Замена переменных Вид зависимости Гиперболическая a y  a0  1 x Логарифмическая y  a0  a1 ln x 1 x v y u v y u  ln x Показательная y  a0 e a1 x v  ln y Степенная y  a0 x a1 v  ln y Комбинированная 1 y  a0  a1e x Ограничения v 1 y ux u  ln x u  e x Обратная замена переменных x0 a0  b0 a1  b1 x0 a0  b0 a1  b1 y0 a0  0 x0 y0 a0  0 a0  eb0 a1  b1 a0  eb0 a1  b1 y0 a0  b0 a1  b1 Следующие примеры реализуют аппроксимацию нелинейной зависимости методом наименьших квадратов с помощью универсальных математическх пакетов. Пример 1.4 (Mathcad) XT  0 n  10 i  0 n  1 X  i  1 a  2 a  1   0 0 a 0  i Z  y X i 2 3 4 2 3 4 5   0.1 1 x T Z  1 W  rnorm n     Y  Z  W 1 1 i 1 y ( x)  a  0 1.5 1.667 1.75 1.8 1.833 1.857 T W  -0.044 -0.068 -0.047 -0.095 -0.169 T Y  0.956 1.432 1.619 1.655 1.631 1.838 6 2.5 2 y ( x) f1v( y)  y 1 f1u ( x)  1.5 Yi x U  f1u X 1  i i 0.5 5  i V  f1v Y i 10 x Xi 2.5 Mu  2 Zi 1 n  Ui i Mu  0.293 1 Mv   V i n 1.5 Vi  1 0.5 i 0 0.5 Mv  1.7 1 Ui  Ui 1 Kuv  n   Ui  MuVi  Mv Kuv  0.078 i  Ui  Mu S2  1 b  Kuv n  S2  0.069 2 i 1   b  1.131 1 S2  Vi  b0  b1Ui 2 b  Mv  b  Mu 0 1 b  2.031 0   0.092 i ae ae  b 0 1  ae  b 0  1  i Y  X i ( x)  ae  1 2 0 1  0.092 i  2.031    1.131  linfit( X  Y  F1)   f2u( x)  exp( x) 7 F1( x)   1  1 x T   x 1 f2v ( y )  1 y   y ( x) Yi 2 T 1.5 ( x) 1 0.5    U  reverse f2u( X)  V  reverse f2v( Y) 2.5 5 10 F( x)  ( 1 x) c  linfit( U V F)  0.536  c   1.375  1 2( x)  x c  c e 0 x X i  x 2  2.5 1  Yi  2 Xi 2 i y ( x) 2  0.138 2 Yi 2( x) 1.5 1 5 10 x X i  x Задание В табл. 1.2 (см. ниже) приведены экспериментально полученные точки, определяющие зависимость между переменными x и y по одной из пяти функций, приведенных в табл. 1.1. Необходимо с помощью Mathcad реализовать линеаризацию зависимости, подобрать параметры a0 и a1 по методу наименьших квадратов и проверить правильность вычислений с помощью известной зависимости (см. пример 1). Правильно составленный документ будет давать пренебрежимо малую невязку в том случае, когда значения Y вычисляются точно по заданной зависимости (ошибки будут возникать только за счет округлений при вычислении). Поскольку вид зависимости первоначально неизвестен, следует проделать вычисления для всех пяти зависимостей и выбрать ту из них, которая обеспечивает наименьшую из всех вычисленных суммарную 8 невязку  . Эти данные заносятся в протокол выполнения работы и служат основанием для составления отчета с выводами по работе. Контрольные вопросы 1. Что такое интерполяция и аппроксимация? Чем они отличаются? 2. В чем заключается метод наименьших квадратов? 3. Являются ли необходимые условия минимизации (1.5) также и достаточными? 4. В каком случае можно линеаризовать аппроксимирующую кривую? 5. С какой целью и каким образом проводится линеаризация? Считая, что зависимость между переменными x и y имеет вид y   0  1 x   2 x 2 , в задачах 6 и 7 найти оценки параметров по следующим выборкам (Задачи № 7.1 и 7.4 гл.15 [2]). 6. x 0 2 4 6 8 10 y 5 -1 -0,5 1,5 4,5 8,5 7. x -2 -1 0 1 2 y 4,8 0,4 -3,4 0,8 3,2 В задачах 8 и 9 найти оценки параметров  0 и 1 , считая, что зависимость между переменными (Задачи № 7.5 и 7.6 гл.15 [2]). 8. x 2 y 8 9. x 5,67 4,45 y 6,8 8,5 x 4 5,25 3,84 10,5 9 и y имеет вид y  0  6 3,50 12 3,25 3,74 10,2 3,73 6,8 2,18 11,8 1 x 1 -0,55 -0,1 -,35 0,8 1,25 1,7 х -1 у -6,78 -6,56 -6,14 -5,31 -3,68 -0,85 5,81 Таблица 1.2 2,15 2,6 3,05 18,15 42,4 90,03 2 х 0,01 у 34,23 х -2 у 16 3 0,56 5,97 1,11 1,28 -1,6 -1,2 10,24 5,76 1,66 2,21 2,28 3,3 3,85 4,4 4,95 -1,54 -3,54 -5,09 -6,36 -7,44 -8,37 -9,2 -0,8 2,56 -0,4 0,53 0 0 0,4 0,64 0,8 2,56 1,2 5,76 1,6 10,24 4,11 2,97 5,38 2,74 6,65 2,6 7,92 2,59 9,19 2,44 10,46 11,73 2,38 2,34 -0,95 -0,1 0,12 0,19 0,75 0,2 1,6 0,29 2,45 0,31 3,3 4,15 0,325 0,33 4,86 0,74 5,65 1,3 6,43 1,58 4 1,57 х 0,3 у 15,33 4,55 5 х -3,5 у 0,01 -2,65 -1,8 0,03 0,07 6 х 0,15 у -9,69 х 0,35 у 6,86 0,94 -4,2 1,72 2,51 3,29 4,08 -2,37 -1,25 -0,43 0,21 0,82 5,23 1,28 4,78 1,75 4,57 2,21 4,45 2,675 3,14 4,37 4,35 3,605 4,07 4,28 4,25 4,535 4,22 8 х -1 у 4,14 -0,8 4,2 -0,6 4,3 -0,4 4,45 -0,2 4,67 0,0 5 0,4 6,85 0,8 8,95 9 х 2 у 2,67 2,3 4,06 2,6 6,16 2,9 8,13 3,2 3,5 3,8 4,1 4,4 4,7 10,92 14,29 18,29 22,97 28,39 34,6 -4 0,02 -3 0,05 -2 0,11 -1 0,21 0 0,38 1 0,42 2 0,47 3 0,49 4 0,5 1,21 3,39 1,47 2,19 1,74 1,34 2,0 0,88 2,26 0,61 2,52 0,54 2,78 0,33 3,05 0,28 3,31 0,19 0,82 у 16,99 8,83 1,28 6,61 1,75 5,56 2,21 4,96 2,68 4,62 3,14 4,29 3,61 4,09 4,07 3,93 4,535 3,8 -1,43 -1,16 -0,89 -0,62 -0,35 -0,08 0,19 0,46 у 26,96 14,46 7,17 2,92 0,45 -0,98 -1,35 -2,31 -2,6 0,73 -2,77 7 10 х -5 у 0,01 11 х 0,95 у 8,16 12 х 0,35 2,84 3,41 0,2 5,49 0,6 7,32 13 х -1,7 14 х -5 у 0 15 х -2 у 6,8 7,22 1,93 -3,5 0,01 -2 0,06 -0,5 0,28 1 0,87 2,5 2,05 4 2,92 5,5 3,23 7 3,31 -1,4 3,33 -0,8 1,09 -0,2 0,02 0,4 0,27 1,0 1,7 1,6 4,35 2,2 8,23 2,8 3,4 13,33 19,65 10 8,5 3,33 16 х 0,4 0,86 1,32 у -20,5 -11,2 -8,3 17 х 0,01 0,51 у -1,14 2,39 18 х -5 -3,91 -0,01 у 0 19 х -2,1 у 0,28 1,01 3,01 1,78 2,24 -6,93 -6,5 Табл. 1.2 (продолжение) 2,7 3,16 3,62 4,08 4,54 -5,59 -5,3 -4,93 -4,83 -4,54 1,52 3,37 2,51 3,83 3,0 3,99 -2,82 -1,73 -0,64 0,45 1,54 -0,01 -0,03 -0,07 -0,18 -0,2 3,05 4,13 1,05 1,26 21 х 0 0,4 0,3 7,5 у 22 х -4 -3,01 у -0,02 -0,05 0,8 1,2 11,37 14,5 23 х 0,4 1,22 0,12 0,53 у 15,22 3,31 0,81 0,53 1,57 0,05 4,5 4,35 0,38 3,41 0,69 8,21 2,09 2,61 3,12 3,64 4,16 4,68 -0,81 -1,74 -2,17 -2,48 -2,88 -3,23 1,6 2,0 17,24 19,9 2,4 2,8 3,2 3,6 21,98 24,11 26,12 28,04 -2,02 -1,03 -0,04 0,95 1,94 2,93 3,92 4,91 -0,12 -0,26 -0,49 -0,72 -0,87 -0,94 -0,98 -0,99 1,5 2,04 2,45 2,86 3,27 3,68 4,09 -0,09 -0,21 -0,31 -0,35 -0,39 -0,43 -0,46 24 х -1 -0,72 -0,44 -0,17 0,12 у -4,95 -4,89 -4,74 -4,39 -3,6 25 х 0,01 4,0 4,25 2,63 3,72 4,81 -0,23 -0,24 -0,25 -1,79 -1,48 -1,17 -0,86 -0,55 -0,24 0,07 0,29 0,3 0,32 0,36 0,48 0,78 1,52 20 х 0,01 у 1,8 2,01 3,63 0,95 1,22 1,5 12,08 34,33 85,55 2,51 5,06 3,51 5,76 0,51 у -4,76 2,29 26 х -5 -3,95 у -0,01 -0,03 1,01 3,52 1,51 4,24 -2,9 -0,8 -1,85 -0,8 0,25 1,3 2,35 3,4 4,45 -0,2 -0,49 -0,96 -1,45 -1,76 -1,91 -1,97 27 х 0,5 2,3 4,1 3,2 4,3 у 2,41 28 х 0,11 у 6,27 29 х 0,01 1,4 3,32 0,499 0,89 0,6 -0,1 2,01 4,76 0,39 0,67 -1,93 2,42 4,1 4,64 5,0 4,94 3,01 5,48 5,9 5,0 6,8 5,43 4,01 6,0 7,7 5,64 4,51 6,21 8,6 5,84 1,28 1,67 2,055 2,44 2,83 3,22 3,61 -0,37 -0,52 -0,61 -0,67 -0,69 -0,75 -0,78 0,59 1,17 1,75 2,33 2,91 -3,41 -5,93 -6,67 -7,53 -8,2 3,48 4,06 4,64 5,22 -8,74 -9,15 -9,61 -9,96 у 8,82 30 х -2 -1,62 -1,24 -0,87 -0,49 -0,11 0,27 у 37,63 19,33 10,19 5,55 3,21 2,02 1,64 11 0,65 1,11 1,02 0,96 1,4 0,88 2. Equation Section (Next)Оценка функции и плотности распределения случайной величины Различают дискретные и непрерывные случайные величины. Например, число попаданий в цель при n выстрелах есть дискретная случайная величина  . Ее возможные значения 0,1, 2, , n . Ошибка при измерении тока или напряжения – пример непрерывной случайной величины. Совокупность всех возможных значений xi дискретной слу- pi  p   xi  называют рядом распределения. Как дискретная, так и непрерывная случайные величины могут быть заданы функцией распределения (2.1) F  x   p   x  . чайной величины и соответствующих вероятностей Функция F  x  монотонно возрастает на всей числовой оси, причем F     0 , F     1 . Плотностью распределения случайной величины  называют функцию (2.2) f  x  F  x . Если плотность распределения определяется формулой   x   2  1 , f  x  exp   (2.3) 2   2  2 2   то говорят, что случайная величина  распределена по нормальному закону N   ,   , где  и  – некоторые параметры. Можно доказать, что случайная величина n  n2    i2 , (2.4) i 1 где i – независимые случайные величины, распределенные по нор- мальному закону N  0,1 , распределена по закону Пирсона (или по закону  2 ) с n степенями свободы. Ее плотность распределения задается формулой 1   n  n   n2  x (2.5) f  x    2 2     x 2 e 2 ,   u    e  x x u 1dx ,  2  0  где   u  – гамма-функция; a   u  1  u u  – основное ее свойство. 12 Случайная величина tn   n  n2 , где  – случайная величина, рас- пределенная по нормальному закону N  0,1 , а  n2 – случайная величина, распределенная по закону Пирсона, будет распределена по закону Стьюдента с n степенями свободы. Ее плотность распределения задается формулой  n 1 n 1    2   t2  2  . (2.6) f t   1   n n     n 2 Можно отметить, что распределения  n2 и Стьюдента стремятся к нормальному распределению при n   . Если закон распределения случайной величины  неизвестен, то его можно приближенно определить (оценить) опытным путем. С этой целью над величиной  проводят ряд независимых испытаний (измерений). Вся мыслимая (бесконечная) совокупность этих измерений называется генеральной совокупностью, а каждый конкретный ряд измерений  x1 , x2 ,..., xn  называют простой случайной выборкой. Если повторить измерения той же случайной величины  , то в силу наличия случайных ошибок мы получим несколько другие значения  x1, x2 ,..., xn  . Поэтому сами измерения нужно рассматривать как случайные величины, распределенные по одному и тому же закону, совпадающему с законом распределения случайной величины  . Функцию распределения F  x  случайной величины  называют функцией распределения генеральной совокупности. Если простую выборку упорядочить по возрастанию, то ее называют вариационным рядом. Если для каждого неповторяющегося элемента вариационного ряда xi указать относительную частоту его mi , то такой вариационный ряд называют статистиn ческим рядом распределения случайной величины  . Здесь mi – число повторений xi (абсолютная частота появления элемента), а n – общее число измерений, или объем выборки. Имея вариационный ряд, легко построить эмпирическую (статистическую) функцию распределения появления pi  13 mx . (2.7) n Здесь m x – число членов вариационного ряда, лежащих левее от x , Fn  x   а m x n – частота попадания выборочного значения левее x ; F n  x  – ступенчатая неубывающая функция, заданная на всей числовой оси, со скачками в точках xi . Величина скачка равна частоте pi . Поскольку n сумма абсолютных частот  mi  n , то сумма относительных частот i 1 p   pi  1 . Можно доказать, что Fn  x   F  x  при n   . Отсюда ясно, n i 1 что эмпирическую функцию распределения можно использовать как оценку теоретической функции распределения F  x  . Последовательность случайных величин  n называют сходящейся к  по вероятности (пишут    ), если для всякого   0 lim p  n       0 . p n n  При большом объеме выборки вычисления становятся громоздкими и, с целью упрощения вычислений, элементы выборки объединяют в группы (разряды). Для этого интервал, содержащий все множество элементов выборки, разбивают на k непересекающихся интервалов. При этом правый конец каждого интервала исключают из соответствующего множества, а левый включают. Ради простоты интервалы обычно выбирают одинаковой длины h  R k , где R  xmax  xmin – размах выборки. Если mi – число элементов выборки в i -м разряде, то mi n – его частота. Совокупность разрядов или их середин и соответствующих частот называют группированным статистическим рядом. Геометрически его изображают в виде группированной статистической функции распределения или в виде гистограммы. Гистограмма строится следующим образом. По оси абсцисс откладывают интервалы и над каждым интервалом, как на основании, строят прямоугольник, высота которого m равна значению плотности распределения для данного интервала i h . n Таким образом, площадь каждого прямоугольника гистограммы равна его частоте, а общая площадь равна единице. С увеличением объема выборки n и уменьшением длины интервала гистограмма будет стремиться к кривой плотности распределения f  x  , поэтому гистограмму используют в качестве оценки для плотности распределения. Построенные ступенчатые функции (статистическая функция 14 распределения и гистограмма) являются непараметрическими оценками функции и плотности распределения. Чтобы получить приближенные аналитические выражения для этих функций, их сглаживают. Для этого предполагают, что вид функции известен, но не известны параметры, входящие в функции. Таким образом, задача сводится к нахождению параметров. Это уже параметрический способ оценки закона распределения. Существуют различные методы оценки неизвестных параметров. В данной работе мы воспользуемся методом наименьших квадратов (см. работу 1). Следующие примеры демонстрирют методы оценки функции и плотности распределений. В первой части примеров показана обработки выборки небольшого объема. Элементы выборки задаются вручную. Затем получается вариационный ряд для введенной выборки. Далее рассматривается анализ выборки большой объем. Для получения значений непрерывной случайной величины с заданной функцией распределения F  x  применяется метод обратных функций. Идею метода обратных функций можно пояснить с помощью рис. 2.1. Пусть дана непрерывная случайная величина  , имеющая функцию F  x 1 r x xr распределения F  x . Так как 0  F  x   1 , то величину r  F  x  можно рассматривать как случайную величину, равномерно распределенную на отрезке 0,1 (см. рис. 2.1). Зафиксируем некоторое значение r , тогда ему будет соответствовать значение xr  F 1  r  , где F 1  r  – функция, обратная F  x  . Величина Рис. 2.1 xr будет распределена по закону, определяемому функцией F  x  . Таким образом, для получения значений случайной величины, распределенной по заданному закону, необходимо найти функцию, обратную F  x  , и получаемые равномерно распределенные случайные числа пересчитывать с помощью обратной функции F 1  r  . Например, для показательного закона распределения с F  x   1  e x пересчет выполняется с помощью обратной функции по формуле x  (или x  1  ln  r  ). 15 1  ln 1  r  В лабораторной работе закон распределения задается функцией арктангенса с параметрами a0 и a1 : F  x  1 1 arctg  a0  a1 x   , (2.8)  2 Значения параметров задаются преподавателем. Следующие разделы примеров показывают, как по заданной выборке вычисляются эмпирические характеристики исследуемой случайной величины. Результатом вычислений примеров являются таблицы значений эмпирической функции распределения Fg и середин разрядов xs . По этим данным необходимо решить задачу методом наименьших квадратов для двухпараметрической функции (2.8). В случае, когда задачи получения и обработки выборки и аппроксимации функции распределения решены правильно, полученные при аппроксимации значения оценок параметров a0 и a1 будут близки к значениям параметров, заданных при получении выборки, что легко проверить. Пример 2 (Mathcad) T x  ( 10 10 10 30 20 12 10 12 20 10 ) Y  sort( x) Y  10 10 10 10 10 12 12 20 20 30 T X  ( 10 12 20 30 ) m  i  ifxj n  length( x) T k  length( X)  X  1 0 i i  0 k  1 T m  (5 2 2 1) p  j  0 n  1 m n j F( x)   pi x  Xi T X  ( 10 12 20 30 ) i 16 T p  ( 0.5 0.2 0.2 0.1 ) 1 F( y ) 0.5 10 20 30 y n  500 f ( x)  1  j  0 n  1 0 d f ( x) dx Y  sort( X) df ( x)  1  0 m n p h 0 h  i 1 F  Y n1 m  hist( xr  Y) p  cot  x  a g ( x)   2 R  Y xr 0 1 a R k 5 Fg  p 0 0 j R  5.484 h  0.548 xr xs  xr  xr  10 i T  j X  g Y 4  xr  h m  0 1 Y  runif  n  0    1   k  10 i  0 k  1 xr  Y 0 1  atan a  a  x  2   10 a  0 a  10 k 5 5 k 9 i 59 391 j  1 k  1 i 1 16 4 Fg  Fg j j1  xr i 2 2 p 4 j 1 Fi Fgi 1 df ( y ) 0.5 f(y) 2 0 2 2 xri  y 0 xri  y 17 2 T xs  -2.66 -2.11 -1.56 -1.01 -0.46 0.09 0.63 1.18 T Fg  0.01 0.02 0.03 0.05 0.17 0.95 0.98 0.99 0.99 g2( x)  tan( x  0.5)    1  2  T F1( x)  ( 1 x)  i 1.73 2.28 1 yg  g2 Fg i c  linfit( xs  yg  F1) T c  ( 1.753 9.944 ) Задание 1. Изучив теоретическое введение и примеры 2.1-2.4, разработать собственный документ , решающий следующие задачи :  получение выборки случайных чисел заданного объема с заданным законом распределения (2.8) с помощью метода обратных функций для заданный преподавателем значений параметров закона распределения a0 и a1 ;  получение вариационного ряда для негруппированной выборки;  вычисление размаха выборки;  группировка выборки;  построение статистической функции распределения Fn  x  для 2. 3. 4. 5. группированной выборки с разным количеством разрядов;  оценка плотности распределения для группированной выборки. Результатом работы документа должны быть массивы, содержащие значения группированной статистической функции распределения и значения середин разрядов. Эти данные являются исходными для оценки параметров функции распределения по методу наименьших квадратов (подобно тому, как это делалось в работе 1). Аппроксимировать группированную статистическую функцию распределения известной функцией (2.8), используя ранее разработанный документ из работы 1 для решения задачи аппроксимации методом наименьших квадратов с линеаризацией. Формулы для линеаризации зависимости (2.8) вывести самостоятельно. Вычисления повторить для разных объемов исходной выборки N=100, 500 и 1000. Исследовать влияние количества разрядов группировки на получаемые значения параметров функции распределения для объема выборки 1000. Сравнить полученные по методу наименьших квадратов значения оценок параметров a0 и a1 с заданными преподавателем и сделать выводы о правильности проделанной работы. 18 Контрольные вопросы 1. Дайте определение генеральной совокупности, выборки, размаха выборки и объема выборки. 2. Что мы называем вариационным и статистическим рядом, функцией распределения и статистической функцией распределения? 3. Какими свойствами обладает статистическая функция распределения? 4. Дайте определение группированного статистического ряда. Как строится гистограмма? 5. Дать определение сходимости по вероятности. 6. Что такое гамма-функция? 7. Записать формулы плотности распределения для нормального,  2 и распределения Стьюдента. Для каждой из приведённых ниже выборок определить размах, а также построить вариационный и статистический ряды (Задачи № 1.1-1.3 гл.15 [2]). 8. 3, 8, 1, 3, 6, 5, 2, 2, 7. 9. 11, 15, 12, 0, 16, 19, 6, 11, 12, 13, 16, 8, 9, 14, 5, 11, 3. 10. 17, 18, 16, 16, 17, 18, 19, 17, 15, 17, 19, 18, 16, 16, 18, 18. 11. Решить задачи №1.4–1.15, гл. 15[2]. 3. Equation Section (Next)Точечная оценка числовых характеристик. Методы оценок параметров Наиболее часто применяемыми числовыми характеристиками случайной величины  являются начальные и центральные моменты различного порядка. Для дискретной случайной величины моменты порядка k определяются следующими формулами:  k   xik pi , k    xi  m  pi , n n i 1 i 1 k (3.1) для непрерывной случайной величины  : k     x k f  x  dx ,  k     x  m  f  x  dx . k  Чаще всего используется первый начальный момент 1  m , называемый математическим ожиданием случайной величины  , и второй центральный момент  2  D , называемый дисперсией. Матожидание – 19 это среднее значение случайной величины, его называют еще центром распределения, дисперсия характеризует разброс случайной величины относительно центра распределения. Часто вместо дисперсии используют среднее квадратичное отклонение    D . Если закон распределения случайной величины неизвестен, то мы не сможем вычислить числовые характеристики. В этом случае их заменяют оценками, полученными как функции выборки x   x1 , x2 ,..., xn  . Всякую функцию tn  x  от выборки называютэконометрикой. Подходящуюэконометрику используют в качестве оценки числовой характеристики. Чаще всего оценками начальных и центральных моментов служат соответствующие выборочные начальные и центральные моменты 1 n 1 n k (3.2) ak   xik , mk    xi  Mx  . n i 1 n i 1 Таким образом, оценкой математического ожидания служит выбо1 n рочное среднее Mx   xi , но в качестве оценки можно взять и, n i 1 например, величину 0,5   xmax  xmin  и другие величины. Чтобы иметь практическую ценность, оценка некоторого параметра  должна удовлетворять следующим требованиям: 1. Оценка tn  x  должна приближаться к оцениваемому параметру  по мере увеличения объема выборки. Если оценка стремится по вероятности к оцениваемому параметру, то она называется состоятельной. 2. Оценка не должна содержать систематической ошибки. Это означает, что ее математическое ожидание должно совпадать с оцениваемым параметром  , т.е. M tn  x     . Такая оценка называется несмещенной. 3. Из всех состоятельных и несмещенных оценок предпочтительнее та, которая имеет наименьшую дисперсию. Такая оценка называется эффективной. Например, среднее выборочное Mx является состоятельной оценкой математического ожидания, а 0,5   xmax  xmin  – несостоятельной. Второй выборочный центральный момент 1 n 2 (3.3) m2  S 2    xi  Mx  n i 1 является состоятельной оценкой дисперсии, но эта оценка смещенная. 20 Несмещенными являются оценки n n 2 1 1 2 S2  xi  m  .  xi  Mx  и S2      n  1 i 1  n  1 i 1 (3.4) Если случайная величина распределена по нормальному закону, то оценка S*2 является и эффективной. Пусть закон распределения известен, но зависит от одного или нескольких неизвестных параметров. Например, f  x,  – известная плотность распределения, а    1, 2,.., s  – неизвестный параметр. Требуется по выборке x   x1 , x2 ,.., xn  оценить параметр  . Существует несколько методов оценки параметра  . Мы рассмотрим два из них – метод моментов и метод функции правдоподобия. Метод моментов заключается в том, что теоретический момент k го порядка  k   k   приравнивают к соответствующему выборочному моменту  k . Из полученного уравнения  k     k находят неизвестный параметр  . Например, случайная величина  (время безотказной работы аппаратуры) распределена по экспоненциальному закону 1 t f t   e T , t  0 , (3.5) T где T – неизвестный параметр. Оценим его по методу моментов. Для этого найдем первый начальный момент   t  1 1   tf  t  dt   te  dt   . 0  Так как первый выборочный момент равен Mx , то из равенства 1  a1 получим T  Mx . Таким образом, оценкой неизвестного параметра T , найденной по методу моментов, является среднее выборочное Mx . Пусть L  u,  – плотность распределения выборочного вектора x   x1 , x2 ,.., xn  ,    1, 2,.., s  – неизвестный параметр. L  u,  – функция двух аргументов, неслучайного  и случайного , называется функцией правдоподобия. Так как L  u,  x   x1 , x2 ,.., xn  – плотность распределения, то оценка параметра  , доставляющая максимум функции правдоподобия, является наиболее вероятной. Отсюда  L  x,     ln L  x,    0 (3.6)  0 или    21 есть необходимые условия существования максимума. Оценка, полученная из условий (3.6), называется оценкой наибольшего правдоподобия. Пусть x   x1 , x2 ,.., xn  – случайная выборка из генеральной совокупности, распределенной по нормальному закону f  x,    где     ,    1  x   2 2 2 , (3.7) 2 – неизвестный параметр. Запишем функцию правдопо2 e добия. Так как xi – независимые случайные величины, распределенные по тому же закону, а плотность распределения вектора равна произведению плотностей составляющих вектора, то функция правдоподобия будет следующей: n 1  1 n 2 L  x,    f  xi ,   exp   2   xi     . (3.8) n  2 i 1  i 1 (2 2 ) 2 Пусть  – дискретная случайная величина, закон распределения которой зависит от неизвестного параметра p   xi   pi   . Будем рассматривать выборку x   x1 , x2 ,.., xn  как реализацию того, что случайная величина приняла последовательно значения x1 , x2 ,.., xn . Вероятность этого равна произведению вероятностей. Следовательно, функция правдоподобия будет n L  x,    P  xi ,  . (3.9) i 1 Например, для дискретной случайной величины, распределенной по закону Пуассона pk  p   k   k (3.10) e  , k  0,1, 2,3,... k! функция правдоподобия согласно (3.9) может быть записана в виде  n 1  n   n L  x,     (3.11)   xi ! e .  i 1  Здесь xi – целые неотрицательные числа. Однако при больших n вычисления по формуле (3.11) могут приводить к переполнениям разрядной сетки. Получение оценок параметров иллюстрируется примером 3. В данном примере создается выборка случайных чисел с xi i 1 22 нормальным законом распределения при заданных параметрах  и  . По полученной выборке вычисляются первый начальный момент и второй центральный момент, которые могут служить состоятельными несмещенными оценками математического ожидания и дисперсии случайной величины. Следующий раздел примеров показывает, как оценки этих параметров могут быть получены по методу максимального правдоподобия. Для этого вводятся функции правдоподобия и определяются их экстремумы. В примере приводятся графики функций правдоподобия. В примере также иллюстрируется использования метода наибольшего правдоподобия к оценке параметров дискретной случайной величины, распределенной по закону Пуассона. Находятся оценки параметра  по методу моментов и по методу максимального правдоподобия. Пример 3 (Mathcad) n  50 i  0 n  1 1 m1  1.081 m1   x i n x  rnorm n       1   2  i m2  1 ( n  1)   xi  m1 2 m2  3.269 s  m2 s  1.808 i f  x     2 1  0 Given 2   1  1 1  0 d d 1 m  Find 1 1 i  0 20   x   2   2   2    exp  1 ln L 1  1  L      fxi    i d 0 d 1 ln L 1  1  0 T m  ( 1.081 1.79 ) L m  1  0.1 i m  1  0.1 j 0 1 j  0 20 W  i j L m m  23  0  1  n  20 1 m1   n  xi x  rpois  n     5 i  0 n  1 m1  4 i p  x    1  1  x x e  p x     10   i  L      n i  d ln L 1   1   d1  m  root  m 4 1 L( 2) L( m) 0.5 0 2 4 2 Задание Изучив теоретическое введение и примеры, разработать собственный документ, решающий следующие задачи: 1. получение выборки случайных чисел заданного объема с нормальным законом распределения N   ,   (непрерывная случайная величина); 2. получение оценок параметров  и  по методу моментов; 24 3. получение оценки параметров  и  по методу максимального правдоподобия; 4. получение выборки случайных чисел заданного объема с распределением по закону Пуассона с заданным параметром  (дискретная случайная величина); 5. получение оценок параметра  закона Пуассона по методу максимального правдоподобия и по методу моментов. Расчитать по двум документам для объемов выборок 10, 50 и 100. Сравнить полученные результаты с теоретическими и сделать выводы о правильности проделанной работы. Записать функцию правдоподобия для закона Коши:  1 1 . f  x   2   1   x     Можно ли оценить параметр  по методу наибольшего правдоподобия? Контрольные вопросы Назовите выборочные числовые характеристики. Что такоеэконометрики и для чего они служат? Какими свойствами должны обладать оценки? Приведите примеры состоятельной, несмещенной и эффективной оценок. 5. Что такое функция правдоподобия? В чем сущность метода наибольшего правдоподобия ? 6. Пусть X1 , X 2 , , X n – выборка из генеральной совокупности с из1. 2. 3. 4. вестным средним m и неизвестной дисперсией  2 . Показать, что несмещённой оценкой для будетэконометрика 2 1 2 S02    X i  m  (Задача № 2.13 гл.15 [2]). n 7. Решить задачи № 2.14, 2.21, 2.32-2.35 гл. 15 [2]. 25 4. Equation Section (Next)Интервальные оценки числовых характеристик В предыдущей работе были рассмотрены методы, дающие оценку параметра в виде некоторого числа или точки на числовой оси. Такие оценки называют точечными. Точечная оценка без указания степени точности и надежности не имеет практического значения, так как представляет собой только возможное значение случайной величины, т.е. сама точечная оценка является величиной случайной. Можно доказать, что в выборке объема n из генеральной совокупности, распределенной по нормальному закону N  a,   среднее выборочное Mx распределено   также по нормальному закону N a,  n . Величина nS2 /  2 распре- делена по закону  2 с n степенями свободы, а tn   Mx  a  n  1 S – по закону Стьюдента с n  1 степенью свободы. Чтобы получить представление о точности и надежности оценки  для параметра  , возьмем достаточно большую вероятность  и   найдем такое   0 , для которого P            или P         P            . (4.1) Равенство (4.1) означает, что точное, но неизвестное значение параметра с вероятностью накрывается интервалом     l     ,   . Этот интервал называют доверительным, а вероятность  – доверительной вероятностью или надежностью оценки. Очевидно, чем меньше  для заданного  , тем точнее оценка. В общем случае интервал, образованныйэконометриками U  x  и V  x  , называется доверительным для оцениваемого параметра  , если выполняется равенство P U  x     V  x     . (4.2) Здесь x – выборочный вектор, надежность  выбирается близкой к единице. Концы интервала называются доверительными границами. Порядок нахождения доверительного интервала следующий. Подыскивают подходящуюэконометрику tn  x,  , зависящую от параметра  , но распределение которой от этого параметра не зависит. Задают надежность  , и по закону распределенияэконометрики tn  x,  находят доверительные границы из условия (4.2). Затем полученное 26 неравенство решают относительно  . Рассмотрим нахождение доверительного интервала на примерах. Пример 1. Найдем доверительный интервал для математического ожидания m  a по заданной выборке x   x1 , x2 ,..., xn  из генеральной совокупности, распределенной по нормальному закону N  a,   , считая, что Mx и S – точечные оценки математического ожидания и дисперсии. Рассмотримэконометрику tn  x, a    Mx  a  n  1 S . Как отмеча2 лось выше, она распределена по закону Стьюдента с n  1 степенью свободы. Тогда     f  x  dx  2  f  x  dx   . (4.3) 0 В формуле (4.3) плотность f  x  определяется выражением (2.6), в которое вместо n следует поставить n  1 . Неизвестное  определяется из (4.3), а доверительный интервал – из неравенства  Mx  a  n 1 S   . S S   , Mx  Таким образом, l   Mx  (4.4) . n 1 n 1   Пример 2. В условии примера 1 найдем доверительный интервал для дисперсии D   2 .   Для этого выберемэконометрику tn x,  2  nS 2 2 . Согласно сказан- ному выше она распределена по закону  2 с n  1 степенью свободы. Определение доверительного интервала аналогично, но осложняется несимметричностью закона распределения  2 . Действительно, уравнение t2  f  x  dx   (4.5) t1 имеет неоднозначное решение относительно t1 и t2 . Здесь плотность f  x  определяется формулой (2.5), только n следует заменить на n  1 . Ради однозначности наложим дополнительные условия, а именно будем считать, что 27 t1   t2  f  x  dx   f  x  dx . t1  Поскольку  t2  t1 t2 (4.6) f  x  dx   f  x  dx   f  x  dx  1 , то, учитывая равен- ства (4.5) и (4.6), получим t1   t2 2  f  x  dx  1   , 2  f  x  dx  1   . Из (4.7) найдем t1 и t2 , а решая неравенство t1  (4.7) nS 2 2  t2 , найдем  nS 2 nS 2  доверительный интервал l   , . t1   t2 Применение методов получения доверительных интервалов для оценок параметров иллюстрируют примеры 4.1-4.4. В начале примера создается выборка нормально распределенных чисел с заданными параметрами (математическим ожиданием и дисперсией). Далее в документе вычисляются оценки для этих параметров по методу моментов. Для дальнейших вычислений вводятся плотности распределений Стьюдента,  2 и нормального. Далее находятся доверительные интервалы для математического ожидания при известной и неизвестной дисперсии. В следующем разделе примеров решается задача определения доверительного интервала для дисперсии при известном и неизвестном математических ожиданиях. Пример 4 (Matcad) X  3 X  2 n  50 i  0 n  1 1 Mx  2.919 Mx   x i n x  rnorm n  X X  i Dx  x  Mx n  i 1  Dx  3.203 2   Dx   1.79 i 2  fn  x   1 2   e 2  n  1 x 2 2    2 2   t     ft( t  n )   1 n n         n 2 28  n 1 2 fx( x n )  n 1  x 2 e 2 2    n x n 2   0.95 2 S  X  2 1  S n      root 2  fn  y  1 d y    z    z z  0   0 T dz   1 m  ( Mx  dz Mx  dz ) Mx  2.919 S  Dx m  ( 2.762 3.075 ) z  0 T      root 2  ft( y  n  1) d y    z    z  dz   S z  n   2.008  0 T m  ( Mx  dz Mx  dz ) n Mx  2.919   1     0.05 z  n   0.554 T m  ( 2.41 3.427 )   z   1  root  fx( y  n ) d y   z  0 2    20  n     2  root  fx( y  n ) d y   z  z 2    T dz  n S s      2 1  Dx  3.203 s  ( 2.244 4.945 ) dz dz T 29 1  32.394 2  71.394 z  n z  n     1  root  fx( y  n  1) d y   z  0 2  z 1  31.584     20 n   2  root  fx( y  n  1) d y   z  z 2    2  70.201 T dz  ( n  1)  S s      2 1  Dx  3.203 s  ( 2.236 4.97 ) dz dz T Задание 1. В условиях примера 1 записать формулы доверительного интервала математического ожидания m  a , считая дисперсию  2 известной. 2. В условиях примера 1 записать формулы для доверительного интервала дисперсии D   2 , считая математическое ожидание известной величиной. 3. Используя выборку из примера 2 (первая часть) и полагая, что доверительная вероятность   0,8;0,9;0,95, вычислить доверительные интервалы: 1) для математического ожидания, считая дисперсию: а) известной величиной  2  S 2 , б) неизвестной величиной (использовать оценку); 2) для дисперсии, считая математическое ожидание а) известной величиной m  Mx , в) неизвестной величиной. Результаты сравнить. Указание к заданию 1. Учесть, чтоэконометрика tn  x, a   Mx  a    распределена по нормальному закону N  0, . n  Указание к заданию 2. Рассмотретьэконометрику tn  x,  2   nS2 /  2 . Замечание к заданию 3. Считать, что генеральная совокупность, из которой взята выборка, распределена по нормальному закону. При этом в случае больших n распределения  2 и Стьюдента сходятся к нормальному закону, поэтому при n  30 можно считать, чтоэконометрики t n  Mx  a n 1 , S t n  S  2n  2n  1 , 30 t n S  2n  2n  3 рас- пределены по нормальному закону N  0,1 . 4. Провести расчеты доверительных интервалов для  и  , заданных преподавателем (смотри примеры 4.1-4.4), при объеме выборок 10, 50 и 100. Контрольные вопросы 1. Что называется доверительным интервалом и доверительной вероятностью? 2. Дайте общую схему построения доверительного интервала. 3. Как изменяется доверительный интервал с увеличением надежности? С увеличением объема выборки? 4. Как изменяется доверительный интервал в зависимости от того, известны ли другие параметры точно или нет? Выборочные оценки в задачах 5-8 определялись по результатам n наблюдений. Используя эти данные, найти 90%-ные и 99%-ные доверительные интервалы для математического ожиданияследующих характеристик (Задачи № 3.1–3.4 гл.15 [2]): 5. Ёмкость конденсатора, если x  20 мкФ, n  16 , с.к.о. известно и равно 4 мкФ. 6. Время безотказной работы электронной лампы, если x  500 , n  100 , с.к.о. известно и равно 10 ч. 7. Диаметр вала, если x  30 мм, n  9 , s2  9 мм2. 8. Содержание углерода в единице продукта, если x  18 г, n  25 , s  4 г. 31 5. Equation Section (Next)Критерии согласия Допустим, что построенную по выборке статистическую функцию распределения Fn  x  мы сгладили с помощью некоторой гипотетической функции распределения F  x  . Возникает вопрос: а верна ли гипотеза о том, что функция распределения именно F  x  , а не какая-либо другая? Точнее, не противоречит ли гипотеза о законе распределения F  x  результатам эксперимента? Чтобы ответить на этот вопрос, пользуются критериями согласия. Под критерием согласия понимают некоторую величину   Fn , F  , которая отражает количественную меру расхождения гипотетического F  x  и эмпирического Fn  x  распределений. Эту величину можно выбрать многими способами, в соответствии с которыми получаются и различные критерии проверки интересующей нас гипотезы. Например, можно положить   Fn , F   Dn  sup Fn  x   F  x  (5.1) или   Fn , F    2     F  x   F  x  n 2 dF  x  .  В первом случае получаем критерий Колмогорова, во втором – критерий Мизеса. Схема применения критерия согласия следующая. Возьмём   0 настолько малым, чтобы осуществление события с вероятностью  можно было считать практически невозможным в единичном опыте. Зная закон распределения случайной величины     Fn , F  , найдем ее возможное значение 0 из уравнения P    0    . По данной выборке вычислим значение критерия согласия 1    Fn , F  . Если окажется, что 1  0 , то это значит, что произошло практически невероятное событие. Следовательно, эксперимент опровергает нашу гипотезу, и она отбрасывается. При этом вероятность того, что мы отбросили верную гипотезу, равна  . Если 1   0 , то гипотеза не противоречит эксперименту и должна быть принята. Число  называется уровнем значимости критерия. Колмогоров нашел предельную функцию распределения величины   nDn . Эту функцию обычно обозначают K  x  : 32 K  x   lim P n      1 nDn  x   k e2 k 2 2 x , x  0. (5.2) k  Формулой (5.2) можно пользоваться для больших n . Чтобы воспользоваться критерием согласия Колмогорова, нужно построить графики гипотетической и выборочной функций распределения, по графикам найтиэконометрику Dn и вычислить величину 1  nDn . Найти вероятность события P   nDn  1 по формуле  nDn  1  1  K  1   2  1 e2 k 1 . k 2 2 (5.3) k 1 Если эта вероятность меньше  , то гипотеза отвергается, если больше, то признается непротиворечащей эксперименту. Предположим теперь, что, например, из физических соображений мы можем высказать гипотезу только о виде закона распределения, а параметры, входящие в него, неизвестны. Тогда критерий согласия Колмогорова не применим. В таких случаях часто используют критерий согласия Пирсона. Всю числовую ось разобьем на r непересекающихся разрядов точками   x0  x1  x2  ...  xr   . Примем гипотезу о функции распределения. Неизвестные параметры, входящие в нее, заменим их оценками. Таким образом, гипотетическая функция распределения F  x  будет известна, и можно будет найти вероятности pi  F  xi   F  xi 1  попадания случайной величины в i -й разряд. Возьмемэконометрику r  mi  npi  i 1 npi tn   2   2 . (5.4) Здесь n – объем выборки, r – число разрядов, mi – число значений в i -м разряде. За меру расхождения между гипотетической F  x  и эмпирической Fn  x  функциями распределения примемэконометрику tn    Fn , F  , определенную формулой (5.4). Фишером доказано, что предельным законом распределенияэконометрики tn является распределение  2 с r  m  1 степенями свободы, если параметры оценены по методу максимального правдоподобия. Здесь m – число параметров, входящих в гипотетическую функцию распределения. Доказано также, что при объеме выборки n  30 с достаточной точностью можно пользоваться предельным законом распределения, если npi  5 . 33 Схема применения критерия Пирсона следующая. По формуле (5.4) вычисляют значениеэконометрики tn  0 . Вычисляют вероятность p    0     f  x  dx . (5.5) 0 Здесь f  x  определяется формулой (2.5), а n следует заменить на r  m  1 . Если эта вероятность меньше уровня значимости  , то гипотезу следует отбросить. Применение критериев согласия иллюстрируют примеры 5.1-5.4. В начале генерируется (по методу обратных функций) выборка значений случайной величины, распределенной по показательному закону с заданным параметром a . Далее выборка группируется и находится группированная функция распределения, что необходимо для критерия Колмогорова. В соответствии со схемой применения критерия Колмогорова, задается теоретическая функция распределения F  x  , и по этим значениям вычисляетсяэконометрика Dn . Вычисляется вероятность по формуле (5.3) и сравнивается с уровнем значимости  . В следующем разделе примеров применяется критерий Пирсона, Отметим, что, поскольку критерий Пирсона работает с плотностью распределения, для него может понадобиться другая группировка той же исходной выборки. Теоретическая плотность распределения может быть получена дифференцированием ранее введенной функции распределения. Теперь можно вычислить значениеэконометрики и оценить вероятность (5.5), сравнивая ее с уровнем значимости  . Пример 5 (Mathcad) n  100 2 j  0 n  1 f ( x)  1  exp( a x) g( x)   Y  runif  n  0 1    j R  Y n1 k  10 i  0 k  1 xr  Y 0 0 xr i 1 a df ( x)  d f ( x) dx X  g Y j Y  sort( X) a  2   10 ln ( 1  x) Y h  R h  0.219 k  xr  h i R  2.186 0 4 xr  xr  10 k 34 k xr xs  i i 1  xr 2 i m  hist( xr  Y) p  m T m  36 23 15 11 Fg  p 0 n j  1 k  1 5 2 Fg  Fg 0 j 3 j1 p 2 j  i i i  Ft  Fg Fgi i 0.5 1  k Dn 1  0.504 2 xsi  y j 2 2 ( 1)  exp  2 j  1      PL  2  j  1 n  n 1  x 2 e 2 2    n PL  0.961  j if  PL    "True"  "False"   "True" x i Dn  max  Dn  0.159 1 fx( x n )  2   0.05 Ft  f xs 1 f(y) 1 r  k  1 n 2  2  i pr  df xs  h i 2  n   pi  pri2 i y  r i   w  root  fx( x r) d x   1     y   y  2  4.165 pr 0 if  2  w "True"  "False"   "True" w  16.893  Задание 1. Получить выборку значений случайной величины, распределенной по показательному закону с заданным параметром a . 2. Используя критерий согласия Колмогорова, проверить гипотезу о том, что генеральная совокупность, выборка которой получена ра35 нее, распределена по закону F  x   1  e ax . Уровень значимости   0, 05 . 3. Используя критерий согласия Пирсона, проверить гипотезу о заданном распределении той же генеральной совокупности. Критерий значимости   0, 05 . 4. Провести расчеты по документу для объемов выборок 20, 50 и 100. Контрольные вопросы 1. Что такое критерий согласия? 2. Какие критерии согласия Вы знаете? 3. Опишите схему применения критериев согласия Колмогорова и Пирсона. 4. Запишите плотность распределения закона  2 с n  m  1 степенью свободы. 5. Могут ли опытные данные одновременно согласовываться с несколькими гипотезами о законе распределения? 6. Решить задачи № 6.8, 6.12–6.16 гл. 15[2]. 6. Equation Section (Next)Зависимость случайных величин, регрессия. Оценка регрессии методом наименьших квадратов Рассмотрим двумерную случайную величину  ,  , т.е. упорядоченную пару случайных величин. Пусть, например,  – диаметр деревьев некоторого леса, а  – высота деревьев. Тогда m и m – средние диаметр и высота деревьев, а   и   характеризуют разброс диаметра и высоты относительно средних значений. Интуитивно ясно, что диаметр и высота деревьев связаны некоторой зависимостью, однако эта зависимость не является функциональной, так как для деревьев, имеющих одинаковый диаметр   x высота  является величиной случайной. Такую зависимость называют вероятностной или стохастической. Однако можно говорить о функциональной зависимости средней высоты деревьев от диаметра M  x   g  x  . Здесь M  x  – условное математическое ожидание, т.е. средняя высота деревьев, имеющих диаметр x . Если f 2  x  – условная плотность распределения  , то M  x   g  x     yf  y x  dy . 2  36 (6.1) Аналогично  M  y   q  y    xf  x y  dx . (6.2) 1  Здесь M  y  – средний диаметр деревьев высотой y . Функции y  g  x  и x  q  y  , определенные формулами (6.1) и (6.2), называются соответственно регрессией величины  на  и регрессией величины  на  . Графики этих линий называются кривыми регрессии. Плотности распределения f1  x  и f 2  y  (компоненты двумерной случайной величины) и условные плотности распределения связаны с плотностью f  x, y  двумерной случайной величины формулой f  x, y   f1 ( x) f 2  y x   f 2 ( y ) f1  x y  . (6.3) Если  и  связаны функциональной зависимостью, то при   x величина  принимает единственное значение   g  x  . При вероятностной зависимости будет неизбежно наблюдаться рассеяние  около центра g  x  . Мерой этого рассеяния естественно считать условную дисперсию  D  x     y  g  x  2 f 2  y x  dy . (6.4)  Величину D  x  можно рассматривать как среднюю квадратичную погрешность оценки величины  по наблюдаемому значению x случайной величины  , если за оценку берется регрессия g  x  . Эта погрешность зависит от x , т.е. от закона распределения  . Чтобы получить представление о точности оценки во всем диапазоне изменения  , величину D  x  усредняют. С учетом (6.3) и (6.4) получим       D  x  f 2  x  dx      y  g  x  2 f 2  y x  f1  x  dxdy     y  g  x   f  x, y  dxdy  M   g  x   2 (6.5) 2 .  Известно, что рассеяние, определяемое средним квадратом отклонения, минимально, если его вычислять относительно центра рассеяния. Отсюда следует, что величина   M   g  x   принимает свое 2 37 минимальное значение. Другими словами, регрессия  на  является наилучшей (в смысле минимума среднего квадратичного отклонения) оценкой зависимости  от  . Очевидно, что регрессия может служить оценкой зависимости, когда эта регрессия известна. Если регрессия неизвестна, то ищут оценку  в некотором классе функций случайной величины  и вместо (6.5) требуют минимума величины   M   y    . 2 (6.6) Оценка y   случайной величины  , принадлежащая определенному классу функций и доставляющая минимум величине  , определяемой формулой (6.6), называется средней квадратичной регрессией  на  . Будем, например, искать оценку y   среди класса линейных функций, т.е. y       . Коэффициенты  и  найдем из условия минимума  , т.е. методом наименьших квадратов. Преобразуем сначала (6.6) следующим образом:   M        2  M   m      m    m     m    2 (6.7)   2   2 2   m     m   2  K . 2 Здесь K  M   m   m  – корреляционный момент слу- чайных величин  и  . Необходимыми условиями минимума функции (6.7) являются   0, 0   или  m     m  0, (6.8)  2   K  0.     Решая систему (6.8), найдем  ,  и вместе с тем линейную оценку регрессии y        m      m  .  38 (6.9) Здесь   K   – коэффициент корреляции. Линия  (6.10)  x  m   называется прямой линией регрессии  на  . Коэффициент  1    называется коэффициентом регрессии.  Аналогично можно получить прямую регрессии  на   (6.11) x  m    y  m  .  y  m   Прямые (6.10) и (6.11) не совпадают, но обе проходят через центр распределения  m , m  . Коэффициент корреляции  служит мерой линейной корреляционной связи между  и  . Если   1 , то  и  связаны линейной функциональной зависимостью, если   0 , то они не коррелированы. Прямые регрессии в этом случае параллельны осям координат. Если числовые характеристики, входящие в уравнения регрессии, неизвестны, то их заменяют оценками m  M x ; m   M y ;    S x ;    S y ; K  K xy ;   r  K xy Sx S y , где 1 n 1 n 1 n 2 xi ; S x2    xi  M x    xi2  M x2 ;  n i 1 n i 1 n i 1 n n 2 1 1 1 n M y   yi ; S y2    yi  M y    yi2  M y2 n i 1 n i 1 n i 1 1 n 1 n K xy    xi  M x   yi  M y    xi yi  M x M y . n i 1 n i 1 В результате получим эмпирические прямые регрессии Sy y  My  r x  Mx  Sx . Sx x  Mx  r  y  My  Sy Mx  (6.12) (6.13) Задача нахождения регрессии тесно связана с задачей сглаживания 39 экспериментально полученной зависимости по методу наименьших квадратов. В подтверждение этого можно сравнить формулы (6.13) и (1.9). Если генеральная совокупность имеет нормальное распределение, то можно считать при n  30 выборочный коэффициент корреляции r  (1  r 2 )  нормально распределенным: N  r ,  . Выборочные коэффициенn   Sy S ты регрессии b1  r и b2  r x также распределены нормально: Sx Sy  S x (1  r 2 )   S y (1  r 2 )  N  b1 ,  .  , N  b2 , n  n   Sx  Sy Учитывая это, можно легко построить доверительные интервалы для  , 1 и  2 . Линейная регрессия имеет важное практическое значение, поскольку генеральная совокупность чаще всего распределена нормально. В противном случае возможна нелинейная регрессия, а при большом диапазоне изменения величин линеаризация регрессии неправомерна. В этом случае поступают следующим образом. Для каждого xi выборки вычисляют среднее значение yi . Наносят точки  xi , yi  и соединяют их ломаной линией. По этой ломаной линии решают вопрос о виде нелинейной зависимости. Затем проводят сглаживание. Следующие примеры демонстрируют применение методов нахождения регрессии. Для моделирования стохастической зависимости генерируется массив нормально распределенных значений x и массив случайных величин v с нулевым математическим ожиданием (помеха). Величина y получается путем суммирования значений x и помехи v . Изменяя параметр  для помехи v , можно регулировать степень случайности связи величин x и y , что оценивается визуально по виду графика, на котором наносятся точки. По данным из массивов x и y строятся эмпирические прямые регрессии. Для этого вычисляются оценки необходимых числовых характеристик и строятся прямые. Для сравнения здесь же еще раз приводится график исходных данных. Поскольку в данном случае коэффициент корреляции и выборочные коэффициенты регрессии распределены по нормальному закону, задаем надежность и определяем доверительные интервалы путем решения соответствующих функциональных уравнений. 40 Пример 6 (Mathcad) Получение выборок объёма n для нормально распределённых случайных величин X и Y с заданными параметрами  и  X  10 n  20 i  0 n  1 Получение выборки в массиве x x  rnorm n  X X T x  X  2 9.961 10.064 V  0 V  2 10.53 10.983 Вспомогательная случайная величина v  rnorm n  V V T v  -0.818 -1.348 -0.264 Получение выборки в массиве y T y  x  v y  9.143 2.036 8.716 10.266 13.019 10.838 Изображение полученных точек 15 10 y 5 0 5 10 15 x Вычисление выборочных числовых характеристик 1 1 2 Mx  9.531 Mx   x Dx   x  Mx i i n n   i  Dx  3.646 i Sx  Dx 1 My   n Sx  1.909  yi My  9.583 Dy  y  My n  i 1  i Sy  Dy 1 Kxy   n 2 Dy  5.265 i Sy  2.294  xiyi  MxMy Kxy  2.678 r  Kxy Sx Sy i b1  r Sy Sx b1  0.735 b2  r 41 Sx Sy b2  0.509 r  0.611 Эмпирические прямые регрессии Y  My  b1 x  Mx X  Mx  b2 y  My i i  i i  График эмпирических прямых регрессии 15 y Y 10 y My 5 0 5 10 15 x x X  M x Определение доверительных интервалов   x   2  fn  x      exp   2  2 2    2   2   0.95 S  1r 1 n Процедура определения доверительного интервала CInt      y    y    z  root 2  fn  x    d x    y     0  dz  z  n    dz   dz  Определение доверительного интервала для r r  0.611 CInt( r  S)  ( 0.561 0.662 ) Определение доверительного интервала для b1 b1  0.735 CInt b1 S Sy  b2  0.509 CInt b2 S Sx    ( 0.668 0.801 ) Sx  Определение доверительного интервала для b2     ( 0.47 0.547 ) Sy  42 Задание 1. Вывести равенство (6.7). 2. Найти теоретически кривые регрессии, если известна плотность вероятности системы случайных величин: f  x, y   0,5  x  y  e x  y , x  0 , y  0 . 3. Доказать, что при нормальном законе распределения двумерной случайной величины регрессии линейные. Указание. Плотность распределения имеет вид: 2  x  m   1 1 f  x, y   exp      2 1  2  2 2    1   2  2 2   x  m  y  m   y  m   .      2   x  m y  m Сделать замену переменных u,  v.     4. Получить две выборки нормально распределенных случайных величин x и y . 5. По выборкам найти выборочные числовые характеристики. Начертить прямые регрессии. 6. Найти доверительные интервалы для r , 1 и  2 при доверительной вероятности 0,95 , предполагая нормальное распределение генеральной совокупности. 7. Провести расчеты по документу для объёмов выборок 10, 20 и 50. Контрольные вопросы 1. В чем различие между функциональной и статистической зависимостями ? 2. Что такое условные математическое ожидание и дисперсия ? 3. Как найти плотности компонентов и условные плотности, если функция f  x, y  известна? 4. Что такое корреляционный момент, коэффициент корреляции, регрессия? 5. Вывести формулы (6.5) и (6.8). 6. Как решается вопрос: из какого класса функций искать оценку регрессии? 7. Решить задачу: 43 Интерпретируя yi как диаметр деревьев, а xi как высоту (см. таблицу 6.1), найти средний диаметр деревьев, имеющих высоту 26 м. Таблица 6.1 22 28 24 25 31 X 0.6 0.6 0.3 0.2 0.8 Y 8. Решить задачи № 7.25–7.28 гл. 15[2]. Литература 1. Гмурман В.Е. Теория вероятностей и математическаяэконометрика. М.: Высш. шк., I977. 2. Сборник задач по математике. Специальные курсы / Под редакцией Ефимова А.В. М.: Наука, I984. 3. Фирсов И.П., Никитина А.В., Бутенков С.А. Методические указания к практическим занятиям по эконометрике с применением ЭВМ. Самар: ТРТУ, 1997. 44 Порунов Аркадий Николаевич МЕТОДИЧЕСКИЕ УКАЗАНИЯ к лабораторным работам по эконометрике с применением ЭВМ для студентов II курса ИЭФ Ответственный за выпуск Редактор Корректор. ЛР№020565 Подписано к печати Формат 60 X 84 1 16 Офсетная печать Усл.п.л.-3,6 Заказ № Бумага газетная Уч.-изд. л.-3,4. Тир. 500 экз. «C» Издательство Самарского государственного технического университета ГСП 17А, Самара. Типография Самарского государственного технического университета ГСП 17А, Самара. 45

эконометрике МЕТОДИЧЕСКИЕ УКАЗАНИЯ к выполнению самостоятельной работы по

Похожие документы

Разделы

Поддержка

эконометрике МЕТОДИЧЕСКИЕ УКАЗАНИЯ к выполнению самостоятельной работы по

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib