№ 8 Предмет математической статистики

ДАГЕСТАНСКИЙ ГУМАНИТАРНЫЙ ИНСТИТУТ Кафедра математики и информационных технологий Зайнулабидов Г.М. Учебное пособие для студентов экономических специальностей Махачкала 2014 1 УДК 330.43 (075.0) ББК 65в6я73 Печатается по решению Учебно-методического Совета Дагестанского Гуманитарного института Рецензенты: 1.Нурмагомедов А.А. –кандидат физ.-мат. наук, доцент. Российский государственный педагогический университет им. А.И. Герцена 2. Гаджиев Г.Г.- кандидат экономических наук, доцент, зав. кафедрой экономики и предпринимательства ФГБОУ ВПО «ДГПУ» Зайнулабидов Г.М. Учебное пособие/Теория вероятностей, математическая статистика и эконометрика. Махачкала, 2014.-163 с. В учебном пособии изложены основные понятия теории вероятностей, математической статистики, на которых базируются эконометрические методы исследований. Материал каждого параграфа проиллюстрирован примерами и сопровождается подборкой задач для практических занятий. В пособии приведены тесты и итоговые контрольные задания по соответствующим разделам. В приложениях приведены значения табличных коэффициентов, используемых в расчетах. Пособие может быть использовано, как учебник и практикум по решению задач и предназначено, в основном, для студентов экономических специальностей вузов, в учебные планы которых входит теория вероятностей, математическая статистика и эконометрика. © ДГИ © Зайнулабидов Г.М. 2014 2 Введение На современном этапе развития всех областей знаний математические исследования получили широкое применение. Актуальной является задача систематизации накапливаемых данных исследований, их обобщения и количественного анализа. Одним из важнейших средств еѐ решения является использование вероятно - статистических методов, так как реальный результат большинства исследований носят случайный характер. Внедрение вероятно – статистических методов позволяет существенно повысить эффективность исследований, придаѐт им строгость и точность, которые могут послужить также гарантиями достоверности и объективности полученных результатов. Однако сила и могущество уже разработанных вероятно- статистических методов исследования зачастую приводят к противоречиям с недостатком соответствующего образования у массы людей, которым эти методы приходится применять. Следовательно, знание основ теории вероятностей и математической статистики самой жизнью превращается в необходимейший элемент образования в любой области науки и производства. Кроме того, современные экономические теории и исследования, опирающиеся в значительной степени на использование математических моделей и методов анализа, требуют от экономистов достаточно свободного владения математическим аппаратом анализа и обработки статистических данных, т.е. эконометрическими методами исследования. В первых двух частях учебного пособия изложены основные вероятностатистические методы исследования и их применение для решения конкретных задач из различных областей науки и производства. В третьей части рассмотрены вопросы эконометрики- науки, в которой на базе реальных статистических данных строятся, анализируются и совершенствуются математические модели реальных экономических явлений. Эконометрика позволяет найти количественные подтверждения (либо опровержение!) того или иного экономического закона или гипотезы, а также построить прогнозы по различным экономическим показателям. Каждый параграф снабжѐн обширным кругом задач, решения которых позволит закрепить теоретические знания. Кроме того, приведено большое количество решений типовых задач. В конце каждого раздела приведены повариантные итоговые контрольные задания. Тем самым книгу можно использовать и как практикум по решению задач. Желание сделать книгу доступной для широкого круга читателей привело к необходимости жертвовать строгостью математического изложения. Материал полностью соответствует ГОСу по теории вероятностей математической статистике и эконометрике для инженерно- экономических специальностей. В приложении даются вероятно-статистические таблицы, что избавит читателя от необходимости привлекать другую литературу при обработке и анализе своих исследований по рецептам данного пособия. 3 Глава 1. Теория вероятностей. Лекция 1. Предмет теории вероятностей. Основные определения. К основным понятия теории вероятностей относится испытание и событие. Под испытанием (опытом) понимают реализацию данного комплекса условий в результате которого непременно произойдет какое-либо событие. Испытаниями, например, являются: бросание монеты, выстрел из винтовки, бросание игральной кости, эксперимент, опыт, наблюдения любого явления и т.п. Результат испытания (событие), которые нельзя заранее прогнозировать, т.е. событие, которое при осуществлении данного испытания может произойти или не произойти называется случайным событием. Например выпадение герба или цифры при бросании игральной кости, попадание в цель или промах, появление четырех очков на брошенной игральной кости, выигрыш лотерейного билета, набор выигравших номеров в тираже спортлото, выигрыш в шахматах, количество отличных оценок на экзамене, процесс спонтанного деления ядра, случайные изменения в структуре генов, погрешности результатов любого эксперимента и т.п. являются случайными событиями. Совокупность случайных факторов лежит в основе любого процесса массового обслуживаниятелефонной связи, торговли, транспортных услуг, медицинской помощи и т.п. Случайное событие (в дальнейшем, для краткости, - событие) называется достоверным, если оно в результате данного испытания непременно произойдет, и невозможным, если оно заведомо не произойдет. (Брошена игральная кость. Выпадение не более шести очков – достоверное событие, а выпадение десяти очков – невозможное событие). Для обозначения событий используются заглавные буквы латинского алфавита. События А1, А2, А3, … Аn называются несовместимыми в данном испытании, если никакие два из них не могут появиться вместе, в противном случае они называются совместимыми. (Например, испытание – однократное бросание игральной кости. Событие А1 – появление четырех очков, событие А2 – появление четного числа очков. События А1 и А2 – совместимые. Пусть события А1, А2, А3, А4, А5, А6 – соответственно выпадение одного, двух и т.д. очков. Эти события несовместимы. События: А1 – увеличение налогов, А2 - рост располагаемого дохода – несовместимые; В1 – увеличение объема продаж, В2 – увеличение прибыли – совместимые.). События А1, А2, А3, … Аn называются равновозможными, если условия испытания обеспечивают одинаковую возможность осуществления каждого из них. (Появление герба и цифры при бросании монеты; выбор студентом экзаменационного билета с четным или нечетным номером – равновозможные события). События А1, А2, А3, … Аn образуют полную группу событий, если они несовместимы и появление одного из них достоверно. (События А1, А2, А3, А4, А5, А6 при бросании игральной кости – полная группа событий). Два события, образующих полную группу, называются противоположными. Событие противоположное событию А, обозначают через А . (Событие А – выпадение герба. Событие В – выпадение цифры, реализован). В  А . Событие С - товар реализован, С - товар не События А1, А2, А3, … Аn называются независимыми, если появление любого из них не зависит от того, произошли ли какие-либо другие рассматриваемые события или нет. В противном случае эти события называются зависимыми. (В урне 4 находятся 7 белых и 3 черных шара. Извлечение из урны белого шара (событие А) и извлечение из урны белого шара, после удаления из него белого шара (событие В) – зависимые события). Полную группу равновозможных событий называют элементарными событиями. То элементарное событие, которое влечет за собой наступление интересующего нас события, называется благоприятствующим этому событию. (События А2,А4,А6 – появление двух, четырех, шести очков при бросании игральной кости и А – событие, состоящее в появлении четного очка; А2,А4,А6 – благоприятствуют событию А). Элементарные события нельзя разбить на более простые. Событие представимое в виде совокупности нескольких элементарных событий называется составным. (Например. Предприятие не потерпело убытки – прибыль может быть положительной, либо равной нулю; смотрите также сумму и произведения событий §2!). Всякое случайное событие является следствием очень многих причин, в связи с чем невозможно заранее предсказать произойдет единичное событие или нет. Но можно ли измерить возможность появления некоторого случайного события или охарактеризовать эту возможность некоторым числом? При изучении многократно повторяющихся событий и при условии очень большого числа наблюдений над проявлением каждого из них, несмотря на множество случайных факторов и характере наступления этих событий все же наблюдаются определенные закономерности. Изучением закономерностей, проявляющихся при наблюдении случайных событий, оценкой качества случайного события посредством количественных характеристик и прогнозированием их течения занимается теория вероятностей. Под вероятностью события понимают численную меру объективной возможности появления этого события. Определение 1. (классическое определение вероятности). Вероятностью Р(А) события А называют отношение числа элементарных событий mА благоприятствующих событию А, к числу n всех равновозможных элементарных событий, образующих полную группу: Р(А) = mА / n Пусть событие А – выпадение грани игральной кости с числом очков, делящимся на 3. В этом случае mА=2, n=6, следовательно Р(А)=1/3. Ясно, что вероятность достоверного события равна единице, вероятность невозможного события – нулю, и вероятность случайного события А есть положительное число, заключенное между нулем и единицей, т.е. 0  Р( А)  1 . Кроме того Р( А)  Р( А)  1 Классическое определение вероятности неприемлемо если результаты испытания не равновозможны. В таких случаях вероятность события А находят непосредственно проведением опыта и используется так называемое статистическое определение вероятности. Определение2.Относительной частотой или статистической вероятностью события А называется отношение числа m испытаний, в которых событие А наступило, к числу n всех произведенных испытаний. Р( А)  m / n Результаты многочисленных опытов и наблюдений показывают что при возрастании числа испытаний статистическая вероятность Р(А) приближаются к 5 некоторому числу Р(А), стабилизируясь возле него и принимая все более устойчивые значения, при этом число Р(А) является классической вероятностью появления события, т.е. Р( А)  Р( А) 1. Опыт Бюффона: Монета брошена 4040 раз. Герб выпал 2048 раз. Р(А)=2048:4040=0,5069 2. Опыт Пирсона: Монета брошена 12000 и 24000 раз. Частота выпадения герба в первом случае равна 0,5016; а во втором – 0,5005. 3. Опыт Вестергаада. Из урны содержащей поровну белых и черных шаров было получено при 10000 извлечение (с возвратом очередного вынутого шара в урну) 5011 белых шаров и 4989 черных). Как видно, относительная частота колеблется около числа 0,5, являющимся классической вероятностью появления исследуемого события при одном испытании. С этой точки зрения число   n  Р(А) представляет собой среднее значение числа появления события А при n испытаниях. Пример: В результате ряда испытаний было обнаружено, что при 200 выстрелах стрелок попадает в цель в среднем 190 раз. Какова вероятность Р поражения цели этим стрелком? Сколько для него попаданий в цель можно ожидать при 1000 выстрелах? Используя статистическое определение вероятности имеем Р  190 / 200  0,95  95% Отсюда число удачных выстрелов из 1000 составляет   1000  0,95  950 Когда число равновозможных исходов бесконечно, используется так называемое геометрическое определение вероятности. Определение 3. Если результат испытания определяется случайным положением точки в некоторой области, причем положения точек в этой области равновозможны, то вероятность события находится по формуле Р=So/S, где S – геометрическая мера (длина, площадь или объем) всей области, So – геометрическая мера той части области, попадание в которую благоприятствует данному событию. Пример. Найти вероятность того, что точка наудачу поставленная в круг окажется внутри квадрата вписанного в этот круг. Площадь квадрата So вписанного в круг равна 2R2, а площадь круга S=ΠR2. Отсюда Р=2R2: ΠR2=2/П Задачи к лекции 1. 1. Приведите примеры случайных событий. Укажите среди них достоверные и невозможные события. 2. Имеется совокупность деталей различных сортов. Наудачу из совокупности отбирается одна деталь. Пусть А – событие появление детали первого сорта, а В – появление детали второго сорта. Почему события А и В несовместимые? Приведите примеры совместимых событий. 3. Брошена игральная кость. Событие А – «появление двух очков» и событие В – «появление четного числа очков». Определите несовместимость или совместимость этих событий. Равновозможны ли эти события? 4. Пусть А1 – «попадание в цель» при данном выстреле и А2 – «промах». Образуют ли события А1 и А2 полную группу несовместимых и равновозможных событий? 5. Покупатель посещает три магазина. Образуют ли полную группу следующие события: А1 – покупатель купит товар хотя бы в одном магазине, А2 – покупатель не купит товар ни в одном магазине? 6 6. Пусть в урне находится 2 белых и 2 черных шара и событие А – вынуть белый шар. Событие В – во втором испытании вынуть белый шар. Каковы будут события А и В (зависимые или независимые) в случаях: 1) после первого испытания вынутый шар кладется обратно в урну; 2) вынутый шар не кладется обратно в урну. 7. Игральная кость брошена два раза. Пусть А – появление трех очков в первом испытании и В – появление трех очков во втором испытании. определите зависимость или независимость этих событий. 8. Брошена игральная кость. События А1, А3, А6 – появления соответственно одного, трех и шести очков, А – событие, состоящее в появлении нечетного очка. Какие из событий Аi (i=1,3,6) благоприятствуют событию А. Найти вероятность события Р(А). 9. Двухзначное число образовано наугад выбранными двумя неповторяющимися цифрами из цифр 1,2,3. Сколько случаев выбора благоприятствуют образованию четного числа (событие А)? Найти Р(А). 10. Отдел технического контроля обнаружил 3 бракованных изделия из случайно отобранных 100 изделий. Найти относительную частоту появления бракованных изделий. 11. Студент из 30 билетов усвоил 24. Какова вероятность успешного ответа на экзамене, при однократном извлечении билета. 12. По цели произведено 20 выстрелов, причем зарегистрировано 18 попаданий. Найти относительную частоту попадания в цель. 13. Монета брошена два раза. Какова вероятность: 1) выпадения герба один раз; 2) двукратного выпадения герба? 14. Игральная кость бросается два раза. Какова вероятность того, что сумма выпавших очков равна 6? 15. Относительная частота работников фирмы, имеющих высшее образование, равно 0,25. Определить число работников, имеющих высшее образование, если всего на фирме 60 человек. 16. В ящике 3 белых и 9 черных шаров. Какова вероятность того, что наугад вынутый шар окажется черным? 17. В лотерее 2000 билетов. На один билет попадает выигрыш 100 руб, на четыре билета – выигрыш по 50 руб, на десять билетов – выигрыш по 20 руб, на 20 билетов – выигрыш по 5 руб, на 400 билетов – выигрыш по 1 руб. Какова вероятность выиграть по билету не менее 10 руб? 18. В книге 500 страниц. Чему равна вероятность того, что наугад, открытая страница имеет порядковый номер, кратный 7? 19. В сосуд емкостью 10л попала ровна одна болезнетворная бактерия. Какова вероятность зачерпнуть ее при наборе из этого сосуда стакана воды (200см3)? 20. Юноша и девушка условились встретится в определенном месте между 13 и 14 часами. Пришедший первым ждет второго в течении 20 минут, после чего уходит. Определить вероятность их встречи. 21. В любой момент времени промежутка Т равновозможны поступления в приемник двух сигналов. Приемник считается забитым, если разность по времени между сигналами меньше η < Т. Какова вероятность, что приемник будет забит? 22. В круг вписан равносторонний треугольник. Какова вероятность того, что точка, наудачу поставленная в круг окажется внутри треугольника? 23. Известно, что телефонный звонок должен последовать от 11ч до 11ч 30мин. Какова вероятность того, что звонок произойдет в последние 10 минут? 24. В квадрат с вершинами (0;0), (0;1),(1;0),(1;1) наудачу брошена точка М. Пусть (в;с) – ее координаты. Найти вероятность того, что корни уравнения х2+вх+с=0 – действительные. 25. Расстояние от А до В автобус проходит за 2 минуты, а пешеход за 15 минут. Интервал движения автобусов 25 минут. В случайный момент времени пешеход отправляется из А в В пешком. Найти вероятность того, что его в пути догонит автобус. 7 Лекция 2. Основные формулы комбинаторики используемые в теории вероятностей Комбинаторика – это раздел математики, изучающий вопросы о том, сколько комбинаций определенного типа можно составить из n данных элементов. Методы комбинаторики основаны на двух утверждениях, называемых правилом произведения и правилом суммы. Правило произведения: Пусть требуется выполнить одно за другим какие-то к действий. Если первое действие можно выполнить n1 способами, второе - n2 способами и так до к-го действия, которое можно выполнить nk способами, то все к действий вместе могут быть выполнены n1∙ n2 ∙...∙nк - способами. Пример. В группе 30 человек. Необходимо выбрать старосту и профорга. Сколькими способами это можно сделать? Решение. Старосту можно выбрать 30 способами. После того как староста выбран, профоргом можно выбрать любого из оставшихся 29 человек. Таким образом, каждому способу выбора старосты соответствует 29 способов выбора профорга. Следовательно, общее число способов выбора старосты и профорга равно 30∙29=870. Правило суммы. Если два действия взаимно исключают друг друга, причем одно из них можно выполнить m способами, а другое – n способами, то выполнить одно любое из этих действий можно n+m способами. (Это правило распространяется на любое конечное число действий.) Пример. Сколько существует способов выбора одного карандаша из коробки, содержащей 5 красных, 7 синих, 3 зеленых карандаша. Решение. Один карандаш по правилу суммы можно выбрать 5+7+3=15 способами. Обычно в комбинаторике рассматривается эксперимент по выбору наудачу к элементов из n . При этом элементы: а) не возвращаются обратно (схема выбора без возвращения или без повторений; б) возвращаются обратно (схема выбора с возвращением или с повторениями). 1. Схема выбора без повторений: Определение. Размещением из n элементов по m (m≠n) называют комбинации составленные из m элементов в каждом, которые отличаются либо самими элементами, либо порядком их расположения. Теорема. Число размещений Аnm  из элементов по m равно n!/(n-m)! Доказательство. Чтобы составить какое-либо размещение, следует выбрать m элементов из множества, содержащего n элементов и упорядочить полученную совокупность. Это означает, что надо заполнить m мест элементами рассматриваемого множества. На 1-е место можно поместить любое из n-элементов, второе место можно заполнить (n-1) – способами и т.д. Последнее m-е место можно заполнить n-(m-1) способами. Отсюда Аnm  n(n  1 )(n  2 )...(n  (m  1 ))  n!/(n  m)! n! 1  2  3...n , 1! 1 , 0!  1 где Пример. Сколько двузначных чисел можно составить из цифр 2,5,6, если каждая цифра входит в изображение числа один раз. 8 Решение. Из условия задачи вытекает, что нужно составить двухэлементные комбинации отличающиеся друг от друга либо элементом (цифрой), либо порядком расположения. Следовательно, А32  3!/(2  1)! 6 . (Укажите эти числа!) Определение. Перестановкой n элементов называется размещение из n элементов по n. Ясно, что мы имеем дело с комбинациями из n элементов, отличающихся только порядком. Число перестановок из n элементов обозначают Рn. Pn  Ann  n!/ 0! n! Пример. Сколькими способами можно рассадить шестеро гостей за столом? Решение. Ясно, что это задача о перестановке из 6 элементов. Р6  6! 1  2  3  4  5  6  720 Определение. Сочетаниями из n элементов по m называют комбинации составленные из m элементов каждые из которых отличаются друг от друга хотя бы одним элементом. Теорема. Число сочетаний из n элементов по m (Сnm ) равно n!/m!(n-m!). Доказательство. Чтобы получить Anm надо: 1) выбрать m элементов из множества, содержащего n элементов; 2) организовать перестановки в каждой комбинации из m элементов. Обе операции можно осуществить Сnm и Рm способами, соответственно. Тогда, согласно правилу умножения можно записать, что Аnm  Cnm  Pm Тогда, в силу того, что Pm  0 получим Сnm  Anm / Pm  n !/ m !(n  m)! Пример: Сколькими способами можно выбрать в подарок 4 из 10 имеющихся различных книг? Решение. Из смысла задачи следует, что порядок выбора книг не играет роли. Следовательно, необходимо составить 4-х элементные комбинации, отличающиеся друг от друга только одним элементом (книгой). Число таких возможных выборов, где не учитывается порядок выбранных книг, равно . С104  10!/ 4!6! 210 1. Схема выбора с повторениями Определение. Если при выборе m элементов из n - элементы возвращаются обратно и снова упорядочиваются, то говорят, что это размещения с повторениями. Число размещений из n элементов по m с повторениями ( Аnm ) определяется по формуле : m An  n m Пример. Сколько двузначных чисел можно составить из цифр 2,5,6? Решение. Из условия задачи вытекает, что в записи числа цифры могут повторяться. 2 Следовательно, А3  32  9 (укажите эти числа!) Определение. Если при выборе m элементов из n элементов возвращаются обратно без последующего упорядочения, то говорят, что это сочетания с повторениями. Число сочетаний с повторениями из n элементов по m определяется по формуле : m Сnm1  (n  m  1)!/ m!(n  1)! Пример. В магазине продается 10 видов тортов. Очередной покупатель выбил чек на три торта. Считая, что любой набор товаров равновозможен, определить число возможных заказов. Решение. Число равновозможных заказов можно определить по формуле С103 31  12!/ 3!9! 220 Примечание. Справедливы следующие тождества: 9 Сnk  Cnnk , Cnk1  Cnk  Cnk 1 , Cn0  Cn1  Cn2  ...  Cnn  2 n , Cn0  1 , C n1  n , Cnm  Cnm11`  Cnm1 1  m  n Задачи к лекции 2. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. Сколькими способами из 12 спортсменов можно выбрать команду, состоящую из 8 спортсменов? Сколько трехзначных чисел можно составить из цифр 1,2,5,8, если каждое число отличается хотя бы одной цифрой? Чему равно число случайных выборок по 4 деталей из 10? В ящике находится пять одинаковых пронумерованных деталей с номерами 1,2,3,4,5. Наудачу по одному извлекаются все детали. Каково общее число всевозможных вариантов извлечения деталей? Из полосок ткани семи разных цветов нужно сшить флаг, состоящий из трех разноцветных горизонтальных полосок. Сколькими способами это можно сделать? У мамы 2 яблока и 3 груши. Каждый день в течении пяти дней подряд она выдает сыну по одному фрукту. Сколькими способами можно это сделать? У одного человека 8 книг, а у другого 6 книг. Сколькими способами они могут обменять три книги одного человека на три книги другого человека? Набирая номер телефона, абонент забыл две последние цифры и помня лишь, что они различны, набрал их наудачу. Сколькими способами можно набрать две последние цифры? Для проведения экзамена создается комиссия из двух преподавателей. Сколько различных комиссий можно составить из пяти преподавателей? На первом курсе изучается 10 предметов. Сколькими способами можно составить расписание на пятницу, если в этот день недели должно быть 5 различных уроков? В чемпионате по футболу участвуют 18 команд, причем каждые две команды встречаются между собой два раза. Сколько матчей играется в течении сезона? Сколько различных перестановок можно образовать из букв следующих слов: а) зебра, б) водород, в) абракадабра, г) баран. Сколькими способами можно упаковать 9 книг в 5 бандеролей, если 4 бандероли должны содержать по 2 книги? Хоккейная команда состоит из 2 вратарей, 7 защитников и 10 нападающих. Сколькими способами тренер может образовать стартовую шестерку, состоящую из вратаря, двух защитников и трех нападающих? В азбуке Морзе буквы представляются последовательностями тире и точек с возможными повторениями. Сколько букв можно составить из 5 и менее символов? Набирая номер телефона абонент забыл последние 2 цифры и набрал их наудачу, помня что они различны. Найти вероятность того, что набраны нужные цифры. В группе 12 студентов, среди которых 8 отличников. По списку отбирают 9. Найти вероятность того, что отберут 5 отличников. В партии готовой продукции из 10 изделий 7 изделий повышенного качества. Наудачу отбираются 6 изделий. Какова вероятность того, что четыре из них будут повышенного качества? Из 25 студентов группы 10 специализируются на кафедре бухучета, 9 – экономического анализа, остальные – на кафедре статистики. Какова вероятность того, что два случайно отобранных студента специализируются по кафедре статистики? Какова вероятность того, что два студента будут посланы на практику в г. Каспийск, если предоставлено 6 мест в Каспийск, 10 – в Буйнакск и 4 – в Махачкалу? Совет директоров состоит 12 человек; 3 из них лоббируют проект А, 5 – проект В, остальные склонны инвестировать деньги в проект С. Решение об инвестировании принимается большинством голосов комиссии, состоящей из 5 выбранных жребием директоров. Какова вероятность принятия решения в пользу проекта В? 10 22. 23. 24. Брокер может приобрести акции одной из компаний А, В и С. Риск погореть при покупке акции А составляет 50%, В – 40%, С – 20%. Брокер решает вложить деньги в акции случайно выбранной компании. Какова вероятность, что брокер погорит? Устройство состоит из 5 элементов, из которых две изношены. При включении устройства включаются случайным образом два элемента. Найти вероятность того, что включенными окажутся неизношенные элементы. Среди 25 студентов группы, в которой 10 девушек разыгрывается 6 билетов в театр. Какова вероятность того, что среди обладателей билетов окажутся три девушки? Лекция 3. Основные теоремы теории вероятностей. При решении различных задач по исчислению вероятностей событий используются следующие теоремы теории вероятностей. 1. Теорема сложения вероятностей. Если события А и В несовместимы, то вероятность того, что произойдет событие А или событие В – (Р(А+В)) равна сумме вероятностей наступления каждого события: Р(А+В)=Р(А)+Р(В) (3.1) Доказательство. Пусть из общего числа n всевозможных и равновозможных элементарных исходов испытания m1 благоприятствуют событию А, а m2 – событию В. Так как события А и В несовместимы, то появление события А исключает появления события В и обратно; поэтому число благоприятных исходов события А+В равно m1 + m2. Отсюда, на основании определения вероятности m  m2 m1 m2 Р( А  В)  1    P ( A)  Р ( В ) n n n Теорема сложения вероятности может быть распространено на конечное число несовместимых событий, т.е. Р( А1  А2  ...  Аn )  P( A1 )  P( A2 )  ...  P( An ) (3.2) Следствие. Вероятность суммы попарно несовместимых событий, образующих полную группу, равна 1. (Например, Р( А  А)  Р( А)  Р( А)  1 ) Пример 1. В урне 10 шаров: 3 красных, 5 синих и 2 белых. Какова вероятность вынуть цветной шар? Вероятность вынуть красный шар Р(А)=3/10, синий Р(В)=5/10. Так как события А и А несовместны, то Р(А+В)=3/10+5/10=0,8. Пример 2. Обувной цех выпустил партию обуви в которой 50% - обувь высшего сорта, 45% первого сорта и 5% - брака. Какова вероятность того, что наудачу взятая пара обуви окажется годной? Вероятность выбора пары обуви высшего качества Р(А)=0,5; первого сорта Р(В)=0,45. Так как события А и В несовместны, то вероятность того, что обувь окажется или высшего сорта или первого сорта Р(А+В)=Р(А)+Р(В)=0,95 . Определение 1. Вероятность события А, при условии что произошло событие В, называется условной вероятностью события А и обозначается Р(А/В). (В урне находится 10 белых и 5 черных шаров. Вероятность того, что из последовательно вынутых двух шаров, второй шар окажется черным, при условии, что первый шар был черным, будет условной вероятностью). Если вероятность события А рассматривается при условии, что произошли два других события В и С, используется условная вероятность относительно произведения событий В и С. Р(А/ВС). 2. Теорема умножения вероятностей. Вероятность Р( А  В) события А  В , состоящего в совместном осуществлении событий А и В, равна произведению вероятности одного из них на условную вероятность другого: (3.3) Р( А  В)  Р( А)  Р( В / А)  Р( В)  Р( А / В) 11 Доказательство. Пусть событию А благоприятствует m, а событию А  В - k исходов из общего их количества n. Тогда Р( А)  m / n, Р( А  В)  k / n . Но если событие А произошло, то в этой ситуации возможны лишь те m исходов, которые благоприятствовали событию А, причем k из них очевидно благоприятствуют событию В. Таким образом Р( А  В)  k / n  (m / n)  (k / m)  P( A)  P( B / A) Теорема умножения вероятностей может быть распространена на конечное число событий, т.е. P( A1  A2  ...  An )  P( A1 )  P( A2 / A1 )  P( A3 / A1  A2 )...P( An / A1  A2  ...  An 1 ) (3.4.) Пример. В урне 7 белых, 5 черных и 3 синих шара. Из урны последовательно вынимаются 3 шара. Найти вероятность того, что первый наугад вынутый шар окажется белым (событие А1), второй шар черным (событие А2) и третий шар синим (событие А3). Так как Р(А1)=7/15, Р(А2/А1)=5/14, Р(А3/А1∙А2)=3/13, то Р(А1∙А2∙ А3)=Р(А1)∙Р(А2/А1) ∙Р(А3/А1 ∙А2)=7/15 ∙ 5/14∙3/13=1/26 Следствие. Если события А и В независимы, то Р(А/В)=Р(А) и Р(А∙В)=Р(В)·Р(А). Действительно т.к. события А и В независимы, то Р(А/В)=Р(А) и Р(В/А)=Р(В). Итак для независимых событий Аi, i=1,2,3…n Р(А1∙А2…А ∙Аn)=P(A1) ∙P(A2) ∙ P(A3)… P(An) (3.5) Пример. Медицинская сестра обслуживает в палате трех больных. Вероятность того, что в течении часа внимания сестры потребует первый больной Р(А)=0,9, второй больной – Р(В)=0,8, третий – Р(С)=0,3. Найти вероятность того, что в течении часа все больные потребуют внимания сестры.. Решение. Так как события А,В,С независимы, то Р(А∙В∙С)=Р(А) ∙Р(В)∙Р(С)= 0,9 ∙ 0,8∙ 0,3 =0,216 3. Вторая теорема сложения вероятностей. Вероятность того, что произойдет одно из двух совместимых событий или событие А, или событие В – равна сумме вероятностей наступления каждого события без вероятности их совместного наступления: Р(А+В)=Р(А)+Р(В)-Р(А∙В) Доказательство. Пусть из всех n исходов испытания m1 благоприятствуют событию А, а m2 – событию В. Тогда событию А+В будут благоприятствовать m=m1+m2-k исходов, где k – число исходов благоприятных для события А∙В. Действительно складывая числа исходов m1 и m2, благоприятных событиям А и В, мы исходы, благоприятные событию А∙В, считаем два раза. Поэтому имеем m  m2  k m1 m2 k Р( А  В)  1     P( A)  P( B)  P( AB ) (3.6) n n n n Замечание 1. Если А и В независимы, то Р(А+В)=Р(А)+Р(В)-Р(А)Р(В). Для зависимых событий А и В: то Р(А+В)=Р(А)+Р(В)-Р(А)Р(В/А). Замечание 2. Если А и В несовместимы, то Р(АВ)=0, следовательно из тео-ремы 3 следует утверждение теоремы 1. Пример. Вероятность попадания в цель при стрельбе из первого орудия Р(А)=0,7 и со второго орудия Р(В)=0,8. Тогда вероятность попадания при одном залпе (из обоих орудий) хотя бы одним из орудий Р(А+В)=0,7+0,8-0,7∙0,8=0,94. Задачи к лекции 3. 1. В группе 20 студентов, из которых 12 девушек. Преподаватель вызвал к доске двоих. Найти вероятность того, что к доске были вызваны две девушки. 12 2. Радист трижды вызывает корреспондента. Вероятность того, что будет принят первый, второй, третий вызовы равны соответственно 0,2; 0,3; 0,4. Найти вероятность того, что корреспондент услышит вызов радиста. 3. В магазин вышли три покупателя. Вероятность того, что каждый что-нибудь купит, равна 0,3. Найти вероятность того, что: а) два из них совершат покупки; б) все три совершат покупки; с) хотя бы один купит товар. 4. Вероятность получить высокие дивиденды по акциям на первом предприятии – 0,2, на втором – 0,35, на третьем – 0,15. Определить вероятность того, что акционер, имеющий акции всех предприятий, получит высокие дивиденды: а) на всех предприятиях; б) только на одном предприятии; в) хотя бы на одном предприятии. 5. В денежно вещевой лотерее на каждые 1000 билетов приходится 12 денежных и 8 вещевых выигрышей. Какова вероятность выигрыша хотя бы на один из трех приобретенных билетов? 6. Студент из 40 вопросов выучил только 30. Каким выгодней ему зайти на экзамен первым или вторым? 7. Вероятность спортсменом взять с одной попытки 1,8м равна 0,6, высоту 2м. – 0,2, высоту 2м10см – 0,1. Спортсмен не взявший предыдущую высоту выбывает из соревнований. Спортсмену на каждую высоту даются три попытки. Определить вероятность того, что спортсмен закончит соревнования, взяв высоту: а) 1,8м; б) 2м; в) 2м10см. 8. Два спортсмена независимо друг от друга стреляют по одной мишени. Вероятность попадания первого в мишень равна 0,7, а второго – 0,8. Какова вероятность, что мишень будет поражена? 9. В коробке 10 карандашей, из которых два красных, остальные черные. Наудачу взяты 2 карандаша. Какова вероятность, что оба карандаша черные? 10. Вероятность безотказной работы автомобиля равна 0,9. Автомобиль перед выходом на линию осматривается двумя механиками. Вероятность обнаружения неисправности первым механизмом равна 0,8, а вторым – 0,9. При обнаружении неисправности хотя бы одним механиком автобус отправляется на ремонт. Найти вероятность того, что: а)автомобиль будет выпущен на линию; б) автомобиль не будет выпущен на линию. 11. На предприятии имеется три автомобиля. Вероятность их безотказной работы соответственно равны 0,9; 0,7; 0,8. Найти вероятности всех возможных значений числа автомобилей работающих безотказно в течении определенного времени. 12. Три студента сдают экзамен. Вероятность того, что отдельный студент сдаст экзамен на «отлично» равна для первого студента 0,7, для второго – 0,6, для третьего – 0,2. Какова вероятность того, что экзамен будет сдан на «отлично»: а) только одним из студентов; б) двумя студентами; в) хотя бы одним; г) ни одним. 13. ОТК проверяет на стандартность по двум параметрам серию изделий. Было установлено, что у 8 из 25 изделий не выдержан только первый параметр, у 6 изделий – только второй, а у 3 изделий – оба параметра. Какова вероятность того, что наудачу взятое изделие не удовлетворяет стандарту? 14. Для сигнализации об аварии установлены три независимо работающие сигнализаторы. Вероятности того, что при аварии сработают 1-й, 2-й и 3-й сигнализаторы соответственно равны 0,8; 0,85; 0,9. Найти вероятность ого, что сработают: а) только один сигнализатор; б) только два; с) все три; г) хотя бы один сигнализатор. 15. При увеличении напряжения может произойти разрыв электрической цепи вследствие выхода из строя одного из трех последовательно соединенных элементов; вероятности отказа элементов соответственно равны 0,2; 0,3; 0,4. Определить вероятность того, что разрыва цепи не произойдет. 16. Рабочий обслуживает 3 станка. Вероятность безотказной работы первого из них 0,75, второго 0,85, третьего 0,95. Найти вероятность того, что: а) откажут два станка; б) все три станка будут работать. 17. Аптечный склад получает медикаменты с трех городов А, В и С. Вероятность получения медикаментов из города Р равна 0,6, из города В – 0,3. Найти вероятность того, что медикаменты получены из города С. 13 18. Студент пришел на экзамен зная лишь 40 из 50 вопросов. В билете 3 вопроса. Найти вероятность того, что студент ответит на все вопросы. 19. В круг радиуса R вписан квадрат. Чему равна вероятность того, что поставленные наудачу внутри круга две точки окажутся внутри квадрата? 20. Студент из 40 экзаменационных вопросов знает 30. Каким выгодней ему зайти на экзамен, первым или вторым? 21. Бросаются 4 игральные кости. Найти вероятность того, что на них выпадет одинаковое число. 22. Два игрока поочередно бросают две игральные кости. Выигрывает первый, у которого в сумме появится двенадцать очков. Найти вероятность выигрыша для каждого игрока. Лекции 4-5. Основные формулы теории вероятностей. 1. Формула полной вероятности. Пусть событие А может произойти только с одним из событий Hi, i  1, n , образующих полную группу событий. (События этой группы называют гипотезами). Пусть далее нам известны вероятности Р(Нi) и P(A/Hi), i  1, n . Тогда справедлива следующая теорема. Теорема. Вероятность события А, которая может наступить лишь при условии появления одного из событий Hi, i  1, n , образующих полную группу равна сумме произведений вероятностей каждого из них на соответствующие условные вероятности события А, т.е. Р(А)=Р(Н1) Р(А/Н1)+Р(Н2) Р(А/Н2)+…+Р(Нn) Р(А/Нn) Доказательство. Так как А=Н1 А+Н2 А+…+Нn А причем, ввиду несовместимости событий Н1,Н2 …Нn события Н1А, Н2А …НnА также несовместны, то на основании теорем сложения и умножения имеем n n i 1 i 1 Р( А)   P( H i  A)   P( H i )  P( A / H i ) (4.1) Пример 1. Для приема зачета по математике подготовлены 50 задач: 20 задач по алгебре и 30 по геометрии. Для сдачи зачета студент должен решить первую же доставшую наугад задачу. Какова вероятность сдачи зачета, если студент умеет решить 18 задач по алгебре и 15 задач по геометрии. Так как вероятность получить задачу по алгебре (событие Н1) равна Р(Н1)=20/50=0,4; по геометрии(событие Н2) – Р(Н2)=30/50=0,6 и событие А означает, что задача решена, то Р(А/Н1)=18/20=0,9; Р(А/Н2)=15/30=0,5. Тогда по формуле полной вероятности Р(А)=0,4 ∙ 0,9 +0,6 ∙ 0,5 =0,66. Пример 2. В магазин поступает одна и та же продукция из трех фирм в количестве 20,10 и70 изделий соответственно. Вероятности некачественного изготовления изделия на фирмах соответственно равна 0,2; 0,3 и 0,5. Необходимо определить вероятность получения некачественного изделия. Решение. Используя формулу (4.1.) Р(А)=0,2∙0,2 + 0,1∙ 0,3 + 0,7∙ 0,5=0,42 2.Формула Бейеса. Часто по результатам уже произведенного испытания оценивают вероятность гипотез, принятых до испытания. Для этого применяется формула Бейеса: Р( Н i / A)  P( H i )  P( A / H i ) n  P( H )  P( A / H ) i 1 i  P( H i )  P( A / H i ) P( A) (4.2.) i Доказательство формулы Бейеса непосредственно вытекает из теоремы умножения вероятностей и формулы полной вероятности. (доказать самостоятельно). Пример 1. На экзамен приглашены 20 студентов. По имеющимся сведениям шестеро из них, подготовились отлично, восемь – хорошо, четверо – удовлетворительно, а двое не подготовились. В 14 билетах 50 вопросов. Отлично подготовившиеся студенты могут ответить на все 50 вопросов, хорошо – на 40, удовлетворительно – на 30 и неудовлетворительно – 10 вопросов. Приглашенный студент ответил правильно на все три вопроса. Найти вероятность того, что он отлично подготовился к экзамену. Решение. Обозначим события: Н1, Н2, Н3, Н4 - приглашен студент, подготовившийся на отлично, хорошо, удовлетворительно, и неудовлетворительно, соответственно, А – приглашенный студент ответил на все 3 вопроса. Р(Н1)=0,3; Р(Н2)=0,4; Р(Н3)=0,2; Р(Н4)=0,1 Находим условные вероятности: Р( А / Н1 )  1 ; Р( А / Н 2 )  (40 / 50)  (39 / 49)  (38 / 48)  0,504 ; Р( А / Н 3 )  (30 / 50 )  (29 / 49 )  (28 / 48)  0,187 ; Р( А / Н 4 )  (10 / 50)  (9 / 49)  (8 / 48)  0,006 Отсюда, согласно формуле Бейеса, получим 0,3  1 Р( Н 1 / А)   0,56 0,3  1  0,4  0,504  0,2  0,187  0,1  0,006 (Искомая вероятность сравнительно невелика. Поэтому для уточнения оценки желательно предложить студенту дополнительные вопросы). Пример 2. На автозавод поступили двигатели от трех моторных заводов. От первого завода поступило 10, от второго – 6 и от третьего – 4 двигателя. Вероятности безотказной работы этих двигателей в течение гарантийного срока соответственно равны 0,9; 0,8; 0,7. Какова вероятность того, что: а) установленный на машине двигатель будет работать безотказно в течение гарантийного срока; б) проработавший без дефектов двигатель изготовлен на первом заводе; на втором заводе. Решение. Обозначим А1 ,А2 , А3 события установки на автомашину двигателей, изготовленных соответственно на первом, втором или третьем моторных заводах. Вероятности этих событий таковы: Р(А1)=0,5 ; Р(А2)=0,3 ; Р(А3)=0,2 а) вероятность того, что наугад взятый двигатель проработает без дефектов, найдем по формуле полной вероятности: Р(В)=Р(А1)Р(В/А1)+Р(А2)Р(В/А2)+Р(А3)Р(В/А3)=0,5∙0,9+0,3∙0,8+0,2∙0,7=0,83 б) если двигатель проработал без дефектов гарантийный срок, то вероятности того, что он изготовлен на первом, на втором заводах, найдем по формуле Бейеса: Р( А1 ) Р( В / А1 ) 0,5  0,9 0,45 Р( А1 / В)     0,54; Р( В) 0,83 0,83 Р( А2 ) Р( В / А2 ) 0,3  0,8 0,24 Р( А2 / В)     0,29. Р( В) 0,83 0,83 3. Формула Бернулли. Пусть относительно некоторого случайного события А производится n независимых испытаний, в каждом из которых событие А может появиться с одной и той же вероятностью р. Тогда справедлива : Теорема. Вероятность Рn(m) того, что в n независимых испытаниях событие А появится ровно m раз определяется по формуле Бернулли. (4.3) Рn (m)  Cnm р m (1  р) nm , где Cnm  n!/(n  m)!m! Доказательство. Событие состоящее в m , что событие А происходит при каждом из m первых испытаний и не происходит при остальных n-m испытаниях, можно записать в виде совмещения n независимых событий: А  А А    A  A  A  A A .    m nm По теореме умножения вероятностей, вероятность такого совмещения событий будет равна рm n-m (1-р) . Событие А может произойти m раз при n испытаниях, но при этом может получиться другая последовательность чередований событий А и А и их число будет равно Сnm . Поэтому по теореме сложения вероятностей получим формулу Бернулли. 15 Вышеописанная схема, носящая название схемы Бернулли, описывает многие реальные ситуации: проверяется n изделий, событие А – появление изделия с браком, Рn(m) вероятность того, что среди n изделий окажется m бракованных; регистрируются n новорожденных, событие А – рождение девочек, Рn(m) – вероятность рождения m девочек; проверяется n лотерейных билетов, Рn(m) – вероятность выигрыша m билетов; в физическом эксперименте регистрируется n нейтронов, событие А – регистрация нейтрона с энергией в некотором интервале значений, Р n(m) – вероятность того, что из n нейтронов m будут иметь энергию в этом интервале и т.д. Замечание 1. Формула Бернулли позволяет легко определить число m наиболее вероятного наступления события А. Для этого найдем при каком значении m будут выполняться неравенства: Рn(m-1)<Pn(m) , Pn(m)≥Pn(m+1). Используя формулу Бернулли и сокращая общие множители, получим mq<(n-m+1)р, (m+1)q≥(n-m)р, где q=1-р Объединяя оба неравенства получим nр-q ≤ m < nр+р Итак, наивероятное число mo появления события А при n испытаниях можно определить исходя из неравенств: nр-q ≤ m0 < nр+р (4.4) Замечание 2. Если относительную частоту m/n события А обозначить через ωn , то неравенства р-q/n ≤ ωn < р+р/n показывают, что при n→∞ ωn стремится к классической вероятности события А. Пример 1. Для нормальной работы таксопарка на линии должно быть не менее восьми автомашин, а их имеется десять. Вероятность невыхода каждой машины на линию равна 0,1. Найти вероятность нормальной работы таксопарка. Таксопарк считается работающим нормально, если на линию выйдут восемь, девять или десять машин (событие А). По условию р=0,1, q=0,9. Тогда по теореме сложения и формуле 8 10 Бернулли Р( А)  Р10 (8)  Р10 (9)  Р10 (10)  С10  р 8  q 2  C109  р 9  q  C10  р10  0,94 Пример 2. Стрелок стреляет по цели пять раз. Вероятность поражения цели при одном выстреле р=0,8. Какова вероятность того, что цель будет поражена четыре раза? По формуле Бернулли Р5 (4)  С54  0,84  0,2  0,41 4. Формула Пуассона. Если число испытаний n достаточно велико и вероятность р наступления события А в отдельном испытании близка к нулю (р<0,1), то для вычисления Рn(m) применяется формула Пуассона (4.5) Рn (m)  (nр) m e nP / т! Пример 1. С базы в магазин привезли 500 изделий. Вероятность того, что изделие повредится при транспортировке равна 0,0002. Найти вероятность того, что в магазин прибудут 3 негодных изделия. Так как величина р=0,0002 достаточно мала, применим формулу Пуассона Р500 (3)  (500  0,0002) 3 /(e5000,0002  3!)  0,06 Пример 2. Предприятие изготовило и отправило заказчику 5000 бутылок сока. Вероятность того, что бутылка может оказаться битой равна 0,0002. Найти вероятности того, что в отправленной партии будет три битых бутылок. Решение. Дано: n = 5000, р = 0,0002, m = 3. Находим nр=5000∙0.0002=1 Воспользуемся формулой Пуассона: Р500 (3)  1/ 3!е 1  1/ 6е  0,061 5. Формула Лапласа. Если число испытаний n достаточно велико, то вычисления по формуле Бернулли становятся затруднительными. В подобных случаях применяется следующая формула Лапласа. Рn (m)  1 npq ( m  np npq ) (4.6) 16 где функция  ( x)  1 2 e  x2 2 и вероятность р отлична от нуля и единицы. Функция θ(х) табулирована (см. приложение) для значений 0 ≤ x ≤5. Если же x > 5, то значения функции приближенно считаем равным нулю. Для вычисления значений функции при х<0 можно пользоваться четностью функции θ(х):θ(-х)= θ(х). Пример. При проверке контрольных работ было выявлено, что 60% студентов из числа писавших работу смогли правильно ответить на все вопросы. Найти вероятность того, что 100 случайно взятых работ 60 написаны студентами сумевшими правильно ответить на все вопросы. По условию задачи m=60; n=100; р=0,6; q=0,4 По формуле Лапласа 1 m  np 1 60  60 0,3989 Р100 (60)  ( ) ( )  0,081 4,90 npq npq 100  0,6  0,4 24 (θ(0) по таблице равно 0,3989). 6. Интегральная формула Лапласа. Пусть производится n независимых испытаний в каждом из которых событие А может появиться с вероятностью р (0<р<1). Тогда при вычислении вероятности того, что событие А появится не менее m1 и не более m2 раз, можно пользоваться следующим утверждением. Теорема. Вероятность Рn(m1, m2) того, что событие А появится в n испытаниях не менее m1 раз и не более m2 раза, приближенно определяется по следующей формуле Рn ( m1 , m 2 )  tm2   (t )dt (4.7) tm1 где tm1  m1  np , tm2  m2  np npq npq Доказательство. На основании теоремы сложения имеем, что Рn (m1 , m2 )  m2  P (m) m  m11 n , (m1≤ m ≤ m2) Отсюда, используя формулу Лапласа (4.5) получим m2  m  np  m2  m  np   (m  1)  np m  np  1      Рn (m1 , m2 )      npq  npq  m1  npq   npq npq  m1 m2    (t m )t m , гдеt m  t m 1  t m  1 / npq m1 Так как последняя сумма является интегральной суммой для функции θ(t) на отрезке tm1 < t < tm2 , то при n→∞ или Δtm→0 получим Рn ( m1 , m 2 )  t m2 t m2 1   (t )dt  2 t m1 e  t2 2 dt t m1 Последний интеграл не выражается в элементарных функциях. Введен стандартный интеграл вероятностей, который, очевидно является первообразной для θ(x).  ( x)  1 2 x e  t2 2 dt (4.8.) 0 Тогда на основании формулы Ньютона-Лейбница имеем: 17  m  np       m1  np  Рn (m1 , m2 ) = Рn (m1  m  m2 )   (t m2 )   (t m1 )   2  npq   npq      (4.9) Эта формула и называется интегральной формулой Лапласа. При применении данной формулы значения функции Ф берутся из таблицы (см.приложение), где приведены значения функции при 0 ≤ х ≤5. При x > 5 полагают, что Ф(х) =0,5. Легко проверить следующие свойства функции Ф(х): 1) Ф(0)=0 ; 2) Ф (+∞)=½ ; 3) Ф(-х)=–Ф(х) Пример 1. Вероятность поражения цели при одиночном выстреле р=0,2. Какова вероятность того, что при залпе из 100 орудий цель будет поражена не менее 20 раз? По условию задачи Р=0,2 n=100, 20 ≤ m ≤ 100. Тогда npq  100  0.2  0.8  4 ; t1 = ¼ (20 – 100 ∙ 0.2)=0 ; t2 = ¼ (100 – 100 ∙ 0.2) = 20. Отсюда Р(20 ≤ m ≤ 100) = Ф(20) – Ф(0) = 0,5 – 0 = 0,5. Пример 2. Вероятность того, что больной не прошел осмотр врачебной комиссии равна 0,2. Найти вероятность того, что среди 400 случайно отобранных больных непрошедших осмотр окажутся от 70 до 100 больных. По условию, р=0,2 , n=400, q = 1–p =0,8 , t1=70, t2=100. Тогда npq  400  0.2  0.8  8 ; t1=½(70 – 400∙0.2) = - 1,25; t2=1/8(100 – 400∙0.2)=2,5. По таблице (приложение) находим Ф(-1,25)= - Ф (1,25)=-0,3944; Ф(2,5)=0,4938. Следовательно, Р400(70;100)=Ф(t2) – Ф(t1)=0,8882 7. Формула вероятности отклонения относительной частоты от постоянной вероятности в независимых испытаниях. В условиях схемы Бернулли имеет место следующая теорема. Теорема. Вероятность того, что отклонение относительной частоты m/n наступления события А от постоянной вероятности р, по абсолютной величине не превосходит заданное число ε > 0, определяется по формуле P m / n  р     2Ф  n / pq  (4.10.) Доказательство. Из интегральной формулы Лапласа получим Р m / n  p     Р(  (m / n  р )   )  P(np  n  m  np  n )   np  n  np            np  n  np    n     n   2  Ф       npq   npq  npq npq          n   pq  Пример. Определить вероятность того, что при 10000 бросаний монеты частота появления герба будет отклоняться от постоянной вероятности р=0,5 не больше чем ε=0,01. Пользуясь формулой Р m / n  р     2Ф   n / pq , ε=0,01 , Р=0,5 получим   Р m / n  0,5  0,01  2Ф2 . По таблице (приложение) 2Ф(2)=0,9545 8. Закон больших чисел по формуле Бернулли. Теорема. При неограниченном увеличении числа испытания относительная частота случайного события сходится к классической вероятности. Доказательство. Так как Ф(+∞)=0,5 , то  Р( m / n)  р     1 при n →∞ для любого ε > 0 и n →∞ событие т  2Ф   n / pq  1 при n →∞. Отсюда (m / n)  р   достоверно, lim (m / n)  р . n  18 Эта теорема имеет важное значение для статистики и эконометрики, обосновывая выбор частоты осуществления некоторого события в качестве вероятности этого события. Замечание. Величина   2  n / pq называется надежностью оценки   относительной частоты, а интервал(p – β , p + β)– доверительным интервалом. Пример. Определить приближенно доверительный интервал с надежностью 0,997, в котором будет находиться наблюдаемая частота случайного события, если его вероятность р=0,64 , а число испытаний n=2500. Здесь необходимо определить ε. Поскольку Рn  m / n  р     2Фt   0,997 , то из таблицы (см.приложение 2) по числу 0,997 находим t=3,00. Так как t    n / pq , то   0,64  0,36 / 2500  0,03 Следовательно, 0,64-0,03 ≤ m/n ≤ 0,64+0,03 отсюда 1525 ≤ m ≤ 1675. Решения типовых задач. Задача 1. Контролер проверяет изделия на соответствие стандарту. Известно, что вероятность соответствия стандарту изделий равна 0,9. а) какова вероятность того, что из двух проверенных изделий оба будут стандартными, если события появления стандартных изделий независимы? б) какова вероятность того, что из двух проверенных изделий только одно стандартное? Решение. а) учитывая то, что события А1 (первое изделие стандартное) и А2 (второе изделие стандартное) независимы, используем формулу Р(А1А2)=Р(А1)Р(А2) , т.е. Р(А1А2)=0,9 ∙ 0,9=0,81 б) пусть В1 – событие, состоящее в том, что только первое изделие стандартное; В2 – только второе изделие стандартное. Событие В1 можно рассматривать как произведение двух событий В1  А1  А2 , т.е. появилось первое событие и не появилось второе. Аналогично В2  А1  А2 . События В1 и В2 несовместные, поэтому Р( В1  В2 )  Р( В1 )  Р( В2 )  Р( А1 ) Р( А2 )  Р( А1 ) Р( А2 ) Если обозначить вероятность появления стандартного изделия через р, а вероятность противоположного события через q=1-р , то получим Р(В1 + В2) = pq + qp = 2pq В данном случае Р(В1 + В2)=2∙0,9∙0,1=0,18 Задача 2 Предприниматель вложил средства поровну в два контракта, каждый из которых принесет ему прибыль 100%. Вероятность того, что любой из контрактов не сорвется, равна 0,8. Какова вероятность того, что по истечении контрактов предприниматель по меньшей мере ничего не потеряет? Решение: Пусть A1 и A2 – это выполнение соответствующих контрактов с вероятностью р=0,8 . Эти события являются несовместимыми. Противоположные им события A1 и A2 – это невыполнение контрактов с вероятностью q=0,2 . Тогда события B1  A1  A2 , B2  A1  A2 и A1 ∙ A2 являются несовместимыми. Предприниматель по крайней мере ничего не потеряет, если либо не сорвется один из контрактов( другой возместит ему потери ), либо будут выполнены оба контракта. Поэтому искомая вероятность P( B1  B2  A1  A2 )  P( A1  A2 )  P( A1  A2 )  P( A1  A2 )  P( A1 )  P( A2 )  P( A1 )  P( A2 )  P( A1 )  P( A2 )   pq  qp  pp  0,8  0,2  0,2  0,8  0,8  0,8  0,96 . Задача 3. В районе 100 поселков. В пяти из них находятся пункты проката сельхозтехники. Случайным образом отобраны два поселка. Какова вероятность того, что в них окажутся пункты проката? Решение. Пусть А – событие, состоящее в том, что в первом выбранном поселке находится пункт проката; В – событие, состоящее в том, что во втором выбранном поселке находится пункт проката? 19 Вероятность события А – Р(А)=5/100. Рассмотрим событие В при условии, что событие А произошло. Найдем условную вероятность Р(В/А)=4/99 Искомая вероятность найдется как вероятность произведения двух событий Р(АВ)=(5/100)∙(4/99)=1/495 Задача 4. На станцию прибыли 10 вагонов разной продукции. Вагоны помечены номерами от одного до десяти. Найти вероятность того, что среди пяти выбранных вагонов окажутся вагоны с номерами 2 и 5? Решение. Общее число возможных комбинаций для контрольного вскрытия равно числу сочетаний из 10 по 5, т.е. С105 . Число исходов, благоприятствующих данному событию, будет равно числу таких комбинаций, в которых две цифры будут 2 и 5, а остальные будут составлять сочетания, число которых равно Р  С83 / С105  8!5!5!/ 3!5!10! 2 / 9 С83 . Тогда искомая вероятность найдется по формуле Задача 5. В результате обследования были выделены семьи, имеющие по четыре ребенка. Считая вероятности появления мальчика и девочки в семье равными, определить вероятности появления в ней: а) одного мальчика; б) двух мальчиков. Решение. Вероятность появления мальчика или девочки равна p=½. Вероятность появления мальчика в семье, имеющей четырех детей, находится по формуле Бернулли: Р4 (1)  С 41 pq 3  (4! / 3!)(1 / 2)(1 / 2) 3  1 / 4 .Вероятность появления в семье двух мальчиков равна Р2 (1)  С 42 p 2 q 2  (4! / 2!2!)(1 / 2) 2 (1 / 2) 2  3 / 8 Задача 6. Из 20 акционерных обществ (АО) четыре являются банкротами. Гражданин приобрел по одной акции шести АО. Какова вероятность того, что среди купленных акций две окажутся акциями банкротов? 6 Решение. Общее число комбинаций выбора АО равно числу сочетаний из 20 по 6, т.е. С 20 . Число благоприятствующих исходов определяется как произведение С42  С164 , где первый сомножитель указывает число комбинаций выбора АО-банкротов из четырех. Но с каждой такой комбинацией могут встретиться АО, не являющиеся банкротами. Число комбинаций таких АО будет С164 . Поэтому искомая вероятность запишется в виде 6 , т.е. Р = 0,28. Р  С42  С164 / С20 Задача 7. В команде 10 спортсменов, из которых 4 женщин. По номерам наудачу отобраны 7 спортсменов. Какова вероятность того, что среди отобранных лиц окажутся три женщины? Решение. Общее число возможных исходов выбора равно C107 . Подсчитаем число исходов, благоприятствующих событию А- « Среди отобранных 7 лиц трое окажутся женщинами ». Поскольку трех женщин придется выбрать из четырех и независимо от этого выбора четырех мужчин из шести, то искомое число исходов равно C43  C64 . Тогда искомая вероятность P( A)  C43  C64 / C107  0,5 . Задача 8. Студент знал 25 билетов из 30 и был приглашен на экзамен вторым. Какова вероятность того, что студент знает наудачу вытянутый билет? Решение. Обозначим через А событие - « Студент знает вытянутый билет ». Рассмотрим гипотезы: B1 - « Перед ним уже был вытянут билет, который студент знал »; B2 - « Перед ним уже был вытянут билет, который студент не знал ». Тогда P( B1 )  25 / 30  5 / 6. P( B2 )  5 / 30  1 / 6. P( A / B1 )  24 / 29, P( A / B2 )  25 / 29. Вероятность А определяется по формуле полной вероятности 5 24 1 25 P( A)  P( B1 )  P( A / B1 )) P( B2 )  P( A / B2 )      0,83 . 6 29 6 29 Задачи к лекциям 4-5. 1. На станках А, В и С изготовляют соответственно 25, 35 и 40% всех деталей. В их продукции брак составляет соответственно 15, 12 и 6%. Найти вероятность того, что наугад взятая деталь дефектна. 20 2. Имеются три одинаковые урны. В первой урне 15 белых шаров, во второй – 10 белых и 5 черных, в третьей – 15 черных шаров. Из выбранной наугад урны вынули белый шар. Найти вероятность того, что шар вынут из первой урны. 3. По цели произведено три последовательных выстрела. Вероятность попадания при первом выстреле Р1=0,5. При втором Р2=0,6 , при третьем Р3=0,8. При одном попадании вероятность поражения цели равна 0,4 , при двух – 0,7, при трех – 1,0. Найти вероятность поражения цели при трех выстрелах. 4. По линии связи передаются два сигнала А и В соответственно с вероятностями 0,72 и 0,28. Из-за помех 1/6 часть А – сигналов искажается и принимается как В-сигнал, а 1/7 часть переданных В-сигналов как А-сигналы. а) Определить вероятность того, что будет принят А сигнал. б) Известно, что принят А-сигнал. Какова вероятность того, что он же и был передан? 5. Для сигнализации о том, что режим автоматической линии отклоняется от нормального, используется индикатор. Он принадлежит с вероятностями 0,2; 0,3 и 0,5 к одному из трех типов, для которых вероятности срабатывания при нарушении нормальной работы линии равны соответственно 1; 0,75 и 0,4. От индикатора получен сигнал. К какому типу вероятнее всего принадлежит индикатор? 6. В магазин поступили электролампы из двух заводов, причем 60% лампочек поставил первый завод. Изделия первого завода содержат 5% брака, а второго – 10%. Найти вероятность того, что купленная в магазине одна лампа окажется годной? 7. В районе 24 человека обучаются на заочном отделении университета, из них 6 – на матфаке, 12 – на педфаке и 6 – на экономфаке. Вероятность успешной сдачи экзаменов на сессии для студентов соответственно равны 0,6; 0,76 и 0,8. Найти вероятность того, что наудачу взятый студент, сдавший успешно экзамены, окажется студентом экономфака. 8. Перед посевом 90% всех семян было обработано химикатами. Вероятность поражения вредителями для растений из обработанных семян равна 0,08 , для растений из необработанных семян – 0,4. Взятое наудачу растение оказалось пораженным. Какова вероятность, что оно выращено из обработанного семени? 9. Из 25 студентов группы 5 студентов знают все 30 вопросов программы, 10 студентов выучили по 25 вопросов, 7 студентов по 20 вопросов, трое по 10. Случайно вызванный студент ответил на два заданных вопроса. Какова вероятность того, что он из тех трех студентов, которые подготовили 10 вопросов? 10. С первого станка-автомата на сборку поступают 40%, со второго 35%, с третьего – 25% деталей. Среди деталей выпущенных первым станком 10% брака, вторым – 5%, третьим – 2%. Найти вероятность того, что поступившая на сборку деталь не бракованная. 11. 60% учащихся в школе – девочки. 80% девочек и 60% мальчиков имеют калькуляторы. В учительскую принесли потерянный кем-то калькулятор. Найти вероятность того, что калькулятор потеряла девочка. 12. Покупатель с равной вероятностью посещает 3 магазина. Вероятность того, что он купит товар в первом магазине, равна 0,4 , во втором – 0,3 , в третьем – 0,2. Определить вероятность того, что покупатель купит товар только в одном магазине, если каждый магазин он посетил дважды. 13. Всхожесть семян данного растения составляет 80%. Найти вероятность того, что из пяти семян взойдут: а) пять семян; б) не четырех семян; в) не более одного. 14. Что вероятнее выиграть у равносильного партнера: а)три партии из четырех или пять партий из восьми?; б)не менее двух партий из четырех или не менее трех из пяти? 15. Вероятность того, что расход электроэнергии в течении одних суток не превосходит установленной нормы равна 0,85. Какова вероятность того, что в данном месяце (30 дней) в течении 20 суток расход энергии не превысит нормы? 16. Тест опроса состоит из пяти вопросов. На каждый даны три ответа, среди которых один правильный. Какова вероятность того, что методом угадывания студенту удается выбрать, по крайней мере, четыре правильных ответа? 17. Стрелок выполнил 400 выстрелов. Найти вероятность 325 попаданий, если вероятность попадания при каждом выстреле – 0,8. 21 18. Завод отправил в магазин 5000 доброкачественных изделий. Вероятность повреждения изделий в пути равна 0,0028. Найти вероятность того, что в пути будет повреждено: а) 3 изделия; б) 1 изделие; в) не более 3-х изделий. 19. Тираж книги - 200 тыс. экземпляров. Вероятность издания бракованной книги равна 0,00005. Найти вероятность того, что тираж содержит 6 бракованных книг. 20. На факультете 900 студентов. Вероятность дня рождения каждого студента в данный день равна 1/305. Найти вероятность того, что найдутся 3 студента с одним и тем же днем рождения. 21. Известно, что 80% специалистов в районе имеют высшее образование. Найти вероятность того, что из 100 наудачу отобранных специалистов высшее образование имеет: а) не менее 70; б) от 65 до 90 человек. 22. В автопарке 70 машин. Вероятность поломки машины 0,2. Найти наивероятнейшее число исправных автомобилей и вероятность этого числа. 23. При проведении некоторого опыта вероятность появления ожидаемого результата равна 0,01. Сколько раз нужно провести опыт, чтобы с вероятностью 0,5 можно было бы ожидать хотя бы одного появления этого результата. 24. Отдел контроля проверяет на стандартность 900 деталей. Вероятность того, что деталь стандартна, равна 0,9. С вероятностью 0,9544 найти границы, в которых заключено число стандартных деталей. 25. Вероятность того, что человек в период страхования будет травмирован, равна 0,006. Компанией застраховано 1000 человек. Годовой взнос с человека составляет150 руб. В случае получения травмы застраховавшийся получает 12000 руб. Какова вероятность того, что выплата по страховкам превысит сумму страховых взносов? 26. Всхожесть зерна составляет 90%. Определить вероятность того, что для отобранных случайным образом 100 зерен относительная частота всхожести будет отличаться от вероятности всхожести Р=0,9 по абсолютной величине не более чем на 0,1. 27. Сколько семян необходимо посеять с вероятностью всхожести 0,99, чтобы частота всхожести отличалась от 0,95 меньше чем на 0,01? 28. Вероятность появления события в каждом из n независимых испытаний равна 0,6. Найти число испытаний m, при котором с вероятностью 0,8664 можно ожидать, что относительная частота появления события отклонится от его вероятности по абсолютной величине не более чем на 0,003. 29. Среди 10000 лотерейных билетов 10% выигрышные. Определите: а)вероятность выигрыша при покупке 5 билетов; б)количество билетов необходимых приобрести, чтобы выиграть с вероятностью 0,9? 30. Три организации представили в контрольное управление счета для выборочной проверки: первая – 15 счетов, вторая – 10, третья – 25. Вероятности правильного оформления счетов у этих организаций соответственно таковы: 0,9; 0,8; 0,85. Был выбран один счет, и он оказался правильным. Определить вероятность того, что этот счет принадлежит второй организации. Лекция 6-7. Случайные величины и их числовые характеристики. Понятие случайного события не достаточно для описания результатов наблюдений (испытаний) некоторых величин, имеющих численное значение. Например, при анализе прибыли предприятия в первую очередь интересуются ее размерами; при анализе покупаемости товара интересуются количеством товара на данный момент; при анализе артиллерийской стрельбы интересуются дальностью полета снаряда и т.д. Поэтому понятие случайного события дополняется понятием случайной величины. Появление тех или иных значений случайной величины можно рассматривать как случайные события. А различным событиям, как известно из рассмотренного выше, соответствуют различные вероятности. Поэтому возможные значения случайной величины отличаются между собой с вероятностной точки зрения. 22 Определение. Случайной величиной (СВ) называется величина, которая под воздействием случайных факторов может с определенными вероятностями принимать те или иные значения из некоторого множества чисел. Различают дискретные и непрерывные случайные величины. Величина Х называется дискретной случайной величиной (ДСВ), если все ее значения образуют конечную или бесконечную числовую последовательность чисел и принятие ею каждого из указанных значений есть случайное событие с определенной вероятностью. Следовательно, для того чтобы охарактеризовать случайную величину, необходимо не только указать, какие значения она может принимать, но и как часто, т.е. с какой вероятностью она принимает эти значения. Иными словами, нужно задать закон распределения этой случайной величины. Если обозначить через рк=Р(Х=хк) – вероятность того, что случайная величина Х принимает значение хк , то вероятность рк есть функция от хк. Эта функция называется законом распределения случайной величины Х. Закон распределения для дискретной случайной величины Х обычно задается в виде таблицы Возможные значения Х Вероятность рк=Р(Х=хк) х1 р1 х2 р2 … … хк рк … … хn рn … … Дискретными случайными величинами являются, например, число вызовов абонентов, поступающих на АТС; объем продаж холодильников в супермаркете; школьная система балльной оценки успеваемости, при которой учащийся может получить одну из возможной оценки; выручка магазина за день; принадлежность к той или иной политической партии случайного прохожего; число появления некоторого события в n испытаниях; количество денег в кармане президента корпорации; любые измерения или наблюдения; данные о ценах на рынке за изучаемый период и т.д. Величина Х называется непрерывной случайной величиной (НСВ), если все ее возможные значения заполняют некоторый интервал (а; в) (конечный или бесконечный). Ясно, что задать закон распределения аналогичным образом нельзя, так как нельзя составить таблицу всех возможных значений такой величины, да и вероятность для случайной величины Х непрерывного типа принимать конкретные значения Х=хк равна нулю. Непрерывными случайными величинами являются например, характеристика текущей успеваемости учащихся некоторой совокупности классов; время сенсомоторной реакции в ответ на определение стимульной информации; время требующееся для решения задачи формирования понятий в определенный промежуток времени; время безотказной работы электрифицированного рекламного щита; уровень воды в водоеме; рост студентов одного из вузов; результат многократного взвешивания животного; диаметров деталей, изготовленных цехом, дальность полета снаряда; время ожидания автобуса; курсы валют, доход, объемы ВНП, ВВП и т.п. Закон распределения вероятностей для НСВ Х должен позволять находить вероятность попадания ее значений в некоторый скольугодно малый интервал (х; х+Δх)Є(а; в). Обозначим эту вероятность через Р(х<X<x+Δх). По аналогии как это делается в механике при изучении распределения плотности масс, вводим определение плотности распределения случайной величины Х, как 23 Px P( x  X  x  x) P( X  x  x)  P( X  x)  lim  lim  f ( x) x 0 x 0 x 0 x x x lim Отсюда Р(X<x+Δx) – P (X<x)=ΔPx=f(x) Δx+α(Δx) , где α(Δx)/Δx стремится к нулю при Δx→0. Следовательно αPx= f(x) dx. Зная дифференциал вероятности αPx мы можем с помощью интегрирования найти вероятность попадания значений Х в любой интервал (а; в) b Р(а  X  b)   f ( x)dx (5.1.) a Таким образом, для задания значений распределения непрерывной случайной величины достаточно задать теоретическую функцию распределения F′(x)=f(x) или d F(x)=f(x)dx . При расчетах с непрерывными случайными величинами дифференциал f(x)dx играет ту же роль, какую играют pк при расчетах с дискретными случайными величинами. Вероятность того, что случайная величина примет значение из интервала (а; в) равна площади криволинейной трапеции, ограниченной осью ОХ, прямыми х=а, х=в и графиком функции плотности f(x), называемой кривой распределения вероятностей. Функция распределения F(x)= P (X<x), задает закон распределения и для дискретной случайной величины. Если дискретные значения случайной величины х1, х2 , х3 … хn расположены в порядке возрастания, то каждому значению хi этих величин ставится в соответствие сумма вероятностей всех предыдущих значений и вероятностей рi: х1 х2 х3 … р1 р1+р2 р1 + р2+ р3 … 0, р ,  1  р  р , Отсюда F ( x)   1 2           р1  р 2  ...  р n 1 ,  1, еслиx  x1 ; еслиx1  x  x 2 ; еслиx2  x  x3 ;  еслиxn 1  x  x n ; еслиx  x n Непосредственно из определений функции распределения F(x) и плотности распределения f(x) вытекают следующие свойства этих функций: 1. 0≤F(x)≤1 1. f ( x)  F ( x) 2. F(x1)< F(x2), если x1≤x2 2. f(x)≥0  3. F(-∞)=0 3.  f ( x)dx  1  4. F(+∞)=1 x 4. F ( x)   f (t )dt  в 5. P(а≤x<в)=F(в)-F(a) 5. P(a  x  в)   f ( x)dx a 24 В соответствии указанным свойствам функцию F(x) называют интегральной функцией распределения, а f(x) – дифференциальной функцией распределения.  Числовые характеристики случайной величины. Для любой CВ важную роль помимо интегральной и дифференциальной функцией распределения играют числовые характеристики ее распределения. Важнейшими из них являются математическое ожидание (среднее значение) характеризующее центр группирования вероятностного (частного) распределения CВ и дисперсия – мера ширины или рассеяния случайной величины около математического ожидания (среднего значения). Математическое ожидание (среднее) ДСВ Х с знаком распределения рi=Р(Х=хi) n определяется по формуле: M ( X )   xi  pi i 1 В частности, когда все значения хi равновероятны, т.е. pi=1/n математическое ожидание равно среднему арифметическому. Математическое ожидание НСВ Х с известной функцией плотности  распределения f(x) определяется по формуле: M ( X )   xf ( x)dx  Дисперсия как для дискретной так и непрерывной СВ Х определяется по  формуле: Д ( Х )  М ( Х  М ( Х ))   М ( Х )  М ( Х ) , илиД ( Х )   х 2 f ( x)dx  M ( X )2 2 2 2  Чтобы сохранить размерность СВ, обычно рассматривают стандартное отклонение – среднее квадратичное разброса СВ , т.е.  ( Х )  Д ( Х ) . Для оценки разброса значений СВ в процентах относительно среднего значения вводится коэффициент вариации V(X), рассчитываемый по формуле: V ( X )   ( X )100% /М ( Х ) Основные характеристики СВ сами по себе имеют важные приложения в экономических, психолого-педагогических и других исследованиях. Например для принятия решении о покупках акций важно в первую очередь знать средний доход обусловленный степенью разброса среднего дохода (дисперсией), что эквивалентно знанию расположения и ширины частотного распределения возможных доходов на акции. Меры разброса часто применяются при анализе риска различных активов в портфеле и портфеля активов в целом финансовом анализе. В педагогическом эксперименте важно определить среднее значение и меру разброса, например, результатов тестирования учащихся и т.д. Приведем без доказательства (рекомендуется доказать их самостоятельно!) основные свойства математического ожидания и дисперсии СВ: 1. М(С)=С, где С постоянная (неслучайная) величина 2. М(СХ)=СМ(Х) 3. М(Х±Y) = M(X) ±M(Y) 4. M(X-M(X))=0 5. M(XY)=M(X)M(Y), где X и Y независимы 6. М ( Х )  М ( Х ) 7. М(Х±С)=М(Х) ±С 1. D(C)=0 2. D(CX)=C2D(X) 3. D(Х±Y) = D(X) ±D(Y) 4. D(X)=M((X-C)2)-M2(X-C) 1 5. D( X )  D( X ) n 6. D(CX+в)=C2D(X) 25 В качестве приложений этих свойств найдем математическое ожидание и дисперсию случайной величины Х – числа появлений события А в n независимых испытаниях, в каждом из которых вероятность р появления события А постоянна. Это число равно сумме появлений события А в каждом испытании: Х=Х1 + Х2 + …+Хn , М(Х)=М(Х1) + М(Х2)+…+М(Хn) Но в каждом испытании событие А может либо появиться, либо не появиться. Поэтому М(Х1)=1∙р+0∙q=p, откуда М(Х)=np (q=1-p). Так как D( xi )  M ( xi2 )  M ( xi )2  12  р  0 2  q  р 2  р(1  р)  pq , и D(X)= D(X1)+ D(X2) +…+D(Xn) , то D(X)=npq Итак, для биномиального распределения ДСВ Х, М(Х)=np; Д(Х)=npq. Пример. В пяти торговых точках проверяется годовой баланс. Вероятность правильного оформления баланса в каждой точке равна 0,7. Найти математическое ожидание и дисперсию правильно оформленных балансов. Решение. Дано: n=5, p=0,7 , q=0,3. Тогда М(Х)=5∙0,7=3,5. D(X)=5∙ 0,7 ∙0,3=1,05. Кроме математического ожидания и дисперсии, для оценки случайной величины используются и другие числовые характеристики, например моменты. Начальным моментом порядка k случайной величины Х называется математическое ожидание величины Хk. νk=М(Хk) Центральным моментом порядка k случайной величины Х называется математическое ожидание величины (Х-М(Х))к . μк =М((Х-М(Х))к. Начальный момент первого порядка ν1=М(Х) представляет математическое ожидание самой случайной величины Х. Центральный момент первого порядка равен нулю: μ1 =М((Х-М(Х)). Центральный момент второго порядка представляет собой дисперсию случайной величины: μ2 =М((Х-М(Х))2=D(X). Для дискретных случайных величин: n  k   xik pi ; i 1 n  k   ( xi  M ( X )) k  Pi i 1 Модой М0 дискретной CВ называется то значение СВ, имеющее наиболее вероятное значение. Модой М0 непрерывной случайной величины Х называется такое ее значение, которому соответствует максимальное значение ее плотности вероятности. Медианой ДСВ называется значение СВ, которое делит таблицу распределения на две части, что вероятность попадания в одну из них равна 0,5. Медианой Ме непрерывной случайной величины Х называется такое ее значение, которое определяется равенством Р(Х<Ме(X))=P(X > Ме (Х)). Значение хр , для которого Р(Х< хр)=р называется квантилью, отвечающей заданному уровню вероятности. Ее иногда называют 100р-процентной квантилью, где р – заданная вероятность. Например, медиана – это квантиль х0,5. Начальные и центральные моменты для непрерывной случайной величины находятся по формулам: 26   к  М ( х )   х f ( x)dx , к k к    M ( X  M ( X ))    (( X  M ( X )) k k f ( x)dx  Пример 1. Два консервных завода поставляют продукцию в магазин в пропорции 2:3. Доля продукции высшего качества на первом заводе составляет 90%, а на втором – 80%. В магазине куплено 3 банки консервов. Найти математическое ожидание и среднее квадратичное отклонение числа банок с продукцией высшего качества. Решение. Вначале составит закон распределения случайной величины Х – числа банок с продукцией высшего качества среди купленных трех банок. Вероятность показания события А – куплена банка с продукцией высшего качества – найдем по формуле полной вероятности: Р(А)=0,9(2/3) + 0,8(3/5)=0,84. Закон распределения случайной величины Х можно определить, используя формулу Бернулли Рn (m)  Cnm p m q nm Случайная величина Х может принимать значения 0, 1, 2, 3. Закон ее распределения (с учетом того, что p=0,84 , q=0,16) примет вид Х р 0 0,0041 1 0,0645 2 0,3367 3 0,5927 Тогда М(Х) = 0 ∙ 0,0041 + 1 ∙ 0,0645 + 2 ∙ 0,3367 + 3 ∙ 0,5927 = 2,520 D(X) = 1∙ 0,0645 + 4 ∙ 0,3367 + 9 ∙ 0,5927 – 2,5202= 0,4032,  ( Х )  0,4032  0,635 Пример 2. Случайная величина Х задана функцией распределения вероятностей если x  2, 0,  F ( X )  ( x  2) 2 1,  если если 2  x  3, х3 Найти плотность вероятности f(x) и вероятность попадания СВ Х в интервалы (1; 2,5) , (2,5; 3,5). Решение. Плотность вероятности находим по формуле f(x)=F'(x); 0,  f ( X )  2 x  4 0,  если x  2, если 2  x  3, если х  3 Вероятности попадания СВ Х в интервалы вычисляем по формуле (5.1) Р(1<X<2,5)=F(2,5) – F(1) =0,52 – 0=0,25, P(2,5<X<3,5)=F(3,5) – F(2,5)=1 – 0,25=0,75 Пример 3. Плотность вероятности непрерывной случайной величины Х если x  1, 0,  f ( X )  x  1/ 2 если 1  x  2, 0,  х2 если Найти функцию распределения F(x) x  f ( x)dx  0, Решение. F ( x)   1 x F ( x)  если х≤1, x  f ( x)dx   f ( x)dx   f ( x)dx  0  x  x F ( x)     1 f ( x)dx    2 / 2  (1 / 2) x  ( x 2  x) / 2, если 1<x≤2 1 2 x 2 1 2 1 f ( x)dx   f ( x)dx   f ( x)dx ( x 2  x) / 2  1, если x>2 Пример 4. СВ Х задана плотностью вероятности f(x)=x/2 в интервале (0;2), вне этого интервала f(x)=0. Найти математическое ожидание и дисперсию величины Х. 27 Решение. На основании формул  2 1 x3 М ( Х )   x f ( x)dx   x  xdx  2 23  0  2  0 4 3 2 x 1 x4 4 D( x)   x f ( x)dx  M ( X )   x  dx      2 2 4 3  0 2 2 2 2  2 0 16 16 16 2    9 8 9 9 Пример 5. Среди 10 лотерейных билетов имеется 4 билета с выигрышем. Наудачу покупают 2 билета. Написать закон распределения вероятностей числа выигрышных билетов среди купленных. Решение. Пусть Х – случайная величина числа выигрышных билетов среди купленных 2 билетов. Очевидно, что она может принимать значения: х1=0, х2= 1 х3=2. Для определения вероятности появления каждого из этих значений воспользуемся следующей формулой: где m=0,1,2, - число выигрышных билетов среди наудачу Р( Х  m)  CMm  CNnmM / СNn , купленных n=2 билетов; N=10 – всего имеющихся билетов, М=4 – число выигрышных среди 10 билетов. Вычисляя соответствующие вероятности, получим: Р1=Р(Х=0)=1/3; Р2=Р(Х=1)=8/15; Р3=Р(Х=2)=2/15 Для проверки вычислений сложим Р1 + Р2 + Р3 =1/3 + 8/15 + 2/15 =1 Следовательно, искомый закон распределения имеет вид Х Р 0 5/15 1 8/15 2 2/15 Пример 6. Баскетболист делает три штрафных броска. Вероятность попадания при каждом броске равна 0,7. Построить ряд распределения числа попаданий мяча в корзину. Решение. Пусть Х – случайная величина числа попаданий мяча в корзину. Баскетболист может не попасть ни разу, один раз, два раза и все три раза, х 1=0, х2= 1 х3=2. Вероятности вычисляем по формуле Бернулли, при этом n=3 , p=0,7 , q=0,3: р1  Р3 (0)  С30  р 0  q 3  0,33  0,027 ; р2  Р3 (1)  С31  р1  q 2  3  0,7  0,32  0,189 ; р3  Р3 (2)  3  0,7 2  0,3  0,441 ; Р4  Р3 (3)  0,343 Тогда ряд распределения случайной величины числа попаданий мяча в корзину при трех бросках примет вид Х 0 1 2 3 Р 0,027 0,189 0,441 0,343 Пример 7. Случайная величина Х задана плотностью вероятности f(x)=C(x2+2x) в интервале (0;1). Вне этого интервала f(x)=0 . Найти параметр С.  Решение. 1  f ( x)dx  1 , C  ( x  0 2  2 x)dx  C x / 3  x 3 2  1  4С / 3  1 . Откуда С=3/4 0 Пример 8. Случайная величина Х задана в интервале (0;π) плотностью вероятности f(x)=1/2 sinx, вне этого интервала f(x)=0. Найти дисперсию величины Х. Решение. Для нахождения дисперсии используем формулы.    1 2 2 D( x)   x f ( x)dx  M ( X ) ; М ( Х )   x f ( x)dx   x sin xdx . 20   Интегрируя по частям, получаем Мх=π/2. Интегрируя по частям дважды, получаем   1 2 2 2 2 0 x f ( x)dx  2 0 х sin xdx  2  2 Следовательно D( x)  4  2 28 Задачи к лекциям 6-7. 1. В партии из 25 кожаных курток 5 имеют скрытый дефект. Покупают 3 куртки. Найти закон распределения числа дефектных курток среди купленных. 2. Устройство состоит из трех независимо работающих элементов. вероятность отказа каждого элемента 0,15. Составить закон распределения отказавших элементов. 3. Вероятность того, что при составлении бухгалтерского баланса допущена ошибка, равна 0,3. Аудитору на заключение представлено 3 баланса предприятия. Составить закон распределения числа положительных заключений на проверяемые балансы. 4. Вероятность того, что аудитор допустит ошибку при проверке бухгалтерского баланса, равна 0,05. Аудитору на заключение представлено 2 баланса. Составить закон распределения числа правильных заключений на проверяемые балансы. 5. Вероятность сбоя в работе АТС равна 0,1. Составить закон распределения числа сбоев, если в данный момент поступило 5 вызовов. 6. Имеется 4 различных ключа, из которых только один подходит к замку. Составить закон распределения числа опробованных ключей, если опробованный ключ в дальнейшем не участвует в испытаниях. 7. В лотерее из 100 билетов разыгрываются два выигрыша на сумму 200 руб. и 60 руб. Стоимость билета 10 руб. Составить закон распределения суммы чистого выигрыша для лица, купившего два билета. 8. Задан ряд распределения: Х Р 2 0,40 3 0,20 5 0,20 6 0,05 7 0,10 10 0,05 Найти М(Х), ζ(X) и M(2X2 + 3) 9. Два товароведа проверяют партию изделий. Производительность их труда соотносится как 5:4. Вероятность определения брака первым товароведом составляет 85%, вторым – 90%. Из проверенных изделий отбирают четыре. Найти: а) математическое ожидание и б) дисперсию числа годных изделий среди отобранных. 10. В группе из 10 спортсменов 6 мастеров спорта. Отбирают (без возвращения!) 3 спортсмена. Составить закон распределения СВ Х-числа мастеров спорта из отобранных спортсменов. Найти математическое ожидание и дисперсию CВ X. 11. Предприниматель рассматривает возможность покупки акций трех предприятий, по каждой из которых известна доходность, как отношение величины получаемого дохода за период времени к цене акции, и вероятности возможных значений доходности. Акции какого предприятия следует считать более доходными, если руководствоваться средним значением (математическим ожиданием) доходности? Предприятие 1 Доходность Вероятность (%), Х Рх 5 0,2 7 0,3 9 0,4 11 0,1 Предприятие 2 Доходность Вероятность (%), Y Рy 3 0,1 7 0,4 10 0,3 15 0,2 Предприятие 3 Доходность Вероятность (%), Z Рz 0 0,1 6 0,4 10 0,25 20 0,25 Акции какого предприятия являются менее рискованными (считая, что чем выше колеблемость доходности акций, тем больше их рискованность)? 12. Совокупность студентов имеет следующее распределение по результатам сдачи сессии: xi 2 3 4 5 pi 0,1 pi pi pi 29 Найти вероятности получения удовлетворительных, хороших и отличных оценок, если известно, что математическое ожидание (среднее значение) результатов сдачи экзаменов составило 3,7 , а среднее квадратичное отклонение 0,9. 13. На СТО анализируются затраты времени на ремонт автомобилей. На основании данных, полученных по 100 автомобилям, выяснилось, что для 25 из них требуется 1ч для проведения профилактических работ. Мелкий ремонт требуется для 40 автомобилей, что занимает 2ч. Для 20 автомобилей ремонт с заменой отдельных узлов занимает в среднем 5ч. 10 автомобилей могут быть отремонтированы за 10 ч. Для 5 автомобилей необходимое время ремонта составляет20 ч. Построить закон распределения CВ Х - времени обслуживания случайно выбранного автомобиля. 14. В партии из (N+5) изделий (N+1) изделие высокого качества. Случайно отбирается 3 изделия. Составить закон распределения СВ Х – числа изделий высокого качества. 15. Стрелок производит выстрелы по цели до первого попадания. составить закон распределения случайной величины Х – числа выстрелов, сделанных стрелком. Вероятность попадания в цель при каждом выстреле составляет 0,7. Найти наивероятнейшее число выданных стрелку патронов. 16. Покупатель посещает магазины до момента приобретения нужного товара. Вероятность того, что товар имеется в определенном магазине, составляет 0,4. Составить закон распределения случайной величины Х – числа магазинов, которые посетит покупатель из четырех возможных. Построить график распределения. 17. Случайная величина Х имеет плотность вероятности 0,  f ( x)   х  0.5 / 3, 0,  если х  1, если 1  x  3 если x  3 Найти функцию распределения вероятностей и построить график. 18. Случайная величина Х задана плотностью вероятности f(x)=a/(1+x2) при -∞ < x < +∞ . Определить параметр а и математическое ожидание. 19. Случайная величина Х задана плотностью вероятности f ( x)  3x 2 / 4  6 x  45 / 4 на интервале (3; 5). Вне этого интервала f(x)=0. Найти моду, медиану и математическое ожидание. Указание. Для нахождения моды можно использовать необходимое и достаточные условие экстремума функции. Для нахождения медианы нужно учесть симметричность параболы относительно ее оси. 20. . Случайная величина Х задана плотностью вероятности f ( x)  3x 2 / 4  9 х 2 / 2  6 на интервале (2; 4). Вне этого интервала f(x)=0. Найти моду, медиану и математическое ожидание. 21. Случайная величина Х задана интегральной функцией: 0,  2 1 х F ( x)    , 8 8  1 ,   если х  1, если 1  x  3 если x  3 Найти: а) дифференциальную функцию случайной величины Х; б)математическое ожидание, дисперсию, среднее квадратичное отклонение случайной величины Х; в)вероятность попадания случайной величины в интервал (1:2). 22. Случайная величина Х задана интегральной функцией: если х  2 0,  3  х  8 если 2  x  3 F ( x)   , если x  3  19  1, Найти: а) дифференциальную функцию СВ Х; б)вероятность попадания случайной величины в интервал (2,5:3); в)математическое ожидание, дисперсию, среднее квадратичное отклонение СВ Х; г) моду и медиану величины Х. Построить графики функций. 30 23. На конноспортивных соревнованиях необходимо преодолеть четыре препятствия с вероятностями, равными соответственно 0,9; 0,8; 0,7; 0,6. При первой неудаче спортсмен в дальнейших состязаниях не участвует. составить закон распределения СВ Х – числа взятых препятствий. Найти математическое ожидание CВ величины Х. 24. В спортивной лотерее угадывается 5 номеров из 36. Игрок получает выигрыш, если угадает 5,4 ,3 номера. За 5 угаданных номеров выигрыш составляет 10 у.е.. Сумма выигрыша по одной карточке за 4 правильно угаданных номера в 10 раз больше, чем за 3. Составить закон распределения СВ Х – числа правильно угаданных номеров. Определить среднюю величину выигрыша, если известно, что карточек было выпущено 1 млн.шт. Стоимость одной карточки 1 руб. Выигрыши составляют 50% общей суммы тиража. 25. Вероятность попадания в цель первым стрелком равна 0,9 , вторым 0,8 и третьим 0,7. Составить закон распределения CВ X – числа попаданий в цель, если каждый стрелок производит по одному выстрелу. Определить математическое ожидание CВ X. 26. Вероятность успешной сдачи экзамена первым студентом составляет 0,7 , а вторым 0,8 . Составить закон распределения CВ X – числа студентов, успешно сдавших экзамен, если каждый из них может пересдать один раз экзамен, если он его первый раз не сдал. Найти математическое ожидание случайной величины Х. Лекция 8. Основные законы распределения непрерывных случайных величин. Из утверждений предыдущих лекций вытекает, что для задания НСВ необходимо знать вид функции плотности распределения вероятностей (дифференциальную функцию) или теоретическую (интегральную) функцию распределения СВ. Существуют целый ряд распределения вероятностей, которые играют роль эталона в вероятностно-статистических методах. Это прежде всего: а)равномерный закон распределении; б)нормальный закон распределения; в)показательный закон распределения. а) Если значения CВ лежат внутри некоторого интервала (а;в), и все они равновероятны (точнее обладают одной и той же плотностью вероятности), то говорят, что CВ распределена по равномерному закону распределения с плотностью распределения f(x) и функцией распределения F(x): 0,  1  f ( x)   , в  а  0, если если если х  а, аxв xв 0, x  a  F ( x)   , в  а  1, если если если х  а, аxв xв Для равномерного распределения М ( Х )  (а  в) / 2 , D( X )  (в  а) 2 / 12 ,  ( X )  D  (в  а) / 2 3 , (читателю рекомендуется проверить это самостоятельно и построить графики функций f(X) и F(X)). б) Распределение CВ называется нормальным, если функция плотности вероятностей (дифференциальная функция) имеет вид f (X )   ( x  a) 2 exp   2 2  2  1   ,  где et=exp(t) , a , ζ – некоторые параметры. Нормальное распределение с параметрами a=0, ζ=1 называют нормированным или стандартным. 31 Это наиболее часто встречающий закон распределения, главной особенностью которого является то, что он является предельным законом, к которому, при определенных условиях, приближаются другие законы распределения. Числовые характеристики нормального закона: Математическое ожидание характеризует центр распределения   ( x  a) 2  ха   exp   2   2 2 dx  обозначив   t      t2   t2   t2 1   a     (   t  a ) exp  dt  t  exp  dt  exp      2  2 2  2  2   2     М (X )  х  dt  a ,  так как в силу нечетности функции первое слагаемое равно нулю, а   t2  exp    dt  1 2   2  1 Аналогично, можно показать, что D(X)=ζ2. Таким образом, параметры а и σ есть соответственно математическое ожидание и среднее квадратичное отклонение нормально распределенной CВ X. Функция распределения (интегральная функция) имеет вид xa F ( х )    , где    ( х)   t2 exp    2 2 0 1 х  dt  Последний интеграл не берется в элементарных функциях, поэтому для функции Ф(Х), называемой интегралом вероятности или функцией Лапласа составлены таблицы (см.приложение). Так как Ф(-Х)=-Ф(Х) в таблице приведены значения функции Ф(Х) для положительных Х. По свойству интегральной функции  a   a  P(  x   )             (6.1.) Тогда a  a  a   a       P( x  a   )  P(a    x  a   )  Ф             2  Если             а=0 и ζ=1, то P(  x   )  (  0)  (  0). Тогда Р( Х   )  2( ) . Найдем вероятность того, что нормально распределенная CВ X отклоняется от М(Х)=а на ζ , 2ζ, 3ζ;   P( x  a   )  2   2(1)  2  0,3413  0,6826   P( x  a  2 )  2(2)  2  0,4772  0,9544 P( x  a  3 )  2(3)  2  0,49865  0,9973 Отсюда следует так называемое правило трех сигм: если CВ X имеет нормальное распределение, то ее отклонение от математического ожидания по абсолютной величине не превышает утроенное среднее квадратичное отклонение (3ζ). Примечание 1. Если CВ X распределена нормально с М(Х)=а и D(X)=ζ2, то это обозначают Х=N(a, ζ), для стандартного распределения - X=N(0,1). 32 Важным является легко доказуемый факт, что линейная комбинация нескольких нормально распределенных CВ имеет также нормальное распределение. При этом, если Х=N(a1, ζ1) и Y=N(a2, ζ2) – независимые CВ, то Z=mX+nY=N(a3,ζ3), где 2 2 2 а3=ma1+na2; ζ3 =m ζ +n2ζ22. Пример. Установлено, что размеры Х  и Y  дивидендов по акциям фирм А и В соответственно являются независимыми нормально распределенными CВ: Х  =N(5;5), Y  = N(15;15). Стоимость каждой акции составляет 100$. Инвестор хочет приобрести акции на 1000$. 1. Какие законы распределения имеют доходы Х и Y от вложений всей суммы в акции только одной из фирм А и В? 2. Какой закон распределения имеет доход Z от покупки акций в пропорции 2:3? 3. Какова вероятность, что получаемый доход Z от вложений будет лежать в пределах от 110 до 150$? Решение. 1. На 100$ инвестор может купить 10 акций. Если он приобретет акции только фирмы А или только фирмы В, то его доход выражается через CВ Х=10 Х  или Y=10 Y  соответственно. Тогда CВ Х имеет нормальное распределение с параметрами а 1=50 и ζ12=100∙25=2500 , а CВ Y имеет нормальное распределение с а2=10∙15=150 и ζ22=100∙225=22500, т.е. Х=N(50;50), Y=N(150;150). 2. Исходя из принятого решения инвестор приобретет 4 акции фирмы А и 6 акций фирмы В. Тогда доход от вложения составит   4 X   6Y  . Следовательно, Z является нормально распределенной CВ как линейная комбинация нормальных CВ. При этом 1 1 a3  4a1  6a2  4  5  6 15  110 ,  32  42 12  62 a22  16  25  36  225  8500 , т.е. Z=N(110; 92,2) 3.  150  110   110  110  P(110    150)        (0,4338)  (0)  0,1678  0  0,1678  92,2   92,2  • Распределение НСВ Х называется показательным (экспоненциальным), если плотность вероятности этой величины описывается функцией 0, f ( x)    x   e если если x0 x0 где λ – положительное число. М ( Х )  1 /  , Д ( Х )  1 / 2 . Биномиальное распределение. ДСВ Х имеет биномиальный распределения (БЗР), если она принимает значение 0,1,2,…m с вероятностями закон Pm  P( X  m)  Cnm Pnm (1  P) nm БЗР представляет собой закон распределения числа Х=m наступлений события А в n независимых испытаниях, в каждом из которых оно может произойти с одной и той же вероятностью Р. Числовые характеристики: М(Х)=np , D(X)=npq, где q=(1-p). Для относительной частоты событие ω=m/n , M(ω)=P , D(ω)=pq/n ДСВ Х имеет закон распределения Пуассона (ЗРП), если a m a (t ) m t Pm  P( X  m)  e  e , где m – число событий за данный отрезок m! m! времени t, λ – плотность т.е. среднее число событий за единицу времени, λt – число событий за время t ; λt =а. ЗРП применяется в теореме массового обслуживания. Рассмотрим еще несколько специальных законов распределения, применяемых в вероятностно-статистических исследованиях: 33 1. Распределение χ2 (хи-квадрат). Пусть xi (i  1, n) - независимые нормально распределенные CВ с М(xi)=аi и ζ(xi)=ζi , т.е. xi Є N (аi , ζi). Тогда CВ Ui=( xi - аi)/ ζi , являются независимыми CВ, имеющими стандартное нормальное распределение, т.е. Ui Є N (0,1). n Тогда CВ  2   U i2 имеет хи-квадрат распределение с n степенями свободы. i 1 Число степеней свободы исследуемой CВ определяется числом CВ, ее составляющих, уменьшенных на число линейных связей между ними. Например число ν степеней свободы CВ, являющейся композицией n CВ, которые в свою очередь связаны m линейными уравнениями, определяется числом ν= n – m . С возрастанием числа степеней свободы распределение χ2 постепенно приближается к нормальным. М(χ2)= ν= n – m , D(χ2)= 2ν=2(n – m) Распределение χ2 применяется для нахождения интервальных оценок и проверки статистических гипотез. 2. t – распределение Стьюдента Пусть CВ U Є N (0,1), CВ ν – независимая от U величина, распределенная по закону χ2 с n степенями свободы. Тогда величина T  U  /k имеет распределение Стьюдента (t-распределение) с k степенями свободы (Т Є Тк). М(Т)=0 D(T )  k / k  2 (График функции плотности вероятности CВ, имеющий распределение Стьюдента, является симметричной кривой и при k>30 практически не отличается от графика функции плотности стандартного распределения). 3. Распределение Фишера. Пусть V и W – независимые CВ, распределенные по закону χ2 со степенями свободы ν 1=m и ν2=n соответственно. Тогда величина F  (V / m) /(W / n) имеет распределение Фишера со степенями свободы ν 1=m и ν2=n (F Є Fn,m). При больших n и m это распределение приближается к нормальному. Нетрудно заметить, что Тn2 = Fn,m M (F )  n (m  2) , n2 D( F )  2n 2 (m  n  2) m(n  2) 2 (n  4) Распределение Фишера используется при проверке статистических гипотез, в дисперсионном и регрессионном анализе. Примечание 2. Для практического применения вероятностно-статистических расчетов приведенных выше специальных законно распределений (Ф, χ2, t , F) служат таблицы (см.приложение), где даны значения критических точек. Например, 1) Ф(0,17)=0,0675 , т.е. P (0  xa   0,17 )  0,0675 2) t0,05,10=1,81 , т.е. Р(t10>1,81)=0,05 3) χ20,025,10=20,28 , т.е. Р(χ210>20,28)=0,025 4) F0,05,10.10=2,98 , т.е. Р(F10,10>2,98)=0,05 34 Задачи к лекции 8. 1. Случайная величина Х распределена равномерно на отрезке (0;4). Найти функцию распределения, математическое ожидание и среднее квадратичное отклонение СВ Х. 2. Автобусы подходят к остановке с интервалом в 5 мин. Считая, что СВ Х – время ожидания автобуса – распределена равномерно, найти среднее время ожидания (математическое ожидание) и среднее квадратичное отклонение случайной величины X . 3. Паром для перевозки автомашин через залив подходит к причалу через каждые два часа. Время прибытия автомашин – СВ Х – распределено равномерно.Определить среднее время ожидания автомашин прихода парома и дисперсию времени ожидания. 4. Математическое ожидание нормально распределенной случайной величины Х равно Мх=5, дисперсия равна Dx=9. Написать выражение для плотности вероятности. 5. Математическое ожидание и среднее квадратичное отклонение нормально распределенной случайной величины Х соответственно равны 12 и 2. Найти вероятность того, что случайная величина примет значение, заключенное в интервале (14;16). Решение. Используем формулу (21.2), учитывая, что М(х)=12, ζ(х)=2; Р(14<X<16)=Ф((16-12)/2) – Ф((14-12)/2)=Ф(2)-Ф(1) По таблице значений функции Лапласа находим Ф(1)=0,3413; Ф(2)=0,4772. После подстановки получаем значение искомой вероятности Р(14 < X < 16)= 0,1359 6. Имеется СВ Х, распределенная по нормальному закону, математическое ожидание которой равно 20, среднее квадратичное отклонение равно 3. Найти симметричный относительно математического ожидания интервал, в который с вероятностью Р=0,9972 попадает случайная величина X. 7. Средняя часовая выручка магазина а=100 д.е. Среднее квадратичное отклонение ζ=25 д.е. Часовая выручка подчинена нормальному закону распределения. Определить вероятность получения в течение одного часа выручки в размере от 80 до 120 д.е. 8. Объем продаж товара в течение месяца есть случайная величина, подчиненная нормальному закону распределения с параметрами а=500, ζ=120 д.е. Определить вероятность продажи товара в течение одного месяца на сумму от 480 до 600 д.е. 9. Автобусы прибывают на остановку через 6 мин. Какова вероятность того, что время ожидания не превысит 5 мин.? 10. Пусть случайная величина Х-величина ежемесячного спроса на скоропортящийся продукт – задана следующим законом распределения: Х Р 100 0,05 200 0,15 300 0,25 400 0,30 500 0,20 600 0,05 Издержки на производство единицы продукции составят 5$ , продукция продается по цене 10 $ за единицу. Целью производителя является максимизация прибыли. Какова величина ожидаемой прибыли и ее дисперсии? 11. СВ Х распределена по нормальному закону с М(X) = 15, и ζ(X) = 2. Найти симметричный относительно математического ожидания интервал, в который с вероятностью 0,954 попадет случайная величина Х. 12. Известно, что средний расход удобрений на один гектар пашни составляет 80 кг., а среднее квадратичное отклонение расхода равно 5 кг. Считая расход удобрений нормально распределенной случайной величиной, определить диапазон, в который вносимая доза удобрений попадает с вероятностью 0,98. 13. Математическое ожидание нормально распределенной СВ – количество сыра, используемого для изготовления 100 бутербродов, - равно 1 кг. Известно, что с вероятностью 0,96 расход сыра на изготовление 100 бутербродов составляет от 900 до 1100 г. Определить среднее квадратичное отклонение расхода сыра на 100 бутербродов. 14. При измерении нормально распределенной СВ оказалось, что ее среднее квадратичное отклонение равно 10, а вероятность попадания этой величины в интервал от 100 до 140, 35 симметричный относительно математического ожидания, равна 0,86. Найти математическое ожидание этой величины и вероятность попадания ее в интервал от 90 до 150. 15. Найти М(Х), D(Х), ζ(Х) показательного распределения CВ X заданной интегральной функцией распределения при x  0 0, F(X )   если: а) λ=0,4; б) λ=3; в) λ=4.  ч 1  е , при x  0 16. Найти вероятность попадания случайной величины Т, имеющей показательной распределение при t  0, 0, f (t )   в интервал (4;10) 0, 2t , при t  0 0,2е 17. Вероятность появления числа событий К=1,2,3,… в единицу времени определяется законом Пуассона и подсчитывается по формуле а к а (t ) k t Р( Х  К )  е  е , к! к! где λ – плотность, т.е. среднее число событий за единицу времени, λt – число событий за время t, λt=а. Найти вероятность того, что за 2 минуты на АТС поступит 4 вызова, если среднее число вызовов, поступающих на АТС в одну минуту равно трем. Лекция 9. Закон больших чисел. Независимо от конкретного распределения CВ имеют место общие свойства вероятностных (теоретических) распределений. К ним относятся различного рода неравенства, определяющие границы вероятностного попадания CВ в заданный интервал, а также утверждения, касающиеся свойств достаточно большого числа случайных величин, - так называемый закон больших чисел. Эти законы, в основном, являются теоретической основой статистических исследований. Приведем их без доказательства. 1. Неравенство Чебышева. Вероятность попадания CВ Х вне интервала вокруг его среднего значения, пропорционального стандартному отклонению ζ, быстро убывает с увеличением коэффициента пропорциональности (α>0) и, соответственно длины этого интервала 2αζ, т.е.     Р Х  M ( X )       , или Р Х  M ( X )     1        2 2 Неравенство Чебышева наглядно демонстрирует значение ζ как характеристики разброса CВ вокруг среднего значения. Пользуясь неравенством Чебышева можно оценить вероятность тех или иных отклонений ее среднего значения, независимо от природы CВ. 2. Теорема Чебышева. При достаточно большом n независимых случайных величин с ограниченными дисперсиями (ζк2<С, 1,...n), вероятность того, что сколь угодно малое отклонение среднего арифметических этих величин от среднего арифметического их математических ожиданий, стремится к единице, т.е.  x  x ... xn M x1 M x2 ...M xn   lim P 1 2     1 n   n n  Согласно этой теореме в качестве оценки математического ожидания (среднего значения) в статистике можно рассматривать среднее арифметическое значение случайных величин. 36 Теорема Чебышева утверждает, что среднее арифметическое достаточно большого числа CВ утрачивает характер случайной величины и ведет себя почти как постоянная величина. 3. Теорема Бернулли. При достаточно большом числе независимых испытаний n, вероятность того, что сколь угодно малым будет отклонение частоты m/n некоторого события А от вероятности наступления этого события p (при условии, что она постоянна при каждом испытании) стремится к единице, т.е. ε>0. lim Рm / n  р     1 , n Эта теорема имеет важное значение для статистики, обосновывая выбор частоты осуществления некоторого события в качестве оценки вероятности этого события. (см. также §4). 4. Центральная предельная теорема. Если x1, x2… xn независимые CВ, имеющие одинаковые распределения¸ то при неограниченном возрастании n закон распределения суммы х=x1, x2… xn неограниченно приближается к нормальному. Эта теорема обосновывает ту огромную роль, которую играет в статистике, эконометрике и в других областях знаний нормальное распределение. Пример. С помощью неравенства Чебышева оценить вероятность того, что при подбрасывании 12 игральных кубиков сумма очков (CВ Х) отклонится от математического ожидания меньше, чем на 15. (CВ Хi – число очков на i-ом кубике). Решение. Х=x1, x2 … x12. Ясно, что М(Х1)= М(Х2)=… М(Х12) , Д(Х1)+ Д(Х2)+…+ Д(Х12); М(Х1)=1/6(1+2+3+4+5+6)=7/2; М(Х12)=1/6(1+22+32+42+52+62)=91/6 Д(Х1)=91/6 – 49/4=35/12; М(Х)=(7/2)∙12=42; Д(Х)=(35/12)12=35. Согласно неравенству Чебышева Р( Х  42  15)  1  35 / 225  0,844 . Задачи к лекции 9. 1. Пользуясь неравенством Чебышева, оценить вероятность того, что из посеянных 5000 семян число взошедших окажется от 3750 до 4250, если известно, что М(Х)=4000. Определить вероятность попадания CВ в заданный интервал. 2. Среднее значение веса изделия данного вида равно 50г, а среднее квадратичное отклонение 3г. Оценить снизу вероятность того, что наудачу взятое изделие имеет вес меньше 55г. 3. Вероятность появления события А в каждом испытании равна 0,75. Оценить вероятность того, что число Х появления события А заключено в пределах от 70 до 80, если будет произведено 100 независимых испытаний. 4. В парке имеется 100 автомобилей. Вероятность безотказной работы каждого из них в течение определенного времени составляет 0,8. Оценить вероятность того, что отклонение числа безотказно работавших автомобилей за определенное время от его математического ожидания не превзойдет по модулю 5. 5. Сколько человек необходимо отобрать для определения удельного веса лиц со специальным образованием, чтобы с вероятностью 0,95 можно было утверждать, что отклонение относительной частоты лиц со специальным образование от их доли, принимаемой за постоянную вероятность, не превышало по модулю 0,04. 6. Количество кормов, расходуемых на ферме крупного рогатого скота в сутки, является случайной величиной, математическое ожидание которой равно 6 т. Оценить вероятность того, что в ближайшие сутки расход кормов на ферме превысит 10 т. 7. Количество электроэнергии, потребляемой поселком в течение суток, является случайной величиной, математическое ожидание которой равно 4 тыс.квт.ч. Оценить вероятность того, что в ближайшие сутки потребление энергии: а)превысит 8 тыс.квт.ч.; б)не превысит 6 тыс.квт.ч 37 Проверьте себя! Тест 1. 1. В урне 4 белых и 6 черных шара. Из урны вынимают сразу 2 шара. Вероятность того, что шары разного цвета равна… 1) 8/15; 2) 1; 3) 3/5; 4) 1/24; 5) 2/3. 2. Игральная кость бросается один раз. Вероятность того, что появится не менее 5 очков равна… 1) 1/6; 2) 1/2; 4) 2/3; 5) 1/3. 3. Какова вероятность того, что наудачу выбранное двузначное число простое и сумма его цифр равна 5? 1) 1/10; 2) 1/45; 3) 1/9; 4) 1/90; 5) 2/5. 4. Сколько прямых можно провести через 8 точек, 3 из которых не лежат на одной прямой? 1) 8!/2!; 2) 8!/3!·5!; 3) 8!/2!6!; 4) 8!/5; 5) 8!/3!. 5.Сколько различных правильных дробей можно составить из чисел 1,2,3,5,7,11,13? 1) 7!/2!; 2) 7!/3!·4!; 3) 7!/5!; 4) 7!/2!·5!; 5) 7!/4!·3!. 6. Сколько различных шестизначных чисел, начинающих цифрой 2 и оканчивающихся цифрой 5 можно составить из цифр 1,2,3,4,5,6 при условии, что каждая в обозначении числа встречается 1 раз? 7.В магазин поступает продукция трех фабрик. Продукция первой фабрики составляет 20%, второй – 45%, третьей – 35% изделий. Средний процент нестандартных изделий для 1-й фабрики 3%, для 2-й – 2 % и для 3-й – 4%. Вероятность того, что оказавшееся нестандартным изделием произведено на 3-й фабрике равно… 1) 9/236; 2) 14/29; 3) 1/25; 4) 1/3; 5) 3/118. 8. С первого автомата на сборку поступают 20%, со второго – 30%, с третьего-50% деталей. Первый автомат дает в среднем 0,2% брака. Второй – 0,3%, третий - 0,1. Вероятность того, что оказавшаяся бракованная деталь изготовлена на 2-м автомате равна… 1) 5/9; 2) 1/2; 3) 2/3; 4) 4/9; 5) 7/9. 9. Если случайная величина Х задана плотностью распределения  x  12  1  , то а) М(3Х+3)=… в) Д(2Х+1)=… f ( x)   exp   8 2 2   А) 1) 0,3 2) 4 3) 6 4) 3 5) 5 Б) 1) 8 2) 15 3) 16 4) 3 5) 2. 10. В первом ящике ? красных и 11 синих шаров, во втором – 5 красных и 9 синих. Из произвольного ящика достают один шар. Вероятность того, что он синий, равна… 11 9 11  9 11 9 1  11 9   1)    2) 3) 4)  18 14 18  14 18 14 2  18 14  Тест 2 1.Два коллекционера обмениваются друг с другом парами экспонатов. Найти число способов обмена, если первый коллекционер обменивает 6 экспонатов, а второй - 8 экспонатов. 1) 580; 2) 584; 3) 587; 4) 588; 5) 580. 2.В ящике находятся 10 деталей, среди которых имеются 7 нестандартных. Найти вероятность того, что из взятых наугад деталей 4 будут нестандартными. 1) 0,3; 2) 0,4; 3) 0,5; 4) 0,6; 5) 0,2. 3. В лотерее разыгрываются 200 вещевых и 50 денежных выигрышей на каждые 10 тыс. билетов. Чему равна вероятность выигрыша обладателю одного билета? 1) 0,02; 2) 0,023; 3) 0,024; 4) 0,025; 5) 0,03. 4. Три автомашины направлены на перевозку груза. Вероятности их исправного состояния равны соответственно 0,7; 0,8 и 0,5. Какова вероятность, что все автомашины находятся в эксплуатации? 38 1) 0,2; 2) 0,3; 3) 0,27; 4) 0,28; 5) 0,3. 5) Вероятность обращения в поликлинику для каждого рабочего составляет 0,8. Найти среди какого количества рабочих следует ожидать обращение в поликлинику не менее 70 человек. 1) 90; 2) 94; 3) 95; 4) 97; 5) 100. 6. Банк выдал кредиты размером 500 тыс. руб. каждому из 1000 клиентов на год по 10% годовых. Вероятность не возврата кредита каждым из клиентов 0,01. Какой доход гарантирован банку с вероятностью 0,995? 1) 40 млн.руб; 2) 41 млн.руб.; 3) 40,5 млн.руб.; 4) 42 млн.руб. 7. Случайная составляющая дохода равна 2х, а случайная составляющая затрат равна 50у.е. Найти дисперсию прибыли при условиях: Величина Х распределена по биномиальному закону с параметрами n=100, p=0,5; Величина У распределена по закону Пуассона с параметрами λ=2; Случайные величина Х и У – независимые. 1) 5000; 2) 5005; 3) 5010; 4) 5100; 5) 5015. 8. Найти дисперсию дискретной случайной величины Х – числа отказов элемента некоторого устройства в 10 независимых опытах, если вероятность отказа элемента в каждом опыте равна 0,9. 1) 0,8; 2) 0,74; 3) 0,81; 4) 0,9; 5) 0,85. 9. Размер мужских сорочек является СВ Х с нормальным законом распределения, с М(Х)=39 и Д(Х)=9. Какой процент от общего объема заказа следует предусмотреть магазину для сорочек 40го размера воротничка, при условии, что этот размер находится в интервале (39,5; 40,5)? 1) 12%; 2) 12,5%; 3) 12,6%; 4) 12,3%; 5) 13%. 10. По оценкам экспертов вероятности банкротства для двух предприятий, производящих разнотипную продукцию, равны 0,1 и 0,15. Тогда вероятность банкротства обоих предприятий равна. 1) 0,25; 2)0,705; 3) 0,25; 4) 0,015. Итоговое задание по теории вероятностей. Примечание 1. Условия задачи одинаковые для всех студентов, кроме числовых данных. Числовые данные выбираются по приведенной ниже таблице исходя из последних цифр номера зачетной книжки или студенческого билета. По предпоследней цифре А необходимо выбрать значение параметра m, а по последней цифре В – значение параметра n. Эти два числа нужно подставить в условия задач итогового задания. A 1 2 3 4 5 6 7 8 9 0 m 2 3 2 1 4 5 3 1 4 5 B 1 2 3 4 5 6 7 8 9 0 n 4 3 3 5 1 2 1 5 2 4 Например, если последние две цифры номера зачетной книжки 37, то А=3, В=?. ИЗ таблицы находим: m=2, n=1. Задание №1. В партии из 20+m+n изделий 10-m имеют скрытый дефект. Найти вероятность того, что наугад взятых 5+m изделий n изделий являются дефективными? Задание №2 В продажу поступили 20+n+m изделий, среди которых n+5 изделий некачественные. Какова вероятность того, что купленные наугад изделий будут некачественными? Задание №3. На сборочное предприятие поступили однотипные комплектующие детали с трех заводов в количестве: n1=20+2m с первого завода, n2=20+n-m со второго, n3=20+2n+m с третьего. Вероятность качественного изготовления изделий на первом заводе Р1=1-0,05·n, на втором Р2=1-0,04 m, на третьем Р3=1-0,04·m·n. Какова вероятность того, что взятое наугад изделие будет качественным? Задание №4. Закон распределения дискретной случайной величины Х имеет вид Хi -4 -2 0 3 m n+m Pi 0,1 0,2 0,1 0,2 P5 P6 39 Найти вероятности Р5 и Р6 и дисперсию Д(Х), если математическое ожидание М(Х)= 0,5+0,5 m+0,5 n. Задание №5. В городе имеются m+n оптовых баз. Вероятность того, что требуемого сорта товар отсутствует на этих базах одинакова и равна 1-0,1 m. Составить закон распределения числа баз на которых искомый товар отсутствует в данный момент. Задание №6. Непрерывные случайные величины Х1, Х2, Х3 имеют равномерное, показательное и нормальное распределения, соответственно. Найти вероятность того, что Р(m<Хi<n+m) i=1, 2, 3, если у этих случайных величин математические ожидания и средние квадратичные отклонения равны m Задание №7. Выбрав номер задачи в соответствии с порядковым номером из списка студентов в групповом журнале, решить следующую текстовую задачу. 1. На предприятии, изготавливающем замки, первый цех производит 25, второй 35, третий 40% всех замков. Брак составляет соответственно 5, 4 и 2%. а) Найти вероятность того, что случайно выбранный замок является дефективным. б) Случайно выбранный замок является дефективным Какова вероятность того, что он был изготовлен в первом, втором, третьем цехе? 2. Трое рабочих изготавливают однотипные изделия. Первый рабочий изготовил 40 изделий, второй – 35, третий – 25. Вероятность брака у первого рабочего 0,03, у второго – 0,02, у третьего – 0,01. Взятое наугад изделие сделал второй рабочий. 3. На предприятии работают две бригады рабочих: первая производит в среднем ¾ продукции с процентом брака 4%, вторая – ¼ продукции с процентом брака 6%. Найти вероятность того, взятое наугад изделие: а) окажется бракованным; б) изготовлено второй бригадой при условии, что изделие оказалось бракованным. 4. В обувную мастерскую для ремонта приносят сапоги и туфли в соотношении 2:3. Вероятность качественного ремонта для сапог равна 0,9, а для туфель – 0,85. Проведена проверка качества одной пары обуви. Оказалось, что эта пара обуви отремонтирована качественно. Какова вероятность того, что это а) сапоги, б) туфли? 5. Работают четыре магазина по продаже стиральных машин. Вероятность отказа покупателю в магазинах равна 0,1. Считая что ассортимент товара в каждом магазине формируется независимо от других, определить вероятность того, что покупатель получит отказ в двух, в трех и в четырех магазинах. 6. На станциях отправления поездов находится 1000 автоматов для продажи билетов. Вероятность выхода из строя одного автомата в течение часа равна 0,004. Какова вероятность того, что в течение часа из строя выйдут два, три и пять автоматов? 7. Всхожесть семян огурцов равна 0,8. Какова вероятность того, что из пяти посеянных семян взойдут не менее четырех? 8. Имеются три базы с независимым снабжением. Вероятность отсутствия на базе нужного товара равна 0,1. Предприниматель решил закупить некий товар. Составить закон распределения числа баз, на которых в данный момент этот товар отсутствует. 9. В организации работают 12мужчин и 8 женщин. Для них выделено 3 премии. Определить вероятность того, что премию получат: а) двое мужчин и одна женщина; б) только женщины; в) хотя бы мужчина. 10. Из 100 изготовленных деталей 10 имеют дефект. Для проверки были отобраны пять деталей. Какова вероятность того, что среди отобранных деталей. Какова вероятность того, среди отобранных деталей две окажутся бракованными? 11. На склад привезли 50 ящиков комплектующих изделий для одного из видов ЭВМ, но среди них оказалось четыре ящика комплектующих для другого вида ЭВМ. Наудачу взяли шесть ящиков. Найти вероятность того, что в одном из этих шести ящиков окажутся некомплектные детали. 12. В партии из 15 однотипных стиральных машин пять машин изготовлены на заводе А, а 10 – на заводе В. Случайным образом отобрано 5 машин. Найти вероятность того, что две из них изготовлены на заводе А. 40 13. В порт приходят корабли только из трех пунктов отправления. Вероятность появления корабля из первого пункта равна 0,2 из второго – 0,6. Найти вероятность прибытия корабля из третьего пункта. 14. Вероятность правильного оформления счета на предприятии составляет 0,95. Во время аудиторской проверки были взяты два счета. Какова вероятность того, что только один из них оформлен правильно? 15. Вероятность правильного оформления накладной при передаче продукции равна 0,8. Найти вероятность того, что из трех накладных только две оформлены правильно. 16. В городе находятся 15 продовольственных и 5 непродовольственных магазинов. Случайным образом для приватизации были отобраны три магазина. Найти вероятность того, что все эти магазины непродовольственные. 17. В магазине имеются 10 женских и 6 мужских шуб. Для анализа качества отобрали три шубы случайным образом. Определить вероятность того, среди отобранных шуб окажутся: а) только женские шубы; б) только мужские или только женские шубы. 18. На предприятие поступают заявки от нескольких торговых пунктов. Вероятность поступления заявок от пунктов А и В равны соответственно 0,5 и 0,4. Найти вероятность поступления заявок от пункта А или от пункта В, считая события поступления заявок от этих пунктов независимыми, но совместными. 19. Магазин получил продукцию в ящиках с четырех оптовых складов: четыре с первого, пять со второго, семь с третьего и четыре с четвертого. Случайным образом выбран ящик для продажи. Какова вероятность того, что это будет ящик с первого или с третьего склада? 20. В автопарке 70 машин. Вероятность поломки машины 0,2. Найти наивероятнейшее число исправных автомобилей и вероятность этого числа. 21. Всхожесть зерна, хранящегося на складе равна, 80%. Какова вероятность того, что среди 100 зерен: а) число всхожих составит от 68 до 90 шт.; б)доля (частность) всхожих зерен будет отличаться от вероятности 0,8 по абсолютной величине не более чем на 0,1? 22. Два стрелка одновременно делают выстрелы по мишени. Сколько нужно произвести залпов, если наивероятнейшее число залпов, при которых оба стрелка попадут в мишень, равно 8, причем вероятность попадания в мишень при одном выстреле для первого стрелка равна 0,5, а для второго – 0,8? 23. При проведении некоторого опыта вероятность появления ожидаемого результата равна 0,01. Сколько раз нужно провести опыт, чтобы с вероятностью 0,5 можно было бы ожидать хотя бы одного появления этого результата? 24. В автопарке имеется 400 автомобилей. Вероятность безотказной работы каждого из них равна 0,9. С вероятностью 0,95 определить границы, в которых будет находиться доля безотказно работавших машин в определенный момент времени. 25. Всхожесть зерна 90%. Определить вероятность того, что для отобранных случайным образом 100 зерен относительная частота всхожести будет отличаться от вероятности взойти р=0,9 по абсолютной величине не более чем на 0,1. 26. Вероятность появления события в каждом из 400 независимых испытаний равна 0,8. Найти такое положительное число ε, чтобы с вероятностью 0,9876 абсолютная величина отклонения относительной частоты появления события от вероятности 0,8 не превысила ε. 27. Отдел контроля проверяет на стандартность 900 деталей. Вероятность того, что деталь стандартна, равна 0,9. С вероятностью 0,9544 найти границы, в которых будет заключено число стандартных деталей. 28. Для определения степени поражения винограда вредителями было обследовано 400 кустов. Вероятность поражения куста виноградника равна 0,03. Определить границы, в которых с вероятностью 0,9545 будет заключено число кустов, не пораженных вредителями. 29. Проверяется всхожесть кукурузы. Сколько семян необходимо посеять с вероятностью всхожести 0,99, чтобы частота всхожести отличалась от 0,95 меньше, чем на 0,012. 30. Вероятность того, что человек в период страхования будет травмирован, равна 0,006. Компанией застраховано 1000 человек. Годовой взнос с человека составляет 150 руб. В случае 41 получения травмы застраховавшийся получает 12000 руб. Какова вероятность того, что выплата по страховкам превысит сумму страховых взносов? Глава 2 . Математическая статистика . Лекция 10. Основные понятия определения и методы. Способы представления статистических данных. Результат многих исследований и наблюдений приводят к числовым данным, представляющим собой количественные характеристики изучаемых объектов. Однако, эти данные формируются под действием множества факторов, не все из которых доступны контролю исследователя. Кроме того большое число объектов исследования, их недоступность, дороговизна и т.д. препятствуют сплошному обследованию. Следовательно, реальный результат большинства исследований и наблюдений носит случайный характер, а это означает, что с истинным результатом связана некоторая случайная величина и каждое реальное наблюдение дает одно из значений этой величины. Практика показывает, что при условии очень большого числа экспериментов и наблюдений данная случайная величина принимает свои значения по некоторым вероятностным закономерностям. Такие числовые данные, подчиняющиеся определенным вероятностным закономерностям, называют статистическим материалом. Статистический материал: Данные; 1) бюджетных исследований населения; 2) о динамике уровня инфляции за определенный период; 3) о влиянии социально-экономического положения региона на посещаемость студентов в вузах; 4) об объемах и динамике продаж акций на биржах за определенный период; 5) об объемах продаж долларов США на банке; 6) об оценках по тестам проверки коэффициента интеллектуальной способности учащихся; 7) о динамике успеваемости студентов группы; 8) о параметрах межличностной оценки учащихся; 9) о географических названиях начинающихся с одной и той же буквы (топономика); 10) о ходе гидротермических движений и температуры в некоторой территории; 11) о влиянии местоположения имения на доходы, например русских помещиков в 50-е годы XIX века; размер и доходность дворянских имений в конце XIX века; 12) о весе плодов отобранных случайным образом из нескольких деревьев сада; 13) о проценте жирности молока у случайно отобранных коров фермы; 14) объема продаж холодильников в супермаркете за определенный период; 15) социологического опроса населения об отношении к кандидату в депутаты; 16) о количестве преступлений и их раскрытие в течении года; 17) для определения зависимости между успеваемостью учащихся, например по математическим и гуманитарным наукам; 18) наблюдений по повторяющимся текущим измерениям; 19) для расчета страховых тарифов, финансовых и предпринимательских рисков и т.д. Математическая статистика (в дальнейшем МС) занимается выявлением вероятностных закономерностей в статистических данных, на базе которых можно строить соответствующие вероятностные модели и принимать обоснованные решения, таким образом, теоретической основой МС является теория вероятности. Основные задачи МС можно сформулировать следующим образом: 1) разработка методов сбора и группировки статистического материала ; 2) разработка методов анализа статистического материала в зависимости от целей исследования. Методы МС можно разделить на описательные и аналитические. 42 Описательные методы позволяют представлять реальные наблюдения с помощью таблиц, графиков, диаграмм, характеристик положения (среднее арифметическое, мода, медиана), характеристик рассеяния (среднее линейное или среднее квадратичное отклонение, дисперсия, коэффициент вариации и т.д.). Аналитические методы позволяют на основе выборочных наблюдений сделать статистически значимые выводы о наличии закономерностей для всей совокупности. Аналитические методы основываются на соответствующих вероятностных моделях и, в основном, включают в себя оценку вероятностей события, функции распределения вероятностей или плотности вероятностей, оценку параметров известного распределения, связей между случайными величинами, проверку статистических гипотез о виде неизвестного распределения, о величинах параметров известного распределения и т.д. Основными понятиями МС является генеральная и выборочная совокупности. В процессе исследования множества однородных объектов, для определения качественного и количественного признака, характеризующего эти объекты, исследования могут подвергаться все элементы данного множества – генеральная совокупность (ГС) или некоторая их часть – выборочная совокупность (ВС) (выборка). Например, партия всех электрических лампочек, которая подлежит изучению, является генеральной совокупностью (ГС), а множество лампочек, взятых для обследования, составляют выборочную совокупность (ВС); в практике педагогических исследований определение основных количественных показателей эксперимента проводится на основе группы учащихся, т.е на основе выборочной совокупности ; Число объектов совокупности (генеральная или выборочной) называется объектом данной совокупности. Например, если цех выпустил 2000 деталей, а для обследования на качество отобрано 150 деталей, то объем ГС равен 2000 (N=2000), а объем выборки – 150 (n=150). Если объем ГС очень большой, или исследование связано с уничтожением объекта, или оно дорого стоит, то сплошное обследование невозможно. Поэтому, основная задача МС состоит в получении обоснованных выводов о свойствах генеральной совокупности по известным свойствам извлеченной из нее выборки. Полученный при этом вывод называется статистическим. Свойства объектов выборки должны правильно отражать свойства генеральной совокупности, или, как говорят, выборка должна быть репрезентативной (представительной). Считается, что выборка репрезентативна, если все объекты ГС имеют одинаковую вероятность попасть в выборку, т.е. выбор проводится случайно. В научных исследованиях для извлечения выборки из ГС пользуется таблицей случайных чисел, которые могут быть получены при помощи случайного выбора пронумерованных карточек или специальными алгоритмами на ЭВМ. Математическая теория выборки определяет две проблемы: 1) Как организовать выборочное наблюдение, чтобы полученная информация достаточно полно отражала пропорции ГС (проблема репрезентативности выборки). 2) Как использовать результаты выборки для суждения по ним с большой надежностью о свойствах и параметрах ГС (проблема оценки) 43 • Пусть из ГС извлечена ВС, в которой значение х 1 наблюдалось n1 раз, х2n2, раз, и т.д., хк-nк раз, то общий объем выборки n=n1+n2+n3+….+nк . Наблюдаемые значения х1, х2, х3,,, хк называются вариантами, а последовательность вариант, записанная в возрастающем порядке- вариационным рядом. Числа n1, n2, n3,,,nr называются частотами а их отношения к объему выработки т.е. w1=w2/п – относительными частотами причем w1 + w2 ++ wк =1. Разность между максимальным и минимальными значениями варианта называется размахом выборки, т.е. w=xmax –xmin. Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот. Статистическое распределение можно задавать так же в виде последовательности интервалов h и соответствующих им частот пi, причем в качестве частоты соответствующей интервалу, принимают сумму частот вариант вариационного ряда попавших в этот интервал. Заметим, в теории вероятностей закон распределения случайной величины определялось аналогично. Т.е. ВС представляет собой конкретные реализации признака СВ Х. Пример 1. В результате тестирования группа из 24 студентов набрала следующие баллы: 4,0,3,4,1,0,3,0,1,4,0,0,3,1,0,1,1,3,2,3,1,2,1,2,1. Построить статистический закон распределения. Решение. Поранжируем исходный ряд и подсчитаем частоты и относительные частоты вариант: 0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2,3,3,3,3,3,4,4,4. В результате получим дискретный вариационный ряд и следующий статистический закон распределения: Балл х1 0 1 2 3 4 Частоты пi 6 7 3 5 3 Σ=24 6 7 3 5 3 wi /24 /24 /24 /24 /24 Σ=1 Пример 2. Анализируется доход населения, для чего извлечена выборка объема п=300. По уровню дохода населения подразделяется на к=6 групп. Полученные по выборке данные сгруппированы в интегральный вариационный ряд и получен следующий статистический закон распределения: [х2-1,х1) [0,20) [20,40) [40,60) [60,20) [80,100) [100,120) ni 10 50 80 100 40 20 Замечание 1. Для построения интервального вариационного ряда, чтобы вариационный ряд не был слишком громоздким, обычно число m интервалов берут от 0 до 12 и длину частичного интервала h определяется по формуле (хмах-хmin)/m=h. Для более точного определения величины частичного интервала пользуется формулой h=(xmax-xmin) / (1+3.22.lg n.). Из ТВ известно, что случайная величина Х полностью описывается своей теоретический функцией распределения F (x)=P{Х<х}. Попытаемся и в МС по наблюдениям х1, х2, х3,,,, хп приблизительно восстановить функцию F(x). Для этого заменим вероятность Р{Х<x} на частоту появления этого события. Обозначим через nx число, показывающее сколько наблюдалось элементов выборки со значениями признака, меньшими х. Тогда функцию F (x)=hx/h можно назвать эмпирической функцией распределения или функцией распределения выборки. 44 Из закона больших чисел следует, что при п→ ∞ относительная частота события {Х<x}, т.е. F(x), стремится по вероятности F(x) этого события. В силу этого F (x) и F(x) мало различаются между собой, т.е. F (x) ≈ F(x). Таким образом, если дана генеральная совокупность (или случайная величина), закон распределения которой неизвестен, то извлекают репрезентативную выборку, вычисляют эмпирическую функцию распределения F (x) для данной выборки и оценивают распределения генеральной совокупности F(x) пи помощи F (x). Пример 3. Построить эмпирическую функцию распределения по данному в примере 1 закону распределения: Решение. Объем выборки п=24. Составим функцию F (x) =пх/п.    F (x)=        при при при при при при 0, 6/24, 6/24 + 7/24 = 13/24, 13/24 + 3/24 = 16/24, 16/24 + 5/24 = 21/24, 21/24 + 3/24 = 1, x0 0 < x 1 1< x  2 2<x3 3< x4 x>4 Пример 4. Построить эмпирическую функцию распределения по выборке извлеченной из количественного признака Х, являющейся непрерывной случайной величиной: [xi, xi+1) [1, 3) [3, 5) [5, 7) [7, 9) ni 4 2 3 1   10 Решение. Объем выборки n=10. Положим F (1)=0; F (3)=n1/n=0,4; F (5)=(n1+n2)/10=0,6; F (7)=(n1+n2+n3)/n=0,9; F (9)=1. По свойству эмпирической функции F (х)=0, при х≤1 и F (х)=1, при х>9. Соединяя точки Ai(xi, F (xi)), i=1,5 последовательно отрезками получим график функции F (х). y  yi x  xi  y i 1  y i xi 1  xi составим уравнение отрезков AiAi+1 и получим следующую функцию распределения. Выведем формулу для определения функции F (x)=            0, 0,2x - 0,2, 0,1x - 0,1, 0,15x - 0,15, 0,05x + 0,55, 1 при при при при при при F (х). Для этого по формуле x 1 1< x  3 3< x5 5<x7 7<x9 x > 9. (читателю рекомендуется построить график функции F (х)) Для наглядного изображения статистического распределения используют полигоны и гистограммы. Полигоном называют ломаную линию, отрезки которой последовательно соединяют точки с координатами (x1;n1), (x2; n2)…(xk; nk) или точки с координатами (x1; w1), (х2; w2)…(хk; wk). Гистограммой называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиной h, а 45 высоты равны ni h (или ni , где n объем выборки). Ясно, что площадь гистограммы nh равна сумме всех частот (или относительных частот), т.е. объему выборки n (или единице). Гистограмма относительных частот является аналогом функции плотности случайной величины. Полигон и гистограмма позволяют получить первоначальные представления о закономерностях, имеющих место в совокупности наблюдений. Задачи к лекции 10. 1.Построить полигон статистического распределения, из примера 1лекции 10. 2.Построить гистограмму по данным примера 2 лекции 10 и выдвинуть предположение о виде закона распределения СВ Х- дохода населения. 3.При измерении содержания никеля при анализе легированной стали определенной марки получены следующие данные: 4,26; 4,17; 4,25; 4,25; 4,22; 4,25; 4,25; 4,40; 4,05; 4,15; 4,40; 4,17; 4,27; 4,10; 4,25; 4,30; 4,25; 4,20; 4,20;3,90. Постройте гистограмму данных, рассматривая ширину интервала группировки h=0,10. 4.Экономист, интересующийся тарифным разрядом преподавателей ВУЗа, выбрал документы 100 преподавателей и выписал из них статические данные, где 8-й разряд повторяется 5 раз, 9-й 10 раз, 10-й 15 раз, 11-й 20 раз, 12-й 10 раз, 13-й 10 раз, 14-й 10 раз, 15-й 15 раз, 16-й 5 раз. Постройте полигон статистического распределения выборки. 5.В ходе проведения эксперимента получен следующий набор данных: 32, 26, 16, 44, 28, 40, 30, 31, 17, 30, 37, 32, 42, 31, 36, 49, 35, 21, 25, 40, 27, 25, 33, 34, 27, 43, 19, 23, 36, 48, 31, 35, 43, 32, 26, 35, 33, 45, 19, 22, 28, 49, 23, 32, 33, 27, 43, 35, 23,44. Составить интервальный вариационный ряд, выбрав число частичных интервалов, равное 7.Построить гистограмму статистического распределения выборки. 6.На фирме работает 39 человек. Проведено исследование числа рабочих дней, пропущенных каждым работником фирмы в течение месяца. Результаты этого исследования таковы:0, 1, 3, 0, 2, 3, 5, 7, 3, 5, 10, 7, 5, 0, 2, 10, 5, 3, 1, 9, 15, 10, 1, 0, 2, 3, 5, 7, 7, 6, 5, 3, 0, 7, 10, 13, 0. Составить интервальный вариационный ряд. Построить функцию распределения случайной величины числа пропущенных рабочих дней. 7.Найти эмпирическую функцию распределения по данным интервальному вариационному ряду и построить гистограмму. i 1 2 3 4 5 6 7 8 9 xi≤X<xi+1 [0, 2] [2, 4] [4, 6] [6, 8] [8, 10] [10, 12] [12, 14] [14, 16] [16, 18] ni 6 4 2 18 29 11 10 17 3 8.Анализируется объемы ежедневных продаж некоторого товара за 40 дней. Получены следующие данные:5, 6, 3, 2, 7, 7, 6, 6, 10, 11, 6, 4, 5, 6, 3, 12, 9, 10, 7, 4, 6, 8, 8, 10, 5, 5, 4, 6, 6, 9, 11, 12, 7, 7, 8, 8, 10, 11, 8, 7, 5. Необходимо: а) построить статистический вариационный ряд; б) определить размах выборки; в) построить эмпирическую функцию распределения и ее график; г) построить полигон относительных частот. 9.Построить полигон относительных частот по данным вариационным рядам (n=100): а) б) xi -1 0 1 3 xi 1 4 5 7 ni 15 5 25 55 ni 10 25 45 20 10. В одной из сур Священного Корана (сура «Ихлас») рассчитывается 46 букв, причем использованы лишь 12 букв арабского алфавита, так как некоторые из них повторяются. Пронумеруя используемые буквы в порядке их появления в суре от 12 до 1, получен следующий ранжированный по частотам статистический закон распределения: 46 Частота (ni) 1 1 1 2 2 3 4 4 5 5 6 12 Номер букв(Ni) 12 5 1 7 2 3 10 4 9 5 11 8 В левой системе координат (т.е. ось 0 ni направлен влево, ось 0 Ni – вверх) постройте полигон данного распределения и сделайте соответствующий вывод. 11.Построить гистограмму относительных частот и функцию распределения по данным распределениям выборки. а) б) xi<X≤xi+1 ni xi<X≤xi+1 ni -2-2 5 60-65 30 2-6 25 65-70 20 6-10 40 70-75 25 10-14 12 75-80 25 12. Пусть наблюдается следующая реализация выборки, состоящей из 40 компонент. 0.42 -0.44 0.59 0.79 -0.10 0.12 0.48 -1.27 0.59 0.65 1.27 -1.40 -1.57 -1.61 1.45 1.26 0.86 -0.88 -0.14 -0.52 0.53 1.38 0.02 -0.26 0.23 -0.62 -0.02 -0.46 -0.89 -0.39 -0.53 1.70 -0.85 0.40 0.97 0.83 0.41 -0.34 -1.09 0.58 Построить гистограмму с шагом h=0.4 для этой реализации. Написать реализацию вариационного ряда, вычислить квантиль порядка 0.8 и выборочную медиану. 13. Из генеральной совокупности извлечена выборка объема n=50 Чему равно n4 при следующем законе распределения выборки: xi 1 2 3 4 ni 4 20 11 ? Построить соответствующий полигон частот. 14. Выборка задана в виде распределения частот: 1) 2) xi 2 4 5 8 xi 1 4 6 8 ni 6 2 8 4 ni 4 3 2 1 Найти: а) распределение относительных частот; б) эмпирическую функцию распределения; в) построить полигон частот и полигон относительных частот. 15. Построить гистограмму частот и гистограмму относительных частот по данному распределению выборки: xi-xi=1 3-5 5-7 7-9 9-11 11-13 13-15 15-17 ni 5 15 30 20 5 15 10 16. Цена некоторого товара в 20 магазинах была следующей: 50,48,47,55,50,45,50,52,48,50,47,50,48,52,50,50,48,52,48,50. На базе этих данных необходимо: а) построить статистический ряд; б) построить полигон относительных частот. 17. Анализируется размер дивидендов по акциям некоторой компании. Для этого отобраны данные за последние 20 лет: 5,10,7,-5,3,10,15,10,5,-3,-5,3,7,15,10,10,0,-2,5,10. а) Каков ожидаемый размер дивидендов? б) Как можно оценить риск от вложений в данную компанию? 18. Имеются статистические данные прибыли (Х) по 100 фирмам представленные следующим интервальным статистическим рядом: 47 [ xi 1 , xi ),% ni [0,5) [5,10) [10,15) [15,20) [20,25) [25,30) 8 15 35 30 10 2 Необходимо: а) оценить величину ожидаемой прибыли; б) построить гистограмму и выдвинуть предположение о виде закона распределения СВ X. Лекции 11-12. Статистическое оценивание. После осуществления выборки возникает задача оценки числовых характеристик генеральной совокупности (ГС) по элементам выборочной совокупности (ВС). Пусть требуется изучить некоторый количественный признак X ГС. Предположим, что (по теоретическим соображениям, по виду полигона или гистограммы) нам удалось установить вид закона распределения для СВ Х. Каждое распределение, как известно, имеет свои параметры, (например, нормальное – и σ, показательное λ и т. д.). Следовательно, возникает задача оценивания неизвестных параметров предполагаемого закона распределения или неизвестных числовых характеристик СВ Х по результатам выборки. Выборочная характеристика, используемая в качестве приближенного значения неизвестной генеральной характеристики, называется ее точечной оценкой. Пусть нужно оценить некоторый параметр , и, на основе выборки х1, х2, …хn мы получили ее оценку ā. Если возьмем различные выборки, объема n, то естественно получим различные значения, поэтому обозначим их через ān. Ясно, что чем ближе математическое ожидание М (ān) к истинному значению и чем меньше дисперсия D(ān ), тем лучше будет оценка. Так как оценка ān является случайной величиной то, чтобы она имела практическое значение, естественно требовать выполнения следующих условий: 1.Состоятельность. Оценка ān является состоятельной оценкой генеральной характеристики , если для любого ε>0 выполняется следующее равенство: lim P n  <    1 Это означает, что при увеличении объема выборки n выборочная характеристика стремится к соответствующей характеристике генеральной совокупности  n    , т. е. чем больше объем исходной информации, тем ближе мы к «истине». 2.Несмещенность. Оценка ān генеральной характеристики называется несмещенной, если для любого фиксированного числа наблюдений n М(ān)= . Разность М(ān) - называется смещением или систематической ошибкой. Это означает, что при любом фиксированном n среднее из значений оценки вычисленное для всевозможных выборок объема n совпадает с точным значением генеральной характеристики, т. е. ān не должна иметь систематических ошибок, ее значения не должны постоянно быть или только больше или только меньше оцениваемого параметра . 3.Эффективность. Несмещенная оценка ān генеральной характеристики называется несмещенной эффективной, если среди всех подобных оценок той же характеристики она имеет наименьшую дисперсию: D(ān)=Dmin , Это означает, чтобы при данном объеме выборки n оценка ān имела наименьший разброс вокруг оцениваемого параметра . 48  Оценки математического ожидания и дисперсии. Пусть задана случайная величина х – количественный признак изучаемой генеральной совокупности. Требуется оценить ее неизвестное математическое ожидание М(х)= и 2 дисперсию D(х)= σ по результатам выборки объема n. Пусть х1, х2, …хn – n наблюдаемые значения СВ Х или выборки из ГС. Тогда величина x B  1n  x i (если все i 1 k значения выборки различны) или x B  1n  n i x i (если значения хi имеют частоты ni) i 1 называют выборочной средней, где n1+n2+ …+nk=n Соответственно определяются и выборочные дисперсии: DB n 1 n  (x i 1 i  x B ) 2 , или D B  к 1 n  n (x i 1 i i x B )2 Для вычисления DВ можно пользоваться формулой : D B  xB2  ( x B ) 2 Действительно, DB k 1 n  ni (xi x B )2  k 1 n i  i k 1 n n x i  ( xi2  2 xi x B  xB2 )n i  2 i k 1 n n x i 2 i  2 x B 1n  n i x i  1n  n i x B  2 i  2 x B 1n  n i x i  1n  n i x B  x B2  2 x B x B ( x) 2B  x B2  ( x) 2B 2 i Теорема 1. Выборочная средняя х В является несмещенной и состоятельной оценкой математического ожидания генеральной совокупности, т. е.1) М( х В )=α, 2) lim P(│ х В -α│<ε)=1, ε>0 Доказательство. Пусть дана выборка х1, х2, …хn Будем рассматривать их как реализация случайных величин Х1, Х2, …Хn ,одинаково распределенных по закону распределения генеральной совокупности. Это означает, что М(х1)=М(х2)= …М(хn)= тогда из свойств математического ожидания и определения х В получим M ( х В )  M ( 1n ( Х 1 Х 2  ...  Х n ))  1n (M ( x1 )  M ( x2 )  ...  M ( xn ))  1n n   , что означает несмещенность оценки х В . Состоятельность оценки х В мы получим предполагая, что дисперсия D(xi)<c, i=1,n. Тогда на основании теоремы Чебышева. lim P( x B  a <  )  1 , ε>0. n  Теорема 2. Выборочная дисперсия D В является смещенной оценкой. Доказательство. В предположениях доказательства теоремы 1 D(x1)=D(x2)=…=D(xn)= σ2 и математическое ожидание выборочной дисперсии можно записать в виде n n n M ( D B )  M ( 1n  ( x i   )  ( x B   )) 2  M ( 1n  ( x i   ) 2 )  M ( n2  ( x i   )( x B   ))  2 1 1 n  M ( 1n  ( x B  a) 2 )  n 1 n i  M ( x a) i 1 n 2  2M (( x B a)( 1n  xi  1n  n i x i  nan ))  M (( x B a) 2 )  1 1  n  2M (( x B a) )  M (( x B a)    M (( x B a) 2 1 n 2 2 2 2 49 Х 1 Х 2...  Х n  1 n 2  2 , то   n2 ( D( Х 1)  D( Х 2)  ...  D( Х n))  2  n n n    2 (n  1) 2 n  1 M ( DB )   2    D т.е. М(DB)=(n-1) · DB /n. n n n так как M ( x B a) 2  D( x B )  D Теорема доказана. Так как М(DB)≠D=σ2 то наряду с дисперсией вводят еще понятие «исправленной» дисперсии S2, определяемой формулой n S2  n 1 DB ni (xi x B )2  n 1 n  1 i 1 Ясно, что исправленная дисперсия S2 является несмещенной оценкой для генеральной дисперсии. Поэтому в качестве приближенного значения дисперсии генеральной совокупности наиболее часто (по сравнению с DB) пользуются S2 . Величина  B DB называется выборочным средним квадратичным отклонением, а S  nn1 D B называется эмпирическим стандартом. Эмпирический стандарт служит для оценки среднего квадратичного отклонения σ генеральной совокупности. Пример 1. Найти исправленную дисперсию и эмпирический стандарт на основании данного распределения выборки: хi 2 7 9 10 ni 8 14 10 18 Решение. Найдем выборочную среднюю х В  (8  2  14  7  9 10  18 10) / 50  7,68 Для вычисления выборочной дисперсии используют формулу: DB  x B2  ( x B ) 2 50  7,58  7,73 x B2  (8  4  49  14  81 10  100  18) / 50  66,56 , D B  66,56  7,68 2  7,58 , 5 2  49 Примечание 1. Часто значения X разбиваются на определенное число групп, где каждую группу можно рассматривать как самостоятельную выборку, и для каждой группы можно определить групповую среднюю и дисперсию. Пусть r – число групп. Групповую дисперсию определяем по формуле D i  N1  n i ( xi  x j ) 2 , j  1, 2, …r, i где ni – чистота значения xi в группе, j - номер группы, x j - групповая средняя j -й группы, N j   ni - объем j -й группы. Тогда внутригрупповые и межгрупповые дисперсии определяются по формулам: D ВНГР  ч 1 N N j 1 j D j , D МГР  1 N N i ( x j  x) 2 ,где N  N j , Dобщ.  DВНГР  DМГР Примечание 2. Если первоначальные варианты xi – большие числа, то для упрощения расчета можно перейти к условным вариантам ui=xi-c, где с – любое число, выбираемое по усмотрению вычислителя («ложный нуль») Тогда x B  c  u B , DB ( x)  DB (u) , S 2 ( x)  S 2 (u ) 50 2). Если первоначальные варианты являются десятичными дробями с к десятичными знаками после запятой, то можно перейти к новым условным вариантам u i  10 k x i тогда x B  u B 10k , D B ( x)  D B (u ) 10 2 k . 3). Если выборка задана в виде распределения равноотстоящих вариантов с шагом h и соответствующих им частот, то можно перейти к условной в варианте u i  ( x i c) h . Легко проверить, что  n (u i  1) 2   ni u i  2 ni u i n , 2 i 2  n   n x B   1n  ni k i h  c , D B   1n  ni ui2  1n  n i u i  h 2  1   1  Пример 2.По следующему статистическому распределению выборки найти выборочную среднюю и выборочную дисперсию: x i  x i 1 16-20 20-24 24-28 28-32 32-36 36-40 40-44 ni 20 25 40 45 35 20 15 Решение: Согласно примечания 1 составим таблицу: ni ui ni u i ni ui2 (проверочный) n i (ui  1) 2 18 22 26 30 34 38 42 20 25 40 45 35 20 15 -3 -2 -1 0 1 2 3 -60 -50 -40 0 35 40 45 180 100 40 0 35 80 135 20∙4=80 25∙1=25 40∙0=0 45∙1=45 35∙4=140 20∙9=180 15∙16=240 Σ 200 0 -30 570 710=570-60+200 xi1  x i  x iH 2 По данным таблицы имеем: 30  570  xB    4  30  28,8 , D B    0,09  16  89,76 100  100  Пример 3.Найти выборочную среднюю по данным распределению выборки: xi 1450 1480 1490 ni 3 5 2 Решение. Так как выборочное значение – большие числа, введем условные варианты. В качестве ложного нуля выбираем С = 1470 и рассчитываем u i по формуле u i  x i 1470 : ui -20 10 20 ni 3 5 2 Определяем выборочную среднюю: u  3 . После этого находим x B  1470  3  1473 Пример 4.Найти выборочную дисперсию по данному распределению выборки: 51 xi 0,02 0,05 0,08 ni 3 2 5 Решение. В целях упрощения расчетов целесообразно перейти к условным вариантам u i  100 x i : 2 3 ui ni 5 2 8 5 Найдем выборочную дисперсию условных вариант: 2  3  2 D B ( y )   n i u n    n i u i2 n   (3  4  2  25  5  64 ) / 10  (3  2  2  5  5  8) / 10   6,84 i 1  i 1  Выборочная дисперсия данного распределения вариант x i находится на основе выражения 3 2 i D B  D B (u )100 2  6,84 / 100 2  7  10 4 Примечание 3. Кроме выборочного среднего и дисперсии, для описания вариационного ряда используются и другие числовые характеристики, как например, мода (Мо), медиана (Ме), коэффициент вариации (V), коэффициент асимметрии А, коэффициенты эксцесса (Е): Модой Мо вариационного ряда называется вариант, имеющий наибольшую частоту; Медианой Ме вариационного ряда называется вариант делящий ряд на две равные части; Коэффициент вариации V  B100 / x B ; Коэффициент асимметрии     A   x i  x B n i / n 3 ; коэффициент эксцесса E   xi  x B ni / n B4 3 4 Если А=0 и Е=0, то в первом приближении можно судить о нормальности распределения. • Метод наибольшего правдоподобия для определения точечной оценки. Метод нaибольшего правдоподобия, применяемый для определения точечной оценки, опирается на использование условий экстремума функции одной или нескольких случайных величин. В качестве такой функции принимают функцию правдоподобия. Для ДСВ функция правдоподобия принимает вид L=p(x1,θ)р(хг,θ)∙∙∙p(x,θ),где x1, х2, ..., хп — варианты выборки; θ - параметр, для которого находится оценка; р(х1, θ) — вероятность события X = xi, зависящая от параметра θ. Так как функции L и In L достигают максимума при одном и том же значении θ , то обычно d ln L точки экстремума находятся для In L. Для этого определяется производная и d приравнивается к нулю. На основании достаточного условия (вторая производная должна быть отрицательна) можно убедиться, что полученная точка является точкой максимума. Для НСВ функция правдоподобия выбирается в виде L=f(x1,θ)f(хг,θ)∙∙∙f(x,θ),где f(xh θ ) — заданная функция плотности вероятности в точках x i. Чаще всего метод наибольшего правдоподобия используется при биномиальном, пуассоновском и показательном распределениях случайной величины. В случае биномиального распределения P r (m)  C rm p m (1  p) r  m ,где Pr(m) - вероятность появления ровно т раз события А (случайной величины) в r испытаниях; p - вероятность появления события А в одном испытании. Величина р может рассматриваться как параметр. Если проводится п опытов по г испытаний в каждом и 52 фиксируется число появлений события (величины) в каждом испытании xt , то при подстановке этого значения в формулу биномиального распределения получаем P r ( xi , p)  Crxi p xi (1  p) r  xi Тогда функция правдоподобия примет вид L=pr(x1,p)рr(хг,p)∙∙∙pr(xn,p), После логарифмирования и приравнивания к нулю производной от In L получаем выражение для оценки n p*   x i /( nr ) i 1 Если значение xi встречаются ni раз, то оценка параметра р принимает вид n p*   x i n i /( nz ) , i 1 k n i 1 i n В случае пуассоновского распределения Pr (m)  m и подстановки вариант выборки получаем Pr ( xi  )  x i m! e  Pr(m)  m e   / m! e  Pr( x i  )  xi e  / x i ! xi ! Составив функцию правдоподобия L, дифференцируя In L и приравнивая его производную к нулю, находим оценку параметра λ в виде n k i 1 i 1 *   x i / n  x B или *   ni x i / n  x B В случае показательного распределения f ( x)  e  x ( x  0 ) функция правдоподобия для выборочных значений x1, x2…, xn примет вид n x1  x n x 2   xi L  e e ...e   e i 1 После преобразований получаем выражение для оценки параметра λ:  n   *  т /   xi   1 / x B  i 1  n Задачи к лекциям 11-12. а) 1. Найти выборочную среднюю по данному распределению выборки: б) xi xi 2430 2460 2500 3140 3150 3180 ni 12 6 ni 12 24 14 12 2. Найти несмещенную оценку дисперсии случайной величины х на основании данного распределения выборки: xi 1 5 6 8 ni 6 4 7 3 3.Выручка в магазине от продажи обуви составила соответственно по месяцам следующие значения (млн. руб.): Месяц 1 pi 0,2 0,5 0,4 0,2 0,4 0,5 0,2 0,2 0,4 0,5 0,4 0,2 2 3 4 5 6 7 8 9 10 11 12 Найти выборочную среднюю и выборочную дисперсию. 4. Цена некоторого товара в 20 магазинах была следующей: 50, 48, 47, 55, 50, 45, 50, 52, 48, 50, 52, 48, 50, 47, 50, 48, 52, 50, 50, 48, На базе этих данных необходимо: 1). построить вариационный ряд; 2). полигоны частот и относительных частот; 3). выдвинуть предположение о виде закона распределения случайной величины – цены товара 4). найти несмещенную оценку дисперсии этой случайной величины. 53 5. Анализируя прибыль фирмы некоторой отрасли получены статистические данные по 100 фирмам: [ x i 1 x i ) [0,5) [5; 10) [10; 15) [15; 20) [20; 25) [25; 30) [30; 35) ni 8 10 30 35 10 5 2 Необходимо: 1) оценить величину средней прибыли в отрасли;2)построить гистограмму и выдвинуть предположение о виде закона распределения;3)оценить величину относительного разброса прибылей в данной отрасли;4)найти несмещенную оценку дисперсии случайной величины х 6. Анализируя по годовым темпам инфляции в стране, получены статистические данные за последние 10 лет: 2,8; 3,2; 5,1; 1,8; -0,6; 0,7; 2,1; 2,7; 4,1; 3,5. Необходимо найти несмещенные оценки среднего темпа инфляции, дисперсии и среднего квадратичного отключения. 7. Оценивается годовой доход (х, тыс. у. е.) на душу населения в некотором городе. Случайная выборка из 16 обследованных человек дала следующие результаты: 8,5; 10,5; 12,25; 7,0; 17,0; 8,75; 10,0; 9,3; 8,0; 11,5; 10,0; 12,0; 9,0; 6,5; 13,0; 10,2. Оценивать среднедушевой доход в городе и разброс в доходах. 8. Случайная величина х распределена по биномиальному закону. Статистическое распределение выборки представлено в таблице. xi 0 1 2 3 4 5 6 7 ni 2 3 10 22 26 20 12 5 Найти точечную оценку параметра р указанного закона распределения случайной величины (r=10). 9. Случайная величина X распределена по закону Пуассона с неизвестным параметром λ. Статистическое распределение выборки представлено в таблице: xi 0 1 2 3 4 5 6 7 ni 199 169 87 31 9 3 1 1 Найти точечную оценку параметра λ. 10. Случайная величина х распределена по показательному закону. Статистическое распределение выборки представлено в таблице: xi 5 15 25 35 45 55 65 ni 365 245 150 100 70 45 25 Найти точечную оценку параметра λ. 11. Стеклянные однородные изделия отправлены для реализации из Москвы в Махачкалу в 1000 контейнерах. После поступления товара было выявлено количество разбитых изделий в каждом контейнере. Результаты представлены в таблице: xi 0 1 2 3 4 ni 785 163 32 16 4 Считая, что число разбитых изделий описывается законом Пуассона, найти точечную оценку параметра λ. 12. При условии равномерного распределения случайной величины X x  ( a, b) 1 /(b  a) f ( x)   , если , произведена выборка x  ( a, b) 0 xi 2 3 4 5 6 ni 4 6 5 12 8 54 Найти оценку параметров a и b. 13. Найти асимметрию и эксцесс эмпирического распределения. xi 1 2 3 4 5 6 10 ni 5 10 15 35 16 15 4 14.В течении дня ежечасные измерения напряжения тока в электросети дали следующие значения: 227.3; 219.1; 215.3; 229.6; 231.8; 218.7; 222.4; 229.24 225.8; 219.9; 217.1. Построить график эмпирической функции распределения и вычислить выборочную медиану. Лекция 13-14. Понятие об интервальных оценках параметров генеральной совокупности. Примеры построения доверительных интервалов. Рассмотренные выше оценки ( Х В , Д В ) называют точечными оценками, так как они определяются одним числом. При выборке малого объема точечная оценка может существенно отличаться от истинного значения параметра и замена значения параметра его оценкой может привести к серьезным ошибкам. Поэтому, при небольшом объеме выборки применяют интервальные оценки, т.е. определяется интервал. (Q1, Q2) внутри которого с наперед заданной вероятностью ‫ ﻻ‬находится точное значение оцениваемого параметра Q. Задачу определения такого интервала называется интервальным оцениванием, а сам интервал доверительным интервалом. При этом ‫ ﻻ‬называют доверительной вероятностью или надежностью, с которым оцениваемый параметр падает в интервал (Q1, Q2). Для определения доверительного интервала заранее выбирают число α = 1- ‫ﻻ‬, называемого уровнем значимости, и находят два числа Q1 и Q2 зависящих от точечной оценки, такие что P(Q1< Q< Q2)=1-α=‫ﻻ‬ В этом случае говорят, что интервал (Q1, Q2) покрывает параметр Q с вероятностью (1-α)=‫ ﻻ‬или в 100(1-α)% случаев. Границы интервала Q1 и Q2 обычно находятся из условия  2 P(Q<Q1)=P(Q>Q2)= . Обычно используют α=0,1; 0,05;0,01, что соответствуют 90, 95, 99%-м доверительным интервалом. Общая схема построения доверительного интервала сводиться к следующему: 1.Из ГС с известной плотностью распределения f(X, Q) СВ Х извлекается выборка объема n по которой находятся точечная оценка Q*. 2.Подбирается СВ (статистика) У параметра Q, связанная с параметрами Q и Q* и имеющая известную плотность распределения f(Y, Q). 3. По заданному уровню значимости α или надежности ‫=ﻻ‬1-α, используя плотность вероятности СВ У, определяют числа С1 и С2, такие, чтобы выполнялось неравенство C2 P(C1< Y< C2)=  f(Y,Q)dy =1-α C1 Значения С1 и С2 выбираются, как правило, из условий a 2 P(Y(Q)<C1)= , P(Y(Q)>C2)=  2 55 Неравенство С1<Y(Q)<C2 преобразуете в равносильное Q*- ε<Q<Q*+ε, такое, что P(Q*-ε<Q<Q*+ε)=1-α. Следовательно, для получения интервальных оценок необходимо выдвинуть предположение о законе распределения ГС (случайной величины). Поскольку чаще всего встречаются нормальное распределение СВ построим интервальные оценки для параметров a и σ нормального распределения N(a; ζ). При этом будем пользоваться Ф, t, χ2 и F- распределениями. Примеры. а) Пусть количественный признак Х генеральной совокупности имеет нормальное распределение с заданной дисперсией ζ2 и неизвестным математическим ожиданием a., т.е. Х=N(m, ζ). Найдем доверительный интервал покрывающий математическое ожидание a ГС с заданной надежностью ‫( ﻻ‬или уровнем значимости α=1-‫ )ﻻ‬с учетом полученного значения выборочного среднего Х В т.е. необходимо найти число ε>0 такое что P(| X В -α/<ε|)=‫=ﻻ‬1-α Нахождение ε основано на следующем утверждении: Величина ( Х В-a) n /  имеет нормальное распределение с нулевым математическим ожиданием и единичной дисперсией, т.е.Y= ( Х B  a)  n /  =N(0,1). n n n n n n i 1 i 1 i 1 i 1 i 1 i 1 n Действительно, M(  X i)=  M (Xi)=  a =na , D(  X i)=  D (Xi)=   2=nζ2 . Отсюда n  X i=N(na, nζ ). Теперь найдем закон распределения 2 i 1 Х В=  X i/n i 1 Так как Х В имеет нормальный закон распределения с параметрами 1 M( Х В)=M( n n n 1 1 1 )= M( X X i)= na=a, D( Х В)=D( i   n n n i 1 i 1 n  X i)= i 1 1 n 2 n D(  X i)= i 1 1 n 2 nζ =  2 n 2 , то Х В=N(a, ζ/ n ).Следовательно, Y= ( Х B  a)  n /  =N(0,1). Далее зададим уровень значимости α. Применяя формулу нахождения вероятности отклонения стандартной нормальной СВ У от математического ожидания получим P( Y <yα/2)=P(| ( Х B  a)  n /  |<yα/2)=P( Х В-yα/2  / n <a< Х В+yα/2  / n )=2Ф(yα/2)=‫=ﻻ‬1-α Это значит, что доверительный интервал ( Х В- yα/2  / n ; = Х В+ yα/2  / n ) покрывает неизвестный параметр а с надежностью ‫=ﻻ‬1-α. Точность оценки или доверительная ошибка выборки ∆= yα/2  / n . Число yα/2 определяется по таблице 3 значений функции Лапласа (см. приложение) из равенства Ф(yα/2)= 1 а  = , по известным величинам α или ‫ﻻ‬. 2 2 Замечание 1. Ошибка выборки для выборочной относительной величины (доли) определяется аналогично. Дисперсия относительной величины по данным выборки можно определить по формуле S2=p(1-p). Действительно, поскольку имеется в виду альтернативная или дихотомическая переменная которая принимает значение 0 или 1, тогда среднее значение переменой (n1  0  n2  1) /( n1  n2 )  n2 / n  p = n2 / n =p. составит Квадрат отклонения от средней   S 2  (0  p) 2 n1  (1  p) 2 n2 / n  p 2  p(1  2 p)  p(1  p) 56 Доверительная ошибка выборочной доли ∆= yα/2· p(1  p) n  p  q n Пример. По данным выборочного изучения 100 платежных документов одного треста оказалось, что в 6 случаях сроки расчетов с кредиторами были повышены. С вероятностью 0,954 требуется установить доверительный интервал доли платежных документов треста без нарушения сроков: q=0,06, p=0,94, S2=0,94·0,06=0,24,Ф(yα/2)=0,954, Yα/2 =2 ∆=2 0,24 100 =±0, 84. Генеральная доля платежных документов π, не выходящих за установленные сроки с вероятностью 0,954 находится в интервале 0,892≤π≤0,988, или 89,2% ≤π≤98,8%. б) Теперь решим задачу определения доверительного интервала для математического ожидания а, когда дисперсия σ2 изучаемого нормального распределения неизвестна. Пусть X=N(a, ζ).По наблюдениям X1, X2, .. Xn вычислим среднее X B и исправленную выборочную дисперсию S 2 = n  (x i 1 i  x В ) 2 /( n  1) Определение точности оценки ∆ в этом случаи основано на следующем утверждении, которую приведем без доказательства: Величина ( X B  a)  n / S имеет распределение Стьюдента с (n-1)-й степенью свободы, т.е. ( X B  a)  n / S =Т Воспользовавшись таблицей (см. приложение) для заданных значений ‫ ﻻ‬и числа k=n-1 найдем число t‫=ﻻ‬t(α/2, n-1) при котором вероятность P (|( Х В  а.)  n / S |<tγ)=‫=ﻻ‬1-α. Отсюда, доверительным интервалом будет интервал ( X B  tγS/ n <a< X B  tγS/ n ), ∆= tγS/ n . в) Рассмотрим теперь интервальную оценку среднего квадратичного отклонения ζ нормального распределения. Пусть Хi как прежде независимые случайные величины, причем Xi=N(a, ζ). По результатам статистического распределения выборки вычислим Х B и оценку S2. За оценку ζ примем S = S 2 . Теперь зададимся надежностью ‫( ﻻ‬или уровнем значимости α=(1-‫ ))ﻻ‬интервальной оценки и найдем такое число ε, чтобы выполнялось равенство P=(S-ε<ζ<S+ ε)=‫=ﻻ‬1-α Определение оценки ε в этом случаи основано на следующем утверждении, которую примем без доказательства: Величина (n  1) S 2 /  2 имеет χ2- распределение с числом степеней свободы, равным (n-1), т.е. (n  1) S 2 /  2 =  k n1 . Воспользовавшись таблицей (см. приложение) найдем для заданных α и числа k=n-1 критические значения q21=χ2(1-α/2, n-1) и q22 =χ2(1-α/2, n-1) для которых выполняется равенство P(q21<(n-1)S2/ζ2< q22)=1-α. Отсюда S2(n-1)/χ2(α/2, n-1)< ζ2<S2(n-1)/χ 2(1-α/2, n-1) 2 Пример 1. На основе наблюдений за весом Х пакетов конфет, заполняемых автоматически, установлено, что стандартные отклонения веса пакетов ζ =10г. Взвешено 25 пакетов , при этом их 57 средний вес Х В=244г. В каком интервале с надежностью 95% лежит истинное значение среднего веса пакета? Решение: Будем считать, что величина Х распределена нормально. Для определения 95% доверительного интервала найдем Ф(t)=  / 2  0,95 / 2 =0,4750. Из таблицы функций Лапласа t=1,96. Тогда доверительным интегралом будет интервал (244-1,96· 10 / 25 ; 244+1,96· 10 / 25 )=(240,08·247,92). Пример 2. Обследование 25 человек показало, что средний доход составил 1200 у.е. при среднем отклонении S=120 у.е. Пологая что доход имеет нормальный закон распределения определите 95%-е интервальные оценки для математического ожидания а и среднего квадратного отклонения ζ. Решение: а) Так как СВ Х-доход имеет нормальный закон распределения, то величина ( X B  a) n / S  (1200  a) 25 / 120 имеет распределение Стьюдента с (25-1)-й степенью свободы. По таблице для по α=0,05 и к=24 найдем число t‫=ﻻ‬t(0,025; 24)=2,064. Отсюда, доверительный интервал для М(Х)=а имеет вид: 1200- (2,064 120) / 25 <a<1200+ (2,064 120) / 25 , т.е. 1170,464<a<1249,536 б) Для оценки ζ рассмотрим величину (n-1)S2/ζ2=χ2(k=n-1) имеющую χ2-распределение с (n1)-й степенью свободы. По таблице из приложения найдем критические точки χ2(0,025, 24)=39,36, χ2(0,975,24)=12,40. Отсюда 120 24 / 39,6 <ζ<120 24 / 12,4 , 81,5<ζ<158,5, Примечание 1. Оценку для ζ можно получить проще. Должно выполняться условие P(   S <ε)=‫=ﻻ‬1-α или P(S-ε<ζ<S+ε)=‫=ﻻ‬1-α Запишем это равенство в виде P(S(1-  / S )<ζ<S(1+  / S ))=‫=ﻻ‬1-α Обозначив q=  / S , получим доверительный интервал S(1-q)<σ<S(1+q) где число q=q(n, ‫ )ﻻ‬меняется в зависимости от ‫ ﻻ‬и n. Значения q(n, ‫ )ﻻ‬табулированы (см. приложение). Так как ζ>0, то для q≤1 доверительный интервал имеет вид 0<ζ<S(1+Q). Рассмотрим пример 2. По условию S=120, ‫=ﻻ‬0,95, n=25. Определив по таблице q(25, 0,95)=0,32, можно найти доверительный интервал для среднего квадратичного отклонения ζ: (1-0,32)120<ζ<(1+0,32)120, т.е. 81,6<ζ<158,4 Задачи к лекциям 13-14. 1. Найти доверительный интервал с надежностью 0,95 для оценки математического ожидания нормально распределительной CВ Х, если известны ее среднее квадратичное отклонение ζх=4, выборочная средняя х В =16 и объем выборки n=20 и объемом выборки n=16. Решение. По надежности ‫=ﻻ‬0,95 из соотношения Ф (z)=‫ﻻ‬/2 находим значение функции Лапласа: Ф(z)=0,475. По таблице значений функции Лапласа (см. приложение ) находим z=1,96. Используя неравенства для интервальной оценки математического ожидания, получаем 16-1,96·4/4<MX<16+1,96·4/4, или 14,04<MX<17,96. 2. Найти доверительный интервал с надежностью 0,8 для оценки математического ожидания нормально распределительной СВ Х со средним квадратичным отклонением ζ=5, выборочной средней х В =20 и объемом выборки n=25. 3. На овцеводческой ферме из стада произведена выборка для взвешивания 36 овец. Их средний вес оказался равным 50кг. Предположив распределение веса нормальным и, определив несмещенную оценку выборочной дисперсии s2=16, найти доверительный интервал для оценки математического ожидания с надежностью а) 0,8; б)0,9; в)0,95. 4. В нескольких мелких магазинов проведена проверка качества 100 изделий, после чего осуществлена обработка полученных данных. В результате получено несмещенное значение 58 выборочного среднего квадратичного отклонения s=4. Считая распределение качественных изделий нормальным, найти с надежностью квадратичного отклонения. 5.Случайная величина Х распределена по нормальному закону. Статистическое распределение выборки представлено в таблице xi ni 3 3 5 7 7 4 8 6 10 7 12 5 14 8 Найти с надежностью 0,97 доверительный интервал для оценки математического ожидания и с надежностью 0,95 для оценки среднего квадратичного отклонения. 6. Предполагается, что месячный доход граждан республики Дагестан имеет нормальное распределение с математическим ожиданием а=1000у.е. и дисперсией ζ =200у.е. По выборке из 500 человек определили выборочный средний доход Х В =900у.е. а) Постройте 90 и 95% доверительные интервалы для среднедушевого дохода в республике. б) Следует ли на основании построенных доверительных интервалов отклонить предположение об ежемесячном доходе в 1000у.е.? 7.Для изучения влияния диеты и комплекса упражнений на изменение веса спортклуб провел анализ по двум случайным выборкам из 6 человек до и после диеты и упражнений. Полученные следующие результаты (буквы-инициалы испытуемого, цифры вес кг.): 1 выборка: АГ 85,5; ВТ 92,7; ДИ 79; КД 68,6; КЛ 102,5; МА88,3; 2 выборка: АГ 83; ВТ 90,5; ДИ 77,5; КД 68; КЛ 94,5; МА 85. По этим данным постройте 95%-й доверительный интервал для потери веса. Есть ли основание не доверять рекламному проспекту клуба, обещавшему потерю веса в 3 кг? 8. Расход бензина автомобилей некоторого завода имеет нормальное распределение с ах=7,5л и ζх=0,5л. Выпустив новую модель автомобиля завод утверждает, что у него средний расход топлива (аy) снижен до 7л при том же значении ζх. Выборка из 15 автомобилей каждой модели дали следующие результаты: х =7,45; у =7,15. Можно ли по этим данным верить рекламе завода? 9. Станок-автомат заполняет пакеты чипсами по 250г. Считается, что станок требует подналадки, если стандартное отклонение от нормального веса превышает 5г. Контрольное взвешивание 10 пакетов дало следующие результаты: 245, 248, 250, 250, 252, 256, 243, 251, 244, 253. Постройте 95 и 99% доверительные интервалы для стандартного отклонения от номинального веса. Можно ли по этим интервалам судить о необходимости подналадки станка? 10. В выпускных классах двух школ (А и В) проведен одинаковый тестовый контроль для проверки качества знаний по математике. Отобранные случайным образом учащиеся показали следующие суммы балов: А: 41, 50, 35, 45, 53, 30, 57, 20, 50, 44, 36, 48, 55, 28, 40, 50. В: 40, 57, 52, 38, 25, 47, 52, 48, 55, 48, 53, 39, 46, 51, 45, 43. 1)Каковы точечные оценки средних баллов и дисперсий результатов для обеих школ?2) Можно ли утверждать, что при уровне значимости α=0,05, что один из школ обеспечивает лучшую подготовку по математике? 3) Сравните разброс в знаниях учащихся обеих школ? 11. Для определения потерь зерна при уборке случайным способом проведено 100 измерений. Средняя величина потерь составило 1,8ц с одного гектара посевов, при среднем квадратичном отклонении 0,5ц с га. С доверительной вероятностью 0,95 определить границы, в которых будет находиться средняя величина потерь зерна с 1 га и возможная величина потерь, если площадь уборки зерновых составила 640 га. 12. С помощью случайной выборки изучалось время выполнения производственной операции рабочими бригады. На основании60 наблюдений установлено, что в среднем на выполнение производственной операции затрачивалось 0,5 часа, при среднем квадратичном отклонении 0,12часа. Считая время выполнения производственной операции нормально распределенной случайной величиной, определить границы, в которых находится среднее время выполнения производственной операции всех рабочих с доверительной вероятностью: а) 0,9; б) 0,95. 59 Лекции 15-16. Статистические гипотезы и примеры их проверки. Под статистической гипотезой понимают всякое высказывание о генеральной совокупности (случайной величине), проверяемое по выборке (по результатам наблюдений). Например: а) можно выдвинуть предположение, что доход населения, ежедневное количество покупателей в магазине, размер выпускаемых деталей имеют нормальное распределение; б) можно выдвинуть предположение о величине среднего дохода населения, среднего ожидаемого дохода по акциям, о разбросе в доходах при обследовании заработков двух бригад, о разбросе в знаниях учащихся разных классах и т. д. Статистической можно назвать гипотезу 1) о виде закона распределения 2) о параметрах известного распределения 3) о равенстве дисперсии двух нормальных совокупностей и т.д. Проверяемую гипотезу называют нулевой и обозначают Но. Наряду с нулевой гипотезой рассматривают альтернативную или конкурирующую гипотезу Н1, являющуюся логическим отрицанием Но. Гипотезы Но и Н1 представляют собой две возможности выбора, осуществляемого в задачах проверки статистических гипотез. При проверке гипотезы выборочные данные могут противоречить нулевой гипотезе Но. Тогда она отклоняется. Если же выборочные данные согласуются с выдвинутой гипотезой, то она не отклоняется, т.е. нулевая гипотеза принимается. Но решение о том. что гипотеза Но принятая по выборочным данным справедлива и для генеральной совокупности может быть ошибочным. При этом возможны ошибки двух родов: отвергают гипотезу Но в пользу гипотезы Н1, тогда как на самом деле гипотеза Но верна; это ошибка первого рода; принимают гипотезу Но, тогда как на самом деле высказывание Но неверно, т. е. верной является альтернативная гипотеза Н1; это ошибка второго рода. Последствия указанных ошибок неравнозначны. Что лучше или хуже - зависит от конкретной постановки задачи и содержание гипотезы Но. например, если Но состоит в признании продукции фирмы качественной и допущена ошибка первого рода, то будет забракована годная продукция. Допустим ошибку второго рода – отправляем потребителю брак. Очевидно, последствия второй ошибки более серьезны с точки зрения имиджа фирмы и ее перспектив. Исключить ошибки первого и второго рода невозможно в силу ограниченности выборки, поэтому стараются минимизировать потери от этих ошибок. Вероятность α допустить ошибку 1-го рода, т. е. отвергнуть гипотезу Но, когда она верна, называется уровнем значимости. Вероятность допустить ошибку 2-го рода, т. е. принять гипотезу Но, когда она неверна, обычно обозначают β. Тогда вероятность (1- β) не допустить ошибку 2-го рода, т. е. отвергнуть гипотезу Но, когда она неверна, называется мощностью критерия. Чем больше мощность критерия, тем меньше вероятность ошибки 2-го рода. Обычно значение α задают заранее (например 0,1; 0,05; 0,01 и т. д.), а затем стремятся построить критерий наибольшей мощности. Например, если a=0,05, то это означает, что исследователь не хочет совершить ошибку 1-го рода более чем в 5 случаях из 100. Проверку гипотез осуществляют на основе данных выборки. для этого используют специально подобранную СВ (статистику или критерий), точное или 60 приближенное значение которой известно. Эту величину, обозначают U, если U~N(0.1); T, если Т~Tn; χ2, если χ 2~ χ 2n и F, если F~Fm,n . Функции распределения указанных величин табулированы (см. приложения) В целях общности обозначим такую СВ (статистику) через К и назовем ее статистическим критерием. После выбора определенного критерия множество всех его возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения статистики (критерия), при которых Но отвергается, другое – при которых она не отвергается. Совокупность возможных значений статистики, при которых Но отклоняют, называют критической областью. Множество значений статистики, при которых Но не отклоняют, называют областью принятия гипотезы. Точки разделяющие эти области называют критическими точками. Перейдем к определению критических точек. Пусть для проверки гипотезы Но выбрана статистика k и плотность распределения СВ К, которая, в случае справедливости Но, имеет вид f(k). Тогда вероятность ka / 2 P (k 1 a / 2  K  k a / 2 )   f (k )dk k 1 a / 2 Зададим эту вероятность равной 1-а и вычислим критические точки (квантили) К-распределения k1-a/2 и ka/2 из условий: P( K k 1 / 2 )  k1 / 2  f (k )dk   / 2 ,   P( К k  / 2 )   f (k )dk   / 2 kа / 2 Следовательно, P(k 1 a / 2  K  k a / 2 )  1   , а P( К k 1 / 2 )  ( K  k / 2 ))   Зададим вероятность α настолько малой, что попадание СВ К за пределы интервала (k 1 a / 2 ; k a / 2 ) можно считать маловероятным. Тогда, исходя из принципа практической невозможности маловероятных событий, можно считать, что если Но справедлива, то при ее проверке с помощью критерия k по данным одной выборки наблюдаемое значение К должно попасть в интервал (k 1 a / 2 ; k a / 2 ) . Если же наблюдаемое значение К попадет за пределы указанного интервала, то произойдет практически невозможное событие. Это дает основание считать, что вероятностью 1-а гипотеза Но несправедлива. Точки k 1 a / 2 и k a / 2 являются критическими. Критическая область ( ,k 1 a / 2 )  (k a / 2 , ) называется двусторонней критической областью. Критическую область (k a / 2 , ) , определяемую соотношением P( K  k a )   , называется правосторонней, а критическую область (,k 1a ) , определяемую соотношением P( K  k a )   , называется левосторонней. Приведем несколько примеров проверки гипотез. 1. Пусть ГС СВ Х распределена нормально, причем М(Х)=α неизвестно, а σ2 известна. Выдвинем гипотезы: Но:а=а0, Н1:а≠а0 (Н1(1): а>α0; Н1(2): а>α0). 61 Для проверки Но извлекается выборка объема n и в качестве критерия строится статистика   ( x a o ) n /  . Если Но справедлива, то статистика U=N(0;1). 1). При Н1: а≠а0 , по таблице значений функции Лапласа при заданном уровне значимости а определим иа/2, для которого Ф(и а / 2 )  (1  а) / 2 .  х а  х а 0 0 и а / 2 ,то нет основания для и а / 2   1   . Если U набл  / п   / п   отклонения Но. Если же U набл и а / 2 - то Но отклоняется в пользу Н1. Тогда Р 2). При Н1(1): а>а0 критическую точку иа правосторонней критической области находим из равенства Ф(и а )  (1  2а) / 2 . Если U набл <и а / 2 - нет оснований для отклонения Но. Если U набл и а / 2 - Но отклоняется в пользу Н1(1). 3). При Н1(2): а>а0 критическая точка и1-а=-иа.Если U набл >и 1а - нет оснований для отклонения Но.. Если (2) U набл <и 1а - Но отклоняют в пользу Н1 . Пример 1. По наблюдениям за весом Х пакетов, заполняемых автоматически, установлено, что стандартное отклонение веса пакетов σ=10 г. Взвешивая 25 пакетов установлено, что их средний вес x B =244 г. Необходимо проверить гипотезу, что М(Х)=250 г. при уровне значимости а=0,05. Решение: Итак, Но: а=250; Н1: а≠250. Строим статистику U набл  (244  250)  25 / 10 . В данном случае строится двухсторонняя критическая область. По таблице функций Лапласа найдем критическую точку и0,025=1,96. Так как U набл   3  3 > 1,96 и кр , то Но должна быть отклонена в пользу Н1. Следовательно, автомат-станок требует подналадки. Пусть Х~N(a, σ), M(X)=a – известна, σ2 – неизвестна. Пример 2. Анализируется доход Х фирм в отрасли, имеющий нормальное распределение. Предполагается, что средний доход в данной отрасли составляет не менее 1 млн. д.е. По выборке из 49 фирм получены данные: x =0,9 млн. д.е. и исправленная выборочная дисперсия S=0,15 млн. д.е. Не противоречат ли эти данные выдвинутой гипотезе, при уровне значимости а=0,01? Решение: Итак, Но: а=1; Н1: а<1. Строим статистику Т набл ( x  a)  n / S . В условиях примера Tнабл  (0,9  1)  49 / 0,15  4,67 Критическую точку левосторонней критической области определяем по таблице распределений Стьюдента: t кр t 1a / 2,n1 t a / 2,n1 2,404 . Поскольку, Tнабл  4,67 < 2,404 t кр , то Но должна быть отклонена в Н1 . Это дает основание считать, что средний доход отрасли меньше, чем 1 млн. д.е. Пусть Х~N(a, σ), где a и σ неизвестны. Проверяется гипотеза о равенстве дисперсии σ2 нормально распределенной ГС Х гипотетическому (предполагаемому) значению σо. Пример 3. Точность работы станка-автомата, заполняющего пакеты порошком, определяется совпадением веса пакетов. Среднее квадратичное отклонение веса не должна превышать 5 г. По выборке из 20 пакетов определена выборочная исправленная дисперсия S  30 г. При уровне значимости a=0,05 определить, требуется ли срочная подналадка станка. Решение. По условию задачи сформулируем гипотезы: Но: σ=25; Н1: σ2>25. Строим статистику  2  (n  1) S 2 /  2 .В нашем случае χ2=(20-1)·30/25=22,8. По таблице 2 распределений χ2  кр2   02,05,19  30,14 .Так как  2  22,8  30,14  xкр , то нет оснований для отклонения Но. Следовательно, станок не требует срочной подналадки. Пусть Х~N(aх, σх), У~N(ay, σy), причем числовые значения σх и σy известны, а числовые значения математических ожиданий неизвестны. 62 По двум независимым выборкам x1, x2…, xn и у1,у2…,ук находим х и у . Пусть величины х и у независимы и имеют нормальный закон распределения: Х~N(aх, σх/п), У~N(ay, σy/к). Кроме того разность х - у также имеет нормальный закон распределения, при этом M ( x  y ) a x a y , D( x)  D( y)  D( x)  D( y)  ( x2 / n)  ( y2 / k ) ,т.е x  y ~ N (a x a y );  x2 / n   y2 / k ) (( x  y)  (a x  a y )) /  x2 / n   y2 / k ~ N (0,1) .А раз так, то Пример 4. Фирма предлагает автоматы по розливу напитков. При выборке п=16 найдена х В  182 г. дозы наливаемой в стакан автоматом № 1 и по выборке m=9 найдена у В  185 г. дозы, наливаемой в стакан автомата № 2. По утверждению изготовителей автоматов, случайная величина наливаемой дозы имеет нормальный закон распределения с  х   у  5 г. Можно ли считать, что отличия выборочных средних случайной ошибкой при уровне значимости а=0,01. Решение: Рассмотрим гипотезы Н 0: а х  а у , Н 1: а х  а у . Строим статистику U  ( x B  y B ) /  x2 / n   y2 / m . При выполнении гипотезы Но, т. е. ах  а у величина U ~ N (0,1) . В условиях примера U набл  (185  182) / 25 / 16  25 / 9  1,44 . По заданному а=0,01 из таблицы функции Лапласа определим критические точки u1 a / 2  u a  2 . Так как Ф(u 0.005)  0,09 / 2 , то u 0.005 2.57 . Значение U набл 1,44 не попадает в критическую область (;2,57)U (2,57;) , поэтому Но принимается. следовательно, отличия выборочных средних – случайная ошибка. Пусть Х~N(aх, σх), У~N(ay, σy), причем их дисперсии σх и σy неизвестны. Выдвигается гипотеза о равенстве математических ожиданий: Но: ах=ау; Н1: ах≠ау (Н1(1): ах>ау; Н1(2): ах<ау). При справедливости гипотезы Но статистика Т  ( x  y)  nk (n  k  2) /( n  k ) / (n  1) S x2  (k  1) S y2 имеет t- распределение Стьюдента. Пример 5. В школе проведен анализ успеваемости среди мальчиков и девочек за последние 25 лет. пусть СВ Х и У – соответственно их суммарный балл за время учебы. Получены следующие результаты: х В  400 , S x2  300 y В  420 ; S y2  150 . Можно ли утверждать, что с уровнем значимостью а=0,05 девушки в среднем учатся лучше ребят? Решение. Для ответа на данный вопрос необходимо проверить гипотезу: Но: М(х)=М(у); Н1: М(х)<М(у). Строим статистику Т  хВ  уВ (n  1) S  (k  1) S 2 x 2 y  nk ( n  k  2)  nk 400  420 24  300  24  150  25  25 (25  25  2)  4,71 25  2 По α=0,05 и числу степеней свободы 25+25-2=48 по таблице t- распределений Стьюдента находим t кр  t 0,05;48 1,68 .Поскольку Т=-4,71<-1,68=tкр, то Но должна быть отклонена в пользу Н1,.Это дает основание, что девушки в среднем учатся лучше чем мальчики. Пусть Х~N(aх, σх), У~N(ay, σy), причем числовые значения σх и σy неизвестны. Выдвигается гипотеза о равенстве дисперсий. Но: σх2= σу2, Н1: σх2≠ σу2 (Н1(1): σх2> σу2). Естественно, для сравнения дисперсий по независимым выборкам x1, x2…, xn и у1,у2…,ук объемов п и к определить величины х, у, Sх2, Sy2.Для определенности, предположим Sх2≥ Sy2. В качестве статистики (критерия) проверки Но рассмотрим СВ F= Sх2/Sy2. Если Но верна, то статистика F имеет F-распределения Фишера с п-1 и к-1 степенями свободы. Пример 6. Срок хранения продукции, изготовленной по технологиям А и В даны в таблице: xi 5 5 7 63 Срок хранения (А) Число ед. продукции ni 2 4 4 (В) уi 5 6 7 8 тi 1 8 7 1 Пусть СВ Х и У распределены по нормальному закону. Требуется проверить гипотезу Но: σх = σу2, при уровне значимости а=0,1и альтернативной гипотезе Н1: σх2≠ σу2. Решение. Легко найти х  6,2 и y  6,5 . Тогда S x2  (25  2  36  4  49  4) / 10  6,2 2 10 / 9  0,62 . 2   Аналогично, S у2  0,11.Учитывая, что Sх2> Sy2 рассмотрим статистику Fнабл= Sх2/Sy2=0,62/0,11=5,64. Критическое значение F находим из условия Р( F (10  1,17  1) >F кр   / 2  0,05 По таблице F- распределений определяем Fкр=2,54. Так как число Fнабл=5,64 попадает в критическую область (2,54;) , то гипотезу о равенстве дисперсий среднего срока хранения продукций отвергаем. •При проверке статистических гипотез о соответствии отдельных параметров закона распределения СВ предполагалось, что законы распределения известны (например, в рассмотренных примерах, предполагалось, что ГС СВ распределена нормально). Однако при решении практических задач закон распределения в общем случае заранее неизвестен. Поэтому возникает необходимость выбора модели закона распределения согласующейся с результатами выборочных наблюдений. Пусть x1, x2…, xn выборка СВ Х с неизвестной функцией распределения F(х). По этим данным можно построить эмпирическую функцию распределения F0(х). Тогда проверяется нулевая гипотеза Но: F(х)=F0(x). Для проверки нулевой гипотезы о неизвестном распределении существуют несколько критериев. Рассмотрим критерий согласия Пирсона. Приведем схему проверки гипотезы Но по критерию согласия Пирсона. 1. По выборке строится вариационный ряд (он может быть дискретным или интервальным). Пусть для определенности х i нно хxi1, x2 x1, x2 ………..xk-1, xk m2 ………mk-1 , mk Mmmi 1, m m1 2. По выборочным данным проводят оценку параметров выбранной модели закона распределения (количество параметров обозначим через r) 3. Подставляя выборочные оценки в значения параметров распределения, находят теоретические значения вероятностей. рiT  P( X  x i ) , i=1, 2, … k. 4. Рассчитывают теоретические частоты miT  рiT  n , где n=m1+m2+ …+mk. k 5. Если гипотеза Но верна, то величина  э2   mi  miT ) 2 / miT i 1 2 при больших п имеет χ -распределение с l=k-r-1 степенями свободы. 6. Задаваясь уровнем значимости α по таблице распределений χ2 находим критическую область. Если значение χ2 не попадает в критическую область (  кр2 ;) , то гипотеза Но с надежностью а принимается. Пример 7. В ходе дидактического эксперимента, проводится итоговый контроль знаний учащихся по тесту, включающему 20 вопросов. В эксперименте участвовало 200 учеников. Экспериментальные данные разбитые на 10 интервалов приведены в следующей таблице: (а j , a j 1 ) (а j , a j 1 ) m j (а j , a j 1 ) m j (а j , a j 1 ) m j (а j , a j 1 ) m j mj (0; 2) 7 (4; 6) 15 (8; 10) 49 (12; 14) 26 (16; 18) 7 (2; 4) 11 (6; 8) 24 (10; 12) 41 (14; 16) 17 (18; 20) 8 64 Здесь m j -число учеников правильно отвечавших на а вопросов и попавшие в j-й интервал. Ставится задача: оценить с помощью критерия χ2 гипотезу о согласии выборочного распределения случайной величины (число учеников правильно ответивших на а контрольные вопросы) с законом нормального распределения при уровне значимости а=0,05. Решение.1). построенный вариационный ряд задан таблицей. 2). по данным таблицы определяем оценки параметров нормального распределения: 10 х В  ( a 1j  m j / n  9,72 ,  B 1 n j 1  (a 1 j  x B ) 2 m j  3,8 , где a  (a j a j 1 ) / 2 .3). Вычисляем теоретические вероятности PjT по формуле 1 j PjT  P(a j  a  a j 1 )  Ф((a j 1  x B ) /  B )  Ф((a j  x B ) /  B ) , 10 (m j  np Tj ) 2 j 1 nPjT где Ф(и j ) - табулированная функция Лапласа. По формуле    2 э 10 m 2j j 1 пр TJ  n находим  э2  7,77 .5). Число степеней свободы к= 10-2-1, так как мы воспользовались двумя основными параметрами х В и  В .6). Из приложения по таблице распределения χ2 при к=7 и а=0,05 находим  кр2 (7;0,05)  14,07 . Так как  э2   кр2 , то можно утверждать, что выдвинутая гипотеза верна, с доверительной вероятностью 95%. Примечание: Пусть по выборке объема п получено эмпирическое распределение х i x1 x2 … xm п i n1, n2 …nm , п=п1+п2+…+пm. Предположим, что выдвинута гипотеза Но: «генеральная совокупность имеет нормальное распределение». Для проверки Но поступают следующим образом: 1) находим значения х В и В = ДВ 2) теоретические частоты п ищут по формуле ni1  nh   (ui ) /  B ,где h-разность между двумя 1 i соседними вариантами, ui  ( x i  x B ) /  B ,  (u)  exp(u  2) / 2 - табулированная функция (см. приложение.3). По формуле  2   (ni  ni1 ) 2 / ni/ находим значение  э2 и, задаваясь уровнем значимости а, как прежде сравниваем  э2 с  кр2 (а, m  3) . Задачи к лекциям 15-16. 1. Из ГС извлечена ВС объема п=50: а) x 3 5 6 8 9 i ni 5 20 5 10 10 б) xi 10 13 15 18 21 ni 5 20 5 10 10 2. Найти несмещенную цену генеральной дисперсии по данному распределению ВС: а) б) xi xi 5 6 8 10 15 20 25 30 ni ni 7 20 18 5 4 8 5 3 3. Найти несмещенные оценки генеральной средней и генеральной дисперсии по данному распределению ВС: а) б) x i 2450 2500 2560 2610 2640 xi 0,012 0,015 0,02 0,025 ni 6 8 22 9 5 ni 8 3 5 4 4.Приведены статистические данные по годовым темпам (%) инфляции в стране за последние 10 лет: 2,8; 3,2; 5,1; 1,8; -0,6; 0,7; 2,1; 2,7; 4,1; 3,5. Необходимо найти несмещенные оценки среднего темпа инфляции, дисперсии и среднего квадратичного отклонения. 65 5. Оценивается годовой доход (Х, тыс. у. е.) на душу населения в городе Махачкале. Случайная выборка из 16 обследованных человек дала следующие результаты: 8,5; 10,5; 12,25; 7,0; 17,0; 8,75; 10,0; 9,3; 8,0; 11,5; 10,0; 12,0; 9,0; 6,5; 13; 10,2. Оцените среднедушевой доход и разброс в доходах. Будут ли такими же значения для всего города? 6. Предположим, что месячный доход граждан страны имеет нормальный закон распределения с математическим ожиданием а=1000 у. е. и дисперсией σ2=40000 (у. е.)2. По выборке из 500 человек определили выборочный средний доход х  900 у. е.Постройте 90 и 95% доверительные интервалы для среднего дохода в стране. 7. Станок-автомат заполняет пакеты чипсами по 250 г. Считается, что станок требует подналадки, если стандартное отклонение от номинального веса превышает 58 г. Контрольное взвешивание 10 пакетов дало следующие результаты: 245, 248, 250, 250, 252, 256, 243, 251, 244, 253. Постройте 95 и 99% доверительные интервалы для стандартного отклонения от номинального веса. 8. Студент-практикант провел тестирование на изучение интеллектуальной способности (ИС) учащихся начальных классов в случайно выбранной школе города. Средняя оценка ИС определялась цифрой 100. Ставится вопрос: Будет ли средняя оценка ИС учащихся начальных классов всех школ города определяться также цифрой 100, если по случайной выборке 25 учащихся были получены значения ИС х  113,64 и S=12,4 ? Указание: Для проверки гипотезы Но: а=100, против Н1: а≠100. Использовать статистику Т  ( х  100)  п / S , при уровне значимости а=0,01. 9. Первой группе (25 учеников) предложили изучить материал по вновь подготовленному пособию, а второй группе (25 учеников) – по обычной литературе. В конце эксперимента в каждой группе предложили тест на выяснение усвоения материала и получили следующие результаты: Группа 1: п1=25, х1  7,65 , S12  6,5 Группа 2: п1=25, х 2  6,00 , S 22  5,9 Необходимо проверить, по какому варианту целесообразно изучение данного материала. Указание: Для проверки гипотезы Но: а1=а2, против Н1: а1≠а2, использовать статистику Т  ( х1  х2 ) /  (п1  1)S12  (n 2 1)S 22  (n1 n 2 ) /( n1 n 2 2)  n1 n 2 , при уровне значимости а=0,05. 10.По результатам тестирования для проверки успеваемости по математике в конце учебного года у учеников девятого класса наблюдалось типичное стандартное отклонение (дисперсия) равное 0,8. В отличие от предыдущих лет в текущем году обучение по математике осуществлялось по альтернативному учебнику. Требуется определить каково стандартное отклонение в конце текущего года, если выборочная дисперсия S2, найденная по 25 контрольным оценкам равна 1,44. Указание. Для проверки гипотезы Но: σ2=0,64, против Н1: σ2≠0,64, использовать статистику х2=(п1)S2/σ2, при уровне значимости а=0,1. 11. По выборке объема п=100 извлеченной из нормально распределенной генеральной совокупности с известной дисперсией σ2=2 найдено среднее значение х  0,699 . Проверить при уровне значимости а=0,1 гипотезу Но: М(х)=1при альтернативной гипотезе Н1: М(х)≠1. 12. Проверьте гипотезы:1) Но: М(х)=1; Н1: М(х)>1, если п=100, σ2=0,2, х  0,97 , а=0,05. 2) Но: М(х)=6; Н1: М(х)<6, если п=100, σ2=1, х  4,85 , а=0,05. 13. По выборке объема п=20 извлеченной из нормально распределенной генеральной совокупности найдены точечные оценки математического ожидания и дисперсии х  4,787 , S=1,148 Проверьте гипотезу: 1) Но: М(х)=5,5; Н1: М(х)≠5,5;2) Но: М(х)=5,5; Н1: М(х)>5,5;3)М(х)=5,5; Н1: М(х)<5,5; при а=0. 14. По выборке объема 20 из нормального распределения ГС найдены точечные оценки М(х) и Д(х): х  4,87 , S2=2,097. Проверить гипотезу: Но: σ2=2, Н1: σ2≠2. 15. По выборке объема п=20 из нормального распределенной ГС найдены: х  4,787 , S2=2,097. При уровне значимости а=0,1 проверить гипотезы: 1) Но: σ2=2, Н1: σ2≠2; 2) Но: σ2=2, σ2<2. 66 Указание: использовать статистику  2  (п  1) S 2 /  2 . 16. Для выборок объема п=20 и m=15 из нормальных распределений ГС с дисперсиями  12  2 и  22  3 найдены точечные оценки х  5,026 , у  6,775 . При уровне значимости а=0,1 проверить гипотезу о равенстве математических ожиданий а х  а у . Указание: Использовать статистику U  ( x  y ) /  12 / n   22 / m 17. Для выборок п=20 и m=15 из нормальных распределений ГС с одинаковыми неизвестными дисперсиями найдены точечные оценки М(х), М(у) и Д(х): х  5,058 , у  5,196 , S х2  1,682 , S у2  0,517 . При уровне значимости а=0,1. Проверить гипотезы: Но: М(х)=М(у); Н1: М(х)≠М(у); Указание: Примените статистику Т  ( x  y) n  m(n  m  2) /( m  n) / (n  1) S x2  (m  1) S y2 18. Два университета (ДГУ и ДГПУ) готовят специалистов аналогичных специальностей. Министерство народного образования решило проверить качество подготовки в обоих университетах, организовав для этого объемный тестовый экзамен для студентов пятого курса. Отобранные случайным образом студенты показали следующие суммы баллов: ДГУ: 41, 50, 35, 45, 53, 30, 57, 20, 50, 44, 36, 48, 55, 28, 40, 50, ДГПУ: 40, 57, 52, 38, 25, 47, 52, 48, 55, 48, 53, 39, 46, 51, 45, 43. а) Каковы точечные оценки средних баллов и дисперсий результатов для обоих университетов? б) Можно ли утверждать, что при уровне значимости а=0,05, что один из вузов обеспечивает лучшую подготовку? в) Сравните разброс в знаниях студентов этих университетов. 19. На основании наблюдений за работой 25 кандидатов на должность секретаря-референта установлено, что в среднем они потратили 7 минут на набор одной страницы текста на компьютере при выборочном стандартном отклонении S=2 минуты. При предположении, что время (х) набора текста имеет нормальный закон распределения: а) Определите 95% доверительные интервалы для математического ожидания ах и среднего квадратичного σх.б) предполагалось, что среднее время набора текста должно составить 5,5 минут. Не противоречит ли полученные данные этой гипотезе? 20. Дано следующее распределение успеваемости 100 студентов-заочников, сдававших 4 экзамена: Число сданных экзаменов (хi) 0 1 2 3 4 Число студентов (mi) 1 1 3 35 60 Здесь случайной величины Х является число сданных экзаменов среди четырех. Предположим, что вероятность сдачи любым студентом любого экзамена не зависит от исхода сдачи других экзаменов, и вероятность сдачи студентом любого отдельно взятого экзамена одна и та же и равна p.При этих допущениях можно предположить, что мы имеем дело с испытаниями Бернулли и число сданных экзаменов среди четырех сдаваемых будет иметь биномиальный закон распределения, т. е. р(х  х)  С 4х р х (1  р) 4 х , х=0, 1, 2, 3, 4. Параметр р может быть определено как относительная частота, которая вычисляется по формуле 4 р   x i mi / 4  1 0 .По 0 критерию Пирсона оцените закон распределения случайной i 1 величины Х. Постройте графики рi  mi / n и рiтеор  C4xi p xi  (1  p) 4 xi и сравните их. 21.Страховая компания выпустила четыре вида страховых полисов в предположении, что спрос на них будет одинаков. Фактические объемы реализации различных видов страховых полисов приведены ниже: Виды страховых полисов А В С Д Фактический объем реализации 50 21 23 26 67 Оценить для уровней значимости а=0,01 и а=0,05, согласуется ли фактический и теоретический спрос на различные виды страховых полисов. 19. Результаты исследования числа покупателей в универсаме в зависимости от времени работы приведены ниже: Часы работы 9-10 10-11 11-12 12-13 Число покупателей 41 82 117 72 Можно ли утверждать при уровне значимости а=0,05, что случайная величина Х – число покупателей – подчинена нормальному закону? Следовательно, для уровня значимости а=0,01 критическая область представляет собой интервал (13,3;∞), х r2  9,8 не попадает в критическую область, т. е. нулевая гипотеза, состоящая в том, что ожидаемые и фактические объемы продаж согласуются, не отвергаются. Для уровня значимости а=0,05 критической областью является интервал (9,5;∞) и, так как х r2  9,8 попадает в критическую область, нулевая гипотеза должна быть отклонена. Решения типовых задач. Задача 1. Фирма-поставщик в рекламном буклете утверждает, что средний срок безотказной работы предлагаемого изделия 2900 ч. Для выборки из 50 изделий средний срок безотказной работы оказался равным 2720 ч при «исправленном» среднем квадратичном отклонении 700 ч. При 5% -м уровне значимости проверить гипотезу о том, что значение 2900 ч является математическим ожиданием. Решение. Предположим, что случайная величина срока безотказной работы подчинена нормальному закону распределения. Требуется проверить гипотезу о числовом значении математического ожидания нормально распределенной величины (генеральной средней) при неизвестной генеральной дисперсии. В этом случае в качестве критерия выбирают функцию T  ( X  a0 )( n  1) / S , где X - выборочная средняя, а0 - математическое ожидание, S - «исправленное» выборочное среднее квадратичное отклонение. Случайная величина Т имеет t-распределение (распределение Стьюдента) с l = n -1 степенями свободы. В данной задаче речь идет о сравнении выборочной средней 2720 ч с гипотетическим математическим ожиданием а0 = 2900 ч, при этом «исправленное» выборочное среднее квадратичное отклонение равно 700ч. Требуется найти критическую область для нулевой гипотезы Н0: ао= 2900 при альтернативной гипотезе Н1 :а0 < 2900. Очевидно, что другие альтернативные гипотезы (ао> 2900 и а0≠ 2900) нецелесообразны, так как потребитель обычно обеспокоен лишь тем, что срок службы изделия может оказаться меньше гарантируемого поставщиком. Критическая область левосторонняя; t крл находим из условия Р(Т < t крл )= a. При а = 0,05 и l= 50-1 = 49 в таблице t-распределения (см. приложение), находим л t кр  t крп  1,677 . Таким образом, критическая область ω=(-∞, 1,677). Рассчитаем tr полагая  0   0 : : t r  (2720  2900) 50  1 / 700  1,8 Значение (-1,8) попадает в критическую область, поэтому нулевая гипотеза H0 должна быть отвергнута. Следовательно, фирма в рекламе завышает срок безотказной работы изделия. Задача 2. Составлена случайная выборка из 64 покупателей, которые интересовались товаром А. Из них товар А купили 16 человек. Поставщик утверждает, что данный товар должен привлечь треть покупателей, а среднее квадратичное отклонение σх равно одному человеку. Проверить нулевую гипотезу при 5%-м уровне значимости. Решение. Предположим, что число покупателей, приобретающих товар A, есть случайная величина, подчиненная нормальному закону распределения. Гипотетическая генеральная средняя при этом составит 21 человек. Будем считать, что σх = 1. Таким образом, речь идет о проверке гипотезы о числовом значении математического ожидания нормального распределения при известной дисперсии, т.е. о сравнении гипотетической генеральной средней 21 с выборочной средней 16 при известном среднем квадратичном отклонении σх. 68 Нулевая гипотеза в этой задаче имеет вид Но: а0 =21, а альтернативная, например, Н1: а0 ≠21. Возможны и другие альтернативные гипотезы, например Н1: а0 <21 или Н1: а0 > 21. Уровень значимости задан: α = 0,05. В качестве критерия в этом случае рассматривается функция U  ( X  a0 ) n /  x . Функция U подчинена нормальному закону распределения N(0, 1). Критическая область будет двусторонней, ее образуют интервалы (, и кр ) и (и кр , ) , определяемые из условий Р(U < uкр )   / 2 и Р(U > uкр )   / 2 Если α = 0,05, то α/2 = 0,025. Это вероятность попадания СВ UВ левостороннюю или правостороннюю области. В этом случае вероятность непопадания СВ UВ правостороннюю критическую область (1 - α/2) можно представить следующим образом: Р(-∞<U < uкр ) = Р(-∞<U <0)+ Р(0<U < uкр )=1-а/2. Так как Р(-∞<U <0) = 0,5 , а Р(0<U < uкр )=Ф( uкр ) - функция Лапласа в точке uкр , то Ф( u крп ) = 1 - α /2 - 0,5 = 0,475. На основании таблицы значений функции Лапласа (см. приложение) находим u крп = 1,96. Точка u крп расположена симметрично и равна -1,96. Следовательно, критическая область состоит из интервалов (-∞; -1,96) и (1,96;∞). Рассчитаем иr: иr  (16  21) 64 / 1  40 Значение иr, попадает в критическую область, поэтому гипотеза Но: α 0 =21 отвергается. Задача 3. Сроки хранения ( хi ; y i ) продукции, изготовленные по технологиям А и В, в зависимости от числа единиц продукции (пi ; тi ) . соответственно, даны таблицами А: В: xi 5 6 7 yi 5 6 7 8 пi 2 4 4 mi 1 8 7 1 Предположив, что случайные величины Х и У распределены по нормальному закону, проверить гипотезу Но:  х2 =  у2 при уровне значимости 0,1 и альтернативной гипотезе Н1:  х2 ≠  у2 Решение. Вычислим «исправленные» выборочные дисперсии S х2 , S у2 . Для этого вначале найдем : x  (5  2  6  4  7  4) / 10  6,2 ; y  (5 1  6  8  7  7  8 1) / 17  6,5 Тогда S x2   (25  2  36  4  49  4) / 10  6,2 2 10 / 9  0,62 , S y2  (25  1  36  8  49  1  64  1) / 17  6,52 17 / 16  0,11 Учитывая, что, S x2 > S y2 , определим: Fнабл.  S x2 / S y2  0,62 / 0,11  5,64 . Критическое значение Fкрп находим из условия P(F(10-1,17-1)> Fкр )=a/2=0,05. По таблице F-распределения определяем Fкр = 2,54. Число Fнабл = 5,64 попадает в критическую область (2,54; ∞). Гипотезу о равенстве дисперсий среднего срока хранения продукций, изготовленной по технологиям А и В, отвергаем. Задача 4. Средний ежедневный объем продаж за I квартал текущего года для 17 торговцев района А составляет 15 тыс. руб. при «исправленном» среднем квадратичном отклонении 2,5 тыс. руб., а для 10 торговцев района В - 13 тыс. руб. при «исправленном» среднем квадратичном отклонении 3 тыс. руб. Каждую группу можно считать случайной независимой выборкой из большой совокупности. Существенно ли различие объемов продаж в районах А и В при 5% -м уровне значимости? Решение. Предположим, что ежедневный объем продаж подчинен нормальному закону распределения. Математическое ожидание и среднее квадратичное отклонение законов распределения для районов А и В неизвестны. Предположим, что дисперсии объемов продаж одинаковы. В этих условиях возникает задача оценки статистической гипотезы Но: ах = ау при альтернативной Н1: ах≠ ау, если принять за ах математическое ожидание объема продаж для района А, за ау — для района В. x и y являются независимыми нормально распределенными Выборочные средние случайными величинами. В этом случае в качестве критерия используют функцию Т  ( X  Y ) / S 1/ n  1/ m , где S  S x2 (n  1)  S y2 (m  1) / n  m  2 69 Функция Т подчинена t-распределению для l=m+ п -2степеней свободы. По таблице t распределения для l=17+10-2=25 и 5%-го уровня значимости (для двусторонней критической области) находим t кр =2,06. Значит критическая область есть интервал(-∞; -2,06) и (2,06; ∞). Вычислим tr: S  6,25  16  9  9 / 25  7,24  2,69 , t r  (15  13) / 2,6 1/ 17  1/ 10  1,86 Полученное значение критерия tr не принадлежит критической области, следовательно, разность несущественна и гипотеза HQ: ax = ау принимается. В качестве общей средней выборочной принимают величину x 0  (15  17  13  10) / 27  14 Задача 5.Фирма предлагает автоматы по розливу напитков. При выборке п = 16 найдена средняя величина х  182 г дозы, наливаемой в стакан автоматом № 1. По выборке т = 9 найдена средняя величина у  185 г дозы, наливаемой в стакан автоматом № 2. Предположим, что СВ наливаемой дозы имеет нормальный закон распределения с дисперсией, равной  х2   у2  25 . Можно ли считать отличия выборочных средних случайной ошибкой при уровне значимости α = 0,01? Решение. Пусть ах и ау - математические ожидания доз, наливаемых автоматом №1 и №2 соответственно. Нулевая гипотеза в данном случае Но: ах = ау 2 при альтернативных Н1: ах ≠ ау и Н1: ах < ау. Дисперсия известна: σ =25. В качестве критерия справедливости статистической гипотезы выбирается функция Z  ( X  Y ) /  x2 / n   y2 / m распределенная по нормальному закону с параметрами (0, 1). 1. Рассмотрим вначале гипотезу Но:ах=ау для альтернативной H1:ах<aу. л л л Критическая область имеет вид (, z кр ) , где z кр определяется из условия Р(z < zкр )= α. Так как функция Лапласа - нечетная функция, т.е. Ф(-z)= -Ф(z), таблица этой функции содержит только положительные значения, то найдем вначале z крл . Ф( z крл ) = 0,5- α=0,49. Откуда z крл =2,33. Значит, левосторонняя критическая область будет (,2,33) Рассчитаем z крл . n z кр  (182  185 ) / 25 / 16  25 / 9  (3  12 ) / 25  1,44 Полученное значение zr=-1,44 не входит в критическую область (,2,33) , поэтому нулевая гипотеза принимается. 2. Рассмотрим гипотезу Но: ах = ау при альтернативной H1: aх ≠ аy. В этом случае критическая область двусторонняя и имеет вид (, z крл ) U ( z крл ; ) . Величины z крл и z крп рассчитываются из п условий P(Z < z крл )=а/2 и P(Z > z кр ) =а/2.Воспользовавшись таблицей значений функции Лапласа имеем Ф( z крл )  0,5   / 2  0,495 , z крп =2,57. Критическая область имеет вид (-∞; -2,57) U (2,57;∞). Значение zr=-1,44 не попадает в критическую область, поэтому нулевая гипотеза принимается. Задача 6. Результаты взвешивания 50 случайным образом отобранных пачек чая представлена дискретным вариационным рядом: x i 147 148 149 150 151 152 153 mi 4 5 8 11 11 7 4 Можно ли при уровне значимости а=0,05 утверждать, что случайная величина Х – масса пачки – подчинена нормальному закону распределения? Решение. По выборочным данным получим оценки параметров нормального закона распределения 7 7 i 1 i 1 х   mi xi /  mi  7507 / 50  150,14 , 2 S 2  n  DB /( n  1)  50  49 ( x  ( x) 2  2,82 ; S=1,68. Для расчета теоретических частот piT воспользуемся табличными значениями функции Лапласа Ф(z). Алгоритм вычисления piT состоит в следующем: 70 - находим по нормированным значениям случайной величины Z значения Ф(z), а затем FN (x ) : z i  ( xi  x) / S , FN ( x i )  0,5  Ф( z i ) Например, х1=147; z1=(147-150,14)/1,68=-1,87; Ф(-1,87)=-0,46926; FN ( x)  0,03074 ; Находим piT  Р( z i  X < zi 1 F N ( xi 1 ) F N ( xi ) ; miT  piT n , и если некоторое miT < 5 , то соответствующие группы объединяются. Результаты вычисления piT , miT и x r2 приведены в таблице. По таблице χ2-распределения находим  кр2 . Для уровня значимости а=0,05 и числа степеней свободы l=k-r-1=6-2-1=3   кр2 =7.8. Величина  кр2 =5,267 не входит в критическую область, поэтому гипотеза о том, что случайная величина Х – масса пачки чая – подчинена нормальному закону распределения, согласуется с выборочными данными. хi , xi 1 mi Ф( z i ) FN ( x i ) FN ( x i 1 ) piT = FN ( x i 1 ) -- FN ( x i ) -∞,147 147,148 148,149 149,150 150,151 151,152 152,153 153,-∞ ∑ 0 4 5 8 11 11 7 4 50 -0,5000 -0,4692 -0,3979 -0,2517 -0,0318 0,1949 0,3665 0,4554 0,0000 0,0307 0,1020 0,2482 0,4681 0,6949 0,8665 0,9554 0,0307 0,1020 0,2482 0,4681 0,6949 0,8665 0,9554 1,0000 1,0000 0,0307 0,0713 0,1462 0,2198 0,2268 0,1715 0,0889 0,0445 T miT = pi n 1,537 3,563 7,31 10,99 11,34 8,58 4,45 2,23 5,267 (mi  miT ) 2 / miT 0,237 0,730 0,813 0,010 0,683 2,794 - Лекции 17-18. Элементы дисперсионного анализа. Дисперсионным анализом называется метод анализа результатов испытаний, цель которого – оценить влияние одного или нескольких качественных факторов на рассматриваемую величину Х. При проверке статистических гипотез предполагалось случайность вариации изучаемых факторов. В дисперсионно анализе один или несколько факторов изменяются заданным образом, причем эти изменения могут влиять на результаты наблюдений. Исследование такого влияния и является целью дисперсионного анализа. Идея дисперсионного анализа заключается в том, что основная дисперсия разлагается на сумму составляющих еѐ дисперсий, каждое слагаемое которой соответствует действию определенного источника изменчивости. Например, в 2 двухфакторном анализе мы получим разложение  C2   A2   B2   AB   Z2 где  c2 - общая дисперсия изучаемого признака С,  A2 - доля дисперсии, вызванная 2 фактором А,  B2 - доля дисперсии, вызванная фактором В,  AB - доля дисперсии, 2 вызванная взаимодействием факторов А и В,  Z - доля дисперсии, вызванная неучтенными случайными причинами. В дисперсионном анализе рассматривается гипотеза: Н0 – ни один из рассматриваемых факторов не оказывает влияние на изменчивость исследуемого признака. Значимость каждой из оценок дисперсии проверяется по величине еѐ отношения к оценке случайной дисперсии и сравнивается с соответствующим критическим значением, при уровне значимости α, с помощью таблиц 71 F – распределения Фишера. Гипотеза Н0 относительно того или иного источника изменчивости отвергается, если Fрасч>Fкр. (например, для фактора В: S B2 / S Z2  Fkp ). Однофакторный дисперсионный анализ Схема однофакторного дисперсионного анализа рассмотрим на примере исследования влияния технологии обработки почвы на урожайность. Технологию Т назовем единичным фактором, который принимает m различных уровней Тi. Предположим, что на каждом уровне сделано n наблюдений, что дает m·n наблюдений. Обозначим через хij – урожайность культуры, полученную в i-м году при использовании i-й технологии Тi. Тогда результаты можно представить в виде таблицы: Номер наблюдения, j 1 2 · n Групповая средняя Уровни фактора, i Т1 Т2 x11 x21 x12 x22 · · x1n x2n x31 x32 x1 x3 x2 Т3 …… …… …… · …… · x3n Тm xm1 xm2 ∙ xmn …… xm Рассмотрим математическую модель, в которой каждая случайная величина xij=аi+εij, где аi – урожайность характерная для технологии Тi, а εij – независимые случайные величины, описывающие суммарный вклад всех случайных факторов, которые влияют на итоговую урожайность. Чаще всего считают, что εij~N(0;ζ). Задача, которую предстоит решить, ставится следующим образом: выяснить, влияет ли выбор технологии обработки почвы на урожайность культуры или нет. На математическом языке это означает, что необходимо проверить справедливость статистической гипотезы Н0 о том, что все технологии Тi одинаково эффективны, т.е Н0:а1=а2=…=аm. Анализ результатов будет основан на сопоставлении двух оценок неизвестной дисперсии σ2. Одна из оценок не зависит от того, что гипотеза Н0 верна, а для другой оценки, предположение о верности гипотезы Н0 существенно, т.е. эта оценка будет близка к σ2только тогда, когда Н0 верна. Если обе оценки близки, то гипотезу Н0 следует принять. Если же оценки существенно отличаются, то гипотезу Н0 следует отвергнуть. Построим эти оценки. Сначала для каждого столбца вычислим средние xi  m 1 n xij , i  1,2,3...m , а затем величину S12    n j 1 i 1 n  (x j 1 ij  xi ) 2 . Если εij~N(0;ζ), то величина S /  имеет χ2 – распределение с (n-m) – степенями свободы, следовательно, первая оценка для σ2 получена. 2 1 2 Для получения второй оценки сначала найдем а затем m S2   i 1 n  (x j 1 ij x 1 m  n  m i 1 n x j 1 ij ,  x) 2 . При выполнении гипотезы Н0, величины S12 и S 2 независимы, а величина 2 S 2 /  2 имеет χ – распределение с nm-1 степенями свободы. 72 Теперь Fðàñ÷  сравним S S2 S 2 (n  m) /  2 m  n  1 n  m S1 (mn  1) 2 1 оценки S12 и S2 . Если Н0 верна, то имеет распределение Фишера с (mn-1) и (m-n) степенями свободы. Зададимся достаточно малым уровнем значимости α и решив уравнение Fmp-1,n-n-m(xα)=1-α по таблице F – распределений Фишера, сравним корень уравнения xα с Fрасч. Если Fрасч>xα то гипотеза Н0 отвергается, в противном случае – принимается. Для оценки степени влияния фактора используют выборочный коэффициент детерминации R2=(S2- S 12 )/S2. Чтобы разобраться со смыслом R2, рассмотрим основную формулу дисперсионного анализа. m n m n m  ( xij  x) 2   ( xij  xi ) 2   i 1 j 1 i 1 j 1 i 1 n  ( xi  x) 2 j 1 (так как n  (x j 1 ij  xi )  0) , или S 2  S12  S 22 , то есть полная выборочная дисперсия состоит из суммы S 22 - средней величины групповых дисперсий и S 22 - дисперсии групповых средних. Величина S 12 характеризует изменчивость, обусловленную случайными факторами, а величина S 22 определяет разброс средних значений в каждой группе около среднего значения всей выборки, т.е. зависит от различий параметров ai  xi . Следовательно, коэффициент детерминации R2 показывает, какую часть в общей дисперсии величин хij составляет часть, обусловленную зависимостью от фактора Т. Пример 1. На уровне значимости α=0,05 выяснить зависит ли урожайность от технологии обработки почвы. Результаты наблюдений за шесть лет приведены в следующей таблице: Номер Годы технологии 1 2 3 4 5 6 Т1 140 141 140 141 142 145 Т2 150 149 150 147 0 0 Т3 147 147 154 150 150 0 Т4 144 147 142 146 0 0 Решение. 1 x1  (140  141  140  141  142  145 )  141,5 , x2  149, x3  147,8, x4  144,75 , 6 4 6 4 6 1 4 6 S12    ( xij  xi ) 2  57 ,05 , x    xij  145 ,42 , S 2    ( xij  x) 2  230 , 632 , . 19 i 1 j 1 i 1 j 1 j 1 j 1 При α=0,05 Fкр(0,95,19-1,19-4)=2,353. Fрасч.=S2(nm-m)/S 12 (nm-1)=(230,632·15)/(57,05·18)=3,369. Так как Fрасч> Fкр, то гипотеза Н0 о том, что все технологии одинаково эффективны отвергается, т.е. урожайность культуры зависит от технологии обработки почвы. Коэффициент детерминации R2=(S2- S 12 )/ S2=0,753, ζ2= S 12 /(19-4); ζ= 57,05/15 =1,95. Точечными оценками параметров а нормальных распределений N(а, ζ) будут числа xi : (141,5; 149; 147,8; 144,75). Отсюда следует, например, что урожайность при второй технологии представляет собой случайную величину Х= N(149, 1,95). Двухфакторный дисперсионный анализ. Рассмотренная методика однофакторного анализа обобщается и на случай двух факторов. 73 Схему двухфакторного дисперсионного анализа рассмотрим на следующем примере. Пример 2. На уровне значимости α=0,05 выяснить влияют ли на качество пряжи, измеряемое величиной разрывной нагрузки, тип машины и вид сырья, из которого пряжа производится. Необходимые данные приведены в следующей таблице: Тип машины Вид сырья (уровень фактора В) Среднее групповое (уровень А) по строке. В1 В2 А1 У11=10 У12=50 y10  30 А2 У21=20 У22=60 y 20  40 А3 У31=30 У32=100 y30  65 Среднее групповое y  20 y2  70 1 по столбцам Предполагается, что при различных сочетаниях уровней А и В наблюдения независимы и при каждом сочетании уровней факторов А и В результативный признак имеет нормальный закон распределения с постоянной дисперсией  02 . Вычислим общее среднее: ni=3, mj=2, n=ni·mj=6. Используя y  (10  50  20  60  30  100) / 6  (30  2  40  2  65  2) / 6  (20  3  70  3) / 6  45. ni формулу S y2  ( y11  y ) 2  ( y12  y ) 2  ....  ( y nimj  y ) 2   i 1 mi (y j 1 ij  y ) 2 , вычислим общую вариацию S y2 и выборочную дисперсию  y2 . 1 6  y2  S y2    1 (10  45) 2  (50  45) 2  (20  45) 2  (60  45) 2  (20  45) 2  (100  45) 2  535016 . С 6 ni помощью формул S  ( y10  y )  ni  ( y 2  y )  ni  ...  ( y i  y )  ni   ( y i  y ) 2  ni 2 A 2 2 i 1 mj S B2  ( yi  y) 2  mi  ( y2  y)  mi  ...  ( y j  y) 2 m j   ( y j  y)  m j 1 вычислим вариации, обусловленные факторами А и В, соответственно. S A2  (30  45) 2  2  (40  45) 2  2  (65  45) 2  2  1300 ,  A2  1300 / 6 . S B2  (20  45) 2  3  (70  45) 2  3  3750 ,  B2  3750 / 6 . ni Остаточную вариацию вычислим по формуле S   2 0 i 1 mj (y j 1 ij  yi  y j  y) 2 , легко проверить, что yij  y  ( yi  y )  ( y j  y )  ( yij  yi  y  j  y )) .  1 1 (10  30  20  45) 2  (50  30  70  45) 2  (20  40  20  45) 2  6 6 (60  40  70  45) 2  (30  65  20  45) 2  (100  65  70  45) 2   300 / 6. 1 Убедимся, что  y2   A2   B2   02 : 5350 / 6  (130  3750  300 ) . Найдем, теперь численное 6 2 2 S S 1300 300 значение FA  S A2 / S 02  A / 0  /  650 / 150  4,3 . ni 1 ni 1 3  1 3  1 Fкр(α, nj-1, (mj-1))=F(0,95,2,2)=19. Так как 4,3<19, то влияние типа машины на качество пряжи не подтвердилось. 2 Fв= S B / S 02 =3750/150=25. Fкр(α, mj-1, (ni-1)(mj-1)=F(0,95,1,2)=18,51. Так как Fв>Fкр, то считаем, что вид сырья влияет на качество пряжи.  02  S 02  74 Рассчитаем теперь коэффициент детерминации RB2   B2 /  y2  3750 / 5350  0,7 . Таким образом 70% общей выборочной вариации качества пряжи связано с влиянием на нее вида сырья. Задачи к лекциям 17-18. 12.1. Выяснить при уровне значимость α=0,05, зависит ли объем работ, выполненных на стройке за смену от работающей бригады. Данные по четырем бригадам приведены в следующей таблице 1 2 3 4 Уровни 140 144 150 149 148 149 150 155 фактора 142 145 152 150 146 147 154 152 12.2. Оценить существенность различий в успеваемости студентов по трем предметам и четырем группам численность студентов в каждой группе составляет 25 человек. Предмет 1 2 3 Группы 1 4,3 4,2 4,0 2 4,1 4,0 3,9 3 4,1 3,9 4,2 4 4,2 4,0 3,8 12.3. Проведены измерения для каждого из трех уровней некоторого фактора А. На уровне значимости α=0,05 проверьте нулевую гипотезу о незначительном влиянии фактора А. Номер измерения 1 2 3 4 Уровни фактора А1 А2 38 20 36 24 35 26 31 30 А3 21 22 31 34 12.4. В трех филиалах одного из банков были организованы три уровня различных услуг для клиентов. После этого в течение шести месяцев измерялись объемы вкладов Х тыс. руб. Данные приведены в табл. Проверить нулевую гипотезу о влиянии организации услуг на объемы вкладов при уровне значимости 0,05. Номер измерения 1 2 3 4 5 6 Уровни фактора Ф1 Ф2 10 17 15 15 14 25 18 22 20 30 16 28 Ф3 14 18 30 27 34 40 12.5. Для проверки влияния внутрицехового оформления на качество продукции рассмотрены три участка по производству однотипной продукции и проведена выборочная проверка брака за пять месяцев. Результаты помещены в в таблице. Методом дисперсионного анализа при уровне значимости α=0,05 проверить нулевую гипотезу о существенном влиянии оформления участка на качество продукции. Номер измерения 1 2 3 4 5 Уровни фактора Ф1 Ф2 2 3 4 5 3 4 2 3 1 6 Ф3 1 4 5 10 3 75 12.6. При уровне значимости α=0,005 проведите двухфакторный дисперсионный анализ по таблице: А) А1 А2 А3 В1 11 13 17 В2 11 15 18 В3 10 15 20 В4 12 14,5 19 Б) А1 А2 А3 А4 В1 1 2 3 2 В2 3 5 6 4 В3 4 3 1 4 Проверьте себя! Тест 1. 1. Проведено четыре измерений (без систематических ошибок) некоторой случайной величины: 5, 6, 9, 12. Найти несмещенную оценку математического ожидания. А) 7 б) 8,25 в) 8 г) 8,5 2. Найдите исправленную дисперсию и выборочный стандарт на основании данного распределения выборки: Хi 2 7 9 10 ni 8 14 10 18 А) 7,72 б) 7,58 в) 7,74 г) 7,73 3. Из генеральной совокупности извлечена выборка объема nу равно число вариант для х4=4 при следующем законе распределения выборки: Хi 1 2 3 4 ni 4 20 11 ? Постройте полигон частот. А) 14 б) 15 в) 16 г) 50 4. Точечная оценка математического ожидания нормального распределения равна 10. Тогда его интервальная оценка может иметь вид: А) (10; 10,0) б) (8,6; 9,6) в) (8,4; 10) г) (8,5; 11,5) 5.Если основная гипотеза имеет вид H0:a=20, то конкурирующей может быть гипотеза… А) H1:a≤20 б) H1:a>20 в) H1:a≥20. Тест 2. 1.Ниже приведены результаты измерения роста случайно отобранных 100 студентов: 154-158 158-162 162-166 166-170 170-174 174-178 178-182 10 14 26 28 12 8 2 Построить гистограмму по данному распределению выборки. Найти выборочную среднюю, выборочную дисперсию роста студентов: а) ХВ=167, ДВ=33,22 б) ХВ=168, ДВ=34, в) ХВ=166, Дв=33,44 2. По данным 16 независимых измерений найдены ХВ=42,8 и исправленное среднее квадратичное отклонение S2=8/ Оценить истинное значение α надежностью γ=0,999. а) 34<a<51 б) 34,66<a<50,94 в) 35<a<51. 3. Произведено 10 измерений одним прибором (без систематических ошибок) некоторой величины, причем исправление среднее квадратичное отклонение случайных ошибок измерений S=0,8. Найти точность прибора с надежностью γ=0,95. а) 0,3<δ<1,3 б) 0,29<δ<1,4 в) 0,28<δ<1,32. 4. По наблюдению за весом пакетов, заполняемые станком – автоматом, установлено что стандартное отклонение веса пакетов не должна превышать 5г. По выборке из 20 пакетов определена выборочная исправленная дисперсия S2=30/ При уровне значимости α=0,05 определить требуется ли срочная под наладка станка. a) да, (требуется ) б) нет, (не требуется). 76 5. Выборка объема N=100 задана следующий таблицей интервального вариационного ряда 0-2 2-4 4-6 6-8 4 12 18 а Тогда значение а равно a) 66 б) 15 в) 17 г) 16 Итоговое задание по математической статистике. Условия задач одинаковые для всех студентов, кроме числовых данных. Числовые данные выбираются по приведенной ниже таблице исходя из последних цифр номера зачетной книжки (или студенческого билета). По предпоследней цифре А необходимо выбрать значения параметра m, а по последней цифре В – значения параметра n . Эти два числа нужно подставить в условия задач итогового задания. A 1 2 3 4 5 6 7 8 9 0 m 2 3 2 1 4 5 3 1 4 5 B 1 2 3 4 5 6 7 8 9 0 n 4 3 3 5 1 2 1 5 2 4 Например, если последние цифры номера зачетной книжки25, то Ф=2, В=5. Из таблицы находим: m=3, N=1. Задание№1 Выборка объема N=150 измерений задана следующей таблицей интервального вариационного ряда. (хi, xi+1] (x1, x2] (x2, x3] (x3, x4] (x4, x5] (x5, x6] (x6, x7] ni 15 20 20+m+n 30-m+n 10 0,5 a Где хi=m+(i-1)n, ni – частота попадания вариант в промежуток (х i, xi+1]. Предварительно вычислив значение параметра а, построить гистограмму частот вариационного ряда. Задание №2 Выборка объема N=150 измерений задана следующей таблицей распределения вариационного ряда хi Х1 x2 X3 X4 X5 X6 ni 20-n 25+m 30+m+n 40-n-m 20+m а где хi=2m+in, i=1, 2, 3, 4, 5, 6. Предварительно вычислив значение параметра а, найти среднее выборочное, несмещенную выборочную дисперсию и исправленное среднее квадратичное отклонение. Построить полигон относительных частот. Задание №3 При 5% уровне значимости проверить нулевую гипотезу Н0 о том, что заданное значение а0 является математическим ожиданием нормально распределенной случайной величины для двусторонней критической области, если при объеме выборки N=10 получено выборочное x и несмещенное среднее квадратичное отклонение S, где a0=10 (m+n), x =10 (m+n)+2, S=(m+n)/2. Задание №4. Выборки двух нормально распределенных случайных величин Х и У заданы следующей таблицей X x1 x2 x3 x4 x5 x6 ni 20-n 25+m 30+m+n 40-m-n 20+n 25-m Y y1 y2 y3 y4 y5 y6 mi 10-n 15+m 20+m+n 30-m-n 10+n 15-m где xi=2m+2(i-1)·n yi=4n+4(i-1)m, i=1, 2, 3, 4, 5, 6 При уровне значимости α=0,05 проверить нулевую гипотезу о равенстве дисперсий данных случайных величин Х и У. Задание №5. При уровне значимости α=0,05 методом дисперсионного анализа проверить нулевую гипотезу о влиянии фактора на качество объекта на основании следующих пяти измерений для трех уровней фактора Ф1, Ф2, Ф3: 1 2 3 4 5 Ф1 Ф2 10+m 10-n 10-n 10+n 20-m-n 10+m+n 20+m-n 10+m-n 10+n-m 20-n-m 77 Ф3 20+n-m 20-n 20+m 20-n+m 30-n-m Комплексное контрольное задание по теории вероятностей и математической статистике. 1. Студент знает 45 из 60 вопросов программы.Каждый экзаменационный билет содержит три вопроса. Найти вероятность того, что студент знает: а)все три вопроса; б)только два вопроса; в)только один вопрос экзаменационного билета. 2. В каждой из двух урн находятся 5 белых и 10 черных шаров. Из первой урны переложили во вторую наудачу один шар, а затем из второй урны вынули наугад один шар. Найти вероятность того, что вынутый шар окажется чѐрным. 3. Три стрелка в одинаковых и независимых условиях произвели по одному выстрелу по одной и той же цели. Вероятность поражения цели первым стрелком 0,9, вторым – 0,8, третьим – 0,7. Найти вероятность того, что: а)только один из стрелков попал в цель; б)только два стрелка попали в цель; в)все три стрелка попали в цель. 4. Вероятность наступления события в каждом из одинаковых и независимых испытаний равна 0,8. Найти вероятность того,что в 1600 испытаниях событие наступит 1200 раз. 5. Для сигнализации об аварии установлены три независимо работающих устройства. Вероятность того,что при аварии сработает первое устройство, равна 0,9, второе – 0,95, третье – 0,85. Найти вероятность того, что при аварии сработает: а)только одно устройство; б)только два устройства; в)все три устройства. 6. Вероятность наступления события в каждом из одинаковых и независимых испытаний равна 0,02. Найти вероятность того, что в 150 испытаниях событие наступит 5 раз. 7. В партии из 1000 изделий имеются 10 дефектных. Найти вероятность того, что среди 50 изделий взятых на удачу из этой партии, ровно 3 окажутся дефектными. 8. Вероятность наступления события в каждом из одинаковых и независимых испытаний равна 0,8. Найти вероятность того,что в 125 испытаниях событие наступит не менее 75 и не более 90 раз. 9. На трех станках при одинаковых и независимых условиях изготавливаются детали одного наименования. На первом станке изготавливают 10% , на втором – 30%, на третьем – 60% всех деталей. Вероятность каждой детали быть бездефектной равна 0,7, если она изготовлена на первом станке, 0,8 – если на втором станке, и 0,9 – если на третьем станке. Найти вероятность того, что на угад взятая деталь окажется бездефектной. 10. Два брата входят в состав двух спортивных команд, состоящих из 12 человек каждая. В двух урнах имеются по 12 билетов с номерами от 1 до 12. Члены каждой команды винимают наудачу по одному билету из определенной урны (без возврвщения). Найти вероятность того, что оба брата вытащат билет номер 6. 11-20. Дискретная случайная величина Х может принимать только два значения: х 1 и х2, причем х1<х2. Известны вероятность р1 возможного значения х1, математическое ожидание М(Х) и дисперсии D(Х). найти закон распределения этой случайной величины. 11. р1=0.1; М(Х) = 3,9; D(Х) = 0,09; 12. р1=0,3; М(Х) = 3,7; D(Х) = 0,21; 13. р1=0,5; М(Х) = 3,5; D(Х) = 0,25; 14. р1=0,7; М(Х) = 3,3; D(Х) = 0,21; 15. р1=0,9; М(Х) = 3,1; D(Х) = 0,09; 16. р1=0,9; М(Х) = 2,2; D(Х) = 0,36; 17. р1=0,8; М(Х) = 3,2; D(Х) = 0,16; 18. р1=0,6; М(Х) = 3,4; D(Х) = 0,24; 19. р1=0,4; М(Х) = 3,6; D(Х) = 0,24; 20. р1=0,2; М(Х) = 3,8; D(Х) = 0,16. 21-30. Случайная величина Х задана функцией распределения F(x). Найти плотность распределения вероятностей, математическое ожидание и дисперсию случайной величины. 78 0, x  0;  21. F ( x)   x 2 , 0  x  1; 1, x  1.  0, x  1;  22. F ( x)  ( x 2  X / 2, 1  x  2; 1, x  2.  0, x  0;  23. F ( x)   x 3 , 0  x  1; 1, x  1.  0, x  0;  24. F ( x)  3x 2  2 X , 0  x  1 / 3; 1, x  1 / 3.  0, x  2;  25. F ( x)   x / 2  1, 2  x  4; 1, x  4.  0, x  0;  26. F ( x)   x 2 / 9, 0  x  3; 1, x  3.  0, x  0;  27. F ( x)   x 2 / 4, 0  x  2; 1, x  2.  0, x   / 2;  28. F ( x)  cos x,   / 2  x  0; 1, x  0.  0, x  0 0, x  3 / 4;   29. F ( x)  2 sin x, 0  x   / 6; 30. F ( x)  cos 2 x, 3 / 4  x   ; 1, x   / 6. 1, x   .   31-40. Известны математическое ожидание и среднее квадратическое отклонение ζ нормально распределенной случайной величины Х. найти вероятность попадания этой величины в звданный интервал (α,β). 31. а = 10, ζ = 4, α = 2, β = 13, 32. а = 9, ζ = 5, α = 5, β = 14, 33. а = 8, ζ = 1, α = 4, β = 9, 34. а = 7, ζ = 2, α = 3, β = 10, 35. а = 6, ζ = 3, α = 2, β = 11, 36. а = 5, ζ = 1, α = 1, β = 12, 37. а = 4, ζ = 5, α = 2, β = 11, 38. а = 3, ζ = 2, α = 3, β = 10, 39. а = 2, ζ = 5, α = 4, β = 9, 40. а = 2, ζ = 4, α = 6, β = 10. 41-50. Найти доверительный интервал для оценки математического ожидания а нормального распределения с надежностью 0,95, зная выборочную среднюю x , объем выборки n и среднее квадратичное отклонение ζ. 41. x = 75,17, n = 36, ζ = 6, 42. x = 75,16, n = 49, ζ = 7, 43. x = 75,15, n = 64, ζ = 8, 44. x = 75,14, n = 81, ζ = 9, 45. x = 75,13, n = 100, ζ = 10, 46. x = 75,12, n = 121, ζ = 11, 47. x = 75,11, n = 144, ζ = 12, 48. x = 75,10, n = 169, ζ = 13, 49. x = 75,09, n = 196, ζ = 14, 50. x = 75,08, n = 225, ζ = 15. 51-60. Банк выдал ссуды n заемщикам в размере S рублей под ставку ссудного процента r. Найти математическое ожидание и дисперсию прибыли банка, а так же условие на ставку ссудного процента если вероятность возврвта ссуды равна p. 51. n = 1000, р = 0,8, S = 100000, r = 30%, 52. n = 1100, p = 0,9, S = 200000, r = 40%, 53. n = 1200, р = 0,7, S = 300000, r = 20%, 54. n = 1300, р = 0,7, S = 300000, r = 30%, 55. n = 1000, р = 0,9, S = 200000, r = 30%, 56. n = 1100, р = 0,8, S = 150000, r = 20%, 57. n = 1500, р = 0,7, S = 250000, r = 20%, 58. n = 1400, р = 0,7, S = 250000, r = 30%, 59. n = 1000, р = 0,8, S = 200000, r = 40%, 60. n = 1400, р = 0,8, S = 100000, r = 40%. 79 Указание: Число заемщиков, возвративших ссуду с процентом, будем считать случайной величиной с биномальным законом распределения. Глава 3. Эконометрика. Лекция 1.Предмет и задачи эконометрики. Основные типы моделей и данных в эконометрике. Постоянно усложняющиеся экономические процессы привели к необходимости создания и совершенствования особых методов их изучения и анализа. При этом широкое распространение получило использование математических моделей и методов. На базе использования математического моделирования и количественного анализа выделилось и сформировалось одно из направлений экономических исследований - эконометрика. Эконометрика-это наука, исследующая количественные закономерности и взаимозависимости экономических показателей при помощи методов математической статистики. В эконометрике на основе статистических данных строятся, анализируются и совершенствуются математические модели реальных экономических явлений. Использование методов математической статистики в эконометрике естественно и обоснованно, так как большинство экономических показателей носит характер случайных величин, предсказать точные значения которых невозможно. Например, сложно предвидеть доход или потребление какого-либо индивидуума, объемы экспорта и импорта страны в течение следующего года. Кроме того, связи между экономическими переменными обычно не носят строгий функциональный характер: во-первых, всегда очень трудно выявить все основные факторы, влияющие на данную переменную; во-вторых, многие такие воздействия содержат случайную составляющую; в-третьих, экономисты располагают ограниченным набором данных статистических наблюдений, которые к тому же содержат различного рода ошибки. Математическая статистика как теория обработки и анализа статистических (случайных) данных позволяет решить следующие основные задачи эконометрики:  Построение эконометрических моделей, т.е. представление экономических моделей в математической форме;  Оценка параметров построенной модели, делающих выбранную модель наиболее адекватной реальным данным;  Проверка качества найденных параметров модели и самой модели в целом;  Использование построенных моделей для объяснения поведения исследуемых экономических показателей, прогнозирования и предсказания, а также для принятия обоснованных экономических решений. Рассмотрим пример, иллюстрирующий последовательное решение вышеуказанных задач. Необходимо проанализировать зависимость спроса Q на некоторое благо от цены P на это благо. Экономическая теория утверждает, что с ростом цены P объем спроса Q сокращается. Опираясь на это утверждение, могут быть предложены, например, следующие математические зависимости: 80 a) Q=a+вР, b<0; б) Q=aPb, в<0; в) lnQ=a+вlnP, b<0, где a и в - некоторые параметры.  Выбор формы математической модели (спецификация) является существенным для дальнейшего анализа. Обычно этот выбор опирается на базовые положения экономической теории, знания о характере зависимости на предыдущих этапах исследования, или на некоторые субъективные предположения. Любая из моделей является упрощением реальности и всегда содержит определенную погрешность. Поэтому с помощью статистических методов отбирается та модель, которая в наибольшей степени соответствует реальным эмпирическим данным и характеру зависимости.  После выбора (составления) модели оцениваются параметры выбранной зависимости (параметризация), в нашем случае - параметры a и в. Эта оценка осуществляется на основе имеющихся статистических данных. Поэтому вопрос точности статистических данных является одним из ключевых для построения работоспособной модели.  Далее проверяется качество найденных оценок (верификация), а также соответствие всей модели эмпирическим данным и теоретическим предпосылкам. Данный анализ осуществляется по схеме проверки статистических гипотез. На этом этапе совершенствуется не только форма модели, но и уточняется состав ее независимых (объясняющих) переменных. В нашем примере, возможно, объем спроса определяется не только его ценой на товар, но также ценой на товарызаменители, располагаемым доходом и другими факторами. Если модель удовлетворяет всем необходимым требованиям, то она может быть использована для прогнозирования или для объяснения внутренних механизмов исследуемых процессов. Такая модель позволяет с определенной надежностью предсказывать среднее значение исследуемого экономического показателя (в нашем примере-Q) на основе прогнозируемых или фиксированных значений других показателей (P), предвидеть вероятности отклонений конкретных значений изучаемой величины от предсказуемого по модели. Она поможет определить, на какие факторы, в каком направлении и в каком объеме следует воздействовать, чтобы значение исследуемого показателя лежало в определенных числовых границах. Таким образом, в любом эконометрическом исследовании существенным является построение, анализ и использование математических моделей. Можно выделить три основных класса теоретических моделей, применяемых в эконометрике: 1. Регрессионные модели с одним уравнением. В таких моделях зависимая (объясняемая) переменная y представляется в виде функции f(x,ß)=f(x1,x2…xk,ß1,ß2,…ßp), где x(x1, x2 …xk)-независимые (объясняющие) переменные, а ß=(ß1, ß2…ßp)-параметры. В зависимости от вида функции f(x,ß)модели делятся на линейные и нелинейные. Например: а) соотношение y=ß0+ß1x1+ε, где ε-случайный параметр, интегрирующий в себе влияние всех неучтенных явно факторов, является теоретической линейной моделью; б) 2 ßt соотношения вида y=ß0+ß1x1+ß2x2 +ε, y=ß0*е +ε, являются нелинейными моделями. 2. Динамические модели (модели временных рядов). К этому типу относятся два класса моделей: 81 а) Модели с лагами - это модели, содержащие в качестве лаговых переменных (переменных, влияние которых характеризуется определенным запаздыванием) независимые (объясняющие) переменные. Примером является модель: yt=α+ß0xt+ß1xt-1+…ßκxt-κ+εt, где xt, yt -обозначают значения переменных в текущий момент времени, t, εt-случайные отклонения. б) Авторегрессионные модели -это модели, уравнения которых в качестве лаговых объясняющих переменных включают значения зависимых(объясняемых) переменных Примером является модель:yt=α+ßxt+γyt-1+εt 3. Системы одновременных уравнений. Эти модели описываются системой уравнений. Системы уравнений состоят из тождеств и регрессивных уравнений, каждое из которых, кроме объясняемых переменных, может включать в себя также объясняемые переменные из других уравнений системы. Примером может служить следующая модель: Qst=α1+α2Pt+α3αPt-1+εt (предложение) Qtd=ß1+ß2Pt+ß3yt+v t (спрос) Qts=Qtd (равновесие), где Qtd, Qts, Pt, yt-спрос, предложение, цена и доход, соответственно, в момент времени t, Pt—ı-цена товара в предыдущий момент времени, εt, νt-всевозможные случайные отклонения в момент времени t. Для моделирования экономических процессов и проведения эконометрического анализа, в основном пользуются статистическими данными двух типовпространственные данные и временные ряды. Примером пространственных данных являются, например, набор сведений по различным фирмам (объем производства, количество работников, доход) в данный момент времени. Примером временных рядов могут быть ежеквартальные данные по инфляции, средней заработной плате, национальному доходу, денежные эмиссии за последние годы, ежедневный курс доллара т.д. Отличительной чертой временных рядов является то, что, они упорядочены во времени, причем наблюдения в близкие моменты времени часто бывают зависимыми. Из вышесказанного можно сделать вывод, что, осуществляя ту или иную операцию, заключая ту или иную сделку, анализируя динамику эконометрических показателей, могут быть рассчитаны лишь приблизительные конечные результаты, поскольку по своей природе все такие операции и показатели случайные. А научно обосновать результаты, можно лишь рассматривая экономические показатели и их взаимосвязи в терминах теории вероятностей и математической статистики, рассмотренных нами в предыдущих главах данного пособия. Лекция 2. Регрессивные модели с одним уравнением Взаимосвязь экономических переменных. Функциональная, статистическая и корреляционная зависимости. Экономическая теория выявила и исследовала значительное число устоявшихся и стабильных связей между различными экономическими переменными 82 (параметрами). Например, хорошо изученными являются зависимости спроса или потребления от уровня дохода и цен на товар; зависимость между уровнями безработицы и инфляции; зависимость объема производства от целого ряда факторов-размера основных фондов, качества персонала и т.д.; зависимость между производительностью труда и уровнем механизации и т.п. Однако в реальных ситуациях даже установившиеся зависимости могут проявляться по-разному. Если в естественных науках часто речь идет о функциональной зависимости (связи), когда каждому значению одной переменной соответствует вполне определенное единственное значение другой переменной, то в большинстве случаев между экономическими переменными таких зависимостей нет. Например, нет строгой функциональной зависимости между доходом и потреблением, ценой и спросом, производительностью труда и стажем работы (или энерговооруженностью) и т.д. Это связано с тем, что, во-первых, при анализе связей между переменными не учитывается целый ряд других факторов, влияющих на них; во-вторых, влияние может быть не прямым, а проявляться посредством других факторов; в-третьих, многие такие воздействия носят случайный характер и т.д. Поэтому в эконометрике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует множество возможных значений другой переменной. Иначе говоря, каждому конкретному значению независимой (объясняющей) переменной соответствует определенное (условное) распределение другой зависимой (объясняемой) переменной. Поэтому в экономике говорят не о функциональных, а о статистических (или стохастических, вероятностных) зависимостях. В силу неоднозначности статистической зависимости между CB, Y и X для исследователя представляет интерес усредненная по X(Y) схема зависимости. Если каждому значению одной (объясняющей) переменной соответствует определенное условное математическое ожидание (среднее значение) другой (объясняемой) переменной, то такая статистическая зависимость называется корреляционной. Корреляционная зависимость выражается как функциональная зависимость между значениями независимой переменной и условным математическим ожиданием (средним значением) зависимой переменной, т.е. y=M(Y/X=x)=f(x) или y=(Ỹ/X=x)=f(x). (13.1) При этом зависимую переменную Y называют также, объясняемой выходной, результирующей, эндогенной переменной, результирующим признаком, а независимую X-объясняющей, входной, предсказывающей, экзогенной переменной, фактором, регрессором, факторным признаком. Функциональная зависимость является частным случаем статистической зависимости, когда значениям одной переменной соответствуют «распределения» другой, имеющую вероятность равной единице. Уравнение (13.1) называется уравнением регрессии, а функция f(x)-функцией регрессии, а ее график-линией регрессии. В силу воздействия неучтенных факторов и причин реальные значения зависимой переменной не всегда совпадают с ее условными математическими 83 ожиданиями. Поэтому фактическая зависимость должна быть дополнена некоторым слагаемым ε, которое по существу является СВ и указывает на стохастическую суть зависимости. Из этого следует, что уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлена в виде: y=M(Y/X=x)+ε или y=(Ỹ/X=x)=f(x)+ε. (13.2) где ε-случайная величина, характеризующая отклонение от функции регрессии. Например, в модели спроса q=f(p, I)+ε, где q-количество блага, p-цена, I-доход, переменная ε учитывает влияние всех прочих факторов (цен на другие товары, наличие заменителей товаров, изменение моды, погоды и т.д.), неучтенных явно в функции спроса. Для точного описания уравнения регрессии необходимо знать условный закон распределения зависимой переменной Y, при условии, что X примет значение x. В статистической практике такую информацию получить, как правило, не удается, т.к обычно исследователь располагает лишь выборкой пар значений (xi, yi) ограниченного объема n. Поэтому речь может идти оценке(приближенном выражении, аппроксимации) по выборке функции регрессии Такой оценкой является выборочная линия(кривая) регрессии: y=f(x, b0, b1, b2…bp), где y-условная (групповая) средняя переменной Y при фиксированном X=x¸bi, i=1¸ p-параметры кривой. Задачу построения качественного уравнения регрессии, соответствующего эмпирическим данным и целям исследования, как отмечалось выше, можно разбить на следующие этапы:1) выбор формулы уравнения регрессии;2) определение параметров выбранного уравнения;3) измерение тесноты связи между переменными;4) анализ качества уравнения и проверка адекватности уравнения эмпирическим данным, совершенствование уравнения. В случае парной регрессии (случай зависимости двух переменных величин) выбор формулы обычно осуществляется по графическому изображению реальных статистических данных (выборки пар значений (xi, yi)) в виде точек в декартовой системе координат, которое называется корреляционным полем (диаграммой рассеивания). По расположению эмпирических точек можно предполагать наличие (отсутствие) той или иной известной формулы зависимости между переменными Х и Y Лекции 3-4. Линейная парная регрессия. Метод наименьших квадратов. Предположим, что по расположению эмпирических точек на корреляционном поле установлено наличие линейной корреляционной зависимости между переменными Χ и Y, т.е. теоретическое линейное уравнение имеет вид: yi=M(Y/Χ=xi)+εi=βo+β1xi+εi или y=(Ỹ/X=x)=βo+β1xi+εi (13.3) где xi-значение независимой переменной в i-м наблюдении, i= 1, n . Соотношение (13.3) называется теоретической линейной моделью; βo, β1теоретическими параметрами регрессии, εi-случайным отклонением. Так как для определения теоретических коэффициентов невозможно использование всех значений переменных Χ и Y, то задача линейного регрессионного анализа состоит в том, чтобы по имеющимся статистическим данным (xi, yi), i  1, n получить наилучшие оценки неизвестных параметров βo и β1. 84 По статистическим данным (xi, yi) мы сможем построить выборочное линейное уравнение регрессии: yˆ i  в 0  в1 xi ,где ŷi  оценка условного математического ожидания M(Y/Χ=xi) (или среднего), в0 и в1-оценки неизвестных параметров βo и β1.Следовательно, в конкретном случае ˆ i  ei где отклонение ei-оценка случайного yi  в0  в1 xi  ei  y теоретического отклонения εi. Задача состоит в том, чтобы по выборке (xi, yi) найти оценки в0 и в1, а построенная прямая yˆ  b0  b1x являлась бы наилучшей, то есть «ближайшей» к точкам наблюдений по их совокупности. Обычно в качестве критерия близости используется минимум суммы квадратов разностей наблюдении зависимой переменной yi и рассчитанных по уравнению регрессий значений bo+b1xi: n Q(вo,в1) = e i 1 2 i   ( yi  (в0  вi xi )) 2  min (13.4) i Метод оценивания параметров b0 и в1, минимизирующий сумму квадратов отклонений эмпирических значений yi от значений yi, найденных по уравнению регрессии, называется методом наименьших квадратов (МНК) Рассмотрим процедуру оценивания параметров парной линейной регрессии в0 и в1. Для того, чтобы функция Q(вo,в1) достигала минимума, необходимо равенство нулю частных производных(условие экстремума функции двух переменных):  Q nв 0  в1  x i   y i  в  2 ( y i  в 0  в1 x i )  0  i  0 i i   2  Q  2 ( y  в  в x ) * x  0 в 0  x i  в1  x i   x i y i  i 0 1 i i i i   i  в1 Разделив оба уравнения на n, получим:  в 0  y  в1 x в0  в1 x  y  2  в0  в1 x  xy где x   2 в1  ( xy  x  y /( x 2  x ) (13.5) 1 1 1 1 xi , y   yi , xy   xi yi , x 2   xi2 .  n n n n Таким образом, оценки b0 и b1 по МНК можно получить по формулам (13.5) Представив в0 в первоначальное уравнение можно получить вид уравнения регрессии:  yˆ  y  в1 x  x  (13.6) Коэффициент регрессии b1 показывает среднее изменение результата с изменением фактора на одну единицу. Так, если функция издержек ŷ =3000+2х, то с увеличением объѐма продукции (х) на одну единицу издержки производства (у) возрастают в среднем на 2 у.е. , т.е. дополнительный прирост продукции на одну единицу потребует увеличения затрат в среднем на 2 у.е. 85 Коэффициент корреляции, как количественная мера зависимости между переменными величинами. Ясно, что в случае независимости переменных величина n (x i 1 i  x)( yi  y ) будет близка к нулю, так как величины отрицательных и положительных отклонений от средних значений компенсируют друг друга. Поэтому, за меру связи между величинами Χ и Y можно рассматривать величину S xy 1 n  cov( x, y )   ( xi  x)( y i  y ) , называемой ковариацией Χ и Y. n i 1 Однако существенным недостатком ковариации является ее зависимость от размерности рассматриваемых величин. Кроме того, ковариация не позволяет определить тесноту(строгость) связи между переменными. Для устранения указанных недостатков вводится относительная мера взаимосвязи - выборочный коэффициент корреляции: rxy  S xy / S x  S y , где Sx, Sy-выборочные стандартные отклонения. Так как выборочная ковариация S xy  1  ( xi  x)( yi  y)  xy  x y , а выборочная n 2 дисперсия S X2  x 2  x , то выборочный коэффициент регрессии b1=Sxy/Sx2. Тогда: b1 = ( S xy · S y)/ ( S x· S y· S x ) = r xy · S y / S x , r xy = b1 · S x / S y (13.7) Следовательно величина rxy является показателем тесноты (строгости) линейной связи между переменными Χ и Y:1. Если между Χ и Y существует положительная отрицательная) линейная зависимость, то rxy>0 (rxy<0);2. Если отсутствует линейная связь, то rxy=0. При этом линия регрессии параллельна оси ОX3.Если rxy  1, то корреляционная связь представляет функциональную линейную зависимость. 4. rxy  1 и чем ближе rxy к единице, тем теснее линейная связь между X и Y. Замечание 1. Для практических расчетов наиболее удобны формулы: rxy  n xi yi   xi  yi  n xi   xi   n yi2   yi  2 2 2 , rxy   x i   x  yi  y nS x  S y , (13.8) Замечание 2. Встречаются случаи, когда необходимо установить связи между порядковыми переменными. (Например, тестовые баллы, экзаменационные оценки, качество жилищных условий и т. п.). В этом случае объекты анализа упорядочивают или ранжируют по степени выраженности измеряемых переменных. Ранжируя выборку по каждому признаку, получим набор чисел (x1, y1), (x2, y2), ….(xn, yn), где xi и yi-целые числа от 1 до n. Выражение 6  yi  xi  2 rc  1  nn  1n  1 (13.9) называется коэффициентом ранговой корреляции Спирмена.  Если же выборочные значения ранжированы в виде (1, y1), (2, y2)…, (n, yn), то вычисляют, так называемый коэффициент ранговой корреляции Кендалла rτ. 86 r  где 4  i nn  1  1, (13. 10) ei - число игреков, стоящих справа от уi и больших его. Пример. Пусть получена ранжированная выборка (1,4), (2,1), (3,5), (4,2), (5,6), (6,3). Число значений больших 4  1  2 , для 1  2  4,. Для 5  3  1 , для 2  4  2 , для 6  5  0 , для 3  6  0. Отсюда:   i  2  4  1  2  9. r  4  9 / 6  5  1  0,2. 69  1  4  4  1  9 6  28 4  1  1   0,2. 657 657 5 Коэффициенты rτ и rc лежат в пределах от -1 до +1 и приводят примерно к одинаковым выводам, что и обычный коэффициент корреляции rxy. rc  1   Пусть данные эксперимента представляют собой нули и единицы, которые фиксируют наличие (1) или отсутствие(0) чего либо. Такие данные называют дихотомическими. Если обе переменные измеряются в дихотомических шкалах измерений, то мера связи-коэффициент корреляции ƒ определяется по формуле: rD  Pxy  Px  Py / Px  qx  PY  q y , где Px-доля единиц в X, qx=1-Px-доля нулей в X, Py-доля единиц в Y, qy=1-Py-доля нулей в Y, Pxy-доля единиц как в X, так и в Y. Пример: Наблюдения за 12 студентами второго курса по переменным «семейное положение» и «исключение из вуза» и вычисления rD приведен ниже: X 0 1 0 0 1 1 0 1 0 0 0 1 Y 0 1 1 0 1 0 0 1 0 1 0 1 где для X : 0- холост, 1- женат ; для Y : 0- оставшиеся, 1- исключенные. Px= 5/12= 0,4167, Py = 6/12= 0,500, qx= 0,5833, qy= 0,5, Pxy=4/12=0,3333 rD  0,3333  0,4167  0,5...  0,507 . 0,4167  0,5833  0,5  0,5 Для иллюстрации метода наименьших квадратов рассмотрим следующие примеры. Пример 13.1. Имеется информация за 10 лет относительно среднего дохода (Х) и среднего потребления (Y). Х Y 8 5 11 10 12 10 9 7 8 5 8 6 9 6 9 5 8 6 12 8 Необходимо:1) определить вид зависимости;2) по МНК оценить параметры уравнения регрессии Y на Х;3) оценить силу линейной зависимости между Х и Y; 4) спрогнозировать потребление при доходе х=13. Для определения вида зависимости построим корреляционное поле. По расположению точек на корреляционном поле предполагаем, что зависимость ˆ  в0  в1 x между Х и Y линейная: y Вычислим по МНК коэффициенты (оценки) вo и в1. Для этого вычислим 87 все необходимые суммы и средние: x  (8  11  12  9  8  8  9  9  8  12) /10  9,4 x 2  (82  112  12 2  92  82  82  92  92  82  12 2 ) / 10  90,8 y  (5  10  10  7  5  6  6  5  6  8) /10  6,8 xy  (8  5  1110  12 10  9  7  8  5  8  6  9  6  9  5  8  6  12  8) /10  66,4 y 2  (52  10 2  10 2  7 2  52  62  62  52  62  82 ) / 10  49,6 x 2  90,8; x  94 /10  9,4; xy  66,4; y  6,8; 2 x  88,36 . Затем по формулам (13.5) имеем: b1 66,4  9,4  6,8 2,48   1,016, 90,8  88,36 2,44 b0  6,8  1,016  9,4  2,75 . Итак, уравнение регрессии Y по Х: yˆ  2,75  1,016x. Для анализа силы линейной зависимости вычислим коэффициент корреляции: rxy  66,4  9,4  6,8 90,8  9,42  49,6  6,82  0,866, т. е связь между переменными достаточно тесная. Прогнозируемое потребление при доходе х=13 по данной модели составит: yˆ (13)  2,75  1,016 13  10,46 . Пример 13.2. Пусть варианты парной выборки (хi, yi) встречаются несколько раз и они представлены в виде следующей корреляционной таблицы: xi yi 100 120 140 160 nxi 15 20 2 4 1 25 30 35 40 nyj 5 2 7 3 2 3 8 10 9 22 9 ∑ 50 7 2 5 6 10 1 18 3 5 6 (Например, пара (20, 140) встречается 5 раз, т. е. n23=5, а частоты появления величин nyj и nxi найдены как суммы значений nij по соответствующей строке и столбцу). Необходимо найти уравнение линейной регрессии Х на Y по данным вышеприведенной таблицы. Решение. Для упрощения расчетов используем условные варианты:  j  ( y j  c2 )  h2. . В нашем случае, ui=(xi-30)/5 ui  ( xi  c1 )  h1 , и  j  ( y j  120) / 20, где 5 и 20 – разности между соседними значениями Х и Y, а 30 и 120 – выбираемые значения (ложные нули). Составим преобразованную таблицу с условными вариантами, в которую внесем значения частот nui и nνj: ui vi -1 0 -3 -2 -1 0 1 2 nνj 2 4 1 - 2 7 - - 3 10 9 88 1 2 nui Находим u 6 и v , u2 , 5 6 3 5 v 2 , Su, Sv, Suv. 10 1 18 5 2 7 2 3 8 22 9 ∑ 50 u   3  6  2  6  1 5  1 7  2  8/ 50  0,24 , v   110  1 22  2  9/ 50  0,6 , u 2  9  6  4  6  1  5  1  7  4  8 / 50  2,44 , v  1  10  1  22  4  9  / 50  1,36 , 2 2 2 2 Su2  u 2  u  2,44   0,24  2,3824, Su=1,54. Sv  v  v  1,36  0,6  1, Sv=1. u  v   1   3  2   1   2 1  1 2  5  11 5  1 2  2  2   1  3  2 1 2  2  2  3/ 50  0,34 2 2 2 Suv  u  v  u  v  0,34  0,6   0,24  0,34  0,144  0,484 Осуществим переход к исходным вариантам: x  5  u  30  5   0,24  30  28,8 ; y  20  0,6  120  132. S y  20 1  20 ; Sxy  Suv  5  20  100  0,484  48,4 . Вычислим выборочный коэффициент корреляции rxy: rxy  S xy Sx  S y  S x  5  1,54  7,7 ; 48,4 48,4   0,314 . 7,7  20 15,4 Находим уравнение регрессии Х на Y: xˆ  x    7,7  0,314 Sx  y  132   rxy y  y , или xˆ  28,8  20 Sy Отсюда: xˆ  0,12 y  12,8. Замечание. В качестве упражнения докажите, использованное нами при решении задачи, равенство S xy  h1  h2  Suv . Задачи к лекциям 3-4. 13.1. Экспериментальные данные представлены в виде следующей таблицы: а) б) Х Y в) Хi Yi 1 3 3 5 1 3 2 1 2 3 3 3 5 4 4 2 2 3 5 6 6 7 2 2 3 3 Х Y 1 0 6 8 4 6 3 4 1 2 5 3 3 4 10 7 4 4 6 8 11 6 5 6 1 1 4 5 Необходимо: 1) определить вид зависимости Y и X;2)по МНК оценить параметры уравнения регрессии Y на Х; 3)оценить силу линейной зависимости между Х и Y; 4)найти сумму квадратов всех отклонений между экспериментальными yi и расчетными значениями ŷ i. 13.2 В следующей выборке представлены данные по цене Р некоторого блага и затрат (Q) на приобретение данного блага, ежемесячно в течение года. Р Q 10 110 20 75 15 100 25 80 30 60 35 55 40 40 35 80 25 60 40 30 45 40 40 30 Необходимо: 1)построить корреляционное поле и по его виду определить вид зависимости между Р и Q; 2)оценить по МНК параметры уравнений линейной регрессии; 3)оценить выборочный коэффициент корреляции rpq; 13.3. Имеются следующие данные об уровне механизации работ Х (%) и производительности труда Y (%) для 14 однотипных предприятий: 89 Х Y 32 20 30 24 36 28 40 30 41 31 47 33 56 34 54 37 60 38 55 40 61 41 67 43 69 45 76 48 Необходимо: 1)оценить тесноту и направление связи между переменными с помощью коэффициента корреляции; 2)найти уравнение регрессии Y по Х. 13.4. Для анализа зависимости объема потребления Y(y, l) от располагаемого дохода Х( y, l) отобрана выборка объема n=12: X Y 100 90 105 100 110 105 115 100 120 110 125 120 130 120 135 130 140 135 145 140 150 140 160 150 Необходимо: 1)определить вид зависимости;2)по МНК оценить параметры уравнения регрессии Y на Х; 3)оценить силу линейной зависимости Х и Y; 4)спрогнозировать потребление при доходе х=170. 13.5.Проводится исследование спроса на некоторый вид товара. Пробные продажи показали следующие данные о зависимости дневного спроса от цены. 10 Цена, руб. Спрос, ед. 91 товара 12 14 16 18 76 68 59 53 Требуется: а) определить коэффициент корреляции между ценой Х и спросом Y, построить прямую регрессии Y на Х; б) исходя из данных пункта а) определить спрос при цене 15 рублей за ед. товара. 13.6.Дана таблица предельного дохода (Х) и предельного потребления (Y). Х 100 120 130 140 160 Y 60 70 90 90 100 65 70 95 100 110 70 80 95 100 120 75 90 100 110 130 80 100 120 120 140 Требуется: а) для каждого уровня рассчитайте среднее потребление являющееся оценкой математического ожидания M(Y/X=xi);б) постройте корреляционное поле для данной выборки; в) постройте эмпирическое линейное уравнение регрессии, используя все данные; г) постройте эмпирическое линейное уравнение регрессии, используя среднее значение потребления; д) сравните построенные уравнения. Какое из них с вашей точки зрения ближе к теоретическому? е) рассчитайте выборочный коэффициент корреляции для в) и г), и сделайте вывод. 13.7.Найти уравнение регрессии Y на Х по данным. xi 5 10 15 20 25 30 yi 14 4 6 8 4 24 8 10 6 34 32 44 4 12 6 13.8. При приеме на работу семи кандидатам было предложено два теста. Результаты тестирования приведены в следующей таблице. 1 2 3 4 5 6 7 90 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26 Вычислить коэффициент корреляции Спирмена между результатами тестирования по двум тестам. Лекции 5-6. Анализ качества уравнения парной регрессии. Линейная регрессионная модель. Основные предпосылки МНК. Теорема Гаусса-Маркова. В предыдущем параграфе определены оценки коэффициентов в0 и в1- парной регрессии. Но они не позволяют определить насколько точно эмпирическое уравнение регрессии соответствует уравнению для всей генеральной совокупности (ГС), насколько близки оценки в 0 и в1 к своим теоретическим прототипам  0 и 1 , как близко оцененное значение у̂ i к условному математическому ожиданию М(У/Х=хi), насколько надежны найденные оценки. Как следует из (13.4) значения уi зависят от значений хi и случайных отклонений εi, т.е. уi  M  y / x  xi    i   0  1 xi   i . Следовательно переменная Y и коэффициенты регрессии является СВ, напрямую связанной с εi. Это означает, что до тех пор, пока не будет определенности в вероятностном поведении εi, мы не сможем быть уверенными в качестве оценок коэффициентов уравнения регрессии, а, следовательно, и в качестве построенного уравнения регрессии. В самом деле, для получения по МНК наилучших результатов необходимо выполнение ряда предпосылок относительно случайного отклонения εi,известные как условия Гаусса-Маркова: 10. М(εi)=0 для всех наблюдений. (Данное условие означает, что случайное отклонение в среднем не оказывает влияния на зависимую переменную. В каждом конкретном наблюдении случайный член может быть либо положительным, либо отрицательным, но он не должен иметь систематического смещения. В этом лучае: М(yi)=M(y/x=xi)=α+βxi.) 20. D(εi)=D(εj)=  2 для любых наблюдений i и j. (Данное условие подразумевает, что при каждом конкретном наблюдении не должно быть причины, вызывающую большую ошибку в одних наблюдениях, чем в других. Поскольку D(εi)=M(εi2 2 2 2 2 M(εI)) =M(  I ), то М(  I )=  ). Величина  , конечно, неизвестна. Одна из задач регрессионного анализа состоит в оценке стандартного отклонения случайного члена. Постоянство дисперсии отклонений называется гомоскедастичностью, непостоянство дисперсий отклонений - гетероскедастичностью. В случае гетероскедастичности коэффициенты регрессии, найденные по МНК будут неэффективны и, можно получить более надежные результаты путем применения модифицированного метода регрессии, что будет рассмотрено ниже. 30. Случайные отклонения εi и εj являются независимыми друг от друга при I ≠j. ( Выполнимость данной предпосылки влечет следующее соотношение: 2  ij  cov i   j   M  i   j   M  i   M  j   0, при i≠j ; σi j = σ , при i=j Поскольку М(εi)=0 для всех наблюдений, то М(εiεj)=0, i≠j. Если условие 30 выполняется, т.е. εi и εj не коррелированны, то говорят об отсутствии 91 автокорреляции). Причины невыполнимости данной предпосылки и проблемы связанные с этим, рассматриваются ниже. 40. Случайное отклонение εi должно быть независимо от объясняющих переменных хi, т.е. М(εixi)=0. 50. Модель является линейной относительно параметров. 60. Случайное отклонение εi (или зависимая переменная уi) имеют нормальное распределение (εi~ N 0,   . Теорема Гаусса-Маркова: Если выполнены предпосылки 10 -60 , то оценки в0 и в1, полученные по МНК обладают следующими свойствами: 1.Оценки являются несмещенными, т.е. М (в0)=β0, М(в1)=β1.  0, D(в1) n  0, т.е. при увеличении объема 2.Оценки состоятельны, т.е. D(в0) n   выборки надежность оценок увеличивается. 3. Оценки эффективны, т.е. имеют наименьшую дисперсию по сравнению с любыми другими оценками данных параметров, линейными относительно уi. Анализ точности определения оценок коэффициентов регрессии. В силу случайного отбора элементов выборки, случайными являются также оценки в0 и в1 коэффициентов β0 и β1 теоретического уравнения регрессии. Надежность получаемых оценок, очевидно, тесно связана с дисперсией случайных отклонений εi и оценки тем, надежнее, чем меньше дисперсии D(в0) и D(в1). Предполагая выполнимость предпосылки 20 (т.е. полагая что измерения равноточны и D(εi)=  2 ), получим формулы, связывающие D(в0) и D(в1) с  2  D i : в1  S xy SX 2   x  x  y  y    x  x   y   x  x   y   x  x   y   C  y ,  x  x   x  x   x  x   x  x  i i i i 2 i i 2 i i 2 i i 2 i i i Отсюда, используя свойство дисперсии, получим:  x  x  Dв    C  D y    x  x   2 1 2 i i i 2 2 i т.к.  D y i   2  x  x 2 i (14.1), ,   D yi   M  yi  M  yi   M  yi   0  1  xi   M  i2   2 (см.2 ). 2 2 0 Аналогично можно определить, что:  2  xi2  1  Dв0   D   Ci x  yi   х 2  Dв1  2 n   n x  xi   (14.2). В силу того, что СВ. εi по выборке не могут быть определены, они заменяются отклонениями  i  yi  в0  вi xi , значений уi переменной Y от оцененной линии регрессии. Дисперсия случайных отклонений D(εi)=  2 заменяется ее несмещенной оценкой: S2  1  yi  в0  в1хi 2  1  ( yi yˆ i )2  1   i 2  остаточная дисперсия  n2 n2 n2 Тогда: 2 Dв0   S 2 в0   S 2   xi2 / n   xi  x   x 2  S 2 в1  D в1   S 2 в1   S 2 /  хi  x 2 , Величины S, S(в1), S(в0) называются стандартными ошибками регрессии и коэффициентов регрессии, соответственно. Для практических расчетов наиболее удобны формулы: 92 S2  2 1  yi  в0  в1хi 2 , S 2 (в1 )  S 2ост ( х 2  х ), S 2 (в0 )  S 2 (в1 )  х 2 .  n2 (14.3) Анализ значимости коэффициентов уравнения регрессии. Поскольку коэффициенты эмпирического уравнения регрессии являются СВ, изменяющимися от выборки к выборке, при проведении статистического анализа возникает необходимость сравнения найденных эмпирических коэффициентов регрессии в0 и в1 с некоторыми теоретически ожидаемыми значениями β0 и β1 этих коэффициентов. Кроме того, наиболее важной в начальном этапе статистического анализа построенной модели является задача установления наличия линейной зависимости между Y и Х. Решение этих задач осуществим по схеме статистической проверки гипотез, подробно рассмотренных во второй части данного пособия.  Для проверки гипотезы H 0 : в1  1 ; H1 : в1  1 , используем статистику t  в1  1  / S в1  , которая при справедливости H0 имеет распределение Стьюдента с числом степеней свободы   n  2 , где n-объем выборки. Следовательно, H0 отклоняется на основании данного критерия, если: (14.4) tнабл  в1  1  / S в1   t ( / 2, n-2), где α- требуемый уровень значимости. При невыполнении (14.4) нет основания для отклонения H0. Для проверки гипотезы H0:в1=0, H1:в1≠0 используем статистику: t1  в1 / S в1  . 4.При выполнении предпосылок модели эта дробь имеет распределение Стьюдента с числом степеней свободы ν=n-2, где n-объем выборки. Очевидно, t1=0, равносильно в1=0, что свидетельствует об отсутствии линейной связи между Y и Х. Гипотеза в такой постановке обычно называется гипотезой о статистической значимости коэффициента регрессии. Если: t1≥tα/2, n-2, то гипотезу H0 отклоняют (α-уровень значимости), если H0 принимается, то коэффициент в1 статистически незначим (он слишком близок к нулю). При отклонении H0 коэффициент в1 считается значимым, что указывает на наличие линейной связи между Y и Х. • По аналогичной схеме на основе статистики t 0  в0 / S в0  проверяется гипотеза о значимости коэффициента в0. • При оценке значимости коэффициента корреляции rxy, исходят из того, что при отсутствии корреляционной корреляционной связи статистика T  rxy  n  2 / 1  rxy2 имеет t-распределение Стьюдента с n-2 степенями свободы. Коэффициент rxy значим на уровне α, если T >tα/2,n-2, где tα/2, n-2-табличное значение t-критерия Стьюдента. Значимость коэффициента ранговой корреляции Tc Cпирмена проверяется точно также, исходя из статистики Т=rc n  2 / 1  rc2 . 93 Интервальные оценки коэффициентов линейного уравнения регрессии и функции регрессии. Как отмечалось ранее, при выполнении предпосылок 10-60 коэффициенты в0, в1 (через уi) являются линейными функциями от εi, имеющими нормальное распределение. Следовательно, в0 и в1 также распределены нормально. Тогда статистики: t0  в0   0 , S в 0  t1  в1  1 , имеют распределение Стьюдента с числом степеней S (в1 ) свободы ν=n-2. Отсюда с доверительной вероятностью γ=1-α получаем:     в  0 в  1 P  t / 2,n  2  1  t / 2,n  2   1   , P  t / 2,n  2  0  t / 2,n  2   1   S (в1 ) S (в 0 )     (14.5) После преобразований, соотношения (14.5) определяют следующие доверительные интервалы для коэффициентов β1 и β0 линейного уравнения регрессии: в1  t / 2,n2  S (в1 )  1  в1  t / 2,n2  S (в1 ), в0  t / 2,n2  S (в0 )   0  в0  t / 2,n2  S (в0 ), (14.6) где, S(в0) и S(в1) определяют по формулам (14.3). Указанные интервалы с надежностью 1-α накрывают определяемые параметры β0 и β 1 . Замечание. Обозначим предельную ошибку ∆ каждого показателя. ∆(в0)=tтабл S(в0), ∆(в1)=tтабл S(в1). Тогда, формулы для расчета доверительного интервала имеют вид:  в 0   в 0  в 0 , (14.7)  в1   в1  в1 . Доверительные интервалы для зависимой переменной. Одной из центральных задач эконометрического моделирования является предсказание (прогнозирование) значений зависимой переменной при определенных значениях объясняющих переменных. Здесь возможен двоякий подход: 1)предсказать условное математическое ожидание (среднее значение) зависимой переменной при определенных значениях объясняющих переменных; 2) прогнозировать некоторое конкретное значение зависимой переменной. 1)Предсказание среднего значения. Доверительный интервал для функции регрессии. Пусть построено уравнение парной регрессии yˆ i  в0  в1 xi На основе этого уравнения необходимо предсказать условное математическое ожидание М(У/Х=хР) переменной У при Х=хр. В данном случае модельное значение уˆ р  в0  в1 х р является оценкой М(У/Х=хР) . Естественно возникает вопрос определить насколько уклоняется модельное значение у̂ р от соответствующего М(У/Х=хР), т.е необходимо построить доверительный интервал с заданной надежностью при любом конкретном значении хР объясняющей переменной. Чтобы построить доверительный интервал найдем дисперсию групповой средней у̂ р . С этой целью уравнение регрессии представим в виде уˆ р  у  в1 ( х р  х) 94 Из свойств дисперсии следует, что D( уˆ р )  D( y)  ( х p  x)2  D(в1 ) . Дисперсия выборочной средней D( y)  D   yi  1  2   n  n что D(в1 )  2  (х i  x) 2 n 2 1 n  D( y i )  . Из §14.1 следует, . Заменив ζ2 ее несмещенной оценкой S2 получим:   2 S2 ˆ Dy p    xp  x  n S2  x i x  2   2 1 xp  x   S    n  xi  x 2    2   Основываясь на предпосылках 10-60 регрессионного анализа можно показать, что уˆ р   0  1 х р  статистика Т  D yˆ h  имеет распределение Стьюдента с ν=n-2, Следовательно доверительный интервал для М(У/Х=хР) =β0+β1xр имеет вид: в 0  в1 х р  t , n  2  D( yˆ p ) , в 0  в1 х р  t , n 2  D( yˆ p ) 2 2 (14.8) 2)Предсказание индивидуальных значений зависимой переменной (прогнозное значение). Построенная доверительная область для (М(У/Х=х)= β0+β1x определяет местоположение модельной линии регрессии, но не отдельных возможных значений зависимой переменной, которые отклоняются от средней. Поэтому при определении индивидуальных значений у0 зависимой переменной необходимо учитывать еще один источник вариации- рассеяние вокруг линии регрессии, т.е в оценку суммарной дисперсии D( у̂ ) следует включить величину S2 .В результате оценка дисперсии индивидуальных значений у0 при х=х0 равна : D( yˆ 0 )  S 2  S2 S2  ( x 2  x) 2  , 2 n ( x  x )  i (14.9) А соответствующий доверительный интервал для прогнозов индивидуальных значений у0 имеет вид: (14.10) в0  в1 х0  t  D( yˆ 0 ), в 0  в1 х0  t ,n  2  D( yˆ 0 ) , 2, n  2 где 2 D( yˆ o )  S (1  1 / n  ( x0  x) /  ( xi  x) ) 2 2 2 Проводя анализ построенных интервалов (14.8) и (14.9), несложно заметить, что наиболее узкими они будут при x0  x и по мере удаления x0 от среднего значения доверительные интервалы расширяются. • Так как связь между F-критерием Фишера и t-критерием Стьюдента выражаются  2 F равенством t , то доверительная область для всей линии регрессии 2,n  2 2, 2, n  2 определяется с помощью следующих уравнений соответственно нижней и верхней границы полосы: y  в 0  в1 х0  2 F 2 , 2,n  2 S 1  ( x 0  x ) 2 /  ( xi  x ) 2 n (14.11) 95 где F , 2,n  2 2 - коэффициент распределения Фишера, определяемая по таблице F-распределения (см. приложение) Если распределение У вдоль прямой регрессии нормальное (что предполагается в большинстве случаев), то около прямой регрессии находится зона yˆ  t ,n,  Sl , где S l2  S y2 (1  rxy2 ) , в которой лежит большинство значений измеряемой величины У (t ,n коэффициент Стьюдента). Проверка общего качества уравнения регрессии. Коэффициент детерминации. После проверки значимости коэффициентов регрессии естественно проверить качество уравнения регрессии, т.е проверить как хорошо эмпирическое уравнения согласуется со статистическими данными. Пусть эмпирическое уравнение регрессии имеет вид yˆ  в 0  в1 х . Тогда наблюдаемые значения yi , i  1, n , отличаются от модельных у̂ на величину ei т.е yˆ i  ei . Для сравнения уi и у̂ i cо средним значением y рассмотрим следующее очевидное равенство: уi  y  ( yˆ i  y)  ( yi  yˆ i )  ki  ei ) , где ki-отклонение i-й точки на линии регрессии от среднего значения у , еi-отклонение i-й точки от модельного значения у̂ i определяемого по линии регрессии. Рассмотрим: (14.12)  ( yi  y) 2   ki2   ei2  2 ki ei .  к e   ( yˆ  y)( y  yˆ )   в ( х  x)( y  y  в ( х  x))   в ( х  x)( y  в ( x  x)( y  y)  в ( ( x  x)( у  y))  0 i i 1 i i i i i 1 1 i i i 1 i 1 i i  y )   в12 ( хi  x) 2  i (Здесь мы воспользовались формулой для вычисления в1) Тогда справедливо соотношение: (у i  y ) 2   ( yˆ i  y) 2   ( yi  yˆ i ) 2 (14.13) 2 Ясно, что S Общ .   ( yi  y ) - является мерой общего разброса (рассеивания) 2 2 ˆ переменной Y относительно у, S факт .   ( у i  y ) является мерой разброса, объяснимое с помощью уравнения регрессии(факторная мера разброса), а 2 2 S ост.   ( yi  yˆ i ) является мерой разброса точек вокруг линии регрессии(остаточная 2 2 2 мера разброса), т.е S общ  S факт .  S ост. Определим долю разброса R xy2 зависимой переменной, объяснимой регрессией Y на 2 Х разделив (14.13) на его левую часть: 1   ( yˆ i  y) 2 (y Величина R  1  2 xy e (y i i  y) 2  ( yˆ  (y i  y) 2   ( y  yˆ )  ( y  y) i 2 i 2 i  Rxy2  e (y 2 i i  y) 2 2 i  y) i  y) 2 называется коэффициентом детерминации. Из проведенных рассуждений следует, что 0≤ R xy2 ≤1. Чем ближе R xy2 к 1, тем теснее наблюдения примыкают к линии регрессии. Если R2=1, то эмпирические точки (хi, уi) лежат на линии регрессии и между Y и Х существует линейная связь. В случае парной линейной регрессионной модели коэффициент детерминации 2 R равен выборочному коэффициенту корреляции rxy2 : Действительно, учитывая (13.8), 96 R 2 xy  ( yˆ  (y i  y) 2 i  y) 2  в ( x  x)   ( y  y) 2 1 2 i 2 i в12  S x2   rxy2 2 Sy • Проверка гипотезы Но–о статистической незначимости уравнения регрессии и показателя тесноты связи применяется F-критерий Фишера: если 2 2 Fфакт  Rxy (n  2) /(1  Rxy )  Fтабл. , то Н0 отклоняется и признается статистическая значимость уравнения регрессии и показателя тесноты связи Fтабл. - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Fтабл.=Fα,1,n-2 Для проверки качества уравнения парной регрессии и усвоения схемы исследований рассмотрим следующий пример. Пример 1. Имеется информация за 12 месяцев относительно дохода (х) и потребления (у): хi уi 107 102 109 105 110 108 113 110 120 115 122 117 123 119 128 125 136 132 140 130 145 141 150 144 Необходимо:1)определить вид зависимости;2)по МНК оценить параметры уравнения регрессии Y на Х ;3)оценить силу линейной зависимости и прогнозировать потребление при доходе х=1604)определить статистическую значимость коэффициентов линейного уравнения регрессии;5)найти 95% доверительные интервалы коэффициентов уравнения регрессии;6)найти 95% доверительный интервал для условного математического ожидания М(У/Х=160)7)рассчитать границы интервала, в котором будет сосредоточено 95% возможных объемов потребления при большом числе наблюдений и уровне дохода Х=160;8)рассчитать коэффициент детерминации R2 и сделать вывод.9)изобразить на координатной плоскости результат исследования. Решение. 1) Для определения вида зависимости построим корреляционное поле. (На нем же изобразим результаты дальнейших исследований). По расположению точек полагаем, что зависимость между Х и Y линейная. 2) Для наглядности вычислений по МНК построим таблицу: i хi уi хi2 хiуi yi2 ŷ i ei ei2 1 2 3 4 5 6 7 8 9 10 11 12 ∑ Ср. 107 109 110 113 120 122 123 128 136 140 145 150 1503 125,25 102 105 108 110 115 117 119 125 132 130 141 144 1448 120,67 11449 11881 12100 12769 14400 14884 15129 16384 18496 19600 21025 25500 190617 15884,75 10914 11445 11880 12430 13800 14274 14637 16000 17952 18200 20445 21600 183577 15298,08 10404 11025 11664 12100 13225 13689 14161 15625 17424 16900 19881 20736 176834 14736,17 103,63 105,49 106,43 109,23 115,77 117,63 118,57 123,24 130,71 134,45 139,11 143,78 -1,63 -0,49 1,57 -0,77 -0,63 0,43 1,76 1,29 -4,45 1,89 0,22 ≈0 2,66 0,24 2,46 0,59 0,59 0,40 0,18 3,10 1,66 19,8 3,57 0,05 35,3 97 Комментарии к вычислениям: Согласно МНК, имеем: в1  ху  х  у 2  15298,08  112,25  120,67 184,1625   0,9339 197,1835 15884,75  (125,25) 2 х2  х в0  у  в1 х  120,67  0,9339  125,25  3,699 Таким образом, уравнение линейной регрессии имеет вид: уˆ  3,699  0,9339х. По этому уравнению рассчитаем у̂ i , а также ei  y i  yˆ i . Например, yˆ10  3,699  0,9339  140  134 ,45, e10  130  134 ,45  4,45 3)Для оценки силы линейной зависимости вычислим коэффициент корреляции: xy  x  y 184 ,1625 rxy    0,9914 . 2 x2  x  y2  y 197 ,1875  14736 ,17  (120 ,67 ) 2 2 Так как rxy=0,9914 близок к единице, можно сделать вывод о сильной линейной зависимости между X и Y. (Это подтверждается расположением точек на корреляционном поле). Прогнозируемое потребление при доходе х=160 по данной модели уˆ (160)  3,699  0,9339 160  153,12 4) Для определения статистической значимости коэффициента в1 определим: S2  S2(в1)=  xi  x 2 S2 35,3   2i    0,0023 2 2 2 2 nx  x  nn  2x  x  12  10  191,1875 S в1   0,0023  0,0485. t1  в1 0,9339   19 ,2557 . S в1  0,0485 Критическое значение при уровне значимости α=0,05 и степени свободы ν=12-2=10, t0,025,10 определим по таблице распределений Стьюдента (см. приложение). Так как t0,025,10=2,228<t1=19,2557, то нулевая гипотеза H0:в1=0 (или t=0) должна быть отвергнута. Это подтверждает значимость коэффициента в1. Аналогично: S (в 0 )  2 S 2  xi2  n x x 2 2     S в 2  x 2  0,0023  15884,75  36,5349. S (в 0 )  36,5349  6,044, t 0 3,699  0,612. 6,044 Так как t 0  0,612 <2,228=tкр, то гипотеза о незначимости коэффициента в0 не отклоняется, т.е в данном случае уравнение регрессии можно рассматривать как у=в1х. 5) 95% доверительные интервалы (α=о,05) для коэффициентов в1 и в0 определим по формулам (14.6): (0,9339  2,228  0,0485; 0,9336  2,228  0,0485)  (0,826;1,042) ; (3,699  2,228  6,044; 3,699  2,228  6,044)  (9,767;17,165) ; 6) 95% - доверительный интервал для М(Y/Х=160) определим по формуле (14.8): 35,3 1 125 ,25  160    . 12  2 12 2102 ,1875 2 3,699  0,9339  160  2,228  Доверительный интервал для среднего значения Y при Х=160: (149,728; 156,5193). 98 7) Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных объемов потребления при неограниченно большом числе наблюдений и уровне дохода Х=160.Для этого воспользуемся формулой (14.9): 3,699  0,9339  160  2,228  1,8788  1  1 125 ,25  160   12 2102 ,1875 2 Интервал, в котором будет находиться, по крайней мере, 95% индивидуальных объемов потребления при доходе Х=160 имеет вид (147,4898; 158,7082). 8) Коэффициент детерминации R2 определим по формуле: R  1 2  (y i 2 i  y) 2  1 35,3  0,983 . 2108,6668 Близкое к единице значение коэффициента детерминации свидетельствует о высоком качестве построенного уравнения регрессии. R 2  0,983  (0,9914) 2  rxy2 (неточности связаны с округлением вычислений!). Задачи к лекциям 5-6. 14.1. Имеются данные за 10 лет по прибылям Х и Y (в %) двух компаний: 19 15 12 10 5 -6 -4 5 7 6 х у 20 18 10 12 6 -7 -3 3 8 7 а) Постройте регрессионную модель Y=в0+в1х+е; б) Оцените статистическую значимость коэффициентов регрессии на уровне значимости α=0,05;в) Вычислите стандартную ошибку регрессии;г) Вычислите стандартные ошибки коэффициентов регрессии;д) Оцените коэффициент корреляции. е) Рассчитайте коэффициент детерминации и сравните его с коэффициентом корреляции. 14.2. Имеется информация за 7 лет относительно среднего дохода (I) и среднего потребления (С) млн.руб. 14 16 17 18 20 22 24 I 12 13 14 15 16 18 20 С а) Оцените коэффициенты линейной регрессии С=в0+вI+е по МНК; б) Проинтерпретируйте найденные коэффициенты;в) Проверьте статистическую значимость а и в при уровне значимости α=0,05; г) Рассчитайте 95% доверительные интервалы для теоретических коэффициентов регрессии;д) Спрогнозируйте потребление при доходе I=25,00 постройте доверительный интервал для данного прогноза;е) Насколько изменится потребление, если доход вырастет на 3 млн. руб.?ж) Проверьте значимость уравнения регрессии на 5% уровне; з) Найдите коэффициенты корреляции и детерминации и сравните их. 14.3. По территориям региона проводятся данные за год среднедушевого прожиточного минимума в день одного трудоспособного (Х) (руб.) и среднедневной заработной платы (Y) (руб.). Х У 78 133 82 148 87 134 79 154 89 162 106 195 67 139 88 158 73 152 87 162 76 159 115 173 а) Постройте линейное уравнение регрессии У от Х б) Рассчитайте линейные коэффициенты y  yˆ 1  100 % , допустимый предел парной регрессии и среднюю ошибку аппроксимации А   i n yi которой 8-10%в) Оцените тесноту линейной связи и статическую значимость параметров регрессии и корреляции. г) Найти прогноз заработной платы (У) при прогнозном значении среднедушевого прожиточного минимума (Х), составляющем 107% от среднего уровня. д) Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.е) С помощью ППП Ехcel реализуйте эту задачу на компьютере. Сделайте экономические выводы 99 14.4. Взаимосвязь показателей инфляции и безработицы не учитывающим инфляционных ожиданий в макроэкономике описывается уравнением Филипса: π=-β(u-u*), где π-фактический темп инфляции (в процентах); u-фактический уровень безработицы); u*- естественный уровень безработицы;β- параметр; По данным темпа инфляции и уровня безработицы за 13 лет получено уравнение регрессии: π=6,29-0,76u, со стандартной ошибкой коэффициента регрессии S(В)=0,163. При уровне значимости α=0,01 проверить значимость коэффициента регрессии в=0,76 и дать ее экономическую интерпретацию. 14.5. Учителю по математике необходимо предсказать успеваемость по математике в девятом классе по результатам теста, проведенного в конце восьмого класса (независимая переменная Х). Результатами измерения(переменная Y) могут быть количество правильных ответов за тест по математике для восьмого класса, включающий 50 вопросов. Результаты исследований даны в следующей таблице: Х 95 100 100 102 103 105 106 106 106 109 110 110 111 112 112 114 114 115 Y 33 31 35 38 41 37 37 39 43 40 41 44 40 45 48 45 49 47 Найти уравнение регрессии, по которой с наилучшим приближением можно построить предсказания. 14.6. По данным исследования за 7 лет составлена следующая таблица: (х-располагаемый личный доход: у-расход потребителя на питание). 479,7 469,7 503,8 524,9 542,3 580,8 616,3 х 99,7 100,9 102,5 103,5 104,6 108,8 113.7 у Постройте линейное уравнение регрессии у на х и интерпретируйте результаты оценивания регрессии и коэффициентов регрессии. 14.7. Докажите, что cov( у̂ ,е)=0, если уˆ  а  вх, е  у  а  вх, и ковариационные правила. 14.8. По следующим наблюдениям вычислите коэффициенты корреляции и детерминации и сравните их. 1) 2) х у 1 3 2 5 х у 3 6 2 -1 4 +1 6 2 8 4 14.9. Наблюдаются две переменные Х и Y помесячно в течении года и получена следующая информация: 2 х  122,167, у  125,26,  хi  x   2135 ,679 ;  x  y  y 2115; Рассчитайте: а) по МНК коэффициенты линейного уравнения регрессии; б) стандартную ошибку регрессии; в) стандартную ошибку коэффициентов регрессии ;г) коэффициент детерминации; Оцените качество построенного уравнения регрессии и статистическую зависимость коэффициентов регрессии. 14.10. Известны затраты производства (у) в млн. руб. и объемы выпуска продукции (х) в тыс. ед. семи предприятий, выпускающих одну и ту же продукцию:  y  y 2 х у 1 30  2216 ,168 , 2 70  x i 4 150 3 100 5 170 3 100 4 150 Необходимо:1. Построить корреляционное поле и определить вид функции издержки производства (у=в0+в1х+е);2. По МНК определить параметры уравнения регрессии;3. Сравнить в1 с альтернативной оценкой параметра в1 =(maxyi-minyi)/(xn-x1); в1  35. 4. Вычислив коэффициент 2 детерминации R XY определить процент дисперсии результативного признака, объясняемого уравнением регрессии и долю прочих факторов (остаточная дисперсия); 98,2%, 1,8%.5. Можно ли 100 по результатам пункта 4) утверждать, что линейная модель хорошо аппроксимирует исходные данные? Найдите прогнозное значение издержки производства при объеме выпускаемой продукции 2 ˆ Dф а к  5 тыс. ед. (да; 178,4 млн. руб.)6. Найти Dобщ    y  y  / n  1, т у  у и 2 Dост    уˆ  у  .n  2, F  Dфакт / Dост . Сделать вывод о значимости уравнения регрессии при 1% и 5% уровне значимости, если FТАБЛ , 0,01  6,61, Fтабл, 0,05  16.26; (Dобщ=15000/5, Dфакт=14735, Dост=265/53, F=278); 7. Определив F-критерий по формуле F=R2(n-2)/1-R2, где R2-коэффициент детерминации, сделать вывод о значимости уравнения регрессии при 1% уровне значимости: (R2=0,982, F=273);8. Определить стандартную ошибку коэффициентов регрессии S(в1), и его доверительный интервал при 5% уровне значимости, если tтабл=2,57. (S(в1)=2,21. 36,84± 2,57  2,21). 9.Найти средние издержки производства при объеме выпускаемой продукции 4 тыс. ед. с вероятностью 95%, (132,99; 150,15);10. Найти доверительный интервал прогноза индивидуальных значений у при х=4 с вероятностью 95%, (120,98, 162,16). Контрольные задания. А. Даны следующие значения экспериментальных данных: 1. таблица для 1-10 вариантов; 2. таблица для 12-20 вариантов 3. таблица для 21-30 вариантов; 1. Х Y -2 9+n 2. X Y -4 (-6+n) -2 -2 3. X Y -4 9 -2 4+m B n m B n m B n m 1 1 -2 11 2 1 21 1 4 2 0 -1 12 1 1 22 2 3 -2 9-m 0 7 1 5 0 3-m 2 3 4 0 6 -3-n 6 -3=m 7 -5 4 n+3 7 -5+m 2 1 2 2+m 3 3-n 3 n+2 5 7 2m+2 n+5 -2 4+n 0 1 2 m-6 2 n-5 3 -1-m 5 -9 5 -9-n 6 -12 3 2 0 13 2 0 23 2 4 4 3 1 14 3 1 24 +1 4 5 4 2 15 5 1 25 3 5 6 3 2 16 6 2 6 2 6 7 0 -2 17 3 2 27 +2 5 8 2 -2 18 4 2 28 1 3 9 3 -1 19 5 1 29 2 2 10 4 -1 20 4 3 30 +1 6 Необходимо: 1. 2. 3. 4. 5. 6. 7. Построить корреляционное поле и определить вид зависимости; По МНК определить параметры уравнения регрессии Y на Х; Оценить силу линейной зависимости, вычислив коэффициент корреляции; Оценить статистическую значимость параметров регрессии и корреляции; Найти 95% доверительные интервалы для коэффициентов регрессии; Найти 95% доверительные интервалы для прогноза при значении хр=8; Рассчитать коэффициент детерминации R2 и сравнить его с коэффициентом корреляции. Сделать вывод; 101 1  y  yˆ 100 %. n 9. Изобразить на корреляционном поле прямую регрессии и доверительную область для всей ˆ  ет S e , при уровне значимости α=0,05. прямой регрессии у 8. Найти величину средней ошибки аппроксимации А  В. Семь предприятий, выпускающих один и тот же вид продукции, рассматривается функция издержек у=а+вх+е. Информация для расчета оценок параметров а и в представлена в следующей таблице. Выпуск продукции, тыс. ед. (х) 1 2 4 3 5 3 4 22 Затраты на производство (млн. руб.) (у) 30 70 150 100 170 100 150 770 ух 30 140 600 300 850 300 600 2820 х2 у2 1 4 16 9 25 9 16 80 900 4900 22500 10000 28900 10000 22500 99700 ˆ х2 у 31,1 67,9 141,6 104,7 178,4 104,7 141,6 770,0 Необходимо найти: 1. Коэффициенты уравнения регрессии а, в и уравнение регрессии уˆ х  а  вх. Объясните, как заполнен последний столбец таблицы. 2. Оценить силу линейной зависимости, вычислив коэффициент корреляции zху. 2 3. Общую сумму квадратов отклонений Dобщ    у  у  . факторную сумму квадратов отклонений Dф    уˆ х  у  и остаточную сумму квадратов отклонений Dост   у  уˆ х  . Проверить равенство: Dобщ=Dфакт+Dост. 4. 95%-ные границы коэффициента регрессии в0. 5. 95% границы прогнозируемого значения у̂ х при х=4. 2 2 Лекции 7-8. Множественная линейная регрессия. Определение параметров уравнения регрессии. На любой экономический показатель чаще всего оказывает влияние не один, а несколько совокупно действующих факторов. Например, спрос на некоторое благо определяется ценой данного блага, ценой на замещающие и дополняющие блага, доходом потребителей и многими другими факторами. В этом случае вместо парной регрессии рассматривается множественная регрессия y=M( Y/X=x1 , X2 = x2,…, Xm=xm)=f (x1,x2,x3,…, xm). Обозначим i-е наблюдение объясняемой (зависимой) переменной через , а объясняющих (независимых) переменных через . Тогда теоретическая модель множественной линейной регрессии имеет вид: , (15.1) 0 0 где и удовлетворяет предпосылкам 1 – 6 , приведенным выше (теорема Гаусса-Маркова).При оценке параметров по методу наименьших квадратов для 102 случая множественной линейной регрессии существенным является еще одна предпосылка: 70. Отсутствие мультиколлинеарности, т.е. между объясняющими (независимыми) переменными отсутствует строгая линейная зависимость, т.е. коэффициент корреляции между независимыми переменными не равен 1. Как и в случае парной линейной регрессии вместо теоретического уравнения регрессии (15.1) оценивается эмпирическое уравнение регрессии = (15.2) где - оценки соответствующих теоретических значений , - оценки соответствующих отклонений . Для нахождения оценок минимизируется остаточная сумма квадратов (МНК), т.е. функция где при всех . Приравнивая нулю частные производные по линейных уравнений с неизвестными : , получаем систему Решение данной системы наиболее наглядно представимо в матричной форме. Пусть , , Через , , обозначим соответствующие транспонированные матрицы. Тогда система (15.4) в матричной форме имеет следующий вид: Y=( X ) B (15.5) Отсюда, матрицу-столбец коэффициентов множественной линейной регрессии можно найти по формуле B= · Y, (15.6) где – матрица обратная к . Каждый коэффициент уравнения регрессии вычисляется по формуле Замечание. В каждом конкретном случае систему (15.4) можно решить и другими методами решения систем линейных уравнений, рассматриваемых в линейной алгебре (например, метод Гаусса, метод Крамера и т.д.). В случае двух независимых (объясняющих ) переменных система уравнений (15.4) имеет вид: 103 Разделив обе части уравнений на получим и подставив в другие уравнения Отсюда где , , , , . Если разделить обе части уравнений системы (15.8) на и в терминах дисперсий и ковариаций система (15.8) имеет вид: , , соответственно, то Или в терминах коэффициентов корреляции – где , , , - коэффициенты корреляции между соответственно (см.13.8) Ясно, что , . Разрешив систему (15.10) относительно получим (Заметим, что в силу условия 70 ). Аналогично, для общего случая оценки уравнений , , можно определить из системы Систему (15.12) можно решить методом Крамера при этом коэффициенты регрессии могут быть определены по формуле 104 где, – Алгебраическое дополнение элемента дополнение элемента в матрице • Коэффициенты регрессии, а , а - алгебраическое называют стандартизированными коэффициентами - коэффициентом эластичности. показывает на сколько величин изменится в среднем зависимая переменная при увеличении только к-й объясняющей переменной на , а коэффициент эластичности - на сколько процентов (от средней) изменится в среднем при увеличении только на 1 %. Если обозначить , то уравнение регрессии в стандартизированном масштабе имеет вид: = • По элементам матрицы можно примерно оценить какие факторы существенно влияют на переменную , а какие – несущественно, а также выявить взаимосвязь между факторами. Как известно, теснота связи тем выше, чем коэффициент корреляции по модулю близок к единице. В случае незначительной тесноты связи отдельной независимой переменной и зависимой переменной , в уравнение регрессии нецелесообразно включить фактор . Из равенства (15.13) следует, что чем ближе к нулю определитель матрицы межфакторной корреляции , тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. Проблема мультиколлинеарности , еѐ причины и методы устранения рассматриваются ниже. Обычно для отбора существенных факторов вычисляют частные коэффициенты корреляции и определяют надежность полученных коэффициентов, например, по t критерию Стьюдента. Частный коэффициент корреляции между факторами при условии что фактор остается неизменным вычисляется по формуле Коэффициенты частной корреляции высшего порядков определяются по рекуррентной формуле. Например, частный коэффициент второго порядка вычисляется по формуле Для определения тесноты связи между факторами и совокупностью факторов в случае линейной зависимости применяется коэффициент детерминации , вычисляемая по следующей формуле: 105 Если, например, , то 49% вариации объясняется факторами, включенными в уравнение регрессии, а 51%- прочими факторами. Анализ качества уравнения регрессии. Проверка качества уравнения множественной линейной регрессии проводится по той же схеме, что и для парной линейной регрессии .  Значимость коэффициентов регрессии проверяются по t –критерию Стьюдента. сравнивается с табличным значением при уровне значимости и числе степеней свободы . Если , то коэффициент считается статистически значимым.  Погрешность коэффициентов регрессии определяется по формуле : (15.18) где -диагональный элемент матрицы Доверительный интервал, накрывающим с надежностью значение параметра , определяется интервалом неизвестное  Доверительный интервал для функции регрессии или условного математического ожидания зависимой переменной определяется интервалом где - групповая средняя определяемая по уравнению регрессии, еѐ стандартная ошибка,  Доверительный интервал для индивидуальных значений переменной имеет вид: зависимой где  Для проверки общего качества уравнения регрессии как и в случае парной регрессии, используется коэффициент детерминации Чем ближе к единице, тем больше уравнение регрессии объясняет поведение . Поэтому естественно желание построить регрессию с наибольшим .  Множественный коэффициент детерминации можно вычислить по формуле: 106  Проверка значимости уравнения регрессии проводится по -критерию Фишера. Строится статистика которая сравнивается с табличным значением . Если , то гипотеза о значимости уравнения регрессии принимается .  Если известен коэффициент детерминации, критерий значимости уравнения регрессии можно записать в виде:  Статистическая значимость коэффициентов регрессии и близкое к единице значение не гарантирует высокое качество уравнения регрессии. Причиной этого может быть не выполнение предпосылок МНК. При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки, а именно: условия статистической независимости отклонений между собой (предпосылка 30 п.14.1). Поскольку значения неизвестны, то проверяется статистическая независимость их оценок, отклонений . При этом проверяется их некоррелированность, являющаяся необходимым, но недостаточном условием независимости. Причем проверяется некоррелированность соседних величин . Соседними обычно считаются соседние во времени (при рассмотрении временных рядов, смотрите ниже!) или по возрастанию объясняющей переменной значения . Для этих величин рассчитывается так называемый коэффициент автокорреляции первого порядка При этом учтено, что математическое ожидание На практике вместо , применяется тесно с ним связанную статистику Дарбина-Уотсона (DW), рассчитываемую по формуле Действительно, при больших можно предположить, что . Тогда Следовательно Если , то и . Если же , то и Во всех других случаях .Так как абсолютная величина отклонений в среднем предполагается одинаковой, то можно считать, что в половине случаев ,ав другой . Тогда Таким образом, необходимым условием независимости случайных отклонений является близость к двойке значения статистики . Для проверки близости 107 значения к двойке разработаны специальные таблицы критических точек статистики Дарбина-Уотсона (см. приложение). Для данного числа наблюдений , количества объясняющих переменных и заданном уровне значимости в таблице указаны два числа -нижняя граница и -верхняя граница. Если , то это свидетельствует о положительной автокорреляции остатков. Если , то это свидетельствует об отрицательной автокорреляции остатков. При гипотеза об отсутствии автокорреляции остатков принимается. Если , то гипотеза об отсутствии автокорреляции не может быть ни принята, ни отклонена. При наличии автокорреляции остатков уравнение регрессии обычно считается не удовлетворительным. Подробно проблема автокорреляции остатков и другие свойства отклонений рассматриваются ниже. Пример. По 10 предприятиям одной отрасли исследовалось зависимость производительности труда ( ) от уровня квалификации рабочих ( ) и энерговооруженности их труда ( ). Результаты эксперимента (условные) даны в таблице: 1 2 3 4 5 8 11 12 9 8 5 8 8 5 7 5 10 10 7 5 6 7 8 9 10 8 9 9 8 12 8 6 4 5 7 6 6 5 6 8 Необходимо: а) по МНК оценить коэффициенты линейной регрессии ;б) С надежностью 0,95 оценить статистическую значимость найденных эмпирических коэффициентов регрессии ;в) построить 95% - е доверительные интервалы для найденных коэффициентов; г) Вычислить коэффициент детерминации , определить значимость уравнения регрессии и какой % разброса зависимой переменной объясняется данной регрессией; д) вычислить статистику и оценить наличие автокорреляции; е) сделать выводы по качеству построенной модели; ж) сравнить раздельное влияние на производительность труда двух факторов – уровня квалификации рабочих и энерговооруженности .З) спрогнозировать производительность труда по уровню квалификации рабочего, оцениваемой 8 ед. и уровнем энерговооруженностью, оцениваемой 6 ед.и) найти 95% - ные доверительные интервалы для среднего значения или функции регрессии и индивидуального значения при . Решение: Для удобства дальнейших вычислений составим вспомогательную таблицу: 8 11 12 9 8 8 9 9 8 5 8 8 5 7 8 6 4 5 5 10 10 7 5 6 6 5 6 64 121 144 81 64 64 81 81 64 25 64 64 25 49 64 36 16 25 25 100 100 49 25 36 36 25 36 4 88 96 45 56 64 54 36 40 40 110 120 63 40 48 54 45 48 25 80 80 35 35 48 36 20 30 5,13 8,79 9,64 5,98 5,86 6,23 6,35 5,61 5,13 0,016 1,464 1,127 1,038 0,741 0,052 0,121 0,377 0,762 108 12 7 63 8 68 144 908 49 417 64 496 84 603 96 664 56 445 9,28 1,631 6,329 а) представляя результаты эксперимента в виде матриц по форме (15.6) найдем матрицу коэффициентов уравнения множественной регрессии: Матрицу определим по формуле , где - определитель матрицы ; - матрица присоединенная к матрице , (т.е. матрица элементы которой есть алгебраические дополнения элементов матрицы ).Получим Теперь, в соответствии с (15.6), умножая на матрицу , получим Уравнение множественной регрессии имеет вид: . б) По найденному уравнению рассчитываем модельные значения и квадрат отклонений реальных значений от модельных (см. два последних столбца таблицы) (например, и т.д.) Проанализируем значимость коэффициентов регрессии, предварительно рассчитав их стандартные ошибки по формуле (15.18) Так как Аналогично вычисляем , то коэффициент значим. т.е. коэффициент незначим на 5% уровне. в) Доверительный интервал имеет смысл построить только для значимого коэффициента По формуле (15.19) имеем , или . Итак, с надежностью 0,95 за счет изменения квалификации на 1 ед. (при неизменном производительность труда будет изменяться в пределах от 0,332 до 1,376 ед. г) Коэффициент детерминации вычислим по формуле (15.23) Вычислим произведение матриц . ) Коэффициент свидетельствует, что вариация переменной на 81,1%, объясняется изменчивостью объясняющих переменных и , д) Статистику DW Дарбина-Уотсона вычислим по формуле (15.26), для чего заполним таблицу -0,13 1,21 0,36 -1,02 -0,86 -0,23 -0,35 -0,61 0,87 -1,28 - 1,34 -0,85 -1,38 0,16 0,63 -0,12 -0,26 1,48 -2,15 - 1,79 0,72 1,90 0,03 0,40 0,014 0,67 2,19 4,62 109 0,17 1,46 0,13 1,04 0,74 0,53 0,12 0,37 0,76 1,64 Для проверки статистической значимости воспользуемся таблицей критических точек ДарбинаУотсона (см. приложение). При уровне значимости и числе наблюдений имеем: Так как то гипотеза об отсутствии автокорреляции остатков принимается, является одним из подтверждений высокого качества модели. е) По всем статистическим показателям модель может быть признана удовлетворительной, т.к. у нее высокие -статистики, близкий к единице коэффициент детерминации и отсутствует автокорреляция остатков. Все это дает основание использовать модель для целей анализа и прогнозирования. ж) Для сравнения влияния каждой из объясняющих переменных воспользуемся таблицей, вычислим стандартизированные коэффициенты регрессии и коэффициенты эластичности . Таким образом, увеличение квалификации рабочих ( ) и энерговооруженности ( ) на одно или на одно увеличивает в среднем производительность труда на , а увеличение этих переменных на 1% приводит к росту производительности труда соответственно на 1,18% и 0,34%. По обоим показателям на производительность труда большее внимание оказывает фактор квалификации рабочего, чем энерговооруженность. з) Для прогноза подставим значение и в уравнение регрессии и) По формуле (15.20) найдем 95%-ый доверительный интервал для среднего значения или функции средней определяется по формуле (15.20) В начале найдем Отсюда , . По таблице приложений находим .Тогда с 95% надежностью производительность труда оцениваемой квалификацией рабочего 8 ед. и энерговооруженностью 6 ед. находится в пределах от (ед.). Определим доверительный интервал для индивидуального значения при : Следовательно Задачи к лекциям 7-8. 15.1. По 20 наблюдениям получены следующие результаты: 110 а) Оцените коэффициенты линейной регрессии б) Определите стандартные ошибки коэффициентов; в) Вычислите коэффициент детерминации .г) Оцените 95%-е доверительные интервалы для коэффициентов и .д) Оцените статистическую значимость коэффициентов регрессии и детерминации при уровне значимости .е) Сделайте выводы по модели Указание:1)Оценки коэффициентов линейной регрессии определите по формулам (15.9).2) Стандартные ошибки коэффициентов вычислите по формулам: где . 15.2. Предполагается, что объем приложений некоторого товара для фирмы зависит линейно от цены данного товара и заработной платы сотрудников фирмы, производящих данный товар. Статистические данные за 16 месяцев занесены в следующую таблицу: 20 35 30 45 60 69 75 90 105 110 120 130 130 130 135 140 10 15 20 25 40 37 43 35 38 55 50 35 40 55 45 65 12 10 9 9 8 8 6 4 4 5 3 1 2 3 1 2 Требуется: а) оценить по МНК коэффициент уравнения регрессии ;б) проверить гипотезы о том, что рост цены товара увеличивает предложение; рост зарплаты снижает предложение .в) сравнить раздельное влияние на каждой из переменных и используя стандартизированные коэффициенты регрессии и коэффициенты эластичности; ) на уровне значимости определить интервальные оценки коэффициентов. д) оценить общее качество уравнения регрессии. е) проверить гипотезу об отсутствии автокорреляции остатков. 15.3. Для объяснения изменения ВНП ( ) за 10 лет строится регрессионная модель с объясняющими переменными – потреблением ( ) и инвестициями ( ). Получены следующие статистические данные: 8 9,5 11 12 13 14 15 16,5 17 18 1,65 1,8 2,0 2,1 2,2 2,4 2,65 2,85 3,2 3,55 14 16 18 20 23 23,5 25 26,5 28,5 30,5 Требуется: а) Используя матричную алгебру оценить коэффициенты линейной регрессионной модели . б) Оценить стандартную ошибку регрессии ( ) и стандартные ошибки коэффициентов . в) Оценить значимость уравнения регрессии и его коэффициентов на уровне значимости .г) Определить значение статистики DW Дарбина-Уотсона. Имеет ли место автокорреляция остатков? д) Определить какой уровень ВНП ожидается через три года если предполагается, что уровень потребления и инвестиций . Контрольные задания. Даны следующие значения экспериментальных Первая таблица от 1 до 15, вторая – от 16 до 30 вариантов 1 1,5 2 2,5 4,0 3,5 4,5 4,0 5,5 1. 1,8 1,2 0,9 0,8 0,6 0,4 0,3 0,4 0,4 3 5 7 9 10 2+ 4+ 6+ 8+ данных: 6,0 0,2 12+ 111 2. 1 0 2 2 2 3 2 3 4 5 8 7 9 8 11 12 3,6 4 2,4 6- 1,8 8 1,6 10 1,2 12- 0,8 14 0,6 16- 0,8 18 0,8 20- 0,4 20 3 0 -2 4 2 -3 5 -2 3 6 0 2 7 2 -1 8 -2 0 9 2 2 10 0 -1 11 -2 0 12 2 1 13 0 2 14 -2 3 15 0 2 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0 -2 0 -2 2 0 -2 2 -2 0 -2 2 0 2 -2 -2 3 2 3 -3 -2 1 0 -2 1 0 -1 -2 -3 2 а) Постройте уравнение регрессии в стандартизированном и в натуральном масштабах. б) С надежностью 0,95 оцените статистическую значимость коэффициентов регрессии. в) Вычислите коэффициент детерминации и определите значимость уравнения регрессии и какой % вариации зависимой переменной объясняется данной регрессией. г) Рассчитайте линейные коэффициенты частной корреляции и коэффициент множественной корреляции. Сделайте выводы. д) Сделайте прогноз для – варианты от 1 до 15 и для – варианты от 16 до 30. е) Найдите 95%-ные доверительные интервалы для уравнения регрессии и индивидуального значения при (варианты 1-15) и при (варианты от 16-30). ж) Сравните раздельное влияние каждого фактора и на результативный признак . з) Вычислите статистику DW и оцените наличие автокорреляции. Лекции 9-10.Обобщенная классическая модель множественной регрессии (ОКММР). Гетероскедастичность и автокорреляция. При моделировании реальных экономических процессов нередко сталкиваются с ситуациями, в которых условия Гаусса-Маркова не выполняются, следовательно обычный МНК может давать оценки с плохими статистическими свойствами. В частности может не выполняться предпосылка о постоянстве дисперсий случайных отклонений, т.е. гомоскедастичность. Для линейной парной регрессии это означает, что D(  i )≠D(  i ) – для любых j и j, а для линейной множественной регрессии, например,  i2= D(  i )=  2·Kj, где  – постоянная дисперсия ошибки при соблюдении предпосылки о гомоскедастичности остатков, Kj – коэффициент пропорциональности, меняющихся с изменением величины фактора, что обуславливает неоднородность дисперсий. Непостоянство дисперсий отклонений называется гетероскедастичностью. В связи с этим возникают два вопроса: 1) как правильно провести диагностику существования гетероскедастичности? 2) как решить проблему гетероскедастичности? При обнаружении гетероскедастичности рекомендуется традиционный МНК заменить обобщенным методом наименьших квадратов (ОМНК). ОМНК применяется к преобразованным данным и позволяет получить оценки с хорошими статистическими данными. 112 Обнаружение гетероскедастичности. В ряде случаев, зная характер данных, появление проблемы гетероскедастичности можно предвидеть и попытаться устранить этот недостаток еще на этапе выбора математической формы модели (на этапе спецификации). В случае парной регрессии графический анализ отклонений является достаточно удобным и надежным методом. При множественной регрессии графический анализ возможен для каждой из объясняющих переменных Xj, j=1,2,…т, отдельно. Однако во многих случаях обнаружение гетероскедастичности визуально не столь очевидно. Чтобы определить наличие гетероскедастичности применяют различные тесты. Все тесты основаны на предположении о наличии связи между дисперсиями остатков моделей и объясняющими переменными или расчетными значениями объясняемой переменной в случае гетероскедастичности  Тест ранговой корреляции Спирмена. При использовании данного теста предполагается, что дисперсия отклонения будет либо увеличиваться, либо уменьшаться с увеличением значений X, тем самым абсолютные величины | е j| и значения Xi будут коррелированны. Значения хj и е j ранжируются, затем определяется коэффициент ранговой корреляции Спирмена Rxe=1-∑ d i2 /(n3-n) где di – разность между рангами хi и е i, i=1,2,…n. Если коэффициент корреляции для ГС равен нулю, то статистика T=rx,e· n  2 / 1  rxe2 имеет распределение Стьюдента с числом степеней свободы v=n2. Если t<tкр=t(α/2,n-2), то гипотеза об отсутствии гетероскедастичности принимается. Если в модели регрессии больше чем одна объясняющая переменная, то гипотезы осуществляются с помощью t- статистики для каждой из них отдельно.  Тест Голдфельда-Квандта. В данном случае предполагается, что стандартное отклонение  i=  (  i ) пропорционально значению хj, т.е.  i2   2  xi2 , i  1...n . При этом предполагается, что  i имеет нормальное распределение и отсутствует автокорреляция остатков. Тест состоит в следующем: 1.Все n наблюдений упорядочиваются по величине хj. 2.Вся упорядоченная выборка разбивается на три подвыборки размерностей k, n2k, k соответственно. 3.Оцениваются отдельные регрессии для первой и третьей подвыборки. Если предположение о пропорциональности дисперсий отклонений верно, то дисперсия регрессии S1= e12  e42  ...  ek2 будет существенно меньше дисперсии S3= en2k 1  en2k 2  e  ...  en2 . 4.Для сравнения соответствующих дисперсий строится следующая F – статистика: F= S 3 (k  m  1) S 3  . S1 (k  m  1) S1 Здесь (k-m-1) – число свободы, m- количество объясняющих переменных. При сделанных предположениях построенная F – статистика имеет распределение Фишера с числами степеней свободы v1=v2=k-m-1. 113 5. Если F>Fкр(α,v1,v2), то гипотеза об отсутствии гетероскедастичности отклоняется на уровне значимости α. Для множественной регрессии данный тест может осуществляться для каждой из объясняющих переменных. Методы смягчения проблемы гетероскедастичности.  Пусть  i– известное стандартное отклонение случайного члена в наблюдении i. В этом случае можно устранить гетероскедастичности, разделив каждое наблюдаемое значение на соответствующее ему значение дисперсий. Действительно, тогда случайный член в i-м наблюдении становится равным  i /  i и его теоретическая дисперсия D(  i /  i )=D(  i )/  i2 =  i2 /  i2 =1. В этом случае, для получения наилучших оценок применяется метод взвешенных наименьших квадратов (МВНК). Для простоты опишем МВНК на примере парной регрессии yi=β0+β1xi +  i . Разделив обе части уравнений на известное  i получим: y1/  i = β0 /  i + β1xi/  i +  i /  i , (16.1) что может быть переписано так: y1= β0zi+ β1x 1i +υi (16.2) 1 Оценивая регрессионную зависимость y от z и x1 мы получим эффективные оценки для β0 и β1 с несмещенными стандартными ошибками.  Для применения МВНК необходимо знать фактические значения  i , что на практике крайне редко. Следовательно, чтобы применить МВНК необходимо сделать реальные предположения о значении  i . Если: 1) дисперсии  i2 пропорциональны xi, т.е. D(  i )=  i2 = 2 ·xi, то уравнение парной x i в уравнение вида: регрессии преобразуется делением обеих частей на yi / x1   0 / xi   i / xi   i / xi , (16.3) где случайные отклонения υi=  i / xi удовлетворяются условию гомоскедастичности. Действительно, D(υi)=D  i / xi   D i  / xi  2  xi / xi  2  const . Оценив для (16.3) по МНК коэффициенты β0 β1, затем возвращаются к исходному уравнению регрессии; 2) дисперсия  i2 пропорциональны xi2 , то уравнение парной регрессии преобразуется в уравнение вида y / xi   0 / xi  1   i / xi , (16.4) где случайные отклонения υi=  i /xi также удовлетворяются условию гомоскедастичности. Аналогичные подходы возможны и для уравнения множественной регрессии. Предположим, что рассматривается модель вида y= β0+ β1X1+ β2X2+ β3X3+… βmXx+  i . Если D(  i )=  i2 =  2 · k i где  – постоянная дисперсия ошибки при условии гомоскедастичности остатков, то рассматривается модель вида y / k i   0 / k i  1  xi1 / k i   2  k i 2 / k i  ...   m  xim / k i   i / k i . 114 (В предположении, что k i =Xi или k i = i2 , получаем случаи рассмотренные выше для ВМНК парной регрессии). Следует иметь в виду, что новые преобразованные переменные получают при этом новое экономическое содержание и их регрессии имеют иной смысл, чем регрессия по исходным данным. Например, если y- издержки производства, X1 - объем продукции, X2 – основные производственные фонды, X3 - численность работников, тогда уравнение y=β0+β1X1+β2X2+β3X3+Ɛi является моделью издержек производства, с объемными факторами. Предполагая, что 2 2 2 D(Ɛi)=  i =  · xi , т.е.дисперсия пропорциональна квадрату численности работников X3, мы получим в качестве результативного признака затраты на одного работника ( y/x3), а в качестве факторов – производительность труда (x2/x3). Соответственно трансформированная модель имеет вид y / x3   3  1 x1 / x3   2 x 2 / x3  1 , где β1, β2, β3 численно не совпадают с аналогичными параметрами предыдущей модели. Кроме того, коэффициенты меняют экономическое содержание: из показателей силы связи, характеризующих среднее абсолютное изменение издержек производства с изменением абсолютной величины соответствующего фактора на единицу, они фиксируют при ОМНК среднее изменение затрат на работника; с изменением производительности труда на единицу при низменном уровне фондовогруженности труда; и с изменением фондовогруженности труда на единицу при неизменном уровне производительности труда. Линейные регрессионные модели с автокорреляционными остатками. Как отмечалось ранее, важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений  i от значений отклонений, во всех других наблюдениях (предпосылка 30 п.14.1). Отсутствие зависимости гарантирует отсутствие коррелированности между любыми отклонениями (cov(  i ·  j )=0 при i=j) и, в частности, между соседними отклонениями (cov(  i -1,  j )=0 при i=1,2... n). Автокорреляция определяется как корреляция между наблюдаемыми показателями, упорядоченными по времени (временные ряды) или в пространстве (перекрестные данные). Суть автокорреляции поясним на примере: зависимость, отражающая увеличение спроса Y на прохладительные напитки, в зависимости от дохода X по ежемесячными данными может быть представлена линейной функцией y=β0+β1X . Однако фактические точки наблюдений обычно будут превышать линию зависимости в летние периоды и будут ниже еѐ в зимние. Аналогичная картина может иметь место в макроэкономическом анализе с учетом деловой активности. Среди основных причин, вызывающих появление автокорреляции, можно выделить: а) ошибки спецификации (неучет в модели важной объясняющей переменной, неправильный выбор формулы зависимости); б) инерция (многие экономические показатели обладают определенной цикличностью, связанной с волнообразностью деловой активности, переход к новым изменениям происходит не мгновенно, а через определенное время); в) эффект паутины (экономические показатели реагируют на изменение экономических условий с запаздыванием); г) сглаживание данных (данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его подинтервалам). Последствия автокорреляции в основном такие же как и в случае гетероскедастичности (неэффективность оценок параметров, смещение дисперсии оценок и дисперсии регрессии S2 от истинного значения  2 , t – и F – статистики будут неверными). 115 Обнаружение автокорреляции и методы еѐ устранения. В силу неизвестности истинных значений отклонений  i , выводы об их независимости осуществляется на основе оценок еi , полученных из эмпирического уравнения регрессии. Для обнаружения автокорреляции можно воспользоваться следующими методами: а) графический метод (откладывается по оси абсцисс порядковый номер наблюдения j, либо t, а по оси ординат оценки отклонений еi , по расположению точек можно определить наличие или отсутствие автокорреляции остатков). Автокорреляция наглядна, если построить в системе координат еi 1 О еi точки с координатами ( еi -1, еi ); б) метод рядов (последовательно определяют знаки отклонений еi , и, если последовательность одинаковых знаков – рядов слишком мало по сравнению с количеством наблюдений n, то вполне вероятна положительная автокорреляции. Если же рядов слишком много, то вероятна отрицательная автокорреляция); в) критерий Дарбина-Уотсона. (метод определения автокорреляции на основе статистики DW рассмотрен в §15.2). В линейной регрессионной модели (либо в моделях, сводящих к линейной) для устранения автокорреляции можно воспользоваться авторегрессионным преобразованием первого порядка AR(1). Для простоты изложения AR(1) рассмотрим модель парной регрессии y=β0+β1x+  . Тогда наблюдениям i и i-1 соответствуют формулы: y=β0+β1xi+  i, y i-1= β0+β1x i-1+  i-1. (16.5) Предположим, что отклонения  i подвержены воздействию авторегрессии первого порядка AR(1), т.е. случайные отклонения  i определяются по итерационной схеме  i=ρ·  i-1+υi, где υi – случайные отклонения, а коэффициент ρ известен. В этом случае, исходя из (16.5) можно записать: y i  y i 1   0 (1   )  1 ( xi  xi 1 )  ( 1   i 1 ) . (16.6)   После соответствующих обозначений получим: yi   0  1 xi  1 . Так как по предположению ρ известен, то очевидно, yi , xi ,1 вычисляются достаточно просто и в силу того, что υi удовлетворяются предпосылкам МНК оценки  0 и  1 будут обладать свойствами наилучших линейных несмещенных оценок. Однако на практике значение коэффициента ρ обычно неизвестно, поэтому его необходимо оценивать. Для оценки ρ существуют несколько методов: a) метод Дарбина-Уотсона (в качестве оценки коэффициента p можно быть взять коэффициент корреляции    (еi , еi 1 )  1  DW / 2) . (см.15.27) б) метод Кохрана-Оркатта: 1) оценивается по МНК регрессии y=β0+β1X+  и для неѐ определяются оценки  i; 2) с использованием схемы AR(1) оценивается регрессионная зависимость  i= ~  i-1+υi , ~ известная оценка  . 3) строится уравнение y- ~ yi-1=  1  ~     i  ~ i 1    i  ~ i 1  , с помощью которого оцениваются коэффициенты α и β; 4) значение  0   (1  ~) и β1=β подставляются в уравнение y= β0+β1x+  и вновь вычисляются оценки  i отклонений; 5) процесс повторяется до тех пор, пока разность между предыдущей и последующей оценками ρ не станет меньше любого наперед заданного числа. 116 в) метод Хилдрета-Лу: По этому методу регрессии (16.5) оцениваются для каждого возможного значения ρ из отрезка [-1,1] с любым шагом. Величина ~ , дающая наименьшую стандартную ошибку регрессии, принимается в качестве ρ, и значения β0и β1 оцениваются из уравнения регрессии (16.5) именно с данным значением ~ . 21 1652 1855, 5 0,0 1855, 5 20 282 327,8 15,1 342,9 19 157 180,5 29,0 209,5 18 149 171,0 -14,9 156,1 17 132 150,6 151,0 -0,4 16 125 142,7 -28,5 114,2 15 115 131,0 31,9 99,1 14 112 127,4 -5,4 122,0 13 106 120,4 12,0 132,4 12 95 107,4 -19,1 88,3 11 79 88,5 2,0 90,5 10 74 82,6 22,0 68,6 66,1 2,5 104,6 9 8 53,2 -4,5 48,7 49 60 7 39 41,4 -3,9 37,5 6 23 28,8 22,5 6,3 5 -3,5 19,0 15,5 20 4 18 16,6 4,2 20,8 3 8 4,9 8,0 12,9 2 6 2,5 еi 5,6 8,1 1 3 -1,0 4,4 ŷ i 5,4 yi xi № Пример. Имеется информация о поступлении доходов в бюджет некоторой республики (yтыс.руб.) в зависимости от численности работающих на крупных и средних предприятиях (Xтыс.руб.) Последние две строчки таблицы заполнены в соответствии с уравнением регрессии ŷ=4,565+1,178х, построенным по МНК. Необходимо: 1) по тесту Гельфельда-Квандта проверить наличие гетероскедастичности на 5% и 1% уровнях значимости; 2) проверить наличие или отсутствие автокорреляции остатков. Решение. 1) Pазбивая упорядоченные по величине xi 20 наблюдений на три подвыборки размерностей k1=8, k2=20-16=4 и k3=8, по МНК построим уравнения регрессии по первым восьми и третьим восьми данным. Они имеют следующий вид: (читателям рекомендуется получить эти уравнения самостоятельно). 1 группа: ŷ=2,978+0,921х, третья группа: y=31,142=1,338х 2 2 2 При этом дисперсии регрессий s1= e2  e22  ...  e82 =68,34, s3= e13 =2638,40.  e14  ...  e20 Для сравнения соответствующих дисперсий строим Fстатистику: s3  (k  m  1) s3  (8  1  1) 2638 ,40    19,3 F=. s1  (r  m  1) s1  (8  1  1) 68,34 По таблице значений F-критерия Фишера (см. приложения) получим Fкр(0,05, 6,6)=4,28 и Fкр(о,01, 6,6)=8,47. Так как в обоих случаях F>Fкр, то гипотеза об отсутствии гетероскедастичности отклоняется на 5% и 1% уровнях значимости. 2) коэффициент автокорреляции остатков может быть найден по следующим рядам данных: еi 5,6 8 еi 1 5,4 5,6 8 4,2 -3,5 6,3 4,2 …. -14,9 29,0 -3,5 …. -0,4 15,1 -14,9 29,0 cov( еi , еi 1 )= еi  еi 1  еi  еi 1 =924,99:19-(-0,2842)·(-0,7947)=48,4578. Дисперсии s( еi )=15,1347, s( еi 1 )=14,7663. Тогда коэффициент корреляции  ( еi , еi 1 )= cov( еi , еi 1 ): s( еi )·s( еi 1 )≈0,2168. Статистика DW≈2(1-  ( еi , еi 1 )=2(1-0,2168)=1,5664. По таблице распределения ДарбинаУотсона при 5% уровне значимости (α=0,05), объеме выборки n=20 и (m=1), критические точки d1=1,201, dn=1,411. Так как 1,411<1,5664<4-1,411, то сделаем вывод об отсутствии автокорреляции 117 остатков. (читателям рекомендуется проверить отсутствие автокорреляции графическим методом и методом знаковых рядов). Задачи к лекциям 9-10. 16.1. При анализе зависимости средней заработной платы Y(у.е.) от средней производительности X получены следующие данные, включающие стандартные отклонения  i: xi 92 86 80 84 86 90 96 98 100 108 110 yi 32 36 40 42 40 42 44 45 46 48 50  i 7 8 6 8 9 11 12 13 14 11 15 а) Постройте уравнение регрессии y=b0=b1хi+ еi , используя обычный МНК. б) Постройте уравнение регрессии y i /  i  b0 /  i  b1 x1 /  i  еi /  i в) Сравнив полученные результаты, выберите предпочтительное уравнение и поясните свой выбор. 16.2. Выдвигается предположение, что средняя заработная плата (з/п) y служащих пропорциональна их стажу х. Получены следующие статистические данные x 4 8 12 18 22 26 32 36 y 10 12 14 18 25 29 32 34 а) В предположении, что дисперсия отклонений постоянна постройте эмпирическое уравнение регрессии. б) Оцените качество этого уравнения. в) Есть ли основании считать, что имеется гетероскедастичность? г) Предполагая, что дисперсия отклонений пропорциональна стажу, по методу ВНК на основании тех же данных постройте соответствующее уравнение регрессии. д) Постройте уравнение регрессии, предполагая, что дисперсия отклонений пропорциональна квадрату величины стажа. е) Сравните результаты и выберите наиболее реалистичное предположение относительно дисперсии отклонений. 16.3. В следующей таблице даны наблюдения для анализа зависимости экономических факторов x и y x 4 9 6 5 4 8 10 4 6 7 6 4 9 3 7 y 3 1 2 2 5 1 1 2 1 2 3 7 2 4 1 а) Оцените уравнение регрессии y=β0+β1X+  . б) Постройте 95%-й доверительный интервал для коэффициента β1. в) Оцените качество построенного уравнения. г) Вычислите статистику DW и на еѐ основе определите наличие автокорреляции. д) Проверьте наличие автокорреляции графическим способом и методом рядов. е) Переоцените модель, используя для этого авторегрессионную схему первого порядка AR(1). ж) Постройте новый 95% доверительный интервал для β1. Сравните его с предыдущим интервалом. и) Прокомментируйте результаты. 16.4. Анализируя зависимость предельных издержек (y) от объема выпуска (х) по однородным фирмам получена следующая таблица статистических данных x 2 2 3 3 4 4 5 5 6 6 7 7 y 4,5 5,5 1,5 3 0,5 2 1,5 2,5 3,5 5 8,5 11 а) Оцените уравнение регрессии y=β0+β1X+  и качество построенного эмпирического уравнения регрессии. б) Определите наличие автокорреляции остатков. в) Оцените уравнение квадратичной регрессии y=β0+β1X+ β2x2+  и качество построенного уравнения. д) Определите наличие автокорреляции остатков для построенного квадратичного уравнения регрессии. е) Прокомментируйте результаты. 118 Лекции 11-12. Некоторые модели и методы регрессионного анализа, выходящие за рамки ОКММР. Ещѐ одной проблемой при построении моделей множественной линейной регрессии по МНК является мультиколлианеарность – линейная взаимосвязь двух или нескольких объясняющих переменных. Эта зависимость может проявляться в функциональной форме или между хотя бы двумя объясняющими переменными существует корреляционная связь. Последняя характеризуется высоким коэффициентом корреляции соответствующими объясняющими переменными. Суть мультиколлинарности поясним на следующем примере. Пусть уравнение регрессии имеет вид y=β0+β1x1+ β2x2+  (17.1) Предположим, что x2=α0+α1 x1. Подставив последнее в уравнение (17.1) получим уравнение парной регрессии y=a+bx1+  , где a=β0+ β1α0, b=β1+ β2α0. По МНК можно определить коэффициенты a и b. Но тогда для определения коэффициентов исходного уравнения регрессии получаем систему двух уравнений с тремя неизвестными β0,β1,β2. Такая система имеет бесконечно много решений, следовательно мультиколлинеарность не позволяет однозначно определить коэффициенты уравнения (17.1) и разделить вклады переменных x1 и x2 в их влиянии на независимую (объясняемую) переменную y. Другой подход разъяснения сути мульколлинеарности состоит в исследовании матрицы Xт X (см. §15). Если, например, между x1 и x2 существует функциональная связь, то матрица Xт X содержит линейно зависимые векторы-столбцы и еѐ определитель равен нулю. Это приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели. В случае корреляционной связи определитель матрицы Xт X очень мал. Так как вектор оценок b и его ковариационная матрица пропорциональны обратной матрице (Xт X)-1 (см. §15), а значит их элементы обратно пропорциональны величине определителя | Xт X |. В результате получаются значительные средние квадратичные отклонения коэффициентов регрессии и оценка их значимости по t- критерию Стьюдента не имеет смысла. Уравнение регрессии в этом случае не имеет реального смысла, следовательно, необходимо найти методы обнаружения и устранения (или уменьшения) мультиколлинеарности. Обнаружение мультиколлинеарности и методы еѐ устранения. Точных количественных критериев для обнаружения мультиколлинеарности не существует. Рассмотрим несколько признаков, по которым может быть установлено наличие мультиколлинеарности. 1. Коэффициент детерминации R2 достаточно высок, но некоторые из коэффициентов регрессии статистически незначимы, т.е. имеют низкие t – статистики. 119 2. При анализе корреляционной матрицы R00=||rij||, где rij – эмпирические парные коэффициенты корреляции между всевозможными парными объясняющих переменных x1, x2… xm, некоторые пары переменных имеют высокие (обычно больше 0,8) коэффициенты R, тем меньше мультиколлинеарность факторов. 3. Если переменные коррелируют друг с другом, то на значения коэффициента корреляции частично связывается влиянием других переменных. В связи с этим часто возникает необходимость последовать частную корреляцию между двумя переменными при исключении влияния других переменных. Частный коэффициент корреляции между переменными xi, xj при фиксированных значениях остальных m-2 переменных определяется по формуле. rij,1,2,…m=  qij / qii  q jj , (17.2) где qij и qjj – алгебраические дополнения элементов rij и rjj корреляционной матрицы R00=|| rij ||. В частности, в случае трех переменных rij,k= (rij  rik  r jk ) / 1  rik2 1  r jk2  (17.3) Пусть, например r12=0,5, r13=0,5, r23=-0,5, тогда r12,3= r12  r13  r23 1  r 1  r  2 13 2 23 = 0,5  0,5 0,5 1  0,251  0,25 = 0,75  1. 0,75 Отсюда следует, что при относительно невысоком коэффициенте корреляции r12 частный коэффициент корреляции r12,3=1 указывает на высокую зависимость (коллинеарность) между переменными x1, и x2. Следовательно, для более обоснованного вывода о корреляции между парами объясняющих переменных необходимо рассчитывать частные коэффициенты корреляции. Высокие частные коэффициенты корреляции являются признаком мультиколлинеарности. (Заметим, что | rij,1,2,…m|≤1, кроме того rij,1,2,…m на основе выборки n имеет такое же распределение, как и rij ,вычисленный по n  =n-m+2 наблюдениям. Поэтому значимость коэффициента частной корреляции оценивают также как и обычного коэффициента корреляции, но при этом предполагают, что n  = n- m+2). 4.Мультиколлинеарность может иметь место, если какая-либо из объясняющих переменных является линейной комбинацией других. Поэтому, для анализа строятся уравнения регрессии каждой из объясняющих переменных xj (j=1,2,… m) относительно других. Наличие высокого множественного коэффициента детерминации Rj (обычно больше 0,6) свидетельствует о наличии мультиколлинеарности; или рассчитывается их статистическая значимость на основе F- статистика: F j  R 2j (n  m) /(1  R 2j ) /( m  1) Статистика Fj имеет распределение Фишера с ν1=m и ν2=n-m степенями свободы. Если коэффициент R 2j значим, то имеет место мультиколлинеарность. 120 Методы устранения мультиколлинеарности. 1. Метод исключения переменной(ых) из рассмотрения. Из двух объясняющих переменных, имеющих высокий коэффициент корреляции, одну переменную исключают из модели. При этом какую переменную оставить, какую удалить решают исходя из практических (экономических) соображений. Если при этом, нельзя отдать предпочтение ни одной из переменных, то оставляют ту переменную, которая имеет большой коэффициент корреляции с зависимой переменной. Для характеристики относительной силы влияния переменных xi на y сравнивают средние коэффициенты эластичности Э xy= b j  x j / y . 2. Метод получения новой выборки. Поскольку мультиколлинеарность зависит от выборки, то, возможно при другой выборке мультиколлинеарность не будет, либо она не будет столь серьѐзной. 3. Метод преобразования переменных. Пусть эмпирическое уравнение регрессии имеет вид Ŷ=b0+b1x1+b2x2 причем x1 и x2 – коррелированные переменные. Тогда, если определить вновь регрессионные зависимости относительных величин yˆ / x1  b0  b1 x2 / x1 или yˆ / x2  b0  b1 x1 / x2 , то вероятно мультиколлинеарность будет отсутствовать . 4. Метод использования наиболее существенных объясняющих переменных в регрессивной модели. Данный метод состоит из пошаговых процедур отбора наиболее информативных переменных. На 1 шаге рассматривается лишь одна объясняющая, имеющая с Y наибольший коэффициент детерминации. На втором шаге включается в регрессию новая объясняющая переменная, которая вместе с первоначально отобранной образуют пару, имеющую с Y наиболее высокий (скорректированный) коэффициент остерминации R 2 . На третьем шаге вводится в регрессию ещѐ одна переменная, которая вместе с двумя отобранными образуют тройку объясняющих переменных, имеющую с Y наибольший коэффициент детерминации и т.д. Процедура введения новых переменных продолжается до тех пор, пока будет увеличиваться соответствующий скорректированный коэффициент детерминации 2 R 2 . Напомним, что скорректированный коэффициент детерминации R 2 =1-(1-R )(n1)/(n-m-1), где R2 вычисляется с помощью коэффициентов корреляции по формуле: R2= R2(y1,2…m)=1- Riy / R00 , (17.4) где Riy - определитель матрицы Riy (см.15.14), а R00 – алгебраическое дополнение элемента z00=1 матрицы Riy . Пример. Пусть по данным n=20 исследуется зависимость переменной Y от пяти факторов x 1, x2, x3, x4, x5 и выборочное уравнение регрессии имеет вид: Ŷ=3,515 - 0,006x1 + 15,542 x2 + 0,110 x3 + 4,475 x4-2,932 x5 (5,41) (0,60) (21,59) (0,85) (1,54) (3,09) (В скобках указаны стандартные ошибки (СКО) S(bi)коэффициентов bi). В случае обнаружения мультиколлинеарности принять меры по еѐ устранению, используя пошаговую процедуру отбора наиболее информативных переменных. 121 Решение. Сравнивая значения t- статистики каждого коэффициента по формуле t(bi)= bi/ S(bi) с критическим значением t(α, n-m-1)= t(0,05,14)=2,14, значимым окажется только b4 . Пусть, рассчитанная по выборке матрица парных коэффициентов корреляции имеет вид: 1,00 0,43 0,37 0,40 0,58 0,33     0,43 1,00 0,85 0,98 0,11 0,34   0,37 0,85 1,00 0,88 0,03 0,46   Riy=   0,40 0,98 0,88 1,00 0,03 0,28   0,58 0,11 0,03 0,03 1,00 0,57     0,33 0,34 0,46 0,28 0,57 1,00    Вычисленный по формуле (17.4) R2(y,1,2,3,4,5)=0,517, т.е. 51,7%, вариации переменной y объясняется включенными в модель пятью объясняющими переменными. Так как фактическое значение F=R2(20-m-1)/(1-R2)·m=0,517·14/(1-0,517)·5=3 больше табличного F(0,05,5,14)=2,96, то уравнение регрессии значимо на уровне α=0,05. Но анализируя матрицу парных коэффициентов корреляции можно заметить тесную корреляционную связь между переменными x1 и x2 (r12=0,85), x1 и x3 (r13=0,98), x2 и x3 (r23=0,88), что свидетельствует о мультиколлинеарности объясняющих переменных. Для устранения мультиколлинеарности применим процедуру пошагового отбора наиболее информативных переменных. 1 шаг. Из объясняющих переменных выделим x4, имеющий с Y наибольший коэффициент детерминации R2(y4)= ry24 =0,582=0,336. Тогда скорректированный коэффициент детерминации R 2 =1-19(1-0,336)/18=0,299. 2 шаг. Вычислить последовательно R2(y41), R2(y42), R2(y43) и R2(y45) обнаруживаем, что наибольшим из них является R2(y43)=0,483. Следовательно, R 2 =1-19(1-0,483/17=0,422. 3 шаг. Среди всевозможных троек объясняющих переменных (x4, x3, x1) (x4, x3, x2) (x4, x3, x5) максимальный коэффициент детерминации R2(y435)=0,517 и соответственно R 2 =1-19(10,517)/16=0,422. (Читателю рекомендуется самостоятельно вычислить коэффициенты детерминации, рассмотренные выше). Так как R 2 на 3-м шаге не изменился, то в регрессионной модели достаточно ограничиться лишь двумя объясняющими переменными x4 и x3. Рассчитанное по этим переменным уравнение регрессии имеет вид: ŷ=7,29 + 3,48x3 + 3,48x4 (0,66) (0,13) (1,07). Все коэффициенты регрессии значимы, т.к. t-статистики t(b0)=7,29/0,66=11,0, t(b2)=3,48/0,13=26,8, t(b3)=3,48/1,07=3,25 больше табличного значения t(0,05,17)=2,11. Замечание: Если уравнение регрессии в стандартизированном масштабе имеет вид: Z(y)=β 1 Z(x1)+ β2+(x2)+….+ βmZ(xx)+ε, где Z(y)=(y- y )/  y, Z(xi)=( x i- xi )/  xi, то коэффициент множественной детерминации можно вычислить по формуле R2(y123….m)=β1·  y1+β2  y2+….+βmrym. (17.5) Линейные регрессионные модели с переменной структурой. Фиктивные (структурные) переменные.  В регрессионных моделях в качестве объясняющих переменных часто приходится использовать не только количественные, но и качественные переменные. Например, спрос на некоторые благо может определяться ценой данного блага, ценой на знаменатели блага, доходом потребителей и.т.д. (эти показатели определяются численно), но и от вкусов потребителей, их ожиданий, национальных и религиозных 122 особенностей и т.д. (эти показатели представить в численном виде нельзя). Возникает проблема отражения в модели влияние и качественных переменных на исследуемую величину. Но качественные признаки могут существенно влиять на структуру линейных связей между переменными и приводить к скачкообразному изменению параметров регрессионной модели. В этом случае говорят об исследовании моделей с переменной структурой или построении моделей по неоднородным данным. Обычно в моделях влияние качественного фактора выражается в виде фиктивной (структурной) переменной, который отражает два противоположных состояния качественного фактора. В этом случае фиктивная переменная может выражаться в двоичной форме: 0, фактор не действует 1, фактор действует D=  Например, D=0 – если потребитель не имеет высшее образование; или в обществе имеются инфляционные ожидания. D=1 – если потребитель имеет высшее образование; или в обществе инфляционных ожиданий нет. Переменная D называется фиктивной (искусственной, двоичной) переменной (индикатором). Регрессионные модели, содержащие лишь качественные объясняющие переменные, называются ANOVA – моделями (моделями дисперсионного анализа). Модели, в которых объясняющие переменные носят как количественный (Xi), так и качественный (Di) характер, называются ANCOVA – моделями (моделями ковариационного анализа). Например: 1) При модели типа ANOVA зависимость можно выразить моделью парной регрессии y=β0+γD+  . Ясно, что M(y/D=0)= β0+γ·0=β0, M(y/D=1)= β0+γ·1=β0+γ, где, например, y – начальная заработная плата, 0, если претендент не имеет высшее образование 1, если претендент имеет высшее образование D=  Коэффициент β0- средняя начальная зарплата при отсутствии высшего образования. Коэффициент γ указывает, на какую величину отмечаются средние начальные заработные платы при наличии и при отсутствии высшего образования. 2) Пусть теперь, y - зарплата сотрудника фирмы, x – стаж сотрудника, D- пол сотрудника, т.е. 0, если сотрудник  женщина D 1, если сотрудник  мужчина Тогда зависимость можно выразить следующей моделью типа ANCOVA с одной количественной переменной при наличии у фиктивной переменной двух альтернатив: y=β0+β1x +γD+  . (17.6) Ожидаемое значение зарплаты сотрудников при x-годах стажа будет M(Y(x, D=0)=β0+ β1x для женщин, M(Y(x, D=1)=β0+β1x+γ=(β0+γ)+ β1x – для мужчин Заработная плата в данном случае является линейной функцией от стажа работы. Проверив с помощью t- статистики значимость коэффициентов β0 и β0+γ можно определить, имеет ли место дискриминации по половому признаку. Если эти 123 коэффициенты будут значимыми, то дискриминация есть, т.к. при γ>0 она будет в пользу мужчин, при γ<0 – в пользу женщин.  Возникает вопрос, нельзя ли с помощью большого числа фиктивных переменных обрисовать более сложные комбинации? Например, пусть Y=β0+β1X+γ1D1+γ2D2 +  , где (17.7) 0, если сотрудник женщина 0, если сотрудник мужчина D1   D2   1, если сотрудник мужчина 1, если сотрудник женщина Но в этой ситуации между переменными D1 и D2 существует строгая линейная зависимость D1=1- D2 , т.е. имеет место мультиколлинеарность, при которой коэффициенты уравнения регрессии не могут быть определены. Чтобы избежать этого необходимо соблюдать следующее правило: число вводимых бинарных фиктивных переменных должно быть на единицу меньше числа альтернативных значений качественной переменной. Естественно, что техника фиктивных переменных может быть распространена на произвольное число качественных факторов. Для простоты рассмотрим ситуацию с двумя качественными переменными. Пусть y – зарплата сотрудников, x- стаж работы, D1- наличие высшего образования (в/о), D2- пол сотрудника: 0, сотрудник женщина D1   1, сотрудник мужчина 0, нет в / о D2   1, есть в / о Таким образом, получим следующую модель:y=β0+β1X+γ1D1+γ2D2+  . Из этой модели выводятся следующие регрессионные зависимости: M(y/D1=0, D2=0)= β0+β1X – средняя зарплата женщин без в/о. M(y/D1=0, D2=1)=(β0+γ2)+β1X – средняя зарплата женщин с в/о. M(y/D1=1,D2=0)=(β0+γ1)+β1Xср.зарплата мужчин без в/о. M(y/D1=1, D2=1)=(β0+γ1+ γ2)+ β1X – ср.зарплата мужчин с в/о. Все регрессии отличаются лишь свободными членами и дальнейшее определение статистической значимости Y1 и Y2 позволяет убедиться, влияет ли образование и пол сотрудников на зарплату.  Рассмотренные выше модели отражали влияние фиктивных переменных только на значения переменной y, т.е. на свободный член уравнения регрессии. В более сложных моделях может быть отражена зависимость фиктивных переменных на сами параметры при зависимых переменных модели. Например, такая регрессионная модель примет вид: y=β0+β1X+γ1D1X+γ2D2X +  . Такого типа модели используются, например, при исследовании зависимости объема потребления Y от дохода потребителя X, когда фактор сезонности (качественный признак) влияет лишь на количество потребляемого продукта (свободный член уравнения регрессии), а уровень доходности влияет на параметр при X, интерпретируемой как «склонность к потреблению». Пример. Исследуется зависимость между результатами письменных вступительных и курсовых (на 1 курсе) экзаменов по математике. Получены следующие данные о числе решенных задач на вступительных экзаменах X и курсовых экзаменах Y 12 студентов, а также распределение этих студентов по фактору «пол». Необходимо построить линейную регрессионную модель Y по X с использованием фиктивной переменной по фактору D «пол»: 1, студент  юноша D 0, студент  девушка 124 № Xi Y Z 1 10 6 1 2 6 4 0 3 8 4 1 4 8 5 0 5 6 4 0 6 7 7 1 7 6 3 0 8 7 4 1 9 9 7 1 10 6 3 0 11 5 2 1 12 7 3 0 Решение: Рассчитанное по МНК уравнение парной регрессии Y по X имеет вид: ŷ=1,437+0,815х. Коэффициент детерминации R2=∑(yi- y )2/∑( yi- y )2=0,53. Следовательно, 53% вариации переменной Y обусловлено регрессией. Уравнение регрессии значимо по F – критерию, т.к. F=9,46 больше, чем табличное значение F(0,05; 1; 10)=4,96. Полагая, что фактор «пол» может сказаться только на числе решенных задач (свободном члене), регрессии рассмотрим модель типа y=β0+β1X+β2D2+  или общую регрессионную модель y=βX+  с общей матрицей плана T 1 1 1 1....1 1    X  10 6 8 8....5 7  1 0 1 0....1 0    T -1 T По формуле b=(X X) ·X ·Y находим вектор оценок параметров регрессии и получим выборочное уравнение множественной регрессии ŷ=1,165 + 0,743x + 0,466z (2,410) (0,053) (0,405) Коэффициент детерминации R2(x y z)=0,549. Уравнение регрессии значимо на 5% уровне, т.к. F=5,48 больше, чем табличное F(0,05; 2; 9)=4,26. Из уравнения регрессии следует, что при этом же числе решенных задач на вступительных экзаменах X, на курсовых экзаменах юноши решают в среднем на 0,466≈0,5 задачи больше. Однако коэффициент регрессии при фиктивной переменной оказывается незначим по t- критерию (t=0,466/0,405=1,15 меньше tкр(0,95; 9)=2,26). Следовательно, можно считать, что регрессионная модель одна и та же для юношей и девушек. Сравнение двух регрессий. Критерий Г.Чоу. Как было отмечено выше, изменение качественного фактора может привести к изменению как свободного члена уравнения регрессии, так и параметров при независимых переменных (т.е. изменяется наклон прямой регрессии). Обычно это характерно для временных рядов экономических данных при изменении институциональных условий, введением новых правовых и налоговых отношений. (Например, можно предположить, что до некоторого года в стране обменный курс валют фиксированным, а затем плавающим. Или налог на ввозимые автомобили был одним, а затем он существенно изменился и т.д.). В этом случае может быть предложена модель yt= β0+β1Xt+γ1Dt+γ2DtXt +  t, где 0, до изменения институционных условий Dt   1, после изменения институционных условий (17.8) Следовательно, у эконометриста имеются две выборки пар значений (xi, yi) одна выборка объемом n1, полученная при одних условиях, а другая, объемом n2 – при несколько измененных условиях. Необходимо выяснить имеет ли смысл разбить выборку объема n= n1+n2 на части и строить для каждой из них уравнение регрессии (т.е. фактически строить сложную регрессию с фиктивными переменными), либо можно ограничиться общей «обыкновенной» регрессией для всех точек наблюдений. 125 Для выяснения этих вопросов применяется, так называемый, критерий Чоу. Суть теста Чоу состоит в следующем: 1.Пусть S0=∑ е i2 - сумма квадратов отклонений yi от общего уравнения регрессии объема выборки n; 2) Обозначим через S1 и S2 – суммы квадратов отклонений yi каждой из выборок объемов n1 и n2, соответственно; 3) Составляем Fстатистику вида F= S 0  S1  S 2 n  2m  2  , которая имеет распределение Фишера с S1  S 2 m 1 числами степеней свободы γ2=m+1 и γ2=n-2m-2, где m – число количественных объясняющих переменных в уравнениях регрессии; 4) Тогда, если Fкр= F(α, m+1; n-2m-2), при выбранном уровне значимости α, окажется больше, чем Fнабл., то считается, что различие между S0 и S1+ S2 статистически незначимо и нет смысла разбить уравнение регрессии на две части. В противном случае разбиение на подинтервалы целесообразно. Например, по данным примера, рассмотренным в §17.3 используя критерий Чоу, выясним, что линейная регрессия Y по X одна и та же для юношей и девушек. Действительно, уравнения регрессий, построенные по n1=6 парам наблюдений для юношей – (10; 6), (8; 4), (7; 7), (7; 7), (7; 4), (9; 7), (5; 2) и по n2=6 парам наблюдений для девушек – (6; 4), (8; 5), (6; 4), (6; 3), (6; 3), (7; 3) имеют вид ŷ=-1,00+0,783x (для 1-й выборки) ŷ=-0,048+0,571x (для 2-й выборки). Построенный по всем n=n1+n2=12 парам наблюдений уравнение регрессии имеет вид ŷ=1,437+0,815x. Вычислив значения S0, S1, S2 составляем F- статистику. В нашем случае, Fнабл.=0,21, меньше критического значения F(0,05, 2, 8)=4,46. Следовательно, влияние фактора «пол» несущественно и в качестве оценки регрессионной модели можно рассмотреть уравнение регрессии, полученное по объединенной выборке. Лекция 13. Нелинейные регрессионные модели. Многие экономические зависимости не являются линейными по своей сути, поэтому их моделирование линейными уравнениями регрессии не дает положительного результата. Например, нелинейными оказываются производственные функции (зависимость объема произведенной продукции и основных факторов производства – труда и капитала), функции спроса (зависимость спроса на товары от их цен или от дохода), функции издержек производства от объема выпуска и многие другие. Наиболее типичными представителями вышеуказанных моделей, соответственно, являются: производственная функция Кобба-Дугласа y=AKα·Lβ, где y – объем выпуска, K и L – затраты капитала и труда, α и β – параметры модели; функция Энгеля y=AXβ, где y- спрос на блага, X – цена блага при β<0 или доход при β>0, A и β – параметры модели, y= β0+β1X + β2X2 + β3X3, где y – общие издержки производства, X- объем выпуска βi, i=0,3 – параметры модели, квадратичная функция y= β0+β1X+ β2X2 может отражать зависимость между объемом выпуска X, и средними или предельными издержками. Модели нелинейные по переменным введением новых переменных можно свести к линейным моделям и для оценки параметров можно использовать обычный МНК. Так, например, заменяя X на X1, X2 на X2,X3 на 126 X3 вместо нелинейной модели зависимости производства от объема выпуска получаем модель множественной линейной регрессии y= β0+β1X1+β2X2+β3X3+  . Заметим, что непосредственное применение МНК для оценки параметров β0, β1, β2 квадратичной регрессии y=β0+β1X+β2X2+  приводит к следующей системе линейных уравнений: b0  b1 x  b2 x 2  y   2 3 b0 x  b1 x  b2 x  xy  2 3 4 2 b0 x  b1 x  b2 x  x y  Более сложной является нелинейность модели по параметрам. К числу моделей можно отнести, например, мультипликативную (степенную) модель функции Кобба-Дугласа Y=AKα·Lβ·  . Показатели α и β являются коэффициентами частной эластичности объема производства y соответственно по затратам капитала K и труда L. Это означает, что при увеличении одних только затрат капитала (труда) на 1% объем производства увеличится на α% (β%). (Напомним, что для функции двух переменных z=f(x,y) y z x z эластичность Ex(z)=  z 1x , Ey(z)=  z 1x ). Модель функции Кобба-Дугласа легко свести линейным путем логарифмирования обеих частей. Тогда для i-го наблюдения получим LnY=LnA+αLnK+βLnL+Ln  . Если в модели α+β=1, то функцию Кобба-Дугласа можно представить в виде y / L  (k / L)  и путем логарифмирования приводим еѐ к линейному виду Ln(Y/L)i=LnA+αLn(K/L)i+Ln  i, (17.9) где (Y/L)- производительность труда, (K/L)- капиталовооруженность.  В модели функции Энгеля y=AXβ коэффициент β также определяет эластичность Y по X. Прологарифмируя дважды обе части функции Энгеля получаем Lny=LnA+βLx  1  y1x    1    y1x  x   x ( y) . y x y Приведем примеры ещѐ нескольких моделей, применяемых в экономике.  Рассмотрим зависимость хорошо известную в банковском и финансовом анализе yt=y0(1+r)t, где y0- начальная величина переменной Y (например, первоначальный вклад в банке); r- сложный темп прироста величины Y( процентная ставка) yt - значение Y в момент времени t (вклад в банке в момент времени t). Обозначив Lny0=β0, Ln(1+r)=β модель сводится к полулогарифмической модели Ln yt= β0+βt+  t Коэффициент β в модели имеет смысл темпа прироста Y, т.е. характеризует отношение относительного изменения Y(dy/dt) к абсолютному изменению переменной t(dt). Умножив β на 100, получим процентное изменение переменной Y (темп прироста переменной Y). В связи с этим полулогарифмическая модель обычно используется для изменения темпа прироста экономических показателей. Заметим, что темп прироста r показателя Y равен е  -1.  Рассмотрим линейно-логарифмическую модель y=β0+βLnX+  , который сводится к линейной заменой Xx=LnX. Продифференцируя обе части имеет 127 dy 1 dy dx . Умножив последнее соотношение на 100, получим     dy   dx x dx / x x абсолютный прирост Y при процентном изменении X, т.е. если относительное изменение X равно 1% (0,01), то Y изменяется на 0,01 β. Например, если Y- валовой национальный продукт, а X – денежная масса, то из модели y=β0+βLnX+  следует, что, если увеличить предложение денег на 1%, то ВНП в среднем вырастет на 0,01 β.  Кривая Филипса, отражающая зависимость между уравнением безработицы (X) в процентах и процентном изменением заработной платы (Y) характеризуется обратной моделью вида y=β0+β1/X+Ɛ, β0<0, β1>0, которая сводится линейной модели заменой X*=1/X. При этом точка пересечения кривой с OX определяет естественный уровень безработицы. Задачи к лекциям 11-13. 17.1.Имеется выборка из 10 наблюдений за переменными X1, X2, Y: X1 1 2 3 4 5 6 7 8 9 10 X2 1 1,6 2,2 2,8 3,4 4 4,6 5,2 5,6 6,2 Y 0 3 6 9 12 15 18 21 24 27 а) Можно ли по этим данным по МНК оценить коэффициент регрессии с двумя объясняющими переменными? б) В случае отрицательного ответа на вопрос а) предложите преобразования, которые позволят оценить коэффициенты регрессии. 17.2. При выборе объема n=50 для X1, X2, X3 построена следующая корреляционная матрица: 0,45  0,35  1,0   Rij   0,45 1,0 0,52    0,35 0,52 1,0    а) Найдите и оцените статистическую значимость частных коэффициентов корреляции r 12,3, r23,1, r13,2. б) При рассмотрении какой регрессии будет иметь место мультиколлинеарность? 17.3. Имеются данные из 30 наблюдений за переменными Y (среднедневной душевой доход), X1 (среднедневная зарплата одного работника) и X2 (средний возраст безработного). y  86,8,  y=11,4, x1  11,4 ,  х1=5,86, x2  33,5 ,  х2=0,58,  y1=0,8405  y2=-0,2101,  12=-0,1160. Требуется построить уравнение множественной регрессии в стандартизованной и естественной формах, рассчитать средние частные коэффициенты эластичности и выяснить относительные силы влияния X1, X2 на Y. 17.4. Даны средние значения, СКО и корреляционная матрица потребления некоторого продукта Y в зависимости от уровня доли городского населения X1, относительного образовательного уровня X2 и относительного заработка X3 для девяти районов: x3  24,42 , x2  10,62 , y  167,07 x1  41,85 , S1=4,176, S2=0,7463, S3=7,928 S=12,645 0,802 0,770  0,629  1   0,684  0,616   0,802 1 Riy=  0,770 0,684 1  0,173      0,629  0,616  0,173  1   Используя пошаговую процедуру отбора наиболее информативных объясняющих переменных, определить подходящую регрессионную модель, исключив при этом мультиколлинеарность. Оценить значимость коэффициентов регрессии, полученной модели. 17.5. При построении линейной зависимости расходов на одежду (Y) от дохода (X) по 10 выборке для 10 женщин получены следующие данные:  x1  110 , 1 10 x 2 1 1  1540 , 10 y i  60 , 1 128 10 5  yi2  448 . Аналогичные вычисления по выборке из 5 мужчин дали:  xi  35 ,  xi  yi  828 , 1 5 y 1 i  15 , 1 5 x i  yi  140 , 1 5 y 2 i  61 . При общей (объединенной) выборке оценена регрессия с 1 использованием фиктивной переменной z(z=1 для мужчин, z=0 для женщин), которая имеет вид: ŷ=-0,06+0,438х+0,46z+0,072 (zх). Используя критерий Чоу на уровне α=0,05 проверить гипотезу о том, что функция потребления одна и та же для мужчин и женщин. 17.6. При анализе зависимости урожайности пшеницы (y) от количества внесенного удобрения (х) по 25 полям получены следующие данные:  yi  349,1 ,  x1  192,0 , y x i i  2824,2 , x 1 2 i 1  1914,0 . Но по виду вспашки поля характеризовались двумя категориями: 1 с зяблевой вспашкой – 13 полей и с весенней – 12 полей, причем 25 i 1 25 25 1 12 12 25 x  x x i 1 1  99  93  192 , 13  yi   yi  199,4  149,7  349,1 . Требуется оценить уравнение парной регрессии (без учета вида вспашки) и введением в уравнение регрессии фиктивной переменной z(z=1 для зяблевой вспашки, z=0 для весенней вспашки). Целесообразно ли включение фиктивной переменной в уравнение регрессии? 17.7. Анализируется прибыль предприятия y в зависимости от расходов на рекламу х. По наблюдениям за 9 лет получены следующие данные: х 0,8 1,0 1,8 2,5 4,0 5,7 7,5 8,3 8,8 y 5 7 13 15 20 25 22 20 17 По МНК оцените коэффициенты линейной и квадратичной регрессии. Какую из полученных моделей вы предпочитаете? 17.8.Данные результатов наблюдений представлены в таблице х -2 -1 0 1 2 y -15 -2 0 2,2 17,0 По МНК определить параметры a и b зависимости вида y= b·x a. Вычислить коэффициент корреляции и сделать вывод о тесноте связи между х и y. 17.9.Данные результатов наблюдений представлены в таблице х -2 -1 0 1 2 y 7,0 9,0 5,0 1,5 3,5 По МНК определить параметры a и b зависимости y= а+b/x. Вычислить коэффициент корреляции и сделать вывод о тесноте связи между х и y. Лекции 14-16. Анализ временных рядов. При анализе экономических показателей часто используют ежегодные, ежеквартальные, ежемесячные, ежедневные статистические данные. Поэтому, для рационального анализа необходимо систематизировать моменты получения соответствующих данных. Статистические данные, упорядоченные по времени их получения называют временными рядами. 129 Пусть исследуется показатель Y. Его значение в текущий момент времени t обозначим Yt, а значение в последующие моменты – через Yt+1, Yt+2,… Yt+к,…, значение в предыдущие моменты – через Yt-1, Yt-2,… Yt-к,…. Ясно, что при изучении зависимостей между такими показателями или при анализе их развития во времени в качестве объясняющих переменных не только текущие значения Xt, но и некоторые предыдущие по времени значения Хt-1, Хt-2,… Хt-к,…, а также само время. Модели такого типа называют динамическими, а переменные, влияние которых характеризуется определенным запаздываниям, называются лаговыми. Обычно рассматривают два вида динамических рядов: 1. Модели с лагами (модели, содержащие в качестве лаговых переменных лишь объясняющие переменные y=α+β0Xt+β1Xt-1+…+βк Xt-к +  t. (18.1) Модели вида (18.1) называют моделями с распределенным лагом. Коэффициент β0 характеризует изменение среднего значения yt под воздействием единичного изменения х в момент времени t. Этот коэффициент называется краткосрочным мультипликатором. Сумму коэффициентов β0+ β1+… βn= β называют долгосрочным мультипликатором. Она характеризует изменение у под воздействием единичного изменения х в каждый из рассматриваемых временных народов. Например, по результатам изучения зависимости объемов продаж компании в среднем за месяц от расходов на рекламу была получена модель с распределенным лагом (млн.руб.). yˆ t  0,67  4,5 xt  3,0 xt 1  1,5 xt 2  0,5 xt 3 . В этой модели краткосрочный мультипликатор равен 4,5. Это означает, что увеличение расходов на рекламу на 1 млн.руб. ведет в среднем к росту объема продаж на 4,5 млн.руб. в том же периоде:   4,5  3,0  1,5  0,5  9,5 , следовательно через 3 месяца увеличение расходов на рекламу на 1 млн.руб. ведет в среднем к общему росту продаж на 9,5 млн. руб. Причин наличия лагов в экономике достаточно много. Например, люди тратят свой доход постепенно; замена старого оборудования новым не происходит мгновенно; контакты между фирмами, трудовые договоры требуют постоянства в течении определенного времени; инфляция во многом является инерционным процессом и т.д. В связи с этим в эконометрическом анализе динамические модели используются достаточно широко. Оценка моделей с лагами в независимых переменных Оценка модели с распределенными лагами зависит от того, конечное или бесконечное число лагов она содержит. Модель с конечным числом лагов вида (18.1) оценивается сведением его к уравнению множественной регрессии. Действительно полагая z0=xt. z1=xt-1,… zκ=xt-κ, получим уравнение yt=α+β0Z0+ β1Z1+…+ βκZκ+  t. Для оценки моделей с бесконечным числом лагов yt=α+β0Xt+β1Xt-1+β2Xt-2+…+  t (18.3) разработаны несколько методов: 1. Метод последовательного увеличения количества лагов. По этому методу уравнение (18.3) оценивается, последовательно увеличивая количество лагов. Процесс увеличения количества лагов завершается: а) если при добавлении нового 130 лага какой-либо коэффициент регрессии меняет знак, при этом, в уравнении регрессии оставляют те переменные, при которых знак не поменялся; б) если при доставлении нового лага xt-κ коэффициент βκ становится статистически незначимым. 2.Метод преобразования Койка (метод геометрической прогрессии). В этом методе предполагается, что коэффициенты βκ при лаговых значениях объясняющий переменной убывают в геометрической прогрессии: βκ=β0· λ κ, κ=0,1,...,0<λ<1 (18.4) (Такое предположение достаточно естественно, так как влияние прошлых значений объясняющих переменных на текущие значения зависимой переменной будет все меньше и меньше). В данном случае уравнение (18.3) преобразуется в уравнение yt=α+β0Xt+β0λXt-1+β0 λ 2Xt-2+…+  t (18.5) Параметры данного уравнения α, β0, λ можно определить, например, следующими способами: а) Параметру λ присваивают, например, значения 0,01, 0,001, 0,0001 и т.д. и для каждого λ рассчитывается zt=xt+λxt-1+λ2xt-2+λ3xt-3+…+λрxр (18.6) Значение р определяется из условия, что при добавлении лаговых переменных величина zt становится меньше любого наперед заданного числа. Далее оценивается уравнение регрессии yt=α+β0Zt+  t (18.7) Из всех возможных значений λ выбирается то, при котором коэффициент детерминации R2 для уравнения (18.7) будет наибольшим; б) Вычитывая из уравнения (18.5) такое же уравнение, умноженное на λ и вычисленное для предыдущего периода времени (t-1) получим yt=(1- λ)α+β0Xt+λYt-1+ υt , (18.8) где υt=  t- λ  t-1 – скользящая средняя между  t-1 и  t (Такое преобразование называется преобразованием Койка). Как видно, получилось авторегрессионное уравнение, для которого требуется оценить три коэффициента α, β0, λ. Модель (18.8) позволяет анализировать краткосрочные и долгосрочные свойства переменных. В краткосрочном периоде yt-1 можно рассматривать как известное фиксированное значение. Следовательно только β0 характеризует изменение среднего значения yt под воздействием единичного изменения переменно Xt. В долгосрочном периоде, если предположить, что Xt стремится к некоторому своему равновесному значению X *, то значения yt и yt-1 также стремятся к своему равновесному значению y*. Тогда из уравнения (16.8) не учитывая случайные отклонения получим y*=α+  0 Х * /(1   ) (18.9) 2 (Заметим, что β0/(1- λ)= β0+ β0 λ+ β0 λ +… и долгосрочное воздействие X на y будет сильнее краткосрочного, так как β0/(1- λ)> β0 при 0<λ<1). 3.Метод полиноминально распределенные лагов Алмон. В основе этого метода лежит предположение, что коэффициенты β i в модели (18.1) могут аппроксимироваться полиномами определенной степени от величины лага i: βi=a0+a1i+a2i2+…+amim (18.10) 2 В частности, для βi=a0+a1i+a2i модель (18.1) представимо в виде 131 k yt     (a0  a1i  a 2 i 2 ) xt i   t    a0  z t 0  a1 z t1  a 2 z t 2   t , i 0 k k k i 0 i 1 где z10   xt 1 , z t1   i  xt i , z t 2   i 2 xt 1 . i 0 (18.11) Значения α, a0, a1, a2 могут быть определены по МНК. При этом случайные отклонения  t удовлетворяются предпосылкам МНК. Коэффициенты βi определяются из соотношения (18.10). Авторегрессионные модели Рассмотрим два типа авторегрессионных моделей, применяемых в экономике: 1. Модель адаптивных ожиданий. В данной модели происходит постоянная корректировка ожиданий на основе полученной информации о реализации исследуемого показателя. Если реальное значение показателя оказалось больше ожидаемого, то ожидаемое в следующем периоде значение корректируется в сторону увеличения (в противном случае – наоборот). При этом величина корректировки принято взять пропорциональным разности между реальным и ожидаемым значениями.  В данной модели в уравнении регрессии в качестве текущего значения xt входит в ожидаемое (долгосрочное) значение xt* выдвигая при этом, предложение, что (18.12) xt*  xt*1   ( xt  xt*1 ) , 0≤γ≤1, Уравнение регрессии имеет вид yt=   xt*   i     (xt  (1   ) xt*1 ))   t . (18.13) Вычитая из (18.13) аналогичное уравнение для yt-1, умножено на (1- γ) получим yt= γ·α+γβxt+(1-γ)yt-1+υt . (18.14) Заметим, что уравнение (18.14) по форме аналогично уравнению (18.8) из преобразования Койка.  Аналогично, предположив, что xt*1  xt  (1   ) xt* и продолжив эту процедуру значений xt* , xt*1 , xt*2 и так до бесконечности, получим: Подставим в уравнение регрессии: xt*1   xt  (1   ) xt 1  (1   ) 2 xt 2  ...  xt*1 yt     xt  (1   ) xt 1  (1   ) 2 xt 2  ...    t . Обозначив βγ=β0 и (1-γ)=λ, получим соотношение (18.15) yt    xt   0 xt 1   0 2 xt 1   0 2 xt 2  ...   t , к которому можно применить преобразования Койка. Модель адаптивных ожиданий можно применить при анализе зависимости дохода от потребления, спроса на деньги, либо инвестиций от процентной ставки и т.д., где экономические показатели более чувствительны к ожиданиям относительно будущего. 2. Модель частичной корректировки (модели акселератора). В данной модели в уравнение регрессии в качестве зависимой переменной входит не фактическое значение yt, желаемое (долгосрочное) значение yt* : (18.16) yt* =α+βxt+  t . Так как значение yt* фактически не существует, это относительно него выдвигается предположение частичной корректировки 132 yt-yt-1=λ( yt*  yt 1 ), (18.17) по которому фактическое приращение зависимой переменной пропорционально разнице, между еѐ желаемым значением и значением в предыдущий период. Здесь 0≤ λ <1- коэффициент корректировки. Тогда из (18.16) и (18.17) получим следующую модель: y t     t  (1   ) yt 1   t (18.18) Модель частичной корректировки (18.18) аналогична модели Койка. В этом случае МНК позволяет получить асимптотически несмещенные и эффективные оценки. В качестве примера использования данной модели можно привести следующий: Y- запас капитала, X- выпуск. Тогда инвестиции в период t пропорциональны отклонению желаемого запаса капитала от фактического запаса каптала в предыдущем периоде: It=Yt-Yt-1=λ( Yt* -Yt-1). Оценка авторегрессионных моделей. Авторегрессионные модели фактически имеет вид: Yt=β0+β1Xt+λYt-1+ υt (18.19) . Чаще всего такие модели оцениваются с помощью МНК. Однако, во многих случаях применение классического МНК дает неудовлетворительные результаты, так как 1) существует возможность наличия автокорреляции остатков υt(M(υt, υt-1)≠0), 2) существуют корреляция между Yt-1 и υt. Одним из методов оценивания авторегрессионных уравнений, позволяющих сгладить указанную корреляцию, является метод инструментальных переменных: переменную Yt-1, коррелирующую с υt, заменяют так называемой инструментальной переменной, близкой к Yt-1, но не коррелирующей с υt. В частности вместо Yt-1 можно предложить оценку Ŷt-1, которая получается в результате регрессии Y на независимые переменные Хt, входящие в первоначальную модель Yt-1=d0+d1Хt-1+ut. Как отмечается в §16.4. проблема автокорреляции остатков состоит в еѐ обнаружении и устранении. Однако, автокорреляцию в авторегрессионных моделях практически невозможно определить с помощью статистики DW Дарбина-Уотсона. Действительно, пусть случайное отклонение υt=ρυt-1+  t, тогда уравнение (18.9)представимо в виде ИИYt= β0+β1Xt-1+ β2 Yt- +ρ υt-1+  t (18.20.) Но Yt-1зависит от υt-1, так кА (18.19) верно и для t-1. Следовательно, имеется систематическая связь одной из объясняющих переменных и случайного члена, т.е. не выполняется одна из основных предпосылок МНК. Вследствие этого полученные по МНК оценки будут смещенными. Для авторегрессионных моделей разработаны специальные тесты обнаружения автокорреляции, в частности, h- статистика Дарбина, которая определяется по формуле h2= ̂  n /(1  nD(b2 )) , (18.21) где ̂ - оценка авторегрессии первого порядка AR(1) υt=ρυt-1+  t D(b2)выборочная дисперсия коэффициента при лаговой переменной Yt-1, n- число наблюдений. 133 При достаточно большом n и справедливости гипотезы H0: ρ=0 статистика h имеет стандартизированное нормальное распределение. Поэтому, по уровню значимости α определяется критическая точка uα/2 из условия Ф(uα/2)=(1-α)/2. Если h >uα/2, то нулевая гипотеза об отсутствии автокорреляции должна быть отклонена. Отметим, что ̂ =1-0,5 DW, а D(b2) равна квадрату стандартной ошибки S2 оценки b2 коэффициента β2. Ясно, что при n·D(b2)>1, данный тест не применим.  Если автокорреляция вызвана наличием регрессионной зависимости между случайными отклонениями υt, то существуют несколько способов устранения автокорреляции:  автокорреляционное преобразование (AR);  преобразование методом скользящих средних (МА);  авторегрессионное преобразование со скользящей средней (ARМА);  преобразование ARМА в сочетании с переходом от объемных величин к приростным (ARIМА).  Пусть y- исследуемая величина и еѐ изменение можно описать с помощью модели yt-m=α1(yt-1-m)+α2(yt-2-m)+…+αρ(yt-ρ- m)+ut, (18.22) где m – среднее значение y, ut- некоррелированные случайные отклонения с М(ut)=0 и D(ut)=ζ2(такие отклонения при рассмотрении временных рядов называют белым шумом). Преобразование (18.22) называют авторегрессионным преобразованием порядка ρ и обозначают AR(ρ).  Пусть модель задается формулой yt = α+β0ut+β1ut-1+ β2ut-2+…+ βρut-ρ , (18.23) где α-const, ut и ut-1- белый шум в текущий и предыдущие моменты времени. Преобразование (18.23) называют методом скользящих переменных порядка ρ и обозначают MA(P).  Преобразование со скользящей средней вида yt=α1yt-1+α2yt-1+…+αρyt-ρ+β0ut+β1ut-1+…+βкut-к называют преобразованием ARМА (p,k), где p – количество авторегрессионных членов, а k – количество скользящих средних.  Преобразование ARIМА (p, m, k) выражается формулой * * * (18.24) yt   , yt 1  ...   p yt  p   0 ut  1ut 1  ... k ut k , * * где yt 1  yt  yt 1 , yt 2  yt  yt 2  yt  yt 1  yt 2 ,…,yt-p=yt-yt-1-…-yt-m (конечные разности порядка m), ut-i, i=1, 2… k, - независимые случайные величины с нулевым математическим ожиданием и постоянной дисперсией. Преобразования AR, MA и ARIМА целесообразно применить когда достаточно ясны набор объясняющих переменных и общий вид уравнения регрессии, но в то же время сохраняется автокорреляция остатков. Прогнозирование экономических процессов с помощью временных рядов. Каким бы видом производства или бизнеса не занималась фирма, ей приходится планировать свою деятельность на будущий период. Происходящие в экономических системах процессы в основном проявляются как ряд наблюдений за 134 значениями определенного показателя упорядоченного порядка, который в своих изменениях отражает развитие изучаемого явления, т.е. в виде временных рядов. Конечной целью статистического анализа временных рядов является прогнозирование будущих значений исследуемого процесса, что позволяет предвидеть будущие экономические реалии, проанализировать построенную модель на устойчивость (т.е. еѐ применимость в изменяющихся условиях). Различают долгосрочное и краткосрочное прогнозирование. В первом анализируется долговременная динамика исследуемого показателя, и в этом главным представляется выделение общего направления его изменения. Тенденция временного ряда характеризует совокупность факторов оказывающих долговременное влияние и формирующих общую динамику изучаемого показателя. Если во временном ряду проявляется длительная тенденция изменения экономического показателя, то в этом случае говорят, что имеет место тренд. Под трендом понимают изменение, определяющее общее направление развития или основную тенденцию временного ряда. Во временных рядах часто происходят регулярные колебания, которые относятся к периодическим (сезонным) составляющим рядов экономических процессов. Обычно для прогнозирования при этом выделяют аддитивную и мультипликативные модели временных рядов: y=T+S+E (аддитивная форма), y=T.S.E. (мультипликативная форма), где каждый уровень временного ряда представлен через трендовую (T), сезонную (S) и случайную E компонент. Если амплитуда колебаний приблизительно постоянно, то строят аддитивную модель, а если амплитуда колебаний уменьшается или увеличивается, то строят мультипликативную модель. Прогнозирование временных рядов целесообразно, начинать с выяснения существования (или отсутствия) тенденции (тренда) во временном ряду. Для временного ряда y1,y2,…yt,…yn рассмотрим критерий, восходящих и нисходящих серий согласно которому тенденция определяется по следующему алгоритму: 1.Определяется последовательность знаков: δi=  , еслиyt 1  y t 1  0 , еслиyt 1  y t  0 При этом, если последующее наблюдение равно предыдущему, то учитывается только одно наблюдение. 2.Подсчитывается количество υ(n) всех знаков, причем количество подряд расположенных плюсов или минусов считается равной единице. 3.Определяется наибольшее количество (n) из подряд расположенных плюсов и минусов. 4.По следующей таблице определяется значение k(n). Длина ряда n≤26 26<n<153 153<n<170 Значение k(n) 5 6 7 5.Если нарушается хотя бы одно из следующих неравенств, гипотеза об отсутствии тренда отвергается с доверительной вероятностью 0,95:    (n) 1 / 3  (2n  1)  1,96 (16n  29) / 90   (n)  k (n)  (18.24) 135 (квадратные скобки означают целую часть числа). Пример. Дана динамика ежеквартального выпуска продукции фирмы. С помощью критерия «восходящих и нисходящих» серий с доверительной вероятностью 0,95 сделать вывод о присутствии или отсутствии тренда. t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Yt 10 11 7 16 15 17 16 20 17 7 15 16 20 14 19 21 δ + - + + + + + + + + (к таблице приписана последовательность знаков). Отсюда υ(n)=11, (n) =3. По таблице k(n)=5. Запишем систему неравенств (18.24)   11  1 / 3  (2  16  1)  1,96  (16  16  29) / 90  11  7    3  5 3  5 Оба неравенства выполняются, поэтому тренд в динамике выпуска продукции фирмы отсутствует с доверительной вероятностью 0,95.  Наиболее распространенным приемом для устранения отсутствия тенденции временного ряда является сглаживание временного ряда. Так называемые скользящие средние позволяют сгладить случайные и периодические колебания временного ряда. Методику построения аддитивной модели временного ряда и его использование для прогнозирования рассмотрим на следующем примере: o Пусть имеются данные об объемах потребления электроэнергии жителями за 16 кварталов: t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 yt 6 4,4 5 9 7,2 4,8 6 10 8 5,6 6,4 11 9 6,6 7 10,8 yt-1 6 4,4 5 9 7,2 4,8 6 10 8 5,6 6,4 11 9 6,6 7 ряда Вычислим корреляционные зависимости между последовательными уровнями временного (автокорреляцию уровней ряда). Для этого применяем формулу n ri  (y t i 1 n (y t i 1 t t  y 2i 1 )( yt 1  y 2i )  y 2i 1 ) (y t i 1 n где y 2i 1   yt t i 1 , n 2 t i  y 2i ) (18.25) 2 n , y 2i  y t i 1 t i , i=1,2,3…8. ni ni Например, определим коэффициент r1 автокорреляции первого порядка. 4,4  5,0  ...  7  10,8 6  4,4  5  ...6,6  7 y1   7,3867  7,4 , y 2   7,07 15 15  ( yt  y 1 ) =(-3)-2,4+1,6-0,2-2,6-2,6-1,4+2,6+0,6-1,8-1+3,6+1,6-0,8-0,4+3,4=-0,2 (y t 1  y 2 ) =-1,07-2,67-2,07+1,83+0,13-2,27-1,07+2,93+0,93-1,47- 0,67+3,93+1,83-0,44-0,07=-0,38, (y (y (y t  y 1 )( yt 1  y 2 )  6,104 t 1  y 1 ) 2 =9+5,76+2,56+0,04+6,76+1,96+6,76+0,36+3,24+1+12,96+2,56+0,64+0,16+11,56=65,32 t 1  y 2 ) 2  1,14+7,29+4,41+3,24+0,01+5,29+1,21+8,41+0,81+2,25+0,49+16+3,24+0,16+0,0049=53 ,96 r1  6,104 65,32,53,96  6,104  0,103 . 59 ,3 136 Продолжив расчеты аналогичным способом получим, что r2=0,567, r3=0,114, r4=0,983, r5=0,119, r6=0,722, r7=0,007, r8=0,974. Анализ этих значений позволяет сделать вывод о наличии в изучаемом временном ряде, вопервых, линейной тенденции, во вторых, сезонных комбинаций периодичностью в четыре квартала. (Данный вывод подтверждается и графическим анализом структуры ряда, что рекомендуется сделать читателю). Если наиболее высоким оказался бы r1, то ряд содержал бы только тенденцию. Но самым высоким оказался коэффициент r4, следовательно ряд содержит циклические колебания с периодичностью в 4 квартала. Если ни один из коэффициентов не является значимым, можно сделать одно из двух предложений: либо ряд не содержит тенденции и циклических колебаний, либо ряд содержит нелинейную тенденцию, для выявления которой нужно провести дополнительный анализ. Исходя из вышеприведенных исследований можно сделать вывод о возможном существовании в ряде аддитивной модели вида y=T+S+E. Рассчитаем еѐ компоненты. 1.Проведем выравнивание исходных уровней ряда методом скользящей средней. Для этого: а) просуммируем уровни ряда последовательно за каждые четыре квартала со сдвигом на один момент времени и определим условные годовые объемы потребления энергии: y3=6+4,4+5+9=24,4, y4=4,4+5,0+9,0+7,2=25,6, y5=5+9+7,2+4,8+=26 и т.д., y14=9+6,6+7+10,8=33,4; б) разделив полученные суммы на 4, найдем скользящие средние: y 3 =6,1, y 4 =6,4, y 5 =6,5 и т.д. y 14 =8,35. Отметим, что полученные таким образом выровненные значения уже не содержат сезонной компоненты; с) приведем эти значения в соответствие с фактическим моментом времени, для чего найдем средние значения из двух последовательных скользящих средних - центрированные скользящие средние: y3ц  ( y 3  y 4 ) /2=(6,1+64)/2=6,25, y 4ц =(6,4+6,5)/2=6,45, ц y 5 =(6,5+6,75)/2=6,625 и т.д., ц y 14 =(8,4+8,35)/2=8,375. 2. Найдем теперь оценки сезонной компоненты как разность между фактическими уровнями y 4  y 4ц =9-6,45=2,55, и центрированными скользящими средними. y3  y3* =5-6,25=-1,25, ц =6,6-8,375=-1,775. y5  y5ц =7,2-6,625=0,575, и т.д. y14  y14 Используем эти значения для расчета значений сезонной компоненты S. Для этого найдем средние за каждый квартал оценки сезонной компоненты i=1,2,3,4. Si , S 1 =(0,575+0,550+0,675)/4=0,6, S 2 =(-2,075+2,025-1,775)/4=-1,958, S 3 =(-1,250-1,100-1,475)/4=-1,275, S 4 =(2,55+2,7+2,875)/4=2,708. В моделях с сезонной компонентной обычно предполагается, что сезонные воздействия за период взаимно погашаются, т.е. S1  S 2  S 3  S 4  0 . Для данной модели 0,6-1,9581,275+2,708=0,075 определим корректирующий коэффициент к=0,075/4=0,01875. Определим скорректированные средние значения сезонной компоненты S i  S i  k : S1=0,6-0,01875=-0,58125, S2=-1,958-0,01875=-1,97675, S3=-1,275-0,01875=-1,29375, S4=2,708-0,01875=2,68925. 3.Теперь легко найти величины Ti+Ei=Yi-Si: T1+E1=6-0,581=5,419, T2+E2=4,4+1,977=6,337 T3+E3=5+1,294=6,294, T4-E4=9-2,690=6,461 и т.д. T16-E16=10,8-2,690=8,11. 4.Определим компоненту T данной модели. Для этого рассчитаем параметры линейного тренда, используя уровни T+E. В результате получим уравнение линейного тренда T=5,715+0,186t, для которого стандартная ошибка коэффициента регрессии равна 0,0152, а коэффициент детерминации R2=0,915. Подставляя в это уравнение t=1,2,3…16 найдем уровни Ti для каждого момента времени, т.е. T1 =5,715+0,186, T2 =5,715+0,372=6,087 и т.д. T15=5,715+0,186·15=8,519, T16 =8,698. 137 5.Найдем значения уровней ряда, T+S, полученные по аддитивной модели. T1+S1=5,901+0,581=6,482, T2+S2=6,087-1,977=4,110 и т.д. T16+S4=8,698+2,690=11,388. 6. Расчет ошибки E производится по формуле E=y-(T+S). По аналогии с моделью регрессии для оценки качества построенной модели можно применить сумму квадратов, полученных абсолютных ошибок. Для данной аддитивной модели ∑ E2=1,1. По отношению к общей сумме квадратов отклонений уровней ряда от его среднего уровня, равной 71,59, эта величина составляет примерно 1,5%, т.е. (1-1,1/71,59) ·100=1,536. Следовательно, можно сказать, что аддитивная модель объясняет 98,5% общей вариации уровней временного ряда потребления электроэнергии за последние 16 кварталов. 7. Определим прогноз потребления электроэнергии на первое полугодие ближайшего следующего (пятого) года. Прогнозное значение Ft уровня временного ряда в аддитивной модели равна сумме трендовой и сезонной компонент. Следовательно, для первого и второго квартала пятого года F 17= T17+S1=5,715+0,186·17+0,581=9,458 F18= T18+S2=5,715+0,186·18-1,977=7,086. Прогноз потребления электроэнергии на первое полугодие ближайшего следующего (пятого) года составит (9,458+7,086)=16,544 (млн. кВт.ч).  Рассмотрим моделирование временных рядов, содержащие сезонные колебания, применением фиктивных переменных. Пусть имеется временной ряд, содержащий циклические колебания, например, периодичностью к=4. Тогда модель регрессии с фиктивными переменными для этого ряда имеет вид: yt=α+βt+C1х1+ C2х2+ C3х3+  t, где 1 для i  го квартала xi   0 во всех остальных случаях, i  1,2,3 ( 18.26) Уравнение тренда для каждого квартала позволяют дифференцировать величину свободного члена уравнения регрессии: Для 1 квартала: yt= α+βt+C1+  t, для 2 квартала: yt= α+βt+C2+  t, для 3 квартала: yt= α+βt+C3+  t, для 4 квартала: yt= α+βt +  t Параметр β в этой модели характеризует среднее абсолютное изменение уровней ряда под воздействием тенденции. В сущности, модель (18.25) есть аналог аддитивной модели временного ряда, поскольку фактический уровень временного ряда есть сумма трендовой, сезонной и случайной компонент. Уравнение регрессии с включением фактора времени и фиктивных переменных для данных о потреблении электроэнергии рассмотренного выше примера оцененное обычным МНК имеет вид: ŷt=8,33+1,19t-2,09х3-3,91х3 (18.27.) стандартные ошибки: (0,23), (0,02), (0,22), (0,21) t- критерий: (36,63), (11,06), (-9,48), (-20,63), (-18,20). Анализируя эти результаты получим: 1) влияние сезонной компоненты в каждом квартале значимо; 2) параметр α=8,33 есть сумма начального уровня ряда и сезонной компоненты в 4 квартале: 3) β=1,19 показывают наличие возрастающей тенденции в уровнях ряда; 4) поскольку фактическое значение t- критерия равно 11,1 то существование тенденции в уровнях ряда установлено надежно. Коэффициент детерминации R2=0,985. Общая сумма квадратов отклонений уровней ряда yt составляет 67,3 остаточная сумма квадратов (1-0,985)·67,3=1,01. Так как остаточная 138 сумма квадратов по аддитивной модели ∑E2=1,1 (см.п.6), то можно сделать вывод, что модель регрессии с фиктивными переменными лучше описывает динамику временного ряда, чем аддитивная модель. (Основной недостаток модели с фиктивными переменными для описания сезонных и циклических колебаний – наличие большого количества переменных). Оценки прогноза и устойчивость регрессионных моделей временных рядов.  При анализе динамических моделей временных рядов на базе статистических методов питаются определить вероятную ошибку прогноза. Схему проводимых расчетов достаточно подробно описана в §14. Пусть yt+p- истинное значение исследуемого показателя y в момент времени t+p, а ŷt+p- это же значение по уравнению регрессии. Тогда ошибка предсказания ∆t+p= yt+pŷt+p. Если случайные отклонения уравнения регрессии удовлетворяют предпосылкам МНК, то стандартную ошибку прогноза в случае парной регрессии можно определить по известной формуле (см. §14) S 2 ( t  p )  (1  2 1 ( xt  p  x )  )S2 2 n  ( xi  x ) (18.28) и доверительный интервал для yt+p имеет вид: ŷt+p- t(2/2, n-1)S(∆t+p)< yt+p< ŷt+p+t(α/2, n1)S(∆t+p). Относительная  t p  ошибка ( yˆ t  p  yt )  ( yt  p  yt ) yt  p  yt  100 %  прогноза yˆ t  p  yt  p yt  p определяется  100 % по формуле (18.29) При необходимости анализа точности прогнозов на несколько (k) периодов пользуются величиной 1 k k U= ( (yˆ t  p  yt  p ) 2 / 1 1 k  yt2 p , k 1 (18.30) где k - количество прогнозных периодов. Близость значения U к нулю является признаком достаточно качественного прогноза.  Проверка устойчивости модели предназначена для оценки того, насколько модель, полученная по выборке, будет соответствовать поведению исследуемой величины на прогнозном (поле выборочном периоде). При этом либо оценивается прогнозные качества модели, либо определяется, происходят ли изменения параметров в период прогноза, вызванные, например, структурными изменениями в экономике или иными факторами. Одним из методов проверки устойчивости модели является тест Чоу. (Заметим, что при достаточно большом прогнозном периоде можно воспользоваться схемой гипотезы о совпадении уравнений для отдельных групп наблюдений, описанный в п.17.4. При этом рассчитываются три уравнения регрессии: для периода выборки, для периода прогноза и для объединенного периода). Пусть имеется возможность получения статистических данных в р моментов в прогнозный период. Тогда для совокупного набора данных выборки и прогнозного 139 периода построим два уравнения регрессии (для простоты изложения рассмотрим моделирование линейной тенденции): yt=a+b0xt+b1xt-1+…bmxt-m. ŷt=a1+ b01 xt  ....  bm1 xt m  c1 Dt 1  c2 D  t 2 ....  c p Dt  p , где 1, для момента наблюденияt  i 0, для других моментов Dt+1=  Пусть сумма квадратов отклонений точек наблюдений от этих уравнений регрессии равны S и ST- соответственно. Тогда разность (S - ST) может рассматриваться как улучшение качества уравнения при добавлении р фиктивных переменных. Для анализа, насколько существенно улучшение качества уравнения рассматривается F- статистика вида: F  (S  ST ) / р , где T – объем первоначальной S T /(T  m  1) выборки, m-количество объясняющих переменных в первоначальном уравнении регрессии. Формально T-m-1=0 определено как количество (T+Р) наблюдений в объединенный совокупности за вычетом числа (T+Р+1) оцениваемых параметров во втором уравнении. Если Fтаб(α,p, T-m-1)<F, то гипотеза об устойчивости модели отклоняется на уровне значимости α.  Методы сглаживания временных рядов. Наиболее распространенным методом для устранения аномальных значений и отсутствия тенденции временного ряда является сглаживание временного ряда. При этом производится замена фактических уровней временного ряда расчетными, что способствует четкому проявлению тенденции ряда. Сгладить случайные и периодические колебания временного ряда часто применяют методы простой и взвешенной скользящей средней, а также экспоненциальное сглаживание. а) Сглаживание по простой скользящей средней: 1) Сначала для временного ряда y1, y2,….yt-1, yt,…yn определяется интервал сглаживания (h); 2) для первых (h) уровней ряда вычисляются их среднее арифметическое значение; 3) затем интервал сглаживания сдвигается на один уровень вправо, повторяется вычисление средней арифметической и т.д. Например, для h=3 сглаженные уровни рассчитываются по формуле (18.31). yt =(yt-1+yt+yt+1/3) 4)для того чтобы не потерять первый и последний уровни ряда применяют формулы параболического выравнивания: (18.32) y1  (5 y1  2 y 2 _ y3 ) / 6, y n  ( y n2  2 y n1  5 y n ) / 6 . б) Сглаживание по взвешенной скользящей средней. Для рядов с нелинейной тенденцией развития применяют метод взвешенной скользящей средней. Этот метод отличается от метода простой скользящей средней тем, что уровни, входящие в интервал сглаживания, суммируются с разными весами. Для полиномов 2-го и 3-го порядков по 5-членной взвешенной средней центральное значение интервала определяется по формуле (18.33) yt  1 / 35(3 yt 2  12 yt 1  12 yt 1  3 yt  2 ) (Для интервала сглаживания 7 и 9 весовые коэффициенты имеют вид: 1/21(2,+3,+6,+7); 1/231(-21,+14,+39,+54,+59) 140 в) Экспоненциальное сглаживание. Суть метода заключается в том, что в процедуру нахождения сглаженного уровня используется значения только предыдущих уровней ряда, взятые с определенным весом. Если для исходного ряда соответствующие сглаженные значения уровней обозначить st, то экспоненциальное сглаживание производится по рекуррентной формуле: St=αyt+(1-α)st-1, (18.34) где 0<α<1, величина (1-α) называется коэффициентом дисконтирования. Легко заметить, что st=α∑(1-α)iyt-i+(1-α)ts0. (18.35) Обычно в экономических задачах величину параметра сглаживания α выбирают в интервале от 0,1 до 0,3. Начальный параметр S0 принимают равным значению первого уровня ряда y1 или среднему арифметическому нескольких первых членов ряда, например S0=1/3(y1+y2+y3) Задачи к лекциям 14-16. 18.1. В следующей таблице приведены данные, отражающий спрос на некоторый товар за восьмилетний период, т.е. временной ряд спроса Yt: Год,t 1 2 3 4 5 6 7 8 Спрос,yt 213 171 291 309 317 362 351 361 1) Найти средне значение y t , среднее квадратное отклонение St, коэффициенты автокорреляции (для лагов i=1;2); Найти уравнение неслучайной составляющей (тренда), полагая тренд линейным и проверить его значимость по F-критерию. Провести сглаживание временного ряда yt методом скользящих переменных, используя простую среднюю арифметическую с интервалом сглаживания m=3 года. Результаты изобразить графически. (Данные для сверки вычислений: y t =296,88, St=65,31, r1=0,725; r1=0,842; ŷt=181,32+25,679t; F=Dобщ/Dост=23,56, Fкр(0,05;1;6)=5,99) 18.2. По данным примера 18.1 требуется: 1) Выявить на уровне значимости 0,05 наличие автокорреляции остатков для временного ряда Yt. 2)Дать точечную и с надежностью 0,95 интервальную оценки прогноза среднего и индивидуального значений спроса на некоторый товар в девятом году (t=9). (Данные для сверки вычислений: DW≈2(1+1198/7059,2)=2,34, y t 9 =412,4, S2=1176,5,). 18.3. Анализируется среднедушевой расход на развлечение людей до 25 лет. По 35 годовым данным по МНК построено следующее уравнение регрессии Yt=43,5+0,251Xt+ 0,545 Yt-1, DW=1,9 (S) (0,105) (0,135) 1) Постройте 95% доверительный интервал для теоретического коэффициента регрессии при переменной Xt. 2) Каков экономический смысл данного коэффициента? 3) Проверьте гипотезу об отсутствии автокорреляции остатков. 18.4. Пусть имеются поквартальные данные о прибыли некоторой компании за последние 4 года: 1 2 3 4 72 1 100 90 64 70 2 92 80 58 62 3 80 68 48 52 4 60 50 30 1) Постройте график временного ряда. Можно ли по графику предположить существование мультипликативной модели Y=T·S·E , где T-трендовая, S-сезонная и E- случайная компоненты? 2) Методом скользящей средней (интервал сглаживания m=4) проведите выравнивание исходных 141 уровней ряда, и сделайте расчет сезонных компонента (скользящая средняя за четыре квартала, центрированная скользящая средняя). 3) Найдите оценки сезонной компоненты как частное от деления фактических уровней ряда на центрированные скользящие средние; 4) Используя оценки пункта 3) рассчитай средние за каждый квартал оценки сезонной компонента S i для i-го квартала. 4 5) Определив корректирующий коэффициент К по формуле k  4 /  si найдите скорректированные 1 значения сезонной компоненты S i  S i  K и S   S i . 6) Рассчитайте величины T·E=Y:S, которые содержат только тенденцию и случайную компоненту. 7) Рассчитайте параметры линейного тренда, используя уровни (T·E). 8) Найдите уровни ряда мультипликативной модели (T·E). 9) Рассчитайте ошибки в мультипликативной модели E=Y:(T·S). 10) Найдите абсолютные ошибки в модели как E1=Y-(T·S). 12) Определяйте долю объясненной дисперсии уровней ряда равную (1-∑(Е1)2)/ ∑( yt  yt ) 2 и сделайте вывод. 12) Дайте прогноз ожидаемой прибыли компании на первое полугодие ближайшего следующего года. 18.5. Таблица об изменении урожайности пшеницы за 10 лет имеет вид. t 1 2 3 4 5 6 7 8 9 10 Yt 16,3 21,2 18,1 8,7 16,3 17,3 20,9 15,4 19,7 21,7 Произвести сглаживание по 3- и 5-летней скользящей средней и по 5-членной взвешенной скользящей средней. 18.6. В следующей таблице приведена доля докторов наук в вузах РФ (%) по годам. t 1995 1996 1997 1998 1999 Yt 8,95 9,5 10,01 10,93 10,08 Произвести сглаживание временного ряда методом экспоненциального сглаживания, приняв параметры сглаживания α=0,1 α=0,3 и сравнить результаты. Лекции 17-18. Системы линейных одновременных уравнений. Одной из причин коррелированности регрессоров со случайными членами могут служит факторы, действующие одновременно и на сами регрессоры, и на объясняемые переменные при фиксированных значениях регрессоров. Иными словами, в рассматриваемой экономической ситуации значения объясняемых переменных и регрессоров формируются одновременно под воздействием внешних факторов. Это означает, что рассматриваемая модель следует дополнить уравнениями, в которых объясняемыми переменными выступали бы сами регрессоры. Таким образом, мы приходим к необходимости рассматривать системы одновременных уравнений, называемых также структурными уравнениями. Приведем примеры таких систем. d 1. Модель «спрос и предложение». Если изучается модель спроса ( qt ) как соотношение цен (рt) и количества потребляемых товаров, то одновременно для прогнозирования спроса необходима модель предложения ( qts ) товаров, в которой рассматривается также взаимосвязь между количеством и ценой (рt) предлагаемых благ в момент времени t. Это позволяет достичь равновесия между спросом и предложением в рассматриваемый момент времени и мы получаем следующую систему: 142 qtd   0   1 pt   t1 ,  1  0  s qt   0   1 pt   12 ,  1  0,  d s q t  q t (19.1)  Модель (19.1) может быть усовершенствована, если в функцию спроса добавить доход потребителя yt или рt-1 – цену товара предыдущий момент времени: qtd   0   1 pt   2 y t   t1 ,  1  0,  2  0  s 1  0 q t   0   1 p t   t 2 ,  d s q t  q t d  qt   0   1 pt   2 it   t1 ( 1  0,  2  0  s  qt   0  1 pt   2 pt 1   t 2 2. (19.2) (19.3) Кейнсианская модель формирования доходов: ct   0  1 y t   t   y t  c t  it (19.4) Здесь yt, ct, it- представляют совокупный выпуск, объем потребления и инвестиции в момент времени t, соответственно. Первое уравнение отражает функцию потребления, второе – макроэкономическое тождество. 3. Модель равновесия на рынке товаров и денег (модели LS-LM) для закрытой экономики, при фиксированной налоговой ставке:  yt   0   1 rt   2 qt   3 rt   1 ( 1 0)   yt   0  1 rt  1 rt   2 mt   2 ( 1  0), (19.5) где yt- национальный доход, rt- налоговая ставка, mt- денежная масса, в момент времени t. 4. Модель динамики цены и заработной платы:  y1  b12 y 2  a11 x1   1   y 2  b 2 1 y1  a 22 x2  a 23 x3   2 (19.6) где y1 – тема изменения заработной платы, y2- темп изменения цен, х1 – процент безработных, х2- темп изменения постоянного капитала, х3- темп изменения цен на импорт сырья. Составляющие систем уравнений. Структурная и приведенная формы модели. При рассмотрении систем одновременных уравнений переменные делятся на два класса - эндогенные и экзогенные переменные. Эндогенные переменные – это переменные, значения которых определяются внутри модели. Экзогенные переменные – это внешние по отношению к модели переменные. Их значения определяются вне модели и поэтому они считаются фиксированными. Например: 1) в модели (19.1) все переменные qtd , qts , pt являются эндогенными, так как они определяются внутри системы; 2) в модели (19.4) переменная i t задается вне модели, поэтому она является экзогенной переменной, переменные yt, ct143 являются эндогенными. Действительно, обе переменные yt, ct могут быть выражены через it и ε, подставив ctиз второго уравнения в первое: yt=1/(1- β1)(β0+it+εt) ct=1/(1- β1)( β0+ β1it+εt) (19.7) Уравнения (19.4), при этом, называют структурными уравнениями модели, а уравнения вида (19.7), в которых эндогенные переменные выражены только через экзогенные или предопределенные (лаговые) переменные, а также случайные составляющие называют приведенными уравнениями. В общем случае, простейшая структурная форма модели имеет вид: y1=b12y2+a11x1+ ε1 y2=b21y1+a22x2+ ε2 (19.8) где y1, y2- эндогенные, а х1 х2- экзогенные переменные. Разрешив первое уравнение относительно y2 и подставив его во второе уравнение легко получить уравнение разрешенное относительно эндогенной переменной y1: (замети, что для упрощения преобразований не рассмотрены случайные переменные!). y1  a11 a 22  b1 x1  x2 1  b12  d 21 1  b12  b21 (19.9) Аналогично, разрешив второе уравнение относительно y1 и подставив его в первое уравнение легко получить, что y2  a11  d 21 a 22 x1  x2 1  b12  b21 1  b12  b21 (19.10) Уравнения (19.9) и (19.10) составляют систему приведенных уравнений при условии, что 1-b12·b21≠0. Если записать уравнение (19.8) в виде y1- b12 y2=а11х1 - b21 y1+ y2= а22х1, (19.11) то легко заметить, что величина 1- b12· b21 равна определителю матрицы, составленной из соответствующих коэффициентов при эндогенных переменных. Следовательно, если определитель матрицы коэффициентов при эндогенных переменных системы (19.10) отличен от поля, то эту систему можно привести к приведенной форме. Проблема идентификации. При переходе от структурной формы к приведенной ( и наоборот) исследователь сталкивается с проблемой идентификации. Идентификация – это единственность соответствия между приведенной и структурной формами модели. Исходную систему уравнений называют идентифицируемой, если по коэффициентам приведенных уравнений можно однозначно определить значения коэффициентов структурных уравнений. Обычно это удается сделать, если число параметров структурной модели равно числу параметров приведенной модели. Модель не идентифицируема, если число коэффициентов приведенной модели меньше числа коэффициентов структурной модели. 144 Модель сверхидентифицируема, если число коэффициентов приведенной модели больше числа коэффициентов структурной модели. Структурная модель считается идентифицируемой, если каждое уравнение системы идентифицируема, Если хотя бы одно уравнение системы неидентифицируемо, то вся модель считается неидентифицируемой. Сверхидентифицируемая модель содержит хотя бы одно сверхидентифицируемое уравнение. Для быстрого формального определения идентифицируемости системы структурных уравнений применяются следующие необходимые и достаточные условия: Пусть число эндогенных переменных в i-м уравнении системы равно Н, а число экзогенных (предопределенных) переменных, которые содержатся в системе, но не входят в данное уравнение равно D.Тогда необходимое условие идентифицируемости модели может быть записано в виде следующего счетного правила: D=H-1 –уравнение идентифицируемо; D<H-1 –уравнение неидентифицируемо; (19.12) D>Н-1 – уравнение сверхидентифицируемо. Рассмотренное счетное правило отражает необходимое, но недостаточное условие идентификации. Достаточное условие: Обозначим через А матрицу коэффициентов системы при отсутствующих в i-м уравнении переменных. Тогда i-е уравнение идентифицируемо, если det A≠0 и ранг матрицы r(A) (т.е. наивысший порядок еѐ миноров отличных от нуля) не меньше числа эндогенных переменных в системе без одного. Приведем примеры использования данных условий для определения идентифицируемости структурных уравнений: 1. В простой модели (19.1) для первого и второго уравнений H=2, D=0. Следовательно, необходимое условие индентифицируемости не выполняется (Читателю рекомендуется проверить неидентифицируемость системы (19.1) построив приведенную систему уравнений). 2. В модели (19.2) для первого уравнения H=2, D=0, следовательно, уравнение не идентифицируема. Для второго уравнения H=2, D=1, что означает идентифицируемость уравнения. Функция предложения может быть определена однозначно. 3. В модели (19.4) для первого и второго уравнений H=2. D=1, следовательно, система идентифицируема. 4. В модели (19.6) динамики цены и заработной платы для первого уравнения H=2, D=2, следовательно система сверхидентифицируема. 5. Система (19.8) идентифицируема, так как для обоих уравнений H=2, D=1. 6. Рассмотрим эконометрическую модель экономики страны:  y1  a01  b13 y 3  b14 y 4   1 y  a  b y  a x    2 02 23 3 21 1 2   y 3  a 03  b34 y 4  a31 x1   3  y 4  y1  y 2  x 2 , (19.13) 145 где y1- расходы на конечное потребление данного года, y2 – валовые инвестиции в текущем году, y3 – расходы на заработную плату, y4 – валовой доход, x1 – валовой доход предыдущего года, x1- государственные расходы текущего года, a0i – свободные члены уравнений, εi – случайные ошибки. В этой модели эндогенные переменные (y1, y2, y3, y4), где переменная y4 задана тождеством. Поэтому на идентификацию достаточно проверить три первых уравнения модель. Модель содержит две предопределенные переменные – экзогенную x2 и лаговую x1. В модели (19.13) первое уравнение точно идентифицируемо, так как H=3, D=2. (D=H-1). Второе уравнение системы также идентифицируемо: H=2(y2 , y3), D=1(отсутствует Х2). Счетное правило D=H-1 выполнено. Также выполнено и достаточное условие: detA=-b34≠0, r(A)=3. Кроме того, выполняется и достаточное условие: detA=a31≠0, r(A)=3≥(2-1) y2 2 -1 3 0 x1 x2 а21 0 а31 0 y1 1 -1 3 0 y4 x2 b14 0 b24 0 y1 1 -1 3 0 y2 x2 0 -1 0 0 4 1 1 1 4 1 -1 1 4 1 0 1 Второе уравнение системы также идентифицируемо: H=2(y2 , y3), D=1(отсутствует Х2). Счетное правило D=H-1 выполнено. Аналогично третье уравнение системы также идентифицируемо, так же как H=2, D=1, detA=1≠0 r(A)=3. Оценивание параметров систем уравнений: • Косвенный метод наименьших квадратов. Непосредственное применение МНК для каждого из уравнений системы одновременных уравнений приводит к получению смещенных и несостоятельных оценок. Обычно это происходит вследствие коррелированности одной или нескольких объясняющих переменных со случайным отклонением. Поэтому для получения качественных оценок параметров одновременных уравнений применяются другие методы. Одним из таких методов является косвенный метод наименьших квадратов (КМНК), основанный на использовании приведенных уравнений. КМНК применяется в случае точно идентифицируемой структурной модели и включает в себя следующие этапы: 1.Структурная модель преобразовывается в приведенную форму модели. 2.Для каждого уравнения приведенной модели обычным МНК оцениваются параметры (приведенные коэффициенты). 3.На основе оценок, найденных на этапе 2, оцениваются параметры структурных уравнений. Для иллюстрации КМНК рассмотрим модель «спрос-предложение» qt   0   1 pt   2 y t   1t  qt   0  1 pt   2t где количество товара qt и цена pt в году t- эндогенные переменные, доход потребителей ytэкзогенная переменная. 146 На основании следующих статистических данных необходимо оценить коэффициенты функции предложения (второе уравнение), используя для этого КМНК и МНК и сравнив результаты сделать вывод. pt qt yt pt·qt pt·yt qt·yt y t2 pt2 1 2 3 4 5 ∑=15 p =3 8 10 7 5 1 ∑=31 q =0,2 2 4 3 5 2 ∑=16 1 4 9 16 25 ∑55 4 16 9 25 4 ∑58 y =3,2 p 2 =11 y 2 =11,6 8 20 21 20 5 ∑74 2 8 9 20 10 ∑=49 pq =11,8 p y =9,8 16 40 21 25 2 ∑=104 qy =20,8 1.Построим приведенную модель данной системы. Для этого разрешим данную систему относительно pt и qt: (β0-α0)+(β1-α1)Pt-α2yt+(ε2t-ε1t)=0. Отсюда pt=а10+а11yt+υ1t, где а10=(β0-α0)/(β1-α1), а11= α2/(β1-α1), υ1t=(ε2t- ε1t)/ (β1-α1). Представив полученное выражение для pt в функцию предложения получим qt=а20+а21уt+ υ2t, где а20=β1-α10, а21= β1-α11, υ2t= β1υ1t+ ε1t. Так как β1=а21/а11, β0=а20-а21·а10/а11, то оценки параметров β0 и β1 функции предложения могут быть определены на основе оценок коэффициентов приведенных уравнений. 2.По имеющимся статическим данным по МНК оценим коэффициенты приведенных уравнений. yp  y  p 9,8  3,2  3 0,2 aˆ11     0,1471 . a10  p  aˆ11  y  3  0,1471,3,2  2,5293 . 2 2 1,36 11,6  (3,2) y2  y aˆ 21  yq  y  q 2  20 ,8  6,2  3,2  0,7059 . aˆ 20  q  aˆ 21 y  6,2  0,7059  3,2  3,9411. 1,36 y2  y На основе найденных оценок оценим параметры функции предложения: первоначального уравнения: b1  aˆ 21 / aˆ11  0,7059 / 0,1471  4,7988 , b0  aˆ 20  b1  aˆ10  3,9411  4,7988  2,5293  8,1955 . Следовательно, функция предложения имеет qˆ  8,1955  4,7988 p (b1>0). вид: t t Рассчитанные непосредственно по МНК оценки функции предложения будут: pq  p  q 14 ,8  3  6,2 b1    1,9 , b0= q  b1 p  6,2  1,9  3  11,9 . 2 11  9 p2  p Тогда функция предложения имеет вид: q̂ t =11,9-1,9pt. (b1<0). Полученный результат позволяет сделать вывод, что применение МНК в несоответствующих ситуациях может существенно исказить картину зависимости. Таким образом, если система одновременных уравнений идентифицируема, то можно применить КМНК.  Метод инструментальных переменных. Еще одним способом устранения коррелированности объясняющей переменной со случайным отклонением является метод инструментальных переменных. Суть данного метода состоит в замене коррелирующей переменной на другую – инструментальную переменную (ИП), которая должна коррелировать с заменяемой объясняющей переменной и не должна коррелировать со случайным отклонением. Опишем схему использования ИП на примере парной регрессии y=β0+β1x+ε, в которой cov(x¸ε)=0. 147 Переменную x заменяем переменной z такой, что cov(x¸z)≠0 и cov(z,ε)=0. Принципы использования ИП основаны на выполнимости следующих условий: M(εi)=0 cov(z,ε)=0. Соответствующие выборочные оценки данных условий. ∑ еt=0 и ∑zt·еt=0, то есть имеет место следующая система уравнений:  ( y t  b0  b1 xt )  0   z t ( y t  b0  b1 xt )  0 (19.14) Тогда из (19.14) однозначно можно определить оценки b 0 и b1 инструментальной переменной. Обычно инструментальные переменные подбирают в самой системе. Например, рассмотрим кейсианскую модель (19.4) формирования доходов в закрытой экономике без государственного вмешательства. После постановки первого уравнения во второе получаем значение выпуска в любой момент времени yt=(β0+it+εt)/(1-β1) (19.15) Из (19.15) следует, что в первом уравнении модели (19.4) объясняющая переменная yt коррелируется со случайным членом εt. Следовательно, обычные МНК – оценки коэффициентов β0 и β1 будут некачественными. Поэтому инструментальной переменной в данном случае следует выбрать объем инвестиций it, который не коррелируется с εi, но при этом тесно коррелируется с yt. Подставляя второе уравнение системы (19.4) в первое и проводя некоторые упрощения, получим ct=(β0+β1it+εt)/(1-β1) (19.16) Для уравнения (19.16) применим обычный МНК, в результате которого получим несмещенные и состоятельные оценки параметров β 0/(1-β1) и β1/(1-β1), после чего не составит особого труда получить оценки исходных коэффициентов β0 и β1.  Двухшаговый метод наименьших квадратов (ДМНК). Если система сверхидентифицирована, то КМНК не используется, ибо он не дает однозначных оценок для параметров структурной модели. В этом случае наиболее распространенным и простым методом оценивания является двухшаговый метод наименьших квадратов (ДМНК), который состоит из следующих этапов: 1) нахождение МНК-оценок коэффициентов приведенной формы; 2) получение из уравнений приведенной формы расчетных значений эндогенных переменных; 3) использование расчетных значений эндогенных переменных, полученных на втором этапе, в качестве инструментальных переменных, т.е. представление расчетных значений эндогенных переменных вместо их истинных значений в правые части структурных уравнений; 4) использование МНК для расчета теперь уже структурных коэффициентов модели. Для простейшей кейсианской модели (19.4) ДМНК означает: 1) расчет по МНК коэффициентов а1, а2, b1, b2 приведенной системы ct  a1  b1it   t   y t  a 2  b2 it   t , (19.17) где a1=a2= β0/(1- β1), b1= β1/(1- β1), b2=1/(1- β1) . 148 2) определение расчетных значений ĉ t и ŷ t для каждого наблюдения t из уравнений системы (19.17). 3) расчет оценок структурных коэффициентов β 0 β1 по МНК из системы уравнений ct   0  1 yˆ t   y t  cˆt  it  Рассмотрим применение ДМНК для простейшей сверхдифференцируемой модели:  y1  b12 ( y 2  x1 )   1 (19.18)   y 2  b21 y1  a 22  x 2   2 Пусть для построения данной модели мы располагаем некоторой информацией по пяти регионам: Регион 1 2 3 4 5 Y1 2 3 4 5 6 Y2 5 6 7 8 5 X1 1 2 3 2 4 X2 3 1 2 5 6 Средние 4 6,2 2,4 3,4 На первом шаге найдем приведенную форму модели, а именно y1=ζ11x1+ ζ 12x2+u1 y2= ζ 21x1+ ζ 22x2+ u2 (19.19) Для каждого уравнения системы (19.19) применим МНК. Чтобы упростить процедуру расчетов можно работать с отклонениями от средних уровней, т.е. примем y=y- y , x=x- x Тогда для первого уравнения, используя данные, система нормальных уравнений составит: а для второго уравнения - 6=5,2·ζ11+4,2ζ12, 10=4,2·ζ 11+17,2ζ12, -0,4=5,2ζ21+4,2ζ22 -0,4=4,2ζ21+17,2ζ 22 Решив эти системы, получим приведенную форму модели: y1=0,852x1+0,373x2+u1 y2=-0,072x1-0,00557x2+u2 (19.20) На основе второго уравнения системы (19.20) можно найти расчетные значения эндогенной переменной y2, т.е. ŷ2. С этой целью во второе уравнение вместо x1и x2 подставляем в нашем примере их отклонения от средних. Приведем расчетные данные для второго шага ДМНК. x1 -1,4 -0,4 0,6 -0,4 1,6 x2 -0,4 -2,4 -1,4 1,6 2,6 ŷ2 0,103 0,042 -0,035 0,030 -0,130 ŷ 2+x1=z -1,297 -0,358 0,565 -0,380 1,470 y1 -2 -1 0 1 2 y1z 2,594 0,358 0 -0,380 2,940 z1 1,682 0,128 0,919 0,144 2,161 ∑: 0 0 0 0 0 5,512 4,434 Далее заменив фактические значения y2 в первом уравнении системы (19.8) их оценками ŷ2, найдем значения новой переменной z= ŷ2+ x1. 149 Применяя МНК уравнению y1=b12 ∙ z получим, что b12=5,512/4,434=1,243. Таким образом, сверхидентифицируемое структурное уравнение составит: y1=1,243(y2+ x1). Чтобы найти второе уравнение структурной модели, обратимся вновь к приведенной форме. Для этой цели из второго уравнения системы (19.20) исключим x 1, выразив его через первое уравнение и подставив во второе: x1=( y1-0,373 x2)/0,852, ŷ2=-0,085 y1+0,026 x2. В целом рассматриваемая система одновременных уравнений имеет вид:  y1  1,243 ( y 2  x1 )   y 2  0,085 y1  0,026 Задачи к лекциям 17-18. 19.1. Рассматривается следующая модель: ct  a0  a1 yt   1  it  b0  b1 yt  b2 yt 1   2 t  c  i  q , t t t t где ct – объем потребления; it- объем инвестиций; yt – доход; qt – объем государственных расходов. а) представьте данную систему в приведенной форме. б) определите какие из структурных уравнений индентифицируемы? в) какой метод можно использовать для оценки параметров рассматриваемой модели? 19.2. Рассматривается модель «спрос-предложение» вида: Qd=a0+a1p+ε Qs=b0+b1p+b2 Qd=Qs, где Q- количество товара, p- цена товара, w – заработная плата, ε и υ – случайные отклонения, удовлетворяющие предпосылкам МНК. Пусть имеются следующие наблюдения: P 10 15 5 8 4 Q 6 6 18 12 8 W 2 6 2 7 4 а) Какие из переменных являются экзогенными, а какие – эндогенными?; б) Представьте систему в приведенном виде; в) Определите по МНК коэффициенты приведенных уравнений; г) совпадают ли знаки найденных коэффициентов с предполагаемыми теоретически?; д) на основе найденных приведенных коэффициентов по КМНК определите структурные коэффициенты для функции спроса; е) можно ли по МНК оценить структурные коэффициенты для функции предложения? Если да, то как? 19.3. Рассматривается следующая система одновременных уравнений: qt=b0+b1pt+b2it+εt qt=a1pt+υt а)Выделите экзогенные и эндогенные переменные в данной модели; б)Пусть по статистическим данным в момент времени t получены следующие результаты: ∑q 2=110, ∑p2=50, ∑i2=100, ∑i2=100, ∑q∙p=100, ∑qi=90, ∑pi=100. На основе МНК найдите оценку параметра a1. в) Найдите оценку параметра а1 на основе КМНК по методу ДМНК. г)Сравните найденные оценки. 19.4. К системе уравнений вида Y1=a11x1+b12y2+ε1 Y2=a22x2+b21y1+ε2, приведен КМНК и для коэффициентов приведенной формы 150 Y1=c11x1+c12x2+v1 , Y2=c21x1+c22x2+v2 получены следующие оценки: c11=2,2; c12=0,4; c21=0,08; c22=-0,5. Найдите оценки ДМНК, примененного к структурной модели. 19.5. Дана следующая структурная модель:  y1  b13 y 3  a11 x1  a13 x3   y 2  b21 y1  b23 y 3  a 22 x 2 y  b y  a x  a x 32 2 31 1 33 3  3 а) Оценить данную систему на идентификацию. б) Исходя из следующей приведенной формы модели  y1  2 x  4 x2  10 x3   y 2  3x1  6 x2  2 x3  y  5 x  8 x  5 x 1 2 3  3 найти структурные коэффициенты модели. 19.6. Изучается модель вида yt=a1+b1(ct+dt)+  1t ct=a2+b2yt+b3yt-1+  2t где yt – валовой национальный доход, yt-1 – ВНП dt- конечный спрос. Имеется информация за девять лет: dt yt-1 yt ct 1 -6,8 46,7 3,1 7,4 2 22,4 3,1 22,8 30,4 3 -17.3 22,8 7,8 1,3 4 12,0 7,8 21,4 8,7 5 5,9 21,4 17,8 25 предшествующего года, ct – личное потребление, 6 7 8 9 ∑ dt 44,7 23,1 51,2 32,3 167,5 yt-1 17,8 37,2 35,7 46,6 239,1 yt ct 37,2 35,7 46,6 56,0 248,4 8,6 30,0 31,4 39,1 182,7 Для данной модели была получена система приведенных уравнений: yt=8,219+0,6688dt+0,2610yt-1 ct=8,634+0,3384dt+0,2020yt-1 Требуется: 1) Провести идентификацию модели. 2) Рассчитать параметры первого уравнения структурной модели. 19.7. Применив необходимое и достаточное условие идентификации определите идентифицировано ли каждое из уравнений модели. Определите метод оценки параметров и запишите приведенную форму модели: 1. Модель денежного рынка: Rt=a1+b11Mt+b12yt+εt Yt=a2+b21+Rt+b22It+εt где R- процентная ставка, Y- ВВП, M-денежная масса, I-внутренние инвестиции, t-текущий период. 2.Макроэкономическая модель (модель Клейна) Ct=a1+b12Yt+b13Tt+ε1 It=a2+b21Yt+b24Kt-1+ ε2 Yt=It+Ct где C- потребление, I-инвестиции, Y-доход, T-налоги, K-запас капитала. 3. Модель протекционизма Сальватора (упрошенная версия): Mt=a1+b12Nt+b13St+b14Et-1+ ε1 Nt=a2+b21Mt+b23St+b26Yt+ ε2 St=a3+b31Mt+b32Nt+b37Xt+ ε3, где M- доля импорта в ВВП; N- общее число прошений об освобождении от таможенных пошлин; S- число удовлетворительных прошений об освобождении от таможенных пошлин; E- фиктивная 151 переменная, равная 1 для тех лет, в которую курс доллара на международных валютных рынках был искусственно завышен, и 0 - для всех остальных лет; Y- реальный ВВП, X-реальный объем чистого экспорта. 4.Гипотетическая модель экономики: Ct=a1+b11Yt+b12It+ ε1 It=a2+b21Yt-1+ ε2 Tt=a3+b31Yt+ ε3 Yt=Ct+It+Gt, где совокупность потребления, Y-совокупный доход, I-инвестиции, T- налоги, G- государственные доходы ( все в период t). Тесты по эконометрике. 1. Использование в эконометрическом моделировании парной регрессии вместо множественной является ошибкой… а) измерения; б) выборки; в) линеаризации; г) спецификации. 2. Отбор факторов в эконометрическую модель множественной регрессии может быть осуществлена на основе… а) значение коэффициентов автокорреляции уровней ряда различных порядков; б) матрицы парных коэффициентов корреляции; в) сравнения коэффициентов "чистой" регрессии; г) сравнения остаточной дисперсии до и после включения фактора в модель. ( Укажите не менее двух вариантов) 3. Для оценки заработной платы некоторого работника используется следующая модель Y1    1 X i   1 Di   2 Ci   3 S i   4Wi   i , где Y1 - заработная плата t-работника; X i - общий стаж его работы на данном предприятии; Di - количество лет, потраченных работником на профессиональное обучение ( в том числе и повышение квалификации ); C i - переменная, принимающая значение 1, если у работника есть дети и 0 если нет; S i - переменная имеющая значение 1, если работник мужчина и 0, если женщина; Wi - количество должностей, который сменил работник на различных предприятиях в течении последнего года. Сколько факторов необходимо представить в модели фиктивными переменными? Выведите ответ. 4. Для уравнения множественной регрессии y  a  b1 x1  b2 x 2  b3 x3   построено частное уравнение вида y  a  b1 x1  b2 x2  b3 x3   , в котором x 2 и x 3 … а) приравнены к 1; б) закреплены на неизменном уровне; в) являются изменяемыми факторными переменными; не оказывают существенное влияние на y . 5. Метод наименьших квадратов применим к уравнениям регрессии… а) которые отражают нелинейную зависимость между двумя экономическими показателями, но могут быть приведены к линейному виду; б) которые отражают линейную зависимость между двумя экономическими показателями; в) которые отражают нелинейную зависимость между двумя экономическими показателями и не могут быть приведены к линейному виду; г) нелинейного вида. 6. Если предпосылки метода наименьших квадратов нарушены, то… а) коэффициент регрессии является несущественным; б) полученное уравнение статистически не значимо; в) оценки параметров могут не обладать свойствами эффективности, состоятельности и несмещенности; г) коэффициент корреляции является несущественным. 7. Несмещенность оценки характеризуется…(Укажите не менее двух вариантов) а) зависимостью от объема выборки значения математического ожидания остатков; б) максимальной дисперсией остатков; в) отсутствием накопления остатков при большом числе выборочных оцениваний; 152 г) равенством нулю математического ожидания остатков. 8. Обобщенный МНК применяется в случае… а) наличия в модели фиктивных переменных; б) наличия в модели мультиколлинеарности; в) наличия в остатках гетероскедастичности или автокорреляции; г) наличия в модели незначимых оценок. 9. Для значимости спроса на некоторый товар от цены за единицу товара и дохода потребителя получено уравнение регрессии вида y  a  b1  x1  b2  x2   . Парными коэффициентами корреляции могут быть а) rx1x2 ; б) Ryx1x2 ; в) ryx1 ; г) R yx2 1x2 . 10. Критическое (табличное) значение F-критерия является пороговым значением для определения… а) доли дисперсии зависимой переменной, не объясняемой с помощью построения модели, а вызванной влиянием случайных воздействий ; б) статистической значимости построения моделей; в) доли дисперсии зависимой переменной, объясняемой с помощью построенной модели; г) значимости (существенности) моделируемой связи между зависимой переменной и совокупностью независимых переменных эконометрической модели. 11. Если коэффициент регрессии является несущественным, то его значение приравнивается а) к нулю и соответствующий фактор включается в модель; б) к табличному значению и соответствующий фактор не включается в модель; в) к нулю и соответствующий фактор не включается в модель; г) к единице и не влияет на результат. 12. Пусть зависимость выпуска (Y) от затрат капитала (K) и труда (L) описывается функцией Кобба-Дугласа Y  AK  L . Тогда… а) эластичность выпуска по затратам труда равна α; б) эластичность выпуска по затратам труда равна β; в) эластичность выпуска по затратам капитала равна β; г) эластичность выпуска по затратам капитала равна α. (Укажите не менее двух вариантов). 13.Установите соответствие между названием модели и видом ее уравнения: 1. гипербола а) y  a  b1  x1  c  x 2  d  x3   б) y  a  b1  x  c  x 2  d  x 3   в) y  a  b  x   b 4. линейная г) y  a    x (Укажите соответствие для каждого нумерованного элемента задания). 14.Линеаризация экспоненциальной зависимости Y  a0  X 01   (кривой Энгеля, отражающей зависимость спроса от уровня семейных доходов) основана на… а) разложение функции в ряд; б) дифференцирование функции по параметрам; в) интегрировании функции по параметрам; г) логарифмировании и замене преобразованной переменной. 15. Относительные отклонения расчѐтных значений результирующего признака от его наблюдаемых значений используются при расчете… а) параметров регрессии; б) t-критерия Стьюдента; в) средней ошибки аппроксимации; г) коэффициента эластичности. 16. Факторы, описывающие трендовую компоненту временного ряда характеризуются… а) долговременным воздействием на экономический показатель; б) периодическим воздействием на величину экономического показателя; в) возможностью расчета значения компонента с помощью аналитической функции от времени; г) случайным воздействием на уровень временного ряда. (Укажите не менее двух вариантов ответа). 2. парабола третьего порядка 3. многофакторная 153 17. Область значений автокорреляционной функции представляет собой промежуток… а) (-1,1); б) [-1,0]; в) [-1,1]; г) [0,1]. 18. Построение модели временного ряда может быть осуществлено с использованием… а) критерия Дарбина-Уотсона; б) аддитивной модели; в) мультипликативной модели; г) метода последовательных разностей. 19. При моделировании временных рядов экономических показателей необходимо учитывать характер уровней исследуемых показателей… а) конструктивный; б) аналитический; в) независящий от времени; г) стохастичный. 20. Для оценки коэффициентов структурной формы моделей не применяют ______ метод наименьших квадратов. а) косвенный; б) трѐхшаговый; в) двухшаговый; г) обычный. 21. Согласно предпосылке теоремы Гаусса-Маркова дисперсии случайных возмущений в уравнениях наблюдений должны быть… а) равными; б) различными; в) нулевыми; г) случайными. 22. Если справедлива гипотеза H 0 : b  0 , относительно коэффициента b модели парной регрессии, то независимая переменная x является… а) значимой; б) незначимой; в) необходимой; г) желательной. 23. Для оценки точности оптимального прогноза зависимой переменной, нужно знать… а) прогнозное значение зависимой переменной; б) оценку дисперсии случайного возмущения; в) параметры модели; г) коэффициент детерминации. 24. Наличие незначащей объясняющей переменной в функции регрессии влечет… а) неадекватность модели; б) неравенство нулю математических ожиданий случайных возмущений; в) некоррелированность независимых переменных; г) снижение точности коэффициентов регрессии. 25. Если в модели присутствуют лаговые зависимые переменные, то это… а) линейная модель; б) нелинейная модель; в) модель со случайными возмущениями; г) динамическая модель. 26. Состояние экономики в момент времени t описывается следующими характеристиками: Yt - валовой внутренний продукт, C t -уровень потребления, I t -величина инвестиций, Gt государственные расходы, Tt -величина налогов, Rt -реальная ставка процентов. При этом величина инвестиций зависит от реальной ставки процента в предыдущем периоде, то есть в системе к предопределенным переменным системы относится лаговая экзогенная переменная. Приведенное утверждение справедливо для модели… Ct  a0  a1  (Yt  Tt )   1 Ct  a0  a1  (Yt  Tt )  t   а) I t  b0  b1  Yt  b2  Rt 1   2 б) I t  b0  b1  Yt  b2  Rt Y  C  I  G Y  C  I  G t t t t t t  t  t Ct  a0  a1  (Yt  Tt )   t 1  в) I t  b0  b1  Yt  b2  Rt   t 1 Y  C  I  G t t t  t Ct  a0  a1  (Yt  Tt )   1  г) I t  b0  b1  Yt 1  b2  Rt   2 Y  C  I  G t t t  t 154 Приложение 1. Значения функций: ф( x)  x 0,00 01 02 03 04 05 06 07 08 09 0.10 11 12 13 14 15 16 17 18 19 0.20 21 22 23 24 25 26 27 28 29 0,30 31 32 33 34 35 36 37 38 39 1 2 e  x2 2 1 , Ф( x)  ф(х) Ф(x) x ф(х) Ф(х) 0.3989 3989 3989 3988 3986 3984 3982 3980 3977 3973 0,3970 3965 3961 3956 3951 3945 3939 3932 3925 3918 0,3910 3902 3894 3885 3876 3867 3857 3847 3836 3825 0,3814 3802 3790 3778 3765 3752 3739 3726 3712 3697 0,0000 0040 0080 0120 0160 0199 0239 0279 0319 0359 0,0398 0438 0478 0517 0557 0596 0636 0675 0714 0753 0,0793 0832 0871 0910 0948 0987 1026 1064 1103 1141 0,1179 1217 1255 1293 1331 1368 1406 1443 1480 1517 0,40 41 42 43 44 45 46 47 48 49 0,50 51 52 53 54 55 56 57 58 59 0,60 61 62 63 64 65 66 67 68 69 0,70 71 72 73 74 75 76 77 78 79 0,3683 . 3668 3653 3637 3621 3605 3589 3572 3555 3538 0,3521 3503 3485 3467 3448 3429 3410 3391 3372 3352 0,3332 3312 3292 3271 3251 3230 3209 3187 3166 3144 0,3123 3101 3079 3056 3034 3011 2989 2966 2943 2920 0.1554 1591 1628 1664 1700 1736 1772 1808 1844 1879 0,1915 1950 1985 2019 2054 2088 2123 2157 2190 2224 0,2257 2291 2324 2357 2389 2422 2454 2486 2517 2549 0,2580 2611 2642 2673 2703 2734 2764 2794 2823 2852 2 x 0,80 81 82 83 84 85 86 87 88 89 0,90 91 92 93 94 95 96 97 98 99 1,00 01 02 03 04 05 06 07 08 09 0,10 11 12 13 14 15 16 17 18 19 x e  t2 2 dt 0 ф(х) Ф(x) 0,2897 2874 2850 2827 2803 2780 2756 2732 2709 2685 0,2661 2637 2613 2589 2565 2541 2516 2492 2468 2444 0,2420 2396 2371 2347 2323 2299 2275 2251 2227 2203 0,2179 2155 2131 2107 2083 2059 2036 2012 1989 1965 0,2881 2910 2939 2967 2995 3023 3051 3078 3106 3133 0,3159 3186 3212 3238 3264 3289 3315 3340 3365 3389 0,3413 3438 3461 3485 3508 3531 3554 3577 3599 3621 0,3643 3665 3686 3708 3729 3749 3770 3790 3810 3830 155 Продолжение X ф(Х) Ф(Х) X 1,20 1,21 22 23 24 25 26 27 28 29 1,30 31 32 33 34 35 36 37 38 39 1,40 41 42 43 44 45 46 47 48 49 1,50 51 52 53 54 55 56 57 58 59 1,60 61 62 63 64 65 66 67 68 69 0,1942 0,1919 1895 1872 1849 18261804 1781 1758 1736 0,1714 1691 1669 1647 1626 1604 1582 1561 1539 1518 0,1497 1476 1456 1435 1415 1394 1374 1354 1334 1315 0,1295 1276 1257 1238 1219 1200 1182 1163 1145 1127 0,1109 1092 1074 1057 1040 1023 1006 0989 0973 0957 0,3849 0,3869 3888 3907 3925 3944 3962 3980 3997 4015 0,4032 4049 4066 4082 4099 4115 4131 4147 4162 4177 0,4192 4207 4222 4236 4251 4265 4279 4292 4306 4319 0,4332 4345 4357 4370 4382 4394 4406 4418 4429 4441 0,4452 4463 4474 4484 4495 4505 4515 4525 4535 4545 1,70 1,71 72 73 74 75 76 77 78 79 1,80 81 82 83 84 85 86 87 88 89 1,90 91 92 93 94 95 96 97 98 99 2,00 02 04 06 08 10 12 14 16 18 2,20 22 24 26 28 30 32 34 36 38 ф (х) Ф (Х) X ф (Х) Ф (Х) 0,0941 0,0925 0909 0893 0878 0863 0848 0833 0818 0804 0,0790 0775 0761 0748 0734 0721 0707 0694 0681 0669 0,0656 0644 0632 0620 0608 0596 0584 0573 0562 0551 0,0540 0519 0498 0478 0459 0440 0422 0404 0387 0371 0,0355 0339 0325 0310 0297 0283 0270 0258 0246 02535 0,4554 0,4564 4573 4582 4591 4599 4608 4616 4625 4633 0,4641 4649 4656 4664 4671 4678 4686 4693 4699 4706 0,4713 4719 4726 4732 4738 4744 4750 4756 4761 4767 0,4772 4783 4793 4803 4812 4821 4830 4838 4846 4854 0,4861 4868 4875 4881 4887 4893 4898 4904 4909 4913 2,40 42 44 46 48 50 52 54 56 58 2,60 62 64 66 68 70 72 74 76 78 2,80 82 84 86 88 90 92 94 96 98 3,00 0.0224 0,0213 0203 0194 0184 0175 0167 0158 0151 0143 0,0136 0129 0122 0116 0110 0104 0099 0093 0088 0084 0,0079 0075 0071 0067 0063 0060 0056 0053 ОО50 0047 0,00443 0,4918 0,4922 4927 4931 4934 4938 4941 4945 4948 4951 0,4953 4956 4959 4961 4963 4965 4967 4969 4971 4973 0,4974 4976 4977 4979 4980 4981 4982 4984 , 4985 4986 0,49865 3,10 3,20 00327 00238 49903 49931 3,30 3,40 00172 00123 49952 49966 3,50 00087 49977 3,60 3,70 3,80 О0О61 00042 00029 49984 49989 49993 3,90 4,00 00020 0,0001338 49995 499968 4,50 5,00 0000160 0000015 499997 4999997 156 Приложение 2 Таблица значений q=q (γ,n) γ 0,9 5 0,99 0,999 n 5 1,37 2,67 5,64 6 7 1,09 0,92 2,01 1,62 8 9 10 11 12 13 14 15 16 17 18 19 0,80 0,71 0,65 0,59 0,55 0,52 0,48 0,46 0,44 0,42 0,40 0,39 1,38 1,20 1,08 0,98 0,90 0,83 0,78 0,73 0,70 0,66 0,63 0,60 n γ 0,95 0,99 0,999 20 0,37 0,58 0,88 3,88 2,98 25 30 0,32 0,28 0,49 0,43 0,73 0,63 2,42 2,06 1,80 1,60 1,45 1,33 1,23 1,15 1,07 1,01 0,96 0,92 35 40 45 50 60 70 80 90 100 150 200 -250 0,26 0,24 0,22 0,21 0,188 0,174 0,161 0,151 0,143 0,115 0,099 0,089 0,38 0,35 0,32 0,30 0,269 0,245 0,226 0,211 0,198 0.160 0,136 0.120 0,56 0,50 0.46 0,43 0,38 0,34 0,31 0,29 0,27 0,221 0,185 0,162 Приложение 3 Критические точки t – распределения Стьюдента Число степеней Уровень значимости α (двусторонняя критическая область) свободы, н 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 0,10 6,31 2,92 2,35 2,13 2,01 1,94 1,89 1,86 1,83 1,81 1,80 1,78 1,771,76 1,75 1,75 1,74 1,73 1,73 1,73 1,72 1,72 1,71 0,05 12,7 4,30 3,18 2,78 2,57 2,45 2,36 2,31 2,26 2,23 2,20 2,18 2,16 2,14 2,13 2,12 2,11 2,10 2,09 2,09 2,08 2,07 2,07 0,02 31,82 6,97 4,54 3,75 3,37 3,14 3,00 2,90 2,82 2,76 2,72 2,68 2,65 2,62 2,60 2,58 2,57 2,55 2,54 2,53 2,52 2,51 2,50 0,01 63,7 9,92 5,84 4,60 4,03 3,71 3,50 3,36 3,25 3,17 3,11 3,05 3,01 2,98 2,95 2,92 2,90 2,88 2,86 2,85 2,83 2,82 2,81 0,002 318,3 22,33 10,22 7,17 5,89 5,21 4,79 4,50 4,30 4,14 4,03 3,93 3,85 3,79 3,73 3,69 3,65 3,61 3,58 3,55 3,53 3,51 3,49 0,001 637,0 31,6 12,9 8,61 6,86 5,96 5,40 5,04 4,78 4,59 4,44 4,32 4,22 4,14 4,07 4,01 3,96 3,92 3,88 3,85 3,82 3,79 3,77 157 24 25 26 27 28 29 30 40 60 120 ∞ 1,71 2,06 2,49 2,80 3,47 3,74 1,71 2,06 2,49 2,79 3,45 3,72 1,71 2,06 2,48 2,78 3,44 3,71 1,71 2,05 2,47 2,77 3,42 3,69 1,70 '2,05 2,46 2,76 3,40 3,66 1,70 2,05 2,46 2,76 3,40 3,66 1,70 2,04 2,46 2,75 3,39 3,65 1,68 2,02 2,42 2,70 3,31 3,55 1,67 2,00 2,39 2,66 3,23 3,46 1,66 1,98 2,36 2,62 3,17 3,37 1,64 1,96 2,33 2,58 3,09 3,29 0,05 0,025 0,01 0,005 0,001 0,0005 Уровень значимости а (односторонняя критическая область) Приложения 4 Критические точки χ2 -распределения Пирсона α 0,20 0,10 0,05 0,02 0,01 0,001 1,642 3,219 4,642 5.989 7,289 8,558 9,803 11,030 12,242 13,442 14,631 15,812 16,985 18,151 19,311 20,465 21,615 22,760 23,900 25,038 26,171 27,301 28,429 29,553 30,675 31,795 32,912 34,027 35,139 36,250 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 17,275 18,549 19,812 21,064 22.307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16.919 18,307 19,675 21.026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38.885 40,113 41,337 42,557 43,773 5,412 7,824 9,837 11,668 13,388 15,033 16,622 18,168 19.679 21,161 22,618 24,054 25,472 26,783 28,259 29,633 30,995 32,346 33,687 35,020 36,343 37,659 38,968 40,270 41,566 42,856 44,140 45,419 46,693 47,962 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36.191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892 10,827 13,815 16.266 18,467 20,515 22,457 24,322 26,125 27,877 29.588 31,264 32,909 34,528 36,123 37,697 39,252 40,790 42,312 43,820 45.315 46,797 48,268 49,728 51,179 52,620 54,052 55,476 56,893 58,302 59,703 n 1 2 3 4 5 6 7 8 9 10 1! 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 158 Приложение 5 Критические точки распределения F Фишера- Снедекора(v1- число степеней свободы большей дисперсии, v2- число степеней свободы меньшей дисперсии ),уровень значимости α=0,05 4 5 6 7 8 9 10 12 16 20 24 30 50 100 ∞ 216 225 230 234 237 239 241 242 244 246 248 249 250 252 253 254 19,00 19,16 19,25 19,30 19,33 19,36 19.37 19,38 19,39 19,41 19,43 19.44 19,45 19,46 19,47 19,49 19,50 10,13 9,55 9,28 9,12 9,01 8,94 8,88 8.84 8,81 8,78 8,74 8,69 8.66 8,64 8,62 8,58 8,56 8,53 4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,84 5,80 5,77 5,74 5,70 5,66 5,63 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,78 4,74 4,68 4,60 4,56 4,53 4,50 4,44 4,40 4,36 6 5.99 5,14 4,76 4,53 4,39 4,28 4,21 4.15 4,10 4,06 4,00 3,92 3,87 3,84 3,81 3,75 3,71 3,67 7 5,59 4,74 4.35 4,12 3,97 3,87 3,79 3,73 3,68 3,63 3,57 3,49 3,44 3,41 3,38 3,32 3,28 3,23 8 5,32 4,46 4.07 3,84 3,69 3,58 3.50 3,44 3,39 3,34 3,28 3,20 3,15 3,12 3,08 3,03 2,98 2,93 9 5,12 4,26 3.86 3,63 3,48 3,37 3.29 3,23 3,18 3,13 3,07 2,98 2,93 2,90 2,86 2,80 2,76 2,71 10 4,96 4,10 3.71 3,48 3,33 3,22 3,14 3,07 3,02 2,97 2,91 2,82 2,77 2,74 2,70 2,64 2,59 2,54 11 4,84 3,98 3.59 3,36 3,20 3,09 3.01 2,95 2,90 2,86 2,79 2,70 2,65 2,61 2,57 2,50 2,45 2,40 12 4,75 3,88 3,49 3,26 3,11 3,00 2,92 2,85 2,80 2,76 2,69 2,60 2,54 2,50 2,46 2,40 2,35 2,30 13 4.67 3,80 3,41 3,18 3,02 2,92 2,84 2,77 2,72 2,67 2,60 2.51 2,46 2,42 2,38 2,32 2,26 2,21 14 4,60 3,74 3,34 3,11 2,96 2,85 2,77 2,70 2,65 2,60 2,53 2.44 2,39 2,35 2,31 2,24 2,19 2,13 15 4,54 3.68 3,29 3,06 2,90 2,79 2,70 2,64 2,59 2,55 2,48 2,39 2,33 2,29 2,25 2,18 2,12 2,67 16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2.42 2,33 2,28 2,24 2,20 2,13 2,07 2,01 17 4,45 3.59 3,20 2,96 2,81 2,70 2,62 2.55 2,50 2,45 2.38 2,29 2,23 2,19 2,15 2,08 2,02 1,96 18 4,41 3.55- 3,16 2,93 2,77 2,66 2,58 2.51 2,46 2,41 2.34 2,25 2,19 2,15 2,11 2,04 1,98 1,92 19 4,38 3.52 3,13 2,90 2,74 2,63 2,55 2,48 2,43 2,38 2,31 2,21 2,15 2.11 2,07 2,00 1,94 1,88 20 4,35 3.49 3.10 2,87 2,71 2,60 2,52 2,45 2,40 2,35 2,28 2,18 2,12 2,08 2,04 1,96 1,90 1,84 22 4,30 3.44 3.05 2,82 2,66 2,55 2,47 2,40 2,35 2,30 2,23 2,13 2,07 2,03 1,98 1,91 1,84 1,78 24 4,26 3.40 3.01 2,78 2,62 2,51 2,43 2,36 2,30 2,26 2,18 2,09 2,02 1,98 1,94 1,86 1,80 1,73 26 4,22 3.37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2.22 2,15 2,05 1,99 1,95 1,90 1,82 1,76 1,69 28 4,20 3,34 2.95 2.71 2,56 2,44 2,36 2,29 2,24 2,19 2,12 2,02 1,96 1,91 1,87 1,78 1,72 1,65 32 4,15 3,30 2,90 2.67 2,51 2,40 2,32 2,25 2,19 2,14 2,07 1,97 1,91 1,86 1,82 1,74 1,67 1,59 36 4,11 3.26 2,862 632.63 2,48 2,36 2,28 2,21 2,15 2,10 2,03 1,93 1,87 1,82 1,78 1,69 1,62 1,55 40 4,08 3.23 2,84 2.61 2,45 2,34 2,25 2,18 2,12 2,07 2,00 1,90 1,84 1,79 1,74 1,66 1,59 1,51 60 4,00 3.15 2.76 2.52 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,81 1,75 1,70 1,65 1,56 1,48 1,39 100 3,94 3.09 2,70 2.46 2,30 2,19 2,10 2,03 1,97 1,92 1,85 1.75 1,68 1,63 1,57 1,48 1,39 1,28 200 3,89 3.04 2,65 2.41 2.26 2,14 2.05 1,98 1,92 1,87 1,80 1.69 1,62 1,57 1,52 1,42 1,32 1,19 2.21 2.09 1,46 1,35 1,24 1,00 ∞ 3,84 2.99 2.01 1,94 1,83 1,75 1,64 1,57 1,52 1 2 1 161 200 2 18,51 3 3 2.60 2,37 1.88 159 Приложение 6 Значения dн и dB критерия Дарбина—Уотсона на уровне значимости α = 0,05 (n -число наблюдений, р — число объясняющих переменных) Р=1 dн dB dн dB р=3 dн 1,08 1,10 1,13 1,16 1,18 1,20 1,22 1,24 1,26 1,27 1,29 1,30 1,32 1,33 1,34 1,35 1.36 1,37 1,38 1,39 1,40 1.4! 1,42 1,43 1,43 1,44 1,48 1,50 1,53 1.55 1,57 1,58 1,60 1,61 1,62 1,63 1,64 1,65 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,45 1,46 1,47 1,48 1,48 1.49 1,50 1,50 1,51 1,51 1,52 1,52 1,53 1,54 1,54 1,54 1,57 1,59 1,60 1,62 1,63 1,64 1,65 1,66 1,67 1,68 1,69 1,69 0,95 0,98 1,02 1,05 1,08 1,10 1,13 1,15 1,17 1,19 1,21 1,22 1,24 1,26 1,27 1,28 1,30 1,31 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,43 1,46 1,49 1,51 1,54 1,55 1,57 1,59 1,60 1,61 1,62 1,63 1,54 1,54 1,54 1,53 1,53 1,54 1,54 1,54 1,54 1,55 1,55 1,55 1,56 1,56 1,56 1,57 1,57 1,57 1,58 1.58 1,58 1,59 1,59 1.59 1,60 1,60 1,62 1,63 1,64 1,65 1,66 1,67 1.68 1,69 1,70 1,70 1,71 1,72 0,82 0,86 0,90 0,93 0,97 1,00 1,03 1,05 1,08 1,10 1,12 1,14 1,16 1,18 1,20 1,21 1,23 1,34 1,26 1,27 1,28 1,29 1,31 1,32 1,33 1,34 1,38 1,42 1,45 1.58 1,50 1,52 1,54 1,56 1,57 1,59 1,60 1,61 n 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 45 50 55 60 65 70 75 80 85 90 95 100 Р=2 р=5 p=4 dB dн dB dн dB 1,75 1,73 1,71 1,69 1,68 1,68 1,67 1,66 1,66 1,66 1,66 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,66 1,66 1,66 1,66 1,67 1,67 1,68 1,69 1,70 1,70 1,71 1,72 1,72 1,73 1,73 1,74 0,69 0,74 1,78 0,82 0,85 0,90 0,93 0,96 0,99 1,01 1,04 1,06 1,08 1,10 1,12 1,14 1,16 1,18 1,19 1,21 1,22 1,24 1,25 1,26 1,27 1,29 1,34 1,38 1,41 1,44 1,47 1,49 1.51 1,53 1,55 1,57 1,58 1,59 1,97 1,93 1,90 1,87 1,85 1,83 1,81 1,80 1,79 1,78 1,77 1,76 1,76 1,75 1,74 1,74 1,74 1,73 1,73 1,73 1,73 1,73 1,72 1,72 1,72 1,72 1,72 1,72 1,72 1,73 1,73 1,74 1,74 1,74 1,75 1,75 1,75 1,76 0,56 0,62 0,67 0,71 0,75 0,79 0,83 0,86 0,90 0,93 0,95 0,98 1,01 1,03 1.05 1,07 1,09 1,11 1,13 1,15 1,16 1,18 1,19 1,21 1,22 1,23 1,29 1,34 1,38 1,41 1,44 1,46 1,49 1,51 1,52 1,54 1,56 1,57 2,21 2,15 2,10 2,06 2,02 1,99 1,96 1,94 1,92 1,99 1,89 1,88 1,86 1,85 1,84 1,83 1,83 1,82 1,81 1,81 1,80 1,80 1,80 1,79 1,79 1,79 1,78 1,77 1,77 1,77 1,77 1,77 1,77 1,77 1,77 1,78 1,78 1,78 160 Литература 1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998. 2. Айвазян С.А. Основы эконометрики. Учебник для вузов. – М.: ЮНИТИ – ДАНА, 2001. 3. Боровков А.А. Теория вероятностей. М.: УРСС. 2003. 4. Бородич С.А. Эконометрика: учебное пособие. – Мн.: Новое знание, 2001. 5. Бившев В.А. Введение в эконометрику. Финансовая Академия при правительстве РФ.- М.: 2003. 6. Гмурман В.Е. Теория вероятностей и математическая статистика. – М.: Высшая школа,1998. 7. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике. – М.: Высшая школа, 1998. 8. Гнеденко Б.В. Курс теории вероятностей. М.: УРСС. 2001. 9. Горелова Г.В., Капко Н.А. Теория вероятностей и математическая статистика в примерах и задачах с применением EXCEL. – Ростов н/Д: Феникс, 2002. 10. Доугерти К. Введение в эконометрику: - Учебник для вузов, М.: Инфа-М, 2001. 11. Драгилев М.Ш. Лекции по теории вероятностей М.: Вузовская книга, 2002. 12. Зайнулабидов Г.М. Основы теории вероятностей и математической статистики, - Махачкала, ДГПУ, 1998. 13. Красс Л.С., Чупрынов Б.П. Математика для экономистов. – СПб: Питер, 2001. 14. Кремер Н.Ш., Путко Б.А. Эконометрика: учебник для вузов. – М.: ЮНИТИ-ДАНА, 2002. 15. Магнус Я.Р. и другие. Эконометрика. Начальный курс. Учебник для вузов. - М.: Дело,2000. 16. Мардас А.Н. Эконометрика. СПб: Питер, 2001. 17. Овчаренко Е.К. и другие. Финансово-экономические расчеты в EXCEL.– М.:Филинъ,1998. 18. Плис А.И., Сливина Н.А. MACHCAD. Математический практикум для иженеров и экономистов. – М.: Финансы и статистика, 2003. 19. Практикум по эконометрике под редакцией Елисеевой И.И. – М.: Финансы и статистика, 2001. 20. Пугачев В.С. Теория вероятностей и математическая статистика. М.: Физматлит, 2002. 21. Сигел Э.Ф. Практическая бизнес-статистика. М.: Вильямс, 2002. 22. Чистяков В.П. Курс теории вероятностей. М.: Агар,2000. 23. Шапкин А.С. Задачи с решениями по высшей математике, теории вероятностей, математической статистике, математическому программированию. Учебное пособие: - М.: «Дашков и Ко»,2006. 24. Эконометрика. Учебник для вузов. Под ред. И.И. Елисеевой: - М.: Финансы и статистика, 2006. 161 Оглавление Введение……………………………………………………….…………………………………………….4 Глава 1. Теория вероятностей Лекция 1. Предмет теории вероятностей. Основные определения…………………...............................5 Лекция 2. Основные формулы комбинаторики, применяемые в теории вероятностей……….………9 Лекция 3. Основные теоремы теории вероятностей………………………………………………….....12 Лекции 4-5. Основные формулы теории вероятностей.……………….. ……………………………....15 Лекции 6-7. Случайные величины и их числовые характеристики…………………………………....23 Лекции 8-9. Основные законы распределения непрерывных случайных величин…………………...32 Лекция 10. Закон больших чисел…………………………………………………………………………37 Тесты и итоговое контрольное задание………………………………………….……………………....40 Глава 2. Математическая статистика Лекции 10. Основные понятия, определения и методы. Способы представления статистических данных……………………………………………………………………………………………………...43 Лекции 11-12. Статистическое оценивание……………………………………….……….……………49 Лекции 13-14. Понятие об интервальных оценках параметров генеральной совокупности. Примеры построения доверительных интервалов………………………….………….56 Лекции 15-16. Статистические гипотезы и примеры их проверки………………………….……..…..61 Лекции 17-18. Элементы дисперсионного анализа……………………………………………………..72 Тесты и итоговое контрольное задание…………………………………………………………………79 Глава 3. Эконометрика Лекция 1. Предмет и задачи эконометрики. Основные типы моделей и данных в эконометрике………………………..……………………………………………………….…81 Лекция 2. Регрессионные модели с одним уравнением. Взаимосвязь экономических переменных. Функциональная, статистическая и корреляционная зависимости……………………………………83 Лекции 3-4. Линейная парная регрессия. Метод наименьших квадратов……………………………..85 Лекции 5-6. Анализ качества уравнения регрессии…………………………………………………..…91 Контрольные задания……………………………………………………………………………………102 Лекции 7-8. Множественная линейная регрессия. Контрольные задания……………………………………………………………………………………112 Лекции 9-10. Обобщенная классическая модель множественной регрессии (ОКММР). Гетероскедастичность и автокорреляция................................................................................................113 Лекции 11-12. Некоторые модели и методы регрессионного анализа, выходящие за рамки ОКММР…………………………………………………………………………………………….....….120 Лекция 13. Нелинейные регрессионные модели ………………………..………………….................127 Лекции 14-16. Анализ временных рядов………………………............................................................130 Лекции 17-18. Системы одновременных уравнений………………….................................................143 Задачи и тесты по эконометрике……………………………………………………………………….153 Приложения………………………………………………………………………………………….…..156 Литература…………………………………………………………………………………………….…161 Оглавление……………………………………………………………………………………………….162 162

№ 8 Предмет математической статистики

Похожие документы

Разделы

Поддержка

№ 8 Предмет математической статистики

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib