ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА для студентов экономического факультета

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ РФ ФГОУ ВПО «СИБИРСКИЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ» Т. В. Крупкина, С. В. Бабенышев, Е. С. Кирик ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА для студентов экономического факультета Учебное пособие СФУ 2007 УДК ББК 000.000 22.17я73 К 84 Рецензенты Т. В. Крупкина К 84 Теория вероятностей и математическая статистика: учебное пособие / Т. В. Крупкина, С. В. Бабенышев, Е. С. Кирик. Сибирский федеральный университет. Красноярск: 2007. 199 с. ISBN 0-0000-0000-0 Посвящено курсу «Теория вероятностей и математическая статистика», рассмотрены основные понятия теории вероятностей и классические статистические процедуры, связанные с оцениванием параметров и проверкой статистических гипотез. Включает в себя теоретическую основу курса и контрольные вопросы. Предназначено для студентов экономических направлений и специальностей. ISBN 0-0000-0000-0 c Сибирский федеральный университет, 2007 c Т. В. Крупкина, С. В. Бабенышев, Е. С. Кирик. 2007 Принятые обозначения и сокращения. [x] — целая часть числа x. exp x, exp{x} — экспонента аргумента x (exp x = exp{x} = ex ). e — основание натурального логарифма, e = 2, 718 281 828 459 . . . A, B, . . . , X — события. A, B, . . . X — отрицания событий A, B, . . . , X. B ⇔ C, B ⇐⇒ C — «из B следует C и из C следует B». ∃ x — «существует x». ∀ x — «для любого x». @ x — «не существует x». def = — «равно по определению». ≡ — «тождественно равно». J — начало решения. I — конец решения. n, m = n, n + 1, . . . , m при том, что n, m ∈ Z и n < m. N — множество натуральных чисел. Z — множество целых чисел. R — множество вещественных чисел. R+ — множество вещественных чисел. 3 Введение Представленное издание предназначено для обеспечения самостоятельной работы студентов экономического факультета Сибирского федерального университета по изучению теоретического материала в курсе «Теория вероятностей и математическая статистика». Курс занимает один семестр по 4 часа (2 часа лекций и 2 часа практических занятий) в неделю. Структура изложения определена учебным планом: пособие содержит 18 лекций, номер параграфа пособия соответствует номеру лекции. Модуль «Теория вероятностей» состоит из трех разделов: «1. Случайные события» (лекции 1, 2, 3, 4); «2. Одномерные случайные величины» (лекции 5, 6, 7); «3. Многомерные случайные величины» (лекции 8, 9, 10). В разделе 1 излагаются краткие сведения по истории возникновения и развития теории вероятностей, вводятся понятия элементарного и случайного события, условной вероятности, зависимости и независимости событий, рассматриваются основные вероятностные пространства, схемы испытаний и предельные теоремы для них, выводятся простейшие формулы исчисления вероятностей. Раздел 2 посвящен распределениям случайных величин и их числовым характеристикам. Вводятся понятия непрерывных и дискретных случайных величин, функции и плотности распределения, независимости случайных величин, математического ожидания и прочих числовых характеристик одномерной случайной величины, рассматриваются их свойства. В разделе 3 рассматриваются характеристики связи случайных величин. Вводятся понятия коррелированности, условных распределений, регрессии. Выводятся формулы для нахождения характеристик связи в двумерном и многомерном случаях. Рассматриваются сходимость случайных величин, закон больших чисел и центральная предельная теорема. Модуль «Математическая статистика» состоит из двух разделов: «4. Выборочный метод » (лекции 11, 12, 13,); и «5. Оценивание и проверка статистических гипотез» (лекции 14, 15, 16, 17, 18). Раздел 4 посвящен введению в математическую статистику. Рассматриваются выборочные характеристики и методы статистической обработки случайной выборки, вводятся распределения Пирсона, Стьюдента, Фишера, излагаются сведения о распределении выборочных характеристик. В разделе 5 рассматривается точечное и интервальное оценивание параметров, вводятся понятия несмещенных, состоятельных, оптимальных и эффективных оценок, излагаются методы получения оценок. Много внимания уделяется понятию статистической гипотезы и процедурам проверки гипотез. Рассмотриваются как общие подходы к проверке статистической гипотезы, так и критерии проверки наиболее важных гипотез. Все разделы пособия включают широкий набор примеров и контроль4 ных вопросов, которые позволят закрепить и углубить теоретические знания и получить навыки практического использования вероятностных методов в экономических, финансовых и социологических приложениях методов теории вероятностей и математической статистики. Авторы выражают глубокую благодарность А. И. Пыжеву за помощь в подготовке пособия. 5 1. Введение в теорию вероятностей Высшее назначение математики состоит в том, чтобы находить скрытый порядок в хаосе, который нас окружает . Н. Винер1 Лекция 1. Введение в теорию вероятностей План лекции: предмет теории вероятностей, история возникновения и развития, классическое определение вероятности, некоторые формулы комбинаторики. 1.1. Предмет теории вероятностей Предмет теории вероятностей — исследование математическими методами случайных явлений. Основные объекты теории вероятностей — случайные события, случайные величины, случайные процессы, то есть фактически весь окружающий нас мир. Теорию вероятностей используют для изучения поведения сложных систем, то есть систем, которые не допускают полного описания. Все экономические и социальные системы являются в этом смысле сложными. Важно понимать, что процессы формирования цен, подъемов и спадов в экономике являются случайными процессами, так же как уровни безработицы, доходов, курсы валют являются случайными величинами, а факт приобретения покупателем товара — случайным событием. Это не значит, что в случайном нет закономерностей — наоборот, закономерности присутствуют, но они скрыты, и именно теория вероятностей позволяет выявить такие закономерности в экономике, которые никакими другими методами выявлены быть не могут. «Реальность такого рода закономерностей не подлежит никакому сомнению», говорил А. Н. Колмогоров2 . Нельзя предсказать поведение отдельного человека, но можно предсказать поведение системы в целом. Например, нельзя предугадать желание человека позвонить по телефону, но теория массового обслуживания (раздел теории вероятностей) позволяет прогнозировать количество звонков, среднее время, которое потребуется, чтобы дозвониться, и другие характеристики. Теория вероятностей — раздел математики. Возможно, не каждому экономисту придется на практике самому оперировать сложным математическим аппаратом, но каждому требуется понимать суть экономикоматематических моделей и методов, и уметь выбирать адекватные математические модели для реальных случайных явлений экономической природы. 1 Норберт Винер (англ. Wiener Norbert; 1894—1964) — американский учёный, один из создателей кибернетики. 2 Андрей Николаевич Колмогоров (1903—1987) — великий русский математик XX века. 6 1. Введение в теорию вероятностей Для приобретения этих профессиональных компетенций нужна серьезная математическая подготовка, результатом которой будет овладение основными понятиями и методами теории вероятностей и математической статистики, и выработка теоретико-вероятностной интуиции, позволяющей ориентироваться в постановках задач и выбирать подходящие методы для их решения. Основы теории вероятностей нужно знать каждому человеку для формирования правильного мировоззрения, для осознания того, что мы живем в случайном, вероятностном мире. Психология человека такова, что ему неуютно среди случайностей. Он жаждет определенности и справедливости, ищет причин и объяснений. Часто таким образом возникают суеверия: например, среди африканских племен распространено поверье о том, что бывают просто львы и львы, в которых переселились души умерших. Последние на людей не нападают. Это объяснение не несет полезной информации, поскольку нет признаков, по которым заранее можно было бы определить, из какой категории лев, но оно успокаивает психологически. Точно так же появляются известные всем суеверия при сдаче экзаменов. Некоторые суеверия, кстати, основаны на частотных совпадениях (например, мелких неприятностей и встреч с черной кошкой). Это относится и к приметам, которые порой подмечают вероятностные закономерности. Так, поговоркам «Беда никогда не приходит одна» или «Жизнь, она полосатая» соответствует в теории вероятностей закон серий. Следует помнить и то, что мы живем в мире, где происходят случайные события, и то, что закономерности пробиваются через массу случайностей. Чем сложнее система, тем труднее обнаружить закономерности. Именно в этих случаях и используют вероятностные методы. 1.2. История возникновения и развития теории вероятностей Теория вероятностей — необычайно интересная наука, и в ее истории было много замечательных событий. То, что частота выпадения шестерки для каждой кости при большом числе бросков почти постоянна во времени, знали еще древние египтяне. Однако обнаружить, что и в событиях человеческой жизни присутствуют вероятностные закономерности, было гораздо труднее. Впервые это было замечено, видимо, при составлении таблиц смертности. Развитие теории вероятностей как самостоятельной науки началось с середины семнадцатого столетия и связано с письмами Паскаля3 3 Блез Паскаль (фр. Blaise Pascal; 1623—1662) — французский математик, физик, философ и писатель. 7 1. Введение в теорию вероятностей к Ферма4 в 1654 году. Блез Паскаль был, безусловно, гением. В двенадцать лет он самостоятельно открыл геометрию Евклида, в шестнадцать был признан во Франции великим математиком, в двадцать три года изобрел вычислительную машину. Когда врачи запретили ему заниматься умственной работой, разрешив только переписку с друзьями, он посвящал эту переписку вопросам математики. В возрасте тридцати одного года Паскаль принял монашество и отказался от научных занятий, но занимался литературными и философскими трудами, и считается одним из создателей французской классической прозы. Зная, сколько сделал Паскаль в физике, математике, философии, не верится, что он прожил всего тридцать девять лет. По преданию, через сто с лишним лет останки Паскаля отдали алхимикам, чтобы те получили из них философский камень. Но вернемся в 1654 год. Это было время, богатое событиями. В России в этом году Церковный Собор принял реформы патриарха Никона. Состоялась Переяславская Рада и произошло воссоединение Украины с Россией. В Англии был казнен король Карл I и установлен протекторат Кромвеля. Во Франции правили кардинал Мазарини, Анна Австрийская и юный Людовик XIV — времена «Трёх мушкетеров». В это время шевалье де Мере5 задал Паскалю два вопроса, касающихся азартных игр. Этим вопросам и посвящены письма Паскаля к Ферма. Первая задача де Мере состояла в следующем: сколько раз надо бросить две игральные кости, чтобы вероятность выпадения двух шестерок была больше половины? С этой задачей де Мере справился, и Паскаль, обсудив его решение, признал его правильным. Вторая задача оказалась более сложной. Два игрока играют в азартную игру до n выигрышей. Как следует разделить между ними ставку, если игра прервана, когда первый игрок выиграл a партий, а второй b партий? Для решения этой задачи Паскаль ввел основные понятия теории вероятностей. При этом он отчетливо сознавал, что открыл новую область науки. Это видно из письма Паскаля в Парижскую академию, где он, в частности, писал: «Это учение, объединяющее точность математических доказательств с неопределенностью случая и примиряющее эти, казалось бы, противоречивые элементы, с полным правом может претендовать на титул – математика случайного.» В этом же 1654 году в семье швейцарских математиков Бернулли, в 4 Пьер Ферма (фр. Pierre de Fermat; 1601—1665) — французский математик, один из создателей теории чисел, где с его именем связаны две знаменитые теоремы: великая теорема Ферма и малая теорема Ферма. 5 Антуан Гомбо, шевалье де Мере́ (фр. Antoine Gombaud, chevalier de Méré; 1607—1684) — французский писатель и математик. 8 1. Введение в теорию вероятностей трех последовательных поколениях которой было восемь математиков, родился Якоб Бернулли6 . Первая книга, посвященная теории вероятностей, была написана в 1656 году Христианом Гюйгенсом7 , знатным голландским дворянином, красавцем, пренебрегавшим развлечениями света ради физики и математики. Она представляла из себя «рассуждение о приложении теории вероятностей к азартным играм» и содержала множество изящных и точных расчетов. Прошло полвека. В Англии основали Гринвичскую обсерваторию, приняли закон о гарантиях личной свободы (Habeas Corpus Act) и «Билль о правах», заложивший основы английской конституционной монархии. В России стал царствовать Петр I. В Европе шли войны. А Якоб Бернулли написал книгу «Искусство предположений». Важнейшая часть в ней — изложение закона больших чисел, утверждающего, что статистические характеристики, вычисленные на больших совокупностях, являются устойчивыми. Действительно, при единичных наблюдениях проявляются индивидуальные особенности, при массовых наблюдениях они взаимокомпенсируются и выявляется сущность процесса. Статистическая устойчивость средних была замечена давно. Но Якоб Бернулли не только сформулировал закон больших чисел, но и выработал условия, при которых суммарное поведение достаточно большого числа случайных величин становится закономерным. Почему-то Якоб Бернулли не торопился издавать свою книгу. Это сделали его наследники через восемь лет после его смерти, в 1713 году. С этого времени теория вероятностей получила прочный базис для развития. Но он не был использован в полной мере в течение более сотни последующих лет. Вероятно, математики были слишком увлечены развитием дифференциального и интегрального исчислений. Конечно, нельзя сказать что работы в области теории вероятностей прекратились. Большой вклад в нее внес английский математик Абраам де Муавр8 . В 1764 году были посмертно опубликованы работы малоизвестного английского священника Томаса Байеса9 , увековечившие его имя. Бюффон10 , расширил область применения теории, построив пример геометрической вероятности ("Игла Бюффона"). Этот пример позволял экспериментально определить число π, бросая иголку на плоскость, разграфленную 6 Якоб Бернулли (нем. Jakob Bernoulli; 1654—1705) — швейцарский математик, выходец из Голландии. Старший из семьи швейцарских математиков Бернулли 7 Христиан Гюйгенс (Xёйгенс) (нидерл. Huygens Christian; 1629—1695) — голландский механик, физик и математик. 8 Абрам (Абраа́м) де Муавр (фр. Abraham de Moivre; 1667—1754) — английский математик, француз по происхождению. 9 То́мас Ба́йес (Бейес; англ. Reverend Thomas Bayes; 1702—1761) — английский математик и священник. 10 Жорж-Луи Леќлерк Бюффо́н (фр. Georges-Louis Leclerc de Buffon; 1707—1788) — французский естествоиспытатель, автор знаменитой 36-томной «Естественной истории». 9 1. Введение в теорию вероятностей параллельными прямыми, и подсчитывая частоту пересечений иголки с ними. При проведении многочисленных лотерей и в работе страховых компаний накапливался статистический материал. Но только в XIX веке теория вероятностей вновь привлекает внимание крупнейших современных математиков, первым из которых следует назвать Лапласа11 Пьер-Симон Лаплас в жизни был противоречивым человеком. Он родился в бедной семье и попечительством соседей был устроен в школу Ордена Бенедиктинцев, из которой, однако, вышел убежденным атеистом. Получив в 1771 году место профессора в Париже, он не покидал с тех пор этого города, пережив в нем Великую Французскую революцию, эпоху Наполеона и реставрацию Бурбонов. Вначале он был республиканцем, при Наполеоне — министром внутренних дел. Правда, Лаплас вскоре был уволен с этого поста за то, что «...вносил слишком много бесконечно малых в дела государства». Однако ему были предоставлены другие почетные посты и титулы. Несмотря на это, в 1814 году он проголосовал за низложение Наполеона и стал, после Реставрации, пэром и маркизом. Вклад Лапласа в развитие теории вероятностей весьма велик. В его труде «Аналитическая теория вероятностей» основным аппаратом служил математический анализ. Сразу после написания (1812 г.) курьер доставил книгу императору Наполеону в Витебск, император собирался посвятить изучению этой работы первые 3 месяца после взятия Москвы. Эта работа трижды переиздавалась еще при жизни Лапласа. Дальнейшее развитие теории вероятностей связано с именами Гаус12 са и Пуассона13 . Во второй половине XIX века появилась блестящая плеяда русских математиков. Ведущими среди них были П. Л. Чебышёв14 , А. А. Марков15 , А. М. Ляпунов16 Профессор Петербургского университета Пафнутий Львович Чебышев совершил в этой науке переворот, выдвинув требование абсолютной строгости формулировки и доказательств теорем теории вероятностей и получения точных оценок отклонений от предельных закономерностей. Исследования П.Л.Чебышева продолжили его ученики А.А.Марков и А.М.Ляпунов. Их трудами теория вероятностей стала доста11 Пьер-Симон Лаплас (фр. Pierre-Simon Laplace; 1749—1827) — французский математик, физик и астроном. 12 Карл Фридрих Гаусс (нем. Carl Friedrich Gauss; 1777—1855) — немецкий математик. 13 Симео́н-Дени́ Пуассо́н (фр. Siméon-Denis Poisson; 1781—1840) — французский физик, математик. В теории вероятностей с именем Пуассона связано понятие распределения и процесса, носящих его имя, а также закона больших чисел в форме Пуассона. 14 Пафнутий Львович Чебышёв (1821—1894) — величайший, наряду с Н. И. Лобачевским, русский математик XIX века. Математическая школа П. Л. Чебышёва, получившая название Петербургской, сыграла выдающуюся роль в прогрессе математики не только в России, но и в мировом масштабе. 15 Андрей Андреевич Марков (1856—1922) — русский математик. 16 Александр Михайлович Ляпунов (1857—1918) — русский механик и математик. 10 1. Введение в теорию вероятностей точно строгой и разработанной областью науки. Но еще в начале XX века большинство ученых не признавало ее равноправной ветвью математики. По выражению одного из них, теория вероятностей – нечто среднее между математикой, физикой и шаманством. Причиной этого было отсутствие аксиоматического обоснования. В 1900 году на Международном съезде математиков Гильберт17 составил список важнейших нерешенных проблем математики. Это было своеобразное завещание XX веку. В этот список он включил проблему аксиоматического обоснования теории вероятностей. Наиболее интересные попытки решить эту задачу предпринимались русским математиком Бернштейном (1917) и эмигрантом из Германии Мизесом, а удалось это сделать в 1933 году русскому математику Андрею Николаевичу Колмогорову. Система аксиоматического обоснования А.Н.Колмогорова стала общепринятой и служит твердой основой для дальнейшего развития теории вероятностей. 1.3. Классическое определение вероятности Рассмотрим некоторый опыт с конечным числом n взаимоисключающих друг друга исходов, которые равновозможны. Пусть A — некоторое событие, связанное с этими исходами. Вероятность p (A) можно определить как долю тех исходов, в результате которых это событие осуществляется: n(A) , n p (A) = (1) где n — число всех исходов, n(A) — число исходов, в результате которых осуществляется событие A (благоприятных). Пример 1.1. Какова вероятность, что при бросании игральной кости выпадет нечетное число очков? J Рассмотрим множество всех исходов {1, 2, 3, 4, 5, 6}. Исходы несовместны и равновозможны. Обозначим через A событие, состоящее в выпадении нечетного числа очков: A = {1, 3, 5}. Очевидно, n = 6, n(A) = 3. p (A) = 3 1 = . 6 2 I 17 Давид Гильберт (Хильберт; нем. David Hilbert; 1862—1943) — немецкий математик. 11 1. Введение в теорию вероятностей Определение вероятности согласно (1) называется классическим определением вероятности. Я.Бернулли формулировал его так: «...вероятность события есть отношение числа благоприятствующих случаев к числу всех возможных случаев, все случаи предполагаются равновозможными.» Заметим, что классическое определение вероятности на самом деле не является определением. Оно дает лишь метод вычисления вероятностей в простейших случаях, применяемый, однако, очень часто. При вычислении числа исходов полезны формулы комбинаторики. 1.4. Некоторые формулы комбинаторики Ф.1. Число перестановок. Число перестановок n различных элементов равно Pn = n! (2) Пример 1.2. Карточки, на которых написано слово «ВЕРНОСТЬ», перемешаны. Какова вероятность, что при случайном выкладывании их в ряд получится слово «РЕВНОСТЬ»? В Е Р Н О С Т Ь J Исходом испытания является любая перестановка карточек. Число всех исходов равно n = P8 = 8! Слово «РЕВНОСТЬ» действительно можно сложить из карточек и, очевидно, единственным способом. Поэтому n(A) = 1. p (A) = n(A) 1 = . n 8! I Ф.2. Составные наборы Пусть имеется r групп элементов, причем iя группа содержит ni элементов; i = 1, 2, . . . , n. Число способов, которыми можно выбрать r элементов по одному из каждой группы, равно N = n1 · n2 · · · · · nr . (3) Пример 1.3. Количество посетителей сайта в день выражено трехзначным числом. Какова вероятность, что у этого числа все цифры различны? 12 1. Введение в теорию вероятностей J Чтобы найти общее число исходов n, надо сосчитать, сколько существует трехзначных чисел. Первую цифру можно выбрать 9 способами (любая цифра, кроме 0), вторую цифру 10 способами (любая цифра), третью также 10 способами. По (3) общее количество трехзначных чисел равно n = 9 · 10 · 10. Для нахождения числа благоприятных исходов надо сосчитать, сколько существует трехзначных чисел, все цифры которых различны. Первую цифру можно выбрать 9 способами (любая цифра, кроме 0), вторую цифру тоже 9 способами (любая цифра, кроме первой), для третьей цифры существует 8 вариантов (любая цифра, кроме первой и второй). По (3) количество трехзначных чисел, все цифры которых различны, равно n(A) = 9 · 9 · 8. Тогда искомая вероятность равна p (A) = n(A) 9·9·8 = = 0, 72. n 9 · 10 · 10 I Важное значение имеет частный случай Ф.2 при n1 = · · · = nr = n. N = nr . (4) Эта формулу часто используют при повторении опытов. Ф.3. Повторение опытов. Пусть испытание, имеющее n исходов, независимо повторяется r раз. Число всех возможных наборов исходов (Ai1 , Ai2 , . . . , Air ) равно N = nr . Пример 1.4. Три раза бросают игральную кость. Сколько различных результатов может получиться? J Три раза независимо повторяется испытание, имеющее 6 исходов, поэтому число всех возможных результатов равно N = 63 . I Пример 1.5. Пусть r посетителей случайно распределяются по n отделам магазина. Какова вероятность того, что все посетители окажутся в первом отделе? J Число исходов испытания равно n, r — число испытаний. Число всех возможных наборов исходов равно N = nr . Благоприятный исход, очевидно, один. n(A) 1 p (A) = = r. n n I Следующие формулы применимы к схемам выбора. Необходимо различать выбор с возвращением и выбор без возвращения. 13 1. Введение в теорию вероятностей Ф.4. Выбор с возвращением. Из n различных элементов выбирают с возвращением r элементов, то есть каждый элемент регистрируют и возвращают обратно прежде, чем выбирают следующий. Число всех возможных выборок равно N = nr . Замечание 1.1. Это еще одна интерпретация формулы (4). Действительно, при повторении опытов исходы выбираются с возвращением. Две следующие формулы описывают выбор без возвращения. Рассмотрим выбор без учета порядка: два набора номеров исходов считаются различными, если они отличаются составом. Наборы, отличающиеся лишь порядком следования номеров, считаются одинаковыми. Ф.5. Число сочетаний: выбор без возвращения и без учета порядка. Число способов, которыми можно выбрать m из n различных элементов, равно n! Cnm = (5) . m!(n − m)! Пример 1.6. Среди шести купюр три фальшивые. Если взять случайно две купюры из шести, какова вероятность того, что обе они фальшивые? J Число всех исходов равно n = C62 = 6! = 15. 2!(6 − 2)! Число благоприятных исходов n(A) = C32 = p (A) = 3! = 3. 2!(3 − 2)! n(A) 3 1 = = . n 15 5 I Теперь рассмотрим выбор с учетом порядка: два набора номеров исходов считаются различными, если они отличаются составом или порядком номеров. 14 1. Введение в теорию вероятностей Ф.6. Число размещений: выбор без возвращения и с учетом порядка. Число способов, которыми можно выбрать и разместить по различным местам m из n различных элементов, равно m Am n = Cn · m! = n! . (n − m)! (6) Пример 1.7. На карточках написано слово Ф О К У С. Одна за другой случайно вынимают и выкладывают в ряд три карточки. Найти вероятность, что они лягут в таком порядке С Ф У JЧисло всех исходов равно n = A35 = 5! = 60. (5 − 3)! Число благоприятных исходов n(A) = 1. p (A) = n(A) 1 = . n 60 I Ф.7. Число разбиений на группы. Число способов, которыми можно разбить n различных элементов на k групп, содержащих соответственно n1 , n2 , . . . , nk элементов, равно N= n! . n1 !n2 ! . . . nk ! (7) Пример 1.8. 36 участников тренинга, среди которых 4 красноярца, случайным образом делят на 4 равные группы. Найти вероятность того, что красноярцы окажутся в разных группах. J Число способов разбиения 36 элементов на 4 группы по 9 элементов каждая, равно, согласно (7) n= 36! 36! = . 9!9!9!9! (9!)4 15 1. Введение в теорию вероятностей Для подсчета числа благоприятных исходов найдем отдельно число n1 (A) способов разбиения 4 красноярцев на 4 группы по 1 красноярцу, и число n2 (A) способов разбиения 32 человек, не являющихся красноярцами, на 4 группы по 8 человек: n1 (A) = 4! = 4!, 1!1!1!1! n2 (A) = По Ф.2 n(A) = n1 (A) · n2 (A) = p (A) = 32! 32! = . 8!8!8!8! (8!)4 4! · 32! . (8!)4 4! · 94 · 32! . 36! I Замечание 1.2. Многие задачи удобно формулировать в терминах урновой модели: есть урна, содержащая n пронумерованных шаров определенного состава, мы выбираем из этой урны m шаров. Например, задача «Среди шести купюр три фальшивые. Если взять случайно две купюры из шести, какова вероятность того, что обе они фальшивые?» может быть переформулирована так: «В урне 3 белых и 3 черных шара, из урны вынимают два шара, какова вероятность, что оба они белые?». Очевидно, производится выбор без возвращения, и порядок не важен. Поэтому применяется формула (5). Задача «Пусть r посетителей случайно распределяются по n отделам магазина. Какова вероятность того, что все посетители окажутся в первом отделе?» эквивалентна задаче «Пусть r шаров случайно распределяются по n урнам. Какова вероятность того, что все шары попадут в первую урну?». Обратите внимание, что вторая задача отличается от первой только тем, что ее условие сформулировано в терминах урновой модели. 1.5. Контрольные вопросы 1. Дайте определение классической вероятности. 2. Опишите урновую модель. 3. Сформулируйте в терминах урновой модели задачу: испытание состоит в случайном выборе одной буквы из букв слова «ВЕРОЯТНОСТЬ»; необходимо найти вероятность события A = {Вынута гласная буква, но не «Е»}. 16 2. Основные понятия теории вероятностей 4. Чему равно число всех элементного множества? k-элементных подмножеств n- 5. Чему равно число всех упорядоченных k-элементных подмножеств n-элементного множества? 6. Обоснуйте «правило суммы»: если объект a может быть выбран m способами, а объект b — другими n способами, то выбор «либо a, либо b» может быть осуществлен m + n способами. 7. Обоснуйте «правило произведения»: если объект a может быть выбран m способами, а объект b можно выбрать n способами, то выбор упорядоченной пары ha, bi может быть осуществлен m · n способами. 8. Выведите формулы числа перестановок, числа размещений, числа сочетаний. 9. Каким числом способов можно переставить буквы слова «ЗАДАЧА»? 10. Выведите формулу числа перестановок с повторениями. Лекция 2. Основные понятия теории вероятностей План лекции: статистическое определение вероятности, пространство элементарных событий, операции над событиями, аксиоматическое определение вероятности, свойства вероятности, σ-алгебры, свойство непрерывности, вероятностное пространство, классическое вероятностное пространство, геометрическое вероятностное пространство, дискретное и непрерывное вероятностное пространство. 2.1. Статистическое определение вероятности Определение 2.1. Пусть рассматриваемый опыт можно повторять многократно, и пусть n — число всех повторений опыта, а n(A) — число тех из них, в которых осуществлялось событие A. Отношение n(A) n называется частотой события A в данной серии испытаний. Практика показывает,что для многих событий частота n(A) n при больших n мало меняется, колеблясь около некоторого постоянного значения p∗ , которое можно назвать вероятностью события A, n(A) p∗ (A) = . (8) n 17 2. Основные понятия теории вероятностей 2.2. Пространство элементарных событий Будем интерпретировать случайные события как множества. Пространство элементарных событий Ω = {ω} — постулируемое понятие. Элементарные события ω интерпретируют как взаимоисключающие исходы опыта. Случайное событие A можно рассматривать как подмножество Ω (интерпретация: A — набор исходов, при которых оно осуществляется), A = {ωA } ⊆ Ω. 1. Достоверное событие, наступающее при любом исходе, обозначается Ω. 2. Невозможное событие обозначается ∅. 3. A1 = A2 , если A1 ⊆ A2 и A2 ⊆ A1 . 4. A1 и A2 называются несовместными, если множества элементарных исходов {ωA1 } и {ωA2 } не пересекаются. Пример 2.1. Кость подбрасывают 2 раза. Ω = {i, j}, Пусть A = {i + j 6 3}, 1 6 i 6 6, B = {j = 6}, 1 6 j 6 6. C = {j четно}. Тогда A = {(1, 1), (1, 2), (2, 1)}, B = {(i, 6)}, 1 6 i 6 6, C = {(i, 2), (i, 4), (i, 6)}, 1 6 i 6 6. События A и B несовместны. Операции над событиями Определение 2.2. Суммой или объединением A1 , A2 называется событие A, состоящее в осуществлении хотя бы одного из A1 , A2 : A = A1 + A2 = A1 ∪ A2 = (закрашенная область на рис. 1). A1 A2 Ω Аналогично определяется A = S 18 k Ak . 2. Основные понятия теории вероятностей Рис. 1. Объединение событий A1 ∪ A2 Определение 2.3. Произведением или пересечением событий A1 , A2 называется событие A, состоящее в осуществлении и A1 и A2 : A = A1 A2 = A1 ∩ A2 , (закрашенная область на рис. 2). A1 A2 Ω Рис. 2. Пересечение событий A1 ∪ A2 Аналогично определяется \ A= Ak . k Определение 2.4. Разностью событий A1 , A2 называется событие A, которое означает, что происходит A1 , но не происходит A2 : A = A1 \ A2 , (закрашенная область на рис. 3). A1 A2 Ω Рис. 3. Разность событий A1 \ A2 19 2. Основные понятия теории вероятностей Определение 2.5. Противоположным или дополнительным к событию A называется событие Ā, состоящее в том, что событие A не происходит: Ā = Ω \ A, (закрашенная область на рис. 4). A Ā Ω Рис. 4. Противоположное событие Ā Определение 2.6. Симметрической разностью событий A и B называется событие A1 4A2 = A1 Ā2 + A2 Ā1 , (закрашенная область на рис. 5). A1 A2 Ω Рис. 5. Симметрическая разность событий A1 4A2 Пример 2.2. В условиях примера 2.1 Ω = {i, j}, A = {i + j 6 3}, 1 6 i 6 6, B = {j = 6}, 20 1 6 j 6 6, C = {j четно}. 2. Основные понятия теории вероятностей Тогда B + C = C, AC = {(1, 2)}, C \ B = {(i, 2), (i, 4)}, C̄ = {(i, 1), (i, 3), (i, 5)}, 1 6 i 6 6. 1 6 i 6 6. 2.3. Аксиоматическое определение вероятности Определение 2.7. Вероятностью события называется числовая функция p (A), удовлетворяющая аксиомам : 1. p (A) > 0. 2. p ( Ω) = 1. 3. Для непересекающихся событий {Ai } справедливо: p( ∞ [ Ai ) = i=1 ∞ X p (Ai ). (9) i=1 Аксиома 3 в 2.7 называется аксиомой счетной аддитивности. Свойства вероятности 1. p ( ∅) = 0. 2. A ⊂ B ⇒ p (A) 6 p (B). 3. p (Ā) = 1 − p (A). 4. p (A) 6 1. Свойства легко доказать на основе определения. Докажем, например, свойство 2: A ⊂ B ⇒ B = A + B Ā. События A и B Ā несовместны, так как AB Ā = ∅. По аксиоме (3) p (A + B Ā) = p (A) + p (B Ā). По аксиоме (1) p (B Ā) > 0, следовательно p (B) = p (A + B Ā) = p (A) + p (B Ā) > p (A). Замечание 2.1. Если пространство элементарных событий Ω = {ω} счетно, то X p (A) = p ( ω) (10) ω∈A 21 2. Основные понятия теории вероятностей и A может быть любым подмножеством Ω. Если же Ω несчетно, не всякое подмножество Ω является событием. Здесь в качестве событий приходится выделять специальный класс подмножеств. σ-алгебры Пусть F — некоторая система подмножеств множества Ω. Определение 2.8. F называется алгеброй, если 1) Ω ∈ F, 2) A ∈ F, B ∈ F ⇒ A ∪ B ∈ F, A ∩ B ∈ F, 3) A ∈ F ⇒ A ∈ F. Определение 2.9. F называется σ-алгеброй, если выполняются свойства 1, 3, а свойство 2) выполняется для любых счетных последовательностей: ∗ 2 ) A1 , A2 , . . . , An ∈ F ⇒ ∞ [ Ai ∈ F, i=1 ∞ \ Ai ∈ F. (11) i=1 Таким образом, алгебра есть класс множеств, замкнутый относительно конечного числа операций дополнения, пересечения и объединения, а σалгебра — класс, замкнутый относительно счетного числа этих операций. Рассмотрим некоторые примеры σ-алгебр. 1. {Ω, ∅}. 2. {Ω, A, Ā, ∅}, A — некоторое подмножество Ω. 3. Модель с конечным или счетным числом элементарных событий: Ω = {ω1 , . . . , ωn }, число случайных событий равно 2n . Для каждого из этих примеров легко проверить выполнение аксиом 1), 2∗ ), 3). Множества из σ-алгебры F будем считать событиями. Остальные подмножества Ω, не входящие в F, событиями не являются. Выделение той или иной σ-алгебры обусловлено существом рассматриваемой задачи и природой множества F. Наиболее часто используют борелевские σ-алгебры. Рассмотрим множество B интервалов из R. Пересечение всех σ-алгебр, содержащих B, и называется борелевской σ-алгеброй. Ее можно представить как совокупность множеств, полученных из интервалов посредством счетного числа операций объединения, пересечения и дополнения. 22 2. Основные понятия теории вероятностей Борелевская σ-алгебра на Ω = R1 содержит все интервалы с различными вариантами включения концов и все одноточечные множества, так как \ 1 1 {x} = {(x − , x + )}. n n n Замечание 2.2. В дальнейшем, говоря о совокупности событий, мы будет предполагать (если противное не оговорено), что все они содержатся в одной и той же σ-алгебре F, следовательно, их счетные объединения и пересечения тоже являются событиями. Рассмотрим аксиоматику, введенную А.Н."Колмогоровым. 2.4. Вероятностное пространство Определение 2.10. Вероятностным пространством называется тройка (Ω, F, P), где Ω — пространство элементарных событий, F — σ-алгебра подмножеств множества Ω, P — вероятностная мера, заданная на F. Напомним аксиоматическое определение вероятности P (2.7): вероятностью события называется числовая функция p (A), удовлетворяющая аксиомам: 1. p (A) > 0. 2. p ( Ω) = 1. 3. Для непересекающихся событий {Ai } справедливо: P( ∞ [ Ai ) = i=1 ∞ X p (Ai ). i=1 Рассмотрим в качестве примеров два важных вероятностных пространства. Классическое вероятностное пространство Ω = {ω1 , . . . , ωn }, исходы равновозможны; F — совокупность всех подмножеств Ω, p (A) = k kAk = . kΩk n 23 A = {ωi1 , . . . , ωik }; (12) 2. Основные понятия теории вероятностей Это определение вероятности совпадает с классическим определением вероятности (1), поэтому примеры (1.1.1)–(1.1.6) по сути являются примерами использования классического вероятностного пространства. Геометрическое вероятностное пространство Эксперимент состоит в случайном выборе точки из ограниченного множества Ω — n-мерного евклидова пространства; F — система подмножеств Ω, для которых имеет смысл понятие nмерного объема; kAk P(A) = , (13) kΩk где kAk — n-мерный объем множества A. Рассмотрим более подробно задачи с использованием данного вероятностного пространства. При этом необходимо иметь в виду, что геометрическое определение вероятности (13) применяют только в тех случаях, когда вероятность попадания точки в любую часть области пропорциональна мере этой части области и не зависит от ее расположения и формы. Пример 2.3. В каждом углу квадратной площадки со стороной 12 метров посажен розовый куст, запах которого ощущается на расстоянии до 6 метров. Найти вероятность того, что посетитель, находящийся в случайном месте этой площадки, не почувствует запах. J Переформулируем задачу в математических терминах. Примем 12 метров за единицу. Эксперимент состоит в случайном выборе точки из квадрата [0, 1] × [0, 1]. Найти вероятность того, что точка отстоит от всех вершин квадрата не менее, чем на 12 . Ω — множество точек квадрата (рис. 6); F состоит из областей, для которых имеет смысл понятие площади; A — множество точек квадрата, отстоящих от всех вершин квадрата не менее, чем на 12 (на рисунке A заштриховано). Y 1 1 2 0 1 24 X 2. Основные понятия теории вероятностей Рис. 6. P(A) = kAk SA = , kΩk SΩ где SA — площадь области A. SΩ = 1, 2 π 1 SA = π · = , 2 4 π p (A) = . 4 I Пример 2.4. Известно, что два покупателя независимо обратились к товароведу в промежуток времени с 10.20 до 10.50. Какова вероятность, что между их обращениями прошло меньше 15 минут? Если два покупателя обратились к товароведу в промежуток времени длины l минут, какова вероятность, что между их обращениями прошло меньше 2l минут? J Переформулируем задачу. Обозначим начальный момент времени за A, а конечный за B. Моменты обращений покупателей к товароведу обозначим соответственно C и D. Рассмотрим задачу в общем виде. Испытание состоит в выборе на отрезке AB длиной l двух случайных точек: C и D, и требуется найти вероятность того, что длина отрезка CD меньше 2l . Испытание состоит в выборе на отрезке AB длиной l двух случайных точек: C и D. Найти вероятность того, что длина отрезка CD меньше 2l . Пусть x — длина отрезка AC, y — длина отрезка AD. Переменные x, y могут принимать значения от 0 до l. Таким образом, можно считать, что эксперимент состоит в случайном выборе точки из квадрата [0, l] × [0, l] и Ω — множество точек этого квадрата. Обозначим через A описанное событие: A = {|CD| < 2l }. Запишем A с помощью введенных переменных: A = {(x, y) : |y − x| < 2l } = {(x, y) : x − 2l < y < x + 2l }. В системе координат XOY построим области Ω и A. P(A) = SA = SA , SΩ l2 3l2 SΩ = l , SA = l − = , 4 4 3 p (A) = . 4 2 2 25 2. Основные понятия теории вероятностей Таким образом, ответы на оба вопросы задачи совпадают: вероятность равна 3/4. I Дискретное и непрерывное вероятностные пространства Рассмотрим общие определения дискретного и абсолютно непрерывного вероятностных пространств (их примерами являются соответственно классическое и геометрическое пространства). Определение 2.11. Пусть пространство элементарных исходов Ω — счетное множество (Ω = {ω1 , . . . , ωn . . . }) или Ω — конечное множество (Ω = {ω1 , . . . , ωn }), F — множество всех подмножеств Ω, каждому элементарному исходу P ωi поставлено в соответствие число p (ωi ) из отрезка [0; 1], причем p (ωi ) = 1 и i P(A) = X p (ωi ). (14) i: ωi ∈A Тогда (Ω, F, P) есть дискретное вероятностное пространство. Определение 2.12. Пусть Ω = {(x1 , x2 , . . . , xn )} — n-мерное действительное евклидово пространство, ψ(x1 , x2 , . . . , xn ) — неотрицательная функция, интегрируемая в любой квадрируемой области из Ω и такая, что Z Z . . . ψ(x1 , x2 , . . . , xn ) dx1 dx2 . . . dxn = 1. (15) Ω F — σ-алгебра, порожденная квадрируемыми областями из Ω, Z Z P(A) = . . . ψ(x1 , x2 , . . . , xn ) dx1 dx2 . . . dxn . (16) A Тогда (Ω, F, P) есть абсолютно непрерывное вероятностное пространство. Рассмотрим еще одно важное свойство вероятности. Свойство непрерывности Теорема 2.1 (Свойство непрерывности). Если A1 ⊆ A2 ⊆ · · · ⊆ An ⊆ . . . , то [ p ( Ak ) = lim p (An ). (17) k n→∞ 26 2. Основные понятия теории вероятностей Теорема 2.2 (Эквивалентная формулировка свойства непрерывности). Если A1 ⊇ A2 ⊇ · · · ⊇ An ⊇ . . . – монотонно убывающая последовательность событий, то \ (18) p ( Ak ) = lim p (An ). k n→∞ Этим свойством можно заменить аксиому счетной аддитивности (3) в определении вероятности (2.7). 2.5. Контрольные вопросы 1. Дайте определение вероятностного пространства. 2. В чем состоят отличия классического вероятностного пространства от общего дискретного вероятностного пространства? 3. Сформулируйте определение классического вероятностного пространства как частный случай определения дискретного вероятностного пространства. 4. Испытание состоит в бросании правильной игральной кости. Постройте классическое вероятностное пространство. 5. Испытание состоит в бросании игральной кости. Укажите хотя бы два способа построить пространство элементарных событий Ω. 6. Испытание состоит в бросании игральной кости, Ω = {A, B}, где A = {1}, B = {2, 3, 4, 5, 6}. Укажите хотя бы два способа построить σ-алгебру. 7. Испытание состоит в бросании игральной кости, Ω = {A, A}, → − где A = {1}, σ-алгебра F = {Ω, A, A , ∅}. Укажите хотя бы три способа задать вероятностную меру и уточните, к каким моделям будут применимы полученные вероятностные пространства (кость может быть неправильной). 8. Дайте определение геометрического вероятностного пространства. 9. В чем состоят отличия геометрического вероятностного пространства от общего непрерывного вероятностного пространства? 27 3. Исчисление вероятностей 10. Сформулируйте различия понятий «элементарное событие» и «случайное событие». 11. Обязательно ли элементарное событие является случайным событием? 12. Может ли в некотором вероятностном пространстве число элементарных событий быть строго больше, чем число всех событий? 13. Событие A = {Число четное}, событие B = {Число кратно 3}. Опишите события A + B, AB, AB, A4B. 14. Обязаны ли совпадать события A и B, если B ⊆ A, A ⊆ B? 15. Верно ли равенство (A + B) \ B = A \ A B? 16. Пусть A ⊂ B. Чему равны A B и AB? Лекция 3. Исчисление вероятностей План лекции: независимость двух событий, независимость попарная и в совокупности, условная вероятность, теорема умножения, лемма Бореля-Кантелли, теорема сложения, формула полной вероятности, теорема Байеса. 3.1. Независимость событий Независимость двух событий Определение 3.1. События A и B называются независимыми, если p (AB) = p (A)p (B). (19) Пример 3.1. Вероятность сдать в сессию экзамен равна 8/9, вероятность сдать курсовую работу равна 9/10, вероятность сдать и то и другое равна 8/11. Пусть событие A = {студент сдал экзамен}, B = {студент сдал курсовую работу}. Являются ли эти события независимыми? J p (AB) = 8/11 6= p (A)p (B) = 8/9 · 9/10 = 8/10. Следовательно, события зависимы.I 28 3. Исчисление вероятностей Свойства независимых событий 1. Если A и B независимы, то независимы A и B̄, Ā и B, Ā и B̄. 2. Если A и B независимы, A и C независимы, BC = ∅, то независимы A и B + C. Пример 3.2. Предположим, что в половине сдаваемых на проверку деклараций о доходах имеются ошибки. Проверяют n деклараций, (n > 1). Исследовать зависимость событий A и B, где A = {Среди n деклараций не более одной с ошибками}, B = {Среди них есть как ошибочно, так и правильно заполненная}. JПо условию вероятность того, что при заполнении отчетной формы допущены ошибки, равна 1/2. Обозначим буквами П и Н число соответственно правильно и неправильно заполненных деклараций. p (A) = p (Н = 0) + p (Н = 1) = n n+1 1 + = . 2n 2n 2n Событие B означает, что среди n деклараций не менее одной с ошибками и не менее одной правильно заполненной: p (B) = 1 − p (B̄) = 1 − [p ( Н = 0) + p (П = 0)] = 1 − 1 1 1 − = 1 − , 2n 2n 2n−1 p (AB) = p (Н = 1, П > 1) = p (Н = 1). Поскольку n > 1, то p ( Н = 1, П > 1) = p ( Н = 1) то есть n . 2n События независимы, если p (AB) = p (A)p (B), то есть, p (AB) = p ( Н = 1) = 1 1 n (n + 1)( )n · (1 − ( )n−1 ) = n , 2 2 2 n + 1 = 2n−1 , что верно только при n = 3. Таким образом, события независимы при n = 3, зависимы при остальных n. I 29 3. Исчисление вероятностей Независимость в совокупности Определение 3.2. События A1 , . . . An называются независимыми (в совокупности), если для всех 1 6 i1 < i2 < · · · < im 6 n, m 6 n, p( m \ Aik ) = k=1 m Y p (Aik ). (20) k=1 Замечание 3.1. Из попарной независимости событий не обязательно следует независимость в совокупности. Пример 3.3. Магазин проводит рекламную акцию. Каждый покупатель, заходящий в магазин, получает одну из карточек: A B C ABC Если на карточке есть буква A, покупатель получает скидку при покупке в секции A, и т.д. ( в магазине 3 секции, обозначенные буквами A, B, C). Исследовать, будут ли события, состоящие в получении скидки в разных отделах а) независимы попарно; б) независимы в совокупности. JОбозначим A = {На выбранной карточке есть буква A“}; ” B = {На выбранной карточке есть буква B“}; ” C = {На выбранной карточке есть буква C“}. ” 1 1 p (A) = p (B) = p (C) = , p (AB) = p (AC) = p (BC) = . 2 4 p (AB) = p (A)p (B), p (AC) = p (A)p (C), p (BC) = p (B)p (C), что означает попарную независимость событий. Однако 1 1 p (AB) = 6= p (A)p (B)p (C) = , 4 8 то есть события зависимы в совокупности.I 30 3. Исчисление вероятностей Лемма Бореля-Кантелли Эта лемма носит также название «Критерий 0 и 1». Она является частным случаем так называемых законов нуля и единицы. Позднее мы познакомимся еще с некоторыми законами из этой большой группы теорем. Теорема 3.1 (лемма Бореля — Кантелли). тельность событий A1 , A2 , . . . , An . . . ; Если ряд P 18 Рассмотрим последова- pk = p (Ak ). pk сходится, то с вероятностью 1 может произой- k ти лишь конечное число P событий из последовательности событий A1 , A2 , . . . , а если ряд pk расходится и события A1 , A2 , . . . незавиk симы, то с вероятностью 1 происходит бесконечное число событий из последовательности A1 , A2 , . . . . 3.2. Условная вероятность Определение 3.3. Условной вероятностью события A при условии, что произошло событие B, называется отношение p (A/B) = p (AB) , p (B) (p (B) > 0). (21) Пример 3.4. Для каждой из трех акций вероятность того, что ее курс повысится, равняется 1/6. Какова вероятность того, что повысился курс всех трех акций, если повышения курсов независимы и известно, что по крайней мере у одной акции курс повысился? J Пусть A = {У всех трех акций курс повысился}, B = {По крайней мере у одной акции курс повысился}. Заметим, что A влечет B, поэтому AB = A. p (AB) p (A) p (A/B) = = . p (B) p (B) 3 1 5 p (A) = 3 , p (B) = 1 − . 6 6 1 p (A/B) = . 91 I 18 Франче́ско Па́оло Канте́лли (ит. Francesco Paolo Саntelli; 1875—1966) — итальянский математик. 31 3. Исчисление вероятностей 3.3. Теорема умножения Теорема 3.2 (Теорема умножения). Пусть p (B) 6= 0. Тогда (22) p (AB) = p (A/B)p (B). Эта теорема вытекает из определения (21). Теорему умножения можно обобщить для n событий: Теорема 3.3 (Теорема умножения для n событий). Пусть p (A1 ) 6= 0, . . . , p (An−1 ) 6= 0. Тогда p (A1 A2 . . . An ) = p (A1 )p (A2 /A1 ) . . . p (An /A1 A2 . . . An−1 ). (23) Доказательство. Для n = 1, 2 индуктивное предположение верно. Пусть верно для n − 1. Обозначим C= n−1 \ Ai ; A1 A2 . . . An = C ∩ An . i=1 p (A1 A2 . . . An ) = p ( C)p (An /C) = p (A1 )p (A2 /A1 ) . . . p (An /A1 A2 . . . An−1 ). Замечание 3.2. Для независимых событий p (A1 A2 . . . An ) = n Y p (Aik ). k=1 3.4. Теорема сложения По аксиоме счетной аддитивности вероятность суммы несовместных событий равна сумме их вероятностей. p (A1 + A2 + · · · + An ) = p (A1 ) + p (A2 ) + · · · + p (An ). Но это соотношение справедливо лишь для несовместных событий. В случае совместных событий вероятность суммы событий можно найти с помощью теоремы сложения вероятностей. Рассмотрим вначале теорему сложения вероятностей для двух событий. Теорема 3.4 (Теорема сложения для двух событий). Для любых событий A и B p (A ∪ B) = p (A) + p (B) − p (AB). (24) 32 3. Исчисление вероятностей Доказательство. A = A · Ω = A(B + B̄) = AB + AB̄, B = BA + B Ā, A ∪ B = AB + AB̄ + B Ā. Все слагаемые в правых частях несовместны, поэтому p (A) = p (AB) + p (AB̄), p (B) = p (AB) + p ( ĀB), p (A ∪ B) = p (AB) + p (AB̄) + p ( ĀB). Выразим p (AB̄) и p (ĀB) из предыдущих равенств и подставим в p (A ∪ B) : p (A ∪ B) = p (A) + p (B) − p (AB). Пример 3.5. Найти вероятность того, что случайно выбранное натуральное число делится на 2 или на 3. J Пусть A = {число делится на 2}, B = {число делится на 3}. 1 1 1 2 p (A ∪ B) = p (A) + p (B) − p (AB) = + − = . 2 3 6 3 I Замечание 3.3. Разумеется, теорема (3.4) применима и для несовместных событий. Пример 3.6. В урне находится 4 белых и 2 черных шара. Наугад вынимают 3 шара. Найти вероятность того, что среди них не меньше двух белых. J Пусть A = {вынуто не меньше 2 белых}, B = {вынуто 2 белых, 1 черный шар}, C = {вынуто 3 белых}. A = B + C, p (A) = p (B) + p (C) − p (BC), но события B и C несовместны, поэтому p (BC) = 0 и p (A) = p (B) + p (C). 33 3. Исчисление вероятностей Число всех исходов равно n = C63 = 6! = 20. 3!3! Число благоприятных исходов для B: n(B) = C42 · C21 = 4! · 2 = 12. 2!2! n(B) 12 = = 0, 6. n 20 Число благоприятных исходов для C: p (B) = n(C) = C43 = 4! = 4. 3!1! n(C) 4 = = 0, 2. n 20 p (A) = p (B) + p (C) = 0, 6 + 0, 2 = 0, 8. p (C) = .I Теорема сложения вероятностей легко обобщается на случай n событий. Теорема 3.5 (Теорема сложения для n событий). Для любых событий A1 . . . An p( n [ Ai ) = i=1 X + n X p (Ai ) − i=1 X p (Ai Aj )+ 16i<j6n p (Ai Aj Ak ) − · · · + (−1)n−1 p (A1 . . . An ). (25) 16i<j<k6n Доказательство. Для n = 1, 2 верно. Пусть верно для n − 1. p( n [ Ai ) = i=2 n X i=2 X p (Ai ) − X p (Ai Aj ) + 26i<j6n p (Ai Aj Ak ) − . . . 26i<j<k6n +(−1)n−2 p (A2 . . . An ). Применим эту формулу к A1 Ai : p( n [ i=2 A1 Ai ) = n X i=2 p (A1 Ai )− X p (A1 Ai Aj )+ 26i<j6n X 26i<j<k6n +(−1)n−2 p (A1 . . . An ). 34 p (A1 Ai Aj Ak )−. . . 3. Исчисление вероятностей p( n [ Ai ) = p (A1 i=1 n [ Ai ) = p (A1 ) + p ( i=2 n [ Ai ) − p ( i=2 Подставим полученные выражения для p ( n S Ai ) и p ( i=2 p( n [ n [ Ai ) = p (A1 i=1 Ai ) = p (A1 ) + p ( i=2 = n X p (Ai ) − i=1 + X A1 Ai ). i=2 n S A1 Ai ) в p ( i=2 n [ Ai ) − p ( i=2 X n [ n S Ai ): i=1 n [ A1 Ai ) = i=2 p (Ai Aj )+ 16i<j6n p (Ai Aj Ak ) − · · · + (−1)n−1 p (A1 . . . An ). 16i<j<k6n 3.5. Формула полной вероятности Теорема 3.6 (Формула полной вероятности). Пусть A — случайное событие, H1 , H2 , . . . , Hn — несовместные случайные собыSпопарно n тия, p ( Hi ) > 0 и A ⊂ i=1 Hi . Тогда справедлива формула полной вероятности: n X p ( Hi )p (A/Hi ). p (A) = (26) i=1 Доказательство. Используем аксиому аддитивности и теорему умножения. Sn Sn A = A ∩ ( i=1 Hi ) = i=1 AHi . p (A) = p ( n [ AHi ) = i=1 n X p ( Hi )p (A/Hi ). i=1 H2 H1 H3 A H4 35 3. Исчисление вероятностей Рис. 7. Гипотезы Hi . Пример 3.7. На сборку телевизоров поступают микросхемы от двух поставщиков, причем 70% микросхем поставляет первый, а 30% — второй. В продукции первого поставщика бракованные микросхемы составляют 2%, в продукции второго — 3%. Какова вероятность того, что взятая наудачу микросхема окажется бракованной? J Пусть A = {микросхема является бракованной}, H1 = {микросхема поступила от первого поставщика}, H2 = {микросхема поступила от второго поставщика}. p ( H1 ) = 0, 7, p ( H2 ) = 0, 3; p (A/H1 ) = 0, 02, p (A/H2 ) = 0, 03. По формуле полной вероятности p (A) = p ( H1 )p (A/H1 ) + p ( H2 )p (A/H2 ) = 0, 7 · 0.02 + 0, 3 · 0.03 = 0, 023. I 3.6. Формула Байеса Теорема 3.7 (формула Байеса). Пусть A — случайное событие, H1 , HS2 , . . . , Hn попарно несовместны, p ( Hi ) > 0, p (A) > 0 и A ⊂ ni=1 Hi . Тогда справедлива формула Байеса: p ( Hi )p (A/Hi ) p ( Hi /A) = Pn . i=1 p ( Hi )p (A/Hi ) (27) Доказательство. p (AHi ) = p (A/Hi )p ( Hi ) = p ( Hi /A)p (A) ⇒ p ( Hi /A) = p ( Hi )p (A/Hi ) p ( Hi )p (A/Hi ) = Pn . p (A) i=1 p ( Hi )p (A/Hi ) Пример 3.8. В условиях примера (3.7) взятая наудачу микросхема оказалась бракованной. Найти вероятность того, что микросхема поступила от первого поставщика. 36 3. Исчисление вероятностей J По условию на сборку телевизоров поступают микросхемы от двух поставщиков, причем 70% микросхем поставляет первый, а 30% — второй. В продукции первого поставщика бракованные микросхемы составляют 2%, в продукции второго — 3%. Пусть A = {микросхема является бракованной}, H1 = {микросхема поступила от первого поставщика}, H2 = {микросхема поступила от второго поставщика}. p ( H1 ) = 0, 7, p ( H2 ) = 0, 3; p (A/H1 ) = 0, 02, p (A/H2 ) = 0, 03. По формуле Байеса p ( H1 /A) = p ( H1 )p (A/H1 ) . p ( H1 )p (A/H1 ) + p ( H2 )p (A/H2 ) 0, 7 · 0.02 . 0, 7 · 0.02 + 0, 3 · 0.03 0, 014 . p ( H1 /A) = 0, 023 p ( H1 /A) = I 3.7. Контрольные вопросы 1. Может ли событие не зависеть от самого себя? 2. Независимы ли ∅ и любое событие A? 3. Независимы ли Ω и любое событие A? 4. События несовместны. Что можно сказать о их зависимости? 5. События независимы. Что можно сказать о их совместности? 6. Приведите пример, показывающий, что из попарной независимости событий не обязательно следует независимость в совокупности. 7. Сформулируйте теорему умножения для 3 событий. 8. Сформулируйте теорему умножения для независимых событий. 9. Сформулируйте эквивалентное определение независимости двух событий, использующее условную вероятность. 37 4. Схемы испытаний 10. Сформулируйте теорему сложения для 3 событий. 11. Сформулируйте теорему сложения для несовместных событий. 12. Приведите геометрическую интерпретацию теоремы сложения для 4 событий. 13. Докажите формулу полной вероятности. 14. Сформулируйте и докажите формулу Байеса. Лекция 4. Схемы испытаний План лекции: независимые испытания, схема Бернулли, свойства биномиальных вероятностей, полиномиальная схема, пример зависимых испытаний, гипергеометрические вероятности, предельные теоремы для гипергеометрических вероятностей. 4.1. Независимые испытания Определение 4.1. Рассмотрим испытания S1 , S2 , . . . , Sn , соответствующие им вероятностные пространства и (Ω1 , F1 , P1 ), (Ω2 , F2 , P2 ), . . . , (Ωn , Fn , Pn ), а также составное испытание S с вероятностным пространством (Ω, F, P), где Ω = Ω1 × Ω2 × · · · × Ωn , (элементарное событие интерпретируется как цепочка исходов в n последовательных испытаниях); F — σ-алгебра, порожденная прямым произведением F = F1 × F2 × · · · × Fn . Испытания S1 , S2 , . . . , Sn независимы, если ∀A A = A1 × A2 × · · · × An , Ai ∈ Fi , i = 1, 2, . . . , n, справедливо p (A) = p1 (A1 ) · p2 (A2 ) · · · · · pn (An ) = p (A1 × Ω2 × · · · × Ωn ) · p ( Ω1 × A2 × · · · × Ωn ) · · · · · p ( Ω1 × Ω2 × . . . An ). 38 4. Схемы испытаний 4.2. Схема Бернулли Определение 4.2. Схема n независимых испытаний называется схемой Бернулли, если: 1) испытания одинаковы; 2) каждое испытание имеет два исхода: A (успех) и Ā (неудача); 3) вероятность успеха в каждом испытании постоянна, p (Ai ) = p, p ( Āi ) = 1 − p = q, i = 1, . . . , n. Вероятность элементарного события (цепочки из n исходов, содержащей на фиксированных местах ровно m успехов) в силу независимости испытаний равна p ( ω) = pm q n−m . Теорема 4.1 (Формула Бернулли). Вероятность осуществления ровно m успехов в n испытаниях равна pn (m) = Cnm pm q n−m . (28) Доказательство. Пусть A есть множество цепочек из n исходов, содержащих на произвольных местах ровно m успехов. Вероятность p (A) в силу аддитивности равна X p (A) = pn (m) = p ( ω) = Cnm pm q n−m , m = 0, 1, . . . , n. ω∈A Пример 4.1. В семье 6 детей. Найти вероятность того, что среди этих детей: а) 2 мальчика; б) не более 2 мальчиков; в) более 2 мальчиков; г) не менее 2 и не более 3 мальчиков. Вероятность рождения мальчика принять равной 0,515. J Применим формулу Бернулли при n = 6, p = 0, 515, q = 0, 485: а) p6 (2) = C62 (0, 515)2 (0, 485)4 ≈ 0, 22; б) p ( m 6 2) = p6 (0) + p6 (1) + p6 (2) = (0, 485)6 + C61 (0, 515)1 (0, 485)5 + C62 (0, 515)2 (0, 485)4 ≈ 0, 313; в) p ( m > 2) = 1 − p ( m 6 2) ≈ 0, 687; г) (p ( 2 6 m 6 3) = p6 (2) + p6 (3) ≈ 0, 530. I 39 4. Схемы испытаний Свойства схемы Бернулли 1. Проверим, что p ( Ω) = 1. p ( Ω) = X p ( ω) = X m n−m p q = 2. pn (m) pn (m − 1) Cnm pm q n−m = (p + q)n = 1. m=0 ω∈Ω ω∈Ω n X =   < 1, m > np + p = 1, m = np + p  > 1, m < np + p. Доказательство. pn (m) Cnm pm q n−m n!(m − 1)!(n − m + 1)! p (n − m + 1)p = m−1 m−1 n−m+1 = = = pn (m − 1) Cn p q m!(n − m)!n! q mq   < 1, m > np + p = = 1, m = np + p  > 1, m < np + p. 3. Наивероятнейшее число успехов m0 : pn (m0 ) = maxm pn (m). np + p, np + p − 1 при целом np + p, m0 = (29) [np + p] при нецелом np + p. Пример 4.2. В семье 6 детей. Считая, что вероятность рождения мальчика равна 0,515, найти наивероятнейшее число мальчиков в семье. J Число np+p = 6·0, 515+0, 515 = 3, 605 не является целым. Поэтому m0 = [np + p] = [3, 605] = 3. I 4.3. Полиномиальная схема Определение 4.3. Схема n независимых испытаний называется полиномиальной схемой, если: 1) испытания одинаковы; Sk 2) каждое испытание имеет k исходов A1 , . . . , Ak , i=1 Ai = Ω; любого исхода в каждомPиспытании постоянP3) Pвероятность k l на, p (Ai ) = pi , l = 1, . . . , n, i = 1, . . . , k, i=1 pi = 1. 40 4. Схемы испытаний Найдем pn (m1 , . . . , mk ) = p{A1 произошло m1 раз , . . . , Ak произошло mk раз }, k X mi = n. i=1 Аналогично (28) pn (m1 , . . . , mk ) = k X n! mk 1 m2 pm 1 p2 . . . pk , m1 !m2 ! . . . mk ! k X pi = 1, i=1 (30) mi = n. i=1 Пример 4.3. 80 % студентов сдают экзамен с первого раза, 17% — со второго раза и 3% отчисляются из университета как не сдавшие экзамен. Трое студентов пришли впервые сдавать экзамен. Какова вероятность того, что среди них имеется хотя бы один, который сдаст экзамен с первого раза, и хотя бы один, который сдаст экзамен со второго раза? J Будем записывать событие {a студентов сдают экзамен с первого раза, b — со второго раза и c отчисляются из университета как не сдавшие экзамен} в виде (a, b, c). Данным испытаниям соответствует полиномиальная схема, так как выполняются условия определения (30). При этом p1 = 0, 8, p2 = 0, 17, p3 = 0, 03. Событию, вероятность которого надо найти, благоприятствуют исходы (1, 1, 1), (1, 2, 0), (2, 1, 0). По (30) p= 3! 3! 3! · 0, 8 · 0, 17 · 0, 03 + · 0, 8 · (0, 17)2 + · (0, 8)2 · 0, 17 1!1!1! 1!2!0! 2!1!0! = 0, 42024 ≈ 0, 42 I 41 4. Схемы испытаний Пример зависимых испытаний. Гипергеометрические вероятности Пусть из совокупности n предметов, среди которых n1 предметов первого вида и n2 предметов второго вида (n1 + n2 = n) производится выборка без возвращения m предметов, 1 6 m 6 n. Вероятность того, что в выборке будет m1 предметов первого вида и m2 предметов второго вида (m1 +m2 = m), согласно классическому определению вероятности (1), выражается формулой Cnm11 Cnm22 pn1 ,n (m1 , m) = (31) . Cnm Данные испытания, очевидно, являются зависимыми. Пример легко обобщается на случай m видов предметов, в результате получаются многомерные гипергеометрические вероятности. Предельные теоремы для гипергеометрических вероятностей Теорема 4.2. Пусть n → ∞ и n1 → ∞ так , что Тогда pn1 ,n (m1 , m) → pm (m1 ). Доказательство. n1 n → p, 0 6 p 6 1. (32) Cnm11 Cnm22 = pn1 ,n (m1 , m) = Cnm m!(n − m)! n1 ! n2 ! = n! m1 !(n1 − m1 )! m2 !(n2 − m2 )! m! nn1 ( nn1 − n1 ) . . . ( nn1 − m1n−1 ) nn2 ( nn2 − n1 ) . . . ( nn2 − n n 1 n m−1 m1 !m2 ! n(n − n) . . . (n − n ) → m! pm1 (1 − p)m2 = pm (m1 ). m1 !m2 ! m2 −1 n ) Смысл этой теоремы в том, что (при указанных условиях) гипергеометрические вероятности стремятся к биномиальным вероятностям. Многомерный аналог данной теоремы утверждает, что (при аналогичных условиях) многомерные гипергеометрические вероятности стремятся к полиномиальным вероятностям. Рассмотрим предельные теоремы для схемы Бернулли. 42 4. Схемы испытаний 4.4. Теорема Пуассона При числе испытаний, превышающем 20, вычисление точного значения pn (m) затруднительно из-за расчетов факториалов и степеней. В этих случаях применяют приближенные формулы, вытекающие из соответствующих предельных теорем. Различают два случая: когда p мало, используют приближение Пуассона, а когда p не мало (и не очень близко к единице), справедливо приближение Муавра — Лапласа. Существует область, в которой возможно применение обоих приближений. Теорема 4.3 (Теорема Пуассона). Если n → ∞, p → 0 так, что np → λ, 0 < λ < ∞, то для любого фиксированного m ∈ N справедливо: pn (m) = Cnm pm q n−m → pλ (m) = λm e−λ . m! (33) Доказательство. Пусть np = λn . Тогда m n−m n! λ λ n n pn (m) = Cnm pm q n−m = 1− = m!(n − m)! n n m n−m n(n − 1) . . . (n − m + 1) λn λn 1− = m! n n n −m λn 1 2 m−1 λn λm n 1− 1− 1− ... 1 − 1− . m! n n n n n При n → ∞, λn = np → λ, n λn 1 −λ 1− →e , 1− → 1, n n −m 2 m−1 λn 1− → 1, . . . , 1 − → 1, 1− → 1. n n n Следовательно, λm e−λ pn (m) → pλ (m) = . m! Приближенная формула Пуассона λm e−λ pn (m) ≈ pλ (m) = , m! (34) где λ = np. Приближенную формулу Пуассона применяют при n > 30, p < 0, 1, 0, 1 < λ = np < 10. 43 4. Схемы испытаний Пример 4.4 (Задача о днях рождения). Какова вероятность, что среди 500 случайно выбранных людей ни один не родился 1 января? J По формуле Бернулли 0 p500 (0) = C500 p0 q 500 = 364 365 500 ≈ 0, 2537 ≈ 0, 254. По приближенной формуле Пуассона λ = np = 500 × 1 ≈ 1, 3699 365 λ0 e−λ p500 (0) = ≈ e−1,3699 ≈ 0, 2541 ≈ 0, 254. 0! I Ответ, полученный по формуле Бернулли, более точен, но его получение затруднительно. Как видим, формула Пуассона в этом примере дает приближенное значение с тремя верными знаками после запятой. 4.5. Локальная предельная теорема Муавра — Лапласа Теорема 4.4. Если при n → ∞ и постоянном p, не равном 0 или 1, ве√ личина xm = m−np npq ограничена так, что −∞ < a 6 xm 6 b < +∞, то ϕ(xm ) 1 , (35) pn (m) = √ 1+O √ npq n 2 где ϕ(x) = x √1 e− 2 2π . Доказательство этой теоремы основано на применении формулы Стирлинга: √ 1 n −n n! = n e 2πneO( n ) . (36) Из нее вытекает удобная для применения асимптотическая формула. Локальная приближенная формула Муавра — Лапласа pn (m) ≈ xm = ϕ(xm ) √ npq , m−np √ npq . (37) Локальную приближенную формулу Муавра — Лапласа применяют при n > 30, 0.1 6 p 6 0.9, npq > 9. 44 4. Схемы испытаний 4.6. Интегральная предельная теорема Муавра — Лапласа Теорема 4.5. При n → ∞ и постоянном p, не равном 0 или 1, Z x2 x2 m − np 1 lim p ( x1 6 √ 6 x2 ) = √ e− 2 dx = Φ(x2 ) − Φ(x1 ), n→∞ npq 2π x1 где x Z 1 Φ(x) = √ 2π Z 2 e − t2 x dt = −∞ ϕ(t) dt. (38) −∞ Доказательство. m − np √ √ 6 x2 ) = p ( x1 npq + np 6 m 6 x2 npq + np) = p ( x1 6 √ npq √ x2 npq+np X = pn (m) = √ m−np √ npq . pn (m), m: xm =x1 m=x1 npq+np где xm = xX m =x2 По локальной предельной теореме (35) xm =x2 x2 1 1 X m e− 2 √ (1 + αn ) = In + An . pn (m) = √ npq 2π xm =x1 xm =x1 xX m =x2 (39) xm =x2 x2 X x2 1 X 1 1 − 2m In = √ = . e ϕ(xm ) √ √ npq x =x npq 2π xm =x1 m 1 Поскольку m − np xm = √ , npq 4xm = и In = m + 1 − np m − np 1 − √ =√ , √ npq npq npq xX m =x2 ϕ(xm )4xm , xm =x1 что представляет из себя (с точностью до двух слагаемых) интегральную сумму для интеграла Z x2 ϕ(x) dx. x1 Рассмотрим второе слагаемое в (39). An = xX m =x2 ϕ(xm )4xm αn , xm =x1 45 4. Схемы испытаний |An | 6 xX m =x2 xm =x1 При n → ∞ An → 0 C ϕ(xm )4xm |αn | 6 √ In . n и m − np 6 x2 ) = lim (In + An ) = lim p ( x1 6 √ n→∞ n→∞ npq Z x2 Z x2 x2 1 = ϕ(x) dx = √ e− 2 dx = Φ(x2 ) − Φ(x1 ). 2π x1 x1 Замечание 4.1. Погрешность имеет порядок O( √1n ). Можно устано1 ) не может быть улучшен. вить, что порядок O( √npq Интегральная приближённая формула Муавра — Лапласа m − np p ( x1 6 √ 6 x2 ) ≈ Φ(x2 ) − Φ(x1 ). npq (40) Интегральную приближённую формулу Муавра — Лапласа применяют при n > 30, 0.1 6 p 6 0.9, npq > 9. Следствия интегральной приближённой формулы Следствие 1. b − np p ( a 6 m 6 b) ≈ Φ √ npq a − np −Φ √ . npq (41) Следствие 2. r r m n n p ( α1 6 6 α2 ) ≈ Φ (α2 − p) − Φ (α1 − p) . n pq pq (42) Следствие 3. r r m n n − p 6 β2 ) ≈ Φ β2 p ( β1 6 − Φ β1 . n pq pq (43) Пример 4.5. Вероятность рождения мальчика равна p = 0, 512. Найти вероятность того, что в группе из 10000 новорождённых число мальчиков превысит число девочек по крайней мере на 200. 46 4. Схемы испытаний J n = 10000, p = 0, 512, q = 0, 488, np = 5120, npq ≈ 2500. p ( m > 5100) = p ( 5100 6 m 6 10000) ≈ 5100 − 5120 10000 − 5120 √ √ −Φ Φ 2500 2500 ≈ Φ(100) − Φ(−0, 4) ≈ 0, 6554. I Пример 4.6. Вероятность появления события в каждом из 9000 независимых испытаний равна 0,85. Найти такое положительное число ε, чтобы с вероятностью 0, 96 абсолютная величина отклонения относительной частоты появления события от его вероятности не превышала бы ε. J По условию n = 9000, p = 0, 85. Воспользуемся следствием 3 интегральной приближенной формулы: r r m n n p ( | − p| 6 ε) ≈ Φ ε − Φ −ε = n pq pq r n 2Φ ε − 1 = 0, 96. pq r n Φ ε = 0, 98. pq По таблице значений функции Φ(x) находим приближенное значение аргумента, при котором функция принимает значение 0,98: Φ(2, 1) ≈ 0, 98. Решаем уравнение r 9000 ε = 2, 1. 0, 85 · 0, 15 ε ≈ 7, 53 · 10−3 . I Замечание 4.2. При небольших npq формулы (41)–(43) заменяют на (44)–( 4.6): 1∗ . b − np + 0.5 p ( a 6 m 6 b) ≈ Φ √ npq 47 a − np − 0.5 −Φ . √ npq (44) 4. Схемы испытаний 2∗ . m p ( α1 6 6 α2 ) ≈ n r r n 1 n 1 Φ (α2 − p) + √ − Φ (α1 − p) − √ . pq 2 npq pq 2 npq 3∗ . m − p 6 β2 ) ≈ n r r 1 1 n n Φ β2 + √ − Φ β1 − √ . pq 2 npq pq 2 npq (45) p ( β1 6 (46) Пример 4.7. К электросети подключено 100 приборов, каждый из которых имеет мощность 2 квт и потребляет в данный момент энергию с вероятностью 0,2. Найти вероятность того, что потребляемая в данный момент мощность не превышает 50 квт. J n = 100, p = 0, 2, q = 0, 8, np = 20, npq = 16. Пусть x — потребляемая мощность, m — число работающих приборов. p ( x 6 50) = p ( m 6 25) = p ( 0 6 m 6 25) ≈ 25 − 20 + 0.5 0 − 20 − 0.5 Φ( √ ) − Φ( √ )= 100 · 0, 2 · 0, 8 100 · 0, 2 · 0, 8 Φ(1, 375) − Φ(−5, 125) ≈ 0, 915. I 4.7. Свойства функций ϕ(x), Φ(x), Φ0 (x) x2 Свойства функции ϕ(x) = √12π e− 2 (плотность стандартного нормального распределения) 1. ϕ(−x) = ϕ(x). 2. ϕ(0) = √12π ≈ 0, 3989. 3. ϕ(x) → 0 при x → ±∞, ϕ(±4) < 0, 001. ϕ(x) x 0 48 4. Схемы испытаний Рис. 8. График ϕ(x) 2 Rx Свойства функции Φ(x) = dt = e −∞ ϕ(t) dt −∞ (функция стандартного нормального распределения). 1. Φ(x) + Φ(−x) = 1. 2. Φ(x) → 1 при x → ∞, Φ(3, 8) > 0, 9999. 3. Φ(x) → 0 при x → −∞, Φ(−3, 8) < 0, 0001. 4. Φ(0) = 1/2. R x t2 Rx Свойства функции Φ0 (x) = √12π 0 e− 2 dt = 0 ϕ(t) dt (функция Лапласа). √1 2π Rx − t2 1. Φ0 (−x) = −Φ0 (x). 2. Φ0 (x) → 21 при x → ∞. 3. Φ0 (x) → − 21 при x → −∞. 4. Φ0 (0) = 0. 4.8. Контрольные вопросы 1. Докажите формулу Бернулли. 2. Применима ли формула Бернулли, если вероятность успеха имеет различные значения в разных опытах? 3. Каким образом с помощью формулы Бернулли можно найти вероятность хотя бы одного появления события? 4. Каким образом в схеме Бернулли можно найти вероятность появления успеха не меньше данного числа раз? 5. Приведите пример испытаний, описываемых гипергеометрической схемой и укажите параметры этой схемы. 6. Приведите пример гипергеометрической схемы испытаний, которая может быть приближенно описана схемой Бернулли. 7. Каким образом с помощью формулы Пуассона можно найти вероятность хотя бы одного появления события? 8. Каким образом с помощью формулы Пуассона можно найти вероятность появления успеха не меньше данного числа раз? 9. Найдите наивероятнейшее число успехов в схеме Пуассона с параметром λ. 49 5. Функции распределения. Дискретные случайные величины 10. Приведите пример испытаний, описываемых схемой Пуассона. 11. Приведите пример схемы испытаний Бернулли, которая может быть приближенно описана схемой Пуассона. 12. Приведите пример схемы испытаний Бернулли, которая может быть приближенно описана схемой Муавра — Лапласа. 13. Каким образом с помощью формул Муавра — Лапласа можно найти вероятность появления успеха ровно m раз? 14. Каким образом с помощью формул Муавра — Лапласа можно найти вероятность появления успеха от a до b раз? 15. Каким образом с помощью формул Муавра — Лапласа можно найти вероятность того, что относительная частота появления события 16. Каким образом с помощью формул Муавра — Лапласа можно найти вероятность того, что отклонение относительной частоты появления события от его вероятности не превышает ε? Лекция 5. Функции распределения. Дискретные случайные величины План лекции: определение случайной величины, функция распределения и ее свойства, дискретные случайные величины, некоторые важные дискретные распределения, примеры дискретных распределений. 5.1. Определение случайной величины Пусть (Ω, F, P) — вероятностное пространство. Определение 5.1. Случайной величиной ξ называется измеримая19 функция ξ = ξ(ω), отображающая Ω в R. Таким образом, случайная величина — это функция, аргументами которой являются случайные события, а значения которой — числа. Можно сказать, что случайная величина — это числовая функция, принимающая значения случайным образом. 19 Функция измерима, если для любого x ∈ R множество элементарных исходов {ω : ξ(ω) < x} является событием, то есть принадлежит σ–алгебре событий F. 50 5. Функции распределения. Дискретные случайные величины Пример 5.1. Простейшим примером случайной величины является индикатор события A: 1, ω ∈ A IA (ω) = . 0, ω ∈ /A Пусть B − σ-алгебра на R. Говорят, что задано распределение вероятностей случайной величины ξ, если ∀B ∈ B определены вероятности Pξ (B) = P (ξ ∈ B). Распределение вероятностей порождает вероятностное пространство (R, B, Pξ ). Замечание 5.1. Так как случайная величина ξ есть отображение Ω в R, то p (|ξ| < ∞) = 1. Для общности будем рассматривать случайные величины, которые могут принимать значения ±∞, при этом p (|ξ| = ∞) = 0. Такие величины осуществляют измеримое отображение Ω в R ∪ ±∞. 5.2. Функция распределения и ее свойства Определение 5.2. Функцией распределения случайной величины ξ называется функция Fξ (x) = p ( ξ < x), ∀x ∈ R. (47) Функции Fξ (x) достаточно для задания распределения, так как p ( ξ > x) = p(ξ < x) = 1 − Fξ (x), p ( x 6 ξ < y) = p ((ξ < y) \ (ξ < x)) = Fξ (y) − Fξ (x), ! ∞ \ 1 p ( ξ = x) = p (x 6 ξ < x + ) = n n=1 1 = lim Fξ (x + ) − Fξ (x) = Fξ (x + 0) − Fξ (x). n→∞ n Свойства функции распределения Fξ (x) = p ( ξ < x) 1. Если x1 < x2 , то F (x1 ) 6 F (x2 ). Доказательство. {ξ < x1 } ⊆ {ξ < x2 } при x1 6 x2 , отсюда p ( ξ < x1 ) 6 p ( ξ < x2 ). 2. lim F (x) = 1, lim F (x) = 0. x→∞ x→−∞ 51 5. Функции распределения. Дискретные случайные величины Доказательство. Рассмотрим две числовые последовательности : {xn } → −∞, {yn } → ∞. Пусть An = {ξ < xn }, Bn = {ξ < yn }. A1 ⊇ A2 ⊇ · · · ⊇ An ⊇ . . . — монотонно убывающая последовательность событий, B1 ⊆ B2 ⊆ · · · ⊆ Bn ⊆ . . . — монотонно возрастающая последовательность событий. По свойству непрерывности ! \ Ak = lim p (An ), p n→∞ k ! p [ Bk = lim p (Bn ). n→∞ k Но {xn } → −∞ ⇒ An → ∅, \ Ak → ∅; k {yn } → ∞ ⇒ [ Bk → Ω. k Поэтому lim p (An ) = 0, lim p (Bn ) = 1, n→∞ n→∞ то есть lim F (xn ) = 0, lim F (xn ) = 1. xn →−∞ xn →∞ По свойству 1 lim F (x) = 0, lim F (x) = 1. x→−∞ x→∞ 3. F (x) непрерывна слева, lim F (x) = F (x0 ). x→x0 −0 Доказательство. Рассмотрим числовую последовательность : {xn } % x0 . Пусть An = {ξ < xn }, A = {ξ < x0 }. A1 ⊆ A2 ⊆ · · · ⊆ An ⊆ . . . — монотонно возрастающая последовательность событий. [ Ak = A k 52 5. Функции распределения. Дискретные случайные величины По свойству непрерывности ! lim p (An ) = p [ n→∞ Ak = p (A), k то есть, lim F (x) = F (x0 ). x→x0 −0 4. 0 6 F (x) 6 1. Мы доопределяем F (∞) = 1, F (−∞) = 0. 5. p ( x 6 ξ < y) = Fξ (y) − Fξ (x), Доказательство. Для любых x, y (x < y) (−∞, y) = (−∞, x) ∪ [x, y). p ( ξ < y) = p ( ξ < x) + p ( x 6 ξ < y). p ( x 6 ξ < y) = Fξ (y) − Fξ (x). Справедлива теорема: Теорема 5.1. Если функция F (x) обладает свойствами 1, 2, 3, то существует вероятностное пространство (Ω, F, P) и случайная величина ξ на нем такая, что Fξ (x) = F (x). 5.3. Дискретные случайные величины Определение 5.3. Случайная величина ξ имеет дискретное распределение, если ξ принимает конечное или счетное число различных значений с соответствующими вероятностями X p ( ξ = xi ) = pi , pi = 1. i Они часто задаются рядом распределения ξ p x1 x2 . . . p1 p 2 . . . Для дискретных случайных величин 53 xn pn 5. Функции распределения. Дискретные случайные величины Fξ (x) = p ( ξ < x) = X pi . (48) xi <x F (x) 1 ... 0 x1x2x3 . . . xnX Рис. 9. Вид графика функции распределения дискретной случайной величины Пример 5.2. Найти функцию распределения случайной величины, заданной рядом распределения ξ p 0 1 2 3 0, 2 0, 3 0, 4 0, 1 J Найдем функцию распределения Fξ (x) :  0, x60     0<x61  0, 2, 0, 5, 1<x62 Fξ (x) =   0, 9, 2<x63    1, x>3 I 5.4. Некоторые важные дискретные распределения 1. Вырожденное распределение. ξ = c, p ( ξ = c) = 1. 2. Дискретное равномерное распределение. ξ p x1 x2 . . . 1 1 ... n n 54 xn 1 n 5. Функции распределения. Дискретные случайные величины 3. Распределение Бернулли B(1, p). Задается законом распределения ξ P 0 1 q p 4. Биномиальное распределение B(N, p). ξ = 0, 1, . . . , N. p ( ξ = m) = pN (m) = CNm pm q N −m , m = 0, 1, . . . , N. N, p — параметры, N — натуральное, 0 0. Интерпретация: число маловероятных успехов в бесконечном ряду испытаний; λ — среднее число успехов. 6. Гипергеометрическое распределение. ξ = 0, 1, . . . , min(M, n). m n−m CM CN −M p ( ξ = m) = pM,N (m, n) = . CNn N, M, n — параметры, n 6 N, m 6 M . Интерпретация: из совокупности N предметов, среди которых M предметов первого вида и (N − M ) предметов второго вида производят выборку без возвращения n предметов, 1 6 n 6 N . Случайная величина — число предметов первого вида в выборке. 7. Геометрическое распределение Gp . ξ = 0, 1, . . . . p ( ξ = m) = (1 − p)m p. p — параметр, 0 < p < 1. Интерпретация: число испытаний до первого успеха . 8. Отрицательное биномиальное распределение B(r, p)(распределение Паскаля). 55 5. Функции распределения. Дискретные случайные величины ξ = 0, 1, . . . . m p ( ξ = m) = Cr+m−1 pr q m , r, p — параметры, r > 0, m = 0, 1, . . . . 0 < p < 1. Замечание 5.2. Для ∀x m сомножителей }| { z x(x − 1) · · · · · (x − m + 1) . Cxm = m! Интерпретация при целых r : m — число неудач до r-го успеха . 5.5. Примеры дискретных распределений Пример 5.3. Магазин проводит рекламную акцию. Каждый покупатель, заходящий в магазин, получает карточку, на которой стоит одна из трех цифр: 1 2 3 . Если на карточке есть цифра 1, покупатель получает скидку при покупке в секции 1, и т.д. (в магазине 3 секции, обозначенные цифрами 1, 2, 3). Случайная величина ξ — номер секции, в которой будет произведена покупка со скидкой. Каково распределение ξ? J Все значения ξ равновероятны, поэтому это дискретное равномерное распределение: ξ 1 2 3 . p 13 13 13 I Пример 5.4. Банк имеет три филиала. Ежедневно с вероятностью p каждый филиал, независимо от других, может заказать на следующий день сумму денег, превышающую S. Случайная величина ξ — число таких заявок за день. Как распределена случайная величина ξ? J Формализуем задачу. Проводят три испытания по схеме Бернулли с вероятностью появления события в одном испытании p. Случайная величина ξ — число появления события в трех испытаниях. Согласно интерпретации, случайная величина ξ имеет биномиальное распределение B (3, p). I Пример 5.5. Как приближенно распределена случайная величина ξ, равная числу утерянных кредитных карт, выданных банком 5000 клиентам, если в среднем карту теряет один клиент из 1000? 56 5. Функции распределения. Дискретные случайные величины J Речь идет о числе успехов для редких событий в большом ряду испытаний, поэтому величина ξ имеет пуассоновское распределение с параметром λ = 5.I Пример 5.6. Каково распределение числа вызовов, поступающих оператору в течение минуты, если в среднем поступает 5 вызовов за 2 минуты? J Очевидно, число абонентов, которые имеют возможность сделать вызов, велико, а вероятность такого события для каждого из них мала; поэтому ξ имеет пуассоновское распределение с параметром λ = 2, 5.I Пример 5.7. Вероятность нарушения герметичности упаковки при перевозке равна 0,01; случайная величина ξ равна числу негерметичных упаковок среди 200 перевезённых. Как приближённо распределена случайная величина ξ? J Распределение Пуассона P2 .I Пример 5.8. Если при перевозке случится авария, вероятность нарушения герметичности упаковки равна 0,2. Случайная величина ξ равна числу негерметичных упаковок среди 10 перевезенных. Как распределена случайная величина ξ? J Биномиальное распределение B(10; 0, 2).I Пример 5.9. В условиях предыдущей задачи большое количество упаковок проверяют по очереди. Случайная величина ξ равна числу проверенных упаковок до первой встретившейся негерметичной. Каково распределение ξ? JГеометрическое распределение G0,2 .I Пример 5.10. Если в предыдущих условиях случайная величина ξ равна числу проверенных упаковок до третьей встретившейся негерметичной, как распределена случайная величина ξ? J Отрицательное биномиальное распределение B(3; 0, 2).I 57 5. Функции распределения. Дискретные случайные величины 5.6. Контрольные вопросы 1. Дайте определение функции распределения случайной величины. 2. Какими свойствами необходимо обладать функции F (x),чтобы являться функцией распределения некоторой случайной величины? 3. У функции распределения дискретной случайной величины известны только точки разрыва и скачки функции в точках разрыва. Как восстановить по этим данным ряд распределения и функцию распределения? 4. Какими особенностями обладает график функции распределения дискретной случайной величины? 5. Как, используя функцию распределения, вычислить вероятность того, что значения случайной величины попадают в заданный интервал?  −1 1 6. Закон распределения имеет вид: p (ξ = m) = 3m e 3 m! . Как называется это распределение, и каков его параметр? 7. Закон распределения имеет вид: p ( ξ = m) = 0, 2 · 0, 8m . Как называется это распределение, и каков его параметр? 8. Монету бросают, пока не выпадет решка. Какое распределение имеет случайная величина, равная числу гербов, выпавших до первой решки? 9. Если продолжать броски, какое распределение имеет случайная величина, равная числу гербов, выпавших до третьей решки? 10. Если заранее известно, что бросать монету будут ровно 10 раз, и случайная величина равна числу гербов, выпавших в 10 бросках, каков ее закон распределения? 58 6. Непрерывные случайные величины Лекция 6. Непрерывные случайные величины План лекции: определение плотности, свойства плотности распределения, некоторые важные непрерывные распределения, обобщение понятия плотности, определение n-мерной случайной величины, совместная функции распределения и ее свойства, свойства n-мерной плотности, примеры многомерных распределений, независимость случайных величин, функции одномерной случайной величины, функции двумерной случайной величины, распределение суммы двух независимых случайных величин, распределение произведения двух независимых случайных величин, функции многомерной случайной величины. 6.1. Плотность распределения Определение 6.1. Случайная величина ξ непрерывно распределена, если ее функция распределения допускает представление в виде Z x Fξ (x) = fξ (t) dt. (49) −∞ Подынтегральная функция fξ (x) называется плотностью распределения случайной величины ξ. Свойства плотности 1. Почти всюду fξ (x) = Fξ0 (x). 2. Почти всюду fξ (x) > 0. R∞ 3. −∞ fξ (t) dt = 1. Rb 4. a fξ (t) dt = Fξ (b) − Fξ (a) = p ( a 6 ξ < b). R x+4x 5. x fξ (t) dt = f (θ)4x, θ ∈ [x; x + 4x). Замечание 6.1. Если функция f (x) обладает свойствами 2, 3, то она является плотностью некоторого распределения. Пример 6.1. Найти плотность, если известна функция распределения x−1 Fξ (x) = , 1 < x 6 4. 3 J 1 fξ (x) = (Fξ (x))0 = , 1 < x 6 4. 3 I 59 6. Непрерывные случайные величины Пример 6.2. Найти функцию распределения, если известна плотность fξ (x) = xe−x , x ≥ 0. J Z x Fξ (x) = fξ (x)dx −∞ Rx Для x > 0 Fξ (x) = 0 te−t dt. Возьмем этот интеграл по частям, учитывая 0 что (−e−t ) = e−t : Rx Rx x x Fξ (x) = −te−t |0 − 0 (−e−t )dt = −xe−x + 0 e−t dt = −xe−x − e−t |0 = −xe−x − e−x + e0 = 1 − e−x (x + 1). Таким образом, Fξ (x) = 1 − e−x (x + 1), x ≥ 0. I 6.2. Некоторые важные непрерывные распределения 1. Равномерное распределение R[a, b] (рис. 10). 0, x∈ / [a, b] fξ (x) = 1 x ∈ [a, b] b−a , a, b — параметры , a < b. Fξ (x) =    0, x−a b−a , 1, x6a a<x6b x>b f (x) 0 a b x Рис. 10. Плотность равномерного распределения 2. Нормальное распределение20 N (a, σ) 20 Нормальное распределение было найдено впервые Муавром в 1733 г. при исследовании им предела биномиальных вероятностей (результат, позднее названный теоремой Муавра — Лапласа, был получен Муавром для p = 1/2). Лаплас (1812 г.) доказал эту теорему в общем виде независимо от Муавра. Напомним, что суть теоремы состоит в возможности аппроксимации биномиального распределения нормальным. Лаплас, а так- 60 6. Непрерывные случайные величины 2 1 − (x−a) 2 fξ (x) = ϕa,σ (x) = √ e 2σ . σ 2π a, σ — параметры, σ > 0. Z x 2 1 − (t−a) 2 Fξ (x) = Φa,σ (x) = √ e 2σ dt. σ 2π −∞ f (x) 0 a x Рис. 11. Плотность нормального распределения N (a, σ) Стандартное нормальное распределение N (0, 1) : x2 1 fξ (x) = ϕ0,1 (x) = ϕ(x) = √ e− 2 . 2π Z x 2 1 − t2 √ Fξ (x) = Φ0,1 (x) = Φ(x) = e dt. 2π −∞ Связь между ними: Z x 2 1 t − a dt − (t−a) Φa,σ (x) = √ e 2σ2 dt = y = , dy = = σ σ σ 2π −∞ Z x−a σ y2 1 x−a =√ e− 2 dy = Φ( ). σ 2π −∞ 3. Показательное (экспоненциальное) распределение Eλ (рис. 12). 0, x<0 fξ (x) = −λx λe , x>0 же Гаусс (1809 г.), вышли на нормальное распределение в связи со своей работой по теории ошибок наблюдений (ошибкой называлось отклонение случайной величины от ее среднего значения). Закон распределения ошибок, полученный Гауссом и Лапласом, и был назван нормальным законом распределения. График плотности нормального распределения известен также как «кривая Гаусса» или «колокол Гаусса». Оказалось, что при увеличении числа наблюдений многие статистические распределения делаются близки к нормальному. В 19 веке даже бытовало мнение, что все распределения, встречающиеся в задачах практики, нормальны. Это не так, но нормальное распределение действительно очень широко распространено в природе. 61 6. Непрерывные случайные величины λ — параметр, λ > 0. f (x) x 0 Рис. 12. Плотность экспоненциального распределения 4. Распределение Коши (рис. 13). fξ (x) = 1 λ · 2 . π λ + (x − a)2 a, λ — параметры, λ > 0. f (x) 0 a x Рис. 13. Плотность распределения Коши 5. Γ - распределение. ( fξ (x) = β β−1 α x Γ(β) 0, e−αx , x<0 x>0 α, β — параметры , β > 0, α > 0. 6. Распределение Кептейна. 2 g 0 (x) − (g(x)−a) 2 2σ √ fξ (x) = e , σ 2π где g(x) — монотонная дифференцируемая функция, принимающая значения на (−∞, ∞). a, σ — параметры, σ > 0. 7. Распределение Лапласа. fξ (x) = λ −λ|x−α| e . 2 62 6. Непрерывные случайные величины α, λ — параметры, λ > 0. 8. Распределение Парето. 0, fξ (x) = p −(p+1) p x0 x , x<0 0<x60 p, x0 — параметры, p > 0, x0 > 0. 9. Логистическое распределение. n o x−α exp − β 1 fξ (x) = · n o2 . β x−α 1 + exp − β α, β — параметры. Пример 6.3. Правило трех сигм. Вероятность того, что значения нормальной случайной величины ξ ∈ N (a, σ) попадают в заданный интервал (x, y], равна p (x 6 ξ < y) = Φa,σ (y) − Φa,σ (x) = Φ( x−a y−a ) − Φ( ). σ σ (вероятности попадания в интервалы (x, y], (x, y), [x, y], [x, y) равны, так как распределение непрерывно). Рассмотрим интервал [a − kσ, a + kσ] при k = 1, 2, 3.  k = 1,  0, 6827, 0, 9545, k = 2, p (a − kσ 6 ξ 6 a + kσ) = Φ(k) − Φ(−k) = 2Φ0 (k) =  0, 9973, k = 3. Интеграл Лебега — Стилтьеса. Удобный способ объединения методов изучения дискретных и непрерывных случайных величин дает интеграл Лебега — Стилтьеса. Представим вероятность p ( a 6 ξ < b) как интеграл Лебега — Стилтьеса: Zb p (a 6 ξ < b) = dFξ (x), (50) a где Fξ (x) = p (ξ < x) — функция распределения ξ. В случае непрерывного распределения интеграл (50) приводится к обычному интегралу Римана, а в случае дискретного распределения интеграл приводится к сумме вероятностей. 63 6. Непрерывные случайные величины 6.3. Многомерные случайные величины Определение n-мерной случайной величины Определение 6.2. n-мерной случайной величиной называется вектор ξ(ω) = (ξ1 (ω), ξ2 (ω), . . . , ξn (ω)) , отображающий Ω в Rn . Пусть B n есть σ -алгебра в Rn . Для любого B ∈ B n определена функция Pξ (B) = P (ξ ∈ B). Совместная функции распределения и ее свойства Определение 6.3. Совместной функцией распределения n-мерной случайной величины ξ называется функция Fξ1 ,...,ξn (x1 , . . . , xn ) = p ( ξ1 < x1 , . . . , ξn < xn , ), ∀x ∈ Rn . (51) Свойства совместной функции распределения 1. 0 6 Fξ1 ,...,ξn (x1 , . . . , xn ) 6 1. 2. limxn →∞ Fξ1 ,...,ξn (x1 , . . . , xn ) = Fξ1 ,,...,ξn−1 (x1 , . . . , xn−1 ). 3. limxn →−∞ Fξ1 ,...,ξn (x1 , . . . , xn ) = 0. 4. F (x) непрерывна слева по каждому из аргументов. Замечание 6.2. Как и при n = 1, функция Fξ1 ,...,ξn (x1 , . . . , xn ) однозначно определяет распределение Pξ . Замечание 6.3. Распределения случайных величин ξ1 (ω), ξ2 (ω), . . . , ξn (ω) компонент n-мерной случайной величины ξ(ω) = (ξ1 (ω), ξ2 (ω), . . . , ξn (ω)) называются маргинальными (частными) распределениями. Аналогично одномерному случаю определяют и непрерывные распределения. Определение 6.4. n-мерная случайная величина ξ непрерывно распределена, если ее функция распределения допускает представление в виде Zx1 Zxn Fξ1 ,...,ξn (x1 , . . . , xn ) = ... fξ1 ,...,ξn (t1 , . . . , tn ) dt1 . . . dtn . (52) −∞ −∞ 64 6. Непрерывные случайные величины Подынтегральная функция fξ1 ,...,ξn (x1 , . . . , xn ) называется плотностью распределения n-мерной случайной величины ξ = (ξ1 , . . . , ξn ). Свойства n-мерной плотности ∂nF (x ,...,x ) ξ1 ,...,ξn 1 n 1. Почти всюду fξ1 ,...,ξn (x1 , . . . , xn ) = . ∂x1 ...∂xn 2. Почти всюду R∞ R ∞ fξ1 ,...,ξn (x1 , . . . , xn ) > 0. 3. −∞ . . . −∞ fξ1 ,...,ξn (t1 , .R. . , tn ) dt1 . . . dtn = 1. 4. P ((ξ1 , . . . , ξn ) ∈ B) = fξ1 ,...,ξn (t1 , . . . , tn ) dt1 . . . dtn . B Примеры многомерных распределений Пример 6.4. Дискретные двумерные случайные величины часто задают таблицей распределения: η\ξ y1 .. . ym x1 . . . p11 . . . .. .. . . pm1 . . . xn p1n .. . pmn Пример 6.5. Равномерное n-мерное распределение R[G], G ⊂ Rn . 0 , (x1 , . . . , xn ) ∈ /G fξ1 ,...,ξn (x1 , . . . , xn ) = 1 (x1 , . . . , xn ) ∈ G, µ(G) , где µ(G) — мера G в Rn . Пример 6.6. Нормальное n-мерное распределение. p |A| − 1 Q(x1 ,...,xn ) 2 fξ1 ,...,ξn (x1 , . . . , xn ) = , n e (2π) 2 где Q = n P aij xi xj — положительно определенная квадратичная фор- i,j ма, |A| — определитель матрицы A = (aij ). Пример 6.7. Двумерное нормальное распределение (ξ, η) часто задается в виде: 1 1 p fξ,η = · exp − · 2(1 − ρ2 ) 2πσξ ση 1 − ρ2 65 6. Непрерывные случайные величины " 2 2 (x − aξ ) ) 2ρ(x − aξ )(y − aη ) (y − aη ) − + σξ2 σξ ση ση2 #) , где aξ , aη , σξ , ση , ρ — параметры; σξ > 0, ση > 0, |ρ| 6 1. 6.4. Независимость случайных величин Определение 6.5. Случайные величины ξ1 , . . . , ξn называются независимыми, если p ( ξ1 ∈ B1 , . . . , ξn ∈ Bn ) = p ( ξ1 ∈ B1 ) . . . p ( ξn ∈ Bn ), (53) где B1 , . . . , Bn — борелевские множества из R. Свойства независимых случайных величин 1. Fξ1 ,...,ξn (x1 , . . . , xn ) = Fξ1 (x1 ) . . . Fξn (xn ). Доказательство. Fξ1 ,...,ξn (x1 , . . . , xn ) = p ( ξ1 < x1 , . . . , ξn < xn ) = p ( ξ1 < x1 ) . . . p ( ξn < xn ) = Fξ1 (x1 ) . . . Fξn (xn ). 2. Для дискретных случайных величин pξ1 ,...,ξn (x1 , . . . , xn ) = p ( ξ1 = x1 , . . . , ξn = xn ) = p ( ξ1 = x1 ) . . . p ( ξn = xn ). 3. Для непрерывных случайных величин fξ1 ,...,ξn (x1 , . . . , xn ) = fξ1 (x1 ) . . . fξn (xn ). Доказательство. fξ1 ,...,ξn (x1 , . . . , xn ) = ∂ n Fξ1 ,...,ξn (x1 , . . . , xn ) = ∂x1 . . . ∂xn ∂ n (Fξ1 (x1 ) . . . Fξn (xn )) = ∂x1 . . . ∂xn ∂ (Fξ1 (x1 ) . . . Fξn (xn )) = fξ1 (x1 ) . . . Fξn (xn ) = ∂x1 fξ1 (x1 ) . . . fξn (xn ). Вышеперечисленные свойства являются необходимыми и достаточными условиями независимости. 66 6. Непрерывные случайные величины 6.5. Функции случайных величин Функции одномерной случайной величины Справедливо следующее утверждение. Теорема 6.1. Если ϕ — измеримая функция и ξ — случайная величина, то ϕ(ξ) — также случайная величина. Распределение функции от случайной величины ϕ(ξ) определяется распределением ξ. Рассмотрим примеры нахождения функции распределения η = ϕ(ξ). Пример 6.8. η = aξ + b, a 6= 0. Выразить функцию распределения случайной величины η через функцию распределения ξ. J Fη (y) = p (η < y) = p (aξ + b < y) = p ( ξ < y−b ), a > 0; Fξ ( y−b a a ), = y−b y−b p ( ξ > a ), a < 0; 1 − Fξ ( a + 0), a > 0; a < 0. I Для непрерывной случайной величины этот результат можно было получить и так: пусть aξ + b = ϕ(ξ). Z Z Fη (y) = fξ (u) du = fξ (u) du = au+b<y ϕ(u)<y =  y−b  Ra    fξ (u) du,  a > 0; fξ (u) du, a < 0;      −∞ R∞ = Fξ ( y−b a ), y−b 1 − Fξ ( a + 0), a > 0; a < 0. y−b a Найдем плотность fη (y): 0 fη (y) = Fη (y) = y−b 1 a fξ ( a ), − a1 fξ ( y−b a ), a > 0; a < 0; = 1 fξ |a| y−b . a Пример 6.9. Пусть g(x) — монотонная неубывающая функция, для которой определена обратная функция. Найти плотность распределения величины η = g(ξ). 67 6. Непрерывные случайные величины Найдем сначала функцию распределения η. Fη (y) = p (η < y) = p (g(ξ) < y) = p (ξ < g −1 y) = Fξ (g −1 y). Чтобы найти плотность распределения, продифференцируем полученную функцию распределения: fη (y) = Fξ (g −1 y)(g −1 y)0 . (54) Пример 6.10 (Преобразование Смирнова). Пусть ξ — непрерывная случайная величина, Fξ (x) — ее функция распределения. Рассмотрим случайную величину η = Fξ (ξ) и найдем Fη (x). Fη (x) = P (η < x) = P (Fξ (ξ) < x) =    0, x 6 0, = P Fξ−1 (Fξ (ξ)) < Fξ−1 (x) , 0 < x 6 1,   1, x > 1.    0, x 6 0, 0 < x 6 1, = P ξ < Fξ−1 (x)   1, x > 1.     0, x 6 0,  0, x 6 0, = Fξ (Fξ−1 (x)) 0 < x 6 1, = x, 0 < x 6 1,     1, x > 1. 1, x > 1. Полученная функция распределения совпадает с функцией распределения R[0, 1]. Поскольку функция распределения однозначно определяет случайную величину, отсюда следует, что η ∈ R[0, 1]. Таким образом, Fξ (ξ) = r ∈ R[0, 1]. Если уравнение Fξ (ξ) = r разрешимо относительно ξ, то получаем формулу, называемую преобразованием Смирнова: ξ = Fξ−1 (r) . Преобразование Смирнова позволяет моделировать непрерывную случайную величину ξ, то есть строить распределение случайной величины ξ с заданным законом распределения с помощью случайной величины, распределенной равномерно. 68 6. Непрерывные случайные величины Функции двумерной случайной величины Теорема 6.2. Если ϕ1 , ϕ2 — измеримые функции и ξ1 , ξ2 — независимые случайные величины, то ϕ1 (ξ1 ), ϕ2 (ξ2 ) — также независимые случайные величины. Таким образом, распределение функций от независимых случайных величин ϕ1 (ξ1 ), ϕ2 (ξ2 ) полностью определяется одномерными распределениями ξ1 , ξ2 . Рассмотрим основную задачу, связанную с нахождением закона распределения функции двух независимых случайных величин. Пусть задана измеримая функция двух независимых случайных величин ζ = g(ξ, η), известны Fξ (x), Fη (x). Требуется найти Fζ (x). Z Fζ (x) = p ( g(ξ, η) < x) = dP. g(ξ,η)<x Для непрерывных случайных величин Z ZZ Fζ (x) = dP = fξ,η (u, v) dudv. (55) g(u,v)<x g(ξ,η)<x Для независимых непрерывных случайных величин ZZ ZZ Fζ (x) = fξ,η (u, v) dudv = fξ (u)fη (v) dudv. g(u,v)<x (56) g(u,v)<x Распределение суммы двух независимых случайных величин ζ = ξ + η. ZZ fξ,η dudv = fξ (u)fη (v) dudv = ZZ Fζ (x) = u+v<x Z ∞ Z u+v<x x−u fξ (u) du −∞ Z ∞ fξ (u) · Fη (x − u) du = fη (v) dv = −∞ −∞ Z ∞ Fη (x − u) dFξ (u). −∞ Если подынтегральная функция и ее частная производная по x непрерывны, то Z ∞ fζ (x) = fξ (u) · fη (x − u) du. (57) −∞ 69 6. Непрерывные случайные величины Выражение (57) называется сверткой функций fξ (x), fη (x) и обозначается fξ ∗ fη : fξ+η = fξ ∗ fη . (58) Распределение произведения двух независимых случайных величин ζ = ξ · η. Z Z fξ,η dudv = Z Fζ (x) = Z u·v<x Z ∞ 0 fξ (u) du fη (v) dv + x u −∞ Z Z 0 1 − Fη fξ (u)fη (v) dudv = u·v<x ∞ Z fξ (u) du fη (v) dv = −∞ 0 x x u Z Fη x fξ (u) du. u −∞ 0 Z ∞ Z 0 1 x 1 fη · fξ (u) du + fη · fξ (u) du = fζ (x) = − u u u 0 −∞ u Z ∞ 1 x fη · fξ (u) du. u −∞ |u| Z ∞ 1 x fξ·η = fη · fξ (u) du. u −∞ |u| u x fξ (u) du + ∞ (59) Функции многомерной случайной величины Рассмотрим задачу, связанную с нахождением закона распределения функции n случайных величин. Пусть задана функция n случайных величин ζ = g(ξ1 , . . . , ξn ), известны Fξ (x), i = 1, . . . , n. Требуется найти Fζ (x). Z Fζ (x) = p (g(ξ1 , . . . , ξn ) < x) = dP. g(ξ1 ,...,ξn )<x Для непрерывных случайных величин Z Z Z Fζ (x) = dP = . . . g(ξ1 ,...,ξn )<x fξ1 ,...,ξn (u1 , . . . , un ) du1 . . . dun . g(u1 ,...,un )<x (60) Справедлива теорема, обобщающая теорему (6.2) на случай n случайных величин. 70 6. Непрерывные случайные величины Теорема 6.3. Если ϕ1 , . . . , ϕn — функции и ξ1 , . . . , ξn — независимые случайные величины, то ϕ1 (ξ1 ), . . . , ϕn (ξn ) — также независимые случайные величины. Таким образом, распределение функций от независимых случайных величин ξ1 , . . . , ξn полностью определяется одномерными распределениями Fξ1 , Fξ2 , . . . , Fξn . Для независимых непрерывных случайных величин формула для нахождения закона распределения функции ζ = g(ξ1 , . . . , ξn ) имеет вид: Z Z Fζ (x) = . . . fξ1 (u1 ) · . . . · fξn (un ) du1 . . . dun . (61) g(u1 ,...,un )<x 6.6. Контрольные вопросы 1. Дайте определение плотности распределения вероятностей случайной величины. 2. Как найти по функции распределения плотность? 3. Какими свойствами необходимо обладать функции f (x),чтобы являться плотностью распределения непрерывной случайной величины? 4. Как восстановить по плотности функцию распределения? q 2 5. Плотность задана функцией fξ (x) = π2 e−2(x−3) . Как называется это распределение, и каковы его параметры? 6. Функция распределения имеет вид: Fξ (x) = 1 − e−5x . Как называется это распределение, и каковы его параметры? 7. Какими особенностями обладает график функции распределения непрерывной случайной величины? 8. Как вычислить вероятность того, что значения случайной величины попадают в заданный интервал, используя плотность распределения? 9. Покажите на графике плотности вероятность того, что значения случайной величины попадают в заданный интервал. 10. Если случайная величина имеет размерность (см), какова размерность плотности? 71 7. Числовые характеристики одномерных случайных величин 11. Может ли непрерывная функция от непрерывной случайной величины быть дискретной случайной величиной? 12. Дайте определение функции распределения n-мерной случайной величины. 13. Известны одномерные плотности независимых случайных величин ξ1 , . . . , ξn . Как по ним найти плотность распределения nмерной случайной величины (ξ1 , . . . , ξn )? 14. Дайте определение плотности распределения вероятностей nмерной случайной величины. 15. Как найти по n-мерной совместной функции распределения nмерную плотность? 16. Какими свойствами необходимо обладать функции f (x1 , x2 ), чтобы являться плотностью распределения непрерывной случайной величины? 17. Как вычислить вероятность того, что значения n-мерной случайной величины попадают в заданную область, используя nмерную плотность распределения? Лекция 7. Числовые характеристики одномерных случайных величин План лекции: математическое ожидание дискретной случайной величины, математическое ожидание непрерывной случайной величины, свойства математического ожидания, примеры вычисления математических ожиданий, дисперсия случайной величины, примеры вычисления дисперсий, матожидания и дисперсии некоторых важных распределений, другие числовые характеристики случайной величины. 7.1. Математическое ожидание дискретной случайной величины Рассмотрим дискретную случайную величину ξ с законом распределения pξ (x) : p ( ξ = xi ) = pi , i = 1, 2, . . . Определение 7.1. Математическим ожиданием дискретной случайной величины ξ называется число Mξ = ∞ X xi · p ( ξ = xi ). i=1 72 (62) 7. Числовые характеристики одномерных случайных величин Математическое ожидание существует, если ∞ X |xi | · pi < ∞. i=1 Смысл математического ожидания — среднее значение случайной величины. 2. Найдем математическое ожидание случайной величины вида η = g(ξ). X p ( η = y) = pξ (xi ). xi :g(xi )=y Mη = X yj p (η = yj ) = X j X yj j Mη = pξ (xi ) = X i xi :g(xi )=yj X g(xi )pξ (xi ). (63) g(xi )pξ (xi ). i 3. Рассмотрим дискретную n-мерную случайную величину с законом распределения pξ1 ,...,ξn (x1 , . . . , xn ). Математическое ожидание случайной величины вида η = g(ξ1 , . . . , ξn ) равно Mη = ∞ X i=1 ··· ∞ X g(xi1 , . . . , xjn )pξ1 ,...,ξn (x1 , . . . , xn ). (64) j=1 7.2. Математическое ожидание непрерывной случайной величины Если задана плотность распределения вероятностей fξ (x), то, выбирая в качестве xkn точки непрерывности fξ (x), получим X M ξ = lim xkn p ( xk,n 6 ξ < xk+1,n ); n→∞ X k xkn p ( xk−1,n 6 ξ < xkn ) = X Z xkn k k Z xk+1,n fξ (x) dx xk,n ∞ −→ xfξ (x) dx. −∞ Последнее выражение и используется в качестве определения математического ожидания. 73 7. Числовые характеристики одномерных случайных величин Определение 7.2. 1. Математическим ожиданием непрерывной случайной величины ξ называется число Z ∞ Mξ = xfξ (x) dx. (65) −∞ Математическое ожидание существует, если M |ξ| < ∞. 2. Найдем математическое ожидание случайных величин вида η = g(ξ). Z ∞ Mη = (66) g(x)fξ (x) dx. −∞ 3. Математическое ожидание случайной величины вида η = g(ξ1 , . . . , ξn ), где ξ1 , . . . , ξn ) – непрерывная n-мерная случайная величина с плотностью fξ1 ,...,ξn (x1 , . . . , xn ), равно Z ∞ Z ∞ Mη = ... g(x1 , . . . , xn )fξ1 ,...,ξn (x1 , . . . , xn ) dx1 . . . dxn . −∞ −∞ Свойства математического ожидания Приведем простейшие свойства математического ожидания. Предполагается, что все указанные математические ожидания существуют. 1. M c = c (c = const). 2. M (cξ) = cM ξ. 3. M (ξ1 + ξ2 ) = M (ξ1 ) + M (ξ2 ). Доказательство. По определению XX M (ξ1 + ξ2 ) = (xi + yj )p ( ξ1 = xi , ξ2 = yj ) = i X i = X i xi X j p ( ξ1 = xi , ξ2 = yj ) + X j j yj X p ( ξ1 = xi , ξ2 = yj ) = i |p ( ξ1 = xi , ξ2 = yj ) = p ( ξ1 = xi )p ( ξ2 = yj /ξ1 = xi )| X X X p ( ξ1 = xi /ξ2 = yj ) = xi pi p ( ξ2 = yj /ξ1 = xi ) + yj p j j j i X X p ( ξ2 = yj /ξ1 = xi ) = p ( ξ1 = xi /ξ2 = yj ) = 1 j i X X = xi pi + yj pj = M (ξ1 ) + M (ξ2 ). i j 4. Для независимых случайных величин ξ1 , ξ2 74 7. Числовые характеристики одномерных случайных величин M (ξ1 · ξ2 ) = M (ξ1 ) · M (ξ2 ). Доказательство. Очевидно, XX M (ξ1 · ξ2 ) = xi yj p ( ξ1 = xi , ξ2 = yj ) = i XX i j xi yj p ( ξ1 = xi )p ( ξ2 = yj ) = X xi pi · i j X yj pj = M (ξ1 ) · M (ξ2 ). j 5. |M ξ| 6 M |ξ|. Если M ξ + = M ξ − = ∞, то M ξ не существует. Интеграл Лебега Рассмотренное выше определение соответствует определению интеграла Лебега от функции ξ(ω) по вероятностной мере. Таким образом, Z Mξ = ξ(ω) dP (ω). (67) Ω Для такого интеграла используют обозначения Z Z Z Z ξ(ω) dP (ω), ξ(ω) P (dω), ξ(ω) dP, ξ dP, Ω Ω Ω Ω причем при интегрировании по всему пространству Ω часто знак Ω опускается: Z M ξ = ξ dP Случайная величина ξ, заданная на вероятностном пространстве (Ω, F, P)), вполне характеризуется своим распределением вероятностей, поэтому ее можно рассматривать определенной на вероятностном пространстве R (R, B, Fξ ). Интеграл Лебега ξ dP в этом случае будет иметь вид Z ∞ x dFξ . −∞ Интеграл в правой части называется интегралом Лебега — Стилтьеса. Таким образом, математическое ожидание случайной величины может быть определено единым образом не только через интеграл Лебега, но и через интеграл Лебега — Стилтьеса: Z∞ Mξ = x dFξ (x). (68) −∞ Из определения (67) вытекают формулы (62) для дискретной случайной величины и (65) для непрерывной случайной величины. 75 7. Числовые характеристики одномерных случайных величин 7.3. Примеры вычисления математических ожиданий Пример 7.1. Найти математическое ожидание биномиального распределения B(N, p). J Случайная величина ξ может быть интерпретирована как число успехов в N испытаниях Бернулли, ξ = 0, 1, . . . , N . Рассмотрим случайные величины ξ1 , . . . , ξN , имеющие распределение Бернулли: ξi P 0 1 q p ξk ∈ B(1, p) — число успехов в k-ом испытании. M ξk = p, k = 1, 2, . . . , N. Случайная величина ξ представима в виде суммы k величин, имеющих распределение Бернулли : ξ= N X ξk , ξ ∈ B(N, p). k=1 По свойствам математического ожидания ! N N N X X X M ξk = p = N p. Mξ = M ξk = k=1 k=1 k=1 I Пример 7.2. Найти математическое ожидание распределения Пуассона Pλ . J ξ = 0, 1, 2, . . . p (ξ = k) = Mξ = ∞ X ∞ X ∞ X e−λ λk xk pk = k = k! k=0 ∞ X k k=0 ∞ ∞ X λk−1 X λk λ −λ −λ =e k =e λ =e λ . k! (k − 1)! k! k=0 k=1 k=1 k=0 P λk Вспоминая разложение в ряд Тейлора eλ = ∞ k=0 k! , получаем −λ λk k = e−λ k! e−λ λk k! M ξ = e−λ λeλ = λ. I 76 7. Числовые характеристики одномерных случайных величин Пример 7.3. Найти математическое ожидание геометрического распределения Gp . J ξ = 0, 1, 2, . . . , p (ξ = k) = q k p. Mξ = ∞ X xk pk = = pq k kq p = pq kq k−1 = pq ∞ X (q k )0 = pq kq k−1 = ∞ X !0 qk . k=1 k=1 k=1 ∞ X k=0 k=0 k=0 ∞ X ∞ X Используя формулу суммы геометрической прогрессии со знаменатеP∞ для q k , находим лем q, |q| < 1, k=1 q = 1−q 0 1 pq q q 1(1 − q) − q(−1) M ξ = pq = pq = = . = pq 1−q (1 − q)2 (1 − q)2 p2 p I Пример 7.4. Найти математическое ожидание равномерного распределения R[a, b]. J fξ (x) = Z 1 b−a , x ∈ [a, b]. +∞ Mξ = Z xfξ (x)dx = −∞ a b b 1 1 x2 1 b2 − a2 a+b x dx = = = . b−a b − a 2 a b − a 2 2 I Пример 7.5. Найти математическое ожидание экспоненциального распределения Eλ . J fξ (x) = λe−λx , x ≥ 0. Z Mξ = +∞ Z xfξ (x)dx = −∞ +∞ xλe−λx dx. 0 0 Возьмем этот интеграл по частям, учитывая что −e−λx = λe−λx : Z +∞ −λx +∞ M ξ = −xe − −e−λx dx. 0 0 +∞ Очевидно, что −xe−λx 0 = 0 − 0 = 0. +∞ Z +∞ e−λx 1 1 −λx Mξ = e dx = = 0 − = . −λ 0 −λ λ 0 I 77 7. Числовые характеристики одномерных случайных величин 7.4. Дисперсия случайной величины Определение 7.3. Дисперсией ξ называется число Dξ = M (ξ − M ξ)2 . (69) Дисперсия характеризует разброс значений случайной величины. Свойства дисперсии 1. Dc = 0 (c − const). 2. Dcξ = c2 Dξ. 3. D(ξ1 + ξ2 ) = D(ξ1 ) + D(ξ2 ) (для независимых случайных величин). Доказательство. D(ξ1 + ξ2 ) = M (ξ1 + ξ2 − M (ξ1 + ξ2 ))2 = M [(ξ1 − M ξ1 ) + (ξ2 − M ξ2 )]2 = M (ξ1 − M ξ1 )2 + M (ξ2 − M ξ2 )2 + 2M [(ξ1 − M ξ1 )(ξ2 − M ξ2 )] = D(ξ1 ) + D(ξ2 ) + 2 M (ξ1 − M ξ1 ) M (ξ2 − M ξ2 ) = D(ξ1 ) + D(ξ2 ) | {z }| {z } =0 . =0 4. Dξ = M ξ 2 − (M ξ)2 . Доказательство. Dξ = M (ξ − M ξ)2 = M [ξ 2 − 2M ξ · ξ + (M ξ)2 ] = M ξ 2 − 2M ξ · M ξ + (M ξ)2 = M ξ 2 − (M ξ)2 . 5. minc M (ξ − c)2 = M (ξ − M ξ)2 = Dξ. Доказательство. M (ξ − c)2 = M (ξ − M ξ + M ξ − c)2 = M (ξ − M ξ)2 + M (M ξ − c)2 + 2 M (ξ − M ξ)(M ξ − c) = {z } | =0 2 Dξ + (M ξ − c) > Dξ. Из определения и свойства 4 следуют формулы для вычисления дисперсии. Dξ = M ξ 2 − (M ξ)2 . Для дискретной случайной величины Dξ = ∞ X 2 (xi − M ξ) pi = i=1 ∞ X ∞ X x2i · pi − ( i=1 2 x i · pi ) = i=1 ∞ X x2i · pi − (M ξ)2 . (70) i=1 Для непрерывной случайной величины Z ∞ Z ∞ Dξ = (x − M ξ)2 fξ (x) dx = x2 fξ (x) dx − (M ξ)2 . −∞ −∞ 78 (71) 7. Числовые характеристики одномерных случайных величин 7.5. Примеры вычисления дисперсий Пример 7.6. Найти дисперсию биномиального распределения B(N, p). J ξ = 0, 1, . . . , N ; ξ — число успехов в N испытаниях. Рассмотрим случайную величину ξi , равную числу успехов в i-ом испытании, i = 1, . . . , N . N X ξk . ξ= k=1 Случайные величины ξ1 , . . . , ξN имеют распределение Бернулли: ξ P 0 1 q p M ξk = p, Dξk = M ξ 2 − (M ξ)2 = p − p2 , k = 1, 2, . . . , N. ξ= N X ξk , M ξ = N p, Dξ = N X k=1 Dξk = N (p − p2 ) = N pq. k=1 I Пример 7.7. Найти дисперсию распределения Пуассона Pλ . J ξ = 0, 1, 2, . . . −λ k p (ξ = k) = e k!λ 2 Mξ = ∞ X x2k pk = k=0 −λ =e λ ∞ X k=1 ∞ X k −λ k 2e λ k=0 k! =e −λ ∞ X k=1 k k 2λ k! −λ =e λ ∞ X k=1 λk−1 k = (k − 1)! ∞ ∞ ∞ k=1 k=0 k=0 X λk−1 X λk X λk λk−1 + e−λ λ = e−λ λ k + e−λ λ . (k − 1) (k − 1)! (k − 1)! k! k! Выше показано, что ∞ P k=0 k k λk! = λeλ , P∞ λk k=0 k! = eλ . M ξ 2 = e−λ λλeλ + e−λ λeλ = λ2 + λ, Dξ = M ξ 2 − (M ξ)2 = λ2 + λ − λ2 = λ. I 79 7. Числовые характеристики одномерных случайных величин Пример 7.8. Найти дисперсию геометрического распределения Gp J ξ = 0, 1, 2, . . . , p (ξ = k) = q k p. 2 Mξ = ∞ X x2k pk = = pq 2 ∞ X 2 k k q p= ∞ X k(k − 1)q k−2 + M ξ = p2 k=2 k=2 P∞ k k(k − 1)q p + ∞ X (q k )00 + kq k p = k=0 k=0 k=0 k=0 ∞ X ∞ X q = pq 2 p ∞ X !00 qk k=2 q + . p 2 P∞ q q Заметим, что k=2 q k = k=1 q k − q = = 1−q − q = q−q(1−q) = 1−q . 1−q 2 00 0 0 q2 q q 2q q 2q − q 2 q 2 2 2 2 M ξ = pq + = pq = + = pq + + 1−q p 1 − q (1 − q)2 p (1 − q)2 p = pq 2 (2 − 2q)(1 − q)2 − (2q − q 2 )2(1 − q)(−1) q + = (1 − q)4 p 2(1 − q)(1 − q) + 2q(2 − q) q + = = pq 2 (1 − q)3 p q 2q 2 q 2q 2 + pq − 4q + 2q 2 + 4q − 2q 2 q 2 2 + = pq 3 + = 2 + = . = pq (1 − q)3 p p p p p p2 2 2 2q + pq q q 2 + pq q(q + p) q 2 2 Dξ = M ξ − (M ξ) = − = = = 2. 2 2 2 p p p p p 22 I Пример 7.9. Найти дисперсию равномерного распределения R[a, b]. J fξ (x) = M ξ2 = Z 1 , b−a +∞ x2 fξ (x)dx = −∞ = x ∈ [a, b], M ξ = Z b a a+b 2 3 b 1 1 x = x2 dx = b−a b − a 3 a (b − a)(b2 + ba + a2 ) b2 + ba + a2 1 b 3 − a3 = = . b−a 3 3(b − a) 3 a2 + ab + b2 a2 + 2ab + b2 Dξ = M ξ − (M ξ) = − = 3 4 4a2 + 4ab + 4b2 − 3a2 − 6ab − 3b2 a2 − 2ab + b2 (a − b)2 = = = . 12 12 12 2 2 I 80 7. Числовые характеристики одномерных случайных величин Пример 7.10. Найти дисперсию экспоненциального распределения Eλ . J fξ (x) = λe−λx , x ≥ 0. Z 2 Mξ = +∞ Z 2 x fξ (x)dx = −∞ +∞ x2 λe−λx dx 0 0 Возьмем этот интеграл по частям, учитывая что −e−λx = λe−λx : Z +∞ 2 2 −λx +∞ M ξ = −x e − −2xe−λx dx. 0 0 2 −λx +∞ = 0 − 0 = 0. Очевидно, что −x e 0 Z Z +∞ 1 11 2 1 +∞ 2 −λx xλe−λx dx = 2 M ξ = 2 = 2 Mξ = 2xe dx = 2 λ 0 λ λλ λ 0 Dξ = M ξ 2 − (M ξ)2 ; M ξ = 1 , λ Поэтому 2 Dξ = 2 − λ 2 1 1 = 2. λ λ I Ниже приведены значения числовых характеристик одномерных случайных величин (в обозначениях 5.4, 6.2). 7.6. Матожидания и дисперсии некоторых важных распределений Распределение Бернулли B(1, p) M ξ = p; Dξ = q. Биномиальное распределение B(N, p) M ξ = N p; Dξ = N pq. Распределение Пуассона Pλ M ξ = λ; Dξ = λ. Гипергеометрическое распределение −M )(N −n) Mξ = nM Dξ = nM (N . N; N 2 (N −1) Геометрическое распределение Gp M ξ = pq ; Dξ = pq2 . Отрицательное биномиальное распределение B(r, p) (распределение Паскаля) 81 7. Числовые характеристики одномерных случайных величин M ξ = rqp ; Dξ = rq p2 . Равномерное распределение R[a, b] (b−a)2 ; Dξ = M ξ = a+b 2 12 . Нормальное распределение N (a, σ) M ξ = a; Dξ = σ 2 . Показательное распределение Eλ M ξ = λ1 ; Dξ = λ12 . Распределение Коши M ξ не существует; Dξ не существует. Γ-распределение M ξ = αβ ; Dξ = αβ2 . Распределение Лапласа M ξ = α; Dξ = λ22 . 7.7. Другие числовые характеристики случайной величины Определение 7.4. Начальным моментом порядка k случайной величины ξ называется число αk = M (ξ)k . (72) Определение 7.5. Центральным моментом порядка k случайной величины ξ называется число µk = M (ξ − M ξ)k . (73) Связь между моментами k X Cki ξ i (M ξ)k−i · (−1)k−i = µk = M (ξ − M ξ) = M ( k i=0 k X Cki αi α1k−i · (−1)k−i . (74) i=0 Определение 7.6. Среднеквадратическим отклонением ξ называется число p σ = Dξ. (75) Среднеквадратическое отклонение — линейная мера разброса значений случайной величины. 82 7. Числовые характеристики одномерных случайных величин Определение 7.7. Коэффициентом асимметрии (рис.14) называется число M (ξ − M ξ)3 µ3 . A= 3 = p (76) σ (Dξ)3 f (x) (a) (b) (c) x 0 Рис. 14. (a) : A > 0, (b) : A = 0, (c) : A < 0 Определение 7.8. Коэффициентом эксцесса (рис.15) называется число µ4 M (ξ − M ξ)4 E = 4 −3= − 3. (77) σ (Dξ)2 f (x) (a) (b) x 0 Рис. 15. (a) : E > 0, (b) : E < 0 Определение 7.9. Модой непрерывной случайной величины ξ называется значение mo , при котором плотность fξ (x) достигает максимума: fξ (m0 ) = max fξ (x). (78) x Модой дискретной случайной величины ξ называется значение mo , при котором p ( ξ = mo ) = max pi . (79) i 83 7. Числовые характеристики одномерных случайных величин Определение 7.10. Медианой непрерывной случайной величины ξ называется значение me , при котором Z me fξ (x) dx = 1/2, (80) −∞ то есть F (me ) = 1/2. Медианой дискретной случайной величины ξ называется значение me , при котором F (me ) 6 1/2, F (me + 0) > 1/2. (81) Определение 7.11. Квантилью порядка q, 0 < q < 1 непрерывной случайной величины ξ называется значение xq , при котором Z xq fξ (x) dx = q, (82) −∞ то есть F (xq ) = q. Квантилью порядка q, 0 < q < 1 дискретной случайной величины ξ называется значение xq , при котором F (xq ) 6 q, F (xq + 0) > q. (83) Пример 7.11. Найти медиану и моду для ξ ∈ Γ1,2 . J 1. Мода m0 : fξ (m0 ) = max fξ (x). x 0 −x 0 −x f (x) = (xe ) = e − xe f 0 (x) = 0 ⇐⇒ x = 1. −x −x = e (1 − x). m0 = 1. 2. Медиана me : 1 2 −x 1 − e (x + 1) = 1/2. Численно решая это уравнение методом деления отрезка пополам, получаем me ≈ 1, 68 Fξ (me ) = I Пример 7.12. Найти квантиль порядка 0,1 для ξ ∈ N (−1, 3). J Квантиль xq порядка q находится как корень уравнения: Z xq fξ (x)dx = q −∞ 84 7. Числовые характеристики одномерных случайных величин Пусть q = 0, 1. Тогда xq Z fξ (x)dx = 0, 1 −∞ xq xq − aξ fξ (x)dx = Φ σξ −∞ Z = 0, 1 Используем таблицу 8. Справедливо следующее преобразование: 1 Φ(x) = Φ0 (x) + . 2 Тогда получаем Φ0 xq − aξ σξ = 0, 1 − 0, 5 = −0, 4 Применив свойство функции Лапласа Φ0 (−x) = −Φ0 (x), найдем − xq − aξ = 1.3 σξ x0.1 − aξ = −1.3σξ x0.1 = aξ − 1.3σξ ⇒ x0.1 = −4.9 I 7.8. Контрольные вопросы 1. Дайте определение математического ожидания. 2. Докажите, что M c = c (c = const). 3. Докажите, что M (cξ) = cM ξ (c = const). 4. Докажите, что |M ξ| 6 M |ξ|. 5. Приведите формулу для вычисления математического ожидания дискретной случайной величины. 6. Приведите формулу для вычисления математического ожидания непрерывной случайной величины. 7. Укажите два различных способа найти математическое ожидание функции непрерывной случайной величины. 8. Объясните, почему не существует математическое ожидание распределения Коши Ka,λ . 85 8. Линейная зависимость между случайными величинами 9. Как изменятся дисперсия и среднее квадратическое отклонение случайной величины ξ, если а) прибавить к ней постоянную c; б) умножить ее на постоянную c? 10. Докажите, что Dξ = 0 тогда и только тогда, когда p (ξ = c) = 1 (c = const). 11. Докажите, что Dξ < α2 . 12. Пусть 0 < ξ < 1. Докажите, что Dξ < M ξ. 13. Приведите пример распределения, не имеющего моментов второго порядка. 14. Выразите начальный момент 3-го порядка через центральные моменты. 15. Выразите центральный момент 3-го порядка через начальные моменты. 16. Как называется точка, в которой функция распределения переходит от значений, меньших 0,2, к значениям, большим 0,2? 17. Верно ли, что медиана существует в любом распределении? 18. Чему равна мода биномиального распределения B(N ; p)? Лекция 8. Линейная зависимость между случайными величинами План лекции: ковариация, понятие коррелированности, коэффициент корреляции, уравнение линейной регрессии, ковариационная матрица, уравнение множественной линейной регрессии, остаточная дисперсия, частный коэффициент корреляции, множественный коэффициент корреляции. 8.1. Ковариация Рассмотрим двумерную случайную величину (ξ, η). Определение 8.1. Начальными смешанными моментами порядка j = i + k случайной величины (ξ, η) называются величины αi,k = M (ξ i · η k ). 86 (84) 8. Линейная зависимость между случайными величинами Определение 8.2. Центральными смешанными моментами порядка j = i + k случайной величины (ξ, η) называются величины µi,k = M [(ξ − M ξ)i · (η − M η)k ]. (85) Определение 8.3. Ковариацией случайной величины (ξ, η) называется центральный смешанный момент второго порядка cov(ξ, η) = M [(ξ − M ξ) · (η − M η)]. (86) Понятие коррелированности Ковариация есть мера зависимости между ξ, η. Действительно, D(ξ + η) = M (ξ + η − M (ξ + η))2 = M [(ξ − M ξ) + (η − M η)]2 = M (ξ − M ξ)2 + M (η − M η)2 + 2M [(ξ − M ξ)(η − M η)] = D(ξ) + D(η) + 2M [(ξ − M ξ)(η − M η)] = D(ξ) + D(η) + 2cov(ξ, η). Для независимых случайных величин D(ξ + η) = D(ξ) + D(η), следовательно, cov(ξ, η) = 0. Величины ξ, η называются — некоррелированными при cov(ξ, η) = 0, — положительно коррелированными при cov(ξ, η) > 0, — отрицательно коррелированными при cov(ξ, η) < 0. Для вычисления ковариации часто используют формулу cov(ξ, η) = M (ξ · η) − M ξ · M η. (87) Докажем ее. cov(ξ, η) = M [(ξ − M ξ) · (η − M η)] = M [ξ · η − M η · ξ − M ξ · η + M ξ · M η] = M (ξ · η) − M ξ · M η − M ξ · M η + M ξ · M η = M (ξ · η) − M ξ · M η. 8.2. Коэффициент корреляции Определение 8.4. Коэффициентом корреляции между случайными величинами ξ, η называется число ρξ,η = cov(ξ,η) σξ ση = M [(ξ−M ξ)·(η−M η)] 87 √ D(ξ)D(η) . (88) 8. Линейная зависимость между случайными величинами Свойства коэффициента корреляции 1. |ρ| 6 1. Доказательство. Очевидно, M ξ − Mξ η − Mη p ± p D(ξ) D(η) !2 > 0. Но M ξ − Mξ η − Mη p ± p D(ξ) D(η) 2 !2 !2 ξ − Mξ η − Mη p +M p D(ξ) D(η) ! M [(ξ − M ξ) · (η − M η)] p = 2 ± 2ρ. D(ξ)D(η) =M !2 ± Следовательно, 2 ± 2ρ > 0 ⇒ |ρ| 6 1. 2. Если ξ, η независимы, то ρξ,η = 0. Доказательство. cov(ξ, η) = M [(ξ − M ξ) · (η − M η)] = M (ξ − M ξ) · M (η − M η) = 0 ⇒ ρξ,η = 0. Обратное, вообще говоря, неверно, что показывает следующий пример. Пример 8.1. Пусть ξ — случайная величина, такая, что M ξ = 0 и M ξ 3 = 0. Найти ρξ,ξ 2 . J ρξ,ξ 2 = M (ξ · ξ 2 ) − M (ξ) · M (ξ 2 ) M (ξ 3 ) − M (ξ) · M (ξ 2 ) = = 0. σξ σξ 2 σξ σξ 2 I 3. ρξ,η = ±1 ⇐⇒ ξ, η линейно зависимы, то есть существуют такие a 6= 0 и b, что с вероятностью 1 ξ = aη + b. Доказательство. Пусть ρξ,η = ±1. Тогда 2 ∓ 2ρ = 0. !2 ξ − Mξ η − Mη ∓ p = 0. 2 ∓ 2ρ = M p D(ξ) D(η) 88 8. Линейная зависимость между случайными величинами ξ − Mξ η − Mη p ∓ p = 0. D(ξ) D(η) ! ! p p D(ξ) D(ξ) + ∓M η · p ξ = η · ±( p + Mξ , D(η) D(η) | {z } | {z } a b то есть ξ = aη + b. Пусть теперь ξ = aη + b. ρξ,η M [(ξ − M ξ) · (η − M η)] M (aη + b) = aM η + b, p = = D(aη + b) = a2 Dη D(ξ)D(η) = M [(aη + b − (aM η + b)) · (η − M η)] aM (η − M η)2 a p = = = sgn a. |a|D(η) |a| a2 D(η)D(η) Из свойств 1–3 следует, что коэффициент корреляции есть мера линейной зависимости между ξ, η. Найдем параметры этой линейной зависимости. 8.3. Уравнение линейной регрессии Определение 8.5. Уравнением линейной регрессии η на ξ называется уравнение η̂ = aξ+b, параметры которого минимизируют остаточную дисперсию M (η − η̂)2 , (89) M (η − η̂)2 = M (η − (aξ + b))2 → min . Найдем â, b̂, минимизирующие остаточную дисперсию. M (η − (aξ + b))2 = M (η − M η −a (ξ − M ξ) +M η − aM ξ − b)2 = | {z } | {z } η1 ξ1 M η12 + a2 M ξ12 + M (M η − aM ξ − b)2 − 2aM (ξ1 · η1 )+ 2(M η − aM ξ − b)M η1 − 2a(M η − aM ξ − b)M ξ1 = M ξ1 = M η1 = 0, M ξ12 = Dξ = σξ2 , M η1 = Dη = ση2 M (ξ1 · η1 ) = cov(ξ, η) = ρξ,η σξ ση ση2 + a2 σξ2 + (M η − aM ξ − b)2 − 2aρξ,η σξ ση . 89 = 8. Линейная зависимость между случайными величинами Очевидно, минимум достигается при b̂ = −âM ξ + M η. Продифференцируем по a: 2âσξ2 − 2ρξ,η σξ ση = 0. ση . σξ Подставив, получаем уравнение линейной регрессии : ση ση η̂ = ρξ,η · ξ − ρξ,η · M ξ + M η σξ σξ â = ρξ,η или σ η̂ − M η = ρξ,η σηξ (ξ − M ξ). (90) Найдем остаточную дисперсию. ση ση ξ + ρξ,η M ξ − M η)2 = σξ σξ ση M [(η − M η) − ρξ,η (ξ − M ξ)]2 = σξ 2 Sост = M (η − η̂)2 = M (η − ρξ,η ση2 ση 2 M (η − M η) + M [(ξ − M ξ) · (η − M η)] = M (ξ − M ξ) − 2ρ ξ,η σξ2 σξ ση ση2 + ρ2ξ,η ση2 − 2ρξ,η ρξ,η σξ ση = ση2 (1 − ρ2ξ,η ). σξ 2 ρ2ξ,η 2 = ση2 (1 − ρ2ξ,η ). Sост (91) Пример 8.2. Дискретная двумерная случайная величина (ξ, η) задана таблицей распределения: ξ\η 0 1 2 −1 0 1 0, 1 0, 1 0 0 0, 3 0 0 0, 1 0, 4 Найти одномерные законы распределения, коэффициент корреляции и уравнение линейной регрессии η на ξ. J Найдем одномерные законы распределения. ξ P 0 1 2 0,2 0,3 0,5 90 8. Линейная зависимость между случайными величинами η P -1 0 1 0,1 0,5 0,4 Вычислим числовые характеристики. M η = 0, 3, M ξ = 1, 3 √ Dη = 0, 5 − 0, 09 = 0, 41, Dξ = 2, 3 − 1, 69 = 0, 61. σξ = 0, 61 ≈ √ M (ξ · η) = 2 · 1 · 0, 4 = 0, 8. 0, 78, ση = 0, 41 ≈ 0, 64. ρξ,η = 0, 8 − 0, 3 · 1, 3 ≈ 0, 82. 0, 64 · 0, 78 Уравнение линейной регрессии: η̂ − 0, 3 = 0, 82 0, 64 (ξ − 1, 3), 0, 78 η̂ = 0, 67ξ − 0, 57. 2 Sост = 0, 41(1 − 0, 822 ) ≈ 0, 134. I 8.4. Ковариационная матрица Определение 8.6. Ковариационной матрицей случайных величин ξ1 , . . . , ξn называется матрица размерности n × n с конечными элементами cov(ξi , ξj ):   σ12 cov(ξ1 , ξ2 ) . . . cov(ξ1 , ξn )  cov(ξ2 , ξ1 ) σ22 . . . cov(ξ2 , ξn )    (92) K=  ... ... ... ... cov(ξn , ξ1 ) cov(ξn , ξ2 ) . . . σn2 Пример 8.3. Обычно двумерное нормальное распределение задают с помощью ковариационной матрицы: σξ2 cov(ξ, η) K= . cov(ξ, η) ση2 Таким же образом можно задать и n-мерное распределение (ξ1 . . . , ξn ). σξ21 cov(ξ1 , ξ2 )  cov(ξ2 , ξ1 ) σξ22 K=  ... ... cov(ξn , ξ1 ) cov(ξn , ξ2 )  91  . . . cov(ξ1 , ξn ) . . . cov(ξ2 , ξn )  .  ... ... ... σξ2n 8. Линейная зависимость между случайными величинами Наряду с ковариационной матрицей рассматривают и корреляционную матрицу R, составленную из коэффициентов корреляции.   ρξ1 ξ1 ρξ1 ξ2 ρξ1 ξ3 . . . ρξ1 ξn  ρξ2 ξ1 ρξ2 ξ2 ρξ2 ξ2 . . . ρξ2 ξn   R= (93)  ... ... ... ... ... . ρξn ξ1 ρξn ξ2 ρξn ξ3 . . . ρξn ξn Если обозначить ρξi ,ξj = ρij , матрицу R можно записать в виде   1 ρ12 ρ13 . . . ρ1n  ρ21 1 ρ22 . . . ρ2n   R=  ... ... ... ... ... . ρn1 ρn2 ρn3 . . . 1 (94) Теорема 8.1. Ковариационная и корреляционная матрицы симметричны и неотрицательно определены. Ранг r ковариационной матрицы называется рангом распределения. Распределение ξ1 , . . . , ξn называется собственным или несобственным в зависимости от того, имеет ли место r = n или r < n. Для распределения, имеющего ранг r < n, существует ровно n−r линейных соотношений между величинами ξi . Например, у несобственного распределение в R3 , имеющего ранг 1, вся масса распределена на некоторой прямой, и существуют два независимых линейных соотношения между величинами ξ1 , ξ2 , ξ3 , которые выполняются с вероятностью, равной единице. Собственное распределение имеет положительно определенные ковариационную и корреляционную матрицы. В этом параграфе дальше рассматриваются собственные распределения. 8.5. Уравнение множественной линейной регрессии Рассмотрим случайные величины ξ0 , ξ1 , . . . , ξn с математическими ожиданиями M ξ0 = a0 , M ξi = ai , ai < ∞, i = 0, 1, . . . , n, дисперсиями Dξ0 = σ02 , Dξi = σi2 , i = 1, 2, . . . , n и корреляционной матрицей R. Определение 8.7. Уравнением линейной регрессии ξ0 на ξ1 , . . . , ξn называется уравнение ξˆ0 = b0 + b1 ξ1 + · · · + bn ξn , (95) где bo , b1 , . . . , bn — параметры, минимизирующие остаточную дисперсию M (ξ0 − ξˆ0 )2 . (96) 92 8. Линейная зависимость между случайными величинами Центрированную форму множественной линейной регрессии задают уравнением n X ξˆ0 = a0 + bi (ξi − ai ). (97) i=1 Найдем b̂i , минимизирующие остаточную дисперсию (95). !2 n X M ξ 0 − a0 − bi (ξi − ai ) → min . i=1 ξ 0 − a0 − Q=M M (ξ0 − | {z σ02 2 n X i=1 σ02 + i=1 −2 bi (ξi − ai ) = ai )2 − } i cov(ξ0 ,ξi )=ρ0i σ0 σi b2i σi2 !2 i=1 n X 2 a0 ) + b2i M (ξi − } {z | i=1 σ2 bi M [(ξ0 − a0 )(ξi − ai )] +2 | {z } n X n X n X X i<j bi bj M [(ξi − ai )(ξj − aj )] = {z } | bi ρ0i σ0 σi + 2 cov(ξi ,ξj )=ρij σi σj X i=1 bi bj ρij σi σj → min . i<j Для отыскания минимума выражения Q необходимо найти частные производные по всем неизвестным b1 , b2 , . . . , bn и приравнять их к нулю. Полученные уравнения образуют систему. Продифференцируем по bk : X X ∂Q = 2bk σk2 − 2ρ0k σ0 σk + 2 bj ρkj σk σj + 2 bj ρkj σk σj = 0. ∂bk k<j k>j Сократим на 2σk : bk σk − ρ0k σ0 + X bj ρkj σj + k<j X bj ρkj σj = 0. k>j Все члены, кроме второго, можно объединить в одну сумму, учитывая, что ρkk = 1: n X bi ρki σi = ρk0 σ0 , k = 0, 1, . . . , n i=1 Получена система уравнений для нахождения коэффициентов bi . Введем новые переменные bi σi b̄i = , σ0 93 8. Линейная зависимость между случайными величинами тогда система примет вид: n X b̄i ρki = ρk0 , k = 0, 1, . . . , n i=1 или, в развернутом виде  ρ11 b̄1 + ρ12 b̄2 + · · · + ρ1n b̄n = ρ10    ρ21 b̄1 + ρ22 b̄2 + · · · + ρ2n b̄n = ρ20 ...    ρn1 b̄1 + ρn2 b̄2 + · · · + ρnn b̄n = ρn0 (98) Расширенная матрица коэффициентов системы представляет из себя корреляционную матрицу R размерности (n + 1) × (n + 1):   1 ρ01 ρ02 . . . ρ0n  ρ10 1 ρ12 . . . ρ1n   R= (99)  ... ... ... ... ... . ρn0 ρn1 ρn2 . . . 1 Решение системы имеет вид R0i σ0 |R0i | σ0 · = (−1)i+1 (100) × . R00 σi |R00 | σi Здесь и далее через Rij обозначено алгебраическое дополнение элемента aij матрицы R, |Rij | = detRij . bi = − Остаточная дисперсия 2 Теорема 8.2. Остаточная дисперсия Sост = M (ξ0 − ξˆ0 )2 равна 2 Sост = σ02 · |R| . R00 Пример 8.4. Для случайных величин ξ0 , ξ1 , ξ2 известна корреляционная матрица R, а также M ξ0 , M ξ1 , M ξ2 , Dξ0 , Dξ1 , Dξ2 . Найти уравнение линейной регрессии ξ0 на ξ1 , ξ2 и остаточную дисперсию.   1 0, 5 0, 7 R =  0, 5 1 0, 4  ; 0, 7 0, 4 1 M ξ0 = 0, M ξ1 = 2, M ξ2 = 2, Dξ0 = 4, Dξ1 = 1, Dξ2 = 9. 94 8. Линейная зависимость между случайными величинами J η̂ = M ξ0 + n X bi (ξi − M ξi ). i=1 bi = (−1)i+1 |R0i | σ0 · . |R00 | σi 0, 5 0, 4 0, 7 1 2 0, 44 · = ≈ 0, 525. 1 0, 4 1 0, 84 0, 4 1 0, 5 1 2 0, 7 0, 4 1 2+1 |R02 | σ0 · = · = ≈ 0, 4. b2 = (−1) 1 0, 4 3 2, 52 |R00 | σ2 0, 4 1 |R | σ 01 0 1+1 b1 = (−1) · = |R00 | σ1 η̂ = 0, 525(ξ1 − 2) + 0, 4(ξ2 − 2) = 0, 525ξ1 + 0, 4ξ2 − 1, 85. Остаточная дисперсия равна Q = σ02 · 0, 38 |R| =4· ≈ 1, 8. |R00 | 0, 84 I Рассмотрим различные виды коэффициентов корреляции. 8.6. Частный коэффициент корреляции Частный коэффициент корреляции используется как мера линейной зависимости между двумя какими-либо случайными величинами из ξ1 , . . . , ξn после вычитания эффекта, обусловленного взаимодействием этих двух величин с некоторым непустым подмножеством из оставшихся n − 2 случайных величин. Определение 8.8. Пусть l и h — две какие-либо величины из набора ξ1 , . . . , ξn и c — некоторое непустое подмножество из оставшихся n− 2 величин. Определим величины τ1 = l−µl.c и τ2 = h−µh.c . Здесь µl.c = ¯l(c) , µh.c = h̄(c) — соответственно условные ожидаемые значения l и h при данном c. Частный коэффициент корреляции между τ1 и τ2 при фиксированных значениях переменных из c есть ρlh.c = ρτ1 τ2 , 95 (101) 8. Линейная зависимость между случайными величинами где ρτ1 τ2 — парный коэффициент корреляции между τ1 и τ2 . Если в c содержится k переменных, то соответствующий частный коэффициент корреляции называется коэффициентом k-го порядка. Частные коэффициенты корреляции могут быть вычислены на основе рекуррентных соотношений следующим образом: ρlh − ρld · ρhd , ρlh.d = p (1 − ρ2ld )(1 − ρ2hd ) (102) где все величины в правой части — парные коэффициенты корреляции. Далее, последовательно применяя рекуррентную формулу ρlh.c − ρld.c · ρhd.c , ρlh.cd = p (1 − ρ2ld.c )(1 − ρ2hd.c ) (103) где c — любое подмножество оставшихся переменных, можно получить частные коэффициенты корреляции любого порядка. При рассмотрении линейной регрессии ξ0 на ξ1 , . . . , ξn особое значение имеет частный коэффициент корреляции между ξ0 и ξi за вычетом влияния остальных n − 1 величин из набора ξ1 , . . . , ξn , исключая ξi . Он равен ρ0i.1,...,n −R0i (−1)i+1 |R0i | =√ . = p R00 Rii |R00 ||Rii | (104) Пример 8.5. Выведем формулу частного коэффициента корреляции между ξi , ξj без учета влияния ξk . J τ1 = ξi − ξ¯i(k) , τ2 = ξj − ξ¯j(k) ; ρij.1,...,k̂,...,n = ρij.k = ρτ1 τ2 , σi ξ¯i(k) = ai + ρik (ξk − ak ), σk σj ξ¯j(k) = aj + ρjk (ξk − ak ). σk σi σj cov(τ1 , τ2 ) = M (ξi − ai − ρik (ξk − ak ))(ξj − aj − ρjk (ξk − ak ) σk σk 96 8. Линейная зависимость между случайными величинами σj σi σj σi σj ρkj σk − ρjk ρki σk σi + ρik ρjk 2 σk2 σk σk σk = σi σj (ρij − ρik ρkj ). σi σi σ2 Dτ1 = M (ξi − ai − ρik (ξk − ak ))2 = σi2 + ρ2ik i2 σk2 − 2ρik ρik σi σk = σi2 (1 − ρ2ik ); σk σk σk Dτ2 = σj2 (1 − ρ2jk ). σi σj (ρij − ρik ρkj ) ρij − ρik ρkj ρij.k = q =q . 2 2 2 2 2 2 σi (1 − ρik )σj (1 − ρjk ) (1 − ρik )(1 − ρjk ) = ρij σi σj − ρik I 8.7. Множественный коэффициент корреляции Множественный коэффициент корреляции ρξ0 (ξ1 ,...,ξn ) является мерой линейной зависимости между ξ0 и набором переменных (ξ1 , . . . , ξn ). Определение 8.9. Множественным коэффициентом корреляции называется парный коэффициент корреляции между ξ0 и линейной регрессией ξ0 на ξ1 , . . . , ξn . Этот коэффициент есть максимальное значение парного коэффициента корреляции между ξ0 и произвольной линейной комбинацией ξ1 , . . . , ξn , причем 0 6 ρξ0 (ξ1 ,...,ξn ) 6 1. Нулевое значение множественного коэффициента корреляции указывает на отсутствие линейной зависимости, а значение 1 — на то, что переменная ξ0 точно равна линейной комбинации переменных ξ1 , . . . , ξn . Множественный коэффициент корреляции, как и парный, инвариантен относительно невырожденных линейных преобразований исходных переменных. Теорема 8.3. Множественный коэффициент корреляции вычисляется с помощью корреляционной матрицы следующим образом: s |R| ρ0.1,...,n = 1 − . (105) |R00 | Пример 8.6. Для случайных величин ξ0 , ξ1 , ξ2 известна корреляционная матрица R, а также M ξ0 , M ξ1 , M ξ2 , Dξ0 , Dξ1 , Dξ2 . Найти частный коэффициент корреляции ρ01.2 и множественнный коэффициент ρ0.1,2 .   1 0, 5 0, 7 R =  0, 5 1 0, 4  , 0, 7 0, 4 1 97 8. Линейная зависимость между случайными величинами M ξ0 = 0, M ξ1 = 2, M ξ2 = 2, Dξ0 = 4, Dξ1 = 1, Dξ2 = 9. J 0, 5 0, 4 0, 7 1 1 0, 4 1 0, 7 · 0, 4 1 0, 7 1 (−1)1+1 |R01 | = s ρ01.2 = p ≈ 0, 34. |R00 ||R11 | s r |R| 0, 38 ρ0.1,2 = 1 − = 1− ≈ 0, 74. |R00 | 0, 84 I 8.8. Контрольные вопросы 1. Изменится ли ковариация cov(ξ, η), если к одной из величин прибавить постоянную c? 2. Изменится ли ковариация cov(ξ, η), если одну из величин умножить на постоянную c? 3. Докажите формулу D(ξ + η) = Dξ + Dη + 2 cov(ξ, η). 4. Докажите линейное свойство ковариации: cov(aξ + bη, ζ) = a cov(ξ, ζ) + b cov(η, ζ). 5. Дайте определение положительно коррелированных величин. 6. Изменится ли коэффициент корреляции ρξ,η , если к одной из величин применить линейное преобразование? 7. Как связаны независимость и некоррелированность случайных величин? 8. Возможно ли, что между величинами ξ, η существует функциональная зависимость, а |ρξ,η | < 1? 9. Может ли ковариация двух случайных величин равняться 11, а их дисперсии равняться 10 и 12? 10. Равносильны ли уравнения линейной регрессии η на ξ и ξ на η? 11. Как можно оценить точность приближения величины η линейной регрессией η̂? 98 9. Условные распределения 12. Какими свойствами обладает ковариационная матрица? 13. Как по заданной ковариационной матрице K найти корреляционную матрицу R? 14. Как по заданной корреляционной матрице R и дисперсиям случайных величин найти ковариационную матрицу K? 15. Каждую из случайных величин умножили на константу b. Как изменятся от этого ковариационная и корреляционная матрицы? 16. К каждой из случайных величин прибавили константу c. Как изменятся от этого ковариационная и корреляционная матрицы? 17. Запишите ковариационную матрицу случайных величин ξ, η, если известно, что Dξ = 4, Dη = 9, ρξ,η = −0, 5. 18. Какие значения может принимать частный коэффициент корреляции? Лекция 9. Условные распределения План лекции: условные распределения относительно событий, условное математическое ожидание, условные распределения относительно случайных величин, линия регрессии, корреляционное отношение. 9.1. Условные распределения относительно событий Пусть (Ω, F, P) — вероятностное пространство, B ∈ F, делим меру PB : ∀A ∈ F PB (A) = p (A/B). p (B) > 0. Опре(106) Тогда (Ω, F, PB ) — также вероятностное пространство. Пусть ξ — случайная величина в (Ω, F, P). Тогда ξ — случайная величина и в (Ω, F, PB ). Функция распределения и числовые характеристики ξ в этом пространстве называются условными относительно B. Определение 9.1. Условной функцией распределения случайной величины ξ относительно B (при условии B) называется выражение Fξ (x/B) = p ( (ξ < x) ∩ B) . p (B) 99 (107) 9. Условные распределения Определение 9.2. Если условная функция распределения случайной величины ξ относительно B абсолютно непрерывна и Z x Fξ (x/B) = fξ (t/B) dt, (108) −∞ то fξ (x/B) называется условной плотностью распределения случайной величины ξ относительно B (при условии B). 9.2. Условное математическое ожидание Определение 9.3. Условным математическим ожиданием случайной величины ξ относительно B (при условии B) называется выражение Z M (ξ/B) = ξ(ω)PB (dω). (109) Ω По (106), PB (dω) = P (dω/B) = P (dω ∩ B) , p (B) поэтому Z Z 1 1 M (ξ/B) = ξ(ω)P (dω ∩ B) = ξ(ω)P (dω). p (B) Ω p (B) B Обозначив Z M (ξ, B) = ξ(ω)P (dω), B получим 1 M (ξ, B). p (B) Для непрерывных случайных величин (109) принимает вид: Z ∞ M (ξ/B) = xfξ (x/B) dx. M (ξ/B) = (110) (111) −∞ (M (ξ/B) существует, если интеграл в правой части абсолютно сходится). Условная функция распределения, условная плотность, условное математическое ожидание обладают свойствами функции распределения, плотности, математического ожидания соответственно. Отметим еще одно важное свойство. Формула полной вероятности для математических ожиданий Пусть B1 , B2 , . . . , Bn — полная группа событий, тогда n X Mξ = M (ξ/Bi )p (Bi ). i=1 100 9. Условные распределения 9.3. Условные распределения относительно случайных величин Определение 9.4. Условным математическим ожиданием случайной величины ξ относительно η называется случайная величина g(η) такая, что для любого борелевского множества B M (g(η), η ∈ B) = M (ξ, η ∈ B). (112) Условное математическое ожидание случайной величины ξ относительно η обозначается M (ξ/η). Полагая в (112) B = R = (−∞, ∞), получаем аналог формулы полной вероятности: M ξ = M [M (ξ/η)]. (113) Способы вычисления условных распределений 1. Условная функция распределения F (y/x). Обозначим F (y/x) = Fη/ξ=x (y) = p ( η < y/ξ = x). F (y/x) = p ( η < y/ξ = x) = lim p ( η < y/x 6 ξ < x + ∆x) = ∆x→0 R y R x+∆x fξ,η (x, y) dxdy p ( η < y, x 6 ξ < x + ∆x) lim = lim −∞ Rx x+∆x ∆x→0 ∆x→0 p ( x 6 ξ < x + ∆x) fξ (x) dx x Ry fξ,η (x, y) dy . = −∞ fξ (x) fξ (x) — частная плотность распределения. Z ∞ fξ (x) = fξ,η (x, y) dy −∞ F (y/x) = Ry fξ,η (x,y) dy R−∞ . ∞ f (x,y) dy −∞ ξ,η (114) 2. Условный закон распределения дискретной случайной величины. Рассмотрим дискретную двумерную случайню величину (ξ, η) с законом распределения: ξ\η x1 .. . xm y1 . . . p11 . . . .. .. . . pm1 . . . Условный закон распределения η/ξ = xk : 101 yn p1n .. . pmn 9. Условные распределения η \ ξ = xk p y1 p Pn k1 j=1 pkj ... ... ym Pnpkn j=1 pkj Условный закон распределения ξ/η = yj : ξ \ η = yj p x1 p1j Pm i=1 pij ... ... xm p Pmmj i=1 pij 3. Условная плотность распределения fη/ξ=x (y). fη/ξ=x (y) = ∂F (y/x) fξ,η (x, y) = . ∂y fξ (x) fη/ξ=x (y) = fξ,η (x,y) fξ (x) . (115) Замечание 9.1. Для fη/ξ=x (y) используется также обозначение f (y/x); для fξ/η=y (x) обозначение f (x/y). 4. Условное математическое ожидание M (η/x). Z ∞ Z ∞ M (η/x) = M (η/ξ = x) = y dF (y/x) = yfη/ξ=x (y) dy. −∞ M (η/x) = −∞ R∞ −∞ yfη/ξ=x (y) dy. Для дискретной случайной величины P M (η/x) = i yi p ( η = yi /ξ = x). Пример 9.1. Дискретная двумерная случайная величина (ξ, η) задана таблицей распределения: ξ\η 0 1 2 −1 0 1 0, 1 0, 1 0 0 0, 3 0 0 0, 1 0, 4 Найти условные законы распределения η/ξ = 0 и ξ/η = 0. 102 (116) (117) 9. Условные распределения J η\ξ =0 p ξ\η =0 p −1 0 0, 5 0, 5 0 1 2 0, 2 0, 5 0, 2 I Пример 9.2. Случайная величина (ξ, η) распределена равномерно в квадрате {(x, y) : |x| + |y| < 1}. Найти fξ,η (x, y), fξ (x), fη (y), fξ/η=y (x), fη/ξ=x (y). J Обозначим через S множество точек (x, y), лежащих в квадрате: S = {(x, y) : |x| + |y| < 1}. 1 fξ , η(x, y) = , (x, y) ∈ S. 2 Z ∞ fξ (x) = fξ,η (x, y) dy = −∞ ( R x+1 1 1 −1 6 x 6 0, −1−x 2 dy = 2 (2x + 2) = x + 1, R 1−x 1 1 06x61 x−1 2 dx = 2 (−2x + 2) = −x + 1, 1 − |x|; Аналогично, fη (y) = 1 − |y|; 0 6 x 6 1. 0 6 y 6 1. 1 fξ,η (x, y) 2 fη/ξ=x (y) = = , fξ (x) 1 − |x| 1 fξ,η (x, y) 2 fξ/η=y (x) = = ; fη (y) 1 − |y| I 103 (x, y) ∈ S. = 9. Условные распределения 9.4. Регрессия Определение 9.5. Регрессией η на ξ называется случайная величина r(ξ), равная условному математическому ожиданию случайной величины η относительно ξ r(ξ) = M (η/ξ). (118) Линия регрессии — кривая y = r(x), где r(x) = M (η/ξ = x). Теорема 9.1. r(ξ) минимизирует среднеквадратичное отклонение: min M (η − g(ξ))2 = M (η − r(ξ))2 . g (119) Доказательство. Докажем, что M (η − g(ξ))2 = M (η − r(ξ))2 + M (r(ξ) − g(ξ))2 . (120) Для упрощения записи примем, что M η = 0. M (η − g(ξ))2 = M (η − r(ξ) − (g(ξ) − r(ξ)))2 = M (η − r(ξ))2 + M (g(ξ) − r(ξ))2 − 2M [(η − r(ξ))(g(ξ) − r(ξ))]. M [(η − r(ξ))(g(ξ) − r(ξ))] = 0, так как M [(η − r(ξ))(g(ξ) − r(ξ))] = ∞ Z Z Z ∞ (y − r(x))(g(x) − r(x))fξ (x)fη/ξ=x (y) dxdy = Z ∞ (g(x) − r(x))fξ (x) · (y − r(x))fη/ξ=x (y) dy dx. −∞ ∞ −∞ −∞ −∞ Рассмотрим внутренний интеграл. Z ∞ yfη/ξ=x (y) dy = M (y/x) = r(x). −∞ Z ∞ −∞ Z ∞ r(x)fη/ξ=x (y) dy = r(x) fη/ξ=x (y) dy = r(x) ⇒ −∞ Z ∞ (y − r(x))fη/ξ=x (y) dy = 0. −∞ Таким образом, M (η − g(ξ))2 = M (η − r(ξ))2 + M (r(ξ) − g(ξ))2 > M (η − r(ξ))2 . Минимум достигается при g(ξ) = r(ξ). Из этой теоремы следует, что регрессия выражает зависимость η от ξ, наилучшую в смысле минимизации среднеквадратичного отклонения. 104 9. Условные распределения Пример 9.3. Дискретная двумерная случайная величина (ξ, η) задана таблицей распределения: ξ\η 0 1 2 −1 0 1 0, 1 0, 1 0 0 0, 3 0 0 0, 1 0, 4 Найти регрессию r(ξ). J Найдем условные законы распределения η/ξ = x для всех возможных значений ξ, и по полученным законам обычным образом вычислим математические ожидания; поскольку законы распределения условные, рассчитанные по ним математические ожидания будут условными. η/ξ = 0: η\ξ =0 p −1 0 0, 5 0, 5 M (η/ξ = 0) = −0, 5. η/ξ = 1: η\ξ =1 p 0 1 M (η/ξ = 1) = 0. η/ξ = 2: η\ξ =2 p 0 1 0, 2 0, 8 M (η/ξ = 2) = 0, 8. Очевидно, r(ξ) = M (η/ξ) — дискретная функция, определенная только при ξ = 1, ξ = 2, ξ = 3:  ξ = 0,  −0, 5, r(ξ) = 0, ξ = 1,  0, 8, ξ = 2. I 105 9. Условные распределения 9.5. Корреляционное отношение 2 Определение 9.6. Корреляционным отношением θη,ξ называется выражение M (r(ξ) − M η)2 2 θη,ξ = (121) . ση2 Свойства корреляционного отношения 2 6 1. 1. 0 6 θη,ξ Доказательство. Подставим в (120) g(ξ) = M η: M (η − M η)2 = M (η − r(ξ))2 + M (r(ξ) − M η))2 . 2 Dη = M (η − r(ξ))2 + θη,ξ ση2 . 1= M (η − r(ξ))2 2 2 + θη,ξ ⇒ 0 6 θη,ξ 6 1. 2 ση 2 2. θη,ξ > ρ2 . Доказательство. Подставим в (120) g(ξ) = η̂ = âξ + b̂: M (η − (âξ + b̂))2 = M (η − r(ξ))2 + M (r(ξ) − (âξ + b̂))2 . 2 ση2 (1 − ρ2 ) = ση2 (1 − θη,ξ ) + M (r(ξ) − (âξ + b̂))2 . 2 θη,ξ = ρ2 + M (r(ξ) − (âξ + b̂))2 . ση2 (122) 2 3. θη,ξ = ρ2 ⇔ r(ξ) = âξ + b̂. Это следует из (122). 2 4. θη,ξ = 0 ⇔ r(ξ) = b = const. Пример 9.4. Дан закон распределения случайной величины (ξ, η). Най2 ти θξ,η . ξ\η −1 0 1 −2 0 1 0, 2 0 0 0 0, 4 0 0, 1 0, 2 0, 1 J Найдем условные законы распределения η/ξ и по ним вычислим условные математические ожидания. ξ/η = −2: 106 9. Условные распределения ξ \ η = −2 p −1 1 0, 6(6) 0, 3(3) M (ξ/η = −2) = −0, 3(3). ξ/η = 0: ξ\η =0 p 0 1 0, 6(6) 0, 3(3) M (ξ/η = 0) = 0, 3(3). ξ/η = 1: ξ\η =1 p 1 1 I M (ξ/η = 1) = 1. Объединяя полученные результаты, найдем r(η):  η = −2,  −0, 3(3), r(η) = 0, 3(3), η = 0,  1, η = 1. 2 θξ,η = M (r(η) − M ξ)2 . σξ2 Для вычисления M ξ, σξ2 найдем одномерный закон распределения ξ (что является не столько необходимым, сколько удобным): ξ p M ξ = 0, 2; −1 0 1 0, 2 0, 4 0, 4 σξ2 = Dξ = 0, 6 − 0, 04 = 0, 56. M (r(η) − M ξ)2 ≈ (−0, 33 − 0, 2)2 · 0, 3 + (−0, 33 − 0, 2)2 · 0, 6+ (1 − 0, 2)2 · 0, 1 ≈ 0, 0852 + 0, 0106 + 0, 064 = 0, 1596. 0, 1596 2 θξ,η = ≈ 0, 285. 0, 56 107 10. Сходимость случайных величин. Предельные теоремы 9.6. Контрольные вопросы 1. Обязана ли условная плотность обладать свойствами неотриR∞ цательности и нормированности ( −∞ f (t) dt = 1)? 2. Докажите, что если η и ξ независимы, условная плотность распределения fη/ξ=x (y) = fη (y). 3. Дайте определение условного начального момента порядка k случайной величины ξ (аналогично определению условного математического ожидания). 4. Пусть даны две случайные величины, η и ξ, и требуется найти среди всех измеримых функций g(ξ) такую функцию g0 (ξ), которая дает возможно лучшее представление η (в смысле принципа наименьших квадратов). Что представляет из себя g0 (ξ)? 5. Приведите определение линии регрессии. 6. Совпадают ли линии регрессии y = r(x) и x = r(y)? В выражениях r(x) и r(y) обозначает ли буква «r» одну и ту же функцию? 7. В каких случаях линии регрессии и прямые линейной регрессии совпадают? 8. Какие значения может принимать корреляционное отношение? 2 2 9. Верно ли равенство θξ,η = θη,ξ ? 10. Верно ли, что если регрессия η на ξ линейна, корреляционное отношение равно коэффициенту корреляции? Лекция 10. Сходимость случайных величин. Предельные теоремы План лекции: неравенство Маркова, неравенство Чебышева, неравенство Коши-Буняковского-Шварца, сходимость по вероятности, другие виды сходимости, закон больших чисел в форме Чебышёва, закон больших чисел в форме Бернулли, закон больших чисел в форме Пуассона, закон больших чисел в форме Хинчина, закон больших чисел в форме Маркова, центральная предельная теорема для независимых одинаково распределенных случайных величин, контрольные вопросы. 108 10. Сходимость случайных величин. Предельные теоремы 10.1. Некоторые важные неравенства Рассмотрим некоторые важные неравенства. Неравенство Маркова Теорема 10.1. Для любой случайной величины ξ и для любых k > 0, ε > 0 M |ξ|k p (|ξ| > ε) 6 . (123) εk Доказательство. M |ξ|k > M (|ξ|k ; |ξ| > ε) > εk M (1; |ξ| > ε) > εk p (|ξ| > ε). Следовательно, M |ξ|k p (|ξ| > ε) 6 . εk Неравенство Чебышева Теорема 10.2. Для любой случайной величины ξ и для любого ε > 0 p (|ξ − M ξ| > ε) 6 Dξ . ε2 (124) Доказательство. Положим в (123 ) k = 2 и заменим ξ на ξ − M ξ. Неравенство Коши-Буняковского-Шварца Теорема 10.3. q M |ξ1 ξ2 | 6 M ξ12 M ξ22 . (125) Доказательство. Как известно, 2|xy| 6 x2 + y 2 . Пусть ξ1 x=p , M ξ12 y=p 109 ξ2 M ξ22 . 10. Сходимость случайных величин. Предельные теоремы Подставляя, получим ξ ξ 1 2 p 2 p · 6 M ξ12 M ξ22 !2 ξ1 p M ξ12 + ξ2 p M ξ22 !2 . 2 |ξ1 · ξ2 | ξ12 ξ12 p p 6 + . M ξ12 M ξ12 M ξ12 · M ξ22 Возьмем математические ожидания от обеих частей: 2M |ξ1 · ξ2 | M ξ12 M ξ12 p p + = 2. 6 M ξ12 M ξ12 M ξ12 · M ξ22 Отсюда q M |ξ1 ξ2 | 6 M ξ12 M ξ22 . Пример 10.1. Длина изготовляемых деталей представляет случайную величину, среднее значение которой (математическое ожидание) равно 80 см. Дисперсия этой величины равна 0,04. Используя неравенство Чебышева, оценить вероятность того, что отклонение длины изготовляемого изделия от ее среднего значения по абсолютной величине не превзойдет 0,5. JПо неравенству Чебышева для любой случайной величины ξ и для любого ε>0 Dξ p ( |ξ − M ξ| > ε) 6 2 . ε Dξ = 0, 04, ε = 0, 5, поэтому p ( |ξ − M ξ| > 0, 5) 6 0, 04 = 0, 16. (0, 5)2 I 10.2. Сходимость случайных величин Сходимость по вероятности Рассмотрим последовательность случайных величин ξ1 , ξ2 , . . . , члены которой с увеличением номера приближаются к случайной величине ξ. В этом случае говорят о сходимости случайных величин. Однако ситуация принципиально отличается от сходимости числовых последовательностей: для 110 10. Сходимость случайных величин. Предельные теоремы любого ε > 0 какой номер N мы бы ни взяли, всегда может найтись такой номер n > N , что |ξn − ξ| > ε. Поэтому для случайных величин рассматривают специальные виды сходимости. Важнейшим из них является сходимость по вероятности. Определение 10.1. Последовательность ξ1 , ξ2 , . . . сходится к ξ по веp роятности (ξn → ξ), если для любого ε > 0 lim p (|ξn − ξ| > ε) = 0. n→∞ (126) В теории меры сходимости по вероятности соответствует сходимость по мере. Замечание 10.1. В эконометрике сходимость по вероятности последовательности случайных величин {ξn } к случайной величине ξ часто обозначается как p lim ξn = ξ. n→∞ Пример 10.2. Случайные величины ξn заданы законом распределения: ξn p 0 1 1− 1 n 1 n Случайная величина ξ ≡ 1. p (|ξn − ξ| > ε) = p (ξn = 0) = Следовательно, 1 → 0 при n → ∞. n p ξn → ξ. Для сходимости по вероятности справедливы теоремы, которые мы приводим без доказательства. Сходимость по вероятности функций случайных величин Теорема 10.4. Пусть ϕ(x) — непрерывная функция. Тогда, если последовательность {ξn } сходится по вероятности к ξ, то и последовательность {ϕ(ξn )} сходится по вероятности к ϕ(ξ): p p ξn → ξ ⇒ ϕ(ξn ) → ϕ(ξ). 111 (127) 10. Сходимость случайных величин. Предельные теоремы Сходимость математических ожиданий Теорема 10.5. Пусть ϕ(x) — непрерывная ограниченная функция. Тогда из сходимости по вероятности следует сходимость математических ожиданий: p ξn → ξ ⇒ M ϕ(ξn ) → M ϕ(ξ). (128) Другие виды сходимости случайных величин Сходимость почти наверное (с вероятностью 1) Можно рассматривать и более сильную сходимость. Определение 10.2. Последовательность ξ1 , ξ2 , . . . сходится к ξ почти наверное (с вероятностью 1), если p ( lim ξn = ξ) = 1. n→∞ (129) Этот вид сходимости обозначается п.н. ξn → ξ. Это наиболее сильная из форм сходимости случайных величин. В теории меры этой сходимости соответствует сходимость почти всюду. Сходимость в среднем Сходимость случайных величин можно определять с помощью сходимости их числовых характеристик. Определение 10.3. Последовательность ξ1 , ξ2 , . . . сходится к ξ в среднем порядка p, 0 >). Напомним, что рассмотрение всех этих видов сходимости (по вероятности, почти наверное, в среднем) возможно только, если последовательности случайных величин заданы на едином вероятностном пространстве (Ω, F, P). 112 10. Сходимость случайных величин. Предельные теоремы Сходимость по распределению Рассмотрим еще один вид сходимости случайных величин, более слабый, чем предыдущие; в этом виде сходимости случайные величины могут быть определены даже на разных пространствах элементарных исходов. Определение 10.4. Последовательность ξ1 , ξ2 , . . . сходится к ξ по распределению, если Fξn (x) → Fξ (x) (131) во всех точках непрерывности Fξ (x)21 , где Fξn (x) – функция распределения случайной величины ξn , Fξ (x) — функция распределения случайной величины ξ. d Эта сходимость обозначается ξn −→ ξ, (где d есть сокращение от distribution), или Fn ⇒ F . Она называется еще слабой сходимостью. Связи между различными видами сходимости Между рассмотренными видами сходимости существуют следующие соотношения: p п.н. ξn → ξ ⇒ ξn → ξ (132) с.к. ξn → ξ p ξn → ξ p ⇒ ξn → ξ (133) ⇒ ξn → ξ d (134) 10.3. Статистическая устойчивость и закон больших чисел При единичных наблюдениях проявляются индивидуальные особенности, при массовых наблюдениях они взаимокомпенсируются и выявляется сущность процесса. Давно была замечена статистическая устойчивость средних. Впервые закон больших чисел, утверждающий, что статистические характеристики, вычисленные на больших совокупностях, являются устойчивыми, был сформулирован Якобом Бернулли. П. Л. Чебышёв, А. А. Марков, А. Я. Хинчин и другие выработали условия, при которых суммарное поведение достаточно большого числа случайных величин становится закономерным. Эти условия определяют формы закона больших чисел. Сформулируем закон больших чисел в общем виде. 21 В определении сходимости по распределению ограничиваются только точками непрерывности предельной функции Fξ (x), поскольку без этого условия последовательности, сдвинутые на бесконечно малую величину, могли бы иметь различные пределы. 113 10. Сходимость случайных величин. Предельные теоремы Говорят, что для последовательности случайных величин {ξn } с математическими ожиданиями M ξi = ai , ai < ∞ и дисперсиями Dξi = σi2 , i = 1, 2, . . . выполняется закон больших чисел, если n P n P ξi i=1 n p ai i=1 → (135) . n Согласно определению сходимости по вероятности, это означает, что для любого ε > 0 Pn Pn i=1 ξi a i lim p (136) − i=1 > ε = 0. n→∞ n n Закон больших чисел в форме Чебышёва Теорема 10.6 (закон больших чисел в форме Чебышёва). Если ξ1 , ξ2 , . . . – последовательность независимых случайных величин, дисперсии которых ограничены в совокупности σi2 6 C = const, i = 1, 2, . . . , то для нее выполняется закон больших чисел: n n P P ξi ai p i=1 → i=1 . n n Доказательство. Надо показать, что   P n P n ξ a   i=1 i i=1 i > ε = 0. lim p  −  n→∞  n n Воспользуемся неравенством Чебышёва ( 10.1): p (|ξ − M ξ| > ε) 6 Пусть n P ξ= ai i=1 114 (138) . n n P Mξ = (137) ξi i=1 Тогда Dξ . ε2 n . (139) 10. Сходимость случайных величин. Предельные теоремы Подставляя (138) и (139) в (137), получаем P  n ξi   P i=1 n   P n D n ξi ai   i=1 i=1   p  − . > ε 6 n n ε2 P  n ξi n P D  i=1  n = ε2 Dξi i=1 n2 ε2 6 nc c = → 0 при n → ∞. n2 ε2 nε2 Закон больших чисел в форме Бернулли Теорема 10.7 (Закон больших чисел в форме Бернулли). Пусть осуществляется серия из n независимых опытов, проводимых по схеме Бернулли с параметром p. Пусть m — число успехов, m n — частота успехов в данной серии испытаний. Тогда m p → p. (140) n Доказательство. Введем в рассмотрение случайную величину ξk , равную числу успехов в k-ом испытании, k = 1, . . . , n. m= n X ξk . k=1 Случайные величины ξ1 , . . . , ξn имеют распределение Бернулли: ξ P 0 1 q p Общее число успехов m= n X n P ξk , M ξk = p, k=1 Таким образом, (140) можно записать в виде n n P P ξk M ξk p k=1 k=1 → , n n 115 M ξk k=1 n = p; (141) 10. Сходимость случайных величин. Предельные теоремы что представляет из себя формулировку закона больших чисел (135). Заметим, что случайные величины ξk независимы и их дисперсии ограничены в совокупности 1 Dξk = M ξ 2 − (M ξ)2 = p − p2 = pq 6 , k = 1, 2, . . . , n, ; 4 следовательно, выполняются условия закона больших чисел в форме Чебышёва. Аналогично доказывают закон больших чисел в форме Пуассона. Закон больших чисел в форме Пуассона Теорема 10.8 (Закон больших чисел в форме Пуассона). Пусть осуществляется серия из n независимых опытов, причем вероятность успеха в k-м опыте равна pk . Пусть m – число успехов, m n – частота успехов в данной серии испытаний. Тогда n P pk m p k=1 → . (142) n n Доказательство. Рассмотрим случайную величину ξk , равную числу успехов в k-ом испытании, k = 1, . . . , n. Случайная величина ξk имеет распределение Бернулли с параметром pk : ξ P m= n X ξk , 0 1 qk pk M ξk = p k , k=1 n X M ξk = k=1 n X pk ; k=1 Тогда (142) можно записать в виде n P k=1 n P ξk p → M ξk k=1 , (143) n n что представляет из себя формулировку закона больших чисел (135). По условию случайные величины ξk независимы; 1 Dξk = M ξ 2 − (M ξ)2 = pk − p2k = pk qk 6 , k = 1, 2, . . . , n, ; 4 следовательно, выполняются условия закона больших чисел в форме Чебышёва. 116 10. Сходимость случайных величин. Предельные теоремы В теории вероятностей важную роль играют последовательности независимых одинаково распределённых случайных величин. В 1928 году А. Я. Хинчин доказал, что для таких последовательностей достаточным условием применимости закона больших чисел является существование математических ожиданий. Оказывается, что для одинаково распределённых случайных величин не только можно освободиться от условия ограниченности дисперсии, входящего в теорему Чебышёва, но и вообще не требуется существование дисперсии. Закон больших чисел в форме Хинчина Теорема 10.9 (Закон больших чисел в форме Хинчина). Пусть ξ1 , ξ2 , . . . — последовательность независимых одинаково распределенных случайных величин с M ξn = a. Тогда n P ξk p k=1 → a. n (144) В ряде теорем формулируются условия, достаточные для применимости закона больших чисел к последовательности произвольных (как угодно зависимых) случайных величин. Закон больших чисел в форме Маркова Теорема 10.10 (Закон больших чисел в форме Маркова). Пусть последовательность случайных величин ξ1 , ξ2 , . . . такова, что22 ! n X 1 D ξi −→ 0. (145) n→∞ n2 i=1 Тогда n P k=1 n n P ξk p → M ξk k=1 n . (146) 10.4. Центральная предельная теорема Будем рассматривать сходимость распределений вероятностей к некоторому предельному распределению. Центральная предельная теорема выражает тот факт, что при достаточно общих условиях предельное распределение 22 Условие (145) носит название «условие Маркова». 117 10. Сходимость случайных величин. Предельные теоремы нормированных23 сумм случайных величин является нормальным24 . Более формально, пусть ξ1 , ξ2 , . . . последовательность случайных величин и Pn i=1 (ξi − M ξi ) , Sn = p P D ni=1 ξi — центрированная и нормированная сумма величин (легко видеть, что M Sn = 0, DSn = 1). Говорят, что к случайным величинам ξi применима ЦПТ, если для предельного распределения Sn справедливо d Sn → u, u ∈ N (0, 1). (147) Утверждение ЦПТ можно записать в терминах сходимости функций распределений: Z x t2 1 P (Sn < x) −→ √ e− 2 dt. (148) n→∞ 2π −∞ Этот результат является обобщением предельной теоремы Муавра Лапласа на суммы случайных величин с произвольным законом распределения. При малом числе слагаемых нормированная сумма Sn ведёт себя неустойчиво, но с ростом n характер нормального распределения проявляется всё отчетливее. На основании этой теоремы при числе слагаемых порядка нескольких десятков можно заменить распределение суммы Sn нормальным распределением, а в некоторых случаях эффект приближения к нормальному распределению заметен уже при небольшом числе слагаемых. Центральная предельная теорема объясняет широкое распространение нормального распределения в природе и находит чрезвычайно много применений в самых разных областях25 . Это происходит благодаря её универсальности и устойчивости относительно незначительных отклонений от условий теоремы. Различные формы центральной предельной теоремы отличаются условиями, накладываемыми на случайные величины. Мы познакомимся с простейшей и наиболее часто применяемой формой центральной предельной теоремы. Центральная предельная теорема для независимых одинаково распределённых случайных величин Теорема 10.11. Если случайные величины ξ1 , ξ2 , . . . независимы, одинаково распределены и имеют конечные математические ожидания и 23 Pn (ξ −M ξ ) Нормированной суммой называется величина Sn = √i=1 Pin i . Идея рассмотрения таких сумм приD i=1 ξi надлежит Лапласу. Последовательность распределений самих сумм случайных величин, как правило, ни к какому предельному закону не сходится, хотя может иметь простое точное распределение. 24 Точнее говоря, стандартным нормальным N (0, 1). 25 Центральная предельная теорема является главным содержанием упоминавшейся ранее «теории ошибок». 118 10. Сходимость случайных величин. Предельные теоремы дисперсии M ξk = a, Dξk = σ 2 , то при n → ∞  P n ξ − na   k=1 k  → Φ(x), √ < x P   σ n (149) где Φ(x) — функция стандартного нормального распределения. Многие случайные величины можно рассматривать как сумму отдельных независимых слагаемых. Примерами являются курсы валют, ошибки различных измерений, отклонения размеров деталей, изготовляемых при неизменном технологическом режиме, распределение числа продаж некоторого товара, объемов прибыли от реализации однородного товара различными производителями рост и вес животных одного вида и возраста, отклонение точки падения снаряда от цели. Из ЦПТ следует, что они могут рассматриваться как суммарный результат большого числа слагаемых и потому должны приближенно следовать нормальному закону распределения. Пример 10.3. В страховой компании застраховано n автомобилей. Вероятность поломки любого автомобиля в результате аварии равна p. Каждый владелец автомобиля платит в год A руб. страховых и получает в случае поломки автомобиля в результате аварии от компании b руб. Найти вероятность того, что по истечении года работы страховая компания получит прибыль не менее C руб. J Свяжем с каждым владельцем автомобиля случайную величину, равную сумме, которую ему выплачивает компания в результате аварии. Очевидно, все такие величины ξi , i = 1, . . . , n одинаково распределены по следующему закону: ξn P 0 b . 1−p p Прибыль компании равна разности между ее доходами, равными nA, и заn P тратами, равными ξi . Таким образом, надо найти вероятность того, что na − n P i=1 ξi > C. Поскольку величины ξ1 , ξ2 , . . . , ξn независимы и одинаково i=1 распределены, можно применить центральную предельную теорему. Найдем матожидание и дисперсию величин ξi : a = M ξi = bp, σ 2 = Dξi = b2 p(1 − p). 119 10. Сходимость случайных величин. Предельные теоремы P nA − n X ! ξi > C =P i=1 n X ! ξi 6 nA − C = i=1 P n  ξ − nbp  i=1 i  na − C − nbp nA − C − nbp ≈Φ √ √ =P 6 ,  σ √n  σ n σ n где σ равняется корню из дисперсии Dξi = b2 p(1 − p), Φ(x) — функция стандартного нормального распределения. I 10.5. Контрольные вопросы 1. Сформулируйте неравенство Маркова. 2. Покажите, что неравенство Чебышева является частным случаем неравенства Маркова. 3. В чем состоит утверждение закона больших чисел? 4. Сформулируйте закон больших чисел в форме Чебышёва. 5. Сформулируйте закон больших чисел в форме Бернулли. 6. Сформулируйте закон больших чисел в форме Хинчина. 7. Сформулируйте закон больших чисел в форме Маркова. 8. Чем отличаются достаточные условие закона больших чисел в формах Пуассона и Бернулли? 9. Какая форма закона больших чисел применима к последовательности независимых одинаково распределенных случайных величин? 10. Какая форма закона больших чисел применима к последовательности независимых случайных величин, дисперсия каждой из которых равна 1? 11. Какая форма закона больших чисел применима к последовательности зависимых случайных величин? 12. Дайте определение сходимости по вероятности. 13. Дайте определение сходимости в среднем. 14. Дайте определение сходимости по распределению. 120 11. Введение в математическую статистику 15. В чем состоит утверждение центральной предельной теоремы? Лекция 11. Введение в математическую статистику План лекции: предмет математической статистики, статистические модели, вариационный ряд, эмпирическая функция распределения, группировка выборки, гистограмма и полигон частот, пример группировки выборки. 11.1. Предмет математической статистики Математическая статистика — это раздел математики, который занимается разработкой методов сбора, описания и анализа экспериментальных результатов наблюдений массовых случайных явлений. Фундаментальными понятиями математической статистики являются генеральная совокупность и выборка. Определения этих понятий дадим несколько позже, пока же будем понимать под генеральной совокупностью общую совокупность объектов, подлежащих изучению, а под выборкой – часть генеральной совокупности, которую можно реально изучать. Основная задача математической статистики состоит в том, чтобы на основе анализа выборки сделать научно обоснованное заключение о генеральной совокупности. Математическая статистика выделялась в отдельную науку постепенно. Уже в работах Бернулли и, позднее, Лапласа и Пуассона, присутствовали идеи, которые позднее легли в основу математической статистики. Первые работы собственно по математической статистике появились в XVIII веке. Они большей частью относились к описательной статистике и содержали данные о населении и армии. Но рассматриваемые в них вопросы страхования потребовали и разработки соответствующего математического аппарата. Одним из первых ученых — статистиков был бельгиец Адольф Кетле26 . Он занимался метеорологией и астрономией и впервые применил современные методы сбора данных. Френсис Гальтон (1822 – 1911), английский психолог и антрополог, разработал методы статистической обработки результатов исследований. Он был родственником Чарльза Дарвина и изучал изменчивость видов и наследственность. Гальтон стал основоположником биометрии (науки, применяющей статистические методы в биологии). Биологом был и англичанин Карл Пирсон27 , разработавший теорию 26 Ламбер Адольф Кетл́е (фр. Lambert Adolphe Jacques Quetelet; 1796—1874) — бельгийский математик, астроном, метеоролог и статистик, один из создателей научной статистики. 27 Карл (Чарлз) Пи́рсон (англ. Karl (Charles) Pearson; 1857—1936) — английский математик, биолог, философ. Основные труды по математической статистике (кривые Пирсона, распределение Пирсона). Разрабатывал тесты математической статистики и критерии согласия, составлял таблицы значений функций, необходимых для применения математической статистики. 121 11. Введение в математическую статистику корреляции. Параллельно велись работы математиками русской классической школы (П. Л. Чебышев, А. А. Марков, А. М. Ляпунов, С. Н. Бернштейн). Они использовали другие подходы к разработке математической статистики, широко используя достижения теории вероятностей. Интерес к математической статистике быстро развивался, расширялась область применения, появлялись все новые и новые задачи, требующие новых методов решения. В XX веке в блестящих работах выдающегося математика Р. Фишера28 , а также в трудах Стьюдента29 , Э. Пирсона30 были выработаны основные принципы математической статистики. Большой вклад в это внесли глубокие и обширные исследования В. И. Гливенко и А. Н. Колмогорова. В 1946 году ректор Стокгольмского университета Крамер31 издал книгу «Математические методы статистики», в которой ему удалось объединить результаты трудов англо – американской и русской школ. Эта книга представляет собой изложение математической статистики на основе теории вероятностей. 11.2. Статистические модели Итак, математическая статистика базируется на понятиях и методах теории вероятностей. Как и всякая математическая теория, она развивается в рамках некоторых моделей, описывающих определенный круг явлений. В теории вероятностей математические модели случайных явлений основываются на понятии вероятностного пространства, состоящего из пространства элементарных событий Ω, системы событий F и вероятности P , заданной на событиях A ∈ F. При этом считается, что вероятность P полностью определена и задача заключается в нахождении вероятностей различных сложных событий для данной вероятностной модели (исходя из известных вероятностей более простых событий и правил вывода). В математической статистике же предполагается, что вероятность P в модели наблюдаемого случайного явления не известна полностью. Известно только, что P из некоторого заданного класса вероятностей P. Способы задания класса вероятностей P могут быть различными. Если задан 28 Роналд Эйлмер Фи́шер (англ. Ronald Aylmer Fisher; 1890—1962) — английский статистик и генетик, один из основателей математической статистики. 29 Стью́дент (англ. Student) — псевдоним Уильяма Сили Го́ссета (англ. William Sealy Gosset; 1876— 1937) — английский математик и статистик, один из основоположников теории статистических оценок и проверки гипотез. 30 Эгон Шарп Пи́рсон (англ. Egon Sharpe Pearson; 1895—1980) — английский математик. Основные труды по математической статистике. Один из основателей (совместно с Е. Нейманом) общей теории проверки статистических гипотез, занимался вопросами статистического контроля качества массовой продукции, большое внимание уделял составлению статистических таблиц. 31 Карл Xapальд Краме́р (шв. Karl Harald Cramer; 1893—1985) — шведский математик. Основные труды по теории вероятностей, математической статистике, математической теории страхования. 122 11. Введение в математическую статистику класс P, то говорят, что задана статистическая модель hΩ, F, Pi. Таким образом, статистическая модель описывает такие ситуации, когда в вероятностной модели изучаемого эксперимента имеется неопределенность в задании вероятности P . Задача математической статистики — уменьшить эту неопределенность, используя информацию, извлеченную из наблюдаемых исходов эксперимента. Исходным материалом всякого статистического исследования является совокупность результатов наблюдений. В большинстве случаев исходные статистические данные X = (X1 , . . . , Xn ) – результат наблюдения некоторой конечной совокупности случайных величин, характеризующей исход изучаемого эксперимента. Предполагается, что эксперимент состоит в проведении n испытаний и результат i-го эксперимента описывается случайной величиной Xi , i = 1, . . . , n. Определение 11.1. Совокупность наблюдаемых случайных величин X = (X1 , . . . , Xn ) называется выборкой, сами величины Xi , i = 1, . . . , n, – элементами выборки, а их число n – ее объемом. Реализации выборки X будем обозначать строчными буквами x = (x1 , . . . , xn ). Пусть X = {§} — множество всех возможных значений выборки X, которое называется выборочным пространством. Это пространство может совпадать с евклидовым пространством Rn или быть его частью, либо состоять из конечного или счетного числа точек из Rn . Известно, что распределение вероятностей случайной величины полностью определяется ее функцией распределения и поэтому обычно статистическую модель задают не в виде тройки hΩ, F, Pi, а в виде hX , Fi, где F — семейство функций распределения, которому принадлежит неизвестная функция распределения выборки F (x1 , . . . , xn ) = P (X1 < x1 , . . . , Xn < xn ). Обычно рассматривают ситуации, когда компоненты выборки независимы и распределены так же, как некоторая случайная величина ξ с функцией распределения Fξ (x). Мы рассматриваем в дальнейшем только такие модели экспериментов, в которых предполагается, что проводят повторные независимые наблюдения над случайной величиной ξ. Тогда функция распределения выборки полностью определяется функцией распределения F = Fξ (x) и FX1 ,...,Xn (x1 , . . . , xn ) = F (x1 ) · · · · · F (xn ). Определение 11.2. Множество возможных значений ξ с распределением F = Fξ (x) называется генеральной совокупностью, из которой производят случайную выборку. 123 11. Введение в математическую статистику Таким образом, мы рассматриваем генеральную совокупность как случайную величину ξ, а выборку – как n-мерную случайную величину (ξ1 , . . . , ξn ), компоненты которой независимы и одинаково распределены (так же, как ξ). Такие выборки называются простыми,indexвыборка!простая и в дальнейшем мы ограничимся их рассмотрением. Статистическую модель hX , Fi для повторных независимых наблюдений будем обозначать еще короче в виде hFi то есть будем указывать только класс допустимых функций распределения исходной случайной величины (множество X в данном случае указывать нет необходимости, поскольку оно полностью определяется функцией F (x)). Если функции распределения из класса F заданы с точностью до значений параметра θ (не обязательно скалярного) с множеством возможных значений Θ, то такая модель обозначается hFθ i и называется параметрической. Если модель hFθ i такова, что можно дифференцировать по θ интегралы на X , меняя порядок дифференцирования и интегрирования, то она называется регулярной. Одно из наиболее существенных условий регулярности — то, что выборочное пространство X не должно зависеть от параметра θ. В табл. 1 приведены наиболее часто используемые параметрические статистические модели. Таблица 1. Наиболее известные параметрические статистические модели 124 11. Введение в математическую статистику Обозначение Наименование модели модели Функция плотности Параметрическое или распределение множество Θ вероятности Нормальная θ1 N (θ, σ) (x−θ) √1 e− 2σ2 σ 2π Нормальная θ2 N (a, θ) √1 e− θ 2π Общая нормальная Гамма Равномерная Общая равномерная Коши Биномиальная N (θ1 , θ2 ) Γθ,β R(0, θ) R(θ1 , θ2 ) Kθ B(N, θ) Пуассоновская Pθ 1 √ 2 (x−a)2 2θ 2 − R R+ (x−θ1 )2 2 2θ2 θ1 ∈ R; θ2 ∈ R+ θβ xβ−1 −θx , x>0 R+ Γ(β) e 1 06x6θ R+ θ, 1 −∞ < θ1 < θ1 6 x 6 θ2 θ2 −θ1 , θ2 < +∞ 1 1 R π · 1+(x−θ)2 CNx θx (1 − θ)N −x , x = (0, 1) 0, 1, . . . , N θx e−θ R+ x! θ2 2π e Первые семь моделей относятся к непрерывным, а две последние – к дискретным. Физическая природа перечисленных распределений рассматривалась в начале курса; подробнее о ней можно узнать из работ [2, 5, 7, 11]. Заметим, что модели «Равномерная» и «Общая равномерная» не являются регулярными, так как выборочное пространство X зависит от параметра θ и (θ1 , θ2 ) соответственно. 11.3. Порядковые статистики и вариационный ряд выборки Пусть X = (X1 , . . . , Xn ) – выборка объема n из распределения F и x = (x1 , . . . , xn ) – наблюдавшееся значение X (или реализация вектора X). Каждой реализации x выборки X можно поставить в соответствие упорядоченную последовательность x∗1 , x∗2 , . . . , x∗n , x∗1 6 x∗2 6 . . . 6 x∗n , (150) где x∗1 = min(x1 , x2 , . . . , xn ), x∗2 – второе по величине значение из (x1 , x2 , . . . , xn ), xn = max(x1 , x2 , . . . , xn ). Последовательность (150) называют вариационным рядом реализации.Если теперь через Xk∗ обозначить 125 11. Введение в математическую статистику случайную величину, которая для каждой реализации x выборки X принимает значение x∗k , k = 1, . . . , n, из упорядоченной последовательности (150), то Xk∗ называется k-ой порядковой статистикой выборки, а X1∗ и Xn∗ – экстремальными значениями выборки. Очевидно, что порядковые статистики удовлетворяют неравенствам X1∗ 6 X2∗ 6 . . . 6 Xn∗ . (151) Последовательность (151) называют вариационным рядом выборки. Таким образом, порядковая статистика – случайная величина, порождаемая выборкой по правилу (150). Последовательность (150) представляет собой реализацию вариационного ряда (151). 11.4. Эмпирическая функция распределения Пусть X = (X1 , . . . , Xn ) – выборка из генеральной совокупности наблюдаемой случайной величины (с функцией распределения (Fξ (x)). Поставим задачу построить по выборке некоторое приближение функции Fξ (x). Поскольку функция Fξ (x) равна P (ξ < x), то есть вероятности попадания значений ξ в интервал (−∞, x), то в качестве приближения целесообразно взять относительную частоту попадания случайных величин (X1 , . . . , Xn ) в интервал (−∞, x). Введем следующее определение. Определение 11.3. Эмпирической функцией распределения Fn (x), соответствующей выборке X, называется случайная функция от x, вычисляемая по формуле νn Fn (x) = , (152) n где νn – число элементов выборки X = (X1 , . . . , Xn ), значения которых меньше x. Следовательно, эмпирическая функция распределения – сжатая характеристика выборки. Для каждой реализации x = (x1 , . . . , xn ) функция Fn (x) однозначно определена и обладает всеми свойствами функции распределения: изменяется от 0 до 1; не убывает; непрерывна слева; Fn (x) = 0 при x < x∗1 и Fn∗ (x) = 1 при x > x∗n . При этом она кусочно-постоянна и возрастает только в точках последовательности (151). Если все составляющие вектора x различны, то  0 при x 6 x∗1 ,  k Fn (x) = (153) при x∗k < x 6 x∗k+1 , k = 1, . . . , n − 1, n  1 при x > x∗n . 126 11. Введение в математическую статистику График функции Fn (x) имеет вид, изображенный на рис. 16. Fn (x) ... 0 x∗1x∗2x∗3 . . . x∗nX Рис. 16. Эмпирическая функция распределения Эмпирическая функция распределения обладает важным свойством: при увеличении числа испытаний над случайной величиной ξ (увеличении объема выборки X ) она сближается с теоретической функцией F (x), то есть ее можно считать статистическим аналогом для F (x). Справедлива следующая теорема. Теорема 11.1. Пусть Fn (x) – эмпирическая функция распределения, построенная по выборке X = (X1 , . . . , Xn ) из распределения Fξ , и F (x) – соответствующая теоретическая функция распределения. Тогда для любого −∞ < x < ∞ и любого ε > 0 lim P (|Fn (x) − F (x)| < ε) = 1. n→∞ (154) Приведем еще две предельные теоремы для эмпирической функции распределения, имеющие важное значение для проверки различных предположений (гипотез) о выборках. Теорема 11.2 (Теорема Колмогорова). Если функция F (x) непрерывна, то при любом фиксированном t > 0 ∞ X √ 2 2 lim P (| nDn 6 t| = K(t) = (−1)j e−2j t , n→∞ (155) j=−∞ где Dn = Dn (X) = sup −∞<x<∞ |Fn (x) − F (x)|. (156) Функция K(t) называется функцией Колмогорова, и ее можно с хорошим приближением использовать для практических расчетов уже при объеме выборки, равном или большим 20. Заметим, что теорема справедлива для любой непрерывной функции распределения и позволяет найти границы, в которых с заданной вероятностью 0 < α < 1 находится теоретическая 127 11. Введение в математическую статистику функция F (x) (она в нашей статистической модели неизвестна). Если задана вероятность α, то при больших n с вероятностью, близкой к α, функция F (x) удовлетворяет неравенству tα |Fn (x) − F (x)| 6 √ , n (157) где величина tα вычисляется как корень уравнения K(t) = α с помощью таблиц для функции K(t) [15]. Обоснование неравенства (157) можно найти в [15]. Теорема 11.3 (теорема Смирнова). Пусть Fn (x) и Fm (x) – две эмпирические функции распределения, построенные на основе двух независимых выборок объемов n и m из одного и того же распределения Fξ , и Dn,m = sup |Fn (x) − Fm (x)|. (158) −∞<x<∞ Тогда если теоретическая функция F (x) непрерывная, то для любого фиксированного t > 0 p lim P (| nm/(n + m)Dn,m 6 t| = K(t), (159) n,m→∞ где функция K(t) определена равенством (155). Эта теорема позволяет ответить на важный практический вопрос, можно ли считать, что две выборки получены из одного и того же распределения. Замечание 11.1. Поскольку эмпирическая функция распределения близка к теоретической, выборочные характеристики (выборочное среднее, выборочная дисперсия и другие) можно рассматривать как обычные характеристики (математическое ожидание, дисперсия и другие) случайной величины, принимающей значения X1 , . . . , Xn с равными вероятностями n1 . Группировка выборки 11.5. Гистограмма и полигон частот Кроме эмпирической функции распределения существуют и другие способы наглядного представления и сжатия статистических данных. Одним из таких способов является построение гистограммы. 128 11. Введение в математическую статистику Пусть нам дана реализация (x1 , . . . , xn ) выборки X из Fξ . Интервал на подынтервалы [a1 , a2 ], [a2 , a3 ], . . . , [ak−1 , ak ], где a1 = подсчитывают число mj координат реализации (элементов выборки), попавших в каждый подынтервал [aj , aj+1 ], j = 1, . . . , k − 1, то есть подсчитывают частоту попадания статистических данных в каждый подынтервал. Иначе говоря, данные группируют. На каждом подынтерваn ле, как на основании, строят прямоугольники площади nj , для чего берут n высоту прямоугольника равную nhjj , где hj – длина j-го подынтервала (на практике обычно все подынтервалы полагают равной длины). Полученную при этом фигуру называют гистограммой (рис. 17). [x∗1 , x∗n ] разбивают x∗1 , ak = x∗n . Затем Y X 0 Рис. 17. Гистограмма и полигон частот Поскольку площадь каждого прямоугольника есть не что иное как относительная частота попадания выборочных значений в соответствующий интервал, то по теореме Бернулли она будет сходиться по вероятности при n → ∞ к вероятности попадания значения случайной величины ξ в соответствующий интервал. Если случайная величина ξ непрерывная и f (x) ее плотность, то огибающая (верхняя граница) гистограммы является статистическим аналогом для теоретической плотности f (x). В методе гистограмм неизвестная плотность распределения приближается кусочно-постоянными функциями. Но точность приближения можно улучшить, если применить кусочно-линейные функции. Для этой цели строят полигон частот. Полигон частот – это ломаная линия, проходящая через середины верхних границ прямоугольников гистограммы. Построенная таким образом кусочно-линейная функция также является статистическим аналогом теоретической плотности (рис. 17). Еще раз отметим, что интерпретация гистограммы и полигона частот 129 11. Введение в математическую статистику как статистического аналога имеет смысл и обоснование только для выборки X из непрерывного распределения F . 11.6. Пример группировки выборки Рассмотрим на примере, как сгруппировать выборку, состоящую из 1000 элементов. Пусть, для определенности, минимальный элемент выборки равняется xmin = 0, 01, а максимальный xmax = 10, 65. Определим сначала число интервалов k. Рекомендуется брать k такое, k−1 что 2 ∼ n. В данном примере n = 1000. 210 = 1024 ∼ 1000. k − 1 = 10, k = 11. Выберем число интервалов k = 11. 2. Определим длину интервала h. h= xmax − xmin . k Находим 10, 65 − 0, 01 ≈ 0, 967. 11 3. Найдем границы интервалов группировки x0 = xmin , xi = x0 + hi, i = 1, ..., k, и составим таблицу группировки. Внесем границы интервалов в столбец «Интервал». Подсчитаем, сколько элементов выборки попало в каждый интервал и заполним в таблице столбец «Численность ni ». Остальные столбцы рассчитываются по столбцу численностей. Они пригодятся при построении графических характеристик. h= № Интервал Численность ni 1 0, 01 − 0, 98 2 0, 98 − 1, 94 3 1, 94 − 2, 91 4 2, 91 − 3, 88 5 3, 88 − 4, 85 6 4, 85 − 5, 81 7 5, 81 − 6, 78 8 6, 78 − 7, 75 9 7, 75 − 8, 72 10 8, 72 − 9, 68 11 9, 68 − 10, 65 130 ni n ni nh nj 1 n Pi 11. Введение в математическую статистику Ниже показана заполненная таблица. Обратите внимание, что сумма элементов столбца «Численность ni » должна равняться n, а сумма элементов столбца « nni » должна равняться 1. № 1 2 3 4 5 6 7 8 9 10 11 Интервал Численность ni 0, 00 − 0, 09 80 0, 09 − 0, 18 81 0, 18 − 0, 27 93 0, 27 − 0, 36 85 0, 36 − 0, 45 87 0, 45 − 0, 54 87 0, 54 − 0, 63 87 0, 63 − 0, 72 106 0, 72 − 0, 81 99 0, 81 − 0, 90 89 0, 90 − 0, 99 106 ni n ni nh 0,080 0,081 0,093 0,085 0,087 0,087 0,087 0,106 0,099 0,089 0,106 0,007 0,007 0,008 0,008 0,008 0,008 0,008 0,010 0,009 0,008 0,010 nj 1 n Pi 0,080 0,161 0,254 0,339 0,426 0,513 0,600 0,706 0,805 0,894 1,000 11.7. Контрольные вопросы 1. Какая статистическая модель применима для выборки, полученной следующим образом: 10 раз подсчитывалось число гербов при бросании трех монет? 2. Какая статистическая модель применима для выборки действующих цен на сыр «Пармезан» в 50 различных магазинах г. Красноярска? 3. Дайте определение параметрической модели. 4. Является ли модель N (a, θ) параметрической? 5. Дайте определение регулярной модели. 6. Является ли модель R[θ, b] регулярной? 7. Дайте определение вариационного ряда. 8. Можно ли восстановить по вариационному ряду выборку? 9. Дайте определение эмпирической функции распределения. 10. Какими свойствами обладает эмпирическая функция распределения? 131 12. Основные выборочные характеристики 11. Можно ли восстановить по эмпирической функции распределения, вариационный ряд? 12. Каким образом при группировке выборки можно найти оптимальное число интервалов? 13. Каким образом при группировке выборки рассчитывается длина интервала? 14. Какие графические характеристики выборки дают представление о графике плотности? 15. Какие графические характеристики выборки дают представление о графике функции распределения? 16. Чему равняется площадь под гистограммой частот? 17. Можно ли восстановить по гистограмме относительных частот вариационный ряд? 18. Можно ли восстановить по гистограмме частот группированный ряд? Лекция 12. Основные выборочные характеристики План лекции: выборочные моменты, соответствие выборочных и теоретических характеристик, свойства X и S 2 , другие характеристики выборки, сходимость выборочных моментов. 12.1. Выборочные моменты и функции от выборочных моментов Пусть X = (X1 , . . . , Xn ) – выборка объема n из распределения F и x = (x1 , . . . , xn ) — наблюдавшееся значение X. Любая функция от X представляет собой также случайную величину с распределением, однозначно определяемым распределением вектора X. В теории вероятностей вводили различные моменты для случайной величины (если они существовали). Так, начальным моментом порядка k случайной величины ξ называется число αk = M (ξ)k , (160) а центральным моментом порядка k случайной величины ξ называется число µk = M (ξ − M ξ)k . (161) 132 12. Основные выборочные характеристики Введем общее обозначение для моментов: M g(ξ) (g(ξ) = (ξ)k для начальных моментов и (ξ − M ξ)k для центральных моментов k-го порядка). Каждому теоретическому моменту g(ξ) можно поставить в соответствие его статистический аналог G = G(X), вычисляемый по формуле n 1X G(x) = g(Xi ). n i=1 Случайную величину G называют эмпирической или выборочной характеристикой, соответствующей теоретической характеристике g. Если g(x) = xk , то G — выборочный начальный момент k -го порядка, который будем обозначать ak : n 1X k ak = X . n i=1 i (162) Если k = 1, то величину a1 называют выборочным средним и обозначают символом X. Значения случайных величин X, ak при конкретной реализации x выборки X будем обозначать соответствующими строчными буквами. Напомним, что соответствующие теоретические моменты случайной величины ξ обозначают греческими буквами. Выборочным центральным моментом k-го порядка называют случайную величину n 1X mk = (Xi − X)k . n i=1 (163) При k = 2 величину m2 называют выборочной дисперсией и обозначают S 2 . Выборочную дисперсию часто рассчитывают по формуле 1 X 2 1X 2 2 (xi − x̄) = S = xi − x̄2 . (164) n n При рассмотрении свойств плотности распределения непрерывных величин вводили такие характеристики, как коэффициенты асимметрии A и эксцесса E. Если график плотности распределения симметричен, то A = 0. По значению A судят о степени отклонения от симметрии. Для нормального распределения E = 0, и поэтому о кривых плотности с E = 0 говорят, что у них нормальный эксцесс. Если E > 0 (E < 0), то эксцесс кривой положительный (отрицательный). Пусть задана выборка X из распределения непрерывной случайной величины ξ. Тогда для нее можно определить выборочные коэффициенты b и эксцесса E b по следующим формулам: асимметрии A b = m3 ; E b = m4 − 3 A (165) S3 S4 133 12. Основные выборочные характеристики Теоретические характеристики Выборочные характеристики P a = Mξ X = n1 ni=1 Xi математическое ожидание выборочное среднее P σ 2 = Dξ S 2 = n1 ni=1 (Xi − X)2 дисперсия выборочная дисперсия P αk = M ξ k ak = n1 ni=1 Xik начальный k-й момент начальный выборочный k-й момент P k µk = M (ξ − ξ) mk = n1 ni=1 (Xi − X)k центральный k-й момент центральный выборочный k-й момент µ3 b = m33 A = σ3 A S коэффициент асимметрии выборочный коэффициент асимметрии b = m44 − 3 E = σµ44 − 3 E S коэффициент эксцесса выборочный коэффициент эксцесса Таблица 2. Соответствие выборочных и теоретических характеристик 12.2. Свойства X и S 2 Выборочные характеристики являются случайными величинами и поэтому можно говорить о их распределениях (выборочных распределениях) и изучать различные характеристики этих распределений. Вычислим например математическое ожидание и дисперсию для X и S 2 . Поскольку Xi независимы и распределены так же, как случайная величина ξ, то n 1X n MX = M X i = M ξ = M ξ = α1 ; n i=1 n (166) n 1 X 1 µ2 DX = 2 DXi = Dξ = . n i=1 n n (167) Аналогичным образом можно получить формулы для расчета математического ожидания и дисперсии величины S 2 : (n − 1)µ2 ; (168) n (n − 1)2 (n − 3) 2 2 DS = µ4 − µ . (169) n3 n−1 2 При доказательстве этих соотношений удобно с самого начала считать, что M ξ = 0 (в противном случае сделаем сдвиг и перейдем к случайной величине ξ1 = ξ − M ξ). Поскольку от сдвига выборочная дисперсия не меняется, как легко видеть из формулы (164), доказательство будет применимо и M S2 = 134 12. Основные выборочные характеристики к исходной величине ξ. Заметим, что если M ξ = 0, то αk = µk , в частности, M ξ 2 = σ2. Выведем для примера формулу (168). 1X 1 X 2 2 2 S = (xi − x) = xi − x2 . n n σ2 n−1 2 1 X 2 2 2 2 M xi − M (x ) = DX − DX̄ = σ − = ·σ . MS = n n n Часто используется также дисперсия исправленной выборочной дисперсии; найдем ее. DSb2 = n2 2 2 DS = σ4 2 (n − 1) n−1 (170) 12.3. Другие характеристики выборки Определение 12.1. Выборочной модой называется значение mo , чаще всего наблюдающееся: ni (m0 ) = max ni . i Определение 12.2. Выборочной медианой называется значение me , равное среднему члену вариационного ряда: me = x∗[ n ]+1 . 2 Определение 12.3. Выборочной квантилью порядка q, 0 < q < 1 называется значение xq , равное члену вариационного ряда с номером [nq] + 1. Из курса статистики известны формулы для нахождения выборочных медианы, моды и квантилей по группированной выборке. Медианным называется интервал, в котором накопленная сумма частот впервые достигает 12 . Выборочной группированной медианой называется значение m∗e : m∗e = xe + n/2 − (n1 + . . . + nme −1 ) · h, nme где n — объем выборки, h — длина интервала группировки, xe — левая граница медианного интервала, ni — численность i-го интервала, nme — численность медианного интервала. 135 12. Основные выборочные характеристики Модальным называется интервал, имеющий наибольшую численность. Выборочной группированной модой называется значение m∗0 : m∗0 = x0 + h · nm0 − nm0 −1 , 2nm0 − nm0 −1 − nm0 +1 где x0 — левая граница модального интервала, nm0 — численность модального интервала, nm0 −1, , nm0 +1 — численности интервалов слева и справа от модального. Квантильным порядка q интервалом называется интервал, в котором сумма накопленных частот впервые достигает значения q. Выборочной группированной квантилью называется значение x∗q : x∗q = x(q) + h · nq − (n1 + · · · + n(q)−1 ) , n(q) где x(q) — левая граница квантильного интервала, n(q) — численность квантильного интервала, n1 , · · · , n(q)−1 — численности интервалов, предшествующих квантильному. Вычисление выборочных характеристик связи между величинами X и Y . Выборочная ковариация Kxy : Kxy = xy − x̄ȳ, где xy = 1 n Pn i=1 xi yi . Выборочный коэффициент корреляции rxy : r= Kxy . sx sy Выборочное уравнение линейной регрессии y на x: ŷ − ȳ = r sy (x − x̄). sx Выборочное уравнение линейной регрессии x на y: x̂ − x̄ = r sx (y − ȳ). sy 12.4. Сходимость выборочных моментов и функций от них при возрастании объема выборки Для практических приложений важное значение имеет вопрос о поведении выборочных характеристик при возрастании объема выборки n. По аналогии с эмпирической функцией распределения можно ожидать, что при 136 12. Основные выборочные характеристики неограниченном возрастании n выборочные моменты будут сходиться по вероятности к соответствующим теоретическим моментам. Действительно, пусть случайная величина ξ имеет все моменты αk . Соответствующие им выборочные моменты обозначим ank , чтобы подчеркнуть зависимость от n. Все ank представляют собой случайные величины и при фиксированном k для каждого n имеют одинаковые математические ожидания αk и дисперα k−α2 сии 2 n k . Это следует из соотношений n M ank 1X M Xik = M ξ k = αk ; = n i=1 (171) n Dank 1X 1 M ξ 2k − (M ξ k )2 α2 k − αk2 = DXik = Dξ k = = . n i=1 n n n (172) Но тогда из предельной теоремы вытекает, что ank сходится по вероятности к αk при n → ∞. Поэтому выборочные моменты Ak можно использовать в качестве приближенных значений для соответствующих теоретических моментов. Оказывается, аналогичное утверждение справедливо вообще для любых непрерывных функций от конечного числа величин Ak , что является следствием теоремы (10.4). Напомним ее формулировку. Теорема 10.4. Пусть ϕ(x) – непрерывная функция. Тогда если последовательность ξ1 , ξ2 , . . . сходится по вероятности к ξ, то и ϕ(ξ1 ), ϕ(ξ2 ), . . . сходится по вероятности к ϕ(ξ): p p ξn −→ ξ ⇒ ϕ(ξn ) −→ ϕ(ξ). Теорема 10.4 имеет важное значение, поскольку из нее следует, в частности, что любые центральные выборочные моменты, коэффициенты асимметрии и эксцесса при неограниченном увеличении объема выборки сходятся по вероятности к соответствующим теоретическим характеристикам. Действительно, из (163), используя бином Ньютона, можно получить mk = k X l (−1)l Ckl X ak−l , (173) l=0 то есть, любой центральный выборочный момент можно представить в виде непрерывной функции от выборочных моментов, которые сходятся по вероятности к теоретическим моментам. С другой стороны, центральные теоретические моменты выражаются через теоретические моменты также по аналогичной (173) формуле. Таким образом все условия теоремы 10.4 выполняются. Аналогичные рассуждения справедливы для коэффициентов асимметрии и эксцесса. 137 12. Основные выборочные характеристики До сих пор мы рассматривали сходимость выборочных характеристик к соответствующим теоретическим. Однако важное значение имеет и вопрос о поведении распределений выборочных характеристик для больших выборок. Легко видеть, что каждый выборочный момент ak представляет собой сумму n независимых и одинаково распределённых случайных величин, и поэтому к нему можно применить центральную предельную теорему. В этой связи приведем теорему. Теорема 12.1. Распределение выборочного момента ak при n → ∞ сходится к нормальному распределению. Теорема 12.1 означает, что выборочное распределение случайной величины при n → ∞ сходится к нормальному распределению. Последнее обстоятельство позволяет при больших выборках оценить вероятность, с которой значения выборочного момента отклонятся от теоретического на величину, не большую ε. Правда, при этом необходимы значения теоретических моментов. Действительно, для любого ε > 0 при n → ∞ вероятность события r n P |ak − αk | < ε → 2Φ(ε) − 1, α2 k − αk2 где Φ(t) – функция распределения закона N (0, 1). Следовательно, вероятность события r n |ak − αk | < ε α2 k − αk2 при больших n примерно равна 2Φ(t) − 1. Для центральных выборочных моментов mk при n → ∞ также справедливо утверждение о сходимости их выборочных распределений к нормальному (доказательство этого утверждения можно найти в работе [12]). Например, распределение выборочной дисперсии Sn2 сходится к нормальному распределению N (µ2 , (µ4 − µ2 2 )/n). 12.5. Контрольные вопросы 1. Дайте определение выборочного среднего. 2. Докажите, что в любом распределении M X = M ξ. σ2 3. Докажите, что DX = . n 4. Приведите формулу для вычисления выборочного среднего по статистическому ряду. 138 13. Распределение выборочных характеристик нормальной выборки 5. Приведите формулу для вычисления выборочной дисперсии по статистическому ряду. 6. Укажите два различных способа найти выборочную дисперсии по вариационному ряду. 7. Как изменятся выборочные дисперсия и среднее квадратическое отклонение, если прибавить к каждому элементу выборки постоянную c? 8. Как изменятся выборочные дисперсия и среднее квадратическое отклонение, если умножить каждый элемент выборки на постоянную c? 9. Что характеризует выборочный коэффициент асимметрии? 10. Выразите выборочный центральный момент 3-го порядка через выборочные начальные моменты. 11. Как называется средний член вариационного ряда? 12. Дайте определение медианного интервала. 13. Квантилью какого порядка является медиана? 14. Дайте определение модального интервала. Лекция 13. Распределение выборочных характеристик нормальной выборки План лекции: распределения хи-квадрат, Стьюдента, Фишера, теорема Фишера, теоремы о распределении выборочных характеристик. Рассмотрим некоторые функции от выборки X = (X1 , . . . , Xn ) из нормального распределения, которые играют важную роль в математической статистике. Для данных случайных функций удается получить в явном виде их функции распределения и плотности вероятностей. Вообще говоря, задача о распределении вероятностей для случайной функции от выборки X = (X1 , . . . , Xn ) в конечном виде решается крайне редко, и функции от выборки из нормального распределения составляют приятное исключение. Нормальное распределение часто используют в прикладных исследованиях при построении математической модели изучаемого явления. Теоретическим обоснованием данного факта может служить центральная предельная 139 13. Распределение выборочных характеристик нормальной выборки теорема. Любую характеристику изучаемого явления, которая представима в виде суммы значительного числа случайных одинаково распределённых факторов, можно приблизительно считать случайной величиной с нормальным законом распределения. О роли нормального распределения в статистике достаточно хорошо и подробно написано в работах [5, 11]. Прежде чем рассматривать распределения функций от выборки из нормальной генеральной совокупности, введем определения распределений для трех специальных функций от нормальных случайных величин. 13.1. Распределения хи-квадрат, Стьюдента, Фишера 1. Распределение хи-квадрат (χ2 ). Среди гамма-распределений Γθ,β выделяют особый класс, который часто используют в статистических исследованиях. Определение 13.1. Гамма-распределение с параметрами θ = 21 , β = n2 называется распределением хи-квадрат с n степенями свободы и обозначается χ2n . Соответствующая случайная величина обозначается тем же символом χ2n , а ее плотность имеет вид n x x 2 −1 fξ 2 (x) = n n e− 2 , 2 2 Γ( 2 ) x > 0. (174) Распределение хи-квадрат обладает важным свойством: сумма независимых случайных величин, распределенных по закону хи-квадрат, распределена также по закону хи-квадрат с числом степеней свободы, равным сумме степеней свободы слагаемых, то есть χ2n + χ2m = χ2n+m . (175) На рис. 18 изображены графики плотности распределения хи-квадрат при некоторых значениях n. При увеличении числа степеней свободы график плотности становится все ближе к симметричному. fχ2n (x) 0 X 140 13. Распределение выборочных характеристик нормальной выборки Рис. 18. Плотность распределения χ2n (x) при разных значениях параметра n Для хи-квадрат распределения можно вычислить математическое ожидание, дисперсию, коэффициенты асимметрии, эксцесса и другие характеристики: M χ2n = n, Dχ2n = 2n. (176) Пусть ξ – случайная величина с распределением N (0, 1). Вычислим распределение случайной величины ξ 2 . Легко видеть,что для x < 0 функция распределения равна нулю, а для x > 0 √ √ √ √ (177) Fξ 2 (x) = P (ξ 2 < x) = P (− x 6 ξ < x) = Φ( x) − Φ(− x), где Φ(x) – функция стандартного нормального распределения. √ √ √ x 1 1 1 fξ 2 (x) = Fξ02 (x) = √ (ϕ( x) + ϕ(− x)) = √ ϕ( x) = √ e− 2 . (178) 2 x x πx Если обратиться к табл. 1 и рассмотреть гамма распределение Γ( 12 , 12 ), то получим следующую формулу для ее плотности x 1 f (x) = √ e− 2 , πx x > 0. (179) Сравнивая (179) с плотностью в (178), получаем, что случайная величина ξ 2 имеет распределение Γ( 12 , 21 ). Таким образом, случайная величина ξ 2 имеет распределение Γ( 12 , 12 ), а сумма квадратов n независимых случайных величин, распределенных по нормальному закону N (0, 1), имеет распределение Γ( 21 , n2 ) = χ2n . Вернемся к выборке X = (X1 , . . . , Xn ), где X1 , . . . , Xn – независимые случайные величины, распределенные по нормальному закону N (a, σ). Тогда случайные величины Xiσ−a распределены по нормальному закону с параметрами (0;1) и величина 2 n X Xi − a (180) σ i=1 имеет распределение χ2n . Пример 13.1. используя свойства распределения χ2n , найдем DS 2 в N (a, σ). nS 2 = χ2n−1 2 σ χ2n−1 · σ 2 S = , n 2 Dχ2n−1 · σ 4 2(n − 1)σ 4 DS = = . n2 n2 2 141 (181) 13. Распределение выборочных характеристик нормальной выборки (n − 1)S̄ 2 = χ2n−1 . 2 σ χ2n−1 · σ 2 S̄ = , (n − 1)2 2 Dχ2n−1 · σ 4 2(n − 1)σ 4 2 DS̄ = = = σ4. 2 2 (n − 1) (n − 1) n−1 2 (182) 2. Распределение Стьюдента. Рассмотрим последовательность независимых случайных величин ξ, ξ1 , . . . , ξn , распределенных по нормальному закону N (0, 1). Определение 13.2. Распределением Стьюдента Tn с n степенями свободы называется распределение случайной величины ξ t = q Pn 2 i=1 ξi (183) . n Можно случайную величину t определить как отношение ξ t= q , (184) χ2 n где χ2 – случайная величина, независимая от ξ и распределенная по закону χ2n . Очевидно, что оба определения эквивалентны. Функцию распределения Tn (x) и плотность распределения Стьюдента fTn (x) (рис.19) можно найти с помощью метода вычисления плотности распределения частного двух независимых величин. fTn (x) 0 X Рис. 19. Плотность распределения Стьюдента fTn (x) Приведем окончательную формулу для плотности распределения Стьюдента : Γ( n+1 1 1 2 ) fTn (x) = √ · · , n πn Γ( 2 ) (1 + xn2 ) n+1 2 142 x ∈ R, (185) 13. Распределение выборочных характеристик нормальной выборки где Γ(β) – гамма-функция, определяемая для всех β > 0 соотношением Z∞ Γ(β) = tβ−1 e−t dt. (186) 0 3. Распределение Фишера-Снедекора. Рассмотрим две независимые случайные величины χ2n и χ2m , имеющие хи-квадрат распределение с n и m степенями свободы соответственно. Определение 13.3. Распределением Фишера–Снедекора (F распределением или распределением дисперсионного отношения Фишера) с n, m степенями свободы называется распределение случайной величины 2 Fn,m = χn n . χ2m m (187) Функцию и плотность распределения fn,m (x) (рис.20) можно найти, используя тот же способ, что и для распределения Стьюдента. Окончательно формулу для расчета плотности распределения Снедекора записывают в виде n n n2 Γ( n+m ) 2 −1 x 2 · n x ∈ R+ . (188) fFn,m (x) = n+m , m · nx m Γ( 2 )Γ( 2 ) (1 + m ) 2 fFn,m (x) X 0 Рис. 20. Плотность распределения Фишера fFn,m (x) 13.2. Теорема Фишера Рассмотрим выборочные среднее и дисперсию S 2 из совокупности с нормальным распределением N (a, σ). Какое распределение имеют выборочное среднее и выборочная дисперсия? На этот вопрос отвечает теорема, доказанная Р.Фишером. 143 13. Распределение выборочных характеристик нормальной выборки Теорема 13.1 (теорема Фишера). Пусть X1√, . . . , Xn – выборка из расn пределения N (a, σ). Тогда 1) величина (X−a) имеет нормальное расσ 2 2 2 пределение N (0, 1); 2) величина nS σ 2 имеет распределение χn−1 ; 3) X, S независимы. Замечание 13.1. Обратите внимание, что в выражении для S 2 присутствует x̄, то есть они функционально зависимы. Тем не менее, они, как только что доказано, являются независимыми случайными величинами. Это свойство характерно только для нормального распределения. 13.3. Некоторые теоремы о распределении выборочных характеристик Теорема Фишера позволяет делать статистические выводы относительно дисперсии генеральной совокупности. На практике часто возникают ситуации, когда дисперсия генеральной совокупности неизвестна и необходимо делать выводы относительно математического ожидания. В этом случае оказывается полезной следующая теорема. Теорема 13.2. Пусть X1 , . . . , Xn – выборка из распределения N (a, σ) и функция от выборочных среднего и дисперсии t определена равенством √ X −a t= n−1 . (189) S Тогда величина t имеет распределение Tn−1 . Пусть нам необходимо проверить предположение: сделаны две выборки из одного нормального распределения или из различных? Для ответа на этот вопрос важное значение имеет теорема 13.3. Теорема 13.3. Пусть X1 , . . . , Xn и Y1 , . . . , Ym – независимые выборки из распределения N (a, σ), а X, Ȳ , S 2 (X), S 2 (Y ) – выборочные средние и дисперсии, и пусть r mn(m + n − 2) X − Ȳ p t= . (190) m+n nS 2 (X) + mS 2 (Y ) Тогда величина t имеет распределение Стьюдента с m + n − 2 степенями свободы. Если же имеются две выборки из различных нормальных распределений, то представляет интерес следующая теорема 13.4. 144 13. Распределение выборочных характеристик нормальной выборки Теорема 13.4. Пусть X1 , . . . , Xn и Y1 , . . . , Ym – независимые выборки из распределений N (a1 , σ1 ), N (a2 , σ2 ), а S 2 (X), S 2 (Y ) – выборочные дисперсии. Тогда случайная величина F = n(m − 1)σ22 S 2 (X) m(n − 1)σ12 S 2 (Y ) (191) распределена по закону Фишера-Снедекора Fn−1, m−1 . В частном случае, когда дисперсии совпадают, величина F не зависит от неизвестного параметра σ и имеет распределение Fn−1, m−1 . 13.4. Контрольные вопросы 1. Каково распределение суммы квадратов десяти независимых случайных величин, распределенных по нормальному закону N (0, 1)? 2. Каково распределение суммы пяти независимых случайных величин, каждая из которых распределена по закону χ2n ? 3. Изобразите схематически одном чертеже графики плотностей распределений плотности χ2n1 , χ2n2 при n1 < n2 . 4. Чему равняются математическое ожидание и дисперсия распределения χ2n ? 5. Дайте определение распределения Стьюдента Tn . 6. Чему равняются математическое ожидание и дисперсия распределения Стьюдента? 7. Если нарисовать на одном чертеже графики плотности распределения N (0, 1) и плотности распределения Стьюдента, чем они будут отличаться? 8. Каковы отличия графиков плотностей T3 и T4 ? 9. Как определяется распределение Фишера? 10. Пусть X1 , . . . , Xn — выборка из распределения N (a, σ). Каково √ (X−a) n распределение величин X, X − a, ? σ 11. Пусть X1 , . . . , Xn — выборка из распределения N (a, σ). Каково √ распределение величины t = n − 1 X−a S ? 145 14. Точечное оценивание параметров 12. Сформулируйте теорему Фишера. 13. Пусть X1 , . . . , X10 и Y1 , . . . , Y10 — независимые выборки из распределения N (a, σ), а S 2 (X), S 2 (Y ) — выборочные дисперсии. Каково 2 распределение величины SS 2(X) (Y ) ? Лекция 14. Точечное оценивание параметров План лекции: оценки параметров, несмещённость, состоятельность, эффективность и оптимальность, метод максимального правдоподобия, метод моментов. 14.1. Оценки параметров Мы уже умеем по выборкам (X1 , . . . , Xn ) вычислять выборочные статистические характеристики. По значениям этих характеристик можно делать вывод о соответствующих характеристиках генеральной совокупности (теоретических). Например, найденное по выборке X дает представление о значении математического ожидания M ξ; S 2 о значении дисперсии Dξ и т.д. При этом для каждой характеристики требуется своя формула. Возможен другой подход. Заметим, что все числовые характеристики случайных величин X1 , . . . , Xn зависят от параметра θ. Так, например, если X ∈ Eλ , то M (X) = 1 1 , D(X) = 2 . λ λ Все другие числовые характеристики также выражаются через λ. Если мы найдем (приближенно) значение λ, то сумеем оценить значение любой теоретической характеристики. Тогда возникает проблема оценки параметров генеральной совокупности. При решении этой проблемы мы будем использовать функции от выборки g(X1 , . . . , Xn ). Функции от выборки принято называть статистиками. Статистикой можно назвать любую функцию θ = θ(X1 , . . . , Xn ), которая не зависит от параметра θ. Условимся еще, что все упоминаемые функции измеримы. Всякая статистика – функция от выборки g(X1 , . . . , Xn ) и сама является случайной величиной. Как случайная величина она имеет закон распределения, зависящий от закона распределения случайной величины ξ из генеральной совокупности. В теории оценивания предполагается следующая модель: известно, что функция распределения случайной величины ξ принадлежит классу функций Fθ c неизвестным параметром (в общем случае вектором) θ ∈ Rk . 146 14. Точечное оценивание параметров Задача заключается в выборе такой статистики g(X1 , . . . , Xn ), значения которой при заданной реализации (x1 , . . . , xn ) приближаются к значению параметра θ. Получение приближенного значения будем называть оцениванием. Определение 14.1. Выборочная числовая характеристика (статистика) θ̂ = g(X1 , . . . , Xn ), применяемая для оценивания неизвестного параметра θ генеральной совокупности, называется его точечной оценкой. Таким образом, оценка – это статистика, предназначенная для оценивания неизвестного параметра θ. Пример 14.1. X – оценка M ξ; S 2 – оценка Dξ и т.п. Замечание 14.1. В дальнейшем для оценок параметра θ будут часто использоваться обозначения θ̂ и θ∗ . В общем случае, для неизвестного параметра θ может существовать много оценок θ̂, которые близки к θ. Например, выборочные мода и медиана могут быть оценками для M ξ и т.п. Необходимо выбрать среди всех оценок данного параметра θ «наилучшую» в некотором смысле, например, удовлетворяющую некоторым заданным условиям или обладающую некоторыми свойствами. Рассмотрим желательные для оценок свойства. 14.2. Несмещённость Определение 14.2. Статистика θ̂ = g(X1 , . . . , Xn ) называется несмещенной оценкой для параметра θ, если ∀θ ∈ Θ M θ̂ = θ. Несмещенность – свойство оценок при фиксированном объеме выборки n. Это свойство означает, что в среднем оценка дает правильный результат, отсутствует смещение. Пример 14.2. θ̂ = X — несмещенная оценка для θ = M ξ, так как M X = M ξ. Например, в Pλ X – несмещенная оценка λ. Класс всех несмещенных оценок параметра θ будем обозначать Tθ . Если M θ̂ 6= θ, то оценка называется смещенной и ее смещение равно M θ̂ − θ. 147 14. Точечное оценивание параметров Определение 14.3. Оценка θ̂ параметра θ называется асимптотически несмещенной, если M θ̂ → θпри n → ∞. Пример 14.3. Пусть параметром распределения является его дисперсия. Исследовать на несмещенность оценку S 2 дисперсии σ 2 . " n # " n # n X X 1 1 1X 2 2 2 2 MS = M (Xi − X̄) = M Xi − X̄ = M Xi2 −M X̄ 2 = n i=1 n i=1 n i=1 = M Xi = a, M Xi2 = DXi + (M Xi )2 = σ 2 + a2 , σ2 2 2 2 +a = M X̄ = DX̄ + (M X̄) = n n σ2 1 X 2 σ2 σ2 n−1 2 2 2 2 2 2 2 = σ +a − −a =σ +a − −a =σ − = σ . n i=1 n n n n n−1 2 σ −→ σ 2 , n→∞ n 2 следовательно S является асимптотически несмещенной оценкой для дисперсии. 14.3. Состоятельность При использовании той или иной оценки желательно, чтобы точность оценивания увеличивалась бы при возрастании объема выборки. Определение 14.4. Статистика θ̂ = g(X1 , . . . , Xn ) называется состоятельной оценкой θ, если ∀θ ∈ Θ p g(X1 , . . . , Xn ) −→ θ. (192) Свойство состоятельности означает, что оценка делается точнее при увеличении количества данных. Пример 14.4. θ̂ = X – состоятельная оценка θ = M ξ, так как по закону больших чисел в форме Хинчина среднее независимых одинаково распределённых случайных величин сходится по вероятности при n → ∞ к ξ. Например, в Pλ : X – состоятельная оценка λ. Таким образом, выборочное среднее является состоятельной оценкой математического ожидания в любом распределении. Для исследования состоятельности оценок часто применяют следующие теоремы (см. задачи 14 – 16). 148 14. Точечное оценивание параметров Теорема 14.1. Если M α̂ = α и Dα̂ → 0 при n → ∞, то α̂ – состоятельная оценка α. Таким образом, несмещенная оценка, дисперсия которой стремится к 0 с ростом выборки, является несмещенной. Часто применяется также теорема с ослабленными условиями: Теорема 14.2. Если M α̂ → α при n → ∞ и Dα̂ → 0 при n → ∞, то α̂ – состоятельная оценка α. Смысл ослабленного условия, очевидно, в том, что оценка может быть смещенной, но асимптотически несмещенной. Следующая теорема утверждает, что непрерывные функции от состоятельных оценок тоже состоятельны. Теорема 14.3. Если α̂ – состоятельная оценка α, а f – непрерывная функция, то f (α̂) – состоятельная оценка f (α). 3 Пример 14.5. В Pλ статистика X – состоятельная оценка λ3 , поскольку X – состоятельная оценка λ. 14.4. Эффективность и оптимальность Определение 14.5. Пусть выбран критерий близости оценки к неизвестному параметру θ. Оценка θ̂ параметра θ называется оптимальной по данному критерию в рассматриваемом классе оценок, если она минимизирует выбранный критерий. Пример 14.6. За критерий близости оценки можно взять M (θ̂ − θ)2 , где θ̂ = g(X1 , . . . , Xn ) − оценка θ. (193) Если оценка θ̂ несмещенная, то M (θ̂ − θ)2 = Dθ̂, где наименьшая дисперсия соответствует наиболее устойчивой оценке, которая меньше других меняется от выборки к выборке. Определение 14.6. Несмещенная оценка θb параметра θ называется ∼ ∼ оптимальной оценкой, если Dθb ≤ Dθ, ∀θ ∈ Θ, где θ — произвольная несмещенная оценка θ. В случае регулярной статистической модели можно указать нижнюю границу дисперсий несмещенных оценок параметра θ. 149 14. Точечное оценивание параметров Определение 14.7. Информационным количеством Фишера называется величина I, равная 2 ∂ ln f (x1 , x2 , . . . , xn , θ) I=M . (194) ∂θ Для дисперсий несмещенных оценок параметра θ справедлива теорема: Теорема 14.4 (неравенство Рао-Крамера). В регулярной модели hFθ i для любой оценки θ̂ ∈ Tθ выполняется неравенство 1 Dθ̂ > . I (195) Особое значение имеют оценки, имеющие наименьшую возможную дисперсию. Определение 14.8. Несмещенная оценка θ̂ параметра θ называется эффективной оценкой θ, если ∀θ ∈ Θ 1 Dθ̂ = . I (196) Замечание 14.2. Если оценка является эффективной, она является оптимальной. Обратное, вообще говоря, не верно. Для проверки эффективности оценок удобно использовать следующие формулы информационного количества Фишера I, легко получаемые из (194): 2 ∂ ln f (x, θ) I = nM ; ∂θ 2 ∂ ln f (x, θ) I = −nM . ∂θ2 Обратите внимание, что в этих формулах f (x, θ) – одномерная плотность. Пример 14.7. Исследовать на эффективность оценку â = x̄ в нормальной статистической модели, если второй параметр известен и равен σ. J Вычислим I. (x−a)2 1 f (x) = ϕa,σ (x) = √ e− 2σ2 , σ 2π 1 (x − a)2 √ ln f (x) = ln − , 2σ 2 σ 2π 150 14. Точечное оценивание параметров ∂ ln f (x, θ) x − a = . ∂θ σ2 2 ∂ ln f (x, θ) n M (x − a)2 I = nM = . =n ∂θ σ4 σ2 Найдем нижнюю границу дисперсий: 1 σ2 = . I n Вычислим дисперсию x̄. P Dx̄ = D xi n Dxi σ2 = . n2 n P = Dx̄ = I1 , следовательно, оценка эффективна. I Замечание 14.3. Для дискретной случайной величины вместо f (x) используется p (ξ = x). В регулярной статистической модели для несмещенных оценок можно рассматривать показатель эффективности. Определение 14.9. Показателем эффективности оценки θ̂ параметра θ называется число e(θ̂) = 1 IDθ̂ . несмещенной (197) Очевидно, 0 < e(θ̂) 6 1. Для эффективных оценок e(θ̂) = 1. 14.5. Свойства оптимальных оценок Теорема 14.5. Если оптимальная оценка существует, то она единственна. Теорема 14.6. Если T1 (x) – оптимальная оценка параметрической функции τ1 , а T2 (x) – оптимальная оценка параметрической функции τ2 , то T = a1 T1 (x) + a2 T2 (x) – оптимальная оценка параметрической функции τ = a1 τ1 + a2 τ2 . Рассмотрим методы получения оценок. 151 14. Точечное оценивание параметров 14.6. Метод максимального правдоподобия Метод максимального правдоподобия для получения точечных оценок был предложен Р. Фишером. Пусть генеральная совокупность определяется случайной величиной ξ с функцией распределения F (x, θ) и задана выборка (X1 , . . . , Xn ). Суть метода состоит в нахождении такого значения θ∗ неизвестного параметра θ, при котором вероятность реализации (x1 , . . . , xn ) вектора (X1 , . . . , Xn ) была бы максимальна. Пусть ξ – непрерывная случайная величина с плотностью f (x, θ), где θ – неизвестный параметр. Тогда f (x1 , . . . , xn , θ) = f (x1 , θ) · . . . · f (xn , θ) плотность распределения вектора (X1 , . . . , Xn ). Определение 14.10. Для непрерывной случайной величины функция L(x1 , . . . , xn , θ) = f (x1 , θ) · . . . · f (xn , θ), (198) рассматриваемая при фиксированных (x1 , . . . , xn ) как функция параметра θ, называется функцией правдоподобия. Для дискретной случайной величины закон распределения задается вероятностями p (ξ = xi ) = pi ; ξ p x1 x2 . . . xn p 1 p2 . . . pn Пусть имеется выборка: (x1 , . . . , xn ). Тогда функция правдоподобия для дискретной случайной величины определяется в виде L(x1 , . . . , xn , θ) = p (ξ = x1 ) · . . . · (ξ = xn ). (199) Определение 14.11. Оценка θ∗ , обеспечивающая по параметру θ максимум функции правдоподобия, называется оценкой максимального правдоподобия параметра θ (о.м.п.) Какой же смысл в максимуме критерия (198) и (199)? Для дискретной случайной величины это условие означает максимум вероятности получения реализации (x1 , . . . , xn ) при θ = θ∗ . Для случайной непрерывной величины вероятность принятия значений (x1 , . . . , xn ) равна 0. Поэтому рассмотрим вероятность попадания выборки в n-мерный параллелепипед с центром 152 14. Точечное оценивание параметров (x1 , . . . , xn ) и ребрами (4x1 , . . . , 4xn ). При малых (x1 , . . . , xn ) эта вероятность равна L(x1 , . . . , xn , )4x1 . . . 4xn = f (x1 , . . . , xn )4x1 . . . 4xn . Вероятность при фиксированных x1 , . . . , xn можно рассматривать как функцию параметра θ. Подбираем такое значение θ∗ , которое обеспечивает максимум вероятности попадания выборки в n-мерный параллелепипед. Очевидно, что точка максимума функции f (x1 , . . . , xn ) совпадает с точкой максимума функции L(x1 , . . . , xn , θ). Таким образом, и для дискретной и для непрерывной случайной величины условие максимума функции правдоподобия по параметру θ означает максимум вероятности получения реализации (x1 , . . . , xn ) при θ = θ∗ . Пусть L(x1 , . . . , xn , θ) дифференцируема по θ для любой реализации (x1 , . . . , xn ) и достигает максимума по θ во внутренней точке Θ. ∂L =0 ∂θ или ∂L = 0, i = 1, . . . , k, (200) ∂θi если θ ∈ Rk . Функции L и ln L достигают максимума при одном и том же значении θ, поэтому вместо отыскания максимума функции L часто удобнее находить максимум функции ln L и решать уравнение правдоподобия ∂ ln L = 0. (201) ∂θ В результате решения уравнения правдоподобия мы найдем критическую точку, необходимо еще убедиться, что это точка максимума. Пример 14.8. Найдем о.м.п. параметра α в распределении Γα, β при известном β. ! ( ) β n Y n n n n β Y Y X α −αxi β−1 α f (xi ) = L= e xβ−1 ·exp −α xi . xi = · i Γ(β) Γ(β) i=1 i=1 i=1 i=1 ln L = nβ ln α − n ln Γ(β) + (β − 1) n X ln xi − α n X i=1 ∂ ln L nβ = − ∂α α n X xi = 0 =⇒ α= ∂ 2 ln L nβ = − <0 ∂α2 α2 =⇒ i=1 β P n 1 n i=1 =⇒ α= α̂ = i=1 xi = β . x̄ β — точка максимума x̄ β – о.м.п. x̄ 153 xi . 14. Точечное оценивание параметров Некоторые свойства оценок максимального правдоподобия 1. Cвойство инвариантности. Если оценивается некоторая взаимно b Это однозначная параметрическая функция τ (θ), то ее о.м.п. τd (θ) = τ (θ). свойство вполне очевидно, так как точки максимума L, найденные по θ и по τ (θ) совпадают. Из свойства инвариантности следует, что для нахождения о.м.п. можно выбирать наиболее удобную параметризацию, а о.м.п. получать затем с помощью соответствующих преобразований. 2. Оценки максимального правдоподобия асимптотически несмещены, состоятельны и при некоторых дополнительных предположениях о модели асимптотически нормальны. (Дополнительные предположения касаются мажорируемости третьей производной f по параметру и обычно выполняются в регулярных моделях). 3. Если оценки максимального правдоподобия асимптотически нормальны, то они и асимптотически эффективны, то есть 1 Dθ̂ → . I Пример 14.9. Найдем в условиях предыдущего примера о.м.п. α3 . J По свойству инвариантности 3 β c3 = (b α α) = . x̄ 3 I Рассмотрим нахождение оценки двумерного параметра. Пример 14.10 (). Пусть ξ распределена по нормальному закону, то есть Nθ , где θ = (a, σ). Найдем о.м.п. параметра θ. J Тогда функция правдоподобия для ξ имеет следующий вид: 1 e− L(x1 , . . . , xn ) = √ n (σ 2π) Pn 2 i=1 (xi −a) 2 2σ . Найдем логарифмическую функцию правдоподобия: ln L(x, a, σ) = −n(ln σ + 0, 5 ln 2π) − n X (xi − a)2 i=1 2σ 2 . Найдем частные производные по a и по σ и приравняем их к нулю: ( Pn (xi −a) ∂ ln L(x,a,σ) = = 0, i=1 σ 2 ∂a P ∂ ln L(x,a,σ) n (xi −a)2 n = − + = 0. i=1 ∂σ σ σ3 154 14. Точечное оценивание параметров Из первого уравнения выразим a : Pn i=1 (xi − a) = 0 ⇒ Pn i=1 xi − n · a = 0, n 1X â = xi = x̄. n i=1 Из второго уравнения выразим σ 2 : nσ 2 = Pn i=1 (xi − a)2 , n 1X (xi − a)2 = S 2 , σ b = S. σb2 = n i=1 Убедитесь, что точка (x̄, S 2 ) – точка максимума. Составьте матрицу вторых производных ! 2 2 A(a, σ) = ∂ ln L(x,a,σ) ∂a2 ∂ 2 ln L(x,a,σ) ∂σ∂a ∂ ln L(x,a,σ) ∂a∂σ ∂ 2 ln L(x,a,σ) ∂σ 2 , и проверьте отрицательную определенность матрицы A в точке (a, σ) = (x̄, S).I Следует заметить, что не всегда существует максимум функции L по параметру, и не всегда возможно найти аналитическое решение уравнения правдоподобия (201). 14.7. Метод моментов Идея метода: выборочные моменты принимают в качестве оценок для моментов распределения случайной величины ξ, которые есть функции от неизвестного параметра θ (в общем случае, многомерного). Рассмотрим случайную величину ξ с плотностью f (x, θ) и выборку объема n (x1 , . . . , xn ). У случайной величины ξ существуют моменты α1 , . . . , αr , которые являются функциями от θ. Выборочные моменты ak вычисляют по формуле n 1X k ak = X . n i=1 i Приравнивая выборочные и теоретические моменты, получаем уравнения относительно θ. Решая эти уравнения, получаем оценку параметра θ̂. Эта оценка называется оценкой метода моментов и обозначается о.м.м. Пример 14.11. ξ имеет плотность f (x) = λe−λx , 155 x > 0; 14. Точечное оценивание параметров λ – неизвестный параметр. Тогда 1 , a1 = X. λ Приравнивая α1 и a1 , получаем оценку для λ: α1 = M ξ = 1 . X Оценки метода моментов не единственны, можно брать различные моменты и получать различные о.м.м. λ∗ = Пример 14.12. Распределение R[0, θ] Найдем о.м.м. по математическому ожиданию (первому моменту α1 ): θ θ̂ ⇒ a1 = , θ̂ = 2a1 , или θ̂ = 2x̄. 2 2 Найдем о.м.м. по k-му моменту αk : α1 = Zθ αk = p θk x dx = ⇒ θ̂ = k (k + 1)ak . θ k+1 k1 0 Из свойств оценок метода моментов отметим их состоятельность. Теорема 14.7. Пусть θ̂ = g(a1 , . . . , ak ) – оценка параметра θ, полученная по методу моментов, причем функция g −1 непрерывна. Тогда θ̂ состоятельна. Доказательство. Если θ̂ = g(a1 , . . . , ak ), то θ = g(α1 , . . . , αk ). По свойству выборочных моментов ak сходятся по вероятности к αk при n → ∞ (см. p p теорему 171). Тогда и g(a1 , . . . , ak )−→g(α1 , . . . , αk ), то есть θ̂−→θ. 14.8. Контрольные вопросы 1. Дайте определение несмещенной оценки. 2. Дайте определение асимптотически несмещенной оценки. 3. Дайте определение состоятельной оценки. 4. Дайте определение оптимальной оценки. 5. Сформулируйте неравенство Рао-Крамера. 6. Дайте определение эффективной оценки. 156 15. Интервальные оценки Лекция 15. Интервальные оценки План лекции: общая схема построения доверительного интервала, центральные статистики, доверительные интервалы для параметров нормального распределения, доверительные интервалы для параметров произвольных распределений. 15.1. Понятие интервального оценивания параметров Мы рассмотрели точечные оценки неизвестных параметров распределения наблюдаемой случайной величины. Всякая оценка параметра представляет собой функцию от выборки, которая для данной реализации выборки равна конкретному значению оценки, принимаемому за приближенное значение параметра. Возникает вопрос, насколько близка данная оценка к неизвестному параметру распределения. Ответить на этот вопрос можно только в вероятностном смысле. Например, указать такой интервал, внутри которого с высокой вероятностью 1 − α находится точное значение параметра. Построение таких интервалов называют интервальным или доверительным оцениванием, а соответствующий интервал – доверительным. Таким образом, (1 − α)-доверительный интервал — случайный интервал, который с вероятностью 1 − α накрывает истинное значение параметра θ. Уровень значимости α обычно берут равным одному из чисел 0.001, 0.005, 0.01, 0.05, 0.1. Уровень значимости выражает ошибку доверительного интервала. Чем меньше α, тем больше доверительная вероятность и тем надежнее доверительный интервал, но более надежный интервал является более широким и менее информативным. Стандартный уровень значимости α = 0.05. Заметим, что интервал не зависит от параметра θ, а зависит только от выборки X. Рассмотрим доверительное оценивание скалярного параметра θ. Пусть X = (X1 , . . . , Xn ) – выборка из генеральной совокупности наблюдаемой случайной величины ξ с функцией распределения F (x, θ). Определение 15.1. Две статистики I1 (X), I2 (X) (I1 (X) < I2 (X)) называют доверительным интервалом значимости α для параметра θ (0 < α < 1), если выполняется условие p (I1(X) < θ < I2(X ) = 1 − α. (202) Число 1 − α называется доверительной вероятностью, а I1 (X), I2 (X) — нижней и верхней доверительными границами. Заметим, что интервал не зависит от параметра θ, а зависит только от выборки X. 157 15. Интервальные оценки Существуют различные подходы к построению доверительных интервалов. Рассмотрим метод нахождения доверительных интервалов, основанный на понятии центральной статистики. 15.2. Построение доверительного интервала с помощью центральной статистики Пусть распределение наблюдаемой случайной величины имеет плотность f (x) и пусть существует такая функция от выборки и параметра G(X, θ), что: 1) распределение случайной величины G(X, θ) не зависит от θ; 2) при каждом x функция G(X, θ) непрерывна и строго монотонна по параметру θ. Такую случайную функцию называют центральной статистикой. (Обратите внимание, что центральная статистика зависит от параметра.) Обозначим через g(X, θ) плотность распределения центральной статистики. Функция g(X, θ) не зависит от параметра θ (по определению центральной статистики), и поэтому для любого заданного 0 < α < 1 можно подобрать такие числа g1 и g2 , g1 < g2 , что p (g1 < G(X, θ) < g2 ) = 1 − α. (203) Если определили g1 и g2 , то можно разрешить неравенство в левой части относительно θ: p (I1 (X) < θ < I2 (X)) = 1 − α. (Это можно сделать, поскольку G(X, θ) – строго монотонная по θ функция). Тогда (I1 (X), I2 (X)) – доверительный интервал для параметра θ значимости α (доверительной вероятности 1 − α). Таким образом, для построения доверительного интервала параметра θ надо взять статистику G(X, θ), такую, что она сама монотонно зависит от параметра θ, а ее распределение от θ не зависит, записать уравнение p (g1 < G(X, θ) < g2 ) = 1 − α, и разрешить неравенство под знаком вероятности относительно параметра θ. 15.3. Доверительные интервалы для параметров нормального распределения Пусть выборку производят из нормального распределения N (θ1 , θ2 ), где математическое ожидание θ1 и дисперсия θ22 – неизвестные 158 15. Интервальные оценки параметры. Пусть X = (X1 , . . . , Xn ) – выборка из данного распределения. Рассмотрим построение доверительного интервала для математического ожидания θ1 в модели N (θ1 , θ2 ). Из теоремы 13.2 следует, что случайная величина √ a−X t = t(X, a) = n − 1 · S имеет распределение Стьюдента с n − 1 степенью свободы Tn−1 и эту величину t можно считать центральной статистикой для θ1 . Найдем такие t1 и t2 , (t1 < t2 ), что √ a−X < t2 = 1 − α. (204) p t1 < n − 1 · s Это можно сделать неоднозначно, решением является любая пара t1 , t2 , такая, что FT (t2 ) − FT (t1 ) = 1 − α, где FT (x) – функция распределения Стьюдента. Разрешим левую часть (204) относительно a: s s p X+√ · t1 < a < X + √ · t2 = 1 − α. n−1 n−1 Отсюда доверительный интервал для a = θ1 : s s I= X+√ · t1 , X + √ · t2 , n−1 n−1 (205) где FT (t2 )−FT (t1 ) = 1−α. Последнее уравнение имеет множество решений, лучшим является доверительный интервал минимальной длины. Вместо минимизации длины, которую не всегда удается осуществить, можно использовать центральный интервал, в котором g1 = G α2 , g2 = G1− α2 . Целесообразно считать, что вероятность попадания случайной величины правее g2 равна вероятности ее попадания левее g1 . Таким образом, t1 = tn−1, α/2 , t2 = tn−1, 1−α/2 . Распределение Стьюдента симметрично, и tn−1, α/2 , = −tn−1, 1−α/2 . Тогда получаем окончательный вид доверительного интервала s s I = X − √n−1 · tn−1, 1−α/2 , X + √n−1 · tn−1, 1−α/2 . (206) Обычно, если распределение G симметрично, центральный интервал совпадает с интервалом минимальной длины. Это относится, например, к доверительному интервалу (206). 159 15. Интервальные оценки Пример 15.1. Найдем доверительный интервал значимости α для параметра a нормального распределения N (a, σ) при известном σ. √ (a−X) n . σ J В качестве статистики G можно взять G = √ (a − X) n d → u ∈ N (0, 1). σ Известно, что Поэтому √ a−X < u1− α2 = 1 − α. p u α2 < n · σ Разрешим относительно a, учитывая, что u α2 = −u1− α2 ) : σ σ p X − √ · u1− α2 < a < X + √ · u1− α2 = 1 − α. n n σ σ √ √ α α Ia = X − n · u1− 2 , X + n · u1− 2 . (207) I Построим теперь доверительный интервал для θ22 . Из теоремы Фишера следует, что случайная величина nS 2 nS 2 = σ2 θ22 имеет распределение χ2n−1 , то есть она зависит от θ2 , а ее распределение от неизвестных параметров не зависит. Поэтому данную функцию от выборки с учетом ее монотонности можно считать центральной статистикой. Тогда nS 2 p g1 < 2 < g2 = 1 − α, (208) σ и g1 , g2 находят решением данного уравнения. Обычно распределение χ2 задано таблично. Для центрального доверительного интервала справедливо g1 = z α2 , (209) g2 = z1− α2 , где zq – квантиль порядка q распределения статистики G. Тогда g1 , g2 находят по таблице как решения уравнений Fχ2n−1 (x) = α , 2 Fχ2n−1 (x) = 1 − α . 2 bE b решения первого и второго уравнений Обозначим через A, b = χ2 α , A n−1, 2 b = χ2 E n−1,1− α2 . 160 (210) 15. Интервальные оценки Разрешая неравенство в (5.3.9) относительно неизвестной дисперсии, получаем доверительный интервал для дисперсии значимости α: 2 nS nS 2 2 Iσ = Eb , Ab . (211) Iσ = q nS 2 b , E q nS 2 b A (212) . 15.4. Нахождение доверительных интервалов для параметров произвольных распределений Параметр произвольного распределения можно оценить так же, как параметр нормального распределения, если известно распределение некоторой статистики, зависящей от параметра и его оценки (эту информацию можно найти в справочниках, а можно и самим вывести). Другой способ связан с использованием асимптотического метода. Если θ̂ асимптотически нормальна и несмещена, (например, является о.м.п.), то θ̂ − θ d p → u ∈ N (0, 1). Dθ̂ ! θ̂ − θ (213) 1 − α = p u α2 < p < u1− α2 . Dθ̂ Разрешим относительно θ, получим доверительный интервал значимости α. p Кстати, длина его пропорциональна Dθ̂ и минимальна, когда минимальна Dθ̂, то есть, при эффективной θ̂. Пример 15.2. Построим доверительные интервалы для параметра λ уровня значимости α. Для этого рассмотрим статистику √ n(x − λ) d √ → u ∈ N (0, 1) S= λ и найдем из уравнения P (I1 < λ < I2 ) = 1 − α доверительный интервал (I1 , I2 ). P (uα/2 < S < u1−α/2 ) = 1 − α √ n(x − λ) √ uα/2 < < u1−α/2 λ 161 15. Интервальные оценки Так как −uα/2 = u1−α/2 , то √ n(x − λ) < u1−α/2 √ λ n(x − λ)2 < u21−α/2 λ nλ2 − λ(2nx + u21−α/2 ) + nx2 < 0 Решением полученного неравенства будет интервал: q q 2 2 2 2nx + u2 2nx − u 4nx + u + u + u 1−α/2 1−α/2 4nx + u1−α/2 1−α/2 1−α/2 1−α/2 ; 2n 2n Пример 15.3. Найти доверительный интервал значимости α для параметра p распределения Бернулли B(1, p). J Известно, что эффективная оценка p равна Pn xi p̂ = i=1 = x̄. n В качестве статистики G можно взять p − x̄ p − x̄ np − m G= = p pq = √ , Dp̂ npq n Pn где m = i=1 xi . Из ЦПТ следует, что np − m d → u ∈ N (0, 1). √ npq Поэтому np − m < u1− α2 = 1 − α. p u α2 < √ npq (u α2 = −u1− α2 ). Разрешим относительно p уравнение np − m p = u1− α2 . np (1 − p) Для этого потребуется возвести обе части в квадрат и решить относительно p квадратное уравнение. При отборе корней необходимо иметь в виду, что 0 < p < 1.I 162 16. Понятие статистической гипотезы и статистического критерия Лекция 16. Понятие статистической гипотезы и статистического критерия План лекции: основные понятия, общая схема проверки параметрических гипотез, ошибки первого и второго рода, мощность критерия, теорема Неймана-Пирсона, наилучшая критическая область. 16.1. Основные понятия Определение 16.1. Статистической гипотезой (или просто гипотезой) называется любое утверждение о виде или свойствах распределения наблюдаемых в эксперименте случайных величин. Задача разработки рациональных методов проверки статистических гипотез — одна из основных в математической статистике. Если для исследуемого явления (процесса, стратегии) сформулирована та или иная гипотеза H0 (основная, нулевая), то задача состоит в том, чтобы сформулировать такое правило, которое позволяло бы по имеющимся результатам наблюдений принять или отклонить эту гипотезу. Определение 16.2. Правило, согласно которому проверяют гипотезу H0 (принимают или отвергают), называется статистическим критерием проверки гипотезы H0 . Таким образом, разработка правил и их обоснование с точки зрения оптимальности и составляет предмет теории проверки статистических гипотез. 16.2. Примеры математических формулировок гипотез 1. Гипотеза о виде распределения. Пусть проводят n независимых наблюдений над некоторой случайной величиной ξ с неизвестной функцией распределения F (x). Гипотеза H0 : F (x) = F0 (x), где F0 (x) полностью задана. Гипотеза H0 : F (x) ∈ {F}, где {F} – заданное семейство функций распределения. При этом обычно семейство {F} задают в параметрическом виде: {Fθ }. (Здесь Fθ = F (x, θ)). 2. Гипотеза случайности. Результат эксперимента описывают случайной n-мерной величиной X = (X1 , . . . , Xn ) с неизвестной функцией распределения F (x). Можно ли рассматривать X как случайную выборку из 163 16. Понятие статистической гипотезы и статистического критерия распределения некоторой случайной величины ξ (то есть являются ли компоненты Xi независимыми и одинаково распределенными)? Гипотеза случайности: H0 : F = FX1 = · · · = FXn = Fξ . (214) Определение 16.3. Статистическая гипотеза называется простой, если однозначно фиксирует распределение наблюдений. Иначе это сложная гипотеза. Определение 16.4. Статистическая гипотеза называется параметрической, если она представляет из себя предположение о том, что неизвестный параметр распределения (дисперсия, математическое ожидание и т.п.) имеет наперед заданное значение или множество значений. Могут быть сформулированы различные гипотезы. Например, пусть дано m + 1 распределение F0 , . . . , Fm и предполагается, что выборка X принадлежит одному из этих распределений. Тогда гипотезы имеют вид: Hi : выборка принадлежит Fi . Все Hi – простые гипотезы. Одно из предположений выбирают за основное и считают, что H0 – нулевая гипотеза. Определение 16.5. Любая гипотеза о распределении наблюдаемой случайной величины, которая может оказаться истинной, но отличается от основной гипотезы, называется альтернативной гипотезой. Рассмотрим сначала проверку параметрических гипотез. 16.3. Общая схема проверки параметрических гипотез Рассмотрим подробнее параметрические гипотезы. В этом случае класс допустимых распределений наблюдаемой случайной величины ξ имеет вид {F (x, θ1 ), . . . , F (x, θr )} и гипотезы относятся к неизвестным параметрам θi i = 1, . . . , r. Пример 16.1 (Различные варианты параметрических гипотез). 1. H0 : θ1 = · · · = θr . 2. H0 : θ = θ0 , где θ0 – фиксированное известное значение. 3. H0 : g(θ) = g(θ0 ), где g(t) – функция. 164 16. Понятие статистической гипотезы и статистического критерия Пример 16.2. H0 : θ0 ∈ Θ (сложная гипотеза). Альтернативная гипотеза : H1 : θ = θ1 , где θ1 6= θ0 (θ1 > θ0 , θ1 < θ0 ). Пример 16.3. Для нормального распределения N (θ1 , θ2 ): H0 : θ1 = θ10 , θ2 = θ20 – простая гипотеза, а H0 : θ1 = θ10 — сложная гипотеза, так как θ2 — свободный параметр. Пусть (X1 , . . . , Xn ) – выборка объема n из распределения F (x, θ), θ ∈ Θ, а (x1 , . . . , xn ) – реализация. Сформулированы гипотезы (сложные в общем виде): H0 : θ = θ0 – нулевая, H1 : θ = θ1 – альтернативная. Необходимо построить правило, по которому для каждой реализации x можно было бы принять H0 или отвергнуть H0 (принять H1 ). Тем самым выборочная область X = {(x1 , . . . , xn )} разбивается на две части V и V : V ∩ V = ∅, V ∪ V = X, где V состоит из тех (x1 , . . . , xn ), для которых H0 принимают, а множество V состоит из тех (x1 , . . . , xn ), для которых принимают H1 . Множество V называют областью принятия гипотезы H0 , а V – областью ее отклонения или критической областью. Тогда критерий формулируется следующим образом: пусть x – наблюдаемая реализация выборки, тогда при x ∈ V гипотезу H0 отвергают (в пользу альтернативной гипотезы H1 ); если же x ∈ V , то H0 принимают. Критерий, определяемый критической областью V , называют критерием KV . Обычно критическую область V задают с помощью статистики T (x), для которой распределение известно точно или приближенно. Обозначим через Hd статистическое решение, тогда критерий KV состоит в следующем: H1 , T (x) ∈ V, Hd = H0 , T (x) ∈ V . В процессе проверки H0 можно принять правильное решение или совершить ошибку. 16.4. Ошибки первого и второго рода Определение 16.6. Вероятностью ошибки первого рода называется вероятность отклонить H0 , когда H0 верна. 165 16. Понятие статистической гипотезы и статистического критерия Эта вероятность совпадает с введенным раньше уровнем значимости критерия α ( 15.1). Очевидно, α = p (Hd = H1 /H0 ) = p (T (x) ∈ V /H0 ), (α равняется вероятности того, что значение статистики T принадлежит критической области V при условии, что верна H0 ). Определение 16.7. Вероятностью ошибки второго рода называется вероятность принять H0 , когда H0 не верна. Вероятность ошибки второго рода обозначается β. Очевидно, β = p (Hd = H0 /H1 ) = p (T (x) ∈ V /H1 ), (β равняется вероятности того, что значение статистики T не принадлежит критической области V при условии, что верна H1 ). Пример 16.4. При контроле качества продукции возможны ошибки: изделие, удовлетворяющее стандарту, отбраковывают с вероятностью γ, а бракованное изделие принимают с вероятностью δ. Если ввести для данного изделия две гипотезы: H0 : {изделие годное} и H1 : {изделие бракованное}, и в качестве критерия выбора использовать контроль продукции, то γ – вероятность ошибки 1-го рода, а δ – вероятность ошибки 2-го рода данного критерия. При рассмотрении простых параметрических гипотез H0 : θ = θ0 , H1 : θ = θ1 используют обозначения α = p (T (x) ∈ V /θ0 ), β = p (T (x) ∈ V /θ1 ). Вероятность этих ошибок можно выразить через функцию мощности критерия. Определение 16.8. Функцией мощности критерия V называется функция W (V, θ) = P (T (x) ∈ V ), θ ∈ Θ, (215) Через W (V, θ) легко вычислить: α = P (T (x) ∈ V /θ0 ) = W (V, θ0 ) (216) — вероятность совершения ошибки первого рода и β = P (T (x) ∈ V /θ1 ) = 1 − P (T (x) ∈ V /θ1 ) = 1 − W (V, θ1 ) 166 (217) 16. Понятие статистической гипотезы и статистического критерия — вероятность совершения ошибки второго рода. Таким образом, α, θ = θ0 , W (V, θ) = 1 − β, θ = θ1 . Величину 1 − β будем называть мощностью критерия K и обозначать M (K). Тогда α, θ = θ0 , W (V, θ) = M (K), θ = θ1 . Замечание 16.1. Понятие мощности критерия введено для случая простых H0 , H1 ; существенно, что множество Θ1 состоит из единственной точки θ1 . Ошибки первого и второго рода связаны; при попытке уменьшить одну из ошибок критерия другая, как правило, увеличивается. Что для нас критичнее: совершить ошибку первого или второго рода? Вспомним пример 16.4, что опаснее, забраковать годное (ошибка первого рода), или пропустить негодное (ошибка второго рода)? Обычно для практики важнее не совершить ошибку второго рода. Поэтому поступают таким образом: фиксируют ошибку первого рода на достаточно низком безопасном уровне, и выбирают критическую область V так, чтобы ошибка второго рода была бы минимальна (то есть была бы максимальна функция мощности критерия при θ ∈ Θ1 ). Определение 16.9. В случае двух простых гипотез наилучшей критической областью (НКО) называется область V , которая при заданном уровне значимости α обеспечивает min β — ошибки второго рода. НКО можно найти с помощью следующей теоремы. 16.5. Теорема Неймана-Пирсона Теорема 16.1 (Теорема Неймана-Пирсона). Пусть H0 : θ = θ0 , H1 : θ = θ1 . Тогда НКО заданного уровня значимости α состоит из точек выборочного пространства, удовлетворяющих неравенству L(x, θ1 ) > cα , L(x, θ0 ) (218) где cα – константа, зависящая от α, L – функция правдоподобия. 167 16. Понятие статистической гипотезы и статистического критерия Наилучшая критическая область, получаемая в результате решения неравенства (218), обычно имеет вид V = {x : T (x) 6 C}, или {x : T (x) > C}, или {x : |T (x)| > C}, где C – критическое значение статистики T (x) (берется из таблиц распределения). Пример 16.5. hN (θ, σ)i. H0 : θ = a0 , H1 : a = a1 , a1 > a0 . Найти НКО. J L(x, θ1 ) = L(x, θ0 ) √1 e− (σ 2π)n √1 e (σ 2π)n Pn 2 i=1 (xi −a1 ) 2 2σ Pn (x −a )2 − i=12σi2 0 =e − 2σ12 (na21 −na20 −2(a1 −a0 ) P xi ) > cα . X 1 2 2 xi > ln cα . − 2 (na1 − na0 − 2(a1 − a0 ) 2σ Выразим член, содержащий статистику (функцию от x), и переобозначим для простоты константу: X −2(a1 − a0 ) xi 6 b. a1 > a0 , поэтому X xi > d, (где d – новая константа). Таким образом, мы нашли статистику X T (x) = xi , и форму НКО: V = {x : X xi > d}. Чтобы найти границу критической области, перейдем к стандартной статиP стике (то есть, к статистике, которая зависит от T (x) = xi и распределение которой нам известно). Такой статистикой является X − a0 √ n, σ P доказывали, что Z ∈ N (0, 1). Неравенство xi > d равносильно неравенству Z > u, где u – новая константа. Поэтому НКО, заданная через Z, будет иметь форму V = {x : Z > u}. Z= По заданному α из соотношения α = P (Z ∈ V /a0 ) = P (Z > u) найдем u: P (Z > u) = 1 − FZ (u) = 1 − Φ(u) = α, 168 16. Понятие статистической гипотезы и статистического критерия следовательно, Φ(u) = 1 − α, u = u1−α , а НКО: X − a0 √ n > u1−α . σ I Пример 16.6. В условиях предыдущего примера найти мощность критерия. J Напомним, что в предыдущем примере была найдена НКО для проверки гипотез H0 : a = a0 , H1 : a = a1 , a1 > a0 в нормальной модели hN (θ, σ)i: X − a0 √ n > u1−α . σ По определению, мощность критерия M (K) равна 1 − β, где β = P (T (x) ∈ V /θ1 ) = 1 − P (T (x) ∈ V /θ1 ). Тогда M (K) = P (T (x) ∈ V /θ1 ). √ 0 Статистика T (x) в данном случае равна X−a n, θ1 = a1 , а критическая σ область V = [u1−α , ∞). Таким образом, X − a0 √ M (K) = Pa1 n > u1−α . σ (Pa1 означает, что вероятность рассчитывается на основе модели N (a1 , σ).) X − a0 √ σu1−α M (K) = Pa1 n > u1−α = Pa1 X > √ + a0 = σ n σu1−α = 1 − Pa1 X < √ + a0 . n Вспомним, что в N (a1 , σ) X имеет распределение N (a1 , √σn ). Тогда ! σu √1−α + a0 − a1 σu1−α σu1−α n √ + a0 = Φ Pa1 X < √ + a0 = FX , √σ n n n и M (K) = 1 − Φ σu √1−α n + a0 − a1 √σ n 169 ! . 16. Понятие статистической гипотезы и статистического критерия Можно слегка преобразовать последнее выражение, используя свойство Φ(x): Φ(−x) = 1 − Φ(x) и свойство квантилей стандартного нормального распределения: uα = −u1−α . Окончательно получим √ (a1 − a0 ) n M (K) = Φ uα + . σ H0 : a = a0 , H1 : a = a1 , a1 > a0 в нормальной модели hN (θ, σ)i.I Пример 16.7. В условиях предыдущего примера найти мощность критерия H0 : a = 1, H1 : a = 2, в нормальной модели hN (θ, 2)i по выборке объема n = 100 при уровне значимости α = 0, 05. J ! √ (2 − 1) 100 M (K) = Φ u0,05 + . 2 Из таблиц находим (или вспоминаем), что u0,05 = −1, 64. ! √ (2 − 1) 100 = Φ(3, 36) = 0, 999610288. M (K) = Φ −1, 64 + 2 Как видим, мощность критерия (то есть его способность правильно отвергнуть гипотезу), практически равна 1.I Замечание 16.2. Теорема Неймана–Пирсона применима и к простым гипотезам о виде распределения. 16.6. Задачи и упражнения 1. Даны оценки за контрольную работу первой и второй групп X = (x1 , . . . , xn ), Y = (y1 , . . . , ym ), которые можно рассматривать как выборки из генеральных совокупностей оценок. Сформулировать нулевую и альтернативную гипотезы для получения ответа на вопрос: "Учится ли первая группа по этому предмету лучше второй?" 2. Даны оценки за контрольную работу первой и второй групп X = (x1 , . . . , xn ), Y = (y1 , . . . , ym ), которые можно рассматривать как выборки из генеральных совокупностей оценок. Сформулировать нулевую и альтернативную гипотезы для получения ответа на вопрос: "Одинаково ли успешно учатся по этому предмету первая и вторая группа?" 170 17. Критерии проверки гипотез 3. Даны оценки за контрольную работу первой и второй групп X = (x1 , . . . , xn ), Y = (y1 , . . . , ym ), которые можно рассматривать как выборки из генеральных совокупностей оценок. Сформулировать нулевую и альтернативную гипотезы для получения ответа на вопрос: "Можно ли считать, что первая и вторая группа учатся по этому предмету одинаково ровно?" 4. Даны результаты измерений артериального давления у одних и тех же людей до и после приема лекарства. Сформулировать нулевую и альтернативную гипотезы для получения ответа на вопрос: "Повышает ли это лекарство давление?" 5. Даны результаты измерений артериального давления у одних и тех же людей до и после приема лекарства. Сформулировать нулевую и альтернативную гипотезы для получения ответа на вопрос: "Понижает ли это лекарство давление?" 6. Даны результаты измерений артериального давления у одних и тех же людей до и после приема лекарства. Сформулировать нулевую и альтернативную гипотезы для проверки содержательной гипотезы: "Это лекарство увеличивает разброс давления у пациентов". 7. Имеются данные о солнечной активности и о заболеваемости дифтеритом за ряд лет. Сформулировать нулевую и альтернативную гипотезы для проверки содержательной гипотезы: "Увеличение солнечной активности понижает заболеваемость дифтеритом". 8. Для каждой из двух книг имеются данные о частотах, с которыми встречаются в тексте различные служебные слова и знаки препинания. Сформулировать нулевую и альтернативную гипотезы для проверки содержательной гипотезы: "Эти две книги написаны одним автором". Лекция 17. Критерии проверки гипотез План лекции: схема проверки параметрических гипотез, примеры проверки гипотез, критерии для гипотез о параметрах одного распределения, критерии для гипотез о параметрах двух независимых распределений, гипотеза о средних для парных совокупностей. 17.1. Схема проверки параметрических гипотез Можно применять следующий алгоритм проверки параметрических гипотез. 1. Сформулировать статистическую параметрическую модель, нулевую и альтернативную гипотезы, задать уровень значимости α. 171 17. Критерии проверки гипотез 2. Выбрать статистику Z(x), такую, что она сама зависит от параметра θ, а ее распределение при верной H0 от θ не зависит, и различается при H0 и при H1 . 3. Найти критическую область V . 4. Рассчитать по выборке значение статистики Zв . 5. Если Zв попадает в критическую область V , то нулевая гипотеза отвергается (в пользу альтернативной). Если Zв не попадает в критическую область V , то нулевая гипотеза не отвергается. 6. Сформулировать ответ в терминах вопроса. Замечание 17.1. Гипотеза H0 отвергается или не отвергается с уровнем значимости α. Возникают вопросы: 1) как выбрать статистику Z и 2) как найти критическую область. Подчеркнем, что ответ на первый вопрос зависит от H0 , а ответ на вопрос, на каком конце оси находится критическая область, зависит от альтернативной гипотезы H1 . Есть по крайней мере 3 доступных способа получения ответов. 1. В [??] подробно расписано (без доказательства), какая статистика берется для каждой H0 , и какая критическая область берется для каждой H1 . 2. Если найти для данной H1 НКО — получится доказательство этого результата. 3. Наконец, можно это определить и на глаз, исходя из здравого смысла. В качестве статистики берем функцию Z, зависящую от параметра и его оценки, распределение которой нам известно и чувствительно к тому, верна H0 или нет. Критическая область должна быть смещена в направлении распределения Z при H1 . 17.2. Примеры Пример 17.1 (проверка гипотезы о математическом ожидании). По выборке объема n = 113 проверить гипотезу о том, что выборка взята из нормального распределения с математическим ожиданием 10. Дисперсия известна и равна 57, 56. Рассчитанное по выборке среднее x̄ = 9, 279. 172 17. Критерии проверки гипотез J 1. Пусть α = 0, 05. hN (a, σ0 )i, σ0 = p 57, 56. H0 : a = 10; H1 : a < 10. 2. В нашем примере параметр a, оценка параметра – X, известно распределение функции √ (X − a) n Z(x) = . σ 3. Если верна H0 : a = 10, то Z(x) ∈ N (0, 1). Если же верна H1 : a = a1 < 10, то распределение X ∈ N (a1 , σ) смещено влево относительно распределения X при нулевой гипотезе N (10, σ), и значит, влево смещено и √ (X−a) n . Поэтому критическая область левосторонняя. Z(x) = σ Будьте внимательны. Нельзя рассуждать так: знак < означает, что область левостороняя. Можно было взять для критерия √ (a−X) n статистику Z1 (x) = , и при том же знаке < область была бы σ правосторонняя. Надо рассуждать так: при H1 значения Z(x) меньше, поэтому область левостороняя. Итак, критическая область: V = {x : Z(x) 6 u0,05 }, то есть V = {x : Z(x) 6 −1, 64}. 4. √ (X − a) n Z(x) = . σ √ (9, 279 − 10) 113 √ Zв = ≈ −1, 01. 57, 76 5. Zв не попадает в критическую область V , поскольку −1, 01 > −1, 64. Следовательно, с уровнем значимости α = 0, 05 нулевая гипотеза H0 не отвергается. 6. Вывод: данная выборка может быть взятой из совокупности с матожиданием 10. I В примере (17.2) статистику и критическую область выбирали "на глаз"(третий способ). В следующем примере это будет сделано с помощью теоремы Неймана – Пирсона (второй способ). Пример 17.2 (проверка гипотезы о дисперсии). По выборке объема n = 100 проверить гипотезу о том, что выборка взята из нормального распределения с дисперсией 2. Матожидание известно и равно −1, выборочная дисперсия оказалась меньше 2. 173 17. Критерии проверки гипотез J 1.hN (a0 , σ)i, a0 = −1, α = 0, √05. Гипотезы: H0 : σ = σ0 = 2 ≈ 1, 4142; H1 : σ = σ1 < 1, 4142. 2-3. По теореме Неймана–Пирсона найдем НКО. L(x, σ1 ) ≥ cα , L(x, σ0 ) 1 √ n − P100 i=1 (xi −a)2 2 2σ1 L(x, σ1 ) ( σ1 2π ) exp = P100 (x −a)2 ≥ cα , L(x, σ0 ) − i=1 i 2 1 2σ0 ( σ √2π )n exp 0 − P100 i=1 (xi −a)2 P100 (xi −a)2 2 + 2 i=1 2σ1 2σ0 ≥ c1 , 100 X 1 1 − (xi − a)2 ( − ) ≥ c2 . 2σ 2σ 1 0 i=1 exp Так как рассматривается случай σ1 < σ0 , значит − 100 X 1 2σ1 − 1 2σ0 > 0. Тогда (xi − a)2 ≥ c3 , i=1 100 X (xi − a)2 ≤ c4 . i=1 Таким образом, статистика должна включать функцию 100 X (xi − a)2 , i=1 и область левосторонняя. Перейдем к стандартной статистике: (xi − a) ∈ N (0, σ), (xi − a) ∈ N (0, 1), σ0 100 1 X Z= 2 (xi − a)2 ∈ χ2100 σ0 i=1 (это справедливо при условии, что верна H0 ). Vk = {Z < χ20,05; 100 }. Из таблиц находим χ20,05; 100 = 77.929, 174 17. Критерии проверки гипотез значит, Vk = {Z < 77.929} 4. Подсчитаем 100 100 1 X 1X Zв = 2 (xi − a)2 = (xi + 1)2 = 88.2482255 σ0 i=1 2 i=1 5. Следовательно, zв ∈ / Vk , а значит, гипотеза H0 не отвергается. 6. Можно считать, что дисперсия равна 2. I Пусть наблюдаемая случайная величина принадлежит классу нормальных распределений N (θ1 , θ2 ). Перечислим еще раз критерии проверки гипотез о параметрах нормального распределения. 17.3. Критерии для гипотез о параметрах одного распределения Замечание 17.2. В данной таблице индекс "0"внизу означает, что значение параметра известно. Например, N (a, σ0 ) — дисперсия известна, а математическое ожидание неизвестно. Индекс "0"вверху означает предполагаемое значение параметра. В последнем столбце указывается распределение Z при условии, что верна H0 (Z/H0 ). Пусть наблюдаемая случайная величина принадлежит классу нормальных распределений N (θ1 , θ2 ) ∼ N (a, σ) (X = {(x1 , . . . , xn )} ∈ N (a, σ). Гипотеза о дисперсии. H0 : σ = σ 0 . Статистическая модель hN (a0 , σ)i Статистика Z Z/H0 P 2 (xi −a0 ) χ2n (σ 0 )2 nS 2 (σ 0 )2 hN (a, σ)i χ2n−1 Гипотеза о среднем. H0 : a = a0 Статистическая модель hN (a, σ0 )i hN (a, σ)i 175 Статистика Z √ (x̄−a0 ) n σ0 √ (x̄−a0 ) n s̄ Z/H0 N (0, 1) Tn−1 17. Критерии проверки гипотез 17.4. Критерии для гипотез о параметрах двух независимых распределений Рассматриваются 2 независимые случайные величины и выборки наблюдений этих величин X, Y : X = {(x1 , . . . , xn1 )} ∈ N (a1 , σ1 , Y = {(y1 , . . . , yn2 )} ∈ N (a2 , σ2 ). Гипотеза о дисперсии. H0 : σ1 = σ2 . Статистическая модель hN (a0 , σ)i, hN (a, σ)i Статистика Z Z/H0 (s̄1 )2 (s̄2 )2 , s1 > s2 . Fn1 −1,n2 −1 Замечание. Критерий, использующий данную статистику для проверки данной гипотезы, называется критерием Фишера. Гипотеза о средних. H0 : a1 = a2 Статистическая модель Статистика Z hN (a, σ0 )i (известны r x̄−ȳ 2 2 σ1 σ2 + n n σ1 , σ2 ) 1 2 x̄−ȳ hN (a, σ)i(σ1 , σ2 неиз- r 2 s̄1 (n1 −1)+s̄2 2 (n2 −1) ( 1 + 1 ) n1 +n2 −2 n1 n2 вестны, но гипотеза H0 : σ1 = σ2 не отвергается) hN (a, σ)i(σ1 , σ2 неиз- r x̄−ȳ 2 s̄2 1 + s̄2 n1 n2 вестны, и гипотеза H0 : σ1 = σ2 отвергается) Z/H0 N (0, 1) √ Tn1 +n2 −2 Tν, где 2 2 s̄2 1 + s̄2 n1 n2 !2 !2 s̄2 s̄2 1 2 n1 n2 n1 +1 + ν ≈ −2 n2 +1 Замечание 17.3. Критерий, использующий статистику, отмечен√ ную галочкой ( ), называется критерием Стьюдента. 17.5. Гипотеза о средних для парных совокупностей Рассматриваются 2 случайные величины и выборки наблюдений этих величин X, Y : X = {(x1 , . . . , xn )} ∈ N (a1 , σ1 ), Y = {(y1 , . . . , yn )} ∈ N (a2 , σ2 ), причем Xi и Yi связаны, например, через объект наблюдения. Перейдем к разности случайных величин; тогда d = X − Y, d ∈ N (ad , σd ). Очевидно, ad = a1 − a2 . σd обычно неизвестно. Гипотеза H0 : a1 = a2 . ∼ H0 : ad = 0. 176 18. Непараметрические критерии Статистическая модель Статистика Z P √ √ ¯ d n P P di n−1 hN (a, σ)i s̄d = n d2 −( di )2 i Z/H0 Tn−1 Замечание 17.4. Этот критерий называется критерием Стьюдента для парных выборок. Лекция 18. Непараметрические критерии План лекции: непараметрические критерии, критерии согласия, критерий согласия Колмогорова, критерий согласия χ2 Пирсона. 18.1. Непараметрические критерии для проверки параметрических гипотез Критерии, рассмотренные выше, получены с помощью теоремы НейманаПирсона, и основаны на нормальном распределении генеральной совокупности (точном или приближенном). Для других статистических моделей также можно этим способом получить критерии. Но существуют критерии, которые не предполагают знания вида распределения генеральной совокупности и могут применяться в любой модели. Они называются непараметрическими. Для проверки гипотез о параметрах применяются, например, порядковые непараметрические критерии, которые строятся по статистикам вариационного ряда, не зависящим от конкретных значений членов вариационного ряда. Используется тот факт, что при H0 все перестановки значений равновероятны, и с помощью комбинаторики подсчитывается вероятность конкретного расположения. Рассмотрим в качестве примера критерий знаков. Критерий знаков X = {(x1 , . . . , xm )}, Y = {(y1 , . . . , ym )} – парные выборки. Гипотеза H0 : FX = FY (выборки относятся к одной и той же генеральной совокупности). Содержательная интерпретация: некоторый показатель снимался с m объектов до (X) и после (Y ) некоторого воздействия. H0 : воздействие не повлияло на показатель. Выбросим из выборки пары с равными значениями (xi , yi ); пусть их осталось n. Тогда, если H0 справедлива, то p (xi − yi > 0) = p (xi − yi < 0) = 21 . Статистикой критерия является Z = min(n− , n+ ), где n− – число отрицательных разностей xi − yi , n+ – число положительных разностей xi − yi . Z имеет распределение B(n, 12 ). Зададим α. n z∗ X 1 ∗ k p (Z < z ) = Cn = α. 2 k=1 177 18. Непараметрические критерии Можно решать это уравнение относительно z ∗ , а можно по данному Zв найти p (Z < Zв ). Если p (Z < Zв ) 6 α, то H0 отвергается с уровнем значимости α. Пример 18.1. У группы студентов проверялись знания элементарной математики через полгода (X) и через полтора года (Y ) после окончания школы (max = 60 баллов). Xi 40 35 41 55 46 60 51 43 Yi 30 30 38 21 49 53 37 21 Знак (Xi − Yi ) + + + + − + + + Зададим α = 0, 05. H0 : знания не изменились. Тогда 1 p (xi − yi < 0) = . 2 Zв = min(1, 7) = 1 . 8 8 1 1 + C81 ≈ 0, 035 < 0, 05. p (Z < Zв ) = p (Z = 0 ∪ Z = 1) = 2 2 H0 отвергается, знания ухудшились. 18.2. Критерии согласия Пусть сформулирована только одна гипотеза H0 о виде распределения и требуется проверить, согласуются ли имеющиеся статистические данные с гипотезой или же они ее опровергают. Такие критерии называются критериями согласия. Они используют статистики, характеризующие отклонение эмпирических данных от соответствующих гипотезе H0 теоретических значений. Как обычно, должны выполняться условия: распределение такой статистики в случае справедливости H0 можно определить точно или приближенно и оно не должно зависеть от неизвестного нам распределения генеральной совокупности. 178 18. Непараметрические критерии Пусть дана выборка X = (X1 , . . . , Xn ), описывающая результат изучаемого эксперимента. Предположим, T = T (X) — статистика, удовлетворяющая вышеупомянутым условиям. Пусть G – множество всех значений статистики G = {t : t = T (x), x ∈ X}. (219) Определим для малого α > 0 подмножество G — V, V ⊆ G так, чтобы вероятность осуществления события {T (x) ∈ V } в случае справедливости гипотезы H0 удовлетворяла бы условию P (T (x) ∈ V /H0 ) = α. (220) Правило. Если окажется, что t ∈ V , то в предположении справедливости гипотезы H0 , произошло маловероятное событие и эта гипотеза должна быть отвергнута как противоречащая статистическим данным. В противном случае нет основания отказываться от рассматриваемой гипотезы и следует считать, что наблюдения не противоречат гипотезе (согласуются с ней). Как и при проверке параметрических гипотез, статистика T (X), определенная выше, называется статистикой критерия, V – критической областью критерия, α — уровнем значимости критерия (вероятностью ошибочного отвержения гипотезы H0 , когда она верна). В конкретных задачах величину α берут равной 0,01; 0,005; 0,01. Обычно используют области вида V = (t∗ , ∞) для неотрицательной статистики или V = (−∞, t∗1 ) ∪ (t∗2 , ∞), (221) если статистика принимает положительные и отрицательные значения. 18.3. Критерий согласия Колмогорова Пусть x = (x1 , . . . , xn ) — выборка из генеральной совокупности с неизвестной функцией распределения F (x). Выдвинута простая гипотеза H0 : F (x) = F0 (x), где F0 (x) задана. Критерий согласия Колмогорова применяют для непрерывных функций распределения F (x). В качестве статистики критерия выбирают величину Dn = Dn (x) = sup |(Fn (x) − (F (x)|, (222) x а в качестве критической области – область вида V = (t∗ , ∞). 179 (223) 18. Непараметрические критерии При n → ∞, если H0 – верная гипотеза, распределение статистики в соответствии с теоремой 4.2.2 сходится к функции Колмогорова K(t). Функция Колмогорова задается таблично. При практических расчетах значения (t) можно применять уже при n > 20. Особенностью статистики Dn является тот факт, что ее распределение (при справедливости гипотезы H0 ) не зависит от вида функции F (x). Тогда из теоремы 4.2.2 следует ∞ X √ 2 2 lim P (| nDn 6 t| = K(t) = (−1)j e−2j t n→∞ (224) j=−∞ и критическая граница t∗ находится из решения уравнения K(t∗ ) = 1 − α. Так, t∗ = t∗α = 1, 3581 при α = 0, 05; t∗α = 1, 6276 при α = 0, 01. Таким образом, при заданном уровне значимости α правило проверки гипотезы H0 при n > 20 сводится к следующему: если значение статистики t̂ = Dn (x) = maxx |Fn∗ (x) − F0 (x)| удовлетворяет неравенству √ n · t̂ > t∗ , то H0 отвергают, в противном случае делают вывод, что статистические данные не противоречат гипотезе. Пример 18.2. Рассмотрим использование критерия Колмогорова для проверки при α = 0, 05 гипотезы: выборка объема n = 113 взята из распределении N (10; 76). Критерий применяется к негруппированной выборке. В первом столбце содержатся упорядоченные значения выборкиPx, во втором – эмпирическая функция распределения, равная Fn∗ (x) = nni , в третьем - предполагаемая теоретическая функция распределения F0 (x), равная в данном случае Φ10;76 (x) = Φ( x−10 76 ). В четвертом столбце содержатся модули разностей теоретической и эмпирической функций распределения |Fn∗ (x) − F0 (x)|, а в пятом - они же, упорядоченные по убыванию. Поэтому максимальное значение модуля разности, равное значению статистики t̂ – первый элемент пятого столбца. Приведена только часть таблицы, содержащей n = 113 строк. Таблица 3. Расчет критерия Колмогорова 180 18. Непараметрические критерии x Fn∗ (x) F0 (x) |Fn∗ (x) − F0 (x)| max |Fn∗ (x) − F0 (x)| -175,2 1/113=0,00885 0,007408 0,001441481 0,076255 -158,002 2/113=0,017699 0,013534 0,004165511 0,076191 ... ... ... ... ... -17,7772 0,433628 0,357373 0,07625536 0,050072 ... ... ... ... ... 162,7886 0,982301 0,977804 0,004496574 0,002554 163,7419 0,99115 0,978459 0,012691171 0,001441 177,3939 1 0,986187 0,013813193 0,000197 t̂ = max |Fn∗ (x) − F0 (x)| = 0, 07625536 √ n · t̂ = 0, 810605598. Критическое значение t∗ = 1, 358. Поскольку 0, 810605598 < 1, 358, гипотеза о распределении N (10; 76) не отвергается. 18.4. Критерий согласия χ2 Пирсона Критерий согласия χ2 К. Пирсона также проверяет гипотезу H0 : F (x) = F0 (x), но его можно применять для любых распределений. Чтобы воспользоваться этим критерием, выборочные данные предварительно группируют. Пусть ni — число значений, попавших в i-й интервал, i = 1, . . . , k, n — объем выборки, pi – теоретическая вероятность попадания одного элемента выборки в i-й интервал. Однако в теоретическом распределении могут быть неизвестные параметры (θ1 , . . . , θr ), что обычно и встречается на практике. Тогда по выборке (x1 , . . . , xn ) первоначально находят оценки (θ1∗ , . . . , θr∗ ) и затем по F (x, θ1∗ , . . . , θr∗ ) вычисляют теоретические вероятности pi . Если H0 верна, то относительные частоты nni при больших n близки к pi (теорема Бернулли). Тогда за меру расхождения между распределением выборки и теоретическим распределением целесообразно принять (в соответствии с методом наименьших квадратов) величину k X ci n i=1 i n − pi 2 (225) , где ci – коэффициенты. Пирсон показал [2], что если взять ci = pni и если (θ1∗ , . . . , θr∗ ) – оценки максимального правдоподобия, то получится следующая статистика критерия: Z= k X (ni − npi )2 npi i=1 181 , (226) 18. Непараметрические критерии которая при n → ∞ стремится к распределению χ2 с ν = k − r − 1 степенями свободы. На практике предельное распределение χ2k−r−1 можно использовать уже при n > 50 и npi > 4. Критическую область задаем в виде V = (t∗ , ∞). Тогда Fχ2l−r−1 (t∗ ) = 1 − α. (227) Критическую границу находим из решения последнего уравнения. Таким образом, критерий согласия χ2 имеет вид: пусть заданы уровень значимости α и выборка (x1 , . . . , xn ). Частоты ni и n удовлетворяют условиям: n > 50, ni > 5, i = 1, . . . , k. Тогда, если значение статистики Zв удовлетворяет неравенству Zв > t∗ , гипотезу H0 отвергают, в противном случае гипотеза H0 не противоречит условиям испытаний. Пример 18.3. Рассмотрим использование критерия Пирсона для проверки гипотезы о нормальности на основе выборки объема n = 113 из примера (18.2) при α = 0, 05. Первый столбец таблицы 4 содержит границы интервалов группировки; второй – нормированную переменную ti , ti = yi −x̄ s ; третий – значение Φ(ti ); четвертый – вероятность pi , pi = Φ(ti+1 ) − Φ(ti ); пятый – теоретическую численность i-го интервала nTi = npi и т.д. В последнем столбце содержатся значения Zi = (ni − nTi )2 /nTi . Выборочное P значение статистики равно сумме элементов последнего столбца: Zв = Zi . Таблица 4. Расчет критерия Пирсона для проверки гипотезы о нормальности распределения. 1 yi -175,2 -131,126 -87,0515 -42,9773 1,0970 45,1712 89,2454 133,3197 177,3939 2 ti -2,1492 -1,6161 -1,083 -0,5498 -0,0167 0,5164 1,04951 1,5826 2,1645 3 Φ(ti ) 0,018 0,059 0,151 0,3086 0,513 0,714 0,863 0,948 0,985 4 pi 0,041 0,092 0,1576 0,2044 0,201 0,149 0,085 0,037 5 nTi 4,633 10,396 17,8088 23,0972 22,713 16,837 9,605 4,181 6 ni 6 11 18 21 24 12 13 8 7 ni − nTi 1,367 0,604 0,1912 -2,0972 1,287 -4,837 3,395 3,819 8 (ni − nTi )2 1,868689 0,364816 0,036557 4,398248 1,656369 23,39657 11,52603 14,58476 9 Zi 0,403343 0,035092 0,002053 0,190423 0,072926 1,389593 1,200003 P3,488343 Zi ≈ 6, 78 P Выборочное значение статистики Zв = Zi ≈ 6, 78. Критическое значение: квантиль распределения хи-квадрат χ2 с числом степеней свободы ν = k − r − 1. При вычислении теоретических вероятностей pi использовались оценки двух параметров (a и σ), поэтому r = 2 и ν = 8 − 2 − 1 = 5. 182 18. Непараметрические критерии Квантиль χ25 порядка 0, 95 равна 11, 07. Выборочное значение статистики меньше критического, следовательно, гипотеза о нормальном распределении не отвергается. Пример 18.4. Число выпадений герба при 20 бросаниях двух монет распределилось следующим образом: Количество гербов Число подбрасываний ni pi npi 0 1 2 4 8 8 0, 25 0, 5 0, 25 5 10 5 pi – вероятность того, что при бросании двух монет выпало i гербов, i = 0, 1, 2. 2 X (ni − npi )2 Zв = = np i i=0 (4 − 5)2 (8 − 10)2 (8 − 5)2 + + = 2, 4. 5 10 5 α = 0, 05. t∗ = χ2l−r−1, 0.95 = χ23−0−1, 0.95 = χ22, 0.95 = 5, 99. (Последнее значение нашли по таблице.) Zв < t∗ , следовательно, гипотезу H0 не отвергают. 183 Приложение Приложение. x2 1 Таблица 5. Значения функции ϕ (x) = √ e− 2 2π x 0, 0 0, 1 0, 2 0, 3 0, 4 0, 5 0, 6 0, 7 0, 8 0, 9 1, 0 1, 1 1, 2 1, 3 1, 4 1, 5 1, 6 1, 7 1, 8 1, 9 2, 0 2, 1 2, 2 2, 3 2, 4 2, 5 2, 6 2, 7 2, 8 2, 9 3, 0 x 3 Сотые доли x 4 5 39862 39844 39505 39448 38762 38667 37654 37524 36213 36053 34482 34294 32506 32297 30339 30114 28034 27798 25647 25406 23230 22988 20831 20594 18494 18265 16256 16038 14146 13943 12188 12001 10396 10226 08780 08628 07341 07207 06077 05960 04980 04879 04041 03955 03246 03174 02582 02522 02033 01984 01585 01545 01223 01191 00935 00910 00707 00687 00530 00514 00393 00381 Десятые доли x 0 1 2 3 4 5 00443 00327 00238 00172 00123 00084 0 39894 39695 39104 38139 36827 35207 33322 31225 28969 26609 24197 21785 19419 17137 14973 12952 11092 09405 07895 06562 05399 04398 03548 02833 02240 01753 01358 01042 00792 00595 00443 1 39892 39654 39024 38023 36678 35029 33121 31006 28737 26369 23955 21546 19186 16915 14764 12758 10915 09246 07754 06438 05292 04307 03470 02768 02186 01710 01323 01014 00770 00578 00430 2 39886 39608 38940 37903 36526 34849 32918 30785 28504 26129 23713 21307 18954 16694 14556 12566 10741 09089 07614 06316 05186 04217 03394 02705 02134 01667 01289 00987 00748 00562 00417 3 39876 39559 38853 37780 36371 34667 32713 30563 28269 25888 23471 21069 18724 16474 14350 12376 10567 08933 07477 06195 05082 04128 03319 02643 02083 01625 01256 00961 00727 00545 00405 6 39822 39387 38568 37391 35889 34105 32086 29887 27562 25164 22747 20357 18037 15822 13742 11816 10059 08478 07074 05844 04780 03871 03103 02463 01936 01506 01160 00885 00668 00499 00370 7 39797 39322 38466 37255 35723 33912 31874 29659 27324 24923 22506 20121 17810 15608 13542 11632 09893 08330 06943 05730 04682 03788 03034 02406 01889 01468 01130 00861 00649 00485 00358 8 39767 39253 38361 37115 35553 33718 31659 29431 27086 24681 22265 19886 17585 15395 13344 11450 09728 08183 06814 05618 04586 03706 02966 02349 01842 01431 01100 00837 00631 00471 00348 9 39733 39181 38251 36973 35381 33521 31443 29200 26848 24439 22025 19652 17360 15183 13147 11270 09566 08038 06687 05508 04492 03626 02899 02294 01797 01394 01071 00814 00613 00457 00337 6 7 8 9 00061 00043 00029 00020 Замечание. В таблице даны значения, округленные до пятого знака после запятой. Указание. Пусть необходимо получить значение ϕ (0, 62). На пересечении столбца 2 («Сотые доли x») и строки 0, 6 («x») получаем значение 32918, т. е. ϕ (0, 62) = 0, 32918. 184 Приложение 1 Таблица 6. Значения функции Φ0 (x) = √ 2π Zx t2 e− 2 dt 0 x 0 0, 0 0, 0000 0, 1 03983 0, 2 07920 0, 3 11791 0, 4 15542 0, 5 19146 0, 6 22575 0, 7 25804 0, 8 28814 0, 9 31594 1, 0 34134 1, 1 36433 1, 2 38493 1, 3 40320 1, 4 41924 1, 5 43319 1, 6 44520 1, 7 45543 1, 8 46407 1, 9 47128 2, 0 47725 2, 1 48214 2, 2 48610 2, 3 48928 2, 4 49180 2, 5 49379 2, 6 49535 2, 7 49653 2, 8 49744 2, 9 49813 3, 0 49865 x 0 3 49865 1 00399 04380 08317 12172 15910 19497 22907 26115 29103 31859 34375 36650 38686 40490 42073 43447 44630 45637 46485 47193 47778 48257 48645 48956 49202 49396 49547 49664 49752 49819 49869 2 00798 04776 08700 12552 16276 19847 23237 26424 29389 32121 34614 36864 38877 40658 42220 43574 44738 45728 46562 47257 47831 48300 48679 48983 49224 49413 49560 49674 49760 49825 49874 1 2 49903 49931 Сотые доли x 3 4 5 01197 01595 01994 05117 05567 05962 09095 09483 09871 12930 13307 13683 16640 17003 17365 20194 20540 20884 23565 23891 24215 26731 27035 27337 29673 29955 30234 32381 32639 32894 34850 35083 35314 37076 37286 37493 39065 39251 39435 40824 40988 41149 42634 42507 42647 43699 43822 43943 44845 44950 45053 45819 45907 45994 46638 46712 46784 47320 47381 47441 47882 47932 47982 48341 48382 48422 48713 48745 48778 49010 49036 49061 49245 49266 49286 49430 49446 49461 49573 49586 49598 49683 49693 49702 49767 49774 49781 49830 49836 49841 49878 49882 49886 Десятые доли x 3 4 5 49952 49966 49977 6 02392 06356 10257 14058 17724 21226 24537 27637 30511 33147 35543 37698 39617 41309 42786 44062 45154 46080 46856 47500 48030 48461 48809 49086 49305 49477 49609 49711 49788 49846 49889 7 02790 06749 10642 14431 18082 21566 24857 27935 30785 33398 35769 37900 39796 41466 42922 44179 45254 46164 46926 47558 48077 48499 48839 49111 49324 49491 49621 49720 49795 49851 49893 8 03188 07142 11026 14803 18439 21904 25175 28230 31057 33646 35993 38100 39973 41621 43056 44295 45352 46246 46995 47615 48124 48537 48870 49134 49343 49506 49632 49728 49801 49856 49897 9 03586 07535 11409 15173 18793 22241 25490 28524 31328 33891 36214 38298 40148 41774 43189 44408 45449 46327 47062 47671 48169 48574 48899 49158 49361 49520 49643 49737 49807 49861 49899 6 7 8 9 49984 49989 49993 49995 Замечание. В таблице даны значения, округленные до пятого знака после запятой. Указание. Пусть необходимо получить значение Φ0 (1, 57). На пересечении столбца 7 («Сотые доли x») и строки 1, 5 («x») получаем значение 44179, т. е. Φ0 (1, 57) = 0, 44179. 185 186 ξ = 0, 1, . . . , min (M, n) ξ = 0, 1, . . . ξ = 0, 1, . . . Gp — Геометрическое B (r, p) — Отрицательное биномиальное (Паскаля) ξ = 0, 1, . . . ξ = 0, 1, . . . , N ξ = 0, 1 p (ξ = 1) = p 1 n λm e−λ , m! m6M m n−m CM CN −M , CNn m = 0, 1, . . . ; r > 0; 0 0 m = 0, 1, . . . , N ; N ∈ N; 0<p<1 p (ξ = m) = CNm pm (1 − p)N −m . p (ξ = 0) = 1 − p, p (ξ = xi ) = p (ξ = c) = 1 ξ≡c ξ = xi ; i = 1, 2, . . . , n Закон распределения Значения GG (N, M, n) — Гипергеометрическое Pλ — Пуассона B (N, p) — Биномиальное B (1, p) — Бернулли Дискретное равномерное Вырожденное Обозначение Интерпретация Если r ∈ Z, то m — число неудач до r-го успеха Число неудач до первого успеха Из совокупности N предметов, среди которых M предметов первого вида и (N − M ) предметов второго вида, производят выборку без возвращения n предметов, где 1 6 n 6 N . Случайная величина — число предметов первого вида в выборке Число маловероятных успехов в бесконечном ряду испытаний (λ — среднее число успехов) Число успехов в N испытаниях, проводимых по схеме Бернулли Число успехов в одном испытании Величина с равновероятными значениями Случайная величина — постоянная c Таблица 7. Некоторые важные дискретные распределения Приложение 187 α > 0, p>0 β>0 Парето Логистическое σ>0 σ>0 β>0 λ>0 λ>0 a, a, σ>0 λ>0 a > 0, a, a<b Параметры Лапласа [частный случай распределения Кэптейна при g (x) = ln x] Логарифмически нормальное Кэптейна Γα, β — Γ-распределение Ca, λ — Коши Eλ — Показательное (экспоненциальное) N (0, 1) — стандартное нормальное распределение, причем fξ (x) = ϕ (x), Fξ (x) = Φ (x) N (a, σ) — Нормальное R [a, b] — Равномерное Обозначение 0 при x < 0 e при x > 0 β β−1 −αx Γ (β)α x −1 1 λ · 2 π λ + (x − a)2 0 при x < 0, λe−λx при x > 0 0 при x < 1, p x−(p+1) при x > 1. n o x−α exp − β 1 · n o2 β x−α 1 + exp − β λ exp {−λ|x − α|} 2 n o g 0 (x) (g (x)−a)2 √ exp − 2σ2 σ 2π n o 1 x−a)2 √ exp − (ln 2σ , x>0 2 σ 2πx n o 2 1 √ · exp − (x−a) = ϕa, σ (x) 2σ 2 σ 2π Плотность распределения 0 при x ∈ / [a, b], 1/(b − a) при x ∈ [a, b] Таблица 8. Некоторые важные непрерывные распределения Приложение Приложение Таблица 9. Матем. ожидания и дисперсии некоторых важных распределений Распределение Mξ Dξ Бернулли B (1, p) p q Биномиальное B (N, p) Np N pq λ λ M N nM (N − M )(N − n) N 2 (N − 1) Пуассона Pλ Гипергеометрическое Gm, n (M, N ) n Геометрическое Gp q p q p2 Паскаля32 B (r, p) rq p rq p2 Равномерное R[a, b] a+b 2 (b − a)2 12 Нормальное N (a, σ) a σ2 Показательное Eλ 1 λ 1 λ2 Коши Ca, λ не ∃ не ∃ Γ (Гамма) Γα, β β α β α2 α 2 λ2 Лапласа 188 Приложение Таблица 10. Греческий алфавит Буква A α B β Γ γ ∆ δ E ε Z ζ H η Θ ϑ I ι K κ Λ λ M µ N ν Ξ ξ O o Π π P ρ Σ σ T τ Υ υ Φ ϕ X χ Ψ ψ Ω ω Название альфа бета гамма дельта эпсилон дзета эта тета йота каппа лямбда мю ню кси омикрон пи ро сигма тау ипсилон фи хи пси омега 189 5686 3106 9359 2057 6177 7707 6751 2651 6607 2362 2213 8361 2598 3915 4138 1727 6131 0114 9953 0159 2200 2104 4215 9375 1271 0762 2755 3047 4022 9051 0480 2428 8481 9849 2673 9380 2901 0453 0774 4662 1426 9635 2369 9275 5470 4545 7562 1429 3080 4901 6540 5764 2557 7899 0919 9902 2399 3918 7592 3032 7788 0802 0405 7058 8140 2118 4452 0447 0122 8535 3275 3519 7804 7155 3461 2623 2350 4244 5112 5957 1650 2902 5011 1125 2109 4886 4865 8024 4841 0754 8112 9029 0521 7888 5528 6489 9755 9965 7310 2377 4318 3603 2580 4114 4971 8745 2304 2373 4874 1033 0477 6377 4863 9745 6623 6411 4690 2660 4398 7366 7106 9213 5003 6553 5676 2462 0848 5513 5329 5937 4867 0528 9567 1127 1022 3458 1133 1631 3586 3341 8857 0486 0046 4625 3532 6247 6470 2820 0748 9750 2475 9383 5206 3665 7496 7126 0731 5023 3278 6981 9839 8784 0221 8185 1683 5978 6430 8907 0122 0414 7103 0695 8555 5763 0434 9721 1297 1021 8446 3502 0500 1972 6641 0605 3844 5896 6269 5266 5679 5282 0820 7197 3262 5727 8172 8004 3845 6339 Таблица 11. Таблица случайных чисел 3594 4070 2302 2436 7573 4269 0404 4640 1823 3985 1120 7521 5041 1106 2140 3854 5182 7577 1376 8602 0659 3377 1020 4488 8433 6435 7426 0022 0735 8692 4407 3105 5436 8488 2108 9223 5291 2940 1185 8631 3459 2457 0499 3780 3531 2365 3299 2646 3188 3860 0888 7712 5914 7210 8921 6854 1813 5629 8499 3500 1493 0759 6778 9134 3671 0366 4296 9633 5987 0295 0187 1580 3504 9832 7545 5375 6457 9203 4235 6982 3653 8685 3425 5430 6917 0099 2771 4746 Приложение 190 Литература [1] Булдык, Г. М. Теория вероятностей и математическая статистика: Учебное пособие. — /Г. М. Булдык. — Минск: Вышейш. шк., 1989. [2] Вентцель, Е. С. Теория вероятностей: Учебное пособие. — Изд. 6-е, перераб. и доп. / Е. С. Вентцель, Л. А. Овчаров. — М.: Наука. Гл. ред. физ.-мат. лит., 1969. [3] Володин, Б. Г. Сборник задач по теории вероятностей, математической статистике и теории случайных функций. Учебное пособие. / Б. Г. Володин, М. П. Ганин, И. Я. Динер, Л. Б. Комаров, А. А. Свешников, К. Б. Старобин; под ред. А. А. Свешникова. — М.: Наука. Гл. ред. физ.-мат. лит., 1970. [4] Емельянов, Г. В. Задачник по теории вероятностей и математической статистике: Учебное пособие. / Г. В. Емельянов, В. П. Скитович. — Ленинград: Изд-во Ленинградского университета, 1967. [5] Гнеденко, Б. В. Курс теории вероятностей: Учебник. — Изд. 6-е, перераб. и доп. / Б. В. Гнеденко. — М.: Наука. Гл. ред. физ.-мат. лит., 1988. [6] Кибзун, А. И. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами: Учебное пособие. / А. И. Кибзун, Е. Р. Горяинова, А. В. Наумов, А. Н. Сиротин. — М.: ФИЗМАТЛИТ, 2002. [7] Колемаев, В. А. Теория вероятностей и математическая статистика: Учебное пособие. —/В. А. Колемаев, В. Н. Калинина. — М.: ИНФРА-М, 2000. [8] Козлов, М. В. Элементы теории вероятностей в примерах и задачах: Учебное пособие. / М. В. Козлов. — М.: Изд-во МГУ, 1990. [9] Крупкина, Т. В. Теория вероятностей, математическая статистика и эконометрика: Учеб. пособие. В 2-х кн. Кн. 1. / Т. В. Крупкина, А. К. Гречкосеев. — Красноярск: Красноярский гос. ун-т, 1999. [10] Крупкина, Т. В. Теория вероятностей и математическая статистика: Учеб. пособие. В 2-х ч. Ч. 1. / Т. В. Крупкина, В. П. Малый. — Красноярск: Красноярский гос. ун-т, 1991. [11] Пугачев, В. С. Теория вероятностей и математическая статистика: Учебное пособие. / В. С. Пугачев. — М.: ФИЗМАТЛИТ, 2002. [12] Феллер, В. Введение в теорию вероятностей и ее приложения: Учебник. — Изд. 2-е, перераб. и доп. В 2-х т. Т. 1. / Вильям Феллер. — М.: Мир, 1964. 191 Учебное издание Татьяна Валерьевна КРУПКИНА ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Учебное пособие Редактор — А. А. Назимова Корректор — Т. Е. Бастрыгина Лицензия ЛР № 020372 от 29.01.1997 Печать офсетная. Подписано в печать 00.00.07. Формат 60 × 84 / 16. Бумага типографская. Гарнитура литературная. Усл. печ. л. 0,0. Уч.-изд. л. 0,0. Тираж 000 экз. Заказ № 0000. Цена договорная. Издательский центр Сибирского федерального университета. 660041, Красноярск, пр. Свободный, 79. Предметный указатель σ-алгебра, 22 борелевская, 22 аксиома счетной аддитивности, 21 аксиоматику Колмогорова, 23 аксиомы вероятности, 21 алгебра, 22 величина случайная, см. случайная величина вероятности свойства, 21 вероятность события, 17, 21 условная, 31 выборка, 121, 123 выборочная группированная квантиль, 136 медиана, 135 мода, 136 квантиль порядка q, 135 ковариация, 136 медиана, 135 мода, 135 выборочное уравнение регрессия, 136 выборочный коэффициент корреляция, 136 о виде распределения, 163 параметрическая, 164 случайности, 163 гистограмма выборки, 129 дисперсия, 78 выборочная, 133 распределения биномиального, 79 геометрического, 80 Пуассона, 79 экспоненциального, 81 равномерного, 80 Закон больших чисел в форме Бернулли, 115 в форме Пуассона, 116 в форме Хинчина, 117 задача о днях рождения, 44 закон 0 и 1, 31 закон больших чисел в форме Маркова, 117 в форме Чебышёва, 114 значения выборки экстремальные, 126 индикатор события, 51 интеграл Лебега, 75 гипотеза Лебега — Стилтьеса, 63, 75 о математическом ожидании, 175 Римана, 63 о дисперсии, 175 интервал о дисперсиях, 176 доверительный, 157 о средних, 176 испытания о средних для парных совокупностей, независимые, 38 176 статистическая, 163 альтернативная, 164 квантильный интервал, 136 193 Предметный указатель ковариация, 87 количество Фишера информационное, 150 коэффициент асимметрии выборочный, 133 корреляции, 87 множественный, 97 парный, 96 частный, 95 эксцесса выборочный, 133 критерий 0 и 1, 31 непараметрический знаков, 177 Стьюдента, 176 для парных выборок, 177 согласия, 178 Колмогорова, 179 Пирсона, 181 статистический, 163 Фишера, 176 Коши, 125 нормальная, 125 общая, 125 Пуассоновская, 125 параметрическая, 124 равномерная, 125 общая, 125 регулярная, 124 статистическая, 123 момент начальный смешанный, 86 центральный, 87 центральный выборочный, 133 мощность критерия, 166, 167 лемма Бореля-Кантелли, 31 область критерия критическая, 165, 179 критическая наилучшая (НКО), 167 объём выборки, 123 ошибка второго рода, 166 первого рода, 165 отношение корреляционное, 106 оценивание, 147 интервальное, 157 оценка асимптотически эффективная, 154 максимального правдоподобия (о.м.п.), 152 метода моментов (о.м.м.), 155 несмещённая, 147 оптимальная, 149 эффективная, 150 состоятельная, 148 точечная, 147 математическое ожидание распределения биномиального, 76 геометрического, 77 Пуассона, 76 экспоненциального, 77 равномерного, 77 случайной величины дискретной, 72 непрерывной, 74 условное, 100, 101 матрица ковариационная, 91 корреляционная, 92 медианный интервал, 135 метод асимптотический, 161 максимального правдоподобия, 152 модальный интервал, 136 модель биномиальная, 125 Гамма, 125 неравенство Коши-Буняковского-Шварца, 109 Маркова, 109 Рао-Крамера, 150 Чебышева, 109 плотность распределения, 59 194 Предметный указатель n-мерной случайной величины, 65 свойства, 59 плотность распределения условная, 100 показатель эффективности оценки, 151 полигон частот выборки, 129 преобразование Смирнова, 68 пространство вероятностное, 23 геометрическое, 24 дискретное, 26 классическое, 23 непрерывное, 26 элементарных событий, 18 несчетное, 22 счетное, 21 ранг распределения, 92 распределение Бернулли, 55 биномиальное, 55 отрицательное, 55 вырожденное, 54 Гамма, 62 геометрическое, 55 гипергеометрическое, 55 дискретное 2-мерное, 65 дискретное равномерное, 54 Кептейна, 62 Коши, 62 Лапласа, 62 маргинальное, 64 несобственное, 92 нормальное, 60 n-мерное, 65 2-мерное, 65 стандартное, 61 Паскаля, 55 Пуассона, 55 показательное, 61 экспоненциальное, 61 равномерное, 60 n-мерное, 65 Стьюдента, 142 случайной величины, 51 дискретное, 53 непрерывное, 59 собственное, 92 стандартное нормальное, 49 плотность, 48 Фишера-Снедекора, 143 хи-квадрат, 140 частное, 64 регрессия, 104 ряд выборки вариационный, 126 реализации вариационный, 125 свёртка, 70 свойство инвариантности, 154 случайная величина, 50 n-мерная, 64 квантиль порядка q, 84 коэффициент асимметрии, 83 эксцесса, 83 медиана, 84 мода, 83 момент начальный порядка k, 82 центральный порядка k, 82 непрерывная n-мерная, 64 отклонение среднеквадратическое, 82 случайные величины независимые, 66 свойства, 66 событие дополнительное, 20 достоверное, 18 невозможное, 18 противоположное, см. дополнительное элементарное, 18 событий объединение, см. сумма пересечение, см. произведение произведение, 19 разность, 19 симметрическая, 20 сумма, 18 195 Предметный указатель события вероятность, 21 независимые, 28 в совокупности, 30 несовместные, 18 совокупность генеральная, 121, 123 статистика выборочная, 146 критерия, 179 порядковая, 126 центральная, 158 схема Бернулли, 39 полиномиальная, 40 сходимость в среднем, 112 математических ожиданий, 112 по вероятности, 111 по мере, 111 по распределению, 113 почти всюду, 112 почти наверное, 112 слабая, 113 значимости критерия, 179 форма центрированная множественной линейной регрессии, 93 формула Байеса, 36 Бернулли, 39 Муавра — Лапласа интегральная приближённая, 46 локальная приближённая, 44 Пуассона приближённая, 43 полной вероятности, 35 полной вероятности для матожиданий, 100 фукция Колмогорова, 127 функция Φ, 49 Лапласа, 49 мощности критерия, 166 правдоподобия, 152 распределения эмпирическая, 126 свойства, 51 случайной величины, 51 совместная, 64 условная, 99 теорема Колмогорова, 127 Муавра — Лапласа интегральная предельная, 45 локальная предельная, 44 Неймана-Пирсона, 167 характеристика Пуассона, 43 выборочная, 133 Смирнова, 128 эмпирическая, 133 сложения, 32 для n событий, 34 частота события, 17 умножения, 32 для n событий, 32 элемент Фишера, 144 выборки, 123 центральная предельная для независимых однородных случайных величин, 118 теоремы предельные для схемы Бернулли, 42 теория оценивания, 146 уравнение линейной регрессии, 89, 92 правдоподобия, 153 уровень 196 Оглавление Принятые обозначения и сокращения . . . . . . . . . . . . . . . . . . 1. Введение в теорию вероятностей . . . . . . . . . . . . . . . . . . 1.1. Предмет теории вероятностей . . . . . . . . . . . . . . . 1.2. История возникновения и развития теории вероятностей 1.3. Классическое определение вероятности . . . . . . . . . 1.4. Некоторые формулы комбинаторики . . . . . . . . . . . 1.5. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . 2. Основные понятия теории вероятностей . . . . . . . . . . . . . . 2.1. Статистическое определение вероятности . . . . . . . . . 2.2. Пространство элементарных событий . . . . . . . . . . . 2.3. Аксиоматическое определение вероятности . . . . . . . 2.4. Вероятностное пространство . . . . . . . . . . . . . . . . 2.5. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . 3. Исчисление вероятностей . . . . . . . . . . . . . . . . . . . . . . 3.1. Независимость событий . . . . . . . . . . . . . . . . . . 3.2. Условная вероятность . . . . . . . . . . . . . . . . . . . . 3.3. Теорема умножения . . . . . . . . . . . . . . . . . . . . . 3.4. Теорема сложения . . . . . . . . . . . . . . . . . . . . . . 3.5. Формула полной вероятности . . . . . . . . . . . . . . . 3.6. Формула Байеса . . . . . . . . . . . . . . . . . . . . . . . 3.7. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . 4. Схемы испытаний . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1. Независимые испытания . . . . . . . . . . . . . . . . . . 4.2. Схема Бернулли . . . . . . . . . . . . . . . . . . . . . . . 4.3. Полиномиальная схема . . . . . . . . . . . . . . . . . . . 4.4. Теорема Пуассона . . . . . . . . . . . . . . . . . . . . . . 4.5. Локальная предельная теорема Муавра — Лапласа . . . 4.6. Интегральная предельная теорема Муавра — Лапласа . 4.7. Свойства функций ϕ(x), Φ(x), Φ0 (x) . . . . . . . . . . . . 4.8. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . 5. Функции распределения. Дискретные случайные величины . . . 5.1. Определение случайной величины . . . . . . . . . . . . . 5.2. Функция распределения и ее свойства . . . . . . . . . . . 5.3. Дискретные случайные величины . . . . . . . . . . . . . 5.4. Некоторые важные дискретные распределения . . . . . 5.5. Примеры дискретных распределений . . . . . . . . . . . 5.6. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . 6. Непрерывные случайные величины . . . . . . . . . . . . . . . . 6.1. Плотность распределения . . . . . . . . . . . . . . . . . 6.2. Некоторые важные непрерывные распределения . . . . . 197 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 6 6 7 11 12 16 17 17 18 20 23 27 28 28 31 31 32 35 36 37 37 38 38 40 42 43 44 48 48 50 50 50 53 54 55 57 58 58 59 Оглавление 7. 8. 9. 10. 11. 12. 6.3. Многомерные случайные величины . . . . . . . . . . . . . . . . . . . 6.4. Независимость случайных величин . . . . . . . . . . . . . . . . . . . 6.5. Функции случайных величин . . . . . . . . . . . . . . . . . . . . . . . 6.6. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . . . . . . Числовые характеристики одномерных случайных величин . . . . . . . . . . 7.1. Математическое ожидание дискретной случайной величины . . . . . 7.2. Математическое ожидание непрерывной случайной величины . . . . 7.3. Примеры вычисления математических ожиданий . . . . . . . . . . . 7.4. Дисперсия случайной величины . . . . . . . . . . . . . . . . . . . . . 7.5. Примеры вычисления дисперсий . . . . . . . . . . . . . . . . . . . . . 7.6. Матожидания и дисперсии некоторых важных распределений . . . . 7.7. Другие числовые характеристики случайной величины . . . . . . . . 7.8. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . . . . . . Линейная зависимость между случайными величинами . . . . . . . . . . . . 8.1. Ковариация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2. Коэффициент корреляции . . . . . . . . . . . . . . . . . . . . . . . . 8.3. Уравнение линейной регрессии . . . . . . . . . . . . . . . . . . . . . . 8.4. Ковариационная матрица . . . . . . . . . . . . . . . . . . . . . . . . . 8.5. Уравнение множественной линейной регрессии . . . . . . . . . . . . 8.6. Частный коэффициент корреляции . . . . . . . . . . . . . . . . . . . 8.7. Множественный коэффициент корреляции . . . . . . . . . . . . . . . 8.8. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . . . . . . Условные распределения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1. Условные распределения относительно событий . . . . . . . . . . . . 9.2. Условное математическое ожидание . . . . . . . . . . . . . . . . . . . 9.3. Условные распределения относительно случайных величин . . . . . . 9.4. Регрессия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.5. Корреляционное отношение . . . . . . . . . . . . . . . . . . . . . . . 9.6. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . . . . . . Сходимость случайных величин. Предельные теоремы . . . . . . . . . . . . . 10.1. Некоторые важные неравенства . . . . . . . . . . . . . . . . . . . . . 10.2. Сходимость случайных величин . . . . . . . . . . . . . . . . . . . . . 10.3. Статистическая устойчивость и закон больших чисел . . . . . . . . . 10.4. Центральная предельная теорема . . . . . . . . . . . . . . . . . . . . 10.5. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . . . . . . Введение в математическую статистику . . . . . . . . . . . . . . . . . . . . . 11.1. Предмет математической статистики . . . . . . . . . . . . . . . . . . 11.2. Статистические модели . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3. Порядковые статистики и вариационный ряд выборки . . . . . . . . . 11.4. Эмпирическая функция распределения . . . . . . . . . . . . . . . . . 11.5. Гистограмма и полигон частот . . . . . . . . . . . . . . . . . . . . . . 11.6. Пример группировки выборки . . . . . . . . . . . . . . . . . . . . . . 11.7. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . . . . . . Основные выборочные характеристики . . . . . . . . . . . . . . . . . . . . . 12.1. Выборочные моменты и функции от выборочных моментов . . . . . . 12.2. Свойства X и S 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.3. Другие характеристики выборки . . . . . . . . . . . . . . . . . . . . . 12.4. Сходимость выборочных моментов и функций от них при возрастании объема выборки . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.5. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 63 65 66 70 71 72 73 75 77 78 81 81 84 85 86 87 88 90 91 94 96 97 98 98 99 100 103 105 107 107 108 109 112 116 119 120 120 121 124 125 127 129 130 131 131 133 134 135 137 Оглавление 13. Распределение выборочных характеристик нормальной выборки . . . . . . . 13.1. Распределения хи-квадрат, Стьюдента, Фишера . . . . . . . . . . . . 13.2. Теорема Фишера . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.3. Некоторые теоремы о распределении выборочных характеристик . . 13.4. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . . . . . . 14. Точечное оценивание параметров . . . . . . . . . . . . . . . . . . . . . . . . . 14.1. Оценки параметров . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.2. Несмещённость . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.3. Состоятельность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.4. Эффективность и оптимальность . . . . . . . . . . . . . . . . . . . . 14.5. Свойства оптимальных оценок . . . . . . . . . . . . . . . . . . . . . . 14.6. Метод максимального правдоподобия . . . . . . . . . . . . . . . . . . 14.7. Метод моментов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.8. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . . . . . . 15. Интервальные оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.1. Понятие интервального оценивания параметров . . . . . . . . . . . . 15.2. Построение доверительного интервала с помощью центральной статистики . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.3. Доверительные интервалы для параметров нормального распределения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.4. Нахождение доверительных интервалов для параметров произвольных распределений . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16. Понятие статистической гипотезы и статистического критерия . . . . . . . . 16.1. Основные понятия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16.2. Примеры математических формулировок гипотез . . . . . . . . . . . 16.3. Общая схема проверки параметрических гипотез . . . . . . . . . . . 16.4. Ошибки первого и второго рода . . . . . . . . . . . . . . . . . . . . . 16.5. Теорема Неймана-Пирсона . . . . . . . . . . . . . . . . . . . . . . . . 16.6. Задачи и упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . 17. Критерии проверки гипотез . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17.1. Схема проверки параметрических гипотез . . . . . . . . . . . . . . . 17.2. Примеры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17.3. Критерии для гипотез о параметрах одного распределения . . . . . . 17.4. Критерии для гипотез о параметрах двух независимых распределений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17.5. Гипотеза о средних для парных совокупностей . . . . . . . . . . . . . 18. Непараметрические критерии . . . . . . . . . . . . . . . . . . . . . . . . . . . 18.1. Непараметрические критерии для проверки параметрических гипотез 18.2. Критерии согласия . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18.3. Критерий согласия Колмогорова . . . . . . . . . . . . . . . . . . . . 18.4. Критерий согласия χ2 Пирсона . . . . . . . . . . . . . . . . . . . . . Приложение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Предметный указатель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Оглавление . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 138 139 142 143 144 145 145 146 147 148 150 151 154 155 156 156 157 157 160 162 162 162 163 164 166 169 170 170 171 174 175 175 176 176 177 178 180 183 190 191 196 Учебное издание Татьяна Валерьевна КРУПКИНА Сергей Валерьевич БАБЕНЫШЕВ Екатерина Сергеевна КИРИК ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Учебное пособие Редактор — А. А. Назимова Корректор — Т. Е. Бастрыгина Лицензия ЛР № 020372 от 29.01.1997 Печать офсетная. Подписано в печать 00.00.07. Формат 60 × 84 / 16. Бумага типографская. Гарнитура литературная. Усл. печ. л. 0,0. Уч.-изд. л. 0,0. Тираж 000 экз. Заказ № 0000. Цена договорная. Издательский центр Института естественных и гуманитарных наук Сибирского федерального университета. 660041 Красноярск, пр. Свободный, 79. ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ РФ ФГОУ ВПО «СИБИРСКИЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ» Е. В. Зандер, Н. М. Ибрагимов ЭКОНОМЕТРИКА Учебное пособие СФУ 2007 УДК 000.000 ББК 22.17я73 К 84 Рецензенты Е. В. Зандер К 84 Эконометрика: учебное пособие / Е. В. Зандер, Н. М. Ибрагимов. Сибирский федеральный университет. Красноярск: 2007. 126 с. ISBN 0-0000-0000-0 Посвящено курсу «Эконометрика». Предназначено для студентов экономических специальностей и направлений. ISBN 0-0000-0000-0 © Сибирский федеральный университет, 2007 © Е. В. Зандер, Н. М. Ибрагимов, 2007 Модуль 2 Основы эконометрики Тема 2.1. Методологические основы курса Лекция 2.1.1. Предмет эконометрики. Классы эконометрических моделей. Основные этапы эконометрического моделирования В повседневной жизни, бизнесе, иной профессиональной деятельности, научных исследованиях нам приходится принимать решения в неопределенных, связанных со многими случайностями ситуациях. При этом решения должны приниматься на основе тщательного анализа имеющейся информации, быть обоснованными и доказуемыми. Для решения подобных задач существует достаточно мощный набор методов анализа данных, основанных на аппарате математической статистики. Эконометрика же как наука расположена между экономикой, статистикой и математикой. Предмет эконометрики определяется как исследование и установление количественных закономерностей и количественных взаимозависимостей в экономической жизни при помощи математических и математико-статистических методов. На процессы в экономике оказывает влияние множество факторов, причем некоторые из них являются существенными, а влияние других случайно. Для выявления существенности воздействия необходимо проанализировать большую группу наблюдений, при этом случайные воздействия несущественных факторов гасятся, и обнаруживается общая для всей совокупности закономерность. Приведем ряд примеров применения методов анализа данных. 1. Предположим, было внедрено важное нововведение — изменена система оплаты труда, освоен выпуск нового вида продукции, введена новая технология и др. Является ли полученный в производстве эффект результатом нововведения или определяется естественной случайностью и уже завтра может быть получен прямо противоположный эффект? Статистические критерии 3 сравнения двух выборок покажут, случайны или неслучайны различия двух рядов чисел. 2. Предположим, для заключения коммерческой сделки необходимо знать поведение некоторого временного ряда — курса доллара, цен и спроса на продукцию или сырье и др. Для такого временного ряда строят регрессионное уравнение, включая в него набор существенных факторов (проверив существенность этого влияния), затем осуществляют прогноз и указывают его точность. 3. Для того, чтобы в технологическом процессе систематически контролировать его состояние и вовремя вмешаться при отклонениях от нормального режима, предотвратить выпуск некачественной продукции. Для этого используются статистические методы контроля качества (строятся контрольные карты изменения показателей качества с зоной допустимых пределов изменений и др.). 4. Например, необходимо определить надежность клиента, претендующего на кредит в банке. Для этого используются методы классификации объектов по некоторому набору показателей (размер основных фондов, валюта баланса, вид деятельности, объем реализации и др.). Имеющиеся объекты удается собрать в несколько групп (кластеров), и тогда можно будет увидеть, принадлежит ли запрашивающая кредит фирма к группе неплательщиков. По этим примерам можно видеть, что сфера применения эконометрических моделей обширна: производство, бизнес, финансы, инвестиционная сфера и др. Возможно построение эконометрических моделей разных уровней: отдельного предприятия, отрасли, региона и даже отдельной страны. К сожалению, статистические закономерности обладают относительной устойчивостью, которая определяется стабильностью условий, 4 при которых она сформировалась. Значительные изменения в условиях повлекут за собой изменение самой статистической закономерности. Можно выделить три основных класса моделей, которые используются для анализа и прогноза. Модели временных рядов. К этому классу относятся модели: — тренда: y (t) = T (t) + εt , где T (t) — временной ряд заданного параметрического вида (например, линейный T (t) = a + bt), εt — случайная (стохастическая) компонента; — сезонности: y (t) = S (t) + εt , где S(t) — периодическая (сезонная) компонента, εt — случайная (стохастическая) компонента; — тренда и сезонности: y (t) = T (t) + S (t) + εt (аддитивная), y (t) = T (t) · S (t) + εt (мультипликативная); где T (t) — временной тренд заданного параметрического вида, S (t) — периодическая (сезонная) компонента, εt — случайная (стохастическая) компонента. К моделям временных рядов относится множество более сложных моделей, таких как модели адаптивного прогноза, модели авторегрессии, скользящего среднего и др. Общей чертой этих моделей является то, что они объясняют поведение временного ряда, исходя только из его предыдущих значений. Регрессионные модели. В таких моделях зависимая (объясняемая) переменная y представляется в виде функции f (x, β) = f (x1 , . . . , xk , β1 , . . . , βp ), где x1 , . . . , xk — независимые (объясняющие) переменные, а β1 , . . . , βp — параметры. 5 В зависимости от вида функции f (x, β) модели делятся на линейные и нелинейные. Область применения таких моделей значительно шире, чем моделей временных рядов. Поэтому данная тема является основной в эконометрике. Системы одновременных уравнений. Эти модели описываются системами уравнений. Системы могут состоять из тождеств и регрессионных уравнений, каждое из которых может, кроме объясняющих переменных, включать в себя также объясняемые переменные из других уравнений системы. Таким образом, мы имеем здесь набор объясняемых переменных, связанных через уравнения системы. Пример — модель спроса и предложения (см. пример 1, С. 90 ). При моделировании экономических процессов встречаются два типа данных: пространственные данные и временные ряды. Примером пространственных данных являются объемы производства, количество работников и др. по разным фирмам в один и тот же момент времени. Примерами временных данных являются ежемесячные данные по средней заработной плате, ежедневный курс доллара и др. Отличительной чертой временных данных является то, что они естественным образом упорядочены во времени. Кроме того, наблюдения в близкие моменты времени часто бывают зависимыми. Этапы эконометрического моделирования К основным этапам эконометрического моделирования относятся: 1. изучение объекта, 2. сбор и предварительная обработка информации, 3. построение модели, 4. статистический анализ модели, 5. проверка модели на адекватность, 6. практическое использование модели. 6 Первый этап включает качественный анализ объектов, изучение взаимосвязей отдельных показателей, определение конечных целей моделирования. Анализ опирается на теоретические представления о процессе функционирования данного объекта. Результатом первого этапа является формирование концепции эконометрической модели. Основной целью второго этапа является предварительная обработка полученных данных, которая заключается в статистическом описании выборки методами математической статистики. Проверяются гипотезы относительно однородности выборок, независимости наблюдений и стационарности исследуемых процессов. Выясняют причины возникновения аномальных наблюдений и возможность их отсечения без нанесения содержательного вреда модели, восстанавливаются пропуски в данных. Осуществляется проверка соответствия распределения результатов измерения закону нормального распределения. Если эта гипотеза неприемлема, то определяют, какому закону подчиняется распределение данных и возможно ли преобразование данного распределения к нормальному. Задача третьего этапа заключается в определении общего вида модельных соотношений. Устанавливается общий вид модельных соотношений, связывающих входные и выходные показатели, формируют структуру модели и ее символическую запись. На данном этапе существенное значение имеет использование корреляционного анализа, который дает возможность установить наличие и тесноту взаимосвязи количественных случайных величин. На четвертом этапе по выборочным данным проводят статистическое оценивание неизвестных параметров модели. Здесь используются процедуры регрессионного анализа и анализа временных рядов, которые позволяют представить зависимости в аналитическом виде. Конечным результатом данного этапа является эконометрическая модель. Пятый этап заключается в проверке построенной модели на адекватность, которая осуществляется путем сравнения реальных результатов и результатов, полученных с помощью данной модели. Последний (шестой) этап связан с практическим использованием полученной модели. 7 Для анализа данных применяются также такие методы, которые относятся к разряду специальных — это методы оптимального планирования эксперимента, ковариационный анализ, модели с использованием цепей Маркова и др. 8 Лекция 2.1.2. Основные этапы предварительной обработки данных Предварительная обработка результатов измерений необходима для того, чтобы в дальнейшем с наибольшей эффективностью и корректно использовать для построения эмпирических зависимостей статистические методы. К основным этапам предварительной обработки статистических данных относятся: а) вычисление выборочных характеристик; б) отсев грубых погрешностей; в) проверка нормальности распределения; г) преобразование распределения к нормальному (если требуется). Рассмотрим, каким образом осуществляются эти процедуры. а) Вычисление выборочных характеристик Наиболее часто употребляемыми характеристиками случайной величины (и соответствующего распределения вероятностей) служат моменты и квантили. Пусть имеется ограниченный ряд наблюдений x1 , . . . , xn случайной величины ξ. Среднее значение наблюдаемого признака можно определить по формуле n 1X x= xi . n i=1 Далее вычисляется дисперсия или второй центральный момент эмпирического распределения n 1X (xi − x)2 , S = n i=1 2 причем S 2 = m2 . В случае одномерного эмпирического распределения произвольным моментом порядка k называется сумма k-ых степеней отклонений результатов наблюдений от произвольного числа с, 9 деленная на объем выборки n: n 1X mk = (xi − c)k , n i=1 где k может принимать любые значения натурального ряда чисел. Если c = 0, то момент называют начальным. Начальным моментом первого порядка является выборочное среднее x. При c = x момент называют центральным. Первый центральный момент n 1X m1 = (xi − x) = 0. n i=1 Второй центральный момент n 1X m1 = (xi − x)2 . n i=1 представляет собой дисперсию S 2 эмпирического распределения. Однако в статистике чаще в качестве выборочной дисперсии используют n 1 X 2 (xi − x)2 , s = n − 1 i=1 поскольку математическое ожидание величины s2 равно дисперсии. Из других моментов чаще всего используют центральные моменты третьего и четвертого порядка. Если необходимо, чтобы показатель разброса случайной величины выражался в тех же единицах, что и значение этой случайной величины, то используют величину выборочного сред√ неквадратического отклонения S = S 2 . Выборочное значение коэффициента вариации v, являющееся мерой относительной изменчивости наблюдаемой случайной величины, вычисляют по формуле v= S . x Коэффициент вариации может быть выражен и в процентах: v= S · 100%. x 10 Коэффициент вариации имеет смысл абсолютной меры рассеяния, который применяется для сравнения меры рассеяния в разных числовых совокупностях, поскольку остальные рассмотренные меры рассеяния измеряются в тех же единицах, что и сами признаки. Выборочной квантилью называется решение уравнения Fn (x) = p, в частности, выборочная медиана есть решение уравнения Fn (x) = 0, 5. Содержательно медиана — срединное (центральное) значение в упорядоченном ряду значений признака, или величина, обладающая тем свойством, что число единиц совокупности с большими значениями признака и число единиц с меньшими значениями его одинаково. Применительно к кривой распределения медиану можно определить как такое значение признака на оси абсцисс, что ордината, проходящая через него, делит площадь кривой на две равные части. Однако это определение не всегда однозначно. Если имеется нечетное число различных наблюдений, например 2n+1, то n+1-е значение по порядку нарастания значения будет единственным, отвечающим понятию медианы. Если же число наблюдений 2n, то любое число между n-м и n + 1-м значением удовлетворяет нашему требованию. В таких случаях за медиану принимают среднюю арифметическую из n-го и n + 1-го значения. Мода — значение признака, которое соответствует максимальной точке теоретической кривой, наилучше подобранной к действительному распределению. Она представляет наиболее часто встречающееся или типичное значение. В симметричном распределении среднее арифметическое, мода и медиана равны. Для умеренно асимметричных распределений существует соотношение Xмода = X − 3 (X − Xмедиана ). 11 Все виды средних характеризуют уровень числовой совокупности, т. е. то значение признака, вокруг которого концентрируются прочие значения. К характеристикам меры рассеяния (амплитуды рассеяния) относятся уже перечисленные дисперсия, среднеквадратическое отклонение и коэффициент вариации. Сюда также относится простейшая мера рассеяния — вариационный размах R = Xmax − Xmin . б) Отсев грубых погрешностей. Для практического использования целесообразно использовать простейшие методы отсева грубых погрешностей. Например, для выборок небольшого объема (n 6 25) можно воспользоваться методом вычисления максимального относительного отклонения: |xi − x| 6 tα, n , S где xi — крайний (наибольший или наименьший) элемент выборки, по которой подсчитывались x и S; tα, n — табличное значение статистики t, вычисленной при доверительной вероятности p = 1 − α. Таким образом, для выделения аномального значения вычисляют |xi − x| , t= S которое затем сравнивают с табличным значением tα, n : если t 6 tα, n , то наблюдение не отсеивают, в противном случае наблюдение отсеивают, — после чего характеристики эмпирического распределения пересчитывают по данным сокращенной выборки. Для больших выборок отсев грубых погрешностей проводят с использованием таблиц распределения Стьюдента1 . 1 Стьюдент (англ. Student) — псевдоним английского математика и статистика Уи́льяма Си́ли Го́ссета (англ. William Sealy Gosset; 1876—1937). 12 в) Проверка распределения на нормальность. Если большое число значений количественного признака зарегистрировано в той последовательности, в какой они встретились в действительности, то трудно охватить подлинный смысл наблюденного. Для того, чтобы выявить характерные черты явления, нужно сжато выразить данные, для чего и служат группировка и анализ распределения численностей. Разбиение на классы проводится либо по правилу Штюргеса, когда число классов k определяется как k = 1 + 3, 32 lg n, либо число классов определяется произвольно, причем тогда при выборе интервала руководствуются двумя условиями: 1) возможностью без большой ошибки приравнять все значения признака, отнесенные к какой-либо группе, срединному значению интервала; 2) для удобства и краткости делать интервал достаточно большим. Поскольку эти два условия противоречивы, то в каждом случае интервал выбирается в зависимости от количества наблюдений, но не более 25. Интервал, выбранный для группировки, называется групповым интервалом, а численность в пределах отдельного интервала — численностью группы. После группировки данных их можно представить в виде полигона (многоугольника, стороны которого являются отрезками, соединяющими центры интервалов на вертикальных отрезках) численностей или гистограммы (столбчатой диаграммы). Графическое представление позволяет примерно представить характер распределения числовых данных. Поскольку для целей эконометрического моделирования желательно, чтобы это распределение приближенно соответствовало нормальному закону. К преимуществам нормального распределения относят следующие: 13 — нормальное распределение полностью определяется величинами µ и σ, причем математическое ожидание определяет положение кривой относительно оси абсцисс, а среднеквадратическое отклонение определяет форму кривой (чем больше σ, тем кривая становится более пологой, основание более широким); — кривая нормального распределения симметрична относительно среднего значения; — очень большие и очень малые значения переменной маловероятны; — примерно 2/3 всех наблюдений лежит в площади, отсекаемой перпендикулярами к оси (µ ± σ). Для нормального распределения мода, среднее и медиана совпадают. Некоторое представление о близости эмпирического распределения к нормальному может дать анализ показателей асимметрии и эксцесса. Показатель асимметрии определяется по формуле g1 = m3 3/2 . m2 Для симметричных распределений m3 = 0 и g1 = 0. Для нормального распределения m4 = 3. m22 Для удобства сравнения эмпирического распределения и нормального в качестве показателя эксцесса принимают величину g2 = m4 − 3. m22 г) Преобразование распределения к нормальному. Если выяснено, что гипотеза нормальности распределения не может быть принята, то возможно преобразование исходных 14 данных таким образом, что их распределение будет подчиняться нормальному закону. Причем, после получения окончательного результата надо выполнить обратное преобразование. Для распределений, имеющих крутую правую ветвь гистограммы и пологую левую, выполняются преобразования матрицы исходных данных по формулам: x0 = lg(x ± a) · 10b , 1 x0 = , x 1 x0 = √ . x Для распределений, смещенных влево, матрицу исходных данных преобразуют по формуле x0 = xa (при a = 1, 5; 2). 15 Тема 2.2. Корреляционный анализ Лекция 2.2.1. Основные понятия. Двумерная корреляционная модель Корреляционный анализ (корреляционная модель) — метод, применяемый тогда, когда данные наблюдений или эксперимента можно считать случайными и выбранными из совокупности, распределенной по многомерному нормальному закону. Две случайные величины являются корреляционно связанными, если математическое ожидание одной из них меняется в зависимости от изменения другой. Корреляционный анализ позволяет количественно оценивать связи между большим числом взаимодействующих явлений, ряд из которых неизвестен. Его применение делает возможным проверку различных гипотез о наличии и силе связи между явлениями, а также гипотезы о форме связи. Рассмотрим две случайные величины X и Y . Общую картину их взаимосвязи дает изображение точек выборки (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) на координатной плоскости, которое называется корреляционным полем. Мерой линейной статистической связи двух случайных величин, имеющих нормальное распределение, является коэффициент парной корреляции. Выборочный коэффициент корреляции определяется по формуле n P rxy = s (xi − x)(yi − y) i=1 n P (xi − i=1 = x)2 · n P (yi − y)2 xy − x · y . σx · σy i=1 где n — объем выборки, i — индекс наблюдения в выборке, xi , yi — наблюдения над случайными величинами X и Y , x и y — выборочные средние случайных величин X и Y , σx и σy — среднеквадратичные отклонения случайных величин X и Y , xy — выборочное среднее произведения случайных величины X и Y . 16 Парный коэффициент корреляции характеризует степень приближения статистической связи к функциональной. В двумерном случае он отражает взаимосвязь случайных величин и не зависит от того, какая из величин X или Y является причиной, а какая — следствием, т. е. rxy = ryx . Величина коэффициента корреляции лежит в интервале от −1 до 1, причем значение |r| = 1 свидетельствует о чисто функциональной линейной зависимости между переменными, соотношение r = 0 — об их полной взаимной независимости. Положительный коэффициент корреляции свидетельствует о прямой связи величин, т. е. с ростом X увеличивается Y . Отрицательный коэффициент корреляции говорит об обратной зависимости. Для того, чтобы коэффициент корреляции действительно свидетельствовал о наличии причинной взаимообусловленности между X и Y , необходимо выполнение требования их совместного нормального распределения , а также отсутствие в выборочных данных аномальных наблюдений. Однако, даже несмотря на выполнение этих требований, возможны ситуации, когда r не отражает реальной связи. Например, это происходит, когда на исследуемые переменные значимо воздействует некий третий, не учтенный при исследовании фактор. При этом подсчеты приводят к положительному значению коэффициента корреляции, тогда как истинная связь между исследуемыми переменными имеет отрицательный смысл. Такая корреляция называется «ложной». В практических исследованиях о тесноте корреляционной зависимости судят фактически не по величине генерального коэффициента корреляции, а по величине его выборочного аналога r. Обычно же исходная статистическая информация представляет собой выборочные данные (случайно попавшие в выборку из генеральной совокупности), поэтому необходимо проверить надежность, статистическую значимость полученных по ним коэффициентов корреляции. Надежность коэффициентов корреляции ослабевает с уменьшением числа наблюдений. При 4— 5 наблюдениях коэффициент корреляции, равный 0,6—0,7, может быть статистически незначим, т. е. отражать не действительную зависимость 17 между явлениями, а случайные колебания выборки. В этом случае формируются две гипотезы: об отсутствии линейной корреляционной связи между переменными в генеральной совокупности H0 , т. е. r = 0; если же в процессе проверки гипотеза H0 будет отвергнута, то делается вывод о значимости (существенности, достоверности) коэффициента корреляции r, т. е. принимается гипотеза H1 : r 6= 0. Правило, по которому гипотеза H0 принимается или отвергается, называется статистическим критерием. При справедливости гипотезы H0 статистика критерия √ |r| n − 2 t= √ 1 − r2 имеет t-распределение Стьюдента с (n − 2) степенями свободы. Поэтому гипотеза H0 отвергается, т. е. выборочный коэффициент корреляции значимо отличается от нуля, если: tрасч > tα, n−2 , где tα, n−2 — табличное значение критерия Стьюдента, определенное на уровне значимости α при числе степеней свободы (n − 2). Для значимого коэффициента корреляции r целесообразно найти доверительный интервал (интервальную оценку), которая с заданной надежностью p = 1 − α содержит (точнее, «накрывает») неизвестный коэффициент корреляции генеральной совокупности ρ. Доверительный интервал строится из нормальной распределенности r. Концы интервала можно вычислить по приближенной формуле 1 − r2 ρ = r ± uα, n √ . n Здесь uα, n — критическая точка стандартного нормального распределения, соответствующая уровню значимости α; n — объем выборки. Для малой выборки (n < 25) границы доверительного интервала для ρ рассчитывают по формуле 1 − r2 ρ = r ± tα, ν √ , n−2 18 где tα, ν — критическая точка распределения Стьюдента при уровне значимости α и числе степеней свободы ν = n − 2. При отклонениях исследуемой зависимости от линейного вида коэффициент корреляции r теряет свой смысл как характеристика степени тесноты связи. В случае нелинейной зависимости тесноту связи между величинами оценивают по величине корреляционного отношения. Величина v u n P u (yi − ybi )2 u u ηyx = u1 − i=1 , n P t 2 (yi − y) i=1 где ybi = f (xi ) — результат вычислений на основе уравнения парной регрессии, получила название эмпирического корреляционного отношения Y по X. Чем теснее связь, тем большее влияние на вариацию переменной Y оказывает изменчивость X по сравнению с неучтенными факторами, тем выше ηyx . 2 , называемая коэффициентом детерминации, покаВеличина ηyx зывает, какая часть общей вариации Y обусловлена вариацией X. Аналогичным образом вводится эмпирическое корреляционное отношение X по Y : v u n P u (xi − xbi )2 u u ηxy = u1 − i=1 n P t (xi − x)2 i=1 где xbi = f (yi ) — результат вычислений на основе уравнения парной регрессии, Отметим основные свойства корреляционных отношений (при достаточно большом объеме выборки n). 1. Корреляционное отношение есть неотрицательная величина, не превосходящая 1: 0 6 η 6 1. 2. Если η = 0, то корреляционная связь отсутствует. 3. Если η = 1, то между переменными существует функциональная зависимость. 19 4. ηyx 6= ηxy , т. е. в отличие от коэффициента корреляции r при вычислении корреляционного отношения существенно, какую переменную считать независимой, а какую — зависимой. Проверка значимости корреляционного отношения основана на том, что статистика F = η 2 (n − m) (1 − η 2 )(m − 1) (здесь m — число интервалов по группировочному признаку) имеет известное в теории F -распределение Фишера2 — Снедекора3 с f1 = m − 1 и f2 = n − m степенями свободы. Поэтому η значимо отличается от нуля, если F > Fα; f1 ; f2 , где Fα; f 1; f 2 — табличное значение F -критерия на уровне значимости α при числе степеней свободы f1 = m−1 и f2 = n−m. 2 Сэр Рональд Эйлмер Фишер (англ. Sir Ronald Aylmer Fisher; 1890—1962) — английский статистик и биолог. 3 Джордж Уо́ддел Снедеко́р (англ. George Waddel Snedecor); 1881—1974) — американский математик и статистик. 20 Лекция 2.2.2. Многомерный корреляционный анализ. Множественный и частный коэффициенты корреляции Экономические явления чаще всего адекватно описываются многофакторными моделями. Поэтому возникает необходимость обобщить рассмотренную выше двумерную корреляционную модель на случай нескольких переменных. Пусть имеется совокупность X1 , X2 , . . . , Xi , . . . , Xj , . . . , Xp , имеющих распределение. В этом случае матрицу  1 r12 r13 . . .   r21 1 r23 . . .  Q=  r31 r32 1 . . .   ... ... ... ... rp1 rp2 . . . . . . случайных совместное переменных нормальное  r1p  r2p   r3p    ...  1 составленную из парных коэффициентов корреляции rij (i, j = 1, 2, . . . , p), определяемых ранее по формуле, будем называть корреляционной. На основе корреляционной матрицы анализируется связь между переменными, причем анализ взаимосвязи проводится только по тем парным коэффициентам корреляции, которые являются значимыми. Теснота линейной взаимосвязи одной переменной Xi с совокупностью других (p − 1) переменных Xj , рассматриваемой в целом, измеряется с помощью выборочного коэффициента множественной корреляции Ri (i = 1, p), который является обобщением парного коэффициента корреляции rij и вычисляется по формуле s Q Ri = 1 − , Qii где Q — определитель корреляционной матрицы, Qii — алгебраическое дополнение корреляционной матрицы. Коэффициент множественной корреляции заключен в пределах 0 6 R 6 1. 21 Он не меньше, чем абсолютная величина любого парного или частного коэффициента с таким же первичным индексом. С помощью множественного коэффициента (по мере приближения R к 1) делается вывод о тесноте взаимосвязи, но не ее направлении. Величина R2 , называемая выборочным множественным коэффициентом детерминации, показывает, какую долю вариации исследуемой переменной объясняет вариация остальных переменных. Коэффициент множественной корреляции значимо отличается от нуля, если значение статистики F > Fα; f1 ; f2 , где F рассчитывается по формуле R2 (n − p) , F = (1 − R2 )(p − 1) где n — объем выборки; p — количество переменных, включенных в уравнение регрессии; Fα; f1 ; f2 — табличное значение F -критерия на уровне значимости α при числе степеней свободы f1 = p − 1 и f2 = n − p. Если переменные коррелируют друг с другом, то на величине коэффициента парной корреляции частично сказывается влияние других переменных. В связи с этим часто возникает необходимость исследовать частную корреляцию между переменными при исключении влияния одной или нескольких других переменных. Выборочным частным коэффициентом корреляции между переменными Xi и Xj при фиксированных значениях остальных (p − 2) переменных называется выражение: −Qij rij, 1...p = p , Qii · Qij где Qij , Qii и Qjj — алгебраические дополнения соответствующих элементов матрицы парных коэффициентов корреляции. Частный коэффициент корреляции показывает тесноту связи двух факторов Xi и Xj , когда влияние остальных факторов исключается. Величина частного коэффициента корреляции изменяется в пределах от −1 до +1 и интерпретируется аналогично коэффициенту парной корреляции. Проверка значимости частного коэффициента корреляции проводится так же, как парного коэффициента корреляции, только (n − 2) при 22 этом заменяется на (n − p), т. е. вычисляется статистика Стьюдента √ |rij | n − p t= q 1 − rij2 где n — количество наблюдений; p — количество факторов, задействованных в расчете коэффициента. Коэффициент частной корреляции считается значимым, если t > tν, α , причем значение tν, α определяется по таблицам распределения Стьюдента: α — уровень значимости, ν = n − p — число степеней свободы. Незначимость коэффициента частной корреляции может быть обусловлена либо отсутствием взаимосвязи признаков, либо малым объемом выборки. 23 Лекция 2.2.3. Ранговая корреляция При изучении неколичественных признаков или количественных признаков с непрерывными и неизвестными законами распределения классические подходы корреляционного анализа либо не применены либо не эффективны. Для изучения тесноты связи в этих случаях применяются методы непараметрической статистики, среди которых наиболее распространены методы ранговой корреляции. Рассмотрим вариационный ряд для признака x: x1 ≤ x2 ≤ . . . ≤ xj ≤ . . . ≤ xn . Напомним, что рангом наблюдаемого значения xj признака x называется номер этого наблюдения в вариационном ряду (т. е. R (xj ) = j) при условии, что неравенства — строгие. Если же в вариационном ряду встречаются одинаковые члены, то в качестве одинаковых (связных) рангов берется средняя арифметическая соответствующих номеров. Например, суммы баллов, набранных студентами за выполнение двух контрольных заданий, были следующими: 5, 10, 8, 7, 9, 10, 5, 5. Вариационный ряд имеет вид 5, 5, 5, 7, 8, 9, 10, 10. Ранг трех студентов, попавших в начало ряда, равен (1+2+3)/3 = 2 или R (5) = 2. Далее R (7) = 4, R (8) = 5, , R (9) = 8, R (10) = (9 + 10)/2 = 9, 5. Очевидно, ранги могут быть не обязательно натуральными числами. Для измерения связей между признаками, значения которых можно упорядочить по степени проявления ими анализируемых свойств, применяются коэффициенты ранговой корреляции. Изучим сначала парную связь, т. е. связь между двумя признаками x и y. Пусть имеется выборка объема n из непрерывно распределенной двумерной генеральной совокупности (x, y): (x1 , y1 ), . . . , (xn , yn ). 24 При изучении связи между x и y, можно предполагать, что выборка упорядочена по x, тогда такой выборке соответствует следующая матрица (подстановка) ! 1 2 ... i ... n , R (1) R (2) . . . R (i) . . . R (n) в которой первая строка состоит из рангов наблюдений x, а вторая — из рангов y. Вместо изучения связи между x и y с помощью (количественных) значений x и y будем исследовать эту связь, используя соответствующие ранги. Очевидно, что жесткой (функциональной) положительной связи между x и y соответствует подстановка ! 1 2 ... i ... n ; 1 2 ... i ... n жесткой отрицательной связи — подстановка ! 1 2 ... n . n n − 1 ... 1 Для измерения степени сходства между перестановками (1, 2, . . . , n) и (R (1), R (2), . . . , R (n)), степени связи между x и y назовем инверсией (беспорядком) между элементами перестановки R (i) и R (j) (второй строки подстановки), если R (i) стоит левее R (j) и больше R (j). Если же при том же условии R (i) меньше R (j), то говорят, что элементы R (i) и R (j) инверсии не образуют или образуют порядок. В качестве меры связи берут разность между суммами чисел порядков N и чисел беспорядков Q, образованных элементами второй строки подстановки. Руководствуясь комбинаторными подсчетами, можно определить вероятности перестановок с заданной мерой связи. Так, например, для подстановок из четырех элементов рассмотрим расчетную таблицу 1. 25 Таблица 1 Число порядков N Число инверсий Q Мера сходства Sk Подстановки Вероятность 0 6 −6 4321 1/24 1 5 −4 3421, 4231, 4322 3/24 2 4 −2 3412, 4132, 4213, 2431, 3241 5/24 3 3 0 3214, 2413, 4123, 3142, 1432, 2341 6/24 4 2 2 2143, 1423, 2314, 3124, 1342 5/24 5 1 4 2134, 1324, 1243 3/24 6 0 6 1234 1/24 Нетрудно заметить (и доказать для общего случая), что сумма числа порядков N и инверсий Q равна сумме номеров перестановки, т. е. n(n + 1) 1 + 2 + ... + n = ; 2 распределение вероятностей симметрично относительно центра Sk , равного нулю; если сумма номеров четна, то всевозможные значения меры Sk четны (если же n(n + 2)/2 — нечетное число, то все Sk — нечетные числа). Из сказанного следует, что таблицы для решения задач проверки гипотез относительно меры сходства (или связи) можно давать для неотрицательных значений Sk (четных или нечетных). Коэффициент ранговой корреляции Кендалла определяется путем нормирования случайной величины Sk , т. е. деления на n(n − 1)/2: 2Sk 4Q 4N rk = =1− = − 1. n(n − 1) n(n − 1) n(n − 1) Он, очевидно, изменяется в пределах от −1 до +1, которые отвечают самым жестким значениям меры сходства — отрицательной и положительной связи между x и y. Нуль соответствует отсутствию связи между признаками в генеральной совокупности. Как обычный парный коэффициент корреляции rxy (ρxy ), коэффициент корреляции Кендалла не является абсолютным измерителем связи (если он равен нулю, то x и y могут оказаться зависимыми). При больших объемах n выборки и независимости x и y можно использовать нормальный закон распределения rk с параметрами 2(2n + 5) M rk = 0 и Drk = . 9n(n − 1) 26 Другой коэффициент ранговой корреляции, предложенный Спирменом, использует меру сходства с учетом весов рангов: 6SС rС = 1 − 3 , n −n SС = n X (R (i) − i)2 . i=1 Этот коэффициент можно получить по формуле парного коэффициента корреляции rxy для выборки (i, R (i)), i = 1, n. При больших объемах n выборки и независимости x и y коэффициент ранговой корреляции Спирмена подчиняется нормальному закону распределения с параметрами M rС = 0 и DrС = 1 . (n − 1) В теории доказывается, что случайные величины rС приблизительно в полтора раза больше rk при больших n, если только их квадраты не слишком близки к единице. При изучении связей между числом признаков, измеряемых в порядковой шкале, число которых больше двух, применяют меру сходства (согласия) соответствующего числа ранжировок (перестановок). Мера является суммой квадратов отклонений сумм рангов наблюдений (объектов) от их общего среднего ранга: n 2 P Si n n X X i=1 (Si − S)2 = SW = Si2 − , n i=1 i=1 n P S= Si i=1 , n k X Si = Rij , j=1 где Rij — ранг i-го наблюдения по j-му признаку, i = 1, n, j = 1, k. В качестве показателя согласованности определяется коэффициент конкордации Кендалла, вычисляемый по формуле W = 12SW . k 2 (n3 − n) 27 Этот коэффициент может изменяться от нуля (абсолютная несогласованность) до единицы (полное совпадение всех ранжировок), что легко проверяется. Доказано, что при отсутствии связи между k признаками при больших значениях n (n > 7) случайные величины k(n − 1)W = 12SW kn(n + 1) приближенно распределены как χ2 с числом степеней свободы ν = n − 1. При k = 2 получается следующее соотношение между W и rС : 1 W = (rС + 1). 2 При малых значениях n и k существуют таблицы распределения Sk , SС и SW , пригодные для проверки гипотезы независимости признаков. Таблицы 2 и 3 составлены для случая, когда αl = P (|S| ≥ Sl ), n = 10, где l есть k или С. Таблица 2 Sk 17 19 21 23 25 27 29 31 αk 0, 156 0, 108 0, 072 0, 046 0, 028 0, 017 0, 009 0, 005 Таблица 3 SС 248 258 268 278 288 298 308 αС 0, 144 0, 096 0, 060 0, 034 0, 017 0, 007 0, 002 Таблица 4 отражает случай n = 5, k = 3, α = P (|S| ≥ SW ). Таблица 4 SW αW 50 56 60 62 66 74 78 82 86 0, 163 0, 096 0, 063 0, 056 0, 038 0, 015 0, 005 0, 003 0, 0006 28 При наличии неразличимых объектов по признакам (связных рангах) способы и формулы вычисления несколько меняются. Для вычисления коэффициента ранговой корреляции Кендалла и других удобно рассматривать таблицу сопряженности признаков x и y, значения которых можно упорядочить (см. табл. 5). Таблица 5 XY 1 ... j ... b ni∗ 1 .. . n11 . . . n1j . . . n1b n1∗ .. . . .. . . . . .. . . . .. . i .. . ni1 . . . nij . . . nib ni∗ .. . . .. . . . . .. . . . .. . a na1 . . . naj . . . nab na∗ n∗j n∗1 . . . n∗j . . . n∗b n∗∗ В приведенной таблице nij — число (частота) объектов, наблюдений, имеющих i-й уровень (ранг) по признаку x и j-й уровень (ранг) по признаку y; b P ni∗ = nij — число объектов, имеющих i-й уровень по j=1 n∗j = b P признаку x; nij — число объектов, имеющих j-й уровень по j=1 n∗∗ = b a P P признаку y; nij = n — общее число объектов (объем выборки). i=1 j=1 Заметим, что n∗∗ = a X b X i=1 j=1 nij = a X ni∗ = i=1 b X j=1 Вычисляются следующие величины: ! a b a P b P PP PP A= nij nkl , B = nij T1 = i=1 j=1 a 1P k>i l>j ni∗ (ni∗ − 1), 2 i=1 b 1P T2 = n∗j (n∗j − 1), 2 j=1 n∗j . i=1 j=1 Aij = PP ! PP nkl + k>i l>j Bij = PP k>i l<j nkl , k>i l<j PP nkl , kj 29 Коэффициент ранговой корреляции Кендалла вычисляется для квадратных таблицы сопряженности, т. е. при a = b по формуле rk = s A−B . n(n − 1) n(n − 1) − T1 − T2 2 2 Коэффициент ранговой корреляции Спирмена вычисляется по формуле 12 a P b P i=1 j=1 nij P nk∗ + k 10 для проверки гипотезы H0 : ρc = 0, против H1 : ρc 6= 0 на уровне значимости α можно использовать статистику r с числом степеней свободы ν = n − 2 или статистику Стьюдента r 1 − rc2 t= , ν = n − 2. n−2 Для прямоугольных таблиц сопряженности упорядоченных значений признаков при a 6= b используется коэффициент связанности Стьюарта, определяемый по формуле rcm = 2 min{a, b} A−B , n2 (min{a, b} − 1) при этом для достаточно больших значений n v u a X b X 2 min{a, b} u t 2 σrст = 3 n nij (Aij − Bij )2 − 4n(A − B)2 . n (min{a, b} − 1) i=1 j=1 При наличии связанных рангов формула для вычисления коэффициента конкордации Кендалла модифицируется: rW = 12SW k 2 (n3 − n) − k k P ; Tj Tj = mj X (n3lj − nlj ), l=1 j=1 30 где mj — число групп связных рангов y признака xj , nlj — число объектов (рангов), образующих l-ю группу связных рангов. Если неразличимые ранги отсутствуют, то mi = n, nij = 1 для l = 1, n и, следовательно, Tj = 0. 31 Тема 2.3. Модели и методы регрессионного анализа Лекция 2.3.1. Основные положения регрессионного анализа. Парная и множественная регрессия В практике экономических исследований очень часто имеющиеся данные нельзя считать выборкой из многомерной нормальной совокупности. Так, в частности, обстоит дело всякий раз, когда одна из рассматриваемых переменных не является случайной или когда линия регрессии явно не прямая и т. д. В этих случаях пытаются определить кривую (поверхность), которая дает наилучшее (в смысле метода наименьших квадратов) приближение к исходным данным. Соответствующие методы приближения получили название регрессионного анализа. К задачам регрессионного анализа относятся: 1. установление формы зависимости между переменными; 2. оценка модельной функции (модельного уравнения) регрессии; 3. оценка неизвестных значений (прогноз значений) зависимой переменной. В регрессионном анализе рассматривается односторонняя зависимость переменной Y (ее еще называют функцией отклика, результативным признаком, предсказываемой переменной) от одной или нескольких независимых переменных X (называемых также объясняющими или предсказывающими переменными, факторными признаками). Статистическая зависимость между двумя переменными Y и X может быть выражена в виде усредненной по X зависимости, т. е. в виде модельного соотношения уравнения регрессии Y = f (X). Однако отдельные наблюдения Y будут в большей или меньшей мере отклоняться от функции f (X) в силу воздействия неучтенных факторов, а также случайных причин. В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлено в 32 виде Y = f (X) + ε, где ε — случайная переменная, характеризующая отклонение от модельной функции регрессии. Эту переменную будем называть возмущающей, или просто возмущением. Таким образом, в регрессионной модели зависимая переменная Y есть некоторая функция f (X) с точностью до случайного возмущения ε, причем детерминированная составляющая f (X) выражает влияние существенных факторов на результирующий показатель и описывает поведение условного среднего, а случайная составляющая отражает суммарное влияние всех несущественных факторов. Мы будем рассматривать линейный регрессионный анализ, в котором функция f (X) линейна относительно оцениваемых параметров. Предположим, что для оценки параметров модельной функции регрессии f (X) из двумерной совокупности (X, Y ) взята выборка объема n, где (xi , yi ) — результат i-го наблюдения (i = 1, n). В этом случае регрессионная модель имеет вид yi = f (xi ) + εi . Отметим основные предпосылки регрессионного анализа: 1. Зависимая переменная yi (или возмущение εi ) есть величина случайная, а объясняющая переменная xi есть величина неслучайная. 2. Математическое ожидание возмущения εi равно нулю: M εi = 0. 3. Дисперсия зависимой переменной yi (или возмущения εi ) постоянна для любого i: Dεi = σε2 ; 4. Переменные yi и yj (или возмущения εi и εj ) не коррелированы: M (εi · εj ) = 0. 33 5. Зависимая переменная yi (или возмущение εi ) есть нормально распределенная случайная величина (это требование равносильно независимости переменных и необходимо для проверки значимости уравнения регрессии и его параметров, а также для их интервального оценивания). Рассмотрим простейшую модель регрессионного анализа, когда функция f (x) линейна как по параметрам, так и по переменным xi (i = 1, n): yi = β0 + β1 xi + εi . Данная модель описывает случай парной регрессионной зависимости, когда на зависимую переменную Y воздействует одна независимая переменная X. С помощью параметров β0 и β1 учитывается влияние на зависимую переменную Y объясняющей переменной X. Воздействие неучтенных факторов и случайных ошибок наблюдений определяется с помощью остаточной дисперсии σε2 . Оценкой линейной модели по выборке является уравнение регрессии yx = b0 + b1 x. Параметры b0 и b1 определяются на основе метода наименьших квадратов. Содержательно параметры модели интерпретируются таким образом: параметр b0 является величиной, выравнивающей размерность переменных y и x, а параметр b1 показывает, на сколько изменится результирующий показатель y при изменении фактора x на единицу (рис. 2.1). Рассмотрим технологию оценивания параметров двумерной регрессионной модели с помощью линейного метода наименьших квадратов (МНК). Положим Q= n X (yi − ybi )2 → min . i=1 Известно, что ybi = b0 + b1 xi . Тогда Q= n X (yi − b0 − b1 xi )2 → min i=1 34 3, 73 y 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 7 5 3 y x , 53 0 + 6 , 73 3 = 8 4 1 2 α = 27◦ 550 b1 = tg α = 0, 53 1 2 3 4 5 6 7 8 9 10 11 12 13 x Рис. 2.1. Графическая интерпретация параметров b0 и b1 Найдем экстремум данной функции относительно неизвестных b0 и b1 , для чего определим частные производные Q0b0 и Q0b1 и приравняем их нулю: Q0b0 =−2 Q0b1 = − 2 n X i=1 n X (yi − b0 − b1 xi ) = 0. ((yi − b0 − b1 xi )xi ) = 0. i=1 Таким образом получим систему из двух линейных алгебраических уравнений относительно двух переменных b0 и b1 , для решения которой удобно воспользоваться правилом Крамера:  n n P P   yi = nb0 + b1 xi ,  i=1 i=1 n n n P P P   x y = b x + b x2i . i 1 i i 0  i=1 n P n x i i=1 , θ = P n n P 2 x x i i i=1 i=1 i=1 i=1 n n P P y x i=1 i=1 , θ1 = P n n P 2 xy x i=1 i=1 n P n y i=1 . θ2 = P n n P x xy i=1 i=1 35 В результате применения правила Крамера получим выражения для искомых неизвестных b0 и b1 : n n n n P P P P y x2 − x xy θ1 i=1 i=1 b0 = = i=1 i=1 2 ; n n θ P P n x2 − x θ2 b1 = = θ n n i=1 n P n P i=1 i=1 n P xy − i=1 x2 − i=1 n P x n P y 2 . i=1 x i=1 Множественная регрессия Экономические явления, как правило, определяются большим числом одновременно и совокупно действующих факторов. В связи с этим часто возникает задача исследования зависимости одной переменной Y от нескольких объясняющих переменных X1 , X2 , . . . , Xp . Эта задача решается с помощью множественного регрессионного анализа. Модель множественной регрессии, включающая p объясняющих переменных x1 , . . . , xp , имеет вид: yi = β0 + β1 xi1 + β2 xi2 + . . . + βp xip + εi , где εi удовлетворяет приведенным ранее предпосылкам. Здесь i = 1, n — индекс наблюдения, j = 1, p — индекс фактора. Уравнение регрессии с оценками параметров можно записать как ybi = b0 + b1 xi1 + b2 xi2 + . . . + bp xip . Для изложения некоторых моментов в множественном регрессионном анализе удобней использовать матричную форму записи. 36   y1    y2   Пусть Y =   . . .  — вектор значений зависимой переменной Y ,   yn   1 x11 x12 . . . x1p    1 x21 x22 . . . x2p   X= .. ..  —  ... ... . . . . .   1 xn1 xn2 . . . xnp матрица значений объясняющих переменных размерности n×(p+1). Единичный столбец в матрице X соответствует столбцу свободных членов β0 в линейной модели, причем условно полагается, что β0 умножается на фиктивную переменную xi0 , принимающую значение 1 для всех i: xi0 = 1 (i = 1, n), β = (β0 , β1 , . . . , βp )T — вектор параметров, ε = (ε0 , ε1 , . . . , εn )T — вектор возмущений. Оценки параметров уравнения множественной регрессии b1 , b2 , . . . , bp так же, как в случае парной регрессии, проводится с использованием метода наименьших квадратов (далее — МНК), согласно которому в качестве оценки принимают вектор b, который минимизирует сумму квадратов отклонений наблюдаемых значений yi от модельных значений ybi , т. е. квадратичную форму T Q = (Y − XB) (Y − XB) = n X (yi − ybi )2 → min i=1 или Q= n X (yi − (b0 + b1 xi1 + . . . + bp xip ))2 → min . i=1 Для определения минимума ищем решение системы   Q0b0 = 0,     Q0 = 0, b1  ...,     Q0 = 0 bp 37 относительно b = (X T X)−1 X T Y. Здесь Q0w — частная производная Q по оценке t. Оценки, полученные на основе применения этого метода, обладают рядом важных для дальнейшего анализа свойств: — несмещенность (не содержат систематических ошибок при оценивании): M βj = bj , j = 0, p; — состоятельность (при n → ∞ с вероятностью, как угодно близкой к 1, сходятся к оцениваемым параметрам); — эффективность (обладают наименьшими дисперсиями среди всех возможных несмещенных оценок параметров). Построение модели множественной регрессии с четырьмя и более факторами возможно только с использованием компьютера. На практике часто бывает необходимо сравнение влияния на зависимую переменную различных объясняющих переменных, когда последние выражаются разными единицами измерения. В этом случае используют стандартизованные коэффициенты регрессии b0j и коэффициенты эластичности Эj (j = 1, p): Sx xj b0j = j ; Эj = bj . Sy y Стандартизованный коэффициент регрессии b0j показывает, на сколько величин Sy изменится в среднем зависимая переменная Y при увеличении только j-ой объясняющей переменной на Sxj , а коэффициент эластичности Эj — на сколько процентов (от средней) изменится в среднем Y при увеличении только Xj на 1 %. Нелинейная регрессия Соотношения, существующие между социально-экономическими процессами, не всегда можно выразить линейными функциями, т. к. при этом могут возникать неоправданно большие ошибки. В некоторых 38 случаях нелинейность связей является следствием качественной неоднородности совокупности, к которой применяют регрессионный анализ. Например, если в одной совокупности объединены предприятия, отличающиеся по специализации, условиям функционирования и т. д. В случае нелинейной зависимости параметры уравнения регрессии оцениваются также при помощи метода наименьших квадратов. Однако статистические свойства МНК-оценок сохраняются только для случая линейной зависимости. С позиции использования МНК различают следующие виды зависимостей: 1. функции, нелинейные по факторам, например: y = a0 + a1 x2 или y = a0 + a1 log x; 2. функции, нелинейные по параметрам, например: y = ea0 +a1 x или y = aK α L1−α ; 3. функции, не приводимые к линейному виду. В первом и втором случае МНК для оценки параметров модели используется после проведения линеаризующих преобразований, приводящих функцию к линейному виду. Для нахождения оценок параметров функций первого типа достаточно провести замену объясняющих переменных, например, если y = a0 + a1 x2 , то достаточно ввести новую переменную x0 = x2 и, осуществив замену переменных, получить функцию линейного вида y = a0 + a1 x0 , после чего можно использовать метод наименьших квадратов. К уравнениям второго вида вначале требуется применить линеаризующее преобразование, а затем уже заменить переменные. Например, если y = ea0 +a1 x , то линеаризующее преобразование состоит в логарифмировании ln y = a0 + a1 x, после чего, заменив переменную ln y = y 0 , получим уравнение линейного вида yb = a0 + a1 x. К преобразованному уравнению применяют МНК. При этом оценки параметров минимизируют фактически не функцию вида f= n X (yi − ybi )2 , i=1 39 а функцию 0 f = n X (yi0 − ybi 0 )2 . i=1 Здесь и далее, если индексы суммирования опущены, предполагается, что суммирование идет от i = 1 до n. Основные типы зависимостей и линеаризующие преобразования приводятся в учебном пособии (стр. 22—23). Для множественной регрессии представляется соблазнительным представляется увеличение порядка выравнивающей кривой, ибо известно, что всякую функцию на любом интервале можно сколь угодно точно представить полиномом yb = b0 + b1 x + b2 x2 + b3 x3 + . . . + bp xp . Так, можно подобрать такой показатель p, что соответствующий полином пройдет через все вершины эмпирической линии регрессии. Однако повышение порядка гипотетичной параболической кривой может привести к неоправданному усложнению вида искомой функции регрессии, когда случайные отклонения осредненных точек неправильно истолковываются как определенные закономерности в поведении кривой регрессии. Кроме того, за счет увеличения числа параметров снижается точность кривой регрессии (особенно в случае малой выборки) и увеличивается объем вычислений. В связи с этим в практике регрессионного анализа редко используются полиномы выше третьей степени. Для множественной регрессии, кроме линейной модели, часто используют степенную (мультипликативную) модель: yb = a0 xa11 xa22 . . . xapp . Подобная мультипликативная модель приводится к линейному виду логарифмированием: ln y = ln a0 + a1 ln x1 + a2 ln x2 + . . . + ap ln xp . После замены переменных и переобозначения параметров: y 0 = ln y, a00 = ln a0 , x0j = ln xj , 40 имеем линейную модель yb0 = a00 + a1 x01 + . . . + ap x0p , к которой применяются все операции множественного регрессионного анализа. В третьем случае, когда функцию невозможно привести к линейному виду, оценивание параметров осуществляют с помощью нелинейного МНК, где решение проводится с использованием итерационных процедур при минимизации функции многих переменных (разложение функции в ряд Тейлора и др.). 41 Лекция 2.3.2. Анализ вариации результирующего признака. Проверка значимости уравнения регрессии и коэффициентов уравнения регрессии Оценить значимость уравнения регрессии — значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Оценка значимости уравнения регрессии производится на основе дисперсионного анализа. Рассмотрим сумму квадратов отклонений зависимой переменной от средней y: Q= n X (yi − y)2 , i=1 где n — объем выборки. Общая сумма квадратов Qобщ может быть разложена на отдельные составляющие: Qобщ = n X 2 (yi − y) = i=1 = n X (yi − ŷi + ŷi − y)2 = i=1 n X 2 (yi − ybi ) + i=1 n X 2 (b yi − y) + 2 i=1 n X (yi − ybi )(b yi − y). i=1 Сумма квадратов отклонений фактических значений от расчетных называется остаточной суммой квадратов и обозначается как Qост = n X (yi − ybi )2 . i=1 Сумма квадратов отклонений расчетных значений от среднего называется объясненной суммой квадратов и обозначается как Qобъясн = n X (b yi − y)2 . i=1 Третий элемент в разложении представляет собой сумму произведений объясненной и остаточной компонент регрессии. Основываясь на 42 предпосылках регрессионного анализа, доказывается, что этот элемент равен нулю, и тогда общая сумма квадратов раскладывается на остаточную сумму квадратов и объясненную сумму квадратов: Qобщ = Qобъясн + Qост . Это соотношение является основным для получения практически всех статистических характеристик уравнения регрессии. Поделим все перечисленные выше суммы квадратов на соответствующие значения степеней свободы: — общую сумму квадратов — на (n − 1) и получим оценку общей дисперсии (Sy2 ) зависимой переменной, которая характеризует разброс значений показателя вокруг среднего; — объясненную сумму квадратов — на p (количество факторов в уравнении регрессии) и получим оценку объясненной дис2 персии переменной y (Sобъясн ), которая характеризует вариацию зависимого показателя, объясненную построенным уравнением регрессии; — остаточную сумму квадратов — на (n − p − 1) и получим оцен2 ), которая ку остаточной дисперсии зависимой переменной (Sост характеризует разброс значений относительно линии регрессии, и может служить показателем точности воспроизведения значений зависимой переменной. Большое значение показателя остаточной дисперсии может быть вызвано неверным выбором функции, недостаточным набором объясняющих переменных или отсутствием связи между зависимой переменной модели и факторными. На практике часто используют величину среднеквадратического отклонения от линии регрессии, которая вычисляется как квадратный 2 корень из значения Sост , и называется стандартной ошибкой регрессии p 2 . SE = Sост 43 Величину R2 называют множественным коэффициентом детерминации. Он показывает, какая часть дисперсии функции отклика объясняется вариацией линейной комбинации выбранных факторов x1 , x2 , . . . , xj , . . . , xp . Вычисляется коэффициент детерминации как отношение сумм квадратов: R2 = Qобъясн Qост =1− . Qобщ Qобщ Измеряется в долях единицы (от 0 до 1) либо в процентах (от 0 до 100 %). Преимуществом коэффициента детерминации является то, что R2 — величина относительная и может быть использована для сопоставления оценки качества как линейных, так и нелинейных моделей (в отличие от остаточной дисперсии). Квадратный корень из коэффициента детерминации представляет собой коэффициент множественной корреляции и характеризует тесноту связи между функцией отклика и совокупности факторов, включенных в уравнение. Собственно проверка значимости уравнения регрессии осуществляется следующим образом. Нулевая гипотеза состоит в том, что уравнение регрессии незначимо, т. е. параметры уравнения несущественно отличаются от нуля: H0 : все βj = 0. Альтернативная гипотеза утверждает, что уравнение значимо, т. е. существует хотя бы одно βj , которое отличается от нуля существенно: H1 : найдется βj 6= 0. Для проверки гипотез в качестве критерия используется статистика, имеющая распределение Фишера. Для оценки теоретических дисперсий принимают выборочные оценки объясненной и остаточной дисперсий. Уравнение регрессии считается значимым, если значение статистики 2 Sобъясн F = 2 Sост больше табличного значения F -критерия, соответствующего уровню зна- чимости α и числу степеней свободы ν1 и ν2 (где ν1 = p, ν2 = n − p − 1). 44 В случае, когда Fрасч > Fтабл , нулевая гипотеза отвергается и делается вывод, что уравнение регрессии значимо с уровнем доверительной вероятности, равным 1 − α. Чем выше требования к надежности результатов, предсказанных по уравнению регрессии, тем меньше должна быть выбрана величина α, соответственно, тем выше уровень доверительной вероятности. Причинами незначимости уравнения регрессии можно назвать следующие: — недостаточный размер выборки; — слабая колеблемость факторных и результирующих показателей; — неверный выбор формы связи; — слабая зависимость между объясняющими переменными и функцией отклика, либо отсутствие связи вообще. Кроме проверки на значимость регрессионного уравнения в целом, осуществляется также проверка значимости параметров, целью которой является проверка существенности влияния отдельных факторов на функцию отклика. В качестве проверяемых гипотез выдвигаются следующие: H0 : параметр регрессии βj не значимо отличается от нуля; H1 : параметр регрессии βj значимо отличается от нуля. Значимость коэффициентов регрессии bj проверяют, используя табличные значения распределения Стьюдента. Первоначально определяется расчетное значение t-статистики Стьюдента: t= |bj | , Sbj где |bj | — абсолютное значение оценки параметра βj ; Sbj — стандартная ошибка параметра. Стандартная ошибка параметра определяется по формуле q 2 ·c , Sbj = Sост jj 45 где cjj — диагональный элемент матрицы, обратной матрице нормальных уравнений (X T X)−1 . Вычисленное значение t сравнивают с табличным при числе степеней свободы ν = n−p−1. В случае, когда tрасч > tтабл , говорят, что данный фактор оказывает существенное (значимое) влияние на результирующую переменную. В противном случае фактор может быть исключен из уравнения связи. Представляет интерес расчет доверительных интервалов параметров уравнения регрессии. Доверительный интервал для коэффициентов регрессии вычисляется по следующей формуле: bj − tтабл · Sbj 6 βj 6 bj + tтабл · Sbj , где tтабл — табличное значение распределения Стьюдента при уровне значимости α и числе степеней свободы ν = n − p − 1; βj — значение коэффициента в уравнении регрессии для генеральной совокупности; bj — оценка параметра в выборочном уравнении. 46 Лекция 2.3.3. Построение точечных и интервальных прогнозов зависимого признака Построенное уравнение регрессии y = f (X, b) позволяет найти точечную и интервальную оценку истинных значений зависимой переменной y для заданных значений факторов x∗1 , x∗2 , . . . , x∗p . Точечную оценку результирующего признака дает простая подстановка значений объясняющих переменных в уравнение регрессии: y ∗ = b0 + b1 x∗1 + b2 x∗2 + . . . + bp x∗p . Однако точечный прогноз не гарантирует, что истинная величина зависимого признака будет равна полученной оценке. Поэтому точечную оценку необходимо дополнить интервальной, т. е. построить доверительный интервал, который с заданной вероятностью (надежностью) p = 1−α накроет неизвестное значение оцениваемого параметра. Рассмотрим интервальное оценивание для: 1. линии регрессии; 2. индивидуальных значений зависимого показателя. Построим доверительный интервал для условного математического ожидания M x(Y ), который с заданной надежностью будет содержать неизвестное значение M x(Y ). Так как параметры β0 и βj оцениваются по выборке, то их оценки b0 , bj содержат случайные ошибки. Ошибки в значении b0 приводят к вертикальному сдвигу линии регрессии. Колеблемость параметров bj приводит к «покачиванию» линии регрессии относительно точки (x, y). В результате значения y, найденные по уравнению регрессии, также содержат случайные ошибки. Доверительный интервал для условного математического ожидания M x(Y ) (или же для линии регрессии) определяется по формуле q ∗ M x(Y ) = y ± tν, α Sост X T (X T X)−1 X. Эта формула показывает пределы, в которых с заданной вероятностью (1−α) находится теоретическая линия регрессии. Здесь ν = n−p−1, причем n — объем выборки, p — число факторов в уравнении регрессии. 47 Для парной линейной регрессии доверительный интервал для линии регрессии рассчитывается следующим образом: v u (x∗ − x)2 u1 ∗ y1, 2 = y ± tν, α · Sост · u + P , n tn 2 (xi − x) i=1 где x∗ — прогнозное значение фактора, x — среднее значение фактора, n — объем выборки, tν, α — статистика Стьюдента с числом степеней свободы ν = n − 2 и уровнем значимости α, p 2 показывает среднеквадратическое отклонение наSост = Sост блюдений от линии регрессии, а произведение q Sост · X T (X T X)−1 X называется погрешностью оценки регрессии. Из последней формулы видно, что ширина доверительного интервала зависит от значения объясняющей переменной x∗ : при x∗ = x она минимальна, а по мере удаления x∗ от x ширина доверительного интервала увеличивается. Таким образом, прогноз значений зависимой переменной по уравнению регрессии оправдан, если значение объясняющей переменной не выходит за диапазон ее значений по выборке. Иначе говоря, экстраполяция кривой регрессии вне пределов обследованного диапазона объясняющей переменной (даже если это оправдано) может привести к значительным погрешностям. Построенная доверительная область определяет местоположение модельной линии регрессии (т. е. условного математического ожидания), но не отдельных возможных значений зависимой переменной, которые отклоняются от средней. Поэтому при определении доверительного интервала для индивидуальных значений зависимой переменной необходимо учитывать еще один источник вариации — рассеяние вокруг линии регрессии, т. е. в формулу для расчетов следует включить еще величину 2 остаточной дисперсии Sост . Тогда в случае уравнения множественной регрессии формула для расчета доверительного интервала прогноза примет 48 вид: yпрогноз q = y ± tν, α · Sост · 1 + X T (X T X)−1 X, ∗ где y ∗ — прогнозное значение фактора, tν, α — статистика Стьюдента с числом степеней свободы ν = n − 2 и уровнем значимости α, p 2 — среднеквадратическое отклонение наблюдений Sост = Sост от линии регрессии. А в случае парной линейной регрессии доверительный интервал для индивидуального прогнозного значения зависимой переменной определится как v u (x∗ − x)2 u1 ∗ y1, 2 = y ± tν, α · Sост · u + P + 1, n tn (xi − x)2 i=1 где y ∗ — прогнозное значение фактора y, x∗ — прогнозное значение фактора x, x — среднее значение фактора x, tν, α — статистика Стьюдента с числом степеней свободы ν = n − 2 и уровнем значимости α, p 2 — среднеквадратическое отклонение наблюдений Sост = Sост от линии регрессии. Погрешность интервального оценивания линии регрессии (как вид√ но из приведенных формул) пропорциональна величине S/ n, поэтому с ростом объема выборки n → ∞ погрешность стремится к нулю. Погрешность оценивания прогнозных значений при неограниченном росте объема выборки стремится к величине u1−α/2 · Sост , где u1−α/2 — квантиль нормального распределения. 49 Лекция 2.3.4. Особые случаи при построении регрессионных уравнений: мультиколлинеарность Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных. Мультиколлинеарность может проявляться в функциональной (явной) и стохастической (скрытой) форме. При функциональной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными является линейной функциональной зависимостью. В этом случае матрица X T X особенная, т. к. содержит линейно-зависимые векторы-столбцы и ее определитель равен нулю. При этом нарушается предпосылка регрессионного анализа det(X T X) 6= 0, введенная для случая множественной регрессии (о неособенности матрицы X T X). Это приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели. Однако в экономических исследованиях мультиколлинеарность чаще проявляется в стохастической форме, когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. Хотя в этом случае матрица X T X и является неособенной, но ее определитель близок к нулю, так что в результате решения системы нормальных уравнений получаются значительные средние квадратические отклонения (стандартные ошибки) параметров регрессии b0 , b1 , . . . , bp и оценка значимости их по t-критерию не имеет смысла. Оценки становятся очень чувствительными к незначительному изменению результатов наблюдений и объема выборки. Уравнения регрессии в этом случае, как правило, не имеют смысла. Причиной возникновения мультиколлинеарности может стать некорректное проведение этапа формализации модели относительно набора факторных переменных. К следствиям мультиколлинеарности относят: 1. Резко падает точность оценок параметров, получаемых с помо50 щью метода наименьших квадратов. Ошибки некоторых параметров уравнения могут стать очень большими. 2. Выборочные характеристики регрессионной модели становятся крайне неустойчивыми. При добавлении (исключении) некоторого количества наблюдений или факторов к массиву исходной информации может произойти резкое изменение оценок параметров. 3. Из-за неустойчивости модели резко сокращаются возможности содержательной интерпретации модели, а также прогноза значений зависимой переменной y в точках, существенно удаленных от значений объясняющих переменных в выборке ввиду ненадежности получаемых результатов. Признаки наличия мультиколлинеарности: 1. Небольшие изменения в данных приводят к широким колебаниям оценок параметров. 2. Коэффициенты регрессии имеют высокие стандартные ошибки и высокий уровень значимости, несмотря на тот факт, что совместно они высоко значимы и достаточно высоко значение множественного коэффициента детерминации. 3. Коэффициенты могут иметь неверный знак или неправдоподобную величину. В качестве формальных рассматриваются следующие критерии мультиколлинеарности: 1) Критерий χ2 строится на использовании корреляционной матрицы объясняющих переменных x1 , x2 , . . . , xp . Высокая коррелированность переменных проявляется в близости к нулю определителя матрицы парных коэффициентов корреляции R = |rij |. Основная и альтернативная гипотезы процедуры проверки мультиколлинеарности x1 , x2 , . . . , xp : 51 H0 : между объясняющими переменными мультиколлинеарность отсутствует; H1 : объясняющие переменные высококоррелированы. Для проверки гипотезы вычисляется определитель корреляционной матрицы R и строится критерий (n − 1) − (2p + 5) χ2 = − ln |R|, 6 который имеет χ2 -распределение с количеством степеней свободы, равным p(p − 1) ν= . 2 По таблице распределения χ2 определяется значение, соответствующее числу степеней свободы ν и уровню значимости α. Если χ2расч 6 χ2ν, α , то принимается нулевая гипотеза. В противном случае принимается гипотеза о наличии мультиколлинеарности. 2) Число обусловленности матрицы X T X. Число λ называется собственным значением (или характеристическим числом) квадратной матрицы A порядка n, если можно подобрать такой n-мерный ненулевой вектор x, что Ax = λx. Множество всех собственных значений матрицы A совпадает с множеством всех решений уравнения |A − λE| = 0, где λ — независимая переменная. Пример. Найти собственные значения матрицы ! 1 2 A= −1 4 Характеристическое уравнение матрицы 1−λ 2 λ1 = 2, |A − λE| = . = λ2 − 5λ + 6 = 0 ⇔ −1 4 − λ λ2 = 3 52 Обусловленность матрицы определяется отношением максимального собственного числа λmax к минимальному λmax : r λmax γ= . λmin Если λmin → 0, то γ бесконечно велико и присутствует мультиколлинеарность. Для γ > 20 наблюдается приближенная коллинеарность объясняющих переменных. Для γ < 20 можно считать, что мультиколлинеарность отсутствует. Для полностью независимых переменных γ = 1. Для устранения или уменьшения мультиколлинеарности используется ряд методов. Один из них заключается в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (> 0, 8), одну переменную исключают из рассмотрения. При этом, какую переменную оставить, а какую удалить из анализа, решают в первую очередь из экономических соображений. Если с экономической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной. Другим из возможных методов устранения или уменьшения мультиколлинеарности является использование пошаговых процедур отбора наиболее информативных переменных. Вначале рассматривается линейная регрессия зависимой переменной Y от объясняющей переменной, имеющей с ней наиболее высокий коэффициент корреляции (или индекс корреляции при нелинейной форме связи). На втором шаге включается в рассмотрение та объясняющая переменная, которая имеет наиболее высокий частный коэффициент корреляции с Y , и вычисляется коэффициент (индекс) множественной корреляции. На третьем шаге вводится новая объясняющая переменная, которая имеет наибольший частный коэффициент корреляции с Y и вновь вычисляется коэффициент множественной корреляции и т. д. Процедура введения новых переменных продолжается до тех пор, пока добавление следующей объясняющей переменной существенно не увеличивает коэффициент множественной кор53 реляции. Вообще говоря, все существующие схемы формирования наборов переменных можно объединить в две большие группы: это схемы полного перебора и пошаговые процедуры. Недостатком процедур полного перебора является большое возможное число вариантов. При переборе q факторов из общего количества факторов p число вариантов равно Cpq , а при рассмотрении полного числа наборов при изменении q от 1 до p число вариантов будет 2p . Преодоление этого недостатка связано с применением методов, позволяющих каким-то образом ограничивать количество рассматриваемых наборов переменных, исходя из экономической содержательности каждого набора. Существенного сокращения числа генерируемых для сравнения наборов предсказывающих переменных позволяют пошаговые процедуры генерации наборов переменных. Хотя ни одна из пошаговых процедур не гарантирует получения оптимального по заданному критерию набора переменных, все же обычно получаемые с их помощью наборы переменных являются достаточно хорошими для практического применения. Основными пошаговыми процедурами генерации наборов являются: — процедура последовательного присоединения, — процедура присоединения-удаления, — процедура последовательного удаления. При этом последовательное выполнение процедуры удаления обычно проводится с точки зрения минимального уменьшения коэффициента детерминации, выполнение процедуры присоединения строится на основе выбора того фактора, который имеет максимальное значение квадрата коэффициента частной корреляции с Y . Критериями остановки пошаговых процедур могут быть следующие: 1. Исследователь достиг желаемого количества факторов. 2. Исследователь достиг желаемого значения показателей качества уравнения регрессии. 54 3. Среди набора факторов, еще не включенных в уравнение, нет более независимых, и, соответственно, при их введении возникнет мультиколлинеарность. При использовании любого алгоритма отбора существенных факторов необходимо сравнение подмножеств факторов по некоторому критерию качества уравнения регрессии. Остановимся на этом подробнее и рассмотрим наиболее часто используемые критерии. 1. Коэффициент детерминации (или квадрат коэффициента множественной корреляции) R2 = 1 − Qост Qобъясн = . Qобщ Qобщ Недостаток этого критерия заключается в том, что значение коэффициента детерминации не убывает с ростом предсказывающих переменных, входящих в модель. Однако для сравнения уравнений регрессии с одинаковым числом зависимых переменных этот критерий является вполне подходящим. 2. Скорректированный коэффициент детерминации R2 = n−1 (1 − R2 ). n−q−1 Здесь n — число наблюдений, q — число факторов в уравнении. В отличие от обычного скорректированный коэффициент детерминации может уменьшаться с ростом числа предсказывающих переменных, если в результате введения дополнительной переменной изменение (1 − R2 ) оказывается недостаточным для компенсации увеличения отношения (n − 1)/(n − q − 1). 3. Статистика Мэллоуза. Предлагается использовать Cq- статистику как меру качества уравнения регрессии с q предсказывающими переменными: Cq = 2 (n − q − 1)(1 − Ry.X (q) ) 2 1 − Ry.X (p) − n + 2q + 2 55 4. Средний квадрат ошибки предсказания определяет среднюю квадратическую ошибку прогноза на контрольной выборке, причем неизвестное значение дисперсии σy2 заменяется ее оценкой максимального правдоподобия. Окончательно используемая как критерий оценка имеет вид: СКОП (q) = 2 (n2 − n − 2)(n − 1)Sy2 (1 − Ry.X (q) ) n(n − q − 1)(n − q − 2) . 56 Модуль 3 Прикладная эконометрика Тема 3.1. Анализ временных рядов Лекция 3.1.1. Составляющие временного ряда. Выделение долгосрочной тенденции развития Временным рядом называют последовательность наблюдений, обычно упорядоченную во времени, хотя возможно упорядочение и по какому-то другому параметру. Временной ряд имеет два главных отличия от рассматриваемых наблюдений анализируемого признака, образующих случайные выборки: а) образующие временной ряд наблюдения, рассматриваемые как случайные величины, не являются взаимно-независимыми, и, в частности, значение, которое мы получим в момент времени tk , может существенно зависеть от того, какие значения были зарегистрированы до этого момента времени; б) наблюдения временного ряда (в отличие от элементов случайной выборки) не образуют стационарной последовательности, т.е. закон распределения вероятностей k-го члена временного ряда не остается одним и тем же при изменении его номера k; в частности от tk могут зависеть основные числовые характеристики случайной переменной xk — ее среднее значение и дисперсия. Иначе говоря, при исследовании временных рядов существенное значение имеет тот порядок, в котором проводились наблюдения над исследуемой величиной. Посредством анализа временных рядов могут решаться следующие задачи: описание характерных особенностей ряда, объяснение механизма поведения ряда, прогнозирование поведение ряда, моделирование совместного развития во времени многих переменных и др. Динамика рядов экономических показателей в общем случае складывается из четырех компонентов: 57 1. тенденции, характеризующей долговременную основную закономерность развития исследуемого явления; 2. периодического компонента, связанного с влиянием сезонности развития изучаемого явления; 3. циклического компонента, характеризующего циклические колебания, свойственные любому воспроизводству (например, циклы обновления, связанные с чисто техническими проблемами); 4. случайного компонента как результата влияния множества случайных факторов. Под тенденцией понимают некоторое общее направление развития, долговременную эволюцию. Тенденцию ряда динамики представляют в виде гладкой кривой (траектории), которая аналитически выражается некоторой функцией времени, называемой трендом. Тренд характеризует основную закономерность движения во времени, свободную в основном (но не полностью) от случайных воздействий. В большинстве случаев полученная траектория связывается исключительно со временем. Предполагается, что, рассматривая любое явление как функцию времени, можно выразить влияние всех основных факторов. Механизм их влияния в общем виде не учитывается. В связи с этим под трендом обычно понимают регрессию на время. Более общее понятие тренда — это детерминированная составляющая динамики развития, определяемая влиянием постоянно действующих факторов. Отклонение от тренда есть некоторая случайная составляющая, характеризуемая влиянием случайных факторов. Исходя из этого модель временного ряда описывается уравнением yt = f (t) + εt , где y1 , y2 , . . . , yT (t = 1, T ) — уровни временного ряда; f (t) — систематическая (детерминированная) составляющая, характеризующая основную тенденцию ряда во времени; εt — случайная составляющая. 58 Во временных рядах можно наблюдать тенденции трех видов: тенденцию среднего уровня, тенденцию дисперсии, тенденцию автокорреляции. Тенденцию среднего уровня наглядно можно представить графиком временного ряда. Аналитически она выражается в виде функции f (t), вокруг которой варьируют фактические значения изучаемого явления. Тенденция дисперсии — это изменения отклонений эмпирических значений временного ряда от значений, вычисленных по уровню тренда. Тенденция автокорреляции — это тенденция изменения связи между отдельными уровнями временного ряда. Первоначально анализ временных рядов базировался на моделях, в которых влияние временного параметра проявлялось только в систематической составляющей. В таких моделях предполагается, что течение времени никак не отражается на случайной составляющей, т. е. математическое ожидание случайной величины равно нулю (M εt = 0), дисперсия равна некоторой постоянной (Dεt ≡ c = const) и значения ε в разные моменты времени некоррелированы: cov (εt1 , εt2 ) = 0 для любых не равных между собой t1 , t2 ∈ 1, T . Долговременная тенденция формируется под воздействием факторов, ведущих к постепенному изменению экономического показателя, поэтому такие зависимости могут моделироваться с использованием полиномов низких степеней. Циклические последовательности (как долговременные, так и сезонные) моделируются при помощи тригонометрических функций. Проверка гипотезы о существовании тенденции Один из способов проверки основан на сравнении средних уровней ряда: временной ряд разбивают на две примерно равные части по числу членов, каждая из которых рассматривается как некоторая самостоятельная выборочная совокупность, имеющая нормальное распределение. Если временной ряд имеет тенденцию, то средние, вычисленные для каждой совокупности, должны существенно (значимо) отличаться 59 между собой. Если же расхождение будет незначимым, несущественным (случайным), то временной ряд не имеет тенденции. Таким образом, проверка наличия тренда в исследуемом ряду сводится к проверке гипотезы о равенстве средних двух нормально распределенных совокупностей. Процедура проверки наличия тренда осуществляется в следующей последовательности: временной ряд делится на две примерно равные части, для каждой из которых вычисляются величины средних и дисперсий (y1 , y2 , S12 , S22 ). После этого проверяется гипотеза о равенстве дисперсий при уровне значимости α, для чего формируются две гипотезы: H0 : σ12 = σ22 , H1 : σ12 = 6 σ22 . Значимость различий проверяется путем вычисления Fрасч S22 = 2 S1 и сравнением ее с критическим значением F при числе степеней свободы, равном f1 = n2 − 1 и f2 = n1 − 1 и уровне значимости α. Если Fрасч < Fтабл , то принимается нулевая гипотеза о равенстве дисперсий генеральных совокупностей (выборочные дисперсии незначимо различаются, расхождение между ними случайно). После этого проверяется основная гипотеза H0 : y1 = y2 и гипотеза H1 : y1 6= y2 , для чего рассчитывается величина s y1 − y2 n1 n2 (n1 + n2 − 2) √ · Tрасч = p . n1 + n2 (n1 − 1)S12 + (n2 − 1)S22 Если |Tрасч | < tкрит(α, n−2) , то принимается нулевая гипотеза о равенстве средних, расхождение между вычисленными средними незначимо. Отсюда делается вывод, что тренд отсутствует. В противном случае, когда различие между средними будет значимо, принимается гипотеза H1 и делается вывод о наличии тренда. Существует еще ряд относительно простых методов для выявления тренда. Рассмотрим метод Ф. Фостера и А. Стюарта, который дает более надежный результат. По данным исследуемого ряда определяются величины ut и lt путем последовательного сравнения уровней ряда. 60 Если какой-либо уровень ряда превышает по своей величине каждый из предыдущих уровней, то величине ut присваивается значение 1, в остальных случаях она равна 0. Таким образом, ( 1 при yt > yt−1 , yt > yt−2 , . . . , yt > y1 ; ut = 0 — в противном случае И наоборот, если уровень ряда меньше всех предыдущих, то величина lt равна 1, в остальных случаях она равна 0: ( 1 при yt < yt−1 , yt < yt−2 , . . . , yt < y1 ; lt = 0 — в противном случае Затем находятся еще две величины: P S = st , где st = ut + lt ; P и D = dt , где dt = ut − lt . Суммирование проводят по всем членам ряда. Величины S и D имеют независимые распределения и существенно зависят от порядка расположения уровней во времени. С помощью D проверяют, существует ли тенденция изменения в дисперсиях, а S позволяет обнаружить тенденцию в средней. С этой целью проверяются две гипотезы о том, существенно ли отличаются D от нуля и S — от µ (математического ожидания S). Эти гипотезы проверяются с помощью случайных величин T1 и T2 , где D−0 T1 = σ2 и S−µ , T2 = σ1 причем σ2 и σ1 — средние квадратические ошибки соответственно D и S. Величины T1 и T2 имеют распределение Стьюдента с числом степеней свободы, равным (n − 1). Рассчитанные по формулам значения 1 и 2 сравнивают с табличными, найденными по таблицам критических точек распределения Стьюдента с уровнем значимости α и числом степеней свободы (n − 1). Если T2 (расч) > tтабл , то принимается гипотеза о наличии тенденции в средней и говорят, что тренд существует. Если T1 (расч) > tтабл , то тенденция в дисперсии есть и описывается некоторым трендом. В противном случае говорят, что тенденция в дисперсии отсутствует. 61 Лекция 3.1.2. Сглаживающие процедуры. Моделирование тенденции временного ряда В случаях, когда тренд имеет незначительные колебания на довольно коротких интервалах времени, и невозможно представить его простой функцией времени на всем интервале, тогда используются статистические процедуры сглаживания (которые также называют фильтрованием). Суть этих методов заключается в замене фактического значения ряда в данной точке на некоторую взвешенную среднюю величину значений, наблюдаемых в окрестности этой точки. При этом считается, что наблюдаемые значения являются суммой тренда и случайной ошибки. Грубо говоря, взвешенное среднее тренда совпадает со значением самого тренда в данной точке, а взвешенное среднее случайных составляющих имеет тенденцию становиться весьма малой величиной. Тем самым довольно нерегулярный график наблюдений заменяется гладким графиком скользящего среднего. Колеблемость ряда уменьшается, что позволяет оценить тренд взвешенной средней наблюдаемых значений. Расчетные значения определяются для всех точек ряда за исключением нескольких первых и последних. Пусть имеются наблюдения y1 , . . . , yT . Тогда формула линейного фильтра (или сглаженного значения уровня в точке t) будет yt∗ = m X cs yt+s t = m + 1, T − m. s=−m Здесь yt∗ является взвешенным средним наблюдаемых значений yt в интервале значений временного параметра t, отстоящих от t не более чем на m единиц. Веса cs предполагаются нормированными, так что m X cs = 1. s=−m В случае, когда веса остаются постоянными (cs = const), то фильтры называют симметричными. Тогда результат сглаживания есть вариант среднего арифметического и сглаженное значение yt∗ выражается 62 формулой yt∗ m X 1 1 yt+s , т. е. cs = = . 2m + 1 s=−m 2m + 1 В случае, когда весовые коэффициенты не остаются постоянными, т. е. когда, например, с приближением элемента ряда к уровню t его весовой коэффициент возрастает, то говорят о скользящей средней взвешенной. Если задается cs < cs+1 , то фильтр позволяет учесть устаревание данных. Существует и другая группа методов сглаживания, основанных на вычислении экспоненциальных средних значений уровня ряда по формуле типа m X ∗ (1 − cs )m yt . yt = s=−m Однако методы сглаживания имеют ряд недостатков: 1. невозможно указать доверительные области и проверить гипотезы относительно тренда; 2. нельзя непосредственно связать построенную функцию с моделью образования тренда; 3. сглаженный ряд укорачивается по сравнению с фактическим, что приводит к не очень надежной экстраполяции тренда. В связи с этим использование методов сглаживания больше применяется не для анализа ряда, а для его описания. Моделирование тенденции временного ряда с помощью аналитического выравнивания Наиболее распространенным и простым способом моделирования тенденции социально-экономического явления является аналитическое выравнивание временного ряда. Существуют различные приемы, но суть их одна — замена фактических уровней ряда расчетными, имеющими значительно меньшую колеблемость, чем исходные данные. Задача заключается в выборе наиболее подходящего типа кривой и оценке ее параметров. 63 Выбрать форму кривой можно, исходя из теоретического анализа сущности изучаемого явления и опираясь на опыт и знания самого исследователя. Наибольшее распространение имеют линейные зависимости, т. е. функции типа yt = a0 + a1 t, где yt — сглаженное (выравненное) значение уровня на момент t; коэффициенты a1 , a2 , . . . , aτ — веса, приписываемые уровню ряда, находящемуся на расстоянии τ от момента t. В зависимости от того, какие значения принимают весовые коэффициенты, сглаживание по данной формуле будет выполнено либо с помощью скользящих средних , либо экспоненциальных средних. Зависимости такого типа целесообразно применять для временных рядов с постоянным абсолютным приростом или снижением показателей (когда уровни ряда увеличиваются в арифметической прогрессии). Если анализируемая тенденция характеризуется постоянным темпом роста (рост уровней ряда идет в геометрической прогрессии), то целесообразно проводить выравнивание по показательной функции: yt = a0 + a1 t или yt = b t+b t a0 a11 2 2 . При выравнивании временных рядов экономических явлений, характеризующихся стремлением к некоторой предельной величине, насыщением, используется модифицированная экспонента yt = a0 + a1 at2 . Процессы с переменными темпами роста хорошо моделируются Sобразными кривыми. К ним относятся логистические кривые и кривая Гомперца: yt = k (пример логистической кривой), 1 + a0 e−a1 t at yt = ka01 (пример кривой Гомперца). Для аппроксимации тренда часто используются полиномы различных степеней (как правило, до четвертой степени). Например, полином первой степени yt = a0 + a1 t, полином второй степени yt = a0 + a1 t + a2 t2 , полином третьей степени yt = a0 + a1 t + a2 t2 + a3 t3 и т. д. 64 Существуют различные приемы, позволяющие выбрать форму кривой, достаточно хорошо аппроксимирующей действительное развитие. Наиболее простой путь — визуальный, на основе графического изображения временного ряда. По виду графика подбирается уравнение кривой, которая ближе всего подходит к эмпирическому виду (траектории). Другой путь выявления формы кривой заключается в применении метода последовательных разностей. Однако данный метод применяется только при подборе кривых, описываемых полиномами. Сущность этого метода заключается в нахождении первых, вторых и т. д. разностей уровней, т. е. ∆1t = yt − yt−1 ; ∆2t = ∆1t − ∆1t−1 ; ∆3t = ∆2t − ∆2t−1 и т. д. Расчет этих разностей ведется до тех пор, пока разности не будут приблизительно равными. Порядок этих разностей и принимают за порядок искомого полинома. При подборе функции тренда наряду с теоретическим анализом закономерностей развития явления используются и эмпирические методы. После того, как форма кривой будет выбрана, необходимо оценить параметры соответствующей модели. Если функция линейна, то для оценки тренда используется традиционная техника регрессионного анализа. В остальных случаях должны применяться приемы преобразования уровней (линеаризация) и нелинейный метод наименьших квадратов. 65 Лекция 3.1.3. Модели автокорреляции и авторегрессии Среди моделей, отражающих свойства временных рядов, особо следует выделить модели автокорреляции и авторегрессии. Автокорреляция — это корреляционная зависимость между последовательными (соседними) значениями уровней временного ряда y1 и y2 , y2 и y3 , y3 и y4 и т. д. Например, урожайность в определенные годы связана с урожайностью предшествующих лет, энерговооруженность производства за определенный год зависит каким-то образом от электровооруженности этого производства в предшествующие годы и т. д. Чтобы оценить степень зависимости между соседними уровнями временного ряда (автокорреляцию), рассчитывают коэффициенты автокорреляции между уровнями исходного ряда и того же ряда, но сдвинутого на τ шагов во времени. Величину τ называют шагом (или лагом). Последовательность значений коэффициентов автокорреляции rτ , вычисленных при τ = 1, 2, . . . , l, называют автокорреляционной функцией. Эта функция дает достаточно глубокое представление о внутренней структуре изучаемого экономического явления. Различают два типа автокорреляции, характерной для временных рядов: автокорреляцию уровней временного ряда yt , когда наблюдается зависимость уровней временного ряда, и автокорреляцию остаточной компоненты εt , когда ее значения зависят от предшествующих значений εt−1 , εt−2 и т. д. Коэффициенты автокорреляции рассчитываются по формуле парного коэффициента корреляции. Так, коэффициент автокорреляции первого порядка (τ = 1) есть не что иное, как парный коэффициент корреляции между двумя рядами: y1 , y2 , . . . , yT −1 и y2 , y3 , . . . , yT −1 , yT . Тогда TP −1 (yt − y1 )(yt+1 − y2 ) r1 = s t=1 . TP −1 TP −1 (yt − y1 )2 · (yt+1 − y2 )2 t=1 t=1 где y1 — средний уровень первого ряда; y2 — средний уровень второго ряда. Аналогично вычисляются коэффициенты автокорреляции второго порядка τ = 2, третьего и т. д. 66 Общая формула для расчета коэффициента автокорреляции порядка τ запишется так: TP −τ rτ = s (yt − y1 )(yt+τ − y2 ) t=1 TP −τ t=1 (yt − y1 )2 · . TP −τ (yt+τ − y2 )2 t=1 При расчете коэффициентов автокорреляции с ростом порядка число коррелируемых пар уменьшается, а известно, что при небольшом числе наблюдений значимыми оказываются лишь высокие коэффициенты корреляции. Отсюда следует, что наибольшее значение τ должно быть таким, чтобы число пар наблюдений оказалось достаточным для вычисления коэффициентов автокорреляции rτ . В практике ориентируются на правило τ 6 T /4, где T — общее количество наблюдений временного ряда. Коэффициент автокорреляции изменяется от −1 до 1. Близкое к нулю значение коэффициента говорит об отсутствии автокорреляции уровней ряда, а достаточно высокая по модулю величина свидетельствует об автокоррелированности ряда. Если на оси абсцисс отложить значения τ , а на оси ординат — значения коэффициентов автокорреляции rτ , а затем точки с координатами (τ, rτ ) соединить отрезками прямой, то получится ломаная линия, которая называется коррелограммой. Анализ коррелограмм позволяет определить особенности стохастического процесса, отраженного в изучаемом ряду. Совокупность значений коэффициентов автокорреляции с разными лагами r1 , r2 , . . . , rp образует корреляционную функцию. Интерпретация коррелограмм требует определенного навыка и не всегда осуществима. Приведем несколько наиболее часто встречающихся ситуаций. 1. Если ряд содержит долгосрочную тенденцию к росту или к снижению, то все значения коэффициентов положительны, первый коэффициент r1 достаточно большой, а все последующие имеют тенденцию к снижению (рис. 3.1). Данный временной ряд хорошо аппроксимируется трендовыми моделями. 67 1 rτ 0 -1 1 1 2 3 4 5 4 5 τ Рис. 3.1 rτ 0 -1 1 2 3 τ Рис. 3.2 2. Если ряд имеет краткосрочные корреляции (зависимы смежные уровни ряда между собой), то первый коэффициент r1 положителен и имеет высокое значение (рис. 3.2). С увеличением временного лага корреляционная функция резко уменьшается и сохраняет лишь незначительные затухающие колебания около нуля. Для таких рядов целесообразно использовать авторегрессионные модели. 3. Если ряд имеет периодические колебания, то значения коэффициентов автокорреляции последовательно изменяют свой знак (рис. 3.3, 3.4, 3.5). 4. В случае стационарности временного ряда, когда с течением времени его математическое ожидание и дисперсия остаются постоянными, с ростом временного лага колебания коэффициентов автокорреляции затухают (рис. 3.6). 68 1 rτ 0 -1 1 3 2 4 5 τ Рис. 3.3 1 rτ 0 -1 1 2 3 4 5 τ Рис. 3.4 1 rτ 0 -1 1 2 3 4 5 τ Рис. 3.5 69 1 rτ 0 -1 1 3 2 1 5 4 τ Рис. 3.6 rτ 0 -1 1 2 3 4 5 τ Рис. 3.7 5. Для полностью случайного ряда значения коэффициентов автокорреляции близки к нулю (рис. 3.7). При анализе временных рядов необходимо также знать, существует ли автокорреляция остаточной компоненты, поскольку для оцени- εt 0 Рис. 3.8. Гомоскедастичность t вания параметров уравнения регрессии методом наименьших квадратов одним из условий было условие нормальности распределения остаточной составляющей (нулевое математическое ожидание, неизменность дисперсии и независимость остатков). 70 εt Если же возникает ситуация, когда дисперсия остаточной компо- 0 t ненты возрастает, т. е. распределение отличается от нормального, говорят о наличии автокорреляции в остатках (иначе это явление называется ге- Рис. 3.9. Гетероскедастичность тероскедастичностью). Такая ситуация возникает, когда анализируемые объекты неоднородны. Например, если исследуется зависимость прибыли предприятия от каких-либо факторов (размера основных фондов), то естественно ожидать, что для больших предприятий колебание прибыли будет выше, чем для малых. Условие независимости дисперсии от номера наблюдения Dεt = σ 2 (t = 1, T ) называется гомоскедастичностью (рис. 3.8). Случай, когда это условие не выполняется, т. е. возрастает дисперсия остаточной компоненты, называется гетероскедастичностью (рис. 3.9). Условие cov(εt · εS ) = 0 при t 6= S указывает на некоррелированεt 0 t Рис. 3.10. Автокорреляция остатков ность ошибок для разных наблюдений. Это условие часто нарушается, когда данные являются временными рядами. Тогда говорят об автокорреляции в остатках (см. 3.10). Самым распространенным методом проверки автокорреляции в остатках в настоящее время является критерий Дарбина — Уотсона. Гипотеза о наличии автокорреляции про- 71 веряется с помощью случайной величины n−1 P (εt+1 − εt )2 d= t=1 n P . ε2t t=1 Здесь εt+1 и εt — отклонения от тренда. Возможные значения критерия находятся в интервале [0, 4]. Если автокорреляция в ряду отсутствует, то значения критерия d колеблются около 2. В общем случае расчетное значение критерия Дарбина — Уотсона может попасть в один из подинтервалов значений в промежутке от 0 до 4. При попадании расчетного значения критерия в конкретный подинтервал делаются соответствующие выводы о наличии (отсутствии) автокорреляции, либо о невозможности сделать вывод (в этом случае необходимо провести дополнительные исследования): 4 − d}в . . . 4| − d{z 0| . {z . . d}н . . . |dв . . .{z н...4 } есть есть есть Эмпирическое значение d сравнивается с табличным значением. В таблице значений критерия указываются два значения критерия d1 и d2 (верхняя и нижняя граница теоретических значений). Критическое значение распределения Дарбина — Уотсона определяют для уровня значимости α, при этом ν — число факторов в уравнении регрессии, n — число членов временного ряда. При сравнении расчетного значения d с табличным может получиться один из трех исходов: 1. dрасч < d1 — автокорреляция присутствует; 2. dрасч > d2 — автокорреляция отсутствует; 3. d1 6 dрасч 6 d2 — необходимо дальнейшее исследование. Величина критерия d различна при положительной и отрицательной автокорреляции; при отрицательной автокорреляции d находится в интервале [2, 4], тогда для проверки определяют величину d0 = 4 − d. Для определения автокорреляции вычисляют также коэффициент 72 автокорреляции остатков n P ρ= εt+1 εt t=1 . n P 2 εt t=1 Коэффициент автокорреляции остатков может принимать как положительные, так и отрицательные значения (вообще |ρ| 6 1). При положительном значении ρ делают вывод о наличии автокорреляции в остатках; отрицательное значение ρ говорит о регулярной смене знака остатков, т. е. о чередовании положительных и отрицательных отклонений. Как было отмечено выше, для временных рядов с краткосрочными тенденциями целесообразно построение авторегрессионных моделей. В общем виде модель авторегрессии порядка p имеет следующий вид: yb = α0 + α1 yt−1 + α2 yt−2 + . . . + αp yt−p + εt ,   yp yp−1 . . . y1    yp+1 yp . . . y2   где X =  .. ..  ,  ... . . . . .   yT −1 yT −2 . . . yT −p     yp+1 a0      yp+2   a1     Y =  ...  , A =  ... .     yT ap Оценка параметров авторегрессионного уравнения осуществляется по формуле A = (X T X)−1 X T Y. При этом одним из важных вопросов анализа авторегрессии является определение порядка авторегрессионной модели. Низкий порядок модели может дать несущественные результаты, так как в модели не использована важная информация за предыдущие моменты времени. Повышение порядка авторегрессионной модели может привести к снижению качества модели. Поэтому анализ авторегрессии не ограничивается 73 построением только одной модели, строится несколько моделей, по которым определяется ее порядок. Сначала строится уравнение регрессии первого порядка ybt = a0 + a1 yt−1 и для нее находится коэффициент автокорреляции. Затем строится модель второго порядка ybt = a0 + a1 yt−1 + a2 yt−2 . Для нее рассчитывается совокупный коэффициент автокорреляции R1 . Если R1 будет превышать r1 , то переходят к построению модели третьего порядка. Для этой модели также рассчитывается совокупный коэффициент автокорреляции R2 , который сравнивается с предыдущим. Эти расчеты продолжаются до тех пор, пока множественный коэффициент автокорреляции практически станет неизменным при добавлении очередных уровней. Коэффициент множественной автокорреляции определяется по формуле p Rk = r1 β1 + r2 β2 + . . . + rk βk , где ri — парные коэффициенты автокорреляции, βi — коэффициенты регрессии в стандартизованном масштабе. Построенные модели могут быть использованы при краткосрочном прогнозировании изучаемых явлений. 74 Лекция 3.1.4. Многомерные временные ряды При изучении закономерностей социально-экономических явлений большое значение имеет выявление зависимостей между взаимосвязанными, развивающимися во времени явлениями, проведение связанного анализа динамики. С этой целью строятся многофакторные модели взаимосвязанных временных рядов. Многофакторной моделью называют модель, построенную по нескольким временным рядам, уровни которых относятся к одинаковым временным отрезкам или датам. При моделировании многомерных временных рядов особое значение имеет корреляционный и регрессионный анализ. Однако при корреляционно-регрессионном анализе временных рядов необходимо учитывать ряд особенностей, игнорирование которых не позволяет получить правильной оценки взаимосвязи между рядами и адекватной модели этой взаимосвязи. Одна из таких особенностей состоит в наличии автокорреляции, которая скольку другом. менных искажает истинную тесноту связи между уровнями рядов, появляется следствием коррелированности уровней рядов друг с Как правило, коэффициент корреляции между уровнями врерядов, содержащих автокорреляцию, имеет завышенное значе- ние, которое говорит не о высокой степени связи, а о высокой степени сопутствия развития показателей во времени. Высокая мера тесноты связи между уровнями в отдельных случаях может быть получена даже при отсутствии причинно-следственных связей между соответствующими явлениями. Для этого достаточно наличие устойчивых тенденций в развитии явлений, т. е. возможной автокорреляции внутри каждого ряда. Поэтому, прежде чем проводить корреляционный анализ временных рядов, необходимо рассчитать коэффициент автокорреляции и, в случае ее обнаружения, для установления «истинной» зависимости между исследуемыми рядами, требуется устранить автокорреляцию. Существуют различные методы устранения автокорреляции, однако все они преследуют одну цель — исключение из исследуемых рядов основной тенденции. Наиболее применяемые из этих методов: 1. метод коррелирования последовательных или конечных разно75 стей; 2. метод коррелирования отклонений уровней ряда от основной тенденции. Метод коррелирования последовательных разностей — это метод коррелирования первых, вторых и т. д. разностей уровней временных рядов. При этом учитывается вид тренда. Если аппроксимирующие функции линейные, то коррелируются первые разности. Тогда коэффициент корреляции последовательных разностей вычисляют как: n−1 P rxy = s ∆1xt ∆1yt t=1 n−1 P t=1 ∆21xt · . n−1 P t=1 ∆21yt Если аппроксимирующие функции представляют собой параболы второго порядка, то коррелируются вторые разности и т. д. Коррелируя разности уровней, тем самым механически уменьшают автокорреляцию в каждом из рассматриваемых рядов. Методически наиболее правомерным методом коррелирования временных рядов является метод измерения тесноты связи между отклонениями эмпирических значений уровней от выравненных по тренду. Формула коэффициента корреляции по отклонениям от трендов имеет вид n n P P ∗ ∗ εxt εyt (xt − xt )(yt − yt ) t=1 t=1 rxy = s =s . n n n n P P P P (xt − x∗t )2 · (yt − yt∗ )2 ε2xt · ε2yt t=1 Здесь t=1 t=1 t=1 xt , yt — фактические значения показателей; x∗t , yt∗ — расчетные значения показателей; εxt , εyt — отклонения от трендов. Для того, чтобы воспользоваться этой формулой, строят трендовые модели для x и y, с помощью которых оценивают остатки xt и yt . После этого вычисляют коэффициенты автокорреляции остатков и делают вывод о наличии либо отсутствии автокорреляции остаточных компонент. 76 Если автокорреляция остатков отсутствует, то рассчитывают коэффициент корреляции по отклонениям (который будет существенно ниже исходного, рассчитанного по рядам с автокорреляцией). Автокоррелированными могут оказаться остаточные величины и в регрессионной модели, построенной по многомерным временным рядам. Автокорреляция в отклонениях от регрессионной модели, построенной по многомерным временным рядам, обусловлена рядом причин: 1. в модели не учтен некоторый существенный фактор, и его влияние отражается в остатках, вследствие чего последние могут оказаться автокоррелированными; 2. в модели не учтено несколько второстепенных факторов, взаимное влияние которых является существенным вследствие совпадения фаз и направлений их изменения; 3. неправильно выбрана форма связи между факторными и результативными признаками; 4. не учтены особенности внутренней структуры случайной величины. Наиболее распространенным методом определения автокорреляции случайных величин является использование критерия Дарбина — Уотсона. Случайная величина d в этом случае будет иметь вид n−1 P (εt+1 − εt )2 d= t=1 n P . ε2t t=1 где t — случайные отклонения от тренда или регрессионной модели. Если в рядах динамики или в остаточных величинах имеется автокорреляция, то оценки коэффициентов регрессии, полученные методом наименьших квадратов, будут несмещенными, но неэффективными, т.к. наличие автокорреляции увеличивает дисперсии коэффициентов регрессии. Этот факт затрудняет построение доверительных интервалов для коэффициентов регрессии, а также проверку их значимости. 77 Итак, прежде чем проводить корреляционно-регрессионный анализ, необходимо исключить из исследуемых рядов основную тенденцию. Изучая взаимосвязанные временные ряды, следует иметь в виду, что в целом ряде случаев изменение уровней одного ряда может вызвать изменение уровней другого ряда только через определенный интервал времени. Направление и продолжительность отставания уровней одного из взаимосвязанных рядов от уровней другого ряда называются временным лагом. Для лаговых зависимостей применима стандартная техника корреляционно-регрессионного анализа. При вычислении оценок зависимостей ряды показателей сдвигаются друг относительно друга на τ , вследствие этого сдвинутые ряды оказываются короче на τ наблюдений. Коэффициент лаговой корреляции yt+τ и xt определяется по формуле: n−τ P rτ = s (xt − x)(yt+τ − y) t=1 n−τ P t=1 (xt − x)2 · n−τ P (yt+τ − y)2 t=1 где xt и yt+τ — уровни временных рядов, образующих пары; x и y — средние значения укороченных рядов; n — временной интервал наблюдений. Для определения величины сдвига одного ряда относительно другого временного ряда рассчитывается взаимная корреляционная функция, которая представляет собой множество коэффициентов корреляции между уровнями ряда yt и xt в заданные моменты времени t = 1, 2, . . . , n, сдвинутыми относительно друг друга на моментов. Величина и направление временного лага находятся по наибольшему коэффициенту корреляции. Сравнение значений коэффициентов корреляции показывает, с какого момента начинает сказываться влияние изменения уровней одного временного ряда на изменение уровней другого временного ряда и с какого момента это влияние ослабевает или прекращается. В регрессионной модели, построенной по многомерным временным рядам, необходимо исключить мультиколлинеарность. Ее наличие затрудняет проведение анализа изучаемого экономического показателя, т. к. 78 1. усложняется процесс выделения наиболее существенных факторов; 2. искажается смысл коэффициентов регрессии при их экономической интерпретации; 3. затрудняется определение коэффициентов регрессии методом наименьших квадратов, т. к. определитель матрицы системы нормальных уравнений имеет значение, близкое к нулю. При выявлении причин, вызывающих явление мультиколлинеарности, первостепенное значение имеет качественный (логический) анализ. Явление мультиколлинеарности может быть связано как с наличием истинных линейных соотношений между признаками, так и с наличием ошибок в самих признаках, а также с недостаточностью статистической информации. Устранение мультиколлинеарности в многофакторных моделях временных рядов в основном сводится к следующим процедурам: 1. преобразованию множества независимых переменных в несколько ортогональных множеств, используя при этом методы многомерного статистического анализа (факторный анализ и метод главных компонент); 2. исключению из рассмотрения одного или нескольких линейно связанных факторов-аргументов на основе предварительного экономического анализа и априорных сведений о степени влияния каждого исходного фактора на результативный; 3. построению уравнения регрессии по отклонениям от тренда или его конечным разностям; 4. привлечению дополнительной информации. Другой важной проблемой при анализе временных рядов с помощью регрессионного анализа является выбор формы связи (вида уравнения регрессии), от которой в значительной степени зависят практические результаты исследования. 79 Существуют различные способы построения множественной регрессионной модели по временным рядам. 1. Построение модели по уровням временных рядов. Модель будет иметь вид yb = a0 + a1 y1 + a2 y2 + . . . + ap yp . Этот метод имеет ограниченную сферу применения, т. к. при непосредственном коррелировании уровней экономических рядов, содержащих определенные тренды развития, можно столкнуться с проблемой ложной корреляции. Рассмотренный метод может быть использован только при четком подтверждении аналитическими методами отсутствия тенденции и автокорреляции, либо их незначительности. 2. Построение модели по отклонениям уровней временных рядов от выравненных по тренду уровней. Сущность этого способа состоит в том, что из каждого временного ряда исключается временной тренд, являющийся причиной автокорреляции. Модель в общем виде запишется так: yb − yt = a0 + a1 (x1 − x1t ) + . . . + ap (xp − xpt ), где yt , xit (i = 1, p) — основные тенденции моделируемого признака и факторных признаков. 3. Построение модели по разности между уровнями рядов. При использовании данного приема исходят из предположения, что все разности между уровнями временных рядов, начиная с первой, будут содержать только случайную компоненту, причем первые разности содержат случайную компоненту в линейной форме, вторые — описываемую параболой второго порядка, третьи показательной функцией. Модель будет иметь вид ∆yt+1 = a0 + a1 ∆x1, t+1 + a2 ∆x2, t+1 + . . . + ap ∆xp, t+1 . Однако если в результате применения этого метода остаточная компонента окажется сильно автокоррелированной, то он не может быть применен. 80 4. Построение модели по отклонениям уровней от среднего уровня. Справедливо в том случае, если уровни ряда колеблются около средней или имеют очень слабую тенденцию. В этом случае рассматриваемый метод равнозначен методу коррелирования отклонений от тренда. Если уровни ряда имеют ярко выраженную тенденцию, то метод неприемлем. 5. Введение времени в модель в качестве независимой переменной. Такая регрессионная модель, построенная методом коррелирования уровней с включением фактора времени, справедлива в том случае, если основные тенденции исследуемых рядов одинаковы. Если имеется запаздывание во влиянии факторных признаков на результативный, то это учитывается при моделировании независимо от того, каким методом строится модель. 81 Лекция 3.1.5. Циклические и сезонные колебания Внутригодовые уровни многих показателей существенно зависят от сезонности. Так, например, расход электроэнергии в летние месяцы значительно меньше, чем в зимние. Производство многих видов продуктов (сахара, растительного масла и др.), связанных с переработкой сельскохозяйственной продукции, увеличивается в месяцы, следующие непосредственно за окончанием уборки урожая; цены на сезонную продукцию (овощи, фрукты и др.) неодинаковы в различные месяцы и т. д. При графическом изображении таких рядов сезонные колебания наглядно проявляются в повышении или снижении уровней в определенные месяцы года. Причем попытки сгладить эти отклонения путем, например, укрупнения интервалов, приводят к затушевыванию тенденции. Обнаружить колеблемость в ряду, вызванную влиянием сезонности, возможно при наблюдении за месячными (квартальными) уровнями. Наблюдение за сезонными колебаниями представляет интерес с точки зрения стремления к их устранению, например, получить равномерную загрузку мощностей в сельском хозяйстве, строительстве, а также знание особенностей сезонных колебаний может быть использовано при решении многих практических задач, например, планирование выпуска продукции по месяцам, если спрос на нее подвержен влиянию сезонности, и соответственно, планирование потребности в рабочей силе, оборудовании и т.д. Поэтому изучение и измерение «сезонной» волны являются важными моментами при анализе рядов динамики. Выравнивание при помощи ряда Фурье. Когда в эмпирическом ряду наблюдается периодичность изменения уровней, то представить эту периодичность уровней динамического ряда можно в виде гармонических колебаний, т. е. провести аналитическое выравнивание при помощи ряда Фурье ybt = a0 + n X (ak cos kt + bk sin kt). k=1 Синусоиды, полученные при выравнивании рядом Фурье, называют гармониками различных порядков. Показатель k в приведенном уравнении определяет число гармоник. Обычно при выравнивании по ряду 82 Фурье рассчитывают несколько гармоник (чаще не более четырех) и затем уже определяют, с каким числом гармоник наилучшим образом отражается периодичность изменения уровней ряда. При выравнивании по ряду Фурье периодические колебания уровней динамического ряда как бы представляют в виде суммы нескольких синусоид (гармоник), наложенных друг на друга. Так, например, при k = 1 уравнение ряда Фурье будет выглядеть следующим образом: ybt = a0 + a1 cos t + b1 sin t; при k = 2, соответственно, ybt = a0 + a1 cos t + b1 sin t + a2 cos t + b2 sin t и т. д. Параметры уравнения теоретических уровней, определяемых рядом Фурье, находят, как и в других случаях, методом наименьших квадратов. В результате получены формулы для исчисления указанных выше параметров уравнения ряда Фурье: T 1X a0 = yt ; T t=1 T 2X 2πk ak = yt cos t, T t=1 T T 2X 2πk bk = yt sin t. T t=1 T Последовательные значения t обычно определяются от 0 с увеличением (приростом), равным 2π/n, где n — число уровней эмпирического ряда. Например, при n = 10 временные точки t можно записать следующим образом: 0, π 2π 3π 4π 6π 7π 8π 9π , , , , π, , , , . 5 5 5 5 5 5 5 5 Выравнивание по ряду Фурье часто дает положительный эффект в рядах, содержащих сезонную волну. Обычно строятся модели первой гармоники, второй гармоники и т. д., а затем на основании показателей качества полученных уравнений выбирается наиболее близкая модель к фактическим уровням ряда. Рассмотрим модели временных рядов, где предполагается, что наблюдаемые временные ряды являются суммой периодического тренда и 83 f (t) 1 ρ t θ 0 2π 1 λ Рис. 3.11 случайной компоненты, т. е. yt = f (t) + εt , причем детерминированная составляющая f (t) является периодической функцией и может описывать как циклические, так и сезонные колебания. p Здесь ρ = α2 + β 2 , θ = arctg(β/α). Заметим, что период колебания временного ряда n может не совпадать с периодом колебания тригонометрического составляющего λ. Периодичность тренда означает, что он в точности повторяет себя через определенный промежуток времени (т. е. f (t) = f (t + λ)), причем такое повторение абсолютно регулярно. Этот промежуток называют периодом колебаний временного ряда (λ). Величина, обратная периоду, называется частотой (1/λ). Она равна числу периодов (не обязательно целому), содержащемуся в единичном интервале. Иными словами, именно такое число раз функция повторяет свои значения. Тригонометрические функции cos t и sin t являются периодическими с периодом 2π, т. е. cos (t+2π) = cos t и sin (t+2π) = sin t. Отсюда следует, что cos (t + 2πk) = cos t и sin (t + 2πk) = sin t, где k = 1, 2, . . . Можно преобразовать аргументы, сохранив при этом свойство периодичности. Функции cos (λt − θ) и sin (λt − θ) периодичны с периодом 2π/λ , т. е. 2π − θ = cos [λt + 2π − θ] = cos [λt − θ], cos λ t + λ 84 2π − θ = sin [λt + 2π − θ] = sin [λt − θ]. sin λ t + λ Умножение на λ соответствует растяжению или сжатию масштаба времени, а вычитание θ — сдвигу графика косинуса или синуса. Угол θ называется фазой, причем обычно он выбирается так, чтобы периодическая функция косинуса достигала своего первого максимума в точке t = θ/λ. В таком случае 0 6 θ < 2π. При t = 0 указанные тригонометрические функции соответственно равны cos θ и (− sin θ). Наибольшее значение периодической функции называется амплитудой (обозначим его ρ). Сдвинутые косинусоида и синусоида являются линейными комбинациями обычной косинусоиды и обычной синусоиды. Из тригонометрической формулы cos (a − b) = cos a cos b + sin a sin b имеем ρ(cos λt − θ) = ρ [cos(λt) cos θ + sin(λt) sin θ] = α cos λt + β sin λt, p где α = ρ cos θ, β = ρ sin θ, или, что эквивалентно, ρ = α2 + β 2 . При этом tg θ = β/α, тогда θ = arctg(β/α). Детерминированная составляющая модели временного ряда f (t) может быть представлена суммой тригонометрических слагаемых общего вида: 2π 2π 2π f (t) = α cos t + β sin t = ρ cos t−θ . λ λ λ Здесь λ — период колебаний тригонометрического слагаемого, величина λ может не совпадать с периодом колебания временного ряда; α и β — неизвестные параметры; ρ — амплитуда. Пусть числовая последовательность y1 , . . . , yT имеет период n, где n — целое число, т. е. что yt+n = yt , t = 1, . . . , T − n. Представим T = nh, где T — число наблюдений, n — период колебаний временного ряда, h — число периодов в интервале наблюдений. Для полугодовых данных период равен 2, для ежеквартальных — 4, для 85 ежемесячных — 12. Наблюдаемые значения временного ряда можно точно аппроксимировать с помощью T линейно-независимых тригонометрических функций, причем максимальное число тригонометрических составляющих, входящих в разложение детерминированной составляющей модели временного ряда, определяется как: n−1 qmax = — для временных рядов с нечетным периодом n; 2 n qmax = − 1 — для временных рядов с четным периодом n. 2 На практике количество тригонометрических слагаемых может быть и меньше qmax . Порядок тригонометрического слагаемого ϕk (t) задается числом k = 1, 2, . . . , qmax , тогда тригонометрическое составляющее порядка k (или гармонику порядка k) можно записать как ϕk (t) = αk cos 2πk 2πk t + βk sin t. n n Период тригонометрического составляющего λk = n . k Детерминированную составляющую периодических колебаний временного ряда можно представить в виде следующей суммы тригонометрических функций: q P 2πk 2πk f (t) = α0 + αk cos t + βk sin t (n — нечетное); n n k=1 q P 2πk 2πk f (t) = α0 + αk cos t + βk sin t + αn/2 (−1)t (n — четное); n n k=1 Представление называют разложением в ряд Фурье. Слагаемое αn/2 (−1)t представляет собой периодическую функцию с периодом 2π. Оценки параметров для данной функции определяются с помощью метода наименьших квадратов и минимизируют сумму квадратов отклонений фактических значений временного ряда от выравненных: T X (yt − ybt )2 → min . t=1 86 В результате решения системы уравнений независимые оценки параметров рассчитываются как: T 1X a0 = yt ; T t=1 T 2πk 2X yt cos t, ak = T t=1 T T 2X 2πk bk = yt sin t. T t=1 T Для временных рядов с четным n оценка an/2 T 1X = yt (−1)t . T t=1 Оценка дисперсии оценок параметров в модели сезонных колебаний вычисляется как S2 Sa20 = ост ; T 2 2S Sa2k = Sb2k = ост ; T 2 S ост Sa2n/2 = . T Оценки амплитуды колебаний и фазы выглядят следующим образом: p a2k + b2k , bk θk = arctg . ak Представляет интерес проверка гипотезы об отсутствии цикличеRk = ского слагаемого с заданным наименьшим периодом, которая формулируется следующим образом H0 : αk = βk = 0. Если верна нулевая гипотеза, то величины αk и βk независимы и нормально распределены с нулевыми средними и дисперсиями 2σ 2 /T . Тогда статистика T Rk2 2 4Sост имеет нормальное распределение с числом степеней свободы в числителе ν1 = 2 и в знаменателе ν2 = T − p, где p — число оцениваемых коэффициентов. F = 87 Нулевая гипотеза отвергается с уровнем значимости α, если критическое значение критерия Фишера (Fα , ν1 , ν2 ) превысит расчетное значение статистики F . Тогда делается вывод о том, что амплитуда колебаний тригонометрического слагаемого значимо отличается от нуля. Проверка значимости параметров α0 и αn/2 осуществляется с использованием статистики Стьюдента для уровня значимости и числа степеней свободы ν = T − p. Расчетное значение t-статистики строится следующим образом: T · a0 ta0 = 2 2Sост T · an/2 либо tan/2 = . 2 2Sост Если tрасч больше tкрит , то принимается гипотеза о значимости параметров. 88 Тема 3.2. Системы линейных одновременных уравнений Лекция 3.2.1. Основные понятия. Виды систем одновременных уравнений. При изучении функционирования экономических систем исследователь обычно сталкивается со следующей ситуацией: состояние системы в каждый момент времени t описывается набором переменных, среди которых есть как эндогенные (внутрисистемные), так и экзогенные (внешние по отношению к рассматриваемой системе). Между переменными существуют функциональные и статистические связи. К первому типу относятся тождества, вытекающие из определений и содержательного смысла переменных. Ко второму типу относятся поведенческие связи, являющиеся выражением экономических законов, действующих в системе. Поскольку поведение экономических систем носит статистический характер (присутствуют случайные возмущения, погрешности, неучтенные факторы), то для описания поведенческих связей используются регрессионные уравнения. В теории экономико-статистического моделирования систему взаимосвязанных регрессионных уравнений и тождеств, в которой одни и те же переменные в различных регрессионных уравнениях могут одновременно выступать и в роли результирующих показателей, и в роли объясняющих переменных, принято называть системой одновременных (эконометрических) уравнений. При этом в соотношения могут входить переменные, относящиеся не только к периоду t, но и к предшествующим периодам, называемые лаговыми («запаздывающими») переменными. Для экономистов большой интерес представляет количественный анализ модели, т. е. нахождение оценок параметров на основании имеющейся в распоряжении исследователя информации о значениях переменных. Первая из возникающих здесь проблем: можно ли в предложенной модели однозначно восстановить значение некоторого параметра или же его определение принципиально невозможно на основе рассматриваемой модели? Это так называемая проблема идентифицируемости. 89 Проблема оценивания здесь также имеет свои особенности. Основная трудность состоит здесь в том, что в эконометрических моделях переменная, играющая роль независимой (объясняющей) переменной в одном соотношении, может быть зависимой в другом. Это приводит к тому, что в регрессионных уравнениях системы объясняющие переменные и случайные возмущения оказываются коррелированными. Рассмотрим в качестве иллюстрации два классических примера. Пример 1. Модель спроса и предложения («крест Маршалла»). Спрос Qd на некоторый продукт и его предложение Qs зависят от цены продукта p. Рыночный механизм формирует цену таким образом, что спрос и предложение уравниваются. Наблюдению доступна равновесная цена и спрос (совпадающий с предложением). Линейная модель выглядит следующим образом: Qdt = α1 pt + β1 + ut («спрос пропорционален цене»); Qst = α2 pt + β2 + εt («предложение пропорционально цене»). Здесь pt — цена товара, ut и εt — случайные возмущения, имеющие нулевые средние (t = 1, n). Предполагается, что на рынке существует равновесие: Qdt = Qst . В соответствии с этой моделью цена и величина спросапредложения определяется одновременно, поэтому без дополнительных предположений (например, на структуру случайных возмущений) параметры αi и βi однозначно определить нельзя, т. е. они неидентифицируемы. Пример 2. Содержательный смысл модели спроса состоит в утверждении, что потребительские расходы, т. е. спрос, пропорциональны доходу. В свою очередь доход есть сумма потребительских и непотребительских расходов. Математическая формулировка модели такова: ct = α + βyt + ut ; yt = ct + zt , 90 где c — потребительские расходы; y — доход; z — непотребительские расходы; u — случайное возмущение (учитывающее неполноту информации, незамкнутость системы и др.). Предполагается, что уровень непотребительских доходов задан извне, т. е. переменная z экзогенна и определяется независимо от c и y. Случайные величины ut некоррелированы, имеют нулевые средние и одинаковые дисперсии σ 2 . Требуется оценить параметры модели α, β, σ 2 . В выражении для ct переменная y коррелирует со случайным возмущением. Это приводит к тому, что обычные МНК-оценки параметров оказываются смещенными и несостоятельными. Рассмотрим общую линейную модель вида βi1 y1t + βi2 y2t + . . . + βiG yGt + γi1 x1t + . . . + γik xKt = uit , (t = 1, n; i = 1, G). Здесь yit — значения эндогенных переменных в момент t; xit — значения экзогенных переменных в момент t и лаговых эндогенных переменных. Переменные xit в момент времени t называются предопределенными. Совокупность равенств данного вида называется системой одновременных уравнений в структурной форме. На коэффициенты в указанных равенствах накладываются априорные ограничения, например, часть коэффициентов считаются равными нулю. Это обеспечивает возможность статистического оценивания оставшихся. Систему указанных равенств удобно представить в матричном виде: Byt + Gxt = ut , где B — матрица, состоящая из коэффициентов при текущих значениях эндогенных переменных; G — матрица, состоящая из коэффициентов при предопределенных переменных; yt = (y1t , . . . , yGt ); xt = (x1t , . . . , xKt ); ut = (u1t , . . . , uGt ) — векторы-столбцы. 91 Если матрица B невырождена, то систему можно разрешить относительно yt : yt = Px t + η t , где P = −B −1 G; ηt = B −1 ut — случайное возмущение. Такая форма записи называется приведенной формой системы одновременных уравнений. В приведенной форме параметры матрицы P выражают общий (прямой и косвенный) эффект влияния предопределенных переменных на совместно зависимые переменные, тогда как в структурной форме параметры матрицы G отражают только непосредственное влияние предопределенных переменных. Совместно-зависимыми называются переменные, которые в один и тот же момент времени выступают как объясняющие переменные в одних уравнениях и как зависимые — в других. Приведенную форму модели используют для прогнозирования. Параметры модели в приведенной форме оценивают непосредственно с помощью МНК. Уравнения для всех периодов наблюдений могут быть записаны в виде одного матричного уравнения: BY + GX = U. Решение вопросов о том, какие переменные должны быть включены в модель, разделение переменных на эндогенные и экзогенные, а также определение состава переменных каждого уравнения системы составляют суть процесса спецификации модели. Кроме этого, спецификация модели включает в себя априорную информацию: ограничения на коэффициенты и гипотезу о случайных возмущениях ut . Типичным примером априорных ограничений являются исключающие ограничения, выражающие то, что некоторые переменные заведомо не входят в отдельные уравнения и, следовательно, соответствующие им коэффициенты равны нулю. В качестве гипотезы о случайных возмущениях принимается гипотеза о том, что случайные величины ut независимы и имеют один и тот же закон распределения с нулевым средним. 92 Проблема идентифицируемости Предположим, что априорные ограничения являются линейными однородными функциями, каждая из которых зависит только от коэффициентов одного из уравнений структурной формы. Выясним, когда коэффициенты матрицы G могут быть однозначно восстановлены по матрице приведенной формы P . В качестве одного из критериев идентифицируемости, удовлетворение требований которого обеспечивает однозначную идентифицируемость параметров системы уравнений, выступает правило порядка. Правило порядка (или необходимое условие идентифицируемости) определенного уравнения говорит о том, что число неизвестных, исключенных из уравнения, должно быть по меньшей мере равно числу уравнений минус единица, или число исключенных из уравнения экзогенных переменных должно быть не меньше числа участвующих в нем эндогенных переменных, уменьшенного на единицу. В ситуации, когда имеются дополнительные ограничения на коэффициенты приведенной формы (например, требование определенного соотношения между коэффициентами, либо равенство нулю дополнительных коэффициентов сверх правила порядка), говорят о случае сверхидентифицируемости. Среди систем приведенных уравнений наиболее простыми являются рекурсивные системы, для оценивания коэффициентов которых можно применять метод наименьших квадратов. Система одновременных уравнений BY + GX = U называется рекурсивной, если матрица B является нижней треугольной матрицей (т. е. βij = 0 при j > i) и каждое ограничение на структурные коэффициенты относится к отдельному уравнению. Общий вид рекурсивной системы может быть представлен следующим образом: y1 = β11 x1 + . . . + β1n xn + ε1 , y2 = −α21 y1 + β21 x1 + ... + β2n xn + ε2 , ... ym = −αm1 y1 + αm, m−1 ym−1 + βm1 x1 + . . . + βmn xn + εm . Рекурсивные системы являются весьма привлекательными для ис93 пользования их в экономических исследованиях, тем более что реальные экономические системы являются рекурсивными по своей природе. Действительно, вряд ли можно представить рынок, где равновесные цены и спрос формировались бы одновременно (ситуация, приведенная в Примере 1). Более реальной является ситуация, когда цены в день t устанавливаются в зависимости от объема продаж в предыдущий день, в то время как покупки в день t зависят от цены товара в день t. Математическая модель данной ситуации выглядит так: pt = α0 + α1 qt−1 + ut , qt = β0 + β1 pt + vt . Здесь ut и vt — случайные возмущения, которые можно считать независимыми, и тогда в данном случае мы имеем модель рекурсивной системы. Необходимость рассматривать системы, отличные от рекурсивных, возникает в связи с тем, что исследователь обычно располагает усредненными (агрегированными) данными. Например, данные о рыночной конъюнктуре могут быть усреднены по недельным или месячным периодам, т. е. известными являются величины: Pt — средняя цена за неделю t; Qt — средний объем ежедневных продаж за неделю t. Если считать время реакции рынка, как и раньше, равным одному дню, то соотношение Pt = α0 + α1 Qt−1 + ut вряд ли можно считать разумным. В этом случае модель Примера 1 представляется более естественной. 94 Лекция 3.2.2. Оценка параметров систем уравнений Пусть теперь имеется несколько изучаемых переменных, для каждой из которых существует свое уравнение регрессии. В совокупности эти уравнения образуют систему, которая является невзаимозависимой, если одни изучаемые переменные не выступают факторами-регрессорами для других изучаемых переменных. Если изучаемые переменные возникают не только в левых, но и правых частях уравнений, то такие системы называются одновременными или взаимозависимыми. Невзаимозависимые системы В этом пункте используется сокращенная форма записи уравнений регрессии: b = ẐA + ε, X (1) где X̂ — N × k-матрица центрированных наблюдений за изучаемыми переменными, Ẑ — N × n-матрица центрированных наблюдений за факторными переменными, A — n × k-матрица параметров уравнений регрессии, ε — N × n-матрица ошибок изучаемых переменных (остатков по наблюдениям). Относительно ошибок предполагается, что в каждом наблюдении их математическое ожидание равно нулю, матрица ковариации размерности k × k одинакова и равна Ω (Ω — вещественная, симметричная, положительно определенная матрица), и что они не коррелированы по наблюдениям. Оценивать параметры этой системы можно отдельно по каждому уравнению: A = M −1 m̃, (2) 1 0 1 0 Ẑ Ẑ, m̃ = Ẑ X̂, или через обычные операторы МНКгде M = N N оценивания, записанные последовательно для всех уравнений системы al = M −1 ml , l = 1, . . . , k. Ситуация резко усложняется, если для коэффициентов матрицы A имеются априорные ограничения. Пусть, например, эта матрица  a1 0   0 a2   ... ...  имеет следующую структуру:  ··· 0  ··· 0   . . . ...  ,  0 · · · ak 0 где al — nl -вектор-столбец коэффициентов в l-м уравнении (для l-й изуk P чаемой переменной), nl = n, т.е. многие элементы матрицы A априорl=1 но приравнены нулю. Фактически это означает, что для каждой изучаемой переменной имеется свой набор объясняющих факторов с N × nl -матрицей наблю дений Ẑl Ẑ = Ẑ1 · · ·Ẑk , и система уравнений (1) представляется как совокупность внешне не связанных между собой уравнений: X̂l = Ẑl al + εl , l = 1, . . . , k. (3) Сразу можно заметить, что теперь оператор (2) применить невозможно, т.к. система нормальных уравнений, решением которой является этот оператор, записывается следующим образом:     M11 a1 · · · M1k ak m11 · · · m1k  .. ..  =  .. . . . ..  , ... .   . .   . Mk1 a1 · · · Mkk ak mk1 · · · mkk (4) mll0 = N1 Ẑl0 X̂l0 , т.е. вектор оценок параметров каждого уравнения должен удовлетворять k взаимоисключающим, в общем случае, системам уравнений. Правильная оценка параметров регрессии дается решением следугде Mll0 = 1 0 0 N Ẑl Ẑl , ющих уравнений: k X l0 =1 ωll−10 Mll0 al 0 = k X ωll−10 mll0 , l = 1, . . . , k, l0 =1 где ωll−10 — элемент матрицы Ω−1 . 96 Или в матричной записи:  −1   −1  −1 −1 M1k ak m1k ω11 M11 a1 + · · · +ω1k ω11 m11 + · · · +ω1k     .. .. .. .. ... ... . . . .  = , −1 −1 −1 −1 ωk1 Mk1 a1 + · · · +ωkk Mkk ak ωk1 mk1 + · · · +ωkk mkk (5) которая при сравнении с (4) оказывается результатом умножения в (4) всех Mll0 и mll0 на ωll−10 и сложения столбцов в обеих частях этого выражения. Эта оценка совпадает с обычной МНК-оценкой al = Mll−1 mll , если матрица Ω диагональна, т.е. ошибки изучаемых переменных не коррелированы. Взаимозависимые или одновременные уравнения. Проблема идентификации Далее в этом разделе уравнения регрессии записываются в форме со скрытым свободным членом. X — N × k-матрица наблюдений за изучаемыми переменными x; Z — N ×(n+1)-матрица наблюдений за независимыми факторами z; B — k × k-матрица параметров регрессии при изучаемых переменных; B 6= Ik , иначе система была бы невзаимозависимой; |B| 6= 0 и βll = 1 — условия нормализации, т.е. предполагается, что, в конечном счете, в левой части l-го уравнения остается только l-я переменная, а остальные изучаемые переменные переносятся в правую часть; A — (n + 1) × k-матрица параметров регрессии (последняя строка — свободные члены в уравнениях); ε — N × k-матрица значений случайных ошибок по наблюдениям; XB = ZA + ε. (6) Такая запись одновременных уравнений называется структурной формой. Умножением справа обеих частей этой системы уравнений на B −1 она приводится к форме, описанной в предыдущем пункте. Это — приведенная форма системы: X = ZAB −1 + εB −1 . 97 D = AB −1 — (n + 1) × k-матрица параметров регрессии приведенной формы. Для их оценки можно использовать МНК: D = (Z 0 Z)−1 Z 0 X. Таким образом, матрица D оценивается без проблем, и ее можно считать известной. Однако задача заключается в оценке параметров B и A системы в приведенной форме. Эти параметры, по определению, удовлетворяют следующим условиям: DB − A = 0 (7) или W H = 0, где i h W — (n + 1) × (n + k + 1)-матрица D In+1 , " # B . H — (n + k + 1) × k-матрица −A Это — условия для оценки параметров структурной формы. В общем случае эти условия достаточно бессмысленны, т.к. они одинаковы для параметров всех уравнений. Они описывают лишь множество допустимых значений параметров (одинаковое для всех уравнений), поскольку для n + k + 1 параметров каждого уравнения структурной формы имеется только n + 1 одинаковых уравнений. Необходимы дополнительные условия, специальные для каждого уравнения. Пусть для параметров l-го уравнения кроме требования W Hl = 0 ((Z 0 Z)−1 Z 0 XBl − Al = 0) (8) имеется дополнительно rl условий: Rl Hl = 0, (9) где Rl — rl × (n + k + 1)-матрица дополнительных условий, " # Bl параметров l-го уравнеHl — (n + k + 1)-вектор-столбец −Al ния — l-й ! столбец матрицы H. W Hl = Wl Hl = 0 — общие условия для определения структурRl ных параметров l-го уравнения, где Wl — (n + rl + 1) × (n + k + 1)-матрица. 98 Они позволяют определить искомые параметры с точностью до постоянного множителя (при выполнении условий нормализации βl = 1 параметры определяются однозначно), если и только если ранг матрицы Wl равен n + k. Для этого необходимо, чтобы rl > k − 1. (10) Однако, это условие не является достаточным. Имеется необходимое и достаточное условие для определения параметров l-го уравнения (более операциональное, чем требование равенства n + k ранга матрицы Wl ): rank(Rl H) = k − 1. (11) Доказательство данного утверждения опускается по причине сложности. Теперь вводятся определения, связанные с возможностью нахождения параметров уравнения структурной формы: l-е уравнение не идентифицировано, если rl < k − 1; оно точно идентифицировано, если rl = k−1 и ранг Wl равен n+k; сверхидентифицировано, если rl > k−1. В первом случае параметры не могут быть оценены, и, хотя формально, например, используя МНК, оценки можно получить, они никакого смысла не имеют; во втором случае параметры уравнения оцениваются однозначно; в третьем — имеется несколько вариантов оценок. Обычно строки матрицы Rl являются ортами, т.е. дополнительные ограничения исключают некоторые переменные из структурной формы. Тогда, если kl и nl — количества, соответственно, изучаемых переменных, включая l-ю, и независимых факторов в l-м уравнении, то для его идентификации необходимо, чтобы kl + nl 6 n + 1. (12) В таком случае условие (11) означает, что матрица, составленная из коэффициентов во всех прочих уравнениях, кроме l-го, при переменных, которые исключены из l-го уравнения, должна быть не вырождена. При этом l-й столбец матрицы Rl H из (11), равный нулю, как это следует из (9), исключается из рассмотрения. Дальнейшее изложение ведется в предположении, что строки матрицы Rl — орты. 99 Оценка параметров отдельного уравнения Вводятся дополнительные обозначения: X l — N × kl -матрица наблюдений за изучаемыми переменными xl , входящими в l-е уравнение; Xl — N -вектор-столбец наблюдений за l-й переменной xl ; X−l — N × (kl − 1)-матрица X l без столбца Xl наблюдений за xl− ; β l — kl -вектор-столбец параметров при изучаемых переменных в l-м уравнении; βl — (kl − 1)-вектор-столбец β l с обратным знаком и без l-го элемента βll = 1; Z l — N × (nl + 1)-матрица наблюдений за независимыми факторами z l , входящими в l-е уравнение, включая единичный столбец, соответствующий свободному члену; αl — (nl + 1)-вектор-столбец параметров при этих факторах вместе со свободным членом; εl — N -вектор-столбец остатков в l-м уравнении по наблюдениям. Тогда l-е уравнение регрессии можно записать следующим образом: X l β l = Z l αl + ε l (13) Xl = X−l βl + Z l αl + εl . (14) или Применение обычного МНК к этому уравнению дает в общем случае смещенные и несостоятельные оценки, прежде всего потому, что остатки εl скорее всего коррелированы с регрессорами X−l , которые к тому же недетерминированы и наблюдаются с ошибками. Если данное уравнение точно идентифицировано, то для оценки его параметров можно использовать косвенный метод (КМ) наименьших квадратов: с помощью МНК оцениваются параметры приведенной формы системы уравнений, через которые однозначно выражаются структурные параметры данного уравнения. Можно записать уравнения для оценки косвенным методом в общем случае. 100 Сначала следует обратить внимание на то, что условия (9) эквивалентны требованиям TlB β l = Bl , TlA αl = Al , (15) где TlB — k × kl -матрица, полученная из Ik вычеркиванием столбцов, соответствующих тем изучаемым переменным, которые исключены из l-го уравнения; TlA – аналогичная (n + 1) × (nl + 1)-матрица для Al . Bl и Al имеют нулевые компоненты, соответствующие исключенным из l-го уравнения переменным. Далее необходимо учесть, что параметры структурной формы, удовлетворяющие условиям (15), должны для своей идентификации еще удовлетворять соотношениям (8). Тем самым получается система уравнений для нахождения параметров структурной формы: DTlB bl − TlA al = 0, или по определению матрицы TlB : Dl bl − TlA al = 0, где Dl – оценки параметров приведенной формы уравнений для изучаемых переменных, вошедших в l-е уравнение, или, наконец, l Dl = D− bl + TlA al , (16) где Dl — оценки параметров l-го уравнения в приведенной форме, l D− — оценки параметров приведенной формы уравнений для изучаемых переменных, вошедших в правую часть l-го уравнения. Эти матрицы коэффициентов приведенной формы представляются следующим образом: l Dl = (Z 0 Z)−1 Z 0 X l , Dl = (Z 0 Z)−1 Z 0 Xl , D− = (Z 0 Z)−1 Z 0 X−l . Система уравнений (16) может быть также получена умножением обеих частей системы (14) слева на (Z 0 Z)−1 Z 0 , т.к. третье слагаемое правой части отбрасывается (МНК-остатки должны быть ортогональны 101 регрессорам), а во 2-м слагаемом (Z 0 Z)−1 Z 0 Z l заменяется на TlA (т.к. по определению этой матрицы Z l = ZTlA ). l TlA имеет размерВ общем случае, матрица этой системы D− ность (n + 1)×(kl +nl ). Первый ее блок имеет размерность (n+1)×(kl −1), второй — (n + 1) × (nl + 1). В случае точной идентификации и строгого выполнения условий (12) эта матрица квадратна и не вырождена. Система (16) дает единственное решение — оценку параметров структурной формы l-го уравнения косвенным методом наименьших квадратов. Если уравнение не идентифицировано, переменных в системе (14) оказывается больше, чем уравнений, и эта система представляет бесконечное множество значений параметров структурной формы. Чтобы выбрать из этого множество какое-то решение, часть параметров структурной формы надо зафиксировать, т.е. сделать уравнение идентифицированным. Для сверхидентифицированного уравнения система (14) является переопределенной, и ее уравнения не могут выполняться как равенства. Различные методы оценки такого уравнения реализуют различные подходы к минимизации невязок по уравнениям этой системы. Одним из таких методов является двухшаговый метод (2М) наименьших квадратов. На первом шаге с помощью МНК оцениваются параметры приведенной формы для переменных X−l : l X−l = ZD− + V l, где V l — N × (kl − 1)-матрица остатков по уравнениям; и определяются расчетные значения этих переменных уже без ошибок: l X−lc = ZD− . На втором шаге с помощью МНК оцениваются искомые параметры структурной формы из уравнения: Xl = X−lc bl + Z l al + el . (17) Применим обычный МНК. 102 Можно определить единый оператор 2M-оценивания. Поскольку X−lc = F X−l , где F = Z(Z 0 Z)−1 Z 0 , уравнение (15) записывается как: ! bl Xl = F X−l Z l + el , al а оператор, входящий в него, как: ! !−1 ! l0 l l0 l l0 bl X− F X − X− Z X− F X l = . 0 0 0 al Z l X−l Zl Zl Z l Xl (18) (19) Такой оператор оценивания сверхидентифицированного уравнения можно получить, если МНК применить к системе (14) (в этом случае она переопределена и в ее уравнениях возникают невязки), умножив предварительно обе ее части слева на Z. Отсюда, в частности, следует, что для точно идентифированного уравнения 2М-оценка совпадает с КМ-оценкой, т.к. параметры структурной формы уравнения, однозначно определяемые соотношениями (14), удовлетворяют в этом случае и условиям (16). Соотношения (19) — первая форма записи оператора 2Мc оценивания. Если в (15) учесть, что X−l = X−l − V l , этот оператор можно записать в более прозрачной второй форме: ! !−1 ! l0 l0 l0 l l0 l l0 l (X− − V )Xl X − X− − V V X− Z bl . (20) = 0 0 0 Z l Xl Z l X−l Zl Zl al Попытка применить оператор 2М-оценивания для не идентифицированного уравнения не имеет смысла, т.к. обращаемая матрица в данном операторе вырождена. Для сверхидентифицированного уравнения можно использовать также метод наименьшего дисперсионного отношения (МНДО). Строгое обоснование его применимости вытекает из метода максимального правдоподобия. Пусть bl в уравнении (13) оценено, и X l bl рассматривается как единая эндогенная переменная. В результате применения МНК опреде103 ляются: 0 0 al = (Z l Z l )−1 Z l X l bl , 0 0 где F l = Z l (Z l Z l )−1 Z l , el = (IN − F l )X l bl , 0 (21) 0 e0l el = bl W l bl , где W l = X l (IN − F l )X l . Теперь находится остаточная сумма квадратов при условии, что 0 все экзогенные переменные входят в l-е уравнение. Она равна bl W bl , 0 где W = X l (IN − F )X l . Тогда bl должны были бы быть оценены так, чтобы 0 bl W l bl λ = l0 → min b W bl Иначе было бы трудно понять, почему в этом уравнении присутствуют не все экзогенные переменные. Решение этой задачи приводит к следующим условиям: (W l − λW )bl = 0. (22) Следовательно, λ находится как минимальный корень характеристического уравнения l W − λW = 0, а bl определяется из (22) с точностью до постоянного множителя, т.е. с точностью до нормировки bll = 1. В общем случае λmin > 1, но при правильной спецификации модели λmin −→ 1. N →∞ Оператор ! bl = al 0 X−l X−l l0 − kV V 0 Z l X−l l 0 X−l Z l l0 l Z Z !−1 0 (X−l l0 − kV )Xl 0 Z l Xl ! позволяет получить так называемые оценки k-класса (не путать с k — количеством эндогенных переменных в системе). При k = 0, они являются обычными МНК-оценками для l-го уравнения, что легко проверяется; при k = 1, это — 2М-оценки; при k = λmin — МНДО-оценки (принимается без доказательства). 2М-оценки занимают промежуточное положение между МНК- и МНДО-оценками (т.к. λmin > 1). Исследования показывают, что эффективные оценки получаются при k < 1. 104 Оценка параметров системы идентифицированных уравнений Из приведенной формы системы уравнений следует, что x0 ε = (B −1 )0 A0 z 0 ε + (B −1 )0 ε0 ε. Как и прежде, в любом наблюдении E(ε) = 0, E(ε0 ε) = σ 2 Ω, и ошибки не коррелированы по наблюдениям. Тогда E(x0 ε) = (B −1 )0 E(ε0 ε) = σ 2 (B −1 )0 Ω, т.е. в общем случае все эндогенные переменные коррелированы с ошибками во всех уравнениях. Это является основным препятствием для применения обычного МНК ко всем уравнениям по отдельности. Но в случае, если в матрице B все элементы, расположенные ниже главной диагонали, равны нулю, т.е. в правой части l-го уравнения могут появляться только более младшие эндогенные переменные xl0 , l0 < l, и последней компонентой любого вектора xl является xl , а матрица Ω диагональна, то εl не коррелирует с переменными xl− при любом l. Это — рекурсивная система, и для оценки ее параметров можно применять МНК к отдельным уравнениям. Для оценки параметров всех идентифицированных уравнений системы можно применить трехшаговый метод (3М) наименьших квадратов. Первые два шага 3М совпадают с 2М, но представляются они по сравнению с предыдущим пунктом в несколько иной форме. Предполагается, что идентифицированы все k уравнений: Xl = X−l βl + Z l αl + εl = Ql γl + εl , l = 1, . . . , k, где Ql = [X−l , Z l ], γl = [ βl αl ]0 . Учитывая указанные выше свойства остатков: E(εl ε0l ) = σ 2 ωll IN , E(εl0 ε0l ) = σ 2 ωl0 l IN . Теперь обе части l-го уравнения умножаются слева на Z 0 : Z 0 Xl = Z 0 Ql γl + Z 0 εl , (23) 105 и Z 0 Xl рассматривается как вектор n + 1 наблюдений за одной эндогенной переменной, а Z 0 Ql — как матрица n + 1 наблюдений за nl + kl экзогенными переменными, включая свободный член. Так как все уравнения идентифицированы, и выполнено условие (12), во всех этих новых регрессиях количество наблюдений не меньше количества оцениваемых параметров. Для сверхидентифицированных уравнений количество наблюдений в новой регрессии будет превышать количество оцениваемых параметров. Это более естественный случай. Поэтому 3М-метод обычно применяют для всех сверхидентифицированных уравнений системы. Матрица ковариации остатков по уравнению (23) равна σ 2 ωll Z 0 Z. Она отлична от σ 2 IN , и для получения оценок cl параметров γl этого уравнения нужно использовать ОМНК: 0 0 cl = (Ql Z(Z 0 Z)−1 Z 0 Ql )−1 Ql Z(Z 0 Z)−1 Z 0 Xl , или 0 0 cl = (Ql F Ql )−1 Ql F Xl . Сравнив полученное выражение с (19), легко убедится в том, что cl — 2М-оценка. Если 2М на этом заканчивается, то в 3М полученные оценки cl используются для того, чтобы оценить el , и затем получить оценки W матрицы σ 2 Ω: 1 1 wll = e0l el , wl0 l = e0l0 el . N N Теперь все уравнения (23) записываются в единой системе:        Z 0 X1 Z 0 Q1 0 ··· 0 γ1 Z 0 ε1  0      0  0 2  Z X2   0  γ2  Z ε2  Z Q · · · 0  =   +  , (24) .. . . . .  ...   ...      . . . . . . . . .        Z 0 Xk 0 0 · · · Z 0 Qk γk Z 0 εk или Y = Qγ + η, где Y — соответствующий k · (n + 1)-вектор-столбец наблюдений за изучаемой переменной; k P Q — k(n + 1) × (kl + nl )-матрица наблюдений за экзогенными пеl=1 ременными; 106 γ— k P (kl + nl )-вектор-столбец параметров регрессии; l=1 η — k(n + 1)-вектор-столбец остатков по наблюдениям. Легко проверить, что матрица ковариации остатков η удовлетворяет следующему соотношению: E(ηη 0 ) = σ 2 Ω ⊗ (Z 0 Z). Для нее имеется оценка: k(n + 1) × (n + 1)-матрица Σ = W ⊗ (Z 0 Z). Эта матрица отлична от σ 2 Ik(n+1) , поэтому на третьем шаге 3М-оценивания к единой системе (24) применяется ОМНК и получается окончательная оценка c параметров γ: c = (Q0 Σ−1 Q)−1 Q0 Σ−1 Y. 107 Тема 3.3. Основные понятия и модели дисперсионного анализа Лекция 3.3.1. Основные понятия дисперсионного анализа. Однофакторная дисперсионная модель Дисперсионным анализом называется метод организации (планирования), статистического анализа и интерпретации результатов экспериментов, в которых изучается зависимость количественной переменной y от сочетания градаций качественных переменных X. Предположим, что нас интересует зависимость объема выпуска продукции в цехе от типа производственного процесса, уровня образования рабочих, стиля руководства администрации и др. Использование дисперсионного анализа (далее — ДА) позволяет установить наличие либо отсутствие влияния каждого качественного фактора, а также оценить величину «вклада» каждого качественного фактора в изменение результирующего количественного признака. В приведенном примере рассматривается модель с постоянными факторами. Если же нас интересует не объем выпуска продукции отдельным цехом, а «вклад» в общую изменчивость выпуска, которую вносит разная работа цехов, то постоянный фактор, связанный с характеристикой работы отдельного цеха, заменяют на случайную величину (случайный фактор). Модели ДА, содержащие только случайные факторы, называют моделями со случайными факторами. Модели, куда входят одновременно постоянные и случайные факторы, называют смешанными моделями дисперсионного анализа. Возникают ситуации, когда необходимо в модель дисперсионного анализа ввести дополнительные количественные переменные (называемые регрессионными). Тогда методы изучения моделей, в которых часть переменных является неколичественными, а часть количественными (регрессионными) называются ковариационным анализом. Для дисперсионного анализа существенна классификация, основанная на способе организации исходных данных, т. е. на том, как градации одних факторов (переменных) в исходных данных сочетаются с 108 теми или иными градациями других переменных и как распределено общее число имеющихся наблюдений между различными возможными сочетаниями градаций переменных. Поэтому ДА наиболее эффективен тогда, когда исследователь активно вмешивается в организацию сбора данных (или участвует в планировании экспериментов). Предположим, что в исследование включено K факторов (i = 1, K), причем i-ый фактор имеет P градаций (j = 1, P ). Если каждому из возможных условий соответствует хотя бы одно наблюдение, то такую организацию экспериментов называют полным K-факторным планом. Практически это трудно организовать, поэтому больше распространены неполные планы. В случае, когда требуется сравнить в эксперименте совокупности условий, группируют эксперименты в блоки (например, цеха по типу производственного процесса) так, чтобы внутри блока результаты эксперимента (выпуск продукции) были бы более похожи друг на друга, чем на результаты экспериментов в других блоках. Если внутри каждого блока удается разместить весь набор условий, то такой план эксперимента называют полным блочным планом, если только часть из них — то неполным блочным планом. Для того, чтобы нивелировать влияние не учитываемых при анализе факторов, размещение условий внутри блоков часто производят случайно и тогда такие планы экспериментов называют случайными или рандомизированными планами. Рассмотрим модель однофакторного дисперсионного анализа, когда оценивается влияние одного качественного признака на количественную переменную. Математическая модель однофакторного ДА имеет вид: yij = y + αj + εij , 109 где yij — значение результирующего показателя для i-го (i = 1, nj ) наблюдения при уровне градации j (j = 1, P ) качественного признака; nj — количество наблюдений, ! когда фактор находится на n P уровне j nj = N, j = 1, P ; j=1 y — среднее значение результирующего показателя по всем наблюдениям всех градаций качественного признака; αj — эффект влияния фактора на j-ом уровне; εij — случайная компонента, отражающая влияние всех прочих факторов (предполагается, что случайные погрешности независимы между собой и имеют нормальное распределение с нулевым средним и дисперсией σ 2 ). С содержательной точки зрения однофакторный ДА можно рассматривать как P рядов (каждый длины nj ) независимых наблюдений над нормально распределенными случайными величинами. Рассмотрим табличную форму представления исходных данных для проведения однофакторного ДА (см. таблицу 6). В ДА обычно проверяется гипотеза об отсутствии влияния рассматриваемых неколичественных переменных на результирующий показатель. Для проверки этой гипотезы общая вариация зависимой переменной раскладывается на две составляющие: 1. обусловленную влиянием неколичественного фактора (межгрупповую или объясненную сумму квадратов). Эта составляющая вычисляется как сумма квадратов отклонений групповых средних yj от общего среднего y; 2. обусловленную случайной вариацией зависимого признака (внутригрупповую или остаточную сумму квадратов). Эта составляющая вычисляется как сумма квадратов отклонений наблюдаемых значений от соответствующих групповых средних. 110 111 ... y1j , y2j , . . . , ynj j ... y1P , y2P , . . . , ynP P ... j ... P N= j=1 P P nP ... nj ... n1 nj nj yij y11 , y21 , . . . , yn1 1 Количество наблюдений в группе Значения результирующего показателя 1 Градации качественного фактора yi1 yij yij j=1 i=1 yij yiP nj P P P i=1 nP P ... i=1 nj P ... i=1 n1 P i=1 nj P ... ... yj = yi1 yij N j=1 i=1 yij yij nP i=1 nP P nj i=1 nj P n1 i=1 n1 P yij nj nP P P P yP = yj = y1 = yj = P Среднее значение Сумма наблюдений в наблюдений в группе группе Таблица 6 Таким образом, Dобщ = Dвнутригр + Dмежгр или в обозначениях данных для дисперсионного анализа: nj P X X j=1 i=1 2 (yij − y) = nj P X X (yij − yj + yj − y)2 = j=1 i=1 = nj P X X (yij − yj )2 + j=1 i=1 nj P X X (yj − y)2 . j=1 i=1 Поделив суммы квадратов на соответствующие числа степеней свободы, получим оценки дисперсий: Dобщ = S 2 общ; N −1 Dвнутригр 2 = Sвнутригр ; N −P Dмежгр 2 = Sмежгр ; P −1 При этом внутригрупповая дисперсия характеризует рассеяние внутри групп и отражает влияние неучтенных факторов, межгрупповая дисперсия равна той части дисперсии результирующего показателя, которая отражает разброс относительно общего среднего (причем разброс объясняется влиянием анализируемого неколичественного фактора). Вернемся к проверке гипотезы об отсутствии влияния неколичественного фактора на результирующий показатель Y . Основная гипотеза записывается как 2 2 H0 : σобщ = σвнутригр . Альтернативная гипотеза 2 2 H1 : σобщ > σвнутригр . Для проверки строится статистика, имеющая распределение Фишера и равная отношению общей дисперсии к внутригрупповой: F = 2 Sобщ 2 Sвнутригр . Расчетное значение сравнивается с табличным значением F распределения, соответствующим уровню значимости α, числу степеней свободы числителя ν1 = N − 1 и знаменателя ν2 = N − P . 112 113 «Полная» сумма квадратов факторов) Ошибки (влияние неучтенных качественного признака) Между градациями (влияние Источник вариации Dобщ = 2 j=1 i=1 (yij − y) j=1 i=1 nj P P P (yij − yj )2 (yj − y)2 j=1 i=1 nj P P P Dвнутригр = Dмежгр = nj P P P Сумма квадратов N −1 N −P P −1 Число степеней свободы 2 Sобщ Dвнутригр N −P Dмежгр P −1 Dобщ = N −1 2 Sвнутригр = 2 = Sмежгр Дисперсия (или средние квадраты) F = 2 Sвнутригр 2 Sобщ Критерий F Таблица 7 Если Fрасч > Fтабл , то нулевая гипотеза отвергается с уровнем значимости α. В таком случае с вероятностью, равной p = 1 − α, делается вывод о существенности влияния данного качественного признака на результирующий показатель. Процедуру ДА обычно представляют в форме таблицы 7. 114 Лекция 3.3.2. Модель двухфакторного дисперсионного анализа Исследуется ситуация, когда необходимо установить влияние на зависимый количественный показатель двух качественных признаков A и B с числом градаций соответственно P (i = 1, P ) и Q (j = 1, Q), а также их взаимодействия. Обозначим как θij среднее значение результата эксперимента (эффект взаимодействия) при сочетании i-го уровня фактора A с j-ым уровнем фактора B (среднее значение в (i, j)-ой ячейке прямоугольной таблицы, где строкам соответствуют градации фактора A, а столбцам — градации фактора B). Число наблюдений в ячейке (i, j) равно n, и тогда общее количество наблюдений определяется как N = nP Q. Главным эффектом фактора A на i-ом уровне будем считать число αi , а главным эффектом фактора B на уровне j будем считать число βj . Пусть yijk — k-ое наблюдение зависимого признака в ячейке (i, j), соответствующее i-му уровню фактора A и j-му уровню фактора B (k = 1, n; i = 1, P ; j = 1, Q), y — среднее значение зависимого признака, εijk — случайная составляющая для k-го наблюдения в ячейке (i, j). В модели полного двухфакторного ДА предполагается, что уровни факторов фиксированы. Рассмотрим случай, когда n > 1. Модель двухфакторного ДА примет вид yijk = y + αi + βj + θij + εijk , i = 1, P ; j = 1, Q; k = 1, n. Предполагается, что случайные составляющие независимы и имеют нормальное распределение с нулевым средним и дисперсией σ 2 . Результаты наблюдений для указанного полного двухфакторного ДА удобнее представлять в виде таблицы 8 Среднее значение для сочетания факторов (i, j) определяется как: n P yij = yijk k=1 n , (k = 1, n). 115 116 P P n P y1 = yP 11 , yP 12 , . . . , yP 1n AP Pn yi1k .. . .. . i=1 k=1 P P n P yi11 , yi12 , . . . , yi1n Ai Средние yP 21 , yP 22 , . . . , yP 2n .. . .. . y2 = yi2k Pn i=1 k=1 .. . yi21 , yi22 , . . . , yi2n .. . y221 , y222 , . . . , y22n y211 , y212 , . . . , y21n A2 y121 , y122 , . . . , y12n B2 y111 , y112 , . . . , y11n B1 ... ... .. . ... .. . ... ... ... Bj yj = yijk Pn i=1 k=1 P P n P yP j1 , yP j2 , . . . , yP jn .. . yij1 , yij2 , . . . , yijn .. . y2j1 , y2j2 , . . . , y2jn y1j1 , y1j2 , . . . , y1jn Градации фактора B A1 Градации фактора A ... ... .. . ... .. . ... ... ... yQ = yiQk Pn i=1 k=1 P P n P yP Q1 , yP Q2 , . . . , yP Qn .. . yiQ1 , yiQ2 , . . . , yiQn .. . y2Q1 , y2Q2 , . . . , y2Qn y1Q1 , y1Q2 , . . . , y1Qn BQ yP jk yijk Qn j=1 k=1 Q P n P .. . Qn j=1 k=1 Q P n P .. . y2jk Qn j=1 k=1 Q P n P Qn y1jk Общее среднее: Q P P P n P yijk i=1 j=1 k=1 y= P Qn yP = yi = y2 = y1 = j=1 k=1 Q P n P Средние Таблица 8 Общую сумму квадратов отклонений наблюдений зависимой переменной (Dy ) можно разложить на несколько составных частей: — сумму квадратов, обусловленную влиянием фактора A (DA ); — сумму квадратов, обусловленную влиянием фактора B (DB ); — сумму квадратов, обусловленную влиянием взаимодействия факторов A и B (DAB ); — остаточную сумму квадратов (Dост ). Тогда Dy = Q X P X n X (yijk − y)2 i=1 j=1 k=1 или Q X n P X X 2 (yi − y) + i=1 j=1 k=1 Q X n P X X (yj − y)2 + i=1 j=1 k=1 + Q X n P X X 2 (yij − yi − yj + y) + Q X n P X X (yijk − yij )2 i=1 j=1 k=1 i=1 j=1 k=1 или Qn P X i=1 2 (yi − y) + P n Q X j=1 2 (yj − y) + n Q P X X (yij − yi − yj + y)2 + i=1 j=1 + Q X n P X X (yijk − yij )2 . i=1 j=1 k=1 Результаты двухфакторного ДА также представим в виде таблицы 9. Для степеней свободы выполняется балансовое соотношение: N − 1 = (P − 1) + (Q − 1) + (P − 1)(Q − 1) + N − P Q Оценка значимости влияния каждого фактора, а также их взаимодействия на зависимый показатель проводится так: формируются следующие нулевые гипотезы, свидетельствующие об отсутствии влияния на зависимый показатель того или иного фактора, либо их взаимодействия: 2 H0 : все αi = 0 (тогда σA2 = σост ); 117 118 Dост = Dy = «Полная» сумма квадратов j=1 Q P (yj − y) (yi − y) i=1 (yijk − y)2 i=1 j=1 k=1 Q P P P n P i=1 j=1 k=1 Q P P P n P (yijk − yij )2 (yij − yi − yj + y)2 i=1 j=1 Q P P P Остаточная вариация AиB DAB = n DB = P n Фактор B Взаимодействия DA = Qn P P Сумма квадратов Фактор A Источник изменчивости N −1 N − PQ (P −1)(Q−1) Q−1 P −1 Число степеней свободы — Dост N − PQ DAB (P − 1)(Q − 1) DB = Q−1 DA = P −1 2 Sост = 2 SAB = SB2 SA2 (дисперсия зависимой переменной) «Средние» квадраты — — FAB = 2 SAB 2 Sост SB2 FB = 2 Sост SA2 FA = 2 Sост Критерий F Таблица 9 2 ); H0 : все βj = 0 (тогда σB2 = σост 2 2 = σост ). H0 : все θij = 0 (тогда σAB Для проверки этих гипотез вычисляются значения распределения Фишера FA , FB , FAB (см. формулы в предыдущей таблице), которые затем сравниваются с табличными значениями F -распределения, соответствующими уровню значимости α и числу степеней свободы ν1 (число степеней свободы числителя) и ν2 (число степеней свободы знаменателя) следующим образом: если FAрасч > FAтабл (α, ν1 = P − 1, ν2 = N − P Q); FBрасч > FBтабл (α, ν1 = Q − 1, ν2 = N − P Q); FABрасч > FABтабл (α, ν1 =)(P − 1)(Q − 1), ν2 = N − P Q); то нулевые гипотезы отвергаются и делается вывод о существенности влияния факторов (либо их взаимодействия) на зависимый показатель. Оценки главных эффектов и взаимодействия факторов в модели двухфакторного ДА равны: ai = yi − y (i = 1, P ); bi = yj − y (j = 1, P ); cij = yij − yi + yj + y (i = 1, P , j = 1, Q). 119 Список литературы [1] Айвазян, С. А. Прикладная статистика. Исследование зависимостей. / С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин. — М.: Финансы и статистика, 1985. [2] Айвазян, С. А. Прикладная статистика и основы эконометрики. / С. А. Айвазян, В. С. Мхитарян. — М.: ЮНИТИ, 1998. [3] Андерсон, Т. Статистический анализ временных рядов. / Т. Андерсон. — М.: Мир, 1976. [4] Гомбаров, Г. М. Статистическое моделирование и прогнозирование: Учеб. пособие. / Г. М. Гомбаров, Н. М. Журавель, Ю. Г. Королев и др.; под ред. А. Г. Гранберга. — М.: Финансы и статистика, 1990. [5] Громыко, Г. Л. Статистика. / Г. Л. Громыко. — М.: МГУ, 1981. [6] Джонстон, Дж. Эконометрические методы. / Дж. Джонстон. — М.: Статистика, 1980. [7] Доугерти, К. Введение в эконометрику. / К. Доугерти. — М.: ИНФРА-М, 1997. [8] Дубров, А. М. Многомерные статистические методы. / А. М. Дубров, В. С. Мхитарян, Л. И. Трошин. — М.: Финансы и статистика, 1998. [9] Дрейпер, Н. Прикладной регрессионный анализ: в 2 кн. / Н. Дрейпер, Г. Смит. — М.: Финансы и статистика. Кн. 1. — 1986. Кн. 2. — 1987. [10] Замков, О. О. Математические методы в экономике: Учеб. / О. О. Замков, А. В. Толстопятенко, Ю. Н. Черемных. — М.: МГУ, изд-во «ДИС», 1997. 120 [11] Карасев, А. И. Теория вероятностей и математическая статистика: Учеб. для эконом. спец. вузов. / А. И. Карасев. — М.: Статистика, 1979. [12] Клейнер, Г. Б. Эконометрические зависимости: прицнипы и методы построения. / Г. Б. Клейнер, С. А. Смоляк. — М.: Наука, 2000. [13] Лапо, В. Ф. Теория вероятностей, математическая статистика и эконометрика: Учеб. пособие, кн. 2. / В. Ф. Лапо. — Красноярск: Краснояр. гос. ун-т, 1999. [14] Лизер, С. Эконометрические методы и задачи. / С. Лизер. — М.: Статистика, 1971. [15] Львовский, Е. Н. Статистические методы построения эмпирических формул: Учеб. пособие. / А. И. Карасев. — М.: Высш. шк., 1988. [16] Льюис, К. Д. Методы прогнозирования экономических показателей. / К. Д. Льюис. — М.: Финансы и статистика, 1986. [17] Магнус, Я. Р. Эконометрика. Начальный курс. / Я. Р. Магнус, П. К. Катышев, А. А. Пересецкий. — М.: Дело, 1997. [18] Маленво, Э. Статистические методы эконометрии. / Э. Маленво. — М.: Статистика. Вып. 1. — 1975. Вып. 2. — 1976. [19] Нейман, В. Г. Решение научных, инженерных и экономических задач с помощью ППП STATGRAPHICS. / В. Г. Нейман. — М.: Память, 1993. [20] Сошникова, Л. А. Многомерный статистический анализ в экономике: Учеб. пособие для вузов / Л. А. Сошникова, В. Н. Тамашевич, Г. Уебе, М. Шефер; под ред. проф. В. Н. Тамашевича. — М.: ЮНИТИ-ДАНА, 1999. 121 [21] Сулицкий, В. Н. Методы статистического анализа в управлении: Учеб. пособие. / В. Н. Сулицкий. — М.: Дело, 2002. [22] Тинтнер, Г. Введение в эконометрию. / Г. Тинтнер. — М.: Статистика, 1965. [23] Тюрин, Ю. Н. Анализ данных на компьютере. / Ю. Н. Тюрин, А. А. Макаров; под ред. В. Э. Фигурнова. — М.: ИНФРА-М, Финансы и статистика, 1995. [24] Четыркин, Е. М. Вероятность и статистика. / Е. М. Четыркин, Калихман И. Л. — М.: Финансы и статистика, 1983. [25] Эддоус, М. Методы принятия решения. / М. Эддоус, Р. Мэнсфилд. — М.: Аудит, ЮНИТИ, 1997. [26] Айвазян, С. А. Основы эконометрики: Т. 2. / С. А. Айвазян. — М.: ЮНИТИ, 2001. [27] Бриллинджер, Д. Временные ряды. Обработка данных и теория. / Д. Бриллинджер. — М.: Мир, 1980. [28] Кейн, Э. Экономическая статистика и эконометрия. / Э. Кейн. — М.: Статистика, 1977. [29] Badi H. B. Econometrics. — 2nd edition. — Springer, 1999. [30] Russel D., James G. M. Estimation and Inference in Econometrics. — Oxford University Press, 1993. [31] Greene W. H. Econometric Analysis. — Prentice-Hall, 2000. [32] Judge G. G., Hill R. C., Griffiths W. E., Lütkepohl H., Lee T. Econometric Analysis. — Introduction to the Theory and Practice of Econometric. — John Wiley & Sons, 1993. [33] Maddala G. S. Introduction to Econometrics. — 2nd edition. — Prentice Hall, 1992. [34] Ruud Paul A. An Introduction to Classical Econometric Theory. — 2nd edition. — Oxford University Press, 2000. 122 [35] Griffiths W. E., Hill R. C., Judge G. G. Learning and Practicing econometrics. — John Wiley & Sons, 1993. 123 Предметный указатель Анализ корреляционный, 16 Данные Метод наименьшего дисперсионного отношения, 103 Метод наименьших квадратов Пространственные, 6 Дисперсия, 9 Эконометрика, 3 Форма двухшаговый, 102 косвенный, 100 обычный, 106 трехшаговый, 105 приведенная, 97 структурная, 97 Гистограмма, 15 Идентификация, 99 Мода, 11, 14 Модель авторегрессии, 5 корреляционная, 16 Интервал групповой, 13 Кластер, 4 Коэффициент корреляции Момент, 9 центральный, 10 начальный, 10 произвольный порядка k, 9 генеральный, 17 парный, 17 выборочный, 16 Коэффициент вариации, 10, 12 второй центральный, 9 Невзаимозависимая система уравнений, 95 Объем выборки, 10 Квантиль, 9 выборочная, 11 Математическое ожидание, 16 Медиана, 14 Оценки k-класса, 104 Переменная объясняемая, 5 объясняющая, 5 выборочная, 11 Показатель Мера асимметрии, 14 линейной статистической связи, Показатель эксцесса, 14 16 Поле рассеяния, 12 корреляционное, 16 124 Предложение, 6 Распределение нормальное, 17 Рекурсивная система, 105 Система регрессионных уравнений, 95 Совокупность генеральная, 17 Спрос, 6 Среднее значение признака, 9 наблюдаемого Среднеквадратичное отклонение, 12 Выборочное, 10 Сверхидентифицируемость, 99, 102 Тренд, 5 Уравнение регрессии, 4 Уравнения одновременные, 97 Вариационный размах, 12 Временной ряд, 4–6 Взаимообусловленность, 17 Закон распределения Нормальный, 14 нормальный, 13, 15, 16 125 Учебное издание Евгения Викторовна ЗАНДЕР Наимджон Мулабоевич ИБРАГИМОВ ЭКОНОМЕТРИКА Редактор — О. Ф. Александрова Компьютерная верстка — А. И. Пыжев Лицензия ЛР № 020372 от 29.01.1997 Печать офсетная. Подписано в печать 00.00.07. Формат 60 × 84 / 16. Бумага типографская. Усл. печ. л. 0,0. Уч.-изд. л. 0,0. Тираж 000 экз. Заказ № 0000. Цена договорная. Издательский центр Института естественных и гуманитарных наук Сибирского федерального университета. 660041 Красноярск, пр. Свободный, 79.

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА для студентов экономического факультета

Похожие документы

Разделы

Поддержка

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА для студентов экономического факультета

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib