ОПД.Ф.7 Эконометрика

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Мурманский государственный гуманитарный университет» (ФГБОУ ВПО «МГГУ») УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС ДИСЦИПЛИНЫ ОПД.Ф.07 «Эконометрика» Основная образовательная программа подготовки специалиста по специальности 080116 «Математические методы в экономике» (код и наименование специальности/тей) Утверждено на заседании кафедры математики и математических методов в экономике факультета физико-математического образования, информатики и программирования (протокол № 6 от 27 февраля 2013 г.) Зав. кафедрой _______________О.М. Мартынов Структура учебно-методического комплекса дисциплины РАЗДЕЛ 1. Программа учебной дисциплины. Структура программы учебной дисциплины 1.1 Автор программы: Зайнутдинова Э.Г. ст. преподаватель 1.2 Рецензенты: 1.3 Пояснительная записка: • Цель: Цель преподавания курса – дать студентам научное представление о методах, моделях и приемах, позволяющих получать количественные выражения закономерностям экономической теории на базе экономической статистики с использованием математикостатистического инструментария.• Задачи: В соответствии с целью студенты должны усвоить методы количественной оценки социально-экономических процессов, научиться содержательно интерпретировать формальные результаты. • Место курса в общей системе подготовки специалиста: Курс базируется на дисциплинах «Теория вероятностей» и «Математическая статистика», «Многомерные статистические методы». В свою очередь является основой для дисциплины «Эконометрическое моделирование». • Требования к уровню освоения содержания дисциплины: В результате изучения курса студенты должны: * знать методологию эконометрического исследования и уметь на практике организовать сбор, предварительный анализ и отбор необходимой информации, оценить ее качество; * владеть методами оценки параметров моделей и практическими навыками расчетов по ним, осуществлять оценку качества построенных моделей; * уметь правильно интерпретировать результаты исследований и вырабатывать практические рекомендации по их применению. • Литература, использованная при разработке программы: 1. Авторская программа В.С. Мхитаряна 2. Авторская программа Тихомирова Н.П., Дорохиной Е.Ю. 3. Авторская программа, методические указания Шалабанова А.К., Роганова Д.А. Извлечение (в виде ксерокопии) из ГОС ВПО специальности (направления), содержащее требования к обязательному минимуму содержания дисциплины и общее количество часов (выписка). ОПД.Ф.07 Эконометрика. Линейная модель множественной регрессии. Метод наименьших квадратов (МНК). Свойства оценок МНК. Показатели качества регрессии. Линейные регрессионные модели с гетероскедастичными и автокоррелированными остатками. Обобщенный метод наименьших квадратов (ОМНК). Регрессионные модели с переменной структурой (фиктивные переменные). Нелинейные модели регрессии и линеаризация. Характеристики временных рядов. Модели стационарных и нестационарных временных рядов, их идентификация. Система линейных одновременных уравнений и их идентификация. Косвенный, двухшаговый и трехшаговый метод наименьших квадратов. Идентификация рекурсивных систем одновременных уравнений 1.4 1.5 Объем дисциплины и виды учебной работы (для всех специальностей, на которых читается данная дисциплина): № п/п Шифр и наименование специальности Курс Семе стр 080116 3 Математические методы в экономике 6 Виды учебной работы в часах Трудоемкость Всего аудит. 129 70 ЛК 34 ПР/ СМ 36 ЛБ 0 Вид итогового контроля Сам. (форма работа отчетности) 59 Экзамен 1.6 Содержание дисциплины. 1.6.1 Разделы дисциплины и виды занятий (в часах). Примерное распределение учебного времени: № п/п Наименование раздела, темы Количество часов Общая труд-ть Всего ауд. ЛК ПР/СМ Сам.раб 7 4 2 2 3 2 Раздел 1. Множественная регрессия и корреляция Спецификация модели. Отбор факторов. Выбор Формы уравнения МНК. Оценка параметров регрессии 9 6 3 3 3 3 Множественная, частная корреляция 7 4 2 2 3 4 Оценка надежности качества результатов регрессии и корреляции Фиктивные переменные 8 5 2 3 3 7 4 2 2 3 9 6 3 3 3 7 4 2 2 3 7 4 2 2 3 7 4 2 2 3 9 6 3 3 4 1 5 6 7 8 9 10 11 12 13 14 15 Всего Предпосылки МНК. ОМНК. Раздел 2. Системы эконометрических уравнений Системы уравнений, используемые в эконометрике Структурная и приведенная формы модели Проблема идентификации Оценивание параметров структурной модели: КМНК, ДМНК, ТМНК Раздел 3. Моделирование временных рядов Элементы временного ряда. Автокорреляция уровней временного ряда. Моделирование тенденции. Моделирование сезонных и циклических колебаний. Аддитивная, мультипликативная модель Раздел 4. Изучение взаимосвязей по временным рядам Методы исключения тренда. Автокорреляция в остатках. 4 8 4 2 2 4 8 4 2 2 4 10 6 3 3 4 9 8 129 5 4 70 2 2 34 3 2 36 4 8 59 1.6.2 Содержание разделов дисциплины. Раздел 1. Множественная регрессия и корреляция Спецификация модели. Отбор факторов. Выбор Формы уравнения МНК. Оценка параметров регрессии Множественная, частная корреляция Оценка надежности качества результатов регрессии и корреляции Фиктивные переменные Предпосылки МНК. ОМНК. Раздел 2. Системы эконометрических уравнений Системы уравнений, используемые в эконометрике Структурная и приведенная формы модели Проблема идентификации Оценивание параметров структурной модели: КМНК, ДМНК, ТМНК Раздел 3. Моделирование временных рядов Элементы временного ряда. Автокорреляция уровней временного ряда. Моделирование тенденции. Моделирование сезонных и циклических колебаний. Аддитивная, мультипликативная модель. Раздел 4. Изучение взаимосвязей по временным рядам Методы исключения тренда. Автокорреляция в остатках. 1.6.3 Темы для самостоятельного изучения. Самостоятельные учебные работы предусмотрены с целью контроля процесса усвоения знаний. Самостоятельные работы выполняются после прочтения лекций и проведения практических и семинарных занятий, на которых студенты приобретают знания по данной теме. Задачей самостоятельных работ является обобщение и систематизация учебного материала, и коррекция процесса его усвоения. Форма контроля - контрольная работа, компьютерное моделирование, написание рефератов, тестирование. № 1 2 Форма самостоятельных работ. Наименование раздела. Тема. Раздел Множественная регрессия корреляция Количество часов. Форма контроля 1. МНК. Оценка параметров регрессии. Множественная, частная корреляция. Оценка надежности качества результатов регрессии и корреляции Раздел 2. Системы эконометрических уравнений Системы уравнений, используемые в эконометрике. Структурная и приведенная формы модели. Проблема и 18 Тест, контрольная работа, коллоквиум Подготовка, изучение материала 12 Подготовка, изучение материала Тест, контрольная работа, коллоквиум идентификации 3 4 Раздел 3. Моделирование временных рядов Моделирование тенденции. Моделирование сезонных и циклических колебаний. Аддитивная, мультипликативная модель. Раздел 4. Изучение взаимосвязей по временным рядам Методы исключения тренда. Автокорреляция в остатках. ВСЕГО 13 Тест, контрольная работа, коллоквиум Подготовка, изучение материала 16 Тест, контрольная работа, коллоквиум Подготовка, изучение материала 59 1.7 Методические рекомендации по организации изучения дисциплины. 1.7.1 Тематика и планы аудиторной работы студентов по изученному материалу (планы последовательного проведения занятий: ПР, СМ, ЛБ) по предлагаемой схеме: Раздел 1. Множественная регрессия и корреляция Тема. Спецификация модели. Отбор факторов. Выбор Формы уравнения. Классы моделей. Понятие множественной регрессии. Регрессионные модели (линейные, нелинейные). Алгоритм отбора факторов для построения модели. Тема. МНК. Оценка параметров регрессии Система нормальных уравнений. Уравнение множественной регрессии в стандартизированном масштабе. Экономический смысл параметров уравнения. Коэффициент регрессии. Тема. Множественная, частная корреляция. Индекс множественной корреляции на основе остаточной дисперсии. Индекс множественной корреляции на основе стандартизированных коэффициентов регрессии. Матрица парных коэффициентов корреляции. Индекс множественной корреляции через матрицу парных коэффициентов корреляции. Коэффициент множественной детерминации. Скорректированный коэффициент детерминации. Частные коэффициенты корреляции. Использование частных коэффициентов корреляции для анализа отбора факторов. Тема. Оценка надежности качества результатов регрессии и корреляции F-критерий Фишера. Частный F-критерий Фишера. Дисперсионный анализ для оценки существенности фактора. t- критерий Стьюдента. Тема. Фиктивные переменные. Качественные признаки. Матрица исходных данных. Фиктивные переменные в качестве фактора и в качестве результата. Вероятностно-линейная модель. Фиктивная модель наклона. Фиктивная модель сдвига. Тест Чоу. Тема. Предпосылки МНК. ОМНК. Теорема Гаусса-Маркова. Несмещенность. Состоятельность. Эффективность. Гетероскедастичность. Методы Гольфельда –Квандта. Ранговая корреляция Спирмена. Метода Уайта, Парка, Глейзера. ОМНК. Раздел 2. Системы эконометрических уравнений Тема. Системы уравнений, используемые в эконометрике. Система независимых переменных. Система рекурсивных уравнений. Система взаимозависимых уравнений. Структурная форма модели. Тема. Структурная и приведенная формы модели. Эндогенные, экзогенные переменные. Приведенная форма. Структурные коэффициенты модели. Тема. Проблема идентификации Уравнение: идентифицируемое, неидентифицируемое, сверхидентифицируемое. Условия идентифицируемости модели. Тема. Оценивание параметров структурной модели: КМНК, ДМНК, ТМНК КМНК, ТМНК, ДМНК, применение эконометрических уравнений. Раздел 3. Моделирование временных рядов Тема. Элементы временного ряда. Автокорреляция уровней временного ряда. Временной ряд. Элементы: факторы, формирующие тенденцию, факторы формирующие циклические колебания, случайные факторы. Автокорреляция уровней ряда. Расчет коэффициента автокорреляции. Автокорреляционная функция временного ряда. Тема. Моделирование тенденции. Аналитическое выравнивание временного ряда. Виды трендов. Выбор уравнения тренда. Тема. Моделирование сезонных и циклических колебаний. Аддитивная, мультипликативная модель. Трендовая, сезонная, циклическая компонента. Аддитивная модель. Мультипликативная модель. Методика построения моделей временного ряда. Применение фиктивных переменных для моделирования сезонных колебаний. Раздел 4. Изучение взаимосвязей по временным рядам Тема. Методы исключения тренда. Метод отклонений от тренда. Метод последовательных разностей. Включение в модель регрессии фактора времени. Тема. Автокорреляция в остатках. Нарушение предпосылки МНК, Критерий Дарбина –Уотсона. Оценивание параметров уравнения при наличии автокорреляции в остатках. Практические занятия: решение задач по темам дисциплины. Тема. Спецификация модели. Отбор факторов. Выбор Формы уравнения. Выбор формы уравнения. Алгоритм отбора факторов для построения модели. Тема. МНК. Оценка параметров регрессии Система нормальных уравнений. Уравнение множественной регрессии в стандартизированном масштабе. Экономический смысл параметров уравнения. Коэффициент регрессии. Тема. Множественная, частная корреляция. Индекс множественной корреляции на основе остаточной дисперсии. Индекс множественной корреляции на основе стандартизированных коэффициентов регрессии. Матрица парных коэффициентов корреляции. Индекс множественной корреляции через матрицу парных коэффициентов корреляции. Коэффициент множественной детерминации. Скорректированный коэффициент детерминации. Частные коэффициенты корреляции. Использование частных коэффициентов корреляции для анализа отбора факторов. Тема. Оценка надежности качества результатов регрессии и корреляции F-критерий Фишера. Частный F-критерий Фишера. Дисперсионный анализ для оценки существенности фактора. t- критерий Стьюдента. Тема. Фиктивные переменные. Качественные признаки. Матрица исходных данных. Фиктивные переменные в качестве фактора и в качестве результата. Вероятностно-линейная модель. Фиктивная модель наклона. Фиктивная модель сдвига. Тест Чоу. Тема. Предпосылки МНК. ОМНК. Теорема Гаусса-Маркова. Несмещенность. Состоятельность. Эффективность. Гетероскедастичность. Методы Гольфельда –Квандта. Ранговая корреляция Спирмена. Метода Уайта, Парка, Глейзера. ОМНК. Раздел 2. Системы эконометрических уравнений Тема. Системы уравнений, используемые в эконометрике. Система независимых переменных. Система рекурсивных уравнений. Система взаимозависимых уравнений. Структурная форма модели. Тема. Структурная и приведенная формы модели. Эндогенные, экзогенные переменные. Приведенная форма. Структурные коэффициенты модели. Тема. Проблема идентификации Уравнение: идентифицируемое, неидентифицируемое, сверхидентифицируемое. Условия идентифицируемости модели. Тема. Оценивание параметров структурной модели: КМНК, ДМНК, ТМНК КМНК, ТМНК, ДМНК, применение эконометрических уравнений. Раздел 3. Моделирование временных рядов Тема. Элементы временного ряда. Автокорреляция уровней временного ряда. Временной ряд. Элементы: факторы, формирующие тенденцию, факторы формирующие циклические колебания, случайные факторы. Автокорреляция уровней ряда. Расчет коэффициента автокорреляции. Автокорреляционная функция временного ряда. Тема. Моделирование тенденции. Аналитическое выравнивание временного ряда. Виды трендов. Выбор уравнения тренда. Тема. Моделирование сезонных и циклических колебаний. Аддитивная, мультипликативная модель. Трендовая, сезонная, циклическая компонента. Аддитивная модель. Мультипликативная модель. Методика построения моделей временного ряда. Применение фиктивных переменных для моделирования сезонных колебаний. Раздел 4. Изучение взаимосвязей по временным рядам Тема. Методы исключения тренда. Метод отклонений от тренда. Метод последовательных разностей. Включение в модель регрессии фактора времени. Тема. Автокорреляция в остатках. Нарушение предпосылки МНК, Критерий Дарбина –Уотсона. Оценивание параметров уравнения при наличии автокорреляции в остатках. Примерные задания. Задание 1. По данным n=15 предприятий, каждое из которых характеризуется по трем показателям: х1 – объем сменной выработки, х2 – себестоимость продукции и х3 – фондоотдача; получена матрица парных коэффициентов корреляции: 1 -0,6 0,8 R= -0,6 1 -0,6 0,8 -0,6 1 Определите оценку частного коэффициента ко Определите оценку частного коэффициента корреляции r23.1. Задание 2. По данным задания 1 проверить при α=0,05 значимость частного коэффициента корреляции r23.1. Задание 3. По данным задания 1 найти точечную оценку множественного коэффициента корреляции, характеризующего тесноту связи между себестоимостью и остальными переменными. Задание 4. По данным заданий 1 и 3 при α=0,05 проверить значимость множественного коэффициента корреляции r 2.13. Задание 5. По данным заданий 1 и 4 определите, какая доля дисперсии х2 объясняется влиянием показателей х1 и х3. Задание 6. Известно, что факторный признак х3 усиливает связь между величинами х1 и х2.По результатам наблюдений получен частный коэффициент корреляции r 12.3= -0,45. Какое значение может принять парный коэффициент корреляции r12: а) –0,4; б) 0,344; в) – 0,8; г)1,2. Задание 7. При исследовании зависимости себестоимости продукции у от объема выпуска х1 и производительности труда х2 по данным n=20 предприятий получено уравнение регрессии ŷ=2,88-0,72х1-1,51х2. С доверительной вероятностью р=0,99 определите, на какую величину максимально может измениться себестоимость продукции у, если объем производства х1 увеличить на единицу (известно, что Sb1= 0,052; Sb2=0,5): а) –0,6; б) 0,72; в) –1,5; г) –0,83. Задание 8. В результате исследования экономической природы выпуска некоторого продукта было построено уравнение регрессии от двух факторов L (труд) и K(капитал) на основе обследования n=20 предприятий некоторой отрасли. Полученное уравнение регрессии имеет следующий вид: У=5,03K0,3L0,7. Остаточная дисперсия составляет 9,18; объясненная дисперсия равна 15,32. Определите стандартную ошибку оценки по регрессии (среднеквадратическое отклонение от линии регрессии). Задание 9. По данным задания 8 определите коэффициент множественной корреляции rY.KL и коэффициент детерминации. Задание 10. По данным задания 8 определите, является ли уравнение регрессии значимым по критерию Фишера при α=0,05. Задание 11. Для уравнения регрессии ŷ=2,88-0,72х1-1,51х2 рассчитан множественный коэффициент корреляции rу.х1х2=0,84. Какая доля вариации результативного показателя у (в %) объясняется входящими в уравнение регрессии переменными х1 и х2: а) 70,6; б) 16,0; в) 84,0; г) 29,4. Задание 12. Предположим, в результате Вашего исследования было получено два вида трендовых моделей, каждая из которых содержит по четыре объясняющих переменных. При этом было обследовано 35 объектов. Построенные модели имеют следующие характеристики: Модель 1. R2=0.95; F=0.5; DW=3,5; Модель 2. R2=0.76; F=1.85; DW=2,1. Какая модель является более адекватной и почему? 1.8 Учебно-методическое обеспечение дисциплины. 1.8.1 Рекомендуемая литература учебные издания: учебники и учебные пособия, включая (при наличии) их электронные версии: • Основной 1. Колемаев В. А. Эконометрика: Учебник для студ. экон. спец. вузов. – М.: ИНФРАМ, 2004 2. Домбровский, В.В. Эконометрика: учебник для вузов- М.: Новый учебник, 2004 3. Новиков А. И. Эконометрика: Учебник для студ. экон. спец. вузов. – М.: ИНФРАМ, 2003 4. Тихомиров Н. П., Дорохина Е. Ю. Эконометрика: Учебник для студ. вузов. – М.: Экзамен, 2003 5. Елисеева И. И. Эконометрика: Учебник для студ. вузов. – М.: Финансы и статистика, 2004 6. Практикум по эконометрике: учеб.пособие для экон.вузов/ Елисеева И.И., Курышева С.В., Гордеенко Н.М..- М.: Финансы и статистика, 2004 гриф 7. Практикум по эконометрике: учеб.пособие для экон.вузов/ Елисеева И.И., Курышева С.В., Гордеенко Н.М..- М.: Финансы и статистика, 2003 гриф 8. Елисеева И. И. Эконометрика: Учебник для студ. вузов. – М.: Финансы и статистика, 2005 9. Елисеева И. И. Практикум по эконометрике: Учеб. пособие для экон. вузов. – М.: Финансы и статистика, 2005 10. Валентинов, В. А. Эконометрика: учебник для студ. вузов, обуч.по спец. «Математические методы в экономике»/В. А. Валентинов.- М.: Дашков и К, 2007.гриф. Дополнительной 1. Замков О.О., Толстопятенко А.В., Черемных Ю.Н. Математические методы в 2. экономике. М., ДиС, 1 изд.-1997, 2-изд.-1999. 3. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М., 4. ЮНИТИ, 1998. 5. Высшая математика для экономистов /Под ред. Н.Ш. Кремера. – М.: ЮНИТИ, 1998. 6. Головина Л.И. Линейная алгебра и некоторые ее приложения. – М.: Наука, 1985. 7. Джонстон Дж. Эконометрические методы : Пер. с англ. – М.: Статистика, 1980. 8. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы. – М.: 9. Финансы и статистика, 1998. 10. Канторович Г.Г. Эконометрика // Методические материалы по экономическим 11. дисциплинам для преподавателей средних школ и вузов. Экономическая статистика. 12. Эконометрика. Программы, тесты, задачи, решения /Под ред. Л.С. Гребнева . – М.: ГУ13. ВШЭ, 2000. 11. Карасев А.И., Кремер Н.Ш., Савельева Т.И. Математические методы и модели в 14. планировании. – М.: Экономика, 1987. 12. Крамер Г. Математические методы статистики: Пер. с англ. – М.: Мир, 1975. 13. Кремер Н.Ш. Теория вероятностей и математическая статистика. –М.: ЮНИТИ, 2000. 14. Кремер Н.Ш. Математическая статистика. – М.: Экономическое образование, 1992. 15. Кремер Н.Ш., Путко Б.А. Эконометрика. – М.: ЮНИТИ-ДАНА, 2002. 16. Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере / Под ред. 15. В.Э. Фигурнова. – М.: Инфра-М, 1998. 16. Уотшем Т. Дж., Паррамоу К. Количественные методы в финансах: Пер. с англ.-М.:. 17. ЮНИТИ, 1999. 18. Ферстер Э., Ренц Б. Методы корреляционного и регрессионного анализа: Пер.с нем. – 19. М.: Финансы и статистика, 1982. 20. Четыркин Е.М., Калихман И.Л. Вероятность и статистика –М.: Финансы и статистика, 21. 1982. 22. Доугерти Кр. Введение в эконометрику. / Пер. с англ. М., ИНФРА-М, 1997. 23. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. М., 24. Дело, 2000. 25. Эконометрика /Под ред. Н.И. Елисеевой.-М.: Финансы и статистика, 2006. 1.9 Материально-техническое обеспечение дисциплины. Лабораторные работы по эконометрике с использованием MS Excel. 1.10 Примерные зачетные тестовые задания. 1. Дайте краткую содержательную интерпретацию следующим понятиям: 1) оценка коэффициентов регрессии; 2) стандартная ошибка коэффициентов; 3) t-статистика; 4) R-квадрат; 5) сумма квадратов остатков; 6) стандартная ошибка регрессии; 7) наилучшая нелинейная несмещенная оценка. 2. Покажите, что однофакторная линейная регрессионная модель y на x может быть получена из однофакторной линейной регрессионной модели x на y в том и только в том случае, когда r  1 (где r - коэффициент корреляции). 2 3. Покажите, что если в регрессионной модели yi    xi  ui среднее значение   x равно нулю ( x  0 ), то cov ˆ , ˆ  0 , где ̂ и ̂ - оценки коэффициентов регрессии, полученные с помощью метода наименьших квадратов. 4. Пусть ûi - остатки, представляющие собой отклонения фактических значений от расчетных ( i  1, 2,, n ). Покажите, что в этом случае имеют место следующие результаты: n  uî  0 i 1 5. Пусть заданы значения yи x. n и  xiui  0 . i 1 Объясните, какую функцию следует выбрать в качестве регрессионной модели, характеризующей зависимость между y и x , если: 1) x  0 и значения x превосходят значения y ; 2) необходимо оценить постоянную эластичность функции спроса. 6. Поскольку вариация коэффициента регрессии ̂ изменяется обратно пропорционально вариации x , то часто предлагается исключить все наблюдения средней области x и использовать для оценки коэффициента значения x . Желательна ли эта процедура? ̂ только крайние 7. Предположим, что требуется построить модель, объясняющую поведение вкладчиков в зависимости от уровня процентной ставки. Объясните, следует ли формировать выборочную совокупность для построения модели из данных периода, когда процентная ставка была стабильна или периода, когда она изменялась. 8. Пусть заданы значения y и x . Объясните, какие приемы следует применять для оценки параметров следующих уравнений, используя наименьших квадратов:  1) y   x ; 2) y   e 4) y     x ; 5) y  e   x 6) y  ; 1  e   x x ; 3) y     log x ; x ;  x 7) y     xc . 9. Дайте определения следующим понятиям: 1) стандартная ошибка регрессии; 2 2 2) R и R ; 3) тест Чоу; 4) степени свободы; 5) линейные ограничения на параметры; 6) анализ вариации. 10. Построено уравнение множественной регрессии y    1 x1   2 x2   3 x3  u . Объясните, как можно проверить гипотезы: 1   2 и  3  1 . обычный метод 11. Следующее регрессионное уравнение оценено как производственная функция: log Q  1,37  0,632 log K  0,452 log L , (0,257) R 2  0,98 . (0,219) cov bK , bL   0,044 . Размер выборки – 40. Проверьте гипотезу: bK , bL . 12. Определите, какое из следующих утверждений является истинным, ложным или неопределенным, и дайте краткое объяснение или приведите доказательство. 1) Предположим, что коэффициент переменной регрессионного уравнения значительно отличается от нуля только при 20% уровне значимости. Если эту переменную исключить 2 из регрессионного уравнения, то R2 и 2 скорректированный R ( R ) уменьшается. 2) Сравнивая регрессию без ограничений с оценками регрессии с ограничениями ( 2  1 ), получим большое значение коэффициентов корреляции R 2 , если ограничение истинно, и меньшее – в противном случае. 3) В регрессии y на x наблюдения, далекие от среднего значения, имеют большое влияние на величину оцениваемого коэффициента регрессии, чем наблюдения, близкие к среднему значению. 13. Следующее уравнение: yˆ t  2,20  0,104 x1t  3,48 x2t  0,34 x3t (3,4) было получено с (0,005) помощью (2,2) (0,15) обычного МНК по данным выборочной совокупности объема T  80 . Стандартные ошибки приведены в скобках, объясненная сумма квадратов – 112,5; остаточная сумма квадратов – 19,5. 1) Какой из коэффициентов регрессии значимо отличается от нуля при 5%-ном уровне значимости? 2 2) Вычислите значение множественного коэффициента корреляции R . 3) Вычислите значение скорректированного множественного коэффициента 2 корреляции R . 14. Предположим, что даны характеристики двух выборочных совокупностей: Выборка 1 Выборка 2 n  20 n  25 x  20 x  23 y  25 y  28 S xx  80 S xx  100 S xy  120 S xy  150 S yy  200 S yy  250 1) Построить линейные регрессионные уравнения для каждой выборки отдельно и для объединенной выборки. 2) Запишите условия, которые позволяют сделать вывод, подтверждающий обоснованность объединенной регрессии. 3) Объясните, как можно проверить обоснованность построения объединенной регрессии, используя приведенные характеристики. 15. Исследователь проверяет две спецификации регрессионного уравнения y    x  u , y      x   z  u . Объясните, при каких условиях следующие спецификации (Обозначение параметров «с крышками» являются оценками). 1) ˆ  ˆ  . истины. 2) Если ûi и uˆ i - оцененные остатки двух уравнений, то  uî2   uî2 . 3) ̂ статистически значим (при 5%-ном уровне значимости), а ˆ  - нет. 4) ˆ  статистически значим (при 5%-ном уровне значимости), а ̂ 16. Модель - нет. y   0  1 x1t   2 x2t   3 x3t  ut была оценена с помощью обычного МНК по 26 наблюдениям. В результате было получено следующее уравнение: yˆ t  2  3,5 x1t  0,7 x2t  2,0 x3t , (1,9) (2,2) (2,4) t-статистики приведены в скобках, R  0,982 . Такая же модель была оценена 2 при ограничении 1   2 , что позволило получить регрессионное уравнение вида: yˆ t  1,5  3 x1t  x2t   0,6 x3t , (2,7) R 2  0,876 . (2,4) 1) Проверьте значимость ограничения 1   2 . Изложите предположения, при которых эта проверка обоснована. 2) Предположим, что x2t исключено из уравнения: увеличится или уменьшится 2 скорректированный R ? 2 3) Увеличится или уменьшится R , если x2t исключить из уравнения? 17. Предположим, что ни одна из оценок коэффициентов регрессии y на x1 , x2 ,  , xn не превосходит своей стандартной ошибки, и дисперсионное отношение Фишера отвергает гипотезу: H 0 : b1  b2    bk  0 . 1) Возможна ли такая ситуация? 2) Какие случаи приводят к подобной ситуации? 3) Какой дальнейший анализ следует провести в этой ситуации? 18. Студент получил следующие результаты при проведении регрессионного анализа: 1) Ry.123  0,89 , R y.1234  0,86 ; 2 2 2) Ry.123  0,86 , R y.1234  0,82 . 2 2 В какой из записей он допустил ошибку? 19. Спрос на цейлонский чай в США задан следующим уравнением: log Q   0  1 log PC   2 log PI   3 log PB   4 log Y  u , где Q - импорт цейлонского чая; PC - цена цейлонского чая; PI - цена индийского чая; PB - цена бразильского кофе; Y - чистый доход. Были получены следующие результаты при T  22 : log Q  2,837  1,481 log PC  1,186 log PB  0,257 log Y , RSS  0,4277 , (2,0) (0,987) (0,134) (0,370) log Q  log PC  0,738  0,199 log PB  0,261 log Y , RSS  0,6788 . (0,820) (0,155) (0,165) 1) Проверьте гипотезу: i  1, 2, 3, 4 . 1  1,  2  0 и  3 ,  4  0 при  i  0 для 2) Объясните экономическое приложение этих результатов. 20. Дайте определение терминам «гетероскедастичность» и «гомоскедастичность». Объясните, какие эффекты могут возникать в случае гетероскедастичности, если оценки параметров регрессии получаются с помощью обычного МНК. 21. Объясните следующие тесты на гомоскедастичность: 1) Голдфелда-Куандта; 2) Бреуша-Пагана. 22. Объясните, как вы будете выбирать наилучшую среди следующих четырех регрессионных моделей: 1) y  1  1 x  u1 ; 2) y   2   2 log x  u2 ; 3) log y   3   3 x  u3 ; 4) log y   4   4 x  u 4 . 23. В линейной регрессионной модели yi    xi  ui предполагается, что ошибки ui имеют дисперсию, зависящую от переменной zi . Объясните, как вы будете выбирать наиболее приемлемую среди следующих четырех спецификаций: 1) var ui    ; 2) var ui    zi ; 3) var ui    zi ; 4) var ui    zi . 2 2 2 2 2 3 24. При изучении 27 предприятий с различным масштабом деятельности y изменяется от 30 до 210, а x - от 247 до 1650, где y - число руководителей, x - число подчиненных. Получены следующие результаты: Переменная x Коэффициент Стандартная ошибка t-статистика 0,115 0,011 9,30 константа 14,448 9,562 1,51 n  27 s  21,73 R 2  0,776 Были вычислены и проанализированы остатки для каждого значения x . Результаты анализа показали, что величина остатков зависит от значения x. Однако при построении регрессии на 1 этот эффект не проявился. Была x выдвинута гипотеза, что var ui    2 xi2 . Затем было построено уравнение вида: y 1  0,121  3,803  , x  x (0,009) R 2  0,03 , (4,570) которое после приведения к исходному виду записывается следующим образом: y  3,803  0,121x . При оценивании параметров уравнения регрессии были получены следующие характеристики: Переменная Коэффициент Стандартная ошибка x 0,121 0,009 константа 3,803 4,507 s  22,577 n  27 t-статистика 13,44 0,832 R 2  0,7578 2 1) Исследователь видит уменьшение значения R и делает вывод о том, что первое уравнение лучше второго. Справедлив ли его вывод? 2) Как будет выглядеть уравнение регрессии, если при его оценивании вместо гипотезы var ui    xi будет использована гипотеза var ui    xi ? Какая из этих альтернативных гипотез лучше? 2 2 2 2 2 3) Прокомментируйте вычисления R из преобразованного уравнения и R из уравнения в терминах первичных переменных. 25. При оценивании недвижимости возникло подозрение, что для более дорогих домов отношение между оценкой и ценой, по которой они были проданы, гораздо меньше, чем это же отношение для более дешевых домов. Чтобы проверить это подозрение были построены три следующие модели: 1) Ai    Si  ui ; 2) Ai / Si    Si  ui ; 3) log Ai     log Si  ui , где Ai - оценка i-го дома, S i - цена, по которой он продан. По выборке из 416 домов были получены оценки уравнений: а) Ai  7505,40  0,3382 Si , (559,2) (0,0136) R 2  0,597 ; стандартные ошибки (13,42) (24,79) б) Ai  0,7374  4,5714  10 (0,0144) (51,38) t-статистики 6 R 2  0,2917 ; Si , ( 3,5005  10 7 ) стандартные ошибки (24,79) t-статистики R 2  0,6547 . в) Ai  2,8312  0,6722 S i , Было сделано предложение, что более подходящими для проверки этого подозрения, являются обратные уравнения: 4) Si   0   1 Ai  i ; 5) Ai / Si   0  1 Ai  i . Оценивание по той же самой выборке позволило получить следующие оценки обратных уравнений: R 2  0,597 ; г) S i  2050 ,07  0,7669 Ai , (1527,93) (0,0713) (1,3417) (24,79) стандартные ошибки д) Ai / Si  0,5556  3,8288  10 (0,0203) (27,26) ( 9,506  10 7 ) (0,404) t-статистики 7 Si , R 2  0,0004 . стандартные ошибки t-статистики Среднее значение A / S  5,6439 . a) b) c) Объясните, какие коэффициенты в этих уравнениях можно использовать для проверки истинности возникшего подозрения? Аргументируйте, почему уравнения 4) и 5) более подходящие для получения подтверждения истинности подозрения, чем уравнения 1) - 3). Объясните, почему уравнения 2) и 5) более подходящие для подтверждения истинности подозрения, чем уравнение 1) и 4). 26. Какие из следующих AR процессов стационарны? 1) X t  0,9 X t 1  0,2 X t  2   t ; 2) X t  0,8 X t 1  0,4 X t  2   t ; 3) X t  1,0 X t 1  0,8 X t  2   t . 27. Какие из следующих МА(2) процессов обратимы? 1) X t   t  0,9 t 1  0,2 t  2 ; 2) X t   t  1,8 t 1  0,4 t  2 ; 3) X t   t  0,8 t 1  0,4 t  2 28. Рассмотрим ARMA модель: X t  1,0 X t 1  0,5 X t  2   t  0,9 t 1  0,2 t  2 . Выразите t как функцию X t и запаздывающие значения X t путем разложения  t  1  0,9 L  0,2 L2  1  1,0 L  0,5L2 X t по степеням полинома L . 1 29. Для AR процесса второго порядка покажите, что (теоретический) частный коэффициент автокорреляции второго порядка задается выражением  2    12 / 1  12 . 30. Предположим, что коррелограмм временных рядов, построенный по 100 наблюдениям, имеет r1  0,50 , r2  0,63 , r3  0,10 , r4  0,08 , r5  0,17 , r6  0,13 , r7  0,09 , r8  0,05 , r9  0,12 , r10  0,05 . Предложите ARMA модель, которая будет наиболее подходящей. [Подсказка: стандартная ошибка каждого значения корреляционной функции большие, чем 2 / ~ 1 / N  0,10 . Значения, N значимы. Таким образом, только два значимы, поэтому процесс МА(2) наиболее подходящий.] 31. Объясните, в каких ситуациях применяется: 1) тест Дарбина-Уотсона; 2) тест Кохрейна-Оркатта; 3) процедура Дарбина; 4) процедура Хилдрета-Лу. 32. Было оценено уравнение, в котором в качестве объясняющей переменной использовалось запаздывающее значение зависимой переменной yt 1 : yt  2,7  0,4 xt  0,9 yt 1 , R 2  0,98 , (0,4) (0,06) DW=1,9. У построенной зависимости высокий множественный коэффициент корреляции и статистика Дарбина-Уотсона (DW) близка к 2, что свидетельствует об отсутствии 2 автокорреляции остатков. Можно ли утверждать, что даже при высоком R это уравнение непригодно для практического использования? 33. Определите истинность следующих утверждений. Дайте соответствующие объяснения: 1) Автокорреляция остатков u приводит к смещенным оценкам и смещенным стандартным ошибкам при оценке коэффициента уравнения y   x  u методом наименьших квадратов. 2) Тест Дарбина-Уотсона на автокорреляцию остатков не применим, если ошибки гетероскедастичны. 3) Тест Дарбина-Уотсона на автокорреляцию остатков не применим, если запаздывающие зависимые переменные используются в качестве объясняющих переменных. 4) Исследователь, оценивая функцию спроса двумя способами (по уровням спроса и первым разностям), получил, что коэффициенты корреляции равны 0,90 и 0,80 соответственно. Он выбрал модель с наибольшим коэффициентом корреляции. В данной ситуации это является правильным обоснованием выбора модели. 5) Метод наименьших квадратов, применяемый к временным рядам экономических показателей, обычно приводит к смещенным оценкам, так как временные ряды автокоррелированы. 6) Тест Дарбина-Уотсона используется для проверки ошибок на автокорреляцию в регрессионном уравнении, основанном на данных временных рядов. 7) Тот факт, что статистика Дарбина-Уотсона значима, необязательно означает существование автокорреляции в ошибках. Для подтверждения этого следует применить еще один тест. yt   yt 1   xt  ut , в которой остатки 8) Рассмотрим модель автокоррелированы. Даже если с помощью обычного МНК получены несостоятельные оценки параметров, то модель все же можно использовать для целей прогнозирования при условии, что границы изменения xt в прогнозном периоде не отличаются от границ изменения в ретроспективном периоде. 9) Рассмотрим модель yt    xt  ut , ut  ut 1  et , 0    1 , где et - независимы и имеют нормальный закон распределения со  2 IN 0,  2 . Регрессия yt на xt дает возможность получить более эффективные оценки  , чем регрессия y t средним 0 и дисперсией на xt . 10) Тест Дарбина-Уотсона – бесполезный тест, поскольку он не применим почти в каждом из случаев, которые встречаются на практике. 34. Фразу: «Поскольку модель содержит запаздывающую зависимую переменную, статистика Дарбина-Уотсона ненадежна» часто можно встретить в эмпирических работах. 1) Что означает эта фраза? 2) Существует ли какой-либо способ избежания этой проблемы? 35. Объясните значение следующих терминов: 1) 2) 3) 4) 5) 6) 7) 8) 9) экзогенные переменные; эндогенные переменные; структурные уравнения; приведенная форма структурных уравнений; порядковое условие для идентификации; ранговое условие для идентификации; косвенный метод наименьших квадратов; двухшаговый метод наименьших квадратов; рекурсивные системы. 36. Объясните, в чем заключается проблема идентификации в контексте модели линейных одновременных уравнений. 37. Рассмотрим модель из трех уравнений: y1  13 y3   12 x2  u1 y2   21 y1   23 y3   21 x1   22 x2  u2 y3   33 x3  u3 где y1 , y2 и y3 - эндогенные переменные, а x1 , x2 и x3 - экзогенные. Используя порядковые и ранговые условия, проверьте возможность идентификации каждого уравнения модели. Предположим, что вы хотите оценить первое уравнение модели с помощью двухшагового МНК, но у вас в наличие имеется программа только с обычным МНК. Объясните шаг за шагом, как вы оцените 13 ,  12 и var u1  . 38. Что означает фраза: «Формула оценки инвариантна к нормализации»? Возникают ли какие-либо проблемы, если формула оценки не инвариантна к нормализации? Какой из методов оценивания дает инвариантные к нормализации формулы оценок? 1) косвенный МНК; 2) двухшаговый МНК. 39. Рассмотрим модель y1   y2   x  u1 y2   y1   x  u2 где x - экзогенная переменная; ошибки u1 и u 2 имеют среднее, равное нулю, и неавтокоррелированы. 1) Напишите уравнения, выражающие приведенные коэффициенты через структурные параметры. 2) Покажите, что если   0 , то  можно идентифицировать. Можно ли в этом случае определить параметры  и  ? 2 40. Объясните, как Вы вычислите R при использовании методов оценивания одновременных уравнений? 41. Структура модели с четырьмя эндогенными и тремя экзогенными переменными («1» означает присутствие переменной в уравнении, а «0» - отсутствие) выглядит следующим образом: 1 0 1 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0 1 0 0 1 0 1 1 0 1 0 Какое из этих уравнений идентифицируемо? 42. Укажите, какое из следующих утверждений истинно, ложно или неопределенно, и дайте краткое объяснение. 1) В системе одновременных уравнений чем больше число экзогенных переменных, тем лучше. 2) Любая переменная может быть эндогенной в одном уравнении и экзогенной – в другом. 3) Некоторые системы одновременных уравнений могут быть оценены с помощью обычного МНК. 1.11 Примерный перечень вопросов к зачету (экзамену). 1 1. Определение эконометрики. Эконометрический метод и этапы эконометрического исследования. 2. Парная регрессия и корреляция: спецификация модели, виды моделей. 3. Линейная модель парной регрессии. Смысл и оценка параметров. 4. Оценка существенности уравнения в целом и отдельных его параметров ( F критерий Фишера и t -критерий Стьюдента). 5. Прогноз по линейному уравнению регрессии. Средняя ошибка аппроксимации. 6. Нелинейная регрессия. Классы нелинейных регрессий. 7. Отбор факторов при построении уравнения множественной регрессии. 8. Оценка параметров уравнения множественной регрессии. 9. Множественная корреляция, индекс множественной детерминации. 10. Частные коэффициенты корреляции. 11. F -критерий Фишера и частный множественной регрессии. F -критерий Фишера для уравнения 12. t -критерий Стьюдента для уравнения множественной регрессии. 13. Предпосылки МНК. 14. Эконометрическая модель наблюдений с гетероскедастичными остатками. 15. Обобщенный МНК. 16. Фиктивные переменные во множественной регрессии. 17. Общее понятие о системах экономических уравнений; классификация систем. 18. Системы взаимосвязанных уравнений. Структурная и приведенная формы модели. 19. Идентификация уравнения и системы. Необходимое и достаточные условия. 20. Оценивание параметров структурной модели. Применение систем эконометрических уравнений. 21. Методы оценки параметров структурной формы модели. 22. Основные элементы временного ряда. 23. Автокорреляция уровней временного ряда и выявление его структуры. 24. Аддитивная модель временного ряда. 25. Мультипликативная модель временного ряда. 26. Специфика статистической оценки взаимосвязи двух временных рядов. 27. Методы исключения тенденции: метод отклонений от трендов, последовательных разностей, включения в модель фактора времени. 28. Автокорреляция в остатках. Критерий Дарбина-Уотсона. 1.12 Комплект экзаменационных билетов (утвержденный зав. кафедрой до начала сессии) Билет. 1. Определение эконометрики. Эконометрический метод и этапы эконометрического исследования. 2. Множественная регрессия и корреляция: спецификация модели, виды моделей. Билет. 3. Множественная модель парной регрессии. Смысл и оценка параметров. 4. Оценка существенности уравнения в целом и отдельных его параметров ( F критерий Фишера и t -критерий Стьюдента). Билет. 5. Прогноз по линейному уравнению регрессии. Средняя ошибка аппроксимации. 6. Нелинейная регрессия. Классы нелинейных регрессий. Билет. 7. Отбор факторов при построении уравнения множественной регрессии. 8. Оценка параметров уравнения множественной регрессии. Билет. 9. Множественная корреляция, индекс множественной детерминации. 10. Частные коэффициенты корреляции. Билет. 11. F -критерий Фишера и частный F -критерий Фишера для уравнения множественной регрессии. 12. t -критерий Стьюдента для уравнения множественной регрессии. Билет. 13. Предпосылки МНК. 14. Эконометрическая модель наблюдений с гетероскедастичными остатками. Билет. 15. Обобщенный МНК. 16. Фиктивные переменные во множественной регрессии. Билет. 17. Общее понятие о системах экономических уравнений; классификация систем. 18. Системы взаимосвязанных уравнений. Структурная и приведенная формы модели. Билет. 19. Идентификация уравнения и системы. Необходимое и достаточные условия. 20. Оценивание параметров структурной модели. Применение систем эконометрических уравнений. Билет. 21. Методы оценки параметров структурной формы модели. 22. Основные элементы временного ряда. Билет. 23. Автокорреляция уровней временного ряда и выявление его структуры. 24. Аддитивная модель временного ряда. Билет. 25. Мультипликативная модель временного ряда. 26. Специфика статистической оценки взаимосвязи двух временных рядов. Билет. 27. Методы исключения тенденции: метод отклонений от последовательных разностей, включения в модель фактора времени. 28. Автокорреляция в остатках. Критерий Дарбина-Уотсона. трендов, 1.13 Примерная тематика рефератов.  Принципы построения и использования эконометрических моделей и методов в экономических исследованиях.  Исходные предпосылки эконометричеcкого моделирования.  Предпосылки классической регрессионной модели.  Классический метод наименьших квадратов.  Свойства оценок параметров модели, полученных классическим МНК.  Процедуры отбора факторов эконометрических моделей (на примерах).  Критерии качества эконометрических моделей (иллюстрация использования).  Эконометрические модели с лаговыми переменными (примеры применения).  Проблемы оценки параметров в моделях с лаговыми переменными.  Двухшаговый МНК. Примеры использования в моделях с лаговыми переменными.  Предпосылки использования метода главных компонент в экономических исследованиях.  Применение метода главных компонент в моделях рыночной конъюнктуры.  Гипотезы финансовой эконометрики.  Модели финансовых процессов с изменяющейся вариацией (примеры использования).  Модели временных рядов финансовых показателей с нелинейными структурами (примеры использования).  Системы взаимозависимых уравнений как эконометрические модели (примеры использования).  Методы оценки параметров взаимозависимых уравнений.  Примеры использования рекурсивных и блочно-рекурсивных моделей в экономических исследованиях.  Одношаговый и двухшаговый МНК в оценке параметров системы взаимозависимых уравнений (иллюстрация применения).  Модели с переменной структурой: причины изменчивости и способы ее отображения в модели.  Приемы обнаружения изменчивости структуры модели (на примерах).  Модели с переключениями. Примеры использования.  Модели с эволюционирующими коэффициентами (иллюстрация применения).  Модели с дискретными зависимыми переменными. Примеры использования.  Процедура прогнозирования на основе эконометрической модели (на примерах).  Проблемы верификации прогноза.  Точный и приближенный методы построения доверительных интервалов прогноза (примеры расчетов).  Математическое обеспечение эконометрических моделей. 1.14 Примерная тематика курсовых работ – отсутствуют по учебному плану. 1.15 Примерная тематика квалификационных (дипломных) работ –учебным планом не предусмотрены. 1.16 Методика(и) исследования (если есть) – исследовательские проекты 1.17 Бально-рейтинговая система, используемая преподавателем для оценивания знаний студентов по данной дисциплине. Промежуточная аттестацию – до 70 баллов. Выполнение проекта – до 10 баллов. Работа на практических занятиях – до 20 балла.. Экзамен. Экзаменационная оценка складывается из: 20 баллов – выполнение заданий на практических занятиях; 20 баллов – результаты тестирования; 20 баллов – выполнение контрольной работы; 40 баллов – ответ на экзамене в письменном виде. Экзаменационная оценка: «отлично» - 86-100 баллов; «хорошо» - 66-85 баллов; «удовлетворительно» - 46-65 баллов; «неудовлетворительно» - 45 баллов и ниже. РАЗДЕЛ 2. Методические указания по изучению дисциплины (или её разделов) и контрольные задания для студентов заочной формы обучения. Контрольная работа по дисциплине «Эконометрика». Тема «Временные ряды». Задание: 1. Построить автокорреляционную функцию временного ряда и сделать вывод о наличии сезонных колебаний. 2. Определить тип тренда, предложенного временного ряда. 3. Построить аддитивную модель временного ряда (для нечетных вариантов) или мультипликативную модель временного ряда (для четных вариантов). 4. Сделать прогноз на 2 квартала вперед. Варианты индивидуальных заданий Вариант 1,2 Имеются условные данные об объемах потребления электроэнергии жителями региона за 2005-2008 гг. по кварталам. кварталы г од I I 5,6 ,7 7 ,1 8,2 ,6 9,1 ,7 2 005 2 006 2 007 2 008 I II 4 ,2 5 5 ,4 6 ,5 I V 5 ,1 I 9 1 60,2 6 0,8 7 1,3 1 1 Вариант 3,4 В таблице представлены условные данные 2005-2008 гг. поквартально о числе заключенных браков в регионе. кварталы год I II III IV 2005 281 214 510 15 2006 405 308 618 206 2007 491 337 683 253 2008 602 403 717 349 Вариант 5,6 Даны условные исходные значения количества родившихся в регионе по кварталам за 4 года (2005-2008 гг.) кварталы I 413 410 397 390 2005 2006 2007 2008 2005 II 370 373 376 375 III 347 344 349 355 IV 335 331 336 341 Вариант 7,8 Имеются поквартальные условные данные о прибыли компании (тыс. руб.) за последние 4 года (2005-2008 гг.) кварталы год I II III IV 2005 55 92 46 50 2006 71 100 51 59 2007 80 109 56 64 2008 91 110 64 72 Варианты индивидуальных заданий Даны системы эконометрических уравнений. Требуется 1. Применив необходимое и достаточное условие идентификации, определите, идентифицируемо ли каждое из уравнений модели. 2. Определите метод оценки параметров модели. 3. Запишите в общем виде приведенную форму модели. Вариант 1 Модель протекционизма Сальватора (упрощенная версия):  M t  a1  b12 N t  b13 St  b14 Et 1  b15 M t 1  1 ,   Nt  a2  b21M t  b23 St  b26Yt   2 , S  a  b M  b N  b X   . 3 31 t 32 t 36 t 3  t где M – доля импорта в ВВП; N – общее число прошений об освобождении от таможенных пошлин; S – число удовлетворенных прошений об освобождении от таможенных пошлин; E – фиктивная переменная, равная 1 для тех лет, в которые курс доллара на международных валютных рынках был искусственно завышен, и 0 – для всех остальных лет; период; Y – реальный ВВП; X – реальный объем чистого экспорта; t  1 – предыдущий период. Вариант 2 t – текущий Макроэкономическая модель (упрощенная версия модели Клейна): Ct  a1  b12Yt  b13Tt  1 ,   I t  a2  b21Yt  b24 K t 1   2 , Y  C  I , t t  t где C – потребление; I – инвестиции; Y – доход; T текущий период; t  1 – предыдущий период. – налоги; K – запас капитала; t – Вариант 3 Макроэкономическая модель экономики США (одна из версий): Ct  a1  b11Yt  b12Ct 1  1 , I  a  b Y  b r   ,  t 2 21 t 23 t 2  rt  a3  b31Yt  b34 M t  b35 rt 1   3 , Yt  Ct  I t  Gt , где C – потребление; Y – ВВП; I – инвестиции; r – процентная ставка; M – денежная масса; G – государственные расходы; t – текущий период; t  1 – предыдущий период. Вариант 4 Модель Кейнса (одна из версий): Ct  a1  b11Yt  b12Yt 1  1 ,   I t  a2  b21Yt   2 , Y  C  I  G , t t t  t где C – потребление; Y – ВВП; I – валовые инвестиции; G расходы; t – текущий период; t  1 – предыдущий период. – государственные Вариант 5 Модель денежного и товарного рынков:  Rt  a1  b12Yt  b14 M t  1 ,  Yt  a2  b21 Rt  b23 I t  b25Gt   2 , I  a  b R   , 3 31 t 3  t где R – процентные ставки; Y – реальный ВВП; M – денежная масса; I инвестиции; G – реальные государственные расходы. Вариант 6 Модифицированная модель Кейнса: – внутренние Ct  a1  b11Yt  1 ,   I t  a2  b21Yt  b22Yt 1   2 , Y  C  I  G , t t t  t где C – потребление; Y – доход; I – инвестиции; G текущий период; t  1 – предыдущий период. – государственные расходы; t – Вариант 7 Макроэкономическая модель: Ct  a1  b11 Dt  1 , I  a  b Y  b Y   ,  t 2 22 t 23 t 1 2  Yt  Dt  Tt ,  Dt  Ct  I t  Gt , где C – расходы на потребление; Y – чистый национальный продукт; D – чистый национальный доход; I – инвестиции; T – косвенные налоги; G – государственные расходы; t – текущий период; t  1 – предыдущий период. Вариант 8 Гипотетическая модель экономики: Ct  a1  b11Yt  b12 J t  1 , J  a  b Y   ,  t 2 21 t 1 2  Tt  a3  b31Yt   3 , Yt  Ct  J t  Gt , где C – совокупное потребление в период t ; Y – совокупный доход в период t ; J – инвестиции в период t ; T – налоги в период t ; G – государственные доходы в период t. Вариант 9 Модель денежного рынка: где R –  Rt  a1  b11M t  b12Yt  1 ,  Yt  a2  b21 Rt  b22 I t   2 , I  a  b R   , 3 33 t 3  t процентные ставки; Y – ВВП; M – денежная масса; инвестиции. Вариант 10 I – внутренние Конъюнктурная модель имеет вид: Ct  a1  b11Yt  b12Ct 1  1 , I  a  b r  b I   ,  t 2 21 t 22 t 1 2  rt  a3  b31Yt  b32 M t   3 , Yt  Ct  I t  Gt , где C – расходы на потребление; Y – ВВП; I – инвестиции; r – процентная ставка; M – денежная масса; G – государственные расходы; t – текущий период; t  1 – предыдущий период. D.4. Временные ряды Пример решения типовой задачи смотри в разделе 4. Варианты индивидуальных заданий Имеются условные данные об объемах потребления электроэнергии ( yt ) жителями региона за 16 кварталов. Требуется: Построить автокорреляционную функцию и сделать вывод о наличии 5. сезонных колебаний. Построить аддитивную модель временного ряда (для нечетных вариантов) 6. или мультипликативную модель временного ряда (для четных вариантов). Сделать прогноз на 2 квартала вперед. 7. Варианты 1, 2 t yt t yt 1 2 3 4 5 6 7 8 5,8 4,5 5,1 9,1 7,0 5,0 6,0 10,1 9 10 11 12 13 14 15 16 7,9 5,5 6,3 10,8 9,0 6,5 7,0 11,1 Варианты 3, 4 t yt t yt 1 2 3 4 5 6 7 8 5,5 4,6 5,0 9,2 7,1 5,1 5,9 10,0 9 10 11 12 13 14 15 16 8,0 5,6 6,4 10,9 9,1 6,4 7,2 11,0 Варианты 5, 6 t yt t yt 1 2 3 4 5 6 7 8 5,3 4,7 5,2 9,1 7,0 5,0 6,0 10,1 9 10 11 12 13 14 15 16 8,2 5,5 6,5 11,0 8,9 6,5 7,3 11,2 Варианты 7, 8 t yt t yt 1 2 3 4 5 6 7 8 5,5 4,8 5,1 9,0 7,1 4,9 6,1 10,0 9 10 11 12 13 14 15 16 8,3 5,4 6,4 10,9 9,0 6,6 7,5 11,2 Варианты 9, 10 t yt t yt 1 2 3 4 5 6 7 8 5,6 4,7 5,2 9,1 7,0 5,1 6,0 10,2 9 10 11 12 13 14 15 16 8,2 5,6 6,4 10,8 9,1 6,7 7,5 11,3 Литература: 1. Бабешко Л.О. Основы эконометрического моделирования: Учебное пособие. – М.: КомКнига, 2006. – 432 с. 2. Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов / Под ред. проф. Н.Ш. Кремера. – М.: ЮНИТИ-ДАНА, 2008. – 311 с. 3. Практикум по эконометрике: Учебн. пособие / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2005. – 192 с. 4. Эконометрика: Учебник / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2006. – 576 с. РАЗДЕЛ 3. Содержательный компонент теоретического материала. Множественная регрессия и корреляция Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Если же этим влиянием пренебречь нельзя, то в этом случае следует попытаться выявить влияние других факторов, введя их в модель, т.е. построить уравнение множественной регрессии y  f  x1 , x2 , ..., xm  , где y – зависимая переменная (результативный признак), xi – независимые, или объясняющие, переменные (признаки-факторы). Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и целом ряде других вопросов эконометрики. В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике. Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель. 1. Спецификация модели. Отбор факторов при построении уравнения множественной регрессии Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Он включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии. Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям. 1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность. 2. Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи. Включение в модель факторов с высокой интеркорреляцией, может привести к нежелательным последствиям – система нормальных уравнений может оказаться плохо обусловленной и повлечь за собой неустойчивость и ненадежность оценок коэффициентов регрессии. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми. Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором m факторов, то для нее 2 рассчитывается показатель детерминации R , который фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии m факторов. Влияние других, не учтенных в модели факторов, оценивается как соответствующей остаточной дисперсией S 2 . 1  R2 с При дополнительном включении в регрессию m  1 фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться: Rm2 1  Rm2 и Sm1  Sm . Если же этого не происходит и данные показатели практически не отличаются друг от друга, то включаемый в анализ фактор xm 1 не улучшает модель и практически является лишним фактором. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по критерию Стьюдента. Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов производится на основе качественного теоретико-экономического анализа. Однако теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов обычно осуществляется в две стадии: на первой подбираются факторы исходя из сущности проблемы; на второй – на основе матрицы показателей корреляции определяют статистики для параметров регрессии. Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если rx x  0,7 . Если факторы явно коллинеарны, то они дублируют друг друга и один 2 2 i j из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга. Пусть, например, при изучении зависимости y  f  x1 , x2 , x3  матрица парных коэффициентов корреляции оказалась следующей: Таблица 2.1 y x1 x2 x3 y 1 0,8 0,7 0,6 x1 x2 x3 0,8 1 0,8 0,5 0,7 0,8 1 0,2 0,6 0,5 0,2 1 x1 и x2 дублируют друг друга. В анализ целесообразно включить фактор x2 , а не x1 , хотя корреляция x2 с результатом y слабее, чем корреляция фактора x1 с y  ryx  0,7  ryx  0,8  , но зато значительно слабее 2 1 Очевидно, что факторы межфакторная корреляция rx2 x3  0,2  rx1x3  0,5 . Поэтому в данном случае в уравнение множественной регрессии включаются факторы x2 , x3 . По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой и нельзя оценить воздействие каждого фактора в отдельности. Включение в модель мультиколлинеарных факторов нежелательно в силу следующих последствий: 1. Затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл. 2. Оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования. Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами. Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы rxi x j  i  j  были бы равны нулю. Так, для уравнения, включающего три объясняющих переменных y  a  b1 x1  b2 x2  b3 x3 матрица коэффициентов корреляции между факторами имела бы определитель, равный единице: rx1x1 rx1x2 rx1x3 1 0 0 Det R  rx2 x1 rx2 x2 rx2 x3  0 1 0  1. rx3x1 rx3 x2 rx3x3 0 0 1 Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю: rx1x1 rx1x2 rx1x3 1 1 1 Det R  rx2 x1 rx2 x2 rx2 x3  1 1 1  0 . rx3x1 rx3x2 rx3x3 1 1 1 Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И, наоборот, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов. Существует ряд подходов преодоления сильной межфакторной корреляции. Самый простой путь устранения мультиколлинеарности состоит в исключении из модели одного или нескольких факторов. Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними. Одним из путей учета внутренней корреляции факторов является переход к совмещенным уравнениям регрессии, т.е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Так, если построение следующего совмещенного уравнения: y  f  x1 , x2 , x3  , то возможно y  a  b1 x1  b2 x2  b3 x3  b12 x1 x2  b13 x1 x3  b23 x2 x3   . Рассматриваемое уравнение включает взаимодействие первого порядка (взаимодействие двух факторов). Возможно включение в модель и взаимодействий более высокого порядка, если будет доказана их статистическая значимость по F -критерию Фишера, но, как правило, взаимодействия третьего и более высоких порядков оказываются статистически незначимыми. Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования методов регрессии. Подходы к отбору факторов на основе показателей корреляции могут быть разные. Они приводят построение уравнения множественной регрессии соответственно к разным методикам. В зависимости от того, какая методика построения уравнения регрессии принята, меняется алгоритм ее решения на ЭВМ. Наиболее широкое применение получили следующие методы построения уравнения множественной регрессии: 1. Метод исключения – отсев факторов из полного его набора. 2. Метод включения – дополнительное введение фактора. 3. Шаговый регрессионный анализ – исключение ранее введенного фактора. При отборе факторов также рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6–7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то число степеней свободы остаточной дисперсии очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F -критерий меньше табличного значения. 2. Метод наименьших квадратов (МНК). Свойства оценок на основе МНК Возможны разные виды уравнений множественной регрессии: линейные и нелинейные. Ввиду четкой интерпретации параметров наиболее широко используется линейная функция. В линейной множественной регрессии y x  a  b1 x1  b2 x2  ...  bm xm параметры при x называются коэффициентами «чистой» регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизмененном значении других факторов, закрепленных на среднем уровне. Рассмотрим линейную модель множественной регрессии y  a  b1 x1  b2 x2  ...  bm xm   . (2.1) Классический подход к оцениванию параметров линейной модели множественной регрессии основан на методе наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака  i yi  y xi  2 y от расчетных y минимальна:  min . (2.2) Как известно из курса математического анализа, для того чтобы найти экстремум функции нескольких переменных, надо вычислить частные производные первого порядка по каждому из параметров и приравнять их к нулю. Итак. Имеем функцию m  1 аргумента: S  a, b1 , b2 , ..., bm     y  a  b1 x1  b2 x2  ...  bm xm  Находим частные производные первого порядка: 2 .  S  a  2  y  a  b1 x1  b2 x2  ...  bm xm   0;   S  2 x  y  a  b x  b x  ...  b x   0; 1 1 1 2 2 m m  b  1 ........................................................   S  2 x  y  a  b x  b x  ...  b x   0. m 1 1 2 2 m m  bm После элементарных преобразований приходим к системе линейных нормальных уравнений для нахождения параметров линейного уравнения множественной регрессии (2.1): na  b1  x1  b2  x2  ...  bm  xm   y,  2 a  x1  b1  x1  b2  x1 x2  ...  bm  x1 xm   yx1 ,  ................................................................ 2 a x  b x x  b   m 1  1 m 2  x2 xm  ...  bm  xm   yxm . (2.3) Для двухфакторной модели данная система будет иметь вид: na  b1  x1  b2  x2   y,  2 a  x1  b1  x1  b2  x1 x2   yx1 ,  2 a  x2  b1  x1 x2  b2  x2   yx2 . Метод наименьших квадратов применим и к уравнению множественной регрессии в стандартизированном масштабе: (2.4) t y  1t x   2t x  ...   mt x   , 1 где t xi  t y , t x1 , ..., t xm xi  xi  xi 2 – m стандартизированные переменные: , для которых среднее значение равно нулю: квадратическое отклонение равно единице:  t y   txi  1; i ty  ty  txi  0 , y y y , а среднее – стандартизированные коэффициенты регрессии. Стандартизованные коэффициенты регрессии показывают, на сколько единиц изменится в среднем результат, если соответствующий фактор xi изменится на одну единицу при неизменном среднем уровне других факторов. В силу того, что все переменные заданы как центрированные и нормированные, стандартизованные коэффициенты регрессии  i можно сравнивать между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия на результат. В этом основное достоинство стандартизованных коэффициентов регрессии в отличие от коэффициентов «чистой» регрессии, которые несравнимы между собой. Применяя МНК к уравнению множественной регрессии в стандартизированном масштабе, получим систему нормальных уравнений вида где   2 rx1x2   3rx1x3  ...   m rx1xm , ryx1  1    3 rx1x3  ...   m rx1xm , ryx2  1rx1x2   2  ........................................................ ryx  1rx x   2 rx x   3 rx x  ...   m , 1 m 2 m 3 m  m ryxi и rxi x j – коэффициенты парной и межфакторной корреляции. Коэффициенты «чистой» коэффициентами регрессии bi   i y  xi i регрессии bi связаны со (2.5) стандартизованными следующим образом: . (2.6) Поэтому можно переходить от уравнения регрессии в стандартизованном масштабе (2.4) к уравнению регрессии в натуральном масштабе переменных (2.1), при этом параметр a определяется как a  y  b1 x1  b2 x2  ...  bm xm . Рассмотренный смысл стандартизованных коэффициентов регрессии позволяет их использовать при отсеве факторов – из модели исключаются факторы с наименьшим значением  i . На основе линейного уравнения множественной регрессии y  a  b1 x1  b2 x2  ...  bm xm   (2.7) могут быть найдены частные уравнения регрессии:  y x x , x ,..., x  f  x1  ,  1 2 3 m  y x x , x ,..., x  f  x2  ,  2 1 3 m .............................   y xm x1 , x2 ,..., xm1  f  xm  , (2.8) т.е. уравнения регрессии, которые связывают результативный признак с соответствующим фактором xi при закреплении остальных факторов на среднем уровне. В развернутом виде систему (2.8) можно переписать в виде:  y x1x2 , x3 ,..., xm  a  b1 x1  b2 x2  b3 x3  ...  bm xm   ,   y x2 x1 , x3 ,..., xm  a  b1 x1  b2 x2  b3 x3  ...  bm xm   ,  ........................................................................  y x x , x ,..., x  a  b1 x1  b2 x2  b3 x3  ...  bm xm   .  m 1 2 m1 При подстановке в эти уравнения средних значений соответствующих факторов они принимают вид парных уравнений линейной регрессии, т.е. имеем  y x1x2 , x3 ,..., xm  A1  b1 x1 ,   y x2 x1 , x3 ,..., xm  A2  b2 x2 ,  ................................  y x x , x ,..., x  Am  bm xm ,  m 1 2 m1 (2.9) где  A1  a  b2 x2  b3 x3  ...  bm xm ,  A  a  b x  b x  ...  b x ,  2 1 1 3 3 m m  ..............................................  Am  a  b1 x1  b2 x2  b3 x3  ...  bm1 xm1. В отличие от парной регрессии частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности: Эyx  bi  i где регрессии, bi xi , (2.10) y xi x1 , x2 ,... xi 1 , xi 1 ,..., xm – коэффициент регрессии для фактора y xi x1 , x2 ,... xi 1 , xi 1 ,..., xm xi в уравнении множественной – частное уравнение регрессии. Наряду с частными коэффициентами эластичности могут быть найдены средние по совокупности показатели эластичности: Эi  bi  xi y xi , (2.11) которые показывают на сколько процентов в среднем изменится результат, при изменении соответствующего фактора на 1%. Средние показатели эластичности можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат. Рассмотрим пример1 (для сокращения объема вычислений ограничимся только десятью наблюдениями). Пусть имеются следующие данные (условные) о сменной добыче угля на одного рабочего y (т), мощности пласта x1 (м) и уровне механизации работ 1 x2 (%), характеризующие процесс добычи угля в 10 шахтах. Таблица 2.2 № 1 x1 8 x2 5 2 3 1 1 1 2 8 Данные примера взяты из [5] 8 4 5 6 7 8 9 9 8 8 9 9 8 5 7 8 6 4 5 1 0 1 2 7 y 5 1 0 1 7 0 5 6 6 5 6 y , x1 , x2 существует корреляционная зависимость, найдем уравнение регрессии y по x1 и x2 . Предполагая, что между переменными Для удобства дальнейших вычислений составляем таблицу (  8 линейная  y  y x ): I. Таблица 2.3 № 1 2 3 4 1 8 5 5 4 1 21 1 44 2 3 1 1 1 2 4 9 5 8 6 8 7 9 8 9 9 8 1 1 0 умма 4 С реднее ,4 значение 8 0 5 7 8 6 4 5 7 7 1 5 4 6 4 6 1 5 1 6 4 9 3 6 8 8 44 6 08 9 ,3 6 ,8 6 0,8 2 С 8 0 x1  x2 x1  y 9 5 6 7 8 6 5 1 4 1 4 8 5 6 9 6 4 8 6 8 6 6 5 1 9 9 17 2 5 6 00 6 00 2 9 4 5 6 6 3 6 1 5 2 6 4 4 4 96 2 0 1 8 1 6 4 5 2 6 3 4 3 4 2 6 3 0 6 4 4 03 4 9 1,7 4 9,6 4 0,3 6 1 0 4 0 8 2 1 20 8 0 3 5 0 5 8 8 4 6 5 0 8 0 6 ,13 5 6 6 64 ,28 4 45 6 6,4 ,61 3 9 6 ,35 2 4 8 ,23 3 4 4 ,86 4 5 3 ,98 3 4 5 ,64 3 4 6 ,79 8 6 5 ,13 0 1 4 1 5 10 9 x2  y 8 4 4,5 2 1 2 5 ,016 8 ,464 9 ,127 5 ,038 5 ,741 6 ,052 6 ,121 5 ,377 5 ,762 9 ,631 6 ,329 1 – – 2 0 1 0 1 0 0 0 0 0 1 6 2 2 3 – – – – – – – – ,44 ,01 ,36  1 1 1 – – – – – – – – ,56 ,42 ,83 Для нахождения параметров уравнения регрессии в данном случае необходимо решить следующую систему нормальных уравнений: 10a  94b1  63b2  68,  94a  908b1  603b2  664, 63a  603b  417b  445. 1 2  Откуда получаем, что a  3,54 , b1  0,854 , b2  0,367 . следующее уравнение множественной регрессии: Т.е. получили y x  3,54  0,854  x1  0,367  x2 . Оно показывает, что при увеличении только мощности пласта x2 ) на 1 м добыча угля на одного рабочего x1 (при неизменном y увеличится в среднем на 0,854 т, а при x2 (при неизменном x1 ) на 1% – в среднем увеличении только уровня механизации работ на 0,367 т. Найдем уравнение множественной регрессии в стандартизованном масштабе: t y  1t x1   2t x2   , при этом стандартизованные коэффициенты регрессии будут  x1 1,56  0,854   0,728 , y 1,83  1,42  2  b2 x2  0,367   0,285 . y 1,83 1  b1 Т.е. уравнение будет выглядеть следующим образом: t y  0,728  t x1  0, 285  t x2 . Так как стандартизованные коэффициенты регрессии можно сравнивать между собой, то можно сказать, что мощность пласта оказывает большее влияние на сменную добычу угля, чем уровень механизации работ. Сравнивать влияние факторов на результат можно также при помощи средних коэффициентов эластичности (2.11): Эi  bi  xi y xi . Вычисляем: Э1  0,854  9, 4  1,18 , 6,8 Э2  0,367  6,3  0,34 . 6,8 Т.е. увеличение только мощности пласта (от своего среднего значения) или только уровня механизации работ на 1% увеличивает в среднем сменную добычу угля на 1,18% или 0,34% соответственно. Таким образом, подтверждается большее влияние на результат y фактора x1 , чем фактора x2 . 3. Проверка существенности факторов и показатели качества регрессии Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции и его квадрата – показателя детерминации. Показатель множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком или, иначе, оценивает тесноту совместного влияния факторов на результат. Независимо от формы связи показатель множественной корреляции может быть найден как индекс множественной корреляции: Ryx1x2 ... xm 2  ост  1 2 y , (2.12) где  y2 – общая дисперсия результативного признака; 2  ост – остаточная дисперсия. Границы изменения индекса множественной корреляции от 0 до 1. Чем ближе его значение к 1, тем теснее связь результативного признака со всем набором исследуемых факторов. Величина индекса множественной корреляции должна быть больше или равна максимальному парному индексу корреляции: i  1, m . Ryx1x2 ... xm  ryxi (max) При правильном включении факторов в регрессионную модель величина индекса множественной корреляции будет существенно отличаться от индекса корреляции парной зависимости. Если же дополнительно включенные в уравнение множественной регрессии факторы третьестепенны, то индекс множественной корреляции может практически совпадать с индексом парной корреляции (различия в третьем, четвертом знаках). Отсюда ясно, что сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности включения в уравнение регрессии того или иного фактора. Расчет индекса множественной корреляции предполагает определение уравнения множественной регрессии и на его основе остаточной дисперсии:  1  y  y x1x2 ...xm n 2  ост  . 2 (2.13) Можно пользоваться следующей формулой индекса множественной детерминации: Ryx2 1x2 ... xm  1    y  y  y  y x1x2 ... xm 2  2 . (2.14) При линейной зависимости признаков формула индекса корреляции может быть представлена следующим выражением: Ryx1x2 ... xm  где i –  r i yxi стандартизованные множественной , (2.15) коэффициенты регрессии; ryxi – парные коэффициенты корреляции результата с каждым фактором. Формула индекса множественной корреляции для линейной регрессии получила название линейного коэффициента множественной корреляции, или, что то же самое, совокупного коэффициента корреляции. Возможно также при линейной зависимости определение совокупного коэффициента корреляции через матрицу парных коэффициентов корреляции: Ryx1x2 ,..., x p  1  r r11 , (2.16) где 1 ryx1 ryx2 ... ryx p ryx1 1 rx1x2 ... rx1x p r  ryx2 rx2 x1 1 ... rx2 x p ... ... ... ... ... ryx p rx p x1 rx p x2 ... 1 – определитель матрицы парных коэффициентов корреляции; r11  1 rx1x2 ... rx1x p rx2 x1 1 ... rx2 x p ... ... ... ... rx p x1 rx p x2 ... 1 – определитель матрицы межфакторной корреляции. Как видим, величина множественного коэффициента корреляции зависит не только от корреляции результата с каждым из факторов, но и от межфакторной корреляции. Рассмотренная формула позволяет определять совокупный коэффициент корреляции, не обращаясь при этом к уравнению множественной регрессии, а используя лишь парные коэффициенты корреляции. В рассмотренных показателях множественной корреляции (индекс и коэффициент) используется остаточная дисперсия, которая имеет систематическую ошибку в сторону преуменьшения, тем более значительную, чем больше параметров определяется в уравнении регрессии при заданном объеме наблюдений n . Если число параметров при xi равно m и приближается к объему наблюдений, то остаточная дисперсия будет близка к нулю и коэффициент (индекс) корреляции приблизится к единице даже при слабой связи факторов с результатом. Для того чтобы не допустить возможного преувеличения тесноты связи, используется скорректированный индекс (коэффициент) множественной корреляции. Скорректированный индекс множественной корреляции содержит поправку на число степеней свободы, а именно остаточная сумма квадратов делится на число степеней свободы остаточной вариации квадратов отклонений  n  1 .  y  y  2  y  y x1x2 ... xm  2  n  m  1 , а общая сумма на число степеней свободы в целом по совокупности Формула скорректированного индекса множественной детерминации имеет вид: R где m 2     n  m  1 ,  1   y  y   n  1 2 y y – число параметров при переменных Поскольку  y  y  y  y  x1x2 ... xm 2  (2.17) x; n – число наблюдений. 2  1  R2 , то величину скорректированного индекса детерминации можно представить в виде: R  1  1  R 2   2 n 1 . n  m 1 (2.17а) 2 2 Чем больше величина m , тем сильнее различия R и R . Как было показано выше, ранжирование факторов, участвующих во множественной линейной регрессии, может быть проведено через стандартизованные коэффициенты регрессии (  -коэффициенты). Эта же цель может быть достигнута с помощью частных коэффициентов корреляции (для линейных связей). Кроме того, частные показатели корреляции широко используются при решении проблемы отбора факторов: целесообразность включения того или иного фактора в модель можно доказать величиной показателя частной корреляции. Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии. Показатели частной корреляции представляют собой отношение сокращения остаточной дисперсии за счет дополнительного включения в анализ нового фактора к остаточной дисперсии, имевшей место до введения его в модель. В общем виде при наличии m факторов для уравнения y  a  b1 x1  b2 x2 ...  bm xm   y коэффициент частной корреляции, измеряющий влияние на неизменном уровне других факторов, можно определить по формуле: ryxi x1x2 ... xi 1xi 1... xm  1  где Ryx2 1x2 ... xi ... xm 1  Ryx2 1x2 ... xi ... xm 1  Ryx2 1x2 ... xi 1xi 1... xm фактора , Ryx2 1x2 ... xi1xi 1... xm модель фактора xi . при (2.18) – множественный коэффициент детерминации всех результатом; xi , m факторов с – тот же показатель детерминации, но без введения в При двух факторах формула (2.18) примет вид: ryx1x2  1  1  Ryx2 1x2 1  ryx2 2 ryx2 x1  1  ; 1  Ryx2 1x2 1  ryx21 (2.18а) . Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, ryx x – коэффициент частной корреляции 1 2 первого порядка. Соответственно коэффициенты парной корреляции называются коэффициентами нулевого порядка. Коэффициенты частной корреляции более высоких порядков можно определить через коэффициенты частной корреляции более низких порядков по рекуррентной формуле: ryxi x1x2 ... xi 1xi 1... xm  ryxi x1x2 ... xi 1xi 1... xm1  ryxm x1x2 ...xm1  rxi xm x1x2 ...xi 1xi 1...xm1 1  r 2 yxm x1x2 ... xm 1   1  r 2 xi xm x1x2 ... xi 1xi 1 ... xm 1  .(2.19) При двух факторах данная формула примет вид: ryx1x2  ryx1  ryx2  rx1x2 1  r   1  r  2 yx2 2 x1x2 ; ryx2 x1  ryx2  ryx1  rx1x2 1  r   1  r  2 yx1 . (2.19а) 2 x1x2 Для уравнения регрессии с тремя факторами частные коэффициенты корреляции второго порядка определяются на основе частных коэффициентов корреляции первого порядка. Так, по уравнению y  a  b1 x1  b2 x2  b3 x3   возможно исчисление трех частных коэффициентов корреляции второго порядка: ryx1x2 x3 , ryx2 x1x3 , ryx3x1x2 , каждый из которых определяется по рекуррентной формуле. Например, при ryx1x2 x3 : ryx1x2  ryx3x2  rx1x3x2 i 1 имеем формулу для расчета ryx1x2 x3  1  r 1  r 2 yx3 x2 2 x1x3 x2  . (2.20) Рассчитанные по рекуррентной формуле частные коэффициенты корреляции изменяются в пределах от –1 до +1, а по формулам через множественные коэффициенты детерминации – от 0 до 1. Сравнение их друг с другом позволяет ранжировать факторы по тесноте их связи с результатом. Частные коэффициенты корреляции дают меру тесноты связи каждого фактора с результатом в чистом виде. Если из стандартизованного уравнения регрессии t y  1t x   2t x  3t x   следует, что 1   2   3 , т.е. 1 2 3 no силе влияния на результат порядок факторов таков: x1 , x2 , x3 , то этот же порядок факторов определяется и по соотношению частных коэффициентов корреляции, ryx x x  ryx x x  ryx x x . 1 2 3 2 1 3 3 1 2 В эконометрике частные коэффициенты корреляции обычно не имеют самостоятельного значения. Их используют на стадии формирования модели. Так, строя многофакторную модель, на первом шаге определяется уравнение регрессии с полным набором факторов и рассчитывается матрица частных коэффициентов корреляции. На втором шаге отбирается фактор с наименьшей и несущественной по t -критерию Стьюдента величиной показателя частной корреляции. Исключив его из модели, строится новое уравнение регрессии. Процедура продолжается до тех пор, пока не окажется, что все частные коэффициенты корреляции существенно отличаются от нуля. Если исключен несущественный фактор, то множественные коэффициенты детерминации на двух смежных шагах построения регрессионной модели почти не отличаются друг от друга, Rm2 1  Rm2 , где m – число факторов. Из приведенных выше формул частных коэффициентов корреляции видна связь этих показателей с совокупным коэффициентом корреляции. Зная частные коэффициенты корреляции (последовательно первого, второго и более высокого порядка), можно определить совокупный коэффициент корреляции по формуле:    Ryx1x2 ... xm  1  1  ryx2 1   1  ryx2 2 x1   1  ryx2 3x1x2  ...  1  ryx2 m x1x2 ... xm1 . (2.21) В частности, для двухфакторного уравнения формула (2.21) принимает вид: Ryx1x2 ... xm  1  1  ryx21   1  ryx2 2 x1  . (2.21) При полной зависимости результативного признака от исследуемых факторов коэффициент совокупного их влияния равен единице. Из единицы вычитается доля остаточной вариации результативного признака 1  r  , 2 обусловленная последовательно включенными в анализ факторами. В результате подкоренное выражение характеризует совокупное действие всех исследуемых факторов. Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью F -критерия Фишера: Sфакт F где Sфакт Sост R2 n  m  1   , 2 1 R m (2.22) – факторная сумма квадратов на одну степень свободы; Sост – 2 остаточная сумма квадратов на одну степень свободы; R – коэффициент (индекс) множественной детерминации; m – число параметров при переменных x (в линейной регрессии совпадает с числом включенных в модель факторов); n – число наблюдений. Оценивается значимость не только уравнения в целом, но и фактора, дополнительно включенного в регрессионную модель. Необходимость такой оценки связана с тем, что не каждый фактор, вошедший в модель, может существенно увеличивать долю объясненной вариации результативного признака. Кроме того, при наличии в модели нескольких факторов они могут вводиться в модель в разной последовательности. Ввиду корреляции между факторами значимость одного и того же фактора может быть разной в зависимости от последовательности его введения в модель. Мерой для оценки включения фактора в модель служит частный F -критерий, т.е. Fxi . Частный F -критерий построен на сравнении прироста факторной дисперсии, обусловленного влиянием дополнительно включенного фактора, с остаточной дисперсией на одну степень свободы по регрессионной модели в целом. В общем виде для фактора частный F -критерий определится как Ryx2 1... xi ... xm  Ryx2 1... xi 1xi 1... xm n  m  1 , Fxi   1  Ryx2 1... xi ... xm 1 где Ryx2 1... xi ... xm набором факторов, xi (2.23) – коэффициент множественной детерминации для модели с полным Ryx2 1... xi1xi1...xm – тот же показатель, но без включения в модель фактора xi , n – число наблюдений, m – число параметров в модели (без свободного члена). Фактическое значение частного F -критерия сравнивается с табличным при уровне значимости  и числе степеней свободы: 1 и n  m  1. Если фактическое значение Fx превышает Fтабл  , k1 , k2  , i то дополнительное включение фактора статистически оправданно и коэффициент чистой регрессии статистически значим. Если же фактическое значение дополнительное включение в модель фактора xi Fxi bi xi в модель при факторе xi меньше табличного, то не увеличивает существенно долю объясненной вариации признака y , следовательно, нецелесообразно его включение в модель; коэффициент регрессии при данном факторе в этом случае статистически незначим. Для двухфакторного уравнения частные F -критерии имеют вид: Fx1  Ryx2 1x2  ryx2 2 1  Ryx2 1x2   n  3 , Fx2  Ryx2 1x2  ryx21 1  Ryx2 1x2   n  3 . (2.23а) С помощью частного F -критерия можно проверить значимость всех коэффициентов регрессии в предположении, что каждый соответствующий фактор xi вводился в уравнение множественной регрессии последним. Частный F -критерий оценивает значимость коэффициентов чистой регрессии. Зная величину Fx , можно определить и t -критерий для коэффициента регрессии при i -м i факторе, tbi , а именно: tbi  Fxi . (2.24) Оценка значимости коэффициентов чистой регрессии по t -критерию Стьюдента может быть проведена и без расчета частных F -критериев. В этом случае, как и в парной регрессии, для каждого фактора используется формула: tbi  где bi bi mbi , (2.25) – коэффициент чистой регрессии при факторе квадратическая (стандартная) ошибка коэффициента регрессии xi , mbi – средняя bi . Для уравнения множественной регрессии y  a  b1 x1  b2 x2  ...  bm xm средняя квадратическая ошибка коэффициента регрессии может быть определена по следующей формуле: mbi  где y  y 1  Ryx2 1... xm  xi 1  R 2 xi x1 ... xm  1 n  m 1 , (2.26) – среднее квадратическое отклонение для признака квадратическое отклонение для признака уравнения множественной регрессии, зависимости фактора xi xi , Ryx2 1... xm Rx2i x1... xm y ,  xi – среднее – коэффициент детерминации для – коэффициент детерминации для со всеми другими факторами уравнения множественной регрессии; n  m  1 – число степеней свободы для остаточной суммы квадратов отклонений. Как видим, чтобы воспользоваться данной формулой, необходимы матрица межфакторной корреляции и расчет по ней соответствующих коэффициентов y  a  b1 x1  b2 x2  b3 x3 оценка значимости коэффициентов регрессии b1 , b2 , b3 предполагает расчет трех 2 2 2 межфакторных коэффициентов детерминации: Rx x x , Rx x x , Rx x x . 1 2 3 2 1 3 3 1 2 Взаимосвязь показателей частного коэффициента корреляции, частного F критерия и t -критерия Стьюдента для коэффициентов чистой регрессии может детерминации Rx2i x1... xm . Так, для уравнения использоваться в процедуре отбора факторов. Отсев факторов при построении уравнения регрессии методом исключения практически можно осуществлять не только по частным коэффициентам корреляции, исключая на каждом шаге фактор с наименьшим незначимым значением частного коэффициента корреляции, но и по величинам tb и Fx . i i Частный F -критерий широко используется и при построении модели методом включения переменных и шаговым регрессионным методом. Пример. Оценим качество уравнения, полученного в предыдущем параграфе. Сначала найдем значения парных коэффициентов корреляции: ryx1  y  x1  y  x1 66, 4  6,8  9, 4   0,869 ;  y   x1 1,83 1,56 ryx2  y  x2  y  x2 44,5  6,8  6,3   0,639 ;  y   x2 1,83 1, 42 rx1x2  x1  x2  x1  x2 60,3  9, 4  6,3   0, 488 .  x1   x2 1,56 1, 42 Значения парных коэффициентов корреляции указывают на достаточно тесную связь сменной добычи угля на одного рабочего y с мощностью пласта x1 и на умеренную связь с уровнем механизации работ x2 . В то же время межфакторная связь  0,49  0,7 ), что говорит о том, что оба фактора являются информативными, т.е. и x1 , и x2 необходимо включить в модель. Теперь рассчитаем совокупный коэффициент корреляции Ryx x . Для этого 1 2 rx1x2 не очень сильная ( rx x 1 2 сначала найдем определитель матрицы парных коэффициентов корреляции: 1 0,87 0,64 r  0,87 0,49  0,139064 , 1 0,64 0,49 1 и определитель матрицы межфакторной корреляции: r11  1 0,49 0,49 1  0,7599 . Тогда коэффициент множественной корреляции по формуле (2.16): Ryx1x2  1  r 0,139064  1  0,904 . r11 0,7599 Т.е. можно сказать, что 81,7% (коэффициент детерминации Ryx2 1x2  0,817 ) вариации результата объясняется вариацией представленных в уравнении признаков, что указывает на весьма тесную связь признаков с результатом. Примерно тот же результат (различия связаны с ошибками округлений) для коэффициента множественной регрессии получим, если воспользуемся формулами (2.12) и (2.15): Ryx1x2 2  ост 0,6329  1 2  1  0,901 ; y 3,36 Ryx1x2   r i yxi  0,728  0,87  0,285  0,64  0,903 . Скорректированный коэффициент множественной детерминации R  1  1  R 2   n 1 10  1  1  1  0,817    0,765 n  m 1 10  2  1 указывает на умеренную связь между результатом и признаками. Это связано с малым количеством наблюдений. Теперь найдем частные коэффициенты корреляции по формулам (2.18а) и (2.19а): ryx1x2  1  ryx2 x1  1  ryx1x2  ryx2x1  1  Ryx2 1x2 1  ryx2 2 1  Ryx2 1x2 1  ryx21  1 1  0,817  0,831 ; 1  0,408  1 1  0,817  0,503 . 1  0,755 ryx1  ryx2  rx1x2 1  r   1  r  2 yx2 1  r   1  r  0,869  0,639  0,488  2 x1x2  0,830 ; 1  0,489 1  0,639  2 2 x1x2 ryx2  ryx1  rx1x2 2 yx1  2 0,639  0,869  0,488 1  0,488 1  0,869  2 Т.е. можно сделать вывод, что фактор x1  0,498 . 2 оказывает более сильное влияние на результат, чем признак x2 . Оценим надежность уравнения регрессии в целом и показателя связи с помощью F -критерия Фишера. Фактическое значение F -критерия (2.22) R2 n  m  1 0,817 10  2  1 Fфакт      15,63 . 2 1 R m 1  0,817 2 Табличное значение F -критерия при пятипроцентном уровне значимости Fтабл  4,74 . (  0,05 , Так как k1  2 , k2  10  2  1  7 ): Fфакт  15,63  Fтабл  4,10 , то уравнение признается статистически значимым. Оценим целесообразность включения фактора x1 после фактора x2 и x2 после x1 с помощью частного F -критерия Фишера (2.23а): Ryx2 1x2  ryx2 2 0,817  0,408 Fx1   n  3   7  15,65 ;   1  Ryx2 1x2 1  0,817 Fx2  Ryx2 1x2  ryx2 1 1  Ryx2 1x2   n  3  0,817  0,755  7  2,37 . 1  0,817 F -критерия при пятипроцентном уровне  10  2  1  7 ): Fтабл  5,59 . Так как Fx1  15,65  Fтабл  5,59 , а Fx2  2,37  Fтабл  5,59 , то включение фактора x1 в модель статистически оправдано и коэффициент чистой регрессии b1 статистически Табличное значение частного значимости (  0,05 , k1  1 , k2 значим, а дополнительное включение фактора нецелесообразно. x2 , после того, как уже введен фактор x1 , Уравнение регрессии, включающее только один значимый аргумент x2 : y  2,754  1,016 x1 . 4. Линейные регрессионные модели с гетероскедастичными остатками При оценке параметров уравнения регрессии применяется метод наименьших квадратов (МНК). При этом делаются определенные предпосылки относительно случайной составляющей  . В модели y  a  b1 x1  b2 x2  ...  bm xm   случайная составляющая  представляет собой ненаблюдаемую величину. После того как произведена оценка параметров модели, рассчитывая разности фактических и теоретических значений результативного признака y , можно определить оценки случайной составляющей y  y x . Поскольку они не являются реальными случайными остатками, их можно считать некоторой выборочной реализацией неизвестного остатка заданного уравнения, т.е.  i . При изменении спецификации модели, добавлении в нее новых наблюдений выборочные оценки остатков  i могут меняться. Поэтому в задачу регрессионного анализа входит не только построение самой модели, но и исследование случайных отклонений  i , т.е. остаточных величин. При использовании критериев Фишера и Стьюдента делаются предположения относительно поведения остатков  i – остатки представляют собой независимые случайные величины и их среднее значение равно 0; они имеют одинаковую (постоянную) дисперсию и подчиняются нормальному распределению. Статистические проверки параметров регрессии, показателей корреляции основаны на непроверяемых предпосылках распределения случайной составляющей  i . Они носят лишь предварительный характер. После построения уравнения регрессии проводится проверка наличия у оценок  i (случайных остатков) тех свойств, которые предполагались. Связано это с тем, что оценки параметров регрессии должны отвечать определенным критериям. Они должны быть несмещенными, состоятельными и эффективными. Эти свойства оценок, полученных по МНК, имеют чрезвычайно важное практическое значение в использовании результатов регрессии и корреляции. Несмещенность оценки означает, что математическое ожидание остатков равно нулю. Если оценки обладают свойством несмещенности, то их можно сравнивать по разным исследованиям. Оценки считаются эффективными, если они характеризуются наименьшей дисперсией. В практических исследованиях это означает возможность перехода от точечного оценивания к интервальному. Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки. Большой практический интерес представляют те результаты регрессии, для которых доверительный интервал ожидаемого значения параметра регрессии bi имеет предел значений вероятности, равный единице. Иными словами, вероятность получения оценки на заданном расстоянии от истинного значения параметра близка к единице. Указанные критерии оценок (несмещенность, состоятельность и эффективность) обязательно учитываются при разных способах оценивания. Метод наименьших квадратов строит оценки регрессии на основе минимизации суммы квадратов остатков. Поэтому очень важно исследовать поведение остаточных величин регрессии  i . Условия, необходимые для получения несмещенных, состоятельных и эффективных оценок, представляют собой предпосылки МНК, соблюдение которых желательно для получения достоверных результатов регрессии. Исследования остатков  i предполагают проверку наличия следующих пяти предпосылок МНК: 1) случайный характер остатков; 2) нулевая средняя величина остатков, не зависящая от xi ; гомоскедастичность – дисперсия каждого отклонения 3) всех значений i , одинакова для x; 4) отсутствие автокорреляции остатков – значения остатков  i распределены независимо друг от друга; 5) остатки подчиняются нормальному распределению. Если распределение случайных остатков  i не соответствует некоторым предпосылкам МНК, то следует корректировать модель. Прежде всего, проверяется случайный характер остатков  i – первая предпосылка МНК. С этой целью стоится график зависимости остатков  i от теоретических значений результативного признака (рис. 2.1). Если на графике получена горизонтальная полоса, то остатки  i представляют собой случайные величины и МНК оправдан, теоретические значения yx хорошо аппроксимируют фактические значения Рис. 2.1. Зависимость случайных остатков i y. от теоретических значений yx . Возможны следующие случаи, если 1) 2) 3) i остатки  i остатки  i остатки i зависит от yx то: не случайны (рис. 2.2а); не имеют постоянной дисперсии (рис. 2.2б); носят систематический характер (рис. 2.2в). а б в Рис. 2.2. Зависимость случайных остатков  i от теоретических значений y x . В этих случаях необходимо либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии до тех пор, пока остатки  i не будут случайными величинами. Вторая предпосылка МНК относительно нулевой средней величины остатков означает, что  y  y x   0 . Это выполнимо для линейных моделей и моделей, нелинейных относительно включаемых переменных. Вместе с тем, несмещенность оценок коэффициентов регрессии, полученных МНК, зависит от независимости случайных остатков и величин x , что также исследуется в рамках соблюдения второй предпосылки МНК. С этой целью наряду с изложенным графиком зависимости остатков  i от теоретических значений результативного признака yx строится график зависимости случайных остатков регрессию xj i от факторов, включенных в (рис. 2.3). Рис. 2.3. Зависимость величины остатков от величины фактора xj . Если остатки на графике расположены в виде горизонтальной полосы, то они независимы от значений x j . Если же график показывает наличие зависимости  i и x j , то модель неадекватна. Причины неадекватности могут быть разные. Возможно, что нарушена третья предпосылка МНК и дисперсия остатков не постоянна для каждого значения фактора x j . Может быть неправильна спецификация модели и в нее необходимо ввести дополнительные члены от участках значений фактора xj xj , например x 2j . Скопление точек в определенных говорит о наличии систематической погрешности модели. Предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью F - и t -критериев. Вместе с тем, оценки регрессии, найденные с применением МНК, обладают хорошими свойствами даже при отсутствии нормального распределения остатков, т.е. при нарушении пятой предпосылки МНК. Совершенно необходимым для получения по МНК состоятельных оценок параметров регрессии является соблюдение третьей и четвертой предпосылок. В соответствии с третьей предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора x j остатки  i имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность. Наличие гетероскедастичности можно наглядно видеть из поля корреляции (рис. 2.4). а б в Рис. 2.4. Примеры гетероскедастичности. На рис. 2.4 изображено: а – дисперсия остатков растет по мере увеличения x ; б – дисперсия остатков достигает максимальной величины при средних значениях переменной x и уменьшается при минимальных и максимальных значениях x ; в – максимальная дисперсия остатков при малых значениях x и дисперсия остатков однородна по мере увеличения значений x . Наличие гомоскедастичности или гетероскедастичности можно видеть и по рассмотренному выше графику зависимости остатков  i от теоретических значений результативного признака представлена на рис. 2.5. yx . Так, для рис. 2.4а зависимость остатков от yx Рис. 2.5. Гетероскедастичность: большая дисперсия  i для больших значений y x . Соответственно для зависимости, изображенной на полях корреляции рис. 2.4б и 2.4в гетероскедастичность остатков представлена на рис. 2.6 и 2.7. Рис. 2.6. Гетероскедастичность, соответствующая полю корреляции на рис. 2.4б. Рис. 2.7. Гетероскедастичность, соответствующая полю корреляции на рис. 2.4в. Для множественной регрессии данный вид графиков является наиболее приемлемым визуальным способом изучения гомо- и гетероскедастичности. При построении регрессионных моделей чрезвычайно важно соблюдение четвертой предпосылки МНК – отсутствие автокорреляции остатков, т.е. значения остатков  i , распределены независимо друг от друга. Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений2. Коэффициент корреляции между  i и  j , где  i – остатки текущих наблюдений, j – остатки предыдущих наблюдений (например, определен как ri j  cov   i ,  j   i    j j  i  1 ), может быть , т.е. по обычной формуле линейного коэффициента корреляции. Если этот коэффициент окажется существенно отличным от нуля, то остатки автокоррелированы и функция плотности вероятности F   зависит от j -й точки наблюдения и от распределения значений остатков в других точках наблюдения. Отсутствие автокорреляции остаточных величин обеспечивает состоятельность и эффективность оценок коэффициентов регрессии. Особенно актуально соблюдение данной предпосылки МНК при построении регрессионных моделей по рядам динамики, где ввиду наличия тенденции последующие уровни динамического ряда, как правило, зависят от своих предыдущих уровней. При несоблюдении основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы, преобразовывать исходные данные для того, чтобы получить оценки коэффициентов регрессии, которые обладают свойством несмещенности, имеют меньшее значение дисперсии остатков и обеспечивают в связи с этим более эффективную статистическую проверку значимости параметров регрессии. 5. Обобщенный метод наименьших квадратов (ОМНК) 2 Подробнее об автокорреляции см. в разделе 4. При нарушении гомоскедастичности и наличии автокорреляции ошибок рекомендуется традиционный метод наименьших квадратов (известный в английской терминологии как метод OLS – Ordinary Least Squares) заменять обобщенным методом, т.е. методом GLS (Generalized Least Squares). Обобщенный метод наименьших квадратов применяется к преобразованным данным и позволяет получать оценки, которые обладают не только свойством несмещенности, но и имеют меньшие выборочные дисперсии. Остановимся на использовании ОМНК для корректировки гетероскедастичности. Как и раньше, будем предполагать, что среднее значение остаточных величин равно нулю. А вот дисперсия их не остается неизменной для разных значений фактора, а пропорциональна величине K i , т.е.  2i   2  Ki , где  2i – дисперсия ошибки при конкретном i -м значении фактора; 2 – постоянная дисперсия ошибки при соблюдении предпосылки о гомоскедастичности остатков; K i – коэффициент пропорциональности, меняющийся с изменением величины фактора, что и обусловливает неоднородность дисперсии. При этом предполагается, что  неизвестна, а в отношении величин K i выдвигаются определенные гипотезы, характеризующие структуру гетероскедастичности. 2 В общем виде для уравнения примет вид: yi  a  bxi  Ki  i . yi  a  bxi   i при  2i   2  Ki модель В ней остаточные величины гетероскедастичны. Предполагая в них отсутствие автокорреляции, можно перейти к уравнению с гомоскедастичными остатками, поделив все переменные, зафиксированные в ходе i -го Ki . наблюдения, на Тогда дисперсия остатков будет величиной постоянной, т. е.  2i   2 . Иными словами, от регрессии переменных: y K yi Ki и  y x по мы перейдем к регрессии на новых x a K . Уравнение регрессии примет вид: x  b  i  i , Ki Ki а исходные данные для данного уравнения будут иметь вид: y y1 x1 K1 K1 y2 x2 K2 , x K2 ........ ........ yn xn Kn Kn . По отношению к обычной регрессии уравнение с новыми, преобразованными переменными представляет собой взвешенную регрессию, в которой переменные y и x взяты с весами 1 K . Оценка параметров нового уравнения с преобразованными переменными приводит к взвешенному методу наименьших квадратов, для которого необходимо минимизировать сумму квадратов отклонений вида n S  a, b    i 1 1 2  yi  a  bxi  . Ki Соответственно получим следующую систему нормальных уравнений: 1 x  y  a   b  ,     K K K  x x2  yx  a  K b K .  K Если преобразованные переменные x и y взять в уровней, то коэффициент регрессии b можно определить как 1  K x y . b 1 2 K x отклонениях от средних При обычном применении метода наименьших квадратов к уравнению линейной регрессии для переменных в отклонениях от средних уровней коэффициент регрессии b определяется по формуле: b x y. x 2 Как видим, при использовании обобщенного МНК с целью корректировки гетероскедастичности коэффициент регрессии b представляет собой взвешенную величину по отношению к обычному МНК с весом 1 K . Аналогичный подход возможен не только для уравнения парной, но и для множественной регрессии. Предположим, что рассматривается модель вида y  a  b1 x1  b2 x2   , 2 для которой дисперсия остаточных величин оказалась пропорциональна Ki . K i представляет собой коэффициент пропорциональности, принимающий различные значения для соответствующих i значений факторов x1 и x2 . Ввиду того, что  2i   2  Ki2 , рассматриваемая модель примет вид yi  a  b1 x1i  b2 x2i  K i i , где ошибки гетероскедастичны. Для того чтобы получить уравнение, где остатки  i гомоскедастичны, перейдем к новым преобразованным переменным, разделив все члены исходного уравнения на K. коэффициент пропорциональности составит Уравнение с преобразованными переменными yi x x a   b1 1i  b2 2i   i . Ki Ki Ki Ki Это уравнение не содержит свободного члена. Вместе с тем, найдя переменные в новом преобразованном виде и применяя обычный МНК к ним, получим иную спецификацию модели: yi x x  A  b1 1i  b2 2i   i . Ki Ki Ki Параметры такой модели зависят от концепции, принятой для коэффициента пропорциональности K i . В эконометрических исследованиях довольно часто выдвигается гипотеза, что остатки уравнении i пропорциональны значениям фактора. Так, если в y  a  b1 x1  b2 x2  ...  bm xm  e предположить, что e    x1 , т.е. K  x1 и  2i   2  x1 , то обобщенный МНК предполагает оценку параметров следующего трансформированного уравнения: x y x  b1  b2 2  ...  bm m   . x1 x1 x1 Применение в этом случае обобщенного МНК приводит к тому, что наблюдения с меньшими значениями преобразованных переменных x K имеют при определении параметров регрессии относительно больший вес, чем с первоначальными переменными. Вместе с тем, следует иметь в виду, что новые преобразованные переменные получают новое экономическое содержание и их регрессия имеет иной смысл, чем регрессия по исходным данным. Пример. Пусть y – издержки производства, x1 – объем продукции, x2 – x3 – численность работников, тогда уравнение y  a  b1 x1  b2 x2  b3 x3  e основные производственные фонды, является моделью издержек производства с объемными факторами. Предполагая, что  i 2 пропорциональна квадрату численности работников результативного признака затраты на одного работника следующие показатели: производительность труда x1 x3 x3 , мы получим в качестве y x3 , а в качестве факторов и фондовооруженность труда x2 x3 . Соответственно трансформированная модель примет вид y x x  b3  b1 1  b2 2   , x3 x3 x3 где параметры b1 , b2 , b3 численно не совпадают с аналогичными параметрами предыдущей модели. Кроме этого, коэффициенты регрессии меняют экономическое содержание: из показателей силы связи, характеризующих среднее абсолютное изменение издержек производства с изменением абсолютной величины соответствующего фактора на единицу, они фиксируют при обобщенном МНК среднее изменение затрат на работника; с изменением производительности труда на единицу при неизменном уровне фовдовооруженности труда; и с изменением фондовооруженности труда на единицу при неизменном уровне производительности труда. Если предположить, что в модели с первоначальными переменными дисперсия остатков пропорциональна квадрату объема продукции,  2i   2  x12 , можно перейти к уравнению регрессии вида x y x  b1  b2 2  b3 3   . x1 x1 x1 В нем новые переменные: y x1 – затраты на единицу (или на 1 руб. продукции), x2 x1 – фондоемкость продукции, x3 x1 – трудоемкость продукции. Гипотеза о пропорциональности остатков величине фактора может иметь реальное основание: при обработке недостаточно однородной совокупности, включающей как крупные, так и мелкие предприятия, большим объемным значениям фактора может соответствовать большая дисперсия результативного признака и большая дисперсия остаточных величин. При наличии одной объясняющей переменной гипотеза  2i   2 x2 трансформирует линейное уравнение y  a  bx  e в уравнение y a b  , x x в котором параметры a и b поменялись местами, константа стала коэффициентом наклона линии регрессии, а коэффициент регрессии – свободным членом. Пример. Рассматривая зависимость сбережений y от дохода x , по первоначальным данным было получено уравнение регрессии y  1,081  0,1178  x . Применяя обобщенный МНК к данной модели в предположении, что ошибки пропорциональны доходу, было получено уравнение для преобразованных данных: y 1  0,1026  0,8538  . x x Коэффициент регрессии первого уравнения сравнивают со свободным членом второго уравнения, т.е. 0,1178 и 0,1026 – оценки параметра b зависимости сбережений от дохода. Переход к относительным величинам существенно снижает вариацию фактора и соответственно уменьшает дисперсию ошибки. Он представляет собой наиболее простой случай учета гетероскедастичности в регрессионных моделях с помощью обобщенного МНК. Процесс перехода к относительным величинам может быть осложнен выдвижением иных гипотез о пропорциональности ошибок относительно включенных в модель факторов. Использование той или иной гипотезы предполагает специальные исследования остаточных величин для соответствующих регрессионных моделей. Применение обобщенного МНК позволяет получить оценки параметров модели, обладающие меньшей дисперсией. 6. Регрессионные модели с переменной структурой (фиктивные переменные) До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровней. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными. Рассмотрим применение фиктивных переменных для функции спроса. Предположим, что по группе лиц мужского и женского пола изучается линейная зависимость потребления кофе от цены. В общем виде для совокупности обследуемых уравнение регрессии имеет вид: y  a  bx   , где y – количество потребляемого кофе; x – цена. Аналогичные уравнения могут быть найдены отдельно для лиц мужского пола: y1  a1  b1 x1  1 и женского пола: y2  a2  b2 x2   2 . Различия в потреблении кофе проявятся в различии средних y1 и y2 . Вместе с тем сила влияния x на y может быть одинаковой, т.е. b  b1  b2 . В этом случае возможно построение общего уравнения регрессии с включением в него фактора «пол» в виде фиктивной переменной. Объединяя уравнения y1 и y2 и, вводя фиктивные переменные, можно прийти к следующему выражению: y  a1 z1  a2 z2  bx   , где z1 и z2 – фиктивные переменные, принимающие значения: 1  мужской пол, z1   0  женский пол; 0  мужской пол, z2   1  женский пол. y Переменная z В общем уравнении регрессии зависимая переменная функция не только цены x но и пола  z1 , z2  . рассматривается как рассматривается как дихотомическая переменная, принимающая всего два значения: 1 и 0. При этом когда z1  1, то z2  0 , и наоборот. Для лиц мужского пола, когда регрессии составит: y  a2  bx . y  a1  bx , z1  1 и z2  0 , объединенное уравнение а для лиц женского пола, когда z1  0 и z 2  1: Иными словами, различия в потреблении для лиц мужского и женского пола вызваны различиями свободных членов уравнения регрессии: a1  a2 . Параметр b является общим для всей совокупности лиц, как для мужчин, так и для женщин. Однако при введении двух фиктивных переменных z1 и z2 в модель y  a1 z1  a2 z2  bx   применение МНК для оценивания параметров a1 и a2 приведет к вырожденной матрице исходных данных, а следовательно, и к невозможности получения их оценок. Объясняется это тем, что при использовании МНК в данном уравнении появляется свободный член, т.е. уравнение примет вид y  A  a1 z1  a2 z2  bx   . Предполагая при параметре A независимую переменную, равную 1, имеем следующую матрицу исходных данных: 1 1  1  1 ...   1 x1  1 0 x2   0 1 x3  . 1 0 x4  ... ... ...   0 1 xn  1 0 В рассматриваемой матрице существует линейная зависимость между первым, вторым и третьим столбцами: первый равен сумме второго и третьего столбцов. Поэтому матрица исходных факторов вырождена. Выходом из создавшегося затруднения может явиться переход к уравнениям y  A  A1 z1  bx   или y  A  A2 z2  bx   , т.е. каждое уравнение включает только одну фиктивную переменную Предположим, что определено уравнение y  A  A1 z1  bx   , z1 или z2 . где z1 принимает значения 1 для мужчин и 0 для женщин. Теоретические значения размера потребления кофе для мужчин будут получены из уравнения y  A  A1  bx . Для женщин соответствующие значения получим из уравнения y  A  bx . Сопоставляя эти результаты, видим, что различия в уровне потребления мужчин и женщин состоят в различии свободных членов данных уравнений: A – для женщин и A  A1 – для мужчин. Теперь качественный фактор принимает только два состояния, которым соответствуют значения 1 и 0. Если же число градаций качественного признака-фактора превышает два, то в модель вводится несколько фиктивных переменных, число которых должно быть меньше числа качественных градаций. Только при соблюдении этого положения матрица исходных фиктивных переменных не будет линейно зависима и возможна оценка параметров модели. Пример. Проанализируем зависимость цены двухкомнатной квартиры от ее полезной площади. При этом в модель могут быть введены фиктивные переменные, отражающие тип дома: «хрущевка», панельный, кирпичный. При использовании трех категорий домов вводятся две фиктивные переменные: z1 и z2 . Пусть переменная z1 принимает значение 1 для панельного дома и 0 для всех остальных типов домов; переменная для остальных; тогда переменные «хрущевки». z2 z1 принимает значение 1 для кирпичных домов и 0 и z2 принимают значения 0 для домов типа Предположим, что уравнение регрессии с фиктивными переменными составило: y  320  500 x  2200 z1  1600 z2 . Частные уравнения регрессии для отдельных типов домов, свидетельствуя о наиболее высоких ценах квартир в панельных домах, будут иметь следующий вид: «хрущевки» – y  320  500 x ; панельные – y  2520  500 x ; кирпичные – y  1920  500 x . Параметры при фиктивных переменных z1 и z2 представляют собой разность между средним уровнем результативного признака для соответствующей группы и базовой группы. В рассматриваемом примере за базу сравнения цены взяты дома «хрущевки», для которых z1  z2  0 . Параметр при z1 , равный 2200, означает, что при одной и той же полезной площади квартиры цена ее в панельных домах в среднем на 2200 долл. США выше, чем в «хрущевках». Соответственно параметр при z2 показывает, что в кирпичных домах цена выше в среднем на 1600 долл. при неизменной величине полезной площади по сравнению с указанным типом домов. В отдельных случаях может оказаться необходимым введение двух и более групп фиктивных переменных, т.е. двух и более качественных факторов, каждый из которых может иметь несколько градаций. Например, при изучении потребления некоторого товара наряду с факторами, имеющими количественное выражение (цена, доход на одного члена семьи, цена на взаимозаменяемые товары и др.), учитываются и качественные факторы. С их помощью оцениваются различия в потреблении отдельных социальных групп населения, дифференциация в потреблении по полу, национальному составу и др. При построении такой модели из каждой группы фиктивных переменных следует исключить по одной переменной. Так, если модель будет включать три социальные группы, три возрастные категории и ряд экономических переменных, то она примет вид: y  a  b1s1  b2 s2  b3 z1  b4 z2  b5 x1  b6 x2  ...  bm4 xm   , где y – потребление; 1  если наблюдения относятся к i -й социальной группе  i  1, 2  , si   0  в остальных случаях; 1  если наблюдения относятся к j -й возрастной группе  j  1, 2  , zi   0  в остальных случаях; x1 , x2 , ..., xm – экономические (количественные) переменные. До сих пор мы рассматривали фиктивные переменные как факторы, которые используются в регрессионной модели наряду с количественными переменными. Вместе с тем возможна регрессия только на фиктивных переменных. Например, изучается дифференциация заработной платы рабочих высокой квалификации по регионам страны. Модель заработной платы может иметь вид: y  a  b1 z1  b2 z2  ...  bm zm , где y – средняя заработная плата рабочих высокой квалификации по отдельным предприятиям; 1  если предприятие находится в Северо-Западном районе; z1   0  если предприятие находится в остальных районах; 1  если предприятие находится в Волго-Вятском районе; z2   0  если предприятие находится в остальных районах; ……………………………………………………………………….. 1  если преприятие находится в Дальневосточном районе; zm   0  если предприятие находится в остальных районах. Поскольку последний район, указанный в модели, обозначен zm , то в исследование включено m  1 район. Мы рассмотрели модели с фиктивными переменными, в которых последние выступают факторами. Может возникнуть необходимость построить модель, в которой дихотомический признак, т.е. признак, который может принимать только два значения, играет роль результата. Подобного вида модели применяются, например, при обработке данных социологических опросов. В качестве зависимой переменной y рассматриваются ответы на вопросы, данные в альтернативной форме: «да» или «нет». Поэтому зависимая переменная имеет два значения: 1, когда имеет место ответ «да», и 0 – во всех остальных случаях. Модель такой зависимой переменной имеет вид: y  a  b1 x1  ...  bm xm   . Модель является вероятностной линейной моделью. В ней y принимает значения 1 и 0, которым соответствуют вероятности p и 1  p . Поэтому при решении модели находят оценку условной вероятности события y при фиксированных значениях x . Для оценки параметров линейно-вероятностной модели применяются методы Logit-, Probit- и Tobit-анализа. Такого рода модели используют при работе с неколичественными переменными. Как правило, это модели выбора из заданного набора альтернатив. Зависимая переменная y представлена дискретными значениями (набор альтернатив), объясняющие переменные xj – характеристики альтернатив (время, цена), zj – характеристики индивидов (возраст, доход, уровень образования). Модель такого рода позволяет предсказать долю индивидов в генеральной совокупности, которые выбирают данную альтернативу. Среди моделей с фиктивными переменными наибольшими прогностическими возможностями обладают модели, в которых зависимая переменная y рассматривается как функция ряда экономических факторов xi и фиктивных переменных z j . Последние обычно отражают различия в формировании результативного признака по отдельным группам единиц совокупности, т.е. в результате неоднородной структуры пространственного или временного характера. 3. Системы эконометрических уравнений При использовании отдельных уравнений регрессии, например для экономических расчетов, в большинстве случаев предполагается, что аргументы (факторы) можно изменять независимо друг от друга. Однако это предположение является очень грубым: практически изменение одной переменной, как правило, не может происходить при абсолютной неизменности других. Ее изменение повлечет за собой изменения во всей системе взаимосвязанных признаков. Следовательно, отдельно взятое уравнение множественной регрессии не может характеризовать истинные влияния отдельных признаков на вариацию результирующей переменной. Именно поэтому в последние десятилетия в экономических исследованиях важное место заняла проблема описания структуры связей между переменными системой так называемых одновременных уравнений, называемых также структурными уравнениями. 2. Системы эконометрических уравнений Система уравнений в эконометрических исследованиях может быть построена поразному. Возможна система независимых уравнений, когда каждая зависимая переменная y рассматривается как функция одного и того же набора факторов x : Набор  y1  a11 x1  a12 x2  ...  a1n xn  1 ,  y  a x  a x  ...  a x   ,  2 21 1 22 2 2n n 2  ...................................................  ym  am1 x1  am 2 x2  ...  amn xn   m . факторов x j в каждом уравнении может варьировать. (3.1) Каждое уравнение системы независимых уравнений может рассматриваться самостоятельно. Для нахождения его параметров используется метод наименьших квадратов. По существу, каждое уравнение этой системы является уравнением регрессии. Так как фактические значения зависимой переменной отличаются от теоретических на величину случайной ошибки, то в каждом уравнении присутствует величина случайной ошибки  i . Если зависимая переменная y одного уравнения выступает в виде фактора x в другом уравнении, то исследователь может строить модель в виде системы рекурсивных уравнений:  y1  a11 x1  a12 x2  ...  a1n xn  1 ,   y2  b21 y1  a21 x1  a22 x2  ...  a2 n xn   2 ,  (3.2)  y3  b31 y1  b32 y2  a21 x1  a22 x2  ...  a2 n xn   2 , .........................................................................   ym  bm1 y1  ...  bm ,m1 ym1  am1 x1  am 2 x2  ...  amn xn   m . В данной системе зависимая переменная y включает в каждое последующее уравнение в качестве факторов все зависимые переменные предшествующих уравнений наряду с набором собственно факторов x . Каждое уравнение этой системы может рассматриваться самостоятельно, и его параметры определяются методом наименьших квадратов (МНК). Наибольшее распространение в эконометрических исследованиях получила система взаимозависимых уравнений. В ней одни и те же зависимые переменные в одних уравнениях входят в левую часть, а в других уравнениях – в правую часть системы:  a11 x1  a12 x2  ...  a1n xn  1 ,  y1  b12 y2  b13 y3  ...  b1m ym   a21 x1  a22 x2  ...  a2 n xn   2 ,  y2  b21 y1  b23 y3  ...  b2 m ym   a21 x1  a22 x2  ...  a2 n xn   2 , (  y3  b31 y1  b32 y2  ...  b3m ym ............................................................................................   ym  bm1 y1  bm 2 y2  ...  bm ,m1 ym1  am1 x1  am 2 x2  ...  amn xn   n . 3.3) Система взаимозависимых уравнений получила название системы совместных, одновременных уравнений. Тем самым подчеркивается, что в системе одни и те же переменные одновременно рассматриваются как зависимые в одних уравнениях и как независимые в других. В эконометрике эта система уравнений называется также структурной формой модели. В отличие от предыдущих систем каждое уравнение системы одновременных уравнений не может рассматриваться самостоятельно, и для нахождения его параметров традиционный МНК неприменим. С этой целью используются специальные приемы оценивания. 1. Структурная и приведенная формы модели Система совместных, одновременных уравнений (или структурная форма модели) обычно содержит эндогенные и экзогенные переменные. Эндогенные переменные – это зависимые переменные, число которых равно числу уравнений в системе и которые обозначаются через y . Экзогенные переменные – это предопределенные переменные, влияющие на эндогенные переменные, но не зависящие от них. Обозначаются через x . Классификация переменных на эндогенные и экзогенные зависит от теоретической концепции принятой модели. Экономические переменные могут выступать в одних моделях как эндогенные, а в других как экзогенные переменные. Внеэкономические переменные (например, климатические условия, социальное положение, пол, возрастная категория) входят в систему только как экзогенные переменные. В качестве экзогенных переменных могут рассматриваться значения эндогенных переменных за предшествующий период времени (лаговые переменные). Структурная форма модели позволяет увидеть влияние изменений любой экзогенной переменной на значения эндогенной переменной. Целесообразно в качестве экзогенных переменных выбирать такие переменные, которые могут быть объектом регулирования. Меняя их и управляя ими, можно заранее иметь целевые значения эндогенных переменных. Структурная форма модели в правой части содержит при эндогенных переменных коэффициенты bik и экзогенных переменных – коэффициенты aij , которые называются структурными коэффициентами модели. Все переменные в модели выражены в отклонениях от среднего уровня, т.е. под x подразумевается x  x , а под y – соответственно y  y . Поэтому свободный член в каждом уравнении системы (3.3) отсутствует. Использование МНК для оценивания структурных коэффициентов модели дает, как принято считать в теории, смещенные и несостоятельные оценки. Поэтому обычно для определения структурных коэффициентов модели структурная форма модели преобразуется в приведенную форму модели. Приведенная форма модели представляет собой систему линейных функций эндогенных переменных от экзогенных: где  ij  y1  11 x1  12 x2  ...  1n xn  u1 ,  y   x   x  ...   x  u ,  2 21 1 22 2 2n n 2  ...................................................  ym   m1 x1   m 2 x2  ...   mn xn  um , – коэффициенты приведенной формы модели, (3.4) ui – остаточная величина для приведенной формы. По своему виду приведенная форма модели ничем не отличается от системы независимых уравнений, параметры которой оцениваются традиционным МНК. Применяя МНК, можно оценить  ij , а затем оценить значения эндогенных переменных через экзогенные. Коэффициенты приведенной формы модели представляют собой нелинейные функции коэффициентов структурной формы модели. Рассмотрим это положение на примере простейшей структурной модели, выразив коэффициенты приведенной формы модели через коэффициенты структурной модели. Для структурной модели вида  y1  b12 y2  a11 x1  1 ,   y2  b21 y1  a22 x2   2 (3.5) приведенная форма модели имеет вид  y1  11 x1  12 x2  u1 ,   y2   21 x1   22 x2  u2 . Из первого уравнения (3.5) можно выразить упрощения опускаем случайную величину): (3.6) y2 следующим образом (ради y1  a11 x1 . b12 y2  Подставляя во второе уравнение (3.5), имеем y1  a11 x1  b21 y1  a22 x2 , b12 откуда y1  a11 a b x1  22 12 x2 . 1  b12b21 1  b12b21 Поступая аналогично со вторым уравнением системы (3.5), получим y2  a11b21 a22 x1  x2 , 1  b12b21 1  b12b21 т.е. система (3.5) принимает вид a11 a22b12  y  x   1 1  b b 1 1  b b x2 ,  12 21 12 21   y  a11b21 x  a22 x .  2 1  b12b21 1 1  b12b21 2 Таким образом, можно сделать вывод о том, что коэффициенты приведенной формы модели будут выражаться через коэффициенты структурной формы следующим образом: 11  a11 a b , 12  22 12 , 1  b12b21 1  b12b21  21  a11b21 a22 ,  22  . 1  b12b21 1  b12b21 Следует заметить, что приведенная форма модели хотя и позволяет получить значения эндогенной переменной через значения экзогенных переменных, но аналитически она уступает структурной форме модели, так как в ней отсутствуют оценки взаимосвязи между эндогенными переменными. 3.2. Проблема идентификации При переходе от приведенной формы модели к структурной эконометрист сталкивается с проблемой идентификации. Идентификация – это единственность соответствия между приведенной и структурной формами модели. m   m  n  1 параметров, а m   m  n  1 параметров структурной модели не однозначно определены из m  n параметров приведенной формы модели. могут быть Структурная модель (3.3) в полном виде содержит приведенная форма модели в полном виде содержит m  n параметров. Т.е. в полном виде структурная модель содержит большее число параметров, чем приведенная форма модели. Соответственно Чтобы получить единственно возможное решение для структурной модели, необходимо предположить, что некоторые из структурных коэффициентов модели ввиду слабой взаимосвязи признаков с эндогенной переменной из левой части системы равны нулю. Тем самым уменьшится число структурных коэффициентов модели. Уменьшение числа структурных коэффициентов модели возможно и другим путем: например, путем приравнивания некоторых коэффициентов друг к другу, т.е. путем предположений, что их воздействие на формируемую эндогенную переменную одинаково. На структурные коэффициенты могут накладываться, например, ограничения вида bik  aij  0 . С позиции идентифицируемости структурные модели можно подразделить на три вида: 1) идентифицируемые; 2) неидентифицируемые; 3) сверхидентифицируемые. Модель идентифицируема, если все структурные ее коэффициенты определяются однозначно, единственным образом по коэффициентам приведенной формы модели, т. е. если число параметров структурной модели равно числу параметров приведенной формы модели. В этом случае структурные коэффициенты модели оцениваются через параметры приведенной формы модели и модель идентифицируема. Модель неидентифицируема, если число приведенных коэффициентов меньше числа структурных коэффициентов, и в результате структурные коэффициенты не могут быть оценены через коэффициенты приведенной формы модели. Модель сверхидентифицируема, если число приведенных коэффициентов больше числа структурных коэффициентов. В этом случае на основе коэффициентов приведенной формы можно получить два или более значений одного структурного коэффициента. В этой модели число структурных коэффициентов меньше числа коэффициентов приведенной формы. Сверхидентифицируемая модель в отличие от неидентифицируемой модели практически решаема, но требует для этого специальных методов исчисления параметров. Структурная модель всегда представляет собой систему совместных уравнений, каждое из которых требуется проверять на идентификацию. Модель считается идентифицируемой, если каждое уравнение системы идентифицируемо. Если хотя бы одно из уравнений системы неидентифицируемо, то и вся модель считается неидентифицируемой. Сверхидентифицируемая модель содержит хотя бы одно сверхидентифицируемое уравнение. Выполнение условия идентифицируемости модели проверяется для каждого уравнения системы. Чтобы уравнение было идентифицируемо, необходимо, чтобы число предопределенных переменных, отсутствующих в данном уравнении, но присутствующих в системе, было равно числу эндогенных переменных в данном уравнении без одного. Если обозначить число эндогенных переменных в i -м уравнении системы через H , а число экзогенных (предопределенных) переменных, которые содержатся в системе, но не входят в данное уравнение, — через D , то условие идентифицируемости модели может быть записано в виде следующего счетного правила: II. Таблица 4.1 уравнение идентифицируемо D 1  H уравнение неидентифицируемо D 1  H уравнение сверхидентифицируемо D 1  H Для оценки параметров структурной модели система должна быть идентифицируема или сверхидентифицируема. Рассмотренное счетное правило отражает необходимое, но недостаточное условие идентификации. Более точно условия идентификации определяются, если накладывать ограничения на коэффициенты матриц параметров структурной модели. Уравнение идентифицируемо, если по отсутствующим в нем переменным (эндогенным и экзогенным) можно из коэффициентов при них в других уравнениях системы получить матрицу, определитель которой не равен нулю, а ранг матрицы не меньше, чем число эндогенных переменных в системе без одного. Целесообразность проверки условия идентификации модели через определитель матрицы коэффициентов, отсутствующих в данном уравнении, но присутствующих в других, объясняется тем, что возможна ситуация, когда для каждого уравнения системы выполнено счетное правило, а определитель матрицы названных коэффициентов равен нулю. В этом случае соблюдается лишь необходимое, но недостаточное условие идентификации. В эконометрических моделях часто наряду с уравнениями, параметры которых должны быть статистически оценены, используются балансовые тождества переменных, коэффициенты при которых равны 1 . В этом случае, хотя само тождество и не требует проверки на идентификацию, ибо коэффициенты при переменных в тождестве известны, в проверке на идентификацию собственно структурных уравнений системы тождества участвуют. 3.3. Методы оценки параметров структурной формы модели Коэффициенты структурной модели могут быть оценены разными способами в зависимости от вида системы одновременных уравнений. Наибольшее распространение в литературе получили следующие методы оценивания коэффициентов структурной модели: 1) косвенный метод наименьших квадратов; 2) двухшаговый метод наименьших квадратов; 3) трехшаговый метод наименьших квадратов; 4) метод максимального правдоподобия с полной информацией; 5) метод максимального правдоподобия при ограниченной информации. Рассмотрим вкратце сущность каждого из этих методов. Косвенный метод наименьших квадратов (КМНК) применяется в случае точно идентифицируемой структурной модели. Процедура применения КМНК предполагает выполнение следующих этапов работы. 1. Структурная модель преобразовывается в приведенную форму модели. 2. Для каждого уравнения приведенной формы модели обычным МНК оцениваются приведенные коэффициенты  ij . 3. Коэффициенты приведенной формы модели трансформируются в параметры структурной модели. Если система сверхидентифицируема, то КМНК не используется, ибо он не дает однозначных оценок для параметров структурной модели. В этом случае могут использоваться разные методы оценивания, среди которых наиболее распространенным и простым является двухшаговый метод наименьших квадратов (ДМНК). Основная идея ДМНК – на основе приведенной формы модели получить для сверхидентифицируемого уравнения теоретические значения эндогенных переменных, содержащихся в правой части уравнения. Далее, подставив их вместо фактических значений, можно применить обычный МНК к структурной форме сверхидентифицируемого уравнения. Метод получил название двухшагового МНК, ибо дважды используется МНК: на первом шаге при определении приведенной формы модели и нахождении на ее основе оценок теоретических значений эндогенной переменной yi   i1 x1   i 2 x2  ...   in xn и на втором шаге применительно к структурному сверхидентифицируемому уравнению при определении структурных коэффициентов модели по данным теоретических (расчетных) значений эндогенных переменных. Сверхидентифицируемая структурная модель может быть двух типов: 1) все уравнения системы сверхидентифицируемы; 2) система содержит наряду со сверхидентифицируемыми точно идентифицируемые уравнения. Если все уравнения системы сверхидентифицируемые, то для оценки структурных коэффициентов каждого уравнения используется ДМНК. Если в системе есть точно идентифицируемые уравнения, то структурные коэффициенты по ним находятся из системы приведенных уравнений. Для примера, рассмотренного в предыдущем параграфе, необходимо применить именно двухшаговый метод наименьших квадратов. Но можно сделать следующее замечание. Если из модели исключить тождество дохода, число эндогенных переменных модели снизится на единицу – переменная Yt станет экзогенной. А число предопределенных переменных модели не изменится, т.к. из модели будет исключена эндогенная переменная Gt , но ее место займет переменная Yt . В правых частях функции потребления и функции денежного рынка будут находиться только предопределенные переменные. Функция инвестиций постулирует зависимость эндогенной переменной I t от эндогенной переменной rt (которая зависит только от предопределенных переменных) и предопределенной переменной I t 1 . Таким образом, мы получим рекурсивную систему. Ее параметры можно оценивать обычным МНК, и нет необходимости исследования уравнения на идентификацию. Косвенный и двухшаговый методы наименьших квадратов подробно описаны в литературе и рассматриваются как традиционные методы оценки коэффициентов структурной модели. Эти методы достаточно легко реализуемы. Метод максимального правдоподобия рассматривается как наиболее общий метод оценивания, результаты которого при нормальном распределении признаков совпадают с МНК. Однако при большом числе уравнений системы этот метод приводит к достаточно сложным вычислительным процедурам. Поэтому в качестве модификации используется метод максимального правдоподобия при ограниченной информации (метод наименьшего дисперсионного отношения), разработанный в 1949 г. Т.Андерсоном и Н.Рубиным. В отличие от метода максимального правдоподобия в данном методе сняты ограничения на параметры, связанные с функционированием системы в целом. Это делает решение более простым, но трудоемкость вычислений остается достаточно высокой. Несмотря на его значительную популярность, к середине 60-х годов он был практически вытеснен двухшаговым методом наименьших квадратов (ДМНК) в связи с гораздо большей простотой последнего. Дальнейшим развитием ДМНК является трехшаговый МНК (ТМНК), предложенный в 1962 г. А.Зельнером и Г.Тейлом. Этот метод оценивания пригоден для всех видов уравнений структурной модели. Однако при некоторых ограничениях на параметры более эффективным оказывается ДМНК. 4. Временные ряды При построении эконометрической модели используются два типа данных: 1) данные, характеризующие совокупность различных объектов в определенный момент времени; 2) данные, характеризующие один объект за ряд последовательных моментов времени. Модели, построенные по данным первого типа, называются пространственными моделями. Модели, построенные на основе второго типа данных, называются моделями временных рядов. Временной ряд (ряд динамики) – это совокупность значений какого-либо показателя за несколько последовательных моментов или периодов времени. Каждый уровень временного ряда формируется под воздействием большого числа факторов, которые условно можно подразделить на три группы: 1) факторы, формирующие тенденцию ряда; 2) факторы, формирующие циклические колебания ряда; 3) случайные факторы. Рассмотрим воздействие каждого фактора на временной ряд в отдельности. Большинство временных рядов экономических показателей имеют тенденцию, характеризующую совокупное долговременное воздействие множества факторов на динамику изучаемого показателя. Все эти факторы, взятые в отдельности, могут оказывать разнонаправленное воздействие на исследуемый показатель. Однако в совокупности они формируют его возрастающую или убывающую тенденцию. На рис. 4.1 показан гипотетический временной ряд, содержащий возрастающую тенденцию. Рис. 4.1. Также изучаемый показатель может быть подвержен циклическим колебаниям. Эти колебания могут носить сезонный характер, поскольку экономическая деятельность ряда отраслей экономики зависит от времени года (например, цены на сельскохозяйственную продукцию в летний период выше, чем в зимний; уровень безработицы в курортных городах в зимний период выше по сравнению с летним). При наличии больших массивов данных за длительные промежутки времени можно выявить циклические колебания, связанные с общей динамикой конъюнктуры рынка. На рис. 4.2 представлен гипотетический временной ряд, содержащий только сезонную компоненту. Рис. 4.2. Некоторые временные ряды не содержат тенденции и циклической компоненты, а каждый следующий их уровень образуется как сумма среднего уровня ряда и некоторой (положительной или отрицательной) случайной компоненты. Пример ряда, содержащего только случайную компоненту, приведен на рис. 4.3. Рис. 4.3. Очевидно, что реальные данные не следуют целиком и полностью из каких-либо описанных выше моделей. Чаще всего они содержат все три компоненты. Каждый их уровень формируется под воздействием тенденции, сезонных колебаний и случайной компоненты. В большинстве случаев фактический уровень временного ряда можно представить как сумму или произведение трендовой, циклической и случайной компонент. Модель, в которой временной ряд представлен как сумма перечисленных компонент, называется аддитивной моделью временного ряда. Модель, в которой временной ряд представлен как произведение перечисленных компонент, называется мультипликативной моделью временного ряда. Основная задача эконометрического исследования отдельного временного ряда – выявление и придание количественного выражения каждой из перечисленных выше компонент с тем, чтобы использовать полученную информацию для прогнозирования будущих значений ряда или при построении моделей взаимосвязи двух или более временных рядов. 4.1. Автокорреляция уровней временного ряда При наличии во временном ряде тенденции и циклических колебаний значения каждого последующего уровня ряда зависят от предыдущих. Корреляционную зависимость между последовательными уровнями временного ряда называют автокорреляцией уровней ряда. Количественно ее можно измерить с помощью линейного коэффициента корреляции между уровнями исходного временного ряда и уровнями этого ряда, сдвинутыми на несколько шагов во времени. Формула для расчета коэффициента автокорреляции имеет вид: n r1   y t t 2 n  y t t 2  y1  yt 1  y2   y1  2 , n  y t 2 t 1  y2  (4.1) 2 где 1 n y1   yt , n  1 t 2 1 n y2   yt1. n  1 t 2 Эту величину называют коэффициентом автокорреляции уровней ряда первого порядка, так как он измеряет зависимость между соседними уровнями ряда t и yt 1 . Аналогично можно определить коэффициенты автокорреляции второго и более высоких порядков. Так, коэффициент автокорреляции второго порядка характеризует тесноту связи между уровнями yt и yt  2 и определяется по формуле: n r2   y t 3 t  y3  yt 2  y4  n n   yt  y3    yt 2  y4  t 3 2 , (4.2) 2 t 3 где 1 n y3  yt ,  n  2 t 3 1 n y4  yt 2 .  n  2 t 3 Число периодов, по которым рассчитывается коэффициент автокорреляции, называют лагом. С увеличением лага число пар значений, по которым рассчитывается коэффициент автокорреляции, уменьшается. Считается целесообразным для обеспечения статистической достоверности коэффициентов автокорреляции использовать правило – максимальный лаг должен быть не больше n 4 . Свойства коэффициента автокорреляции. 1. Он строится по аналогии с линейным коэффициентом корреляции и таким образом характеризует тесноту только линейной связи текущего и предыдущего уровней ряда. Поэтому по коэффициенту автокорреляции можно судить о наличии линейной (или близкой к линейной) тенденции. Для некоторых временных рядов, имеющих сильную нелинейную тенденцию (например, параболу второго порядка или экспоненту), коэффициент автокорреляции уровней исходного ряда может приближаться к нулю. 2. По знаку коэффициента автокорреляции нельзя делать вывод о возрастающей или убывающей тенденции в уровнях ряда. Большинство временных рядов экономических данных содержат положительную автокорреляцию уровней, однако при этом могут иметь убывающую тенденцию. Последовательность коэффициентов автокорреляции уровней первого, второго и т.д. порядков называют автокорреляционной функцией временного ряда. График зависимости ее значений от величины лага (порядка коэффициента автокорреляции) называется коррелограммой. Анализ автокорреляционной функции и коррелограммы позволяет определить лаг, при котором автокорреляция наиболее высокая, а следовательно, и лаг, при котором связь между текущим и предыдущими уровнями ряда наиболее тесная, т.е. при помощи анализа автокорреляционной функции и коррелограммы можно выявить структуру ряда. Если наиболее высоким оказался коэффициент автокорреляции первого порядка, исследуемый ряд содержит только тенденцию. Если наиболее высоким оказался коэффициент автокорреляции порядка  , то ряд содержит циклические колебания с периодичностью в  моментов времени. Если ни один из коэффициентов автокорреляции не является значимым, можно сделать одно из двух предположений относительно структуры этого ряда: либо ряд не содержит тенденции и циклических колебаний, либо ряд содержит сильную нелинейную тенденцию, для выявления которой нужно провести дополнительный анализ. Поэтому коэффициент автокорреляции уровней и автокорреляционную функцию целесообразно использовать для выявления во временном ряде наличия или отсутствия трендовой компоненты и циклической (сезонной) компоненты. 2. Моделирование тенденции временного ряда Распространенным способом моделирования тенденции временного ряда является построение аналитической функции, характеризующей зависимость уровней ряда от времени, или тренда. Этот способ называют аналитическим выравниванием временного ряда. Поскольку зависимость от времени может принимать разные формы, для ее формализации можно использовать различные виды функций. Для построения трендов чаще всего применяются следующие функции: yt  a  b  t ; гипербола: y t  a  b ; t abt экспоненциальный тренд: y t  e линейный тренд: степенная функция: (или y t  a  bt ); yt  a  t b ; полиномы различных степеней: y t  a  b1  t  b2  t  ...  bm  t . Параметры каждого из перечисленных выше трендов можно определить обычным МНК, используя в качестве независимой переменной время t  1, 2, ..., n , а в качестве 2 m зависимой переменной – фактические уровни временного ряда y t . Для нелинейных трендов предварительно проводят стандартную процедуру их линеаризации. Существует несколько способов определения типа тенденции. К числу наиболее распространенных способов относятся качественный анализ изучаемого процесса, построение и визуальный анализ графика зависимости уровней ряда от времени. В этих же целях можно использовать и коэффициенты автокорреляции уровней ряда. Тип тенденции можно определить путем сравнения коэффициентов автокорреляции первого порядка, рассчитанных по исходным и преобразованным уровням ряда. Если временной ряд имеет линейную тенденцию, то его соседние уровни y t и y t 1 тесно коррелируют. В этом случае коэффициент автокорреляции первого порядка уровней исходного ряда должен быть высоким. Если временной ряд содержит нелинейную тенденцию, например, в форме экспоненты, то коэффициент автокорреляции первого порядка по логарифмам уровней исходного ряда будет выше, чем соответствующий коэффициент, рассчитанный по уровням ряда. Чем сильнее выражена нелинейная тенденция в изучаемом временном ряде, тем в большей степени будут различаться значения указанных коэффициентов. Выбор наилучшего уравнения в случае, когда ряд содержит нелинейную тенденцию, можно осуществить путем перебора основных форм тренда, расчета по каждому уравнению скорректированного коэффициента детерминации и средней ошибки аппроксимации. Этот метод легко реализуется при компьютерной обработке данных. 4.3. Моделирование сезонных колебаний Простейший подход к моделированию сезонных колебаний – это расчет значений сезонной компоненты методом скользящей средней и построение аддитивной или мультипликативной модели временного ряда. Общий вид аддитивной модели следующий: Y T S  E. (4.3) Эта модель предполагает, что каждый уровень временного ряда может быть представлен как сумма трендовой ( T ), сезонной ( S ) и случайной ( E ) компонент. Общий вид мультипликативной модели выглядит так: Y T S E. (4.4) Эта модель предполагает, что каждый уровень временного ряда может быть представлен как произведение трендовой ( T ), сезонной ( S ) и случайной ( E ) компонент. Выбор одной из двух моделей осуществляется на основе анализа структуры сезонных колебаний. Если амплитуда колебаний приблизительно постоянна, строят аддитивную модель временного ряда, в которой значения сезонной компоненты предполагаются постоянными для различных циклов. Если амплитуда сезонных колебаний возрастает или уменьшается, строят мультипликативную модель временного ряда, которая ставит уровни ряда в зависимость от значений сезонной компоненты. Построение аддитивной и мультипликативной моделей сводится к расчету значений T , S и E для каждого уровня ряда. Процесс построения модели включает в себя следующие шаги. 1) Выравнивание исходного ряда методом скользящей средней. 2) Расчет значений сезонной компоненты S . 3) Устранение сезонной компоненты из исходных уровней ряда и получение выровненных данных ( T  E ) в аддитивной или ( T  E ) в мультипликативной модели. 4) Аналитическое выравнивание уровней ( T  E ) или ( T  E ) и расчет значений T с использованием полученного уравнения тренда. 5) Расчет полученных по модели значений ( T  E ) или ( T  E ). 6) Расчет абсолютных и/или относительных ошибок. Если полученные значения ошибок не содержат автокорреляции, ими можно заменить исходные уровни ряда и в дальнейшем использовать временной ряд ошибок E для анализа взаимосвязи исходного ряда и других временных рядов. Методику построения каждой из моделей рассмотрим на примерах. 4. Автокорреляция в остатках. Критерий Дарбина-Уотсона Автокорреляция в остатках может быть вызвана несколькими причинами, имеющими различную природу. 1. Она может быть связана с исходными данными и вызвана наличием ошибок измерения в значениях результативного признака. 2. В ряде случаев автокорреляция может быть следствием неправильной спецификации модели. Модель может не включать фактор, который оказывает существенное воздействие на результат и влияние которого отражается в остатках, вследствие чего последние могут оказаться автокоррелированными. Очень часто этим фактором является фактор времени t . От истинной автокорреляции остатков следует отличать ситуации, когда причина автокорреляции заключается в неправильной спецификации функциональной формы модели. В этом случае следует изменить форму модели, а не использовать специальные методы расчета параметров уравнения регрессии при наличии автокорреляции в остатках. Один из более распространенных методов определения автокорреляции в остатках – это расчет критерия Дарбина-Уотсона: n d   t   t 1  t 2 . n  t 1 2 (4.5) 2 t Т.е. величина d есть отношение суммы квадратов разностей последовательных значений остатков к остаточной сумме квадратов по модели регрессии. Можно показать, что при больших значениях n существует следующее соотношение между критерием Дарбина-Уотсона d и коэффициентом автокорреляции r1 : d  2  1  r1  . остатков первого порядка и r1 Таким образом, если в остатках существует полная положительная автокорреляция  1 , то d  0 . Если в остатках полная отрицательная автокорреляция, то r1  1 и, следовательно, Т.е. (4.6) d  4 . Если автокорреляция остатков отсутствует, то r1  0 0  d  4. и d  2. Алгоритм выявления автокорреляции остатков на основе критерия Дарбина- Уотсона следующий. Выдвигается гипотеза H0 об отсутствии автокорреляции остатков. * Альтернативные гипотезы H 1 и H1 состоят, соответственно, в наличии положительной или отрицательной автокорреляции в остатках. Далее по специальным таблицам (см. приложение E) определяются критические значения критерия Дарбина-Уотсона d L и dU n , числа независимых переменных модели m и уровня значимости  . По этим значениям числовой промежуток  0; 4 разбивают на пять отрезков. Принятие или отклонение каждой из гипотез с вероятностью 1   для заданного числа наблюдений осуществляется следующим образом: 0  d  d L – есть положительная автокорреляция остатков, H0 отклоняется, с P  1   принимается H1 ; d L  d  dU – зона неопределенности; dU  d  4  dU – нет оснований отклонять H 0 , т.е. автокорреляция остатков вероятностью отсутствует; 4  dU  d  4  d L – зона неопределенности; 4  d L  d  4 – есть отрицательная автокорреляция остатков, H 0 * с вероятностью P  1   принимается H1 . отклоняется, Если фактическое значение критерия Дарбина-Уотсона попадает в зону неопределенности, то на практике предполагают существование автокорреляции остатков и отклоняют гипотезу H 0 . Существует несколько ограничений на применение критерия Дарбина-Уотсона. 1. Он неприменим к моделям, включающим в качестве независимых переменных лаговые значения результативного признака. 2. Методика расчета и использования критерия Дарбина-Уотсона направлена только на выявление автокорреляции остатков первого порядка. 3. Критерий Дарбина-Уотсона дает достоверные результаты только для больших выборок. РАЗДЕЛ 4. Словарь терминов (Глоссарий). АДАПТИВНЫЕ МОДЕЛИ - математические модели, используемые в сочетании с человеко-машинными процедурами в принятии решений, в которых основываются лишь на предположении о существовании некоего обобщенного критерия задачи многокритериальной оптимизации, а необходимая дополнительная информация получается лицом принимающим решение (ЛИР) последовательно, одновременно с анализом множества альтернатив. Применение А.м. целесообразно, когда ЛПР затрудняется в оценке вклада частных критериев в интегральный критерий. А.м. выгодны тем, что в процессе выработки решения используется информация, поступающая как от ЭВМ, так и от самого ЛПР. Важным преимуществом является и то, что перед специалистом последовательно проходит развитие модели многокритериальной ситуации от начального состояния к некоторому промежуточному (или окончательному) решению, что способствует более объективной оценке возможности улучшения значений обобщенных критериев. Существуют различные подходы к построению адаптивных человеко-машинных процедур. АЛГОРИТМ - 1) совокупность предписаний, необходимая и достаточная для решения какой-либо конкретной зад ачи;2) совокупность правил, определяющих эффективную процедуру решения любой задачи из некоторого заданного класса задач. Понятие А. использовалось в математике давно, но как математический объект исследуется в связи с решением ряда проблем оснований математики с 30-х гг. XX в Тогда же были разработаны основные понятия теории алгоритмов. В связи с развитием ЭВМ и нешироким применением понятие А стало одним из центральных в прикладной математике. АНАЛИЗ - 1) изучение, научное исследование чего-либо, основанное на расчленении целого на составные части; 2) исследование объектов и явлений окружающего мира, основанное на изучении их внутренней структуры, закономерностей поведения или внешнего проявления их свойств. Анализ в САПР проектная процедура или группа проектных процедур, имеющая целью получение информации о свойствах заданного проектируемого объекта; 3) функция управления, предназначенная для изучения, систематизации, обобщения и оценки достигнутых результатов. На основании данных анализа выявляются узкие места в деятельности организации, оцениваются конечные результаты производственной деятельности, обосновываются управленческие решения. АНАЛИТИЧЕСКАЯ МОДЕЛЬ - математическая модель, представляющая собор! совокупность аналитических выражений и зависимостей, позволяющих оценивать определенные свойства моделируемого объекта. Аналитические модели могут относиться к функциональным моделям (совокупность явных зависимостей выходных величин от входных), геометрическим (совокупность уравнений поверхности и (или) линий, задающих геометрическую форму моделируемого объекта), к обеспечению программному. АПРИОРНЫЕ МОДЕЛИ - математические модели, используемые в принятии многокритериальных решений, в которых структура и вид обобщенного критерия постулируются вначале, т.е. вся информация, позволяющая определить наилучшее решение, скрыта в формальной модели задачи. Архиватор - программа или программный пакет, предназначенный для «сжатия» (архивации) файла или группы файлов с целью уменьшения занимаемого файлами дискового пространства. ВРЕМЕННОЙ РЯД - это последовательность наблюдений, упорядоченных во времени (или пространстве). Если какое-нибудь явление наблюдают на протяжении некоторого времени, имеет смысл представить данные в том порядке, в котором они возникали, из-за того, в частности, что последовательные наблюдения могут быть зависимыми. Временной ряд хорошо представлять на диаграмме рассеяния. Значение ряда X откладывают по вертикальной оси, а время I - по горизонтальной. Время называют независимой переменной. Существует два типа временных рядов: 1. Непрерывные, в которых мы имеем наблюдения в каждый момент времени, например показатели детектора лжи, электрокардиограммы. Их обозначают как наблюдение X в момент I, Х(1). 2. Дискретные, в которых наблюдения делаются через некоторые (обычно одинаковые) интервалы времени. Их обозначают XI Примеры 1. Экономические: недельные цены на акции; месячные прибыли. 2. Метеорологические: дневные осадки; скорость ветра; температура. 3. Социологические, показатели преступности (например, число арестов), показатели безработицы. ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ - это (как правило, лишь воображаемое) полное собрание объектов (людей, животных, растений или вещей), являющееся источником данных. Она представляет все множество статистических единиц (группу интересующих нас предметов). Информацию о генеральной совокупности мы получаем, изучая выборки из нее; из каждой совокупности можно сделать много разных выборок. По выборке мы получаем информацию об интересующих нас параметрах совокупности. Например, выборочное среднее дает информацию о среднем всей совокупности. Важно, чтобы перед формированием выборки исследователь тщательно и полно определил генеральную совокупность, а также способ извлечения выборки. Выборка должна быть репрезентативной. ГЕТЕРОСКЕДАСТИЧНОСТЬ - условие, когда дисперсии регрессионных остатков не отвечают условию гомоскедастичности. См. гомоскедастичность дисперсии. ГИСТОГРАММА - это способ представления данных, измеренных в интервальной шкале (как дискретных, так и непрерывных). Часто используется в разведочном анализе данных для иллюстрации основных характеристик распределения. Гистограмма делит диапазон возможных значений множества данных на классы, или группы. Каждой группе соответствует прямоугольник, длина которого равна диапазону значений в заданной группе, а площадь пропорциональна числу наблюдений в этой группе. Это означает, что прямоугольники скорее всего будут различаться по высоте. Гистограмма годится только для числовых переменных, измеренных в номинальной шкале. Как правило она используется для больших множеств данных (>100 наблюдений), когда не хотят строить диаграммы ствол-лист. Гистограммы помогают выявить необычные наблюдения (выбросы) и пропуски в множестве данных. ГОМОСКЕДАСТИЧНОСТЬ - Условие постоянства дисперсий регрессионных остатков. КОРРЕЛЯЦИЯ - Когда говорят, что две случайные переменные коррелированны, имеют в виду, как правило, что они друг с другом как- то связаны. Стандартной мерой связи переменных является коэффициент корреляции. Следует, однако, помнить, что он измеряет лишь силу линейной связи. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ - меняется в пределах от -1 до 1, измеряет степень линейной связи двух случайных переменных. Положительное значение коэффициента корреляции означает, что с ростом одной из переменных другая также растет, с убыванием одной из них убывает и другая. Отрицательное значение означает, что с ростом одной из переменных другая убывает, с убыванием одной из них другая растет. Коэффициент корреляции, равный нулю, означает, что между нашими переменными отсутствует линейная связь. Обратите внимание: даже если коэффициент корреляции равен 1 по абсолютной величине и, следовательно, переменные функционально связаны (линейно), ничего нельзя сказать о причинно-следственной связи между ними. В статистической практике в ходу два. коэффициента корреляции: для числовых переменных используется коэффициент корреляции Пирсона, для ранговых— коэффициент корреляции Спирмена. КРИТЕРИЙ СОГЛАСИЯ - проверяют гипотезу о совпадении наблюденной эмпирической функции распределения с теоретической функцией постулируемого распределения. Критерий согласия хи-квадрат делает это путем сравнения наблюденных и ожидаемых частот. Критерий Колмогорова-Смирнова основывается на максимальной разности между эмпирической и постулируемой функциями распределения. ЛИНЕЙНАЯ РЕГРЕССИЯ - В линейной регрессии модельное (теоретическое, предсказанное) значение V является линейной комбинацией значений одного или более предикторов. МЕДИАНА выборки - это точка, по обе стороны которой располагается одинаковое количество элементов выборки. Если объем выборки нечетен и равен 2п + 1, то медиана равна элементу вариационного ряда с номером п + 1. Если объем выборки четен и равен 2п, то медиана равна полусумме элементов вариационного ряда с номерами п и п + 1. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ - это распространенный метод оценивания параметров. Ищутся оценки, минимизирующие сумму квадратов отклонений между смоделированными (предсказанными) и наблюденными значениями. МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ - это общий метод вычисления оценок параметров. Ищутся такие оценки, чтобы функция правдоподобия выборки, равная произведению значений функции распределения для каждого наблюденного значения данных, была как можно большей. Метод максимального правдоподобия лучше работает на больших выборках, где , он, как правило, дает оценки с минимальной дисперсией. На маленьких выборках оценки максимального правдоподобия часто оказываются смещенными. МУЛЬТИКОЛЛИНЕАРНОСТЬ - два или более предиктора коллинеарны, если сильна линейная связь между ними; их можно представить в виде линейной комбинации друг друга. Мультиколлинеарность может сделать проводимые для линейной регрессии вычисления неустойчивыми, а то и невозможными, поскольку в этом случае матрицы плохо обусловлены. Кроме того она может вызвать завышенные оценки стандартных ошибок для коэффициентов при предсказывающих переменных. НЕЗАВИСИМОСТЬ - Две случайные переменные независимы, если их совместная плотность распределения равна произведению отдельных (маргинальных) плотностей. Менее формально, две случайные переменные А и В независимы, если информация о значении В не влияет на распределение вероятностей значений А и наоборот. Выборка взаимно независимых случайных переменных называется независимой выборкой. НЕЗАВИСИМАЯ ПЕРЕМЕННАЯ - Переменная, используемая для объяснения зависимой переменной. Синонимы: предиктор, объясняющая переменная. Смотрите также зависимую переменную. НЕЛИНЕЙНАЯ РЕГРЕССИЯ - предполагается, что зависимость отклика от предикторов является нелинейной функцией предикторов. ОДНОРОДНОСТЬ - Равенство дисперсий переменной, подсчитанных в пределах разных групп. Является стандартным требованием в таких, например, методах, как регрессионный и дисперсионный анализы. Синоним: гомоскедастичность. Антоним: гетероскедастичность. ПРЕОБРАЗОВАНИЕ значений данных производится путем применения одной и той же функции ко всем значениям переменной; важно то, что аргументами такой функции могут являться только значения переменных текущего наблюдения. Распространенными примерами таких операций являются: добавление константы, умножение на константу, взятие логарифма. ПРОИЗВОДСТВЕННАЯ ФУНКЦИЯ - отражает зависимость между количеством применяемых ресурсов и максимально возможным объемом выпускаемой продукции в единицу времени; описывает всю совокупность технически эффективных способов производства (технологий). СЕЗОННАЯ КОМПОНЕНТА. Один из способов описания временного ряда - разложение его на компоненты: тренд, периодическую и случайную. Когда временная ось связана с датами, а период - с месяцами или кварталами, периодическую компоненту называют сезонной. СГЛАЖИВАНИЕ, ФИЛЬТРАЦИЯ - сглаживание применяется для уменьшения иррегулярности (случайных изменений) временных рядов. Распространенным методом сглаживания является сглаживание простым скользящим средним (хотя существуют и другие способы). Способ сглаживания определяется свойствами ряда и целями его обработки. СТАТИСТИЧЕСКАЯ НЕЗАВИСИМОСТЬ - отсутствие связи между переменными. Независимость двух непрерывных переменных часто ошибочно отождествляют с равенством нулю их корреляции (ковариации), однако, это верно только если они подчиняются двумерному нормальному распределению. СТАТИСТИЧЕСКИЙ КРИТЕРИЙ - Статистический критерий состоит из следующих компонент: пара гипотез - нулевая и альтернативная, статистика критерия и уровень значимости; по ним находится критическая область. Проверка гипотезы начинается с вычисления статистики. Если значение попадает в критическую область, мы отвергаем нулевую гипотезу и считаем истинной ее альтернативу. В противном случае у нас нет оснований отвергнуть нулевую гипотезу. СТАТИСТИКА - это функция элементов выборки. Дает информацию о неизвестных значениях параметров генеральной совокупности. Например, среднее выборки является, как правило, оценкой среднего совокупности, из которой была взята выборка. Из генеральной совокупности можно сделать много разных выборок, причем значение статистики в общем случае будет меняться от выборки к выборке; другими словами, выборка является случайной, а значит, случайной величиной является и статистика. Например, выборочные средние для разных выборок из одной и той же совокупности могут различаться между собой. Статистики обычно обозначают латинскими буквами, а оцениваемые ими параметры - греческими. СТАЦИОНАРНЫМИ называются показатели, среднее которых можно считать неизменным; нестационарными - показатели среднее которых изменяется со временем. Системы одновременных эконометрических уравнений являются третьим основным классом моделей, которые применяются для анализа и (или) прогноза. Эти модели описываются системами уравнений, которые могут состоять из тождеств и регрессионных уравнений, каждое из которых может, кроме объясняющих переменных, включать в себя также объясняемые переменные из других уравнений системы. Т.е. набор объясняемых переменных связан через уравнения системы. ТАБЛИЦА СОПРЯЖЕННОСТИ - Таблица (ТС), каждый элемент (клетка) которой соответствует клетке кросс-табуляции. В случае двух факторов клетки ТС располагают так, чтобы элементы одной строки соответствовали одному и тому же значению одного фактора, а элементы одного столбца - одному и тому же значению другого фактора; говорят, что уровни одного фактора расположены по строкам, а другого - по столбцам. Такие таблицы часто обозначают nхс, где n - количество уровней фактора, соответствующего строкам, с - столбцам. В случае трех факторов считают, что ТС состоит из совокупности ТС, каждая из которых соответствует значению третьего фактора, являясь при этом (условной) ТС первых двух факторов. Можно, конечно, построить ТС и для большего числа факторов. В каждой клетке ТС стоит количество элементов соответствующей клетки кросстабуляции. ТС - не слишком удобный способ представления данных для их визуального анализа, если велико количество уровней факторов, тем более, если велико количество факторов. Для проверки гипотезы о независимости факторов, по которым построена кросстабуляция, используется критерий независимости хи-квадрат Пирсона. Для таблиц 2x2 (два фактора, по два уровня у каждого) используется также точный критерий Фишера* Общий метод анализа таблиц сопряженности - лог-линейный анализ. ТРЕНД - для лучшего понимания временного ряда мы выделяем его основные характеристики. Одной из таких характеристик является тренд. Тренд это долговременное изменение временного ряда. Это направление (тенденция к повышению или снижению) и скорость изменения временного ряда, при сделанных допущениях о других компонентах. ЦИКЛИЧЕСКАЯ КОМПОНЕНТА - чтобы лучше понять поведение временного ряда, выделяют его основные характеристики. Одной из таких характеристик является циклическая компонента. В недельных или месячных данных циклическая компонента описывает любые регулярные колебания. Это не сезонная компонента, изменение которой подчиняются некоторому распознаваемому циклу. ЭКСПОНЕНЦИАЛЬНОЕ СГЛАЖИВАНИЕ - метод сглаживания временного ряда, используемый для уменьшения иррегулярности (случайных колебаний) временного ряда, что позволяет получить более ясное представление о лежащих в основе этого ряда закономерностях. Используется также для прогнозирования значения ряда (для 1-2 шагов) прогноза. ЭКСТРОПОЛЯЦИЯ - Предсказание значения переменной за пределами интервала анализа. Термин применяется, как правило, при анализе временных рядов. Для коротких промежутков времени применяются количественные предсказания, интерполяции. Количественное предсказание далекого будущего, как правило, менее полезно и применяется для указания на необходимость изменения построенной модели. РАЗДЕЛ 5. Практикум по решению задач (практических ситуаций) (одна из составляющих частей итоговой государственной аттестации). Задачи по дисциплине эконометрика. Пример 1. Проверим гипотезу о наличии автокорреляции в остатках для аддитивной модели нашего временного ряда. Исходные данные и промежуточные расчеты заносим в таблицу: t yt 1 2 t  E 3  t 1  t   t 1  4 5 2  t2 6 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 375 371 869 1015 357 471 992 1020 390 355 992 905 461 454 920 927 Сумма -5,252 -35,843 -74,183 48,937 -26,946 60,464 45,124 50,244 2,361 -59,229 41,431 -68,450 69,668 36,078 -34,263 -50,143 -0,002 – -5,252 -35,843 -74,183 48,937 -26,946 60,464 45,124 50,244 2,361 -59,229 41,431 -68,45 69,668 36,078 -34,263 50,141 – 935,8093 1469,956 15158,53 5758,23 7640,508 235,3156 26,2144 2292,782 3793,328 10132,44 12073,83 19076,58 1128,288 4947,856 252,1744 84921,85 27,584 1284,7 5503,1 2394,8 726,09 3655,9 2036,2 2524,5 5,574 3508,1 1716,5 4685,4 4853,6 1301,6 1174 2514,3 37911,97 Фактическое значение критерия Дарбина-Уотсона для данной модели составляет: 84921,85  2,24 . 37911,97 Сформулируем гипотезы: H 0 – в остатках нет автокорреляции; H 1 d – в остатках H1* – в остатках есть отрицательная автокорреляция. Зададим уровень значимости   0,05 . По таблице значений критерия Дарбина-Уотсона определим для числа наблюдений n  16 и числа независимых параметров модели k  1 (мы рассматриваем только зависимость от времени t ) критические значения d L  1,10 и dU  1,37 . Фактическое значение d -критерия dU  d  4  dU (1,37<2,24<2,63). Дарбина-Уотсона попадает в интервал Следовательно, нет основания отклонять гипотезу H 0 об отсутствии автокорреляции в есть положительная автокорреляция; остатках. Пример 2. Построение аддитивной модели временного ряда. Обратимся к данным об объеме правонарушений на таможне за четыре года, представленным в табл. 4.1. Было показано, что данный временной ряд содержит сезонные колебания периодичностью 4, т.к. количество правонарушений в первый-второй кварталы ниже, чем в третий-четвертый. Рассчитаем компоненты аддитивной модели временного ряда. Шаг 1. Проведем выравнивание исходных уровней ряда методом скользящей средней. Для этого: 1.1. Просуммируем уровни ряда последовательно за каждые четыре квартала со сдвигом на один момент времени и определим условные годовые объемы потребления электроэнергии (гр. 3 табл. 4.5). 1.2. Разделив полученные суммы на 4, найдем скользящие средние (гр. 4 табл. 4.5). Полученные таким образом выровненные значения уже не содержат сезонной компоненты. 1.3. Приведем эти значения в соответствие с фактическими моментами времени, для чего найдем средние значения из двух последовательных скользящих средних – центрированные скользящие средние (гр. 5 табл. 4.5). Таблица 4.5 Количество № квартала, правонарушений, t yt 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 2 375 371 869 1015 357 471 992 1020 390 355 992 905 461 454 920 927 Скользящая Итого за средняя за четыре четыре квартала квартала 3 4 – – 2630 657,5 2612 653 2712 678 2835 708,75 2840 710 2873 718,25 2757 689,25 2757 689,25 2642 660,5 2713 678,25 2812 703 2740 685 2762 690,5 – – – – Центрированная скользящая средняя Оценка сезонной компоненты 5 – – 655,25 665,5 693,75 709,375 714,125 703,75 689,25 674,875 669,375 690,625 694 687,75 – – 6 – – 213,75 349,5 -336,75 -238,375 277,875 316,25 -299,25 -319,875 322,625 214,375 -233 -233,75 – – Шаг 2. Найдем оценки сезонной компоненты как разность между фактическими уровнями ряда и центрированными скользящими средними (гр. 6 табл. 4.5). Используем эти оценки для расчета значений сезонной компоненты S (табл. 4.6). Для этого найдем средние за каждый квартал (по всем годам) оценки сезонной компоненты S i . В моделях с сезонной компонентой обычно предполагается, что сезонные воздействия за период взаимопогашаются. В аддитивной модели это выражается в том, что сумма значений сезонной компоненты по всем кварталам должна быть равна нулю. Таблица 4.6 № квартала, i Год III. Показатели I II III IV 1999 – – 213,75 349,5 2000 -336,75 -238,375 277,875 316,25 2001 -299,25 -319,875 322,625 214,375 2002 -233 -233,75 – – -869 -792 814,25 880,125 Всего за i -й квартал Средняя оценка сезонной i -го компоненты для -289,667 -264 271,417 293,375 квартала, Si Скорректированная сезонная компонента, Si Для данной модели имеем: -292,448 -266,781 268,636 289,667  264  271,417  293,375  11,125 . Корректирующий коэффициент: k  11,125 4  2,781. 290,593 Рассчитываем скорректированные значения сезонной компоненты ( Si  Si  k ) и заносим полученные данные в таблицу 4.6. Проверим равенство нулю суммы значений сезонной компоненты: 292,448  266,781  268,636  290,593  0 . Шаг 3. Исключим влияние сезонной компоненты, вычитая ее значение из каждого уровня исходного временного ряда. Получим величины T  E  Y  S (гр. 4 табл. 4.7). Эти значения рассчитываются за каждый момент времени и содержат только тенденцию и случайную компоненту. Таблица 4.7 t yt Si yt  Si T T S E  yt  T  S  E 2 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 2 375 371 869 1015 357 471 992 1020 390 355 992 905 461 454 920 927 3 -292,448 -266,781 268,636 290,593 -292,448 -266,781 268,636 290,593 -292,448 -266,781 268,636 290,593 -292,448 -266,781 268,636 290,593 4 667,448 637,781 600,364 724,407 649,448 737,781 723,364 729,407 682,448 621,781 723,364 614,407 753,448 720,781 651,364 636,407 5 672,700 673,624 674,547 675,470 676,394 677,317 678,240 679,163 680,087 681,010 681,933 682,857 683,780 684,703 685,627 686,550 6 380,252 406,843 943,183 966,063 383,946 410,536 946,876 969,756 387,639 414,229 950,569 973,450 391,332 417,922 954,263 977,143 7 -5,252 -35,843 -74,183 48,937 -26,946 60,464 45,124 50,244 2,361 -59,229 41,431 -68,450 69,668 36,078 -34,263 -50,143 8 27,584 1284,721 5503,117 2394,830 726,087 3655,895 2036,175 2524,460 5,574 3508,074 1716,528 4685,403 4853,630 1301,622 1173,953 2514,320 Шаг 4. Определим компоненту T данной модели. Для этого проведем аналитическое выравнивание ряда ( T  E ) с помощью линейного тренда. Результаты аналитического выравнивания следующие: T  671,777  0,9233  t . Подставляя в это уравнение значения t  1, 2, ..., 16 , найдем уровни T для каждого момента времени (гр. 5 табл. 4.7). Шаг 5. Найдем значения уровней ряда, полученные по аддитивной модели. Для этого прибавим к уровням T значения сезонной компоненты для соответствующих кварталов (гр. 6 табл. 4.7). На одном графике отложим фактические значения уровней временного ряда и теоретические, полученные по аддитивной модели. Рис. 4.6. Для оценки качества построенной модели применим сумму квадратов полученных абсолютных ошибок. R  1 2 E2  yt  y  2  1 37911,973  0,970 . 1252743,75 Следовательно, можно сказать, что аддитивная модель объясняет 97% общей вариации уровней временного ряда количества правонарушений по кварталам за 4 года. Шаг 6. Прогнозирование по аддитивной модели. Предположим, что по нашему примеру необходимо дать прогноз об общем объеме правонарушений на I и II кварталы 2003 года. Прогнозное значение Ft уровня временного ряда в аддитивной модели есть сумма трендовой и сезонной компонент. Для определения трендовой компоненты воспользуемся уравнением тренда T  671,777  0,9233  t . Получим T17  671,777  0,9233 17  687, 473 ; T18  671,777  0,9233 18  688,396 . Значения сезонных компонент за соответствующие и S2  266,781. Таким образом, S1  292,448 F17  T17  S1  687, 473  292, 448  395 ; F18  T18  S2  688,396  266,781  422 . кварталы равны: Т.е. в первые два квартала 2003 г. следовало ожидать порядка 395 и 422 правонарушений соответственно. Построение мультипликативной модели рассмотрим на данных предыдущего примера. Шаг 1. Методика, применяемая на этом шаге, полностью совпадает с методикой построения аддитивной модели. Таблица 4.8 Скользящая Количество № Итого за Центрированная Оценка средняя за правонарушений, квартала, четыре скользящая сезонной четыре квартала средняя компоненты t yt квартала 1 2 3 4 5 6 1 375 – – – – 2 371 2630 657,5 – – 3 869 2612 653 655,25 1,3262 4 1015 2712 678 665,5 1,5252 5 357 2835 708,75 693,75 0,5146 6 471 2840 710 709,375 0,6640 7 992 2873 718,25 714,125 1,3891 8 1020 2757 689,25 703,75 1,4494 9 390 2757 689,25 689,25 0,5658 10 355 2642 660,5 674,875 0,5260 11 992 2713 678,25 669,375 1,4820 12 905 2812 703 690,625 1,3104 13 461 2740 685 694 0,6643 14 454 2762 690,5 687,75 0,6601 15 920 – – – – 16 927 – – – – Шаг 2. Найдем оценки сезонной компоненты как частное от деления фактических уровней ряда на центрированные скользящие средние (гр. 6 табл. 4.8). Эти оценки используются для расчета сезонной компоненты S (табл. 4.9). Для этого найдем средние за каждый квартал оценки сезонной компоненты S i . Так же как и в аддитивной модели считается, что сезонные воздействия за период взаимопогашаются. В мультипликативной модели это выражается в том, что сумма значений сезонной компоненты по всем кварталам должна быть равна числу периодов в цикле. В нашем случае число периодов одного цикла равно 4. Таблица 4.9 № квартала, i Год IV. Показатели I II III IV 1999 – – 1,3262 1,5252 2000 0,5146 0,6640 1,3891 1,4494 2001 0,5658 0,5260 1,4820 1,3104 2002 0,6643 0,6601 – – 1,7447 1,8501 4,1973 4,2850 Всего за i -й квартал Средняя оценка сезонной i -го компоненты для 0,5816 0,6167 1,3991 1,4283 квартала, Si Скорректированная 0,5779 0,6128 1,3901 1,4192 сезонная компонента, Имеем Si 0,5816  0,6167  1,3991  1,4283  4,0257 . Определяем корректирующий коэффициент: k4 4,0257 Скорректированные  0,9936 . значения сезонной компоненты Si получаются при умножении ее средней оценки Si на корректирующий коэффициент k . Проверяем условие равенство 4 суммы значений сезонной компоненты: 0,5779  0,6128  1,3901  1,4192  4 . Шаг 3. Разделим каждый уровень исходного ряда на соответствующие значения сезонной компоненты. В результате получим величины T  E которые содержат только тенденцию и случайную компоненту. Таблица 4.10 Y S (гр. 4 табл. 4.10), t yt Si yt Si T T S E  yt T  S  1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 2 375 371 869 1015 357 471 992 1020 390 355 992 905 461 454 920 927 3 0,5779 0,6128 1,3901 1,4192 0,5779 0,6128 1,3901 1,4192 0,5779 0,6128 1,3901 1,4192 0,5779 0,6128 1,3901 1,4192 4 648,9012 605,4178 625,1349 715,1917 617,7539 768,6031 713,6177 718,7148 674,8572 579,3081 713,6177 637,6832 797,7159 740,8616 661,8229 653,1849 5 654,9173 658,1982 661,4791 664,7600 668,0409 671,3218 674,6027 677,8836 681,1645 684,4454 687,7263 691,0072 694,2881 697,5690 700,8499 704,1308 6 378,4767 403,3439 919,5221 943,4274 386,0608 411,3860 937,7652 962,0524 393,6450 419,4281 956,0083 980,6774 401,2291 427,4703 974,2515 999,3024 7 0,9908 0,9198 0,9451 1,0759 0,9247 1,1449 1,0578 1,0602 0,9907 0,8464 1,0377 0,9228 1,1490 1,0621 0,9443 0,9277 Шаг 4. Определим компоненту T в мультипликативной модели. Для этого рассчитаем параметры линейного тренда, используя уровни T  E . В результате получим уравнение тренда: T  651,6364  3,2809  t . Подставляя в это уравнение значения t  1, 2, ..., 16 , найдем уровни T для каждого момента времени (гр. 5 табл. 4.10). Шаг 5. Найдем уровни ряда, умножив значения T на соответствующие значения сезонной компоненты (гр. 6 табл. 4.10). На одном графике откладываем фактические значения уровней временного ряда и теоретические, полученные по мультипликативной модели. Рис. 4.7. Расчет ошибки в мультипликативной модели производится по формуле: E  Y T  S  . Для сравнения мультипликативной модели и других моделей временного ряда можно, по аналогии с аддитивной моделью, использовать сумму квадратов абсолютных ошибок  yt  T  S  2 :  y T  S R2  1  t 2  yt  y  2  1 43065,02  0,966 . 1252743,75 Сравнивая показатели детерминации аддитивной и мультипликативной моделей, делаем вывод, что они примерно одинаково аппроксимируют исходные данные. Шаг 6. Прогнозирование по мультипликативной модели. Если предположить, что по нашему примеру необходимо дать прогноз об общем объеме правонарушений на I и II кварталы 2003 года, прогнозное значение Ft уровня временного ряда в мультипликативной модели есть произведение трендовой и сезонной компонент. Для определения трендовой компоненты воспользуемся уравнением тренда T  651,6364  3,2809  t . Получим T17  651,6364  3,2809 17  707,4117 ; T18  651,6364  3, 2809 18  710,6926 . S1 Значения сезонных компонент за соответствующие  0,5779 и S2  0,6128 . Таким образом кварталы равны: F17  T17  S1  707, 4117  0,5779  409 ; F18  T18  S2  710,6926  0,6128  436 . Т.е. в первые два квартала 2003 г. следовало ожидать порядка 409 и 436 правонарушений соответственно. Таким образом, аддитивная и мультипликативная модели дают примерно одинаковый результат по прогнозу. 2002 2001 2000 1999 Пример 3. Пусть имеются некоторые условные данные об общем количестве правонарушений на таможне одного из субъектов РФ (например, Республики Татарстан). Таблица 4.1 Количество возбужденных Год Квартал t дел, yt I II III IV I II III IV I II III IV I II III IV 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Построим поле корреляции: 375 371 869 1015 357 471 992 1020 390 355 992 905 461 454 920 927 Рис. 4.4. Уже исходя из графика видно, что значения y образуют пилообразную фигуру. Рассчитаем несколько последовательных коэффициентов автокорреляции. Для этого составляем первую вспомогательную таблицу. Таблица 4.2 t yt yt 1 yt  y1 yt 1  y2  yt  y1     yt 1  y2   yt  y1  1 1 2 3 4 5 6 7 8 9 10 11 12 1 13 14 15 2 375 371 869 1015 357 471 992 1020 390 355 992 905 2 461 454 920 3 – 375 371 869 1015 357 471 992 1020 390 355 992 3 905 461 454 4 – -328,33 169,67 315,67 -342,33 -228,33 292,67 320,67 -309,33 -344,33 292,67 205,67 4 -238,33 -245,33 220,67 5 – -288,13 -292,13 205,87 351,87 -306,13 -192,13 328,87 356,87 -273,13 -308,13 328,87 5 241,87 -202,13 -209,13 6 – 94601,72 -49565,70 64986,98 -120455,66 69898,66 -56230,69 105458,74 -110390,60 94046,85 -90180,41 67638,69 6 -57644,88 49588,55 -46148,72 7 – 107800,59 28787,91 99647,55 117189,83 52134,59 85655,73 102829,25 95685,05 118563,15 85655,73 42300,15 7 56801,19 60186,81 48695,25 2  yt 1  y2  8 – 83018,90 85339,94 42382,46 123812,50 93715,58 36913,94 108155,48 127356,20 74600,00 94944,10 108155,48 8 58501,10 40856,54 43735,36 2 16 927 920 227,67 Сумма 10499 9947 9,05 Среднее 699,33 663,13 – значение 256,87 0,05 58481,59 74085,16 51833,63 1153766,39 65982,20 1187469,73 – – – – Следует заметить, что среднее значение получается путем деления не на 16, а на 15, т.к. у нас теперь на одно наблюдение меньше. Теперь вычисляем коэффициент автокорреляции первого порядка по формуле (4.1): r1  74085,16  0,063294 . 1153756,39  1187469,73 Составляем вспомогательную таблицу для расчета коэффициента автокорреляции второго порядка. Таблица 4.3 t yt yt  2 yt  y3 yt 2  y4  yt  y3     yt 2  y4   yt  y3  1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Сумма Среднее значение 2 375 371 869 1015 357 471 992 1020 390 355 992 905 461 454 920 927 10128 3 – – 375 371 869 1015 357 471 992 1020 390 355 992 905 461 454 9027 4 – – 145,57 291,57 -366,43 -252,43 268,57 296,57 -333,43 -368,43 268,57 181,57 -262,43 -269,43 196,57 203,57 -0,02 5 – – -269,79 -273,79 224,21 370,21 -287,79 -173,79 347,21 375,21 -254,79 -289,79 347,21 260,21 -183,79 -190,79 -0,06 6 – – -39273,33 -79828,95 -82157,27 -93452,11 -77291,76 -51540,90 -115770,23 -138238,62 -68428,95 -52617,17 -91118,32 -70108,38 -36127,60 -38839,12 -1034792,71 7 – – 21190,62 85013,06 134270,94 63720,90 72129,84 87953,76 111175,56 135740,66 72129,84 32967,66 68869,50 72592,52 38639,76 41440,74 1037835,43 8 – – 72786,64 74960,96 50270,12 137055,44 82823,08 30202,96 120554,78 140782,54 64917,94 83978,24 120554,78 67709,24 33778,76 36400,82 1116776,36 – – – – 723,43 644,79 – 2  yt 2  y4  Следовательно r2  1034792,71  0,961183 . 1037835,43  1116776,36 Аналогично находим коэффициенты автокорреляции более высоких порядков, а все полученные значения заносим в сводную таблицу. Таблица 4.4 Коэффициент автокорреляции уровней V. Лаг 1 0,063294 2 –0,961183 3 –0,036290 4 0,964735 5 0,050594 2 –0,976516 –0,069444 0,964629 0,162064 -0,972918 -0,065323 0,985761 6 7 8 9 10 11 12 Коррелограмма: Рис. 4.5. Анализ коррелограммы и графика исходных уровней временного ряда позволяет сделать вывод о наличии в изучаемом временном ряде сезонных колебаний периодичностью в четыре квартала. Пример 4. Изучается модель вида Ct  a1  b11  Yt  b12  Ct 1  1 , I  a  b  r  b  I   ,  t 2 21 t 22 t 1 2  rt  a3  b31  Yt  b32  M t   3 , Yt  Ct  I t  Gt , где C t – расходы на потребление в период t , Yt – совокупный доход в период t , I t – инвестиции в период t , rt – процентная ставка в период t , M t – денежная масса в период t , Gt – государственные расходы в период t , Ct 1 – расходы на потребление в период t  1 , I t 1 инвестиции в период t  1 . Первое уравнение – функция потребления, второе уравнение – функция инвестиций, третье уравнение – функция денежного рынка, четвертое уравнение – тождество дохода. Модель представляет собой систему одновременных уравнений. Проверим каждое ее уравнение на идентификацию. Модель включает четыре эндогенные переменные  Ct , It , Yt , rt  предопределенные переменные (две экзогенные переменные – Mt Gt и и четыре и две лаговые переменные – Ct 1 и I t 1 ). Проверим необходимое условие идентификации для каждого из уравнений модели. Первое уравнение: Ct  a1  b11  Yt  b12  Ct 1  1 . Это уравнение содержит Ct и Yt и одну предопределенную переменную Ct 1 . Таким D  4  1  3 , т.е. выполняется условие D  1  H . Уравнение две эндогенные переменные образом, H  2 , а сверхидентифицируемо. Второе уравнение: I t  a2  b21  rt  b22  I t 1   2 . Оно включает две эндогенные переменные I t и rt и одну экзогенную переменную I t 1 . Выполняется условие D  1  3  1  H  2 . Уравнение сверхидентифицируемо. Третье уравнение: rt  a3  b31  Yt  b32  M t   3 . Оно включает две эндогенные переменные Yt и rt и одну экзогенную переменную M t . Выполняется условие D  1  3  1  H  2 . Уравнение сверхидентифицируемо. Четвертое уравнение: Yt  Ct  I t  Gt . Оно представляет собой тождество, параметры которого известны. Необходимости в идентификации нет. Проверим для каждого уравнения достаточное условие идентификации. Для этого составим матрицу коэффициентов при переменных модели. Ct I уравнение – 1 II уравнение 0 III уравнение 0 Тождест It rt Yt Ct 1 I t 1 Mt Gt 0 0 b11 b12 0 0 0 – b21 0 0 b22 0 0 – b31 0 0 b32 0 1 0 1 – 0 0 0 1 1 В соответствии с достаточным условием идентификации ранг матрицы коэффициентов при переменных, не входящих в исследуемое уравнение, должен быть равен числу эндогенных переменных модели без одного. Первое уравнение. Матрица коэффициентов при переменных, не входящих в уравнение, имеет вид во II уравнение 1 1 0 It rt I t 1 Mt Gt –1 b21 b22 0 0 III 0 –1 0 0 b32 уравнение Тождество 1 0 0 0 1 Ранг данной матрицы равен трем, так как определитель квадратной подматрицы 3  3 не равен нулю: b22 0 0 b32 0 0 0 0  b22b32  0 . 1 Достаточное условие идентификации для данного уравнения выполняется. Второе уравнение. Матрица коэффициентов при переменных, не входящих в уравнение, имеет вид Ct Yt b11 Ct 1 b12 Mt Gt I уравнение –1 0 0 III b31 b32 0 0 0 уравнение Тождество 1 –1 0 0 1 Ранг данной матрицы равен трем, так как определитель квадратной подматрицы 3  3 не равен нулю: b12 0 0 b32 0 0 0 0  b12b32  0 . 1 Достаточное условие идентификации для данного уравнения выполняется. Третье уравнение. Матрица коэффициентов при переменных, не входящих в уравнение, имеет вид I уравнение 3 3 Ct It –1 0 Ct 1 b12 I t 1 Gt 0 0 II уравнение 0 –1 0 0 b22 Тождество 1 1 0 0 1 Ранг данной матрицы равен трем, так как определитель квадратной подматрицы не равен нулю: b12 0 0 b22 0 0 0 0  b12b22  0 . 1 Достаточное условие идентификации для данного уравнения выполняется. Таким образом, все уравнения модели сверхидентифицируемы. Приведенная форма модели в общем виде будет выглядеть следующим образом: Ct  A1  11Ct 1  12 I t 1  13 M t  14Gt  u1 , I  A   C   I   M   G  u ,  t 2 21 t 1 22 t 1 23 t 24 t 2  rt  A3   31Ct 1   32 I t 1   33 M t   34Gt  u3 , Yt  A4   41Ct 1   42 I t 1   43 M t   44Gt  u1. Пример 5. По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от ввода в действие новых основных фондов x1 ( % от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих Номер y x2 x1 предприятия 1 7,0 3,9 10,0 2 7,0 3,9 14,0 3 7,0 3,7 15,0 4 7,0 4,0 16,0 5 7,0 3,8 17,0 6 7,0 4,8 19,0 7 8,0 5,4 19,0 8 8,0 4,4 20,0 9 8,0 5,3 20,0 10 10,0 6,8 20,0 x2 ( % ). Номер предприятия 11 12 13 14 15 16 17 18 19 20 y x1 x2 9,0 11,0 9,0 11,0 12,0 12,0 12,0 12,0 14,0 14,0 6,0 6,4 6,8 7,2 8,0 8,2 8,1 8,5 9,6 9,0 21,0 22,0 22,0 25,0 28,0 29,0 30,0 31,0 32,0 36,0 Требуется: 1. Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат. 2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их. 3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации. 4. С помощью F -критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации 5. С помощью частных F -критериев Ryx2 1x2 . Фишера оценить целесообразность включения в уравнение множественной регрессии фактора после x1 после x2 и фактора x2 x1 . 6. Составить уравнение линейной парной регрессии, оставив лишь один значащий фактор. Решение Для удобства проведения расчетов поместим результаты промежуточных расчетов в таблицу: № y x1 x2 yx1 yx2 x1 x2 x12 x22 y2 1 1 2 3 4 5 6 7 8 9 10 11 12 13 1 14 15 16 17 18 19 20 Сумма Ср. знач. 2 7,0 7,0 7,0 7,0 7,0 7,0 8,0 8,0 8,0 10,0 9,0 11,0 9,0 2 11,0 12,0 12,0 12,0 12,0 14,0 14,0 192 9,6 3 3,9 3,9 3,7 4,0 3,8 4,8 5,4 4,4 5,3 6,8 6,0 6,4 6,8 3 7,2 8,0 8,2 8,1 8,5 9,6 9,0 123,8 6,19 4 10,0 14,0 15,0 16,0 17,0 19,0 19,0 20,0 20,0 20,0 21,0 22,0 22,0 4 25,0 28,0 29,0 30,0 31,0 32,0 36,0 446 22,3 5 27,3 27,3 25,9 28,0 26,6 33,6 43,2 35,2 42,4 68,0 54,0 70,4 61,2 5 79,2 96,0 98,4 97,2 102,0 134,4 126,0 1276,3 63,815 6 70,0 98,0 105,0 112,0 119,0 133,0 152,0 160,0 160,0 200,0 189,0 242,0 198,0 6 275,0 336,0 348,0 360,0 372,0 448,0 504,0 4581 229,05 7 39,0 54,6 55,5 64,0 64,6 91,2 102,6 88,0 106,0 136,0 126,0 140,8 149,6 7 180,0 224,0 237,8 243,0 263,5 307,2 324,0 2997,4 149,87 8 15,21 15,21 13,69 16,0 14,44 23,04 29,16 19,36 28,09 46,24 36,0 40,96 46,24 8 51,84 64,0 67,24 65,61 72,25 92,16 81,0 837,74 41,887 9 100,0 196,0 225,0 256,0 289,0 361,0 361,0 400,0 400,0 400,0 441,0 484,0 484,0 9 625,0 784,0 841,0 900,0 961,0 1024,0 1296,0 10828,0 541,4 10 49,0 49,0 49,0 49,0 49,0 49,0 64,0 64,0 64,0 100,0 81,0 121,0 81,0 10 121,0 144,0 144,0 144,0 144,0 196,0 196,0 1958,0 97,9 Найдем средние квадратические отклонения признаков:  y  y 2  y 2  97,9  9,62  2,396 ;  x1  x12  x12  41,887  6,192  1,890 ;  x2  x22  x22  541,4  22,32  6,642 . 1. Вычисление параметров линейного уравнения множественной регрессии. Для нахождения параметров линейного уравнения множественной регрессии y  a  b1 x1  b2 x2 необходимо решить следующую систему линейных уравнений относительно неизвестных параметров a , b1 , b2 : na  b1  x1  b2  x2   y;  2 a  x1  b1  x1  b2  x1 x2   yx1 ;  2 a  x2  b1  x1 x2  b2  x2   yx2 либо воспользоваться готовыми формулами: b1   y ryx1  ryx2 rx1x2  y ryx2  ryx1 rx1x2 ;  b   2  x1 1  rx21x2  x2 1  rx21x2 a  y  b1 x1  b2 x2 . Рассчитаем сначала парные коэффициенты корреляции: ; ryx1  ryx2  rx1x2  cov  y, x1   y   x1 cov  y, x2   y   x2  63,815  6,19  9,6  0,970 ; 1,890  2,396  229,05  22,3  9,6  0,941 ; 6,642  2,396 cov  x1 , x2   x1   x2  149,87  6,19  22,3  0,943 . 1,890  6,642 Находим 2,396 0,970  0,941  0,943   0,946 ; 1,890 1  0,9432 2,396 0,941  0,970  0,943 b2    0,0856 ; 6,642 1  0,9432 a  9,6  0,946  6,19  0,0856  22,3  1,835 . b1  Таким образом, получили следующее уравнение множественной регрессии: y  1,835  0,946  x1  0,0856  x2 . Коэффициенты 1 и 2 стандартизованного уравнения регрессии t y  1t x1   2t x2   , находятся по формулам:  x1 1,890  0,946   0,746 ; y 2,396  6,642  2  b2 x2  0,0856   0,237 . y 2,396 1  b1 Т.е. уравнение будет выглядеть следующим образом: t y  0,746  t x1  0, 237  t x2 . Так как стандартизованные коэффициенты регрессии можно сравнивать между собой, то можно сказать, что ввод в действие новых основных фондов оказывает большее влияние на выработку продукции, чем удельный вес рабочих высокой квалификации. Сравнивать влияние факторов на результат можно также при помощи средних коэффициентов эластичности: Эi  bi  xi y xi . Вычисляем: Э1  0,946  6,19  0,61 ; 9,6 Э2  0,0856  22,3  0, 20 . 9,6 Т.е. увеличение только основных фондов (от своего среднего значения) или только удельного веса рабочих высокой квалификации на 1% увеличивает в среднем выработку продукции на 0,61% или 0,20% соответственно. Таким образом, подтверждается большее влияние на результат y фактора x1 , чем фактора x2 . 2. Коэффициенты парной корреляции мы уже нашли: ryx  0,970 ; ryx  0,941 ; rx x  0,943 . 1 2 1 2 Они указывают на весьма сильную связь каждого фактора с результатом, а также высокую межфакторную зависимость (факторы x1 и x2 явно коллинеарны, т.к. rx1x2  0,943  0,7 ). При такой сильной межфакторной зависимости рекомендуется один из факторов исключить из рассмотрения. Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии. При двух факторах частные коэффициенты корреляции рассчитываются следующим образом: ryx1x2  ryx2 x1  ryx1  ryx2  rx1x2 1  r   1  r  2 yx2 0,970  0,941  0,943  1  0,941   1  0,943  2 2 x1x2 ryx2  ryx1  rx1x2 1  r   1  r  2 yx1  0,941  0,970  0,943 1  0,970   1  0,943  2 2 x1x2  0,734 ; 2  0,325 . 2 Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи. Именно по этой причине рекомендуется при наличии сильной коллинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи. Коэффициент множественной корреляции определить через матрицу парных коэффициентов корреляции: Ryx1x2  1  r  r11 , где 1 ryx1 ryx2  r  ryx1 1 rx1x2 rx2 x1 1 ryx2 – определитель матрицы парных коэффициентов корреляции;  r11  1 rx1x2 rx2 x1 1 – определитель матрицы межфакторной корреляции. 1  r  0,970 0,970 0,941 1 0,941 0,943 0,943  1  0,8607  0,8607  1 0,8855  0,8892  0,9409  0,0058 ;  r11  1 0,943 0,943 1  1  0,8892  0,1108 . Коэффициент множественной корреляции Ryx1x2  1  0,0058  0,973 . 0,1108 Аналогичный результат получим при использовании других формул: Ryx1x2  î2ñò 0,305  1 2  1  0,973 ; y 5,74 Ryx1x2   r i yxi  0,746  0,970  0,237  0,941  0,973 ; Ryx1x2 ... xm  1  1  ryx2 1   1  ryx2 2 x1    1  1  0,970   1  0,325 2 2   0,973 . Коэффициент множественной корреляции показывает на весьма сильную связь всего набора факторов с результатом. 3. Нескорректированный коэффициент множественной детерминации Ryx2 1x2  0,947 оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 94,7% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами – на весьма тесную связь факторов с результатом. Скорректированный коэффициент множественной детерминации R  1  1  R 2  2  n  1  n  m  1  1  1  0,947  20  1  0,941 20  2  1 определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более 94% ) детерминированность результата y в модели факторами x1 и x2 . 4. Оценку надежности уравнения регрессии в целом и показателя тесноты связи Ryx x дает F -критерий Фишера: 1 2 R2 n  m  1 . F  1  R2 m F -критерия Фишера: 0,973 20  2  1 Fфакт    151,88 . 2 1  0,973 2 Получили, что Fфакт  Fтабл  3,49 (при n  20 ), т.е. вероятность случайно получить такое значение F -критерия не превышает допустимый уровень значимости В нашем случае фактическое значение 2 5% . Следовательно, полученное значение не случайно, оно сформировалось под влиянием существенных факторов, т.е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи Ryx2 1x2 . F -критериев 5. С помощью частных Фишера оценим целесообразность включения в уравнение множественной регрессии фактора x1 после x2 и фактора x2 после x1 при помощи формул: Ryx2 1x2  Ryx2 2 n  m  1 ; Fчаст, x1   1  Ryx2 1 m Fчаст, x2 Найдем Ryx2 1 Ryx2 1x2  Ryx2 1 n  m  1 .   1  Ryx2 2 m и Ryx2 2 . Ryx2 1  ryx21  0,9702  0,941; Ryx2 2  ryx2 2  0,9412  0,885 . Имеем 0,947  0,885 20  2  1   8,9322 ; 1  0,941 2 0,947  0,941 20  2  1 Fчаст, x2    0,4435 . 1  0,885 2 Получили, что Fчаст, x  Fтабл  3, 49 . Следовательно, включение 2 Fчаст, x1  фактора x2 в модель x1 статистически нецелесообразно: дополнительного признака x2 оказывается x2 включать в уравнение после фактора x1 не после того, как в модель включен фактор прирост факторной дисперсии за счет незначительным, несущественным; фактор следует. Если поменять первоначальный порядок включения факторов в модель и рассмотреть вариант включения x1 после x2 , то результат расчета частного F -критерия x1 для будет иным. Fчаст, x1  Fтабл  3, 49 , формирования меньше принятого стандарта т.е. вероятность его случайного   0,05  5%  . Следовательно, значение частного F -критерия для дополнительно включенного фактора x1 не случайно, является статистически значимым, надежным, достоверным: прирост факторной дисперсии за счет дополнительного фактора x1 является существенным. Фактор x1 должен присутствовать в уравнении, в том числе в варианте, когда он дополнительно включается после фактора x2 . 6. x2 с Общий вывод состоит в том, что множественная модель с факторами Ryx2 1x2  0,947 содержит неинформативный фактор x2 , то можно ограничиться уравнением парной регрессии: x1 и x2 . Если исключить фактор yˆ x   0  1 x  1,99  1,23  x , ryx2  0,941 . РАЗДЕЛ 6. Изменения в рабочей программе, которые произошли после утверждения программы. Характер изменений в программе Номер и дата протокола заседания кафедры, на котором было принято данное решение Подпись заведующего кафедрой, утверждающего внесенное изменение Подпись декана факультета (проректора по учебной работе), утверждающего данное изменение РАЗДЕЛ 7. Учебные занятия по дисциплине ведут: Ф.И.О., ученое звание и степень преподавателя Зайнутдинова Э.Г. ст. преподаватель Ковалёва Э.Г., ст. преподаватель Учебный год Факультет 2007-2008 ПМПЭ 2010-2011 ФМОИП Хаценко Е.С., доцент 2011-2012 ФМОИП Специальность Математические методы в экономике Математические методы в экономике Математические методы в экономике Указания по использованию формы программы учебной дисциплины:  программа составляется по каждой из закрепленных за кафедрой дисциплин;  форма программы хранится на кафедре в электронном варианте и на бумажном носителе, на котором ставятся подписи лиц, утверждающих программу (распечатывается кафедрой).

ОПД.Ф.7 Эконометрика

Похожие документы

Разделы

Поддержка

ОПД.Ф.7 Эконометрика

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib