1324782_presentation

advertisement
ЛЕКЦИЯ 1
Введение в эконометрику
• В современных программах
подготовки экономистов курс
эконометрики занял одно из
ключевых мест, поскольку сегодня
деятельность в любой области
экономики требует от специалиста
применения современных методов
оценки, анализа и интерпретации
экономических данных.
• Сегодня эконометрические методы
применяются в качестве
• стандартных в различных отраслях
прикладной экономики, изучающей
• все, начиная от расходов домашних
хозяйств и предпринимательских
• инвестиций и заканчивая организацией
производств, рынков труда и
• проблемами государственной политики.
• Эконометрика – это взаимодействие
экономической теории,
наблюдаемых данных и
статистических методов.
• присуждение шести нобелевских премий по
экономике за разработки в этой области: премия
1969 г. была присуждена Р. Фишеру и
Я.Тинбергену за разработку математический
методов анализа экономических данных; премия
1980 г. – Л.Клейну за построение
макроэконометрических моделей, основанных на
системах эконометрических уравнений; премия
1981 г. – Д.Тобину за регрессию с
цензурированной зависимой переменной,
которую по его имени называют тобит
• премия 1989 г. – Т. Хаавелмо за анализ и
оценивание систем одновременных
уравнений; премия 2000 г. – Дж. Хекману и
Д. Макфаддену за разработку теорию и
методов, широко использующихся
• в статистическом анализе поведения
индивидуумов и семейных хозяйств;
премия 2003 г. – Р. Энглу и К. Грэнжеру за
работы в области коинтеграции
временных рядов
•
Применение эконометрических
методов на практике невозможно
представить без соответствующих
программных средств. Перечислим
некоторые из распространенных
средств, применяемых в этой
области:
•
•
•
•
•
MS Excel
Statgraphics
Statistica
SPSS
SAS
•
•
•
•
•
Эвриста
STATA
Eviews
STADIA
MatLab
• Пакет Statgraphics имеет достаточно длинную
историю. Широко использовалась, в свое время, его
DOS версия, обладавшая очень неплохим набором
возможностей. Мы познакомимся с двумя версиями
этого пакета:
• STATGRAPHICS Plus for Windows 2.1
• которая предъявляет весьма небольшие требования
к ресурсам, и в которой присутствуют большинство
возможностей Win версий этого пакета, а также с
более современной версией STATGRAPHICS
Centurion XV, в которой добавлены некоторые
современные методы (например-нейронные сети).
• Мощный специализированный
эконометрический пакет . EVIEWS , по
которому есть весьма полная документация
на английском языке, поставляемая вместе с
пакетом.
• Мы будем работать с достаточно новой
версией этого пакета
• –Eviews 5.1
• В изучаемом курсе ( и в практикуме по
курсу) Вы получите первичные навыки
работы с этим пакетом.
• Для задач, связанных с
конструированием оптимальных
портфелей, а также для некоторых
других задач используются
возможности MS Excel.
• Для более сложных задач, возникающих в
приложениях, можно порекомендовать пакет
STATA.
• Пакет STATA достаточно сложен для
освоения начинающим пользователем, хотя
желающие могут это сделать, используя
замечательные лекции С.Коленикова
• [. http://www.komkon.org/~tacik/science/ ].
• В курсе прикладной статистики мы
научились строить оценки параметров
распределений, доверительные
интервалы, проверять статистические
гипотезы и выявлять связи для
различных типов признаков. При этом
мы использовали пакет Statgraphics.
Описательная статистика
Доверительный интервал
Сравнение двух средних
Связь между ростом, весом,
размером обуви
ЛЕКЦИЯ 2
Модель парной линейной
регрессии (ЛР). Свойства
оценок в модели парной ЛР.
Парная регрессия и
корреляция
• Парная регрессия представляет собой
регрессию между двумя переменными –
и , т. е. модель вида:
y  f  x
• где – зависимая переменная
(результативный признак); –
независимая, или объясняющая,
переменная (признак-фактор).
• Знак «^» означает, что между
переменными и нет строгой
функциональной зависимости, поэтому
практически в каждом отдельном
случае величина складывается из двух
слагаемых: y  y  
x
• где – фактическое значение
результативного признака; –
теоретическое значение
результативного признака, найденное
исходя из уравнения регрессии; –
возмущение, случайная величина,
характеризующая отклонения
реального значения результативного
признака от теоретического, найденного
по уравнению регрессии.
•
•
•
•
В парной регрессии выбор вида
математической функции y x  f  x 
может быть осуществлен тремя
методами:
графическим;
аналитическим, т.е. исходя из теории
изучаемой взаимосвязи;
экспериментальным.
• В практических исследованиях, как
правило, имеет место некоторое
рассеяние точек относительно линии
регрессии. Оно обусловлено влиянием
прочих, не учитываемых в уравнении
регрессии, факторов. Иными словами,
имеют место отклонения фактических
данных от теоретических  y  y x  .
• Величина этих отклонений и лежит в
основе расчета остаточной
дисперсии:

2
ост

1
  y  yx
n

2
• Чем меньше величина остаточной
дисперсии, тем меньше влияние не
учитываемых в уравнении регрессии
факторов и тем лучше уравнение
регрессии подходит к исходным данным
(т.е. лучше «подгонка» модели).
• Считается, что число наблюдений
должно в 7-8 раз превышать число
рассчитываемых параметров при
переменной x .
1. Линейная модель парной
регрессии и корреляции
• Линейная регрессия сводится к
нахождению уравнения вида
yx  a  b  x
• или
y  a b x 
(1.1)
• Классический подход к оцениванию
параметров линейной регрессии
основан на методе наименьших
квадратов (МНК).
• МНК позволяет получить такие оценки
параметров a и b , при которых сумма
квадратов отклонений фактических
значений результативного признака от
теоретических минимальна:
 y  y
n
•
i 1
i
  
2
xi
n
i 1
2
i
 min
(1.2)
Рис. 1.2. Линия регрессии с минимальной
дисперсией остатков.
• Чтобы найти минимум функции (1.2),
надо вычислить частные производные
по каждому из параметров a и b и
приравнять их к нулю.
• Обозначим 
через S  a, b  , тогда:
2
i
i
S  a, b     y  a  b  x 
2
 S
 2  y  a  b  x   0;

 a

 S  2 x  y  a  b  x   0.

 b

 a  n  b   x   y;

2

a   x  b   x   x  y.
•
•
a  y b x ,
b
cov  x, y 

2
x
______
• Где cov  x, y   y  x  y  x - ковариация
признаков x и y
____
2
•  x2  x  x 2 - дисперсия признака
x
•
•
1
x   x,
n
______
1
y  x   y  x,
n
1
y  y
n
____
2
1
x   x2
n
• Параметр b называется
коэффициентом регрессии. Его
величина показывает среднее
изменение результата с изменением
фактора на одну единицу.
Оценка качества «подгонки»
модели
• Уравнение регрессии всегда
дополняется показателем тесноты
связи. При использовании линейной
регрессии в качестве такого показателя
выступает линейный коэффициент
корреляции rxy , который можно
рассчитать по следующим формулам:
 x cov  x, y 
•
rxy  b 

y
 x  y
• Линейный коэффициент корреляции
находится в пределах: 1  rxy  1 .
• Для оценки качества подбора линейной
функции рассчитывается квадрат
линейного коэффициента корреляции rxy2 ,
называемый коэффициентом
детерминации R2 .
• Коэффициент детерминации
характеризует долю дисперсии
результативного признака y ,
объясняемую регрессией, в общей
дисперсии результативного признака:
2

2
2
ост
R
r

1

•
= xy
2
y
• Где 
2
ост

1
  y  yx
n

2
1
2
   y  y   y2  y 2
n
2
y
2
1

r
• Соответственно величина
xy
характеризует долю дисперсии ,
вызванную влиянием остальных, не
учтенных в модели, факторов. Чем
ближе коэффициент детерминации к
единице, тем лучше точки на
регрессионном поле укладываются на
линию регрессии, т.е. тем выше уровень
«подгонки» модели.
• После того как найдено уравнение
линейной регрессии, проводится оценка
значимости как уравнения в целом, так
и отдельных его параметров.
• Чтобы иметь общее суждение о
качестве модели из относительных
отклонений по каждому наблюдению,
определяют среднюю ошибку
аппроксимации:
y  yx
1
A 
 100%
n
y
• Средняя ошибка аппроксимации не
должна превышать 8–10%.
Значимость регрессионной
модели в целом
• Оценка значимости уравнения
регрессии в целом производится на
основе -критерия Фишера, которому
предшествует дисперсионный анализ.
• Согласно основной идее
дисперсионного анализа, общая сумма
квадратов отклонений переменной y от
среднего значения y раскладывается
на две части – «объясненную» и
«необъясненную»:
 y  y    y
2
x


 y   y  yx
 y  y 
2
2

2
• Где
- общая сумма квадратов
отклонений;
2
•  yx  y
- сумма квадратов
отклонений, объясненная регрессией
(или факторная сумма квадратов
отклонений);
2
•   y  y x  - остаточная сумма квадратов
отклонений, характеризующая влияние
неучтенных в модели факторов.


Схема дисперсионного
анализа:
• Определяются дисперсии на одну
степень свободы, что приводит
дисперсии к сравнимому виду.
Сопоставляя факторную и остаточную
дисперсии в расчете на одну степень
свободы, получим величину -критерия
Фишера:
2
F 
Sфакт
2
Sост
• Фактическое значение F -критерия
Фишера сравнивается с табличным
значением F  ; k ; k  при уровне
значимости  и степенях свободы k  m
и k2  n  m  1 . При этом, если
фактическое значение F -критерия
больше табличного, то признается
статистическая значимость уравнения в
целом.
табл
1
2
1
• Для парной линейной регрессии m  1 ,
поэтому
y  y



  n  2
 y  y 
2
F
2
Sфакт
2
Sост
x
2
x
• Величина F - критерия связана с
2
коэффициентом детерминации rxy , и
ее можно рассчитать по следующей
формуле:
F
rxy2
1 r
2
xy
  n  2
• Из этой формулы видно, что чем ближе
коэффициент детерминации к единице,
тем больше F , т.е. критерий Фишера
позволяет оценить, достаточно ли
близок коэффициент детерминации к
единице, чтобы модель можно было
признать удовлетворительной по
качеству «подгонки».
• Следует заметить, что даже если
«подгонка» идеальна и точки
корреляционного поля в точности лежат
на линии регрессии ( например - если
мы построим интерполяционный
многочлен), модель еще не может
считаться качественной, поскольку
важна значимость не только уравнения
в целом, но и отдельных его
параметров.
Значимость коэффициентов
регрессии
• Стандартная ошибка коэффициента
регрессии определяется по формуле:
mb 
2
Sост
 x  x 
2
Sост

x  n
 y  y
x

2
• Где S  n  2
- остаточная
дисперсия на одну степень свободы.
2
ост
• Величина стандартной ошибки
совместно с t -распределением
Стьюдента при n  2 степенях свободы
применяется для проверки
существенности коэффициента
регрессии и для расчета его
доверительного интервала.
• Для оценки существенности
коэффициента регрессии его величина
сравнивается с его стандартной
ошибкой, т.е. определяется
фактическое значение
-критерия
t
b
t

Стьюдента:
которое затем
m
сравнивается с табличным значением
при определенном уровне значимости 
и числе степеней свободы  n  2 .
b
b
• Стандартная ошибка параметра a
определяется по формуле:
x


n   x  x 
2
ma  S
2
ост
2
 Sост 
2
x

x n
t
• Процедура оценивания существенности
данного параметра не отличается от
рассмотренной выше для
коэффициента регрессии. Вычисляется
t -критерий: t  a ,
a
ma
• его величина сравнивается с табличным
2
значением при
степеняхn свободы.
Прогнозирование с использование
линейной регрессионной модели
• В прогнозных расчетах по уравнению
регрессии определяется
предсказываемое y p значение как
точечный прогноз y x при x p  xk , т.е.
путем подстановки в уравнение
регрессии y  a  b  x
соответствующего
значения x .
x
• Однако точечный прогноз явно не
реален. Поэтому он дополняется
расчетом стандартной ошибки y p,т.е. m,y p
и соответственно интервальной оценкой
yp
прогнозного значения
:
y p  y  y p  y p  y
p
my
p
1  xp  x 
 Sост  1  
n
n   x2
2
p
Теорема Гаусса-Маркова (для
простой линейной регрессии)
• При оценке значимости модели в целом
с использованием критерия Фишера и
значимости каждого из коэффициентов,
следует учитывать, что их применение
строго обосновано только при
выполнении условий теоремы ГауссаМаркова, которые для простой
линейной регрессионной модели имеют
следующий вид:
Классическая линейная модель
простой регрессии имеет вид:
•
•
•
•
•
1. y t  a  bxt   t , t  1,2,..., n
.
2.  t - случайная ошибка, M  t   0 ,
2
2


D


e


3.
- гомоскедастичность,
t
t
4. M  t s   0, s  t - некоррелированность.
5.  t - имеет нормальное
распределение.
• Утверждение теоремы Гаусса Маркова
состоит в том, что при выполнении условий 15 оценки, полученные методом наименьших
квадратов , будут состоятельными,
несмещенными и максимально
эффективными (в классе линейных оценок).
• В следующих лекциях мы изучим
последствия, к которым приводит нарушение
того или иного условия этой теоремы.
• Рассмотрим пример. По данным
проведенного опроса восьми групп
семей известны данные связи расходов
населения на продукты питания с
уровнем доходов семьи.
Расходы на
продукты
питания, y
тыс. руб.
0,9
1,2
1,8
2,2
2,6
2,9
3,3
3,8
Доходы
семьи, x ,
Тыс. руб
1,2
3,1
5,3
7,4
9,6
11,8
14,5
18,7
Рис. 1.4.
По графику видно, что точки выстраиваются в некоторую прямую
линию.
• Рассчитаем параметры линейного
уравнения парной регрессии y x  a  b  x .
Для этого воспользуемся формулами
cov  x, y  x  y  x  y 26,09  8,95  2,34
b


 0,168
2
x
30,56
x2  x 2
a  y  b  x  2,34  0,168  8,95  0,836
• Получили уравнение: y x  0,836  0,168  x .
т.е. с увеличением дохода семьи на
1000 руб. расходы на питание
увеличиваются на 168 руб.
• Выпишем показатель тесноты связи –
выборочный коэффициент корреляции
• rxy :
x
5,53
rxy  b 
 0,168 
 0,994
y
0,935
• Близость коэффициента корреляции к 1
указывает на тесную линейную связь
между признаками.
rxy2  0,987
• Коэффициент детерминации R =
(примерно тот же результат получим,
если найти по определению из
формулы (1.7))
2
• Оценим качество уравнения регрессии
в целом с помощью F -критерия
Фишера. Сосчитаем фактическое
значение F -критерия:
rxy2
0,987
F
 n  2 
 6  455,54
2 
1  rxy
1  0,987
• Табличное значение
• ( k1  1 , k2  n  2  6 ,   0,05 ): Fтабл  5,99
• Так как Fфакт  Fтабл , то признается
статистическая значимость уравнения в
целом.
• Рассчитаем случайные ошибки
параметров линейной регрессии и
коэффициента корреляции

 S2 
 ост


 y  y 
x
n2
2

0,1257

 0, 021
82


Sост
0,021
mb 

 0,0093
 x  n 5,53  8
2
x

0,021  885,24
ma  Sост 

 0,0975
x n
5,53  8
1 r2
1  0,987
mr 

 0,0465
n2
6
• Фактические значения t-статистик:
0,836
•
0,168
t 
 8,574
tb 
0,0093
 18,065
tr 
a
0,994
 21,376
0,0465
0,0975
• Табличное значение t -критерия
Стьюдента при   0,05 и числе
степеней свободы   n  2  6 есть tтабл . 2,447
Так как tb  tтабл , ta  t табл , то признаем
статистическую значимость параметров
регрессии .
• Средняя ошибка аппроксимации
Ai 
yi  y xi
yi
 100%
в нашем примере равна A  6,52%
говорит о хорошем качестве уравнения
регрессии, т.е. свидетельствует о
хорошем подборе модели к исходным
данным.
• И, наконец, найдем прогнозное
значение результативного фактора y p
при значении признака-фактора,
составляющем 110% от среднего
уровня xp  1,1 x  1,1 8,95  9,845 , т.е.
найдем расходы на питание, если
доходы семьи составят 9,85 тыс. руб.
y p  0,836  0,168  9,845  2, 490
• Значит, если доходы семьи составят 9,845
тыс. руб., то расходы на питание будут
2,490 тыс. руб.
• Найдем доверительный интервал
прогноза. Ошибка прогноза
my  Sост  1 
p
1

n
 xp  x 
n   x2
2
 1  9,845  8,95 2 
 0,021 1  
  0,154
 8

8  30,56


• а доверительный интервал (
2,113  y p  2,867
y p   y  yp  y p   y
p
p
):
• Подчеркнем, что здесь мы получили
доверительный интервал для y p (а не
для математического ожидания y p ).
Построение регрессии в Excel
Построение регрессии в
StatGraphics
Построение регрессии в EWiews
Лекция 3.
Преобразования переменных
в регрессионном анализе.
Все нелинейные регрессионные модели
делятся на два класса:
• нелинейные модели, сводящиеся к
линейным с помощью некоторой
замены переменных
• и модели, которые к линейным не
сводятся.
Регрессионные модели,
сводящиеся к линейным:
•
•
•
•
•
•
•
полиномы разных степеней ,
гиперболическая по x,
гиперболическая по y,
степенная,
показательная,
логистическая
и т.д.- их достаточно много.
С существенно нелинейными моделями
дело обстоит сложнее: для того, чтобы
найти параметры модели, на которых
достигается минимум в методе
наименьших квадратов, приходится
численно минимизировать некоторую,
как правило, многоэкстремальную
функцию, что может быть непросто.
Рассмотрим в качестве примера
классическую модель
Кобба-Дугласа
В 1929 экономист Пол Дуглас и математик Чарлз Кобб
предложили следующую макроэкономическую
модель: пусть
• Y- объем производства,
• K- капитальные затраты,
• L- затраты труда, тогда, используя метод
наименьших квадратов, можно подобрать параметры
A и так, чтобы
 1
Y  AK L
• Эта модель эквивалентна следующей
степенной модели:

Y / L  A( K / L)
или, взяв логарифмы:
ln( Y / L)  ln A   ln( K / L)
Это- уже простая линейная модель, в которой
ln( Y / L)
играет роль Y, а переменная
играет роль х.
ln( K / L)
Получим следующие оценки
параметров:
ln A  0.013
  0.257
Коэффициент детерминации
R  0.643
2
• В нашем примере , для критерия
Фишера,
• P-val = 0.0000, и , следовательно,
гипотеза о несущественном отличии
параметра от нуля отвергается. Таким
образом- оценка модели в целом
положительная.
• Следует запомнить простое правило:
если P-val мало, то найденный
коэффициент значимо отличается от
нуля и его можно использовать.
• В эконометрической теории существует
много видов линейных по параметрам
уравнений, которые следует
использовать, или исходя из
теоретических предпосылок, или из
предпосылок качества оценивания.
Обычно используются следующие
функциональные формы:
• Модели, у которых логарифм содержится в
обеих частях равенства, называются
двойными логарифмическими (log-log),
• если же логарифм содержится только справаэто полулогарифмическая модель типа semilog,
• если же логарифм только слева- это
полулогарифмическая модель типа log-lin.
• В нашем примере мы имеем двойную
логарифмическую модель.
• Далее мы разберем, каков
содержательный смысл коэффициентов
для различных видов модели.
Лекция 4.
Модель множественной линейной
регрессии (МЛР): две
объясняющие переменные и k
объясняющих переменных.
•
В предыдущей лекции мы
познакомились с классической моделью
Кобба-Дугласа:
 1
Y  AK L
•
•
•
•
где
Y- объем производства,
K- капитальные затраты,
L- затраты труда,
• и нашли (методом наименьших
квадратов) оценки параметров A и . В
целом, модель оказалась удачной,
однако коэффициент детерминации ,
характеризующий качество «подгонки »
модели хотелось бы иметь побольше…
• В связи с этим можно рассмотреть
более общую модель:
 
Y  AK L
.
• Где     1
• Прологарифмируем это равенство
ln Y  ln A   ln K   ln L
• неизвестные параметры ln A,  , 
• входят линейно, т.е. это также линейная
модель, но с двумя независимыми
переменными, а именно: ln K и ln L
• Введем следующие обозначения:
y  ln( Y ), x1  ln( K ), x2  ln( L), b1   , b2  
• тогда уравнение регрессии имеет
следующий вид:
y  a  b1 x (1)  b2 x ( 2)
• Такого рода модель называется
линейной множественной линией
регрессии.
• Коэффициенты такой модели обычно
находятся с помощью уже известного нам
метода наименьших квадратов (МНК):
S (a, b1, b2 )  ( yi  yˆ xi )    min
2
2
i
• где y xi  b0  b x  b x
• Приравнивая к нулю производные функции
S мы получим систему из трех линейных
уравнений с тремя неизвестными b0 , b1 , b2
(t )
1 t
(2)
2 t
Рассмотрим внимательнее
Parameter Estimate
CONSTA
NT
log(k)
log(l)
-0,17731
Standard
Error
0,434293
0,233053 0,0635297
0,807278 0,145076
T
Statistic
PValue
-0,40827 0,6872
3,66842
5,56451
0,0014
0,0000
• Мы получили следующие оценки для неизвестных
параметров:
b0  ln A  0,18
b1    0,23;
b2    0,8
• Первый коэффициент незначимо отличается от нуля
(Pval=0.69), зато второй и третий коэффициент
вполне надежны ( Pval равны соответственно 0.0014
и 0.0000).
• Также как и для простой линейной
регрессии для оценки качества
«подгонки» модели можно использовать
коэффициент детерминации:

n
R2 
t 1
n
yt  y
 y
t 1
t
 y


n
2
2
 1
  yt
t 1
n
 y
t 1
t
 yt

 y

2
2
• Однако в случае множественной регрессии он
обладает неприятным свойством: если мы
увеличиваем количество независимых переменных,
коэффициент детерминации также увеличивается!
• Для того, чтобы такого автоматического увеличения
не происходило, используется исправленный
(скорректированный-adjusted) коэффициент
детерминации:
R  1  (1  R )(n 1) /(n  k 1)
2
adj
2
• (n-объем выборки, k-число независимых
переменных).
• Если вернуться к нашей обобщенной модели
Кобба-Дугласа, то
R-squared = 95,7425 percent
• из чего следует, что качество «подгонки»
нашей модели достаточно хорошее.
• Для общей оценки модели можно посмотреть
на результат, который дает критерий Фишера:
F=236,12
• т.е. модель действительно удачная.
Содержательная интерпретация коэффициетов
 и  для обобщенной модели Кобба-Дугласа
• Найденные нами коэффициенты и
имеют ясную интерпретацию: это
коэффициенты эластичности
переменной Y по K и по L
соответственно. Действительно,
эластичность Y по K равна:
(Y / Y ) /(K / K ) 
( AK
 1 
 
L )* K /( AK L )  
• Аналогично проверяется второе
высказывание.
• Для нашего примера:
b1    0,23;
b2    0,8
• Какие вложения более эффективны?
• Какую содержательную интерпретацию
можно дать неравенству
    1?
Коэффициенты множественной линейной
регрессионной регрессии и их свойства
• Обозначим:
Y   y1 ,..., yn  ,    b0 , b1 ,..., bk  ,   1,...,  n 
T
T
T
X  (1, x (1) , x (2) ,..., x ( k ) )
• (т.е. X-это матрица, первый столбец
которой состоит из n единиц, а
остальные столбцы представляют из
себя n- мерные вектор-столбцы
значений независимых переменных)
Тогда условия теоремы ГауссаМаркова примут вид:
• Y  XB  
- спецификация модели;
• X - детерминированная матрица,
имеющая максимальный ранг k+1;
M    0 ,
•
T
2
D


M



In


 
•
 ~ N O, I 
•
т.е. -  нормально
2
n
распределенный случайный вектор с нулевым
средним и матрицей ковариаций
 In
2
Замечание
• Если матрица X не является
детерминированной, то остатки и
независимые переменные должны быть
независимыми при любом наблюдении
t=1,2,…,n
• Нарушение свойства 4 может быть из-за
того, что дисперсии остатков для
различных наблюдений различны.
Такое нарушение называется
гетероскедастичностью и приводит к
тому, что свойство максимальной
эффективности не сохранится, хотя
свойства состоятельности и
несмещенности сохраняются.
• К таким же последствиям приводит
автокорреляция остатков (т.е.
• cov( i ,  j )  0
при i  j
• Если нарушено условие 3 (или условие,
сформулированное в замечании), то
может быть нарушено свойство
несмещенности оценок.
• Найдем теперь оценки для коэффициентов
линейной регрессионной модели.
ˆ
• Обозначим через Yt  X t B
- прогноз значения Y в точке X t
t
(t=1,2,…,n)
Здесь X t t строка матрицы Х
B̂
искомая оценка вектора B

Остатки регрессии et  Yt  Yt
Метод наименьших квадратов
• Целью метода является выбор вектора
оценок , минимизирующего сумму
квадратов остатков
ESS 
n
2
T
e

e
e  min
 t
t 1
• Здесь
e  Y Y  Y  X
• Выразим eT e
через Х и
e e  Y  X  
T
T
В:
Y  X   
Y T Y  Y T X   T X T Y  T X T X 
• Приравниваем к нулю вектор-градиент
этой функции (по b):
2 X Y  2 X X   0
T
T
T
• Матрица X X у нас обратима
(почему?), поэтому, умножим слева
полученное уравнение на ( X T X )1
получим :



1 T
T
  МНК  X X X Y
• В теореме Гаусса-Маркова
утверждается, что найденные нами
оценки коэффициентов множественной
линейной регрессионной модели
являются состоятельными,
несмещенными и максимально
эффективными (в классе линейных
оценок) оценками.
Проверка качества множественной
линейной регрессионной модели
• Так же как и для простой линейной
регрессии, первоначальный (и
неполный) анализ качества
регрессионной модели сводится к
проверке качества «подгонки» модели с
помощью исправленного коэффициента
детерминации и критерия Фишера, а
затем анализа значимости найденных
коэффициентов.
Лекция 5
Мультиколлинеарность.
Методы устранения
мультиколлинеарности
• Мультиколлинеарность (строгая)
определяется нарушением требования
к рангу матрицы - ранг матрицы
меньше . Матрица оказывается X T X
вырожденной.
• Из материала предыдущей лекции
следует, что нахождение параметров
линейной регрессионной модели в этом
случае становится невозможно. Такие
ситуации, в которых независимые
переменные линейно связаны,
встречаются в приложениях и
выявляются легко. Сложнее выявить
связи близкие к линейным (нестрогую
мультиколлинеарность)
•
Анализируют матрицу парных (и
частных) коэффициентов корреляции.
наличие значений коэффициентов
корреляции > 0,75 - 0,80,
свидетельствует о наличии
мультиколлинеарности (нестрогой).
•
Существование тесных линейных
статистических связей между
объясняющими переменными
приводит к слабой обусловленности
матрицы
T
X X
•
Важную роль в анализе
мультиколлинеарности играет и
минимальное собственное число min
матрицы X T X (оно близко к нулю).
Мультиколлинеарность есть
когда:

• некоторые из оценок  j, МНКимеют
неправильные знаки или неоправданно
большие по абсолютной величине
значения
• небольшое изменение исходных
статистических данных приводит к
существенному изменению оценок
коэффициентов модели, вплоть до
изменения их знаков
• большинство или даже все оценки
коэффициентов регрессии оказываются
статистически незначимо
отличающимися от нуля, а модель в
целом является значимой при проверке
с помощью статистики .
Причины появления
мультиколлинеарности.
1.Строгая
мультиколлинеарность при
введении фиктивных
сезонных переменных.
2. Ложная корреляция. Общие
тренды.
•
Значение одной из независимых
переменных является лагированным
( т.е. полученным в другой момент
времени) значением другой.
Методы устранения
мультиколлинеарности
• Отбор наиболее существенных
объясняющих переменных.
• Переход к ортогонализированным
объясняющим переменным с помощью
метода главных компонент.
• Переход к смещённым методам
оценивания.
• Подходом называемый “ридж регрессией”.
Лекция 6.
.
Гетероскедастичность
Линейные регрессионные модели
с гетероскедастичными остатками
• В предыдущей лекции мы уже
отмечали, что гетероскедаксичность
остатков, приводит к тому, что оценки
коэффициентов регрессионной модели
перестают быть эффективными, а
также возникают проблемы с оценкой
значимости коэффициентов и всей
модели в целом.
• Обнаружение гетероскедастичности в каждом
конкретном случае является сложной
задачей, поскольку точно определить
дисперсию для отклонений  t мы не можем,
(т.к. для этого нужно знать распределение
этой случайной величины), а получить
статистическую оценку для дисперсии тоже
сложно, т.к. на практике для каждого
значения независимой переменной xt мы, как
правило, знаем единственное значение . yt
• Однако, при некоторых дополнительных
предположениях, к настоящему
времени разработано достаточно много
способов выявления
гетероскедаксичности.
• Проверить модель на
гетероскедаксичность можно проверить
с помощью следующих тестов:
графический анализ отклонений, Уайта,
Голдфельда-Квандта, Спирмена,
Бреуша-Пагана, Глейзера. Рассмотрим
некоторые из них.
1. Графический анализ
отклонений.
• С помощью любого из имеющихся у нас
прграммных средств, легко построить
график зависимости остатков (или их
квадратов) от какой либо независимой
переменной (либо их линейной
комбинации).
• Естественно предположить, что остатки
гетероскедаксичны, если график будет
похож на один из следующих:
Примеры гетероскедастичности
А)
Б)
В)
• Наличие гетероскедастичности можно
видеть и по рассмотренному выше
графику зависимости остатков  i от
теоретических значений
результативного признака .
Так, зависимость остатков от
представлена на следующих рисунках:
2. Тест Уайта.
• Тест Уайта- один из самых общих и
достаточно распространенных тестов.
• Пусть, для определенности, к=2, т.е. мы
имеем модель следующего вида:
yt  b0  b1 x
(1)
t
 b2 x
( 2)
t
 t
• Для квадратов остатков регрессионной
модели строится вспомогательная
регрессионная модель:
e  a0  a x  a x  a3 ( x )  a4 ( x )  a x x  ut
2
t
(1)
1 t
(2)
2 t
(1) 2
t
(2) 2
t
(1) (1)
5 t t
• где ut нормально распределенная ошибка,
независимая от  t .
• Вспомогательная регрессия выбрана в такой
форме для того, чтобы понять, есть ли
существенная зависимость остатков от
независимых переменных.
• Пусть
коэффициент детерминации
для вспомогательной модели. Известно,
что если коэффициенты
вспомогательной регрессионной модели
(кроме свободного члена) равны нулю,
2
nR
то случайная величина имеет
2

(m)m –
распределение близкое к
, где
количество слагаемых во
вспомогательной модели (без
свободного члена). (В нашем случае
m=5).
R2 -
• Если фактическое значение будет больше
критического значения, то гипотеза
H 0 : a2  a3  ...  a6  0
отвергается и делается вывод о наличии
гетероскедастичности. Разумеется, в
статистических пакетах такой вывод
делается если соответствующее Pval мало
(обычно- меньше 0.05).
• Грубо говоря, если коэффициент
детерминации вспомогательной модели
слишком близок к единице, то остатки
гетероскедастичны.
3. Тест Спирмена.
• В курсе прикладной статистики мы уже
познакомились с тестом ранговой
корреляции Спирмена. Здесь мы
применяем этот тест для выявления
связи между остатками и некоторой
объясняющей переменной (это м.б.,
например, x ( i ) ).
• Вычисляется коэффициент Спирмена:
rxe  1  6( dt2 ) / n(n  1)
• и если он по модулю близок к единице, то
остатки гетероскедастичны. Можно,
разумеется, формализовать это
высказывание, используя тот факт, что при
отсутствии связи между x и e, статистика
t  rxe n  2 / 1  rxe2
имеет распределение Стьюдента с n-2
степенями свободы.
4. Тест Голдфелда – Куандта.
• В тесте проверяется основная гипотеза
H 0 :     ...  
2
1
2
2
2
n
• против альтернативной гипотезы
H1 :
не H 0
• предположение о прямой зависимости
дисперсии ошибки от величины некоторой
независимой переменной.
• Тест проводится следующим образом:
• 1) упорядочить данные по убыванию
той независимой переменной,
относительно которой есть подозрение
на гетероскедастичность; исключить d
средних наблюдений ;
2) провести две независимые регрессии
первых n 2  d 2 наблюдений и последних
нn 2  d 2 наблюдений и построить
соответствующие остатки e1и e ;
3) составить статистику
2
T
1 1
e
e
F 
T
2
e e2
• Если верна гипотеза H 0 , то F имеет
распределение Фишера с
n 2  d 2 
p, n
2
d
2
 p

степенями свободы. Большая величина
этой статистики означает, что гипотезу
H0
следует отвергнуть
(т.е.модель
гетероскедастична).
5. Тест Бреуша – Пагана
(Breusch – Pagan).
• В тесте проверяется основная гипотеза
H 0 :     ...  
2
1
•
2
2
2
n
против альтернативной гипотезы
H1 : не H 0
• Этот тест применяется в тех случаях,
когда априорно предполагается, что
дисперсии  t2 зависят от некоторых
2

дополнительных переменных: t   0  zt 
t  1,..., n , где zt  z1t ,..., z pt  - вектор
независимых переменных,  ,    ,...,  неизвестные параметры.
T
0
1
p
Тест Бреуша – Пагана предполагает
выполнение следующих действий:
1) провести обычную регрессию
Y  X  
и получить вектор остатков e  e1 ,..., en T
2) построить оценку
2
  1 n  et2
2
et
3) провести регрессию
 2   0  zt   t
 

и найти для нее объясненную часть вариации ;
RSS
4) построить статистику
2 .
Установлено, что если верна гипотеза
H 0, то величина RSS 2 асимптотически
2

имеет распределение  p  .
• При выявлении гетероскедастичности
можно попытаться коррекцию с
помощью метода взвешенных
наименьших квадратов, выбирая в
качестве весов величины   z  , где
 

0, 
- оценки.
1
0
t
2
• Процедура теста Бреуша – Пагана
выглядит тогда совершенно аналогично
с заменой регрессии на регрессию
e

ln 
2    0  zt  ut
 t 
2
t
Обобщенная линейная множественная
регрессионная модель с
гетероскедастичными остатками.
• Сейчас мы познакомимся с некоторыми
методами борьбы с
гетероскедастичностью.
• Пусть Y  X   и ковариационная
матрица вектора ошибок  диагональная,
D t    t , t  1,2,..., n
2
Обобщенный метод наименьших
квадратов:
yt
t
• где
p
 bj
j 1
ut
x jt
t
t

t
 ut ,
t  1,2,..., n
, причем
Dut   1, covut , us   0
при t  s
.
 1
Q b    

t 1   t
n
1

 yt 


p
b
j 1
j
x jt




2
• Величины  выступают в роли
«весов» и поэтому называют методом
взвешенных наименьших квадратов.
t
1) Стандартное отклонение ошибки
пропорционально независимой
переменной.
В некоторых ситуациях априорно можно
считать, что стандартное отклонение ошибки
прямо пропорционально одной из
независимых переменных. Если есть
предположение о зависимости ошибок от
одной из независимых переменных, то
целесообразно расположить наблюдения в
порядке возрастания значения этой
переменной, а затем провести обычную
регрессию и получить остатки.
• Если размах их колебаний тоже
возрастает, тогда надо сделать
описанное ранее преобразование,
вновь провести регрессию и
исследовать остатки. Если теперь их
колебание имеет неупорядоченный
характер, то это может служить
показателем того, что коррекция на
гетероскедастичность прошла успешно.
2) Дисперсия ошибки принимает
только два значения.
• Пусть известно, что  t  
для
t  1,2,..., n1 и  t 2  22 для t  n  1, n  2,..., n1  n2
2
2
Но числа 1 и  2 неизвестны. В этом
случае:
• провести регрессию

e e

e
e


• построить оценки  
и
n
n
2
2

дисперсий 1 и 2 ;
2
2
1
2
1
T
1
1
2
2
1
T
2
2
2
•
преобразовать переменные, разделив

n

первые 1 уравнений на
,а
 2

последующие n2 - на 2 ;
провести обычную регрессию для
преобразованной модели.
2
1
•
3) На практике часто не удается
определить причину и форму
гетероскедастичности.
• В этом случае обычно пытаются
перевести все переменные в
логарифмическую форму (если все
они положительны).
Лекция 7.
.
Автокоррелированность
случайного члена
•
Одной из важных предпосылок
построения линейной регрессии МНК
является условие некоррелированности
остатков (отсутствие авторегрессии).
Последствия автокорреляции в
определенной степени сходны с
последствиями гетероскедастичности.
Среди них при применении МНК
обычно выделяются следующие.
• 1. Оценки параметров, оставаясь
линейными и несмещенными,
перестают быть эффективными.
Следовательно, они перестают
обладать свойствами наилучших
линейных несмещенных оценок.
• 2. Дисперсии оценок являются смещенными.
Зачастую дисперсии, вычисляемые по
стандартным формулам, являются
заниженными,что приводит к увеличению tстатистик. Это может привести к
признанию статистически значимыми
объясняющие переменные, которые в
действительности таковыми могут и не
являться.
3. Оценка дисперсии регрессии
S 2  ( et2 ) /(n  k 1)
является смещенной оценкой истинного
значения  2 , во многих случаях
занижая его.
• 4. В силу вышесказанного выводы по tи F-статистикам, определяющим
значимость коэффициентов регрессии и
коэффициента детерминации,
возможно, будут неверными.
Вследствие этого ухудшаются
прогнозные качества модели.
• Здесь следует отметить, что
автокорреляция остатков обычно
встречается в регрессионном анализе
при использовании данных,
упорядоченных по времени.
• Особенно существенно влияние
автокорреляции при анализе
временных рядов, которыми мы будем
заниматься позднее.
1. Причины автокорреляции.
• Чаще всего автокорреляция вызывается
воздействием некоторых неучтенных в
модели факторов
• либо ошибкой спецификации модели.
• причиной автокорреляции может быть
инерционность изменения экономических
факторов.
• эффект автокорреляции может появиться в
результате сглаживания данных.
2.Обнаружение
автокорреляции.
1) Графический метод.
• Автокорреляция обычно легко
выявляется по графику, связывающему
моменты наблюдения с остатками,
например:
Или по графику, связывающему
последовательные остатки:
Какому из предыдущих рисунков соответствует этот график ?
2. Критерий Дарбина-Уотсона
• Наиболее известным критерием обнаружения
атокорреляции первого порядка (т.е.
коррелированности последовательных
наблюдений) является критерий ДарбинаУотсона. Статистика ДарбинаУотсона есть во
всех статистических и эконометрических
пакетах. Предполагается, что остатки в
регрессионной модели связаны следующим
образом:
et   et 1   t
• Находится выборочная оценка
параметра  - выборочный
коэффициент корреляции ret et 1 .
• Критерий Дарбина – Уотсона основан
на статистике, имеющей вид
n
DW 
 et
i2
 et 1 
2
n
e
i 1
2
i
• где et  yi  yt остатки обыкновенного
метода наименьших квадратов.
Постоянный член включен в число
регрессоров
• Тогда
2


e

e
t 2 t t 1
n
DW 
t 1 et
n
2
 n et et 1  e 2  e 2
 2 1  t n2 2   1 n n2 .


e
t 1 t  t 1 et

• Предполагая, что число наблюдений
достаточно большое, можно
ee

предполагать, что r 
.получим
n
t 2
n
DW  2 1  r 

t
e
t 1 t
t 1
2
• Дарбин и Уотсон доказали, что существуют
две границы d u и d
d u  d l u  верхняя, l  нижняя  которые обладают
следующим свойством:
• 4  dl  DW  4 отрицательная корреляция
• 4  du  DW  4  dl
неопределенность
• du  DW  4  du
нет автокорреляции
•
неопределенность
dl  DW  du
l
•
0  DW  dl положительная корреляция
• Тест Дарбина – Уотсона построен в
предположении, что регрессоры и
ошибки не коррелированны.
• Приближенное правило звучит так: если
DW  (1.3;2.7)
то автокорреляции нет.
3. Критерии случайности.
• В курсе прикладной статистики мы
познакомились с несколькими критериями
случайности, которые заложены в пакете
Statgraphics: медианный критерий серий,
критерий восходящих и нисходящих серий.
Здесь мы можем использовать первый из них
для выявления автокорреляции:
выписываются знаки последовательности
остатков, если среди них окажется слишком
много серий, одного знака, или слишком
длинная серия одного знака, то остатки
коррелированны.
3.Методы устранения
атокорреляции.
• В начале лекции отмечалось, что одной
из основных причин автокорреляции
являются неучтенные (а иногдалишние) факторы.
• Грубое правило, основанное на
коэффициенте Дарбина-Уотсона гласит:
если DW близко к нулю, есть
положительная автокорреляция- нужно
поискать, какой дополнительный
фактор следует включить в модель,
если же DW близко к 4, есть
отрицательная автокорреляция,
модель видимо переопределенаследует исключить какой-то фактор.
• Часто изменение формы зависимости,
например на лог-линейную или
полиномиальную приводит к успеху.
• Если такие методы не приводят к успеху, то
возможно автокорреляция обусловлена
внутренними свойствами остатков. Тогда
можно воспользоваться, например ,
авторегрессионным преобразованием
(выпишем для парной регрессии):
• Мы предполагаем, что
et   et 1   t
тогда
yt   yt 1  b0 (1   )  b1 ( xt   xt 1 )  (et   et 1 )
Переобозначив yt1  yt   yt 1 , xt1  xt   xt 1
 t  et   et 1 где остатки уже
некоррелированы.
Лекция 8.
Спецификация модели
линейной регрессии.
Фиктивные переменные.
Спецификация модели
подразумевает выбор:
• независимых переменных:
• функциональной формы:
• модели случайного члена.
Ошибки спецификации возникают, когда
один из выборов произведен неудачно.
Выбор переменных,
включаемых в модель,
можно произвести на основании следующих
четырех критериев:
• а) Теория.Соответствие экономической
теории и смыслу задачи;
• б) t-тест. Оценка коэффициента
включаемой переменной должна быть
значимой.
• в) Исправленный коэффициент
2
R
детерминации adj .В результате включения
в уравнение переменной R должен возрасти.
• г)Смещение. При добавлении существенной
переменной в уравнение, оценки
коэффициентов при других переменных
должны значимо измениться.
2
adj
2. Выбор функциональной
формы модели.
• Наилучший выбор модели определяется
опять таки теорией и здравым смыслом, хотя,
разумеется, есть и формальные критерии
выбора.
• Если точная спецификация модели
неизвестна (что практически всегда и
бывает), то пользуются критериями, которые
позволяют выбрать, из некоторого множества
моделей наилучшую.
• Наиболее распространенными
являются информационные критерии
Шварца и Акайке. Они устроены так,
чтобы учесть влияние на качество
модели двух противоположных
тенденций: при увеличении числа
регрессоров, «подгонка» модели
улучшается, однако как мы уже
отмечали в предыдущих лекциях, могут
появиться незначимые коэффициенты.
• Таким образом, число коэффициентов
должно быть разумным, чтобы не вызвать
«искусственной» подгонки (пример такой
крайности – интерполяционный многочлен).
Рассматриваемые критерии находят по
следующим формулам:
2
2
2
S

(
e

t ) / n - выборочная
• SH  ln S  (k  1) ln n / n, где
AK  ln S 2  2(k  1) / n
дисперсия остатков,
k- число регрессоров (независимых
переменных).
• Сделаем два важных замечания:
• 1)Критерии нельзя использовать для
сравнения уравнений с разными формами
зависимости от независимых переменных.
• 2)Неправильная функциональная форма
может дать хорошее качество подгонки в
области проведенных наблюдений и быть
совершенно неприемлемой вне нее.
3.Выбор модели случайного
члена
• Можно использовать уже знакомый нам
по шестой лекции тест Уайта.
Лекция 9.
Модели двоичного выбора, модели с
ограничениями для зависимой
переменной и оценивание по методу
максимума правдоподобия.
• Заметим, что иногда фиктивные переменные
(которые мы изучали в прошлой лекции)
могут быть использованы для объяснения
поведения зависимой переменной.
Например, если рассматривать следующую
зависимость: наличие автомобиля в
зависимости от дохода, пола субъекта и т. п.,
то зависимая переменная имеет как бы два
возможных значения:0, если машины нет, и 1,
если машина есть.
• Однако если для моделей данного типа
использовать обыкновенный МНК, то
оценки, получаемые с его помощью, не
обладают свойствами наилучших
линейных несмещенных оценок (BLUE).
Поэтому для определения
коэффициентов в этом случае
используются другие методы.
• В качестве одного из вариантов
преодоления недостатков обычной
линейной модели можно предложить
logit модель. Поясним суть данной
модели.
• По линейной модели условная
вероятность pi = P(Y = 1 | xi )
выражалась формулой:
• Вместо этого, представим условную
вероятность pi в следующем виде:
1
pi  M (Y  1/ xi ) 
1  e  zi
• где
zi  b0  b1 xi(1)  ...  bk xi( k )
(Функция в правой части называется
логистической).
• Из этой формулы нетрудно заметить,
что при
• − ∞ < < +∞ никогда не нарушается
следующее неравенство: 0 ≤ ≤ 1.
• Кроме того, формула зависимости от
не является линейной. С другой
стороны,
• очевидно, что не является также
линейной функцией и от параметров b j
• Это означает, что для их определения
неприменим МНК. Но эта проблема
легко преодолима. Действительно,
1
1  pi 
1  e zi
pi
1  e zi
zi


e
1  pi 1  e zi
• Но тогда, мы имеем:
• где отношение вероятностей в левой
части P(y =1) , характеризует во сколько
раз больше, чем P(yi =0).
i
• Прологарифмировав левую и правую
части, получим
ln
pi
 zi  b0  b1 xi(1)  ...  bk xi( k )
1  pi
• Эта модель и называется logit
моделью. Она выражает логарифм от
отношения вероятностей через
линейную функцию.
• Вместо логистической функции в описанной
выше модели можно было использовать
функцию с аналогичными свойствами Ф(z)функцию распределения для стандартного
нормального распределения (т.е.
нормального распределения с нулевым
матожиданием и единичной дисперсией, N(0,
1))..
• . В этом случае модель называют probit
моделью.
• Логистическое распределение похоже
на нормальное с нулевым ожиданием и
дисперсией π2/3 (дисперсия
логистического распределения). В связи
с этим оценки коэффициентов в
моделях различаются примерно на
множитель π/√3 ≈ 1.8. Если вероятности
далеки от границ 0 и 1 (около 0,5), то
более точной оценкой множителя
является величина ϕ(0)/λ(0) = 8/π ≈ 1.6.
• При малом количестве наблюдений из-за
схожести распределений сложно решить,
когда следует применять логит, а когда—
пробит. Различие наиболее сильно
проявляется при вероятностях, близких к 0 и
1, поскольку логистическое распределение
имеет более длинные хвосты, чем
нормальное (оно характеризуется
положительным коэффициентом эксцесса).
• Для логита коэффициенты модели
описывают влияние факторов на логарифм
соотношения шансов. В общем случае по
знаку коэффициентов можно судить о
направлении зависимости, а по
соответствующим t-статистикам—о наличии
или отсутствии зависимости. Однако
интерпретировать коэффициенты в
содержательных
• терминах затруднительно.
РАБОТА ДЛЯ ЖЕНЩИН
Титаник
• Percentage of deviance explained by model = 43,3195
• Adjusted percentage = 40,9967
•
•
•
•
•
•
•
Likelihood Ratio Tests
Factor
Chi-Squared Df
sibsp
1,06573
1
parch
1,50828
1
pclass
20,772
1
sex 176,03
1
age 12,5562
1
P-Value
0,3019
0,2194
0,0000
0,0000
0,0004
Лекция 10.
Временные ряды.
1. Временные ряды. Лаги в
экономических моделях
• При анализе многих экономических
показателей (особенно в
макроэкономике) часто используют
ежегодные, ежеквартальные,
ежемесячные, ежедневные данные.
• Например, это могут быть годовые
данные по ВНП, ВВП, объему чистого
экспорта, инфляции и т.д., месячные
данные по объему продажи продукции,
ежедневные объемы выпуска какойлибо фирмы.
• Для рационального анализа
необходимо систематизировать
моменты получения соответствующих
статистических данных.
• В этом случае следует упорядочить
данные по времени их получения и
построить так называемые временные
ряды.
• Пусть исследуется показатель Y. Его
значение в текущий момент (период)
времени t обозначают yt; значения Y в
последующие моменты обозначаются
yt+1 , yt+2 , …, yt+k , …; значения Y в
предыдущие моменты обозначаются yt1 , yt-2 , …, yt-k, ….
• Нетрудно понять, что при изучении
зависимостей между такими показателями
либо при анализе их развития во времени в
качестве объясняющих переменных
используются не только текущие значения
переменных, но и некоторые предыдущие по
времени значения, а также само время t.
Модели данного типа называют
динамическими или временными.
• В свою очередь переменные, влияние
которых характеризуется определенным
запаздыванием, называются лаговыми
переменными.
Обычно динамические модели
подразделяют на два класса.
• 1. Модели с лагами (модели с
распределенными лагами) — это
модели, содержащие в качестве
лаговых переменных лишь
независимые (объясняющие)
переменные. Примером является
модель
• yt =  + b0·xt-1 + b1·xt-2 + …+ bk·xt-k +
k.
(1.1)
• 2. Авторегрессионные модели — это
модели, уравнения которых в качестве
лаговых объясняющих переменных
включают значения зависимых
переменных. Примером является
модель
• yt =  + bxt + yt-1 + k.
(1.2)
2. Оценка моделей с лагами в
независимых переменных
• Оценка модели с распределенными
лагами во многом зависит от того,
конечное
• yt =  + b0xt +b1xt-1 …+ bkxt-k + t,
• или бесконечное число лагов она
содержит.
• yt =  + b0·xt +b1·xt-1 …+ bk·xt-k +…+
t. (1.3)
• Сумму всех коэффициентов bj
называют долгосрочным
мультипликатором, так как она
характеризует изменение Y под
воздействием единичного изменения
переменной X в каждом из
рассматриваемых временных периодов.
m
• Любую сумму коэффициентов  b
(m < k) называют промежуточным
мультипликатором.
j 0
j
• Модель с конечным числом лагов (1.1)
оценивается достаточно просто –
сведением ее к уравнению
множественной регрессии. В этом
случае полагают
• Х0= хt, Xl = xt-1, ..., Xk = xt-k
• и получают уравнение
• yt =  + b0X0 +b1X1 …+ bkXk + t,
(1.4)
• Для оценки моделей с бесконечным
числом лагов разработано несколько
методов. Рассмотрим некоторые из них.
3. Преобразование Койка (метод
геометрической прогрессии)
• В распределении Койка
предполагается, что коэффициенты
(известные как «веса») bk при лаговых
значениях объясняющей переменной
убывают в геометрической прогрессии:
• bk = b0*k, k=0, 1, 2,…. (1.5)
• где 0 <  < 1 характеризует скорость
убывания коэффициентов увеличением
лага (с удалением от момента анализа).
• Такое предположение достаточно
логично, если считать, что влияние
прошлых значений объясняющих
переменных на текущее значение
зависимой переменной будет тем
меньше, чем дальше по времени эти
показатели имели место.
• В данном случае уравнение (1.3)
преобразуется в уравнение
• yt =  + b0·xt +b0·xt-1 +b0·2 xt-2 …+
b0·k xt-k + …+ t, (1.6)
• Параметры данного уравнения , b0, 
можно определять различными
способами. Например, достаточно
популярен следующий метод.
• Параметру  присваиваются
последовательно все значения из
интервала (0, 1) с произвольным
фиксированным шагом (например, 0,01;
0,001; 0,0001). Для каждого 
рассчитывается
• zt = xt +·xt-1 +2 xt-2 …+ +p xt-p.
(1.7)
• Значение р определяется из условия,
что при дальнейшем добавлении
лаговых значений х величина
изменения zt менее любого ранее
заданного числа.
• Далее оценивается уравнение
регрессии
• yt =  + b0·zt + t,
(1.8)
• Из всех возможных значений 
выбирается то, при котором
коэффициент детерминации R2 для
уравнения (1.8) будет наибольшим.
Найденные при этом параметры , 0, и
 подставляются в (1.6). Возможности
современных компьютеров позволяют
провести указанные расчеты за
приемлемое время.
Однако более распространенной
является схема вычислений на основе
преобразования Койка.
• Вычитая из уравнения (1.6) такое же
уравнение, но умноженное на  и
вычисленное для предыдущего периода
времени t-1, получим
• yt-1 =  + b0xt-1 + b0·2 xt-2 +…+ t-1,
(1.9)
• и далее получим следующее уравнение:
• yt-yt-1 =  -  + b0·xt + (b0·xt-1 - b0·
xt-1 ) +…+(t - t-1),
• отсюда
• yt= (1-) + b0·xt +yt-1+vt,
(1.10)
• где vt = t - t-1 — скользящая средняя
между t и t-1.
• Преобразование по данному методу
уравнения (1.3) в уравнение (1.10)
называется преобразованием Койка.
• Отметим, что с помощью указанного
преобразования уравнение с
бесконечным числом лагов (с
убывающими по степенному закону
коэффициентами) преобразовано в
авторегрессионное уравнение (1.10),
для которого требуется оценить лишь
три коэффициента: , b0, .
• Это, кроме всего прочего, снимает одну
из острых проблем моделей с лагами —
проблему мультиколлинеарности.
• Модель (1.10) позволяет анализировать
краткосрочные и долгосрочные свойства
переменных. В краткосрочном периоде можно
значение yt-i рассматривать как
фиксированное и краткосрочный
мультипликатор считать равным b0.
Долгосрочный мультипликатор вычисляется
по формуле суммы бесконечно убывающей
геометрической прогрессии.
• Если предположить, что в долгосрочном
периоде xt стремится к некоторому
своему равновесному значению х*, то
значения yt и yt-i также стремятся к
своему равновесному значению у*.
Тогда (1.10) без учета случайного
отклонения примет вид
• y*= (1-) + b0·x* +y*.
(1.11)
• Следовательно,
•
b0
y  
 x*
(1   )
*
(1.12)
• Нетрудно заметить, что в силу формулы
суммы бесконечно убывающей
геометрической прогрессии
b
 b0  b0 *   b0 * 2  b0 * 3  ...
(1   )
• полученная дробь является
долгосрочным мультипликатором,
который отражает долгосрочное
воздействие X на Y.
• При 0 <  < 1 долгосрочное воздействие
будет сильнее краткосрочного (так как
b0
).
 b0
(1   )
При применении преобразования Койка
возможны следующие проблемы:
• среди объясняющих переменных
появляется переменная yt-1, которая, в
принципе, носит случайный характер,
что нарушает одну из предпосылок
МНК. Кроме того, данная объясняющая
переменная, скорее всего, коррелирует
со случайным отклонением vt;
• если для случайных отклонений t, t-1
исходной модели выполняется
предпосылка 30 МНК, то для
случайных отклонений vt очевидно,
имеет место автокорреляция. Для ее
анализа вместо обычной статистики DW
Дарбина–Уотсона необходимо
использовать h-статистику Дарбина;
• при указанных выше проблемах
оценки, полученные по МHK,
являются смещенными и
несостоятельными.
4. Полиномиально
распределенные лаги Алмон
• При использовании преобразования
Койка для уравнения (1.1) на
коэффициенты регрессии
накладываются достаточно жесткие
ограничения. Предполагается, что
«веса» коэффициентов при лаговых
переменных убывают в геометрической
прогрессии. В ряде случаев такое
предположение весьма уместно, в
некоторых других оно не выполняется.
• Встречаются ситуации, когда значения
лаговой объясняющей переменной за 34 периода от момента наблюдения
оказывают на зависимую переменную
большее влияние, чем текущее или
предшествующее ему значение
объясняющей переменной (b3, b4 > b0,
b1). Pacnpeделённые лаги Ш. Алмон
(Shirley Almon) позволяют достаточно
гибко моделировать такие изменения.
• В основе модели Алмон лежит
предположение, что «веса»
коэффициентов bi в модели (1.1) могут
аппроксимироваться (приближаться)
полиномами определенной степени от
величины лага:
• bi = a0 + a1*i + a2*i2 + …+ am*im.
(1.13)
Это позволяет, например, отразить
ситуации, изображенные на рисунке 1.2.
а)
б)
Рис. 1.2. Виды зависимостей в модели Ш. Алмон
в)
• Например, на рисунках 1.2а, 1.2б это может
быть квадратичная зависимость:
• bi = a0 + a1*i + a2*i2.
(1.14)
• На рисунке 1.2,в это может быть полином
третьей либо четвертой степени:
• bi = a0 + a1*i + a2*i2 + a3*i3,
(1.15)
• bi = a0 + a1*i + a2*i2 + a3*i3 + a4*i4. (1.16)
• Для простоты изложения схемы Алмон
положим, что bi подчиняется
зависимости (1.14). Тогда (1.1) может
быть представлено в виде:
• yt =  + (a0 + a1i + a2i2)·xt-i + t=
k
k
k
i 0
i 0
i 0
  a0   xt i  a1   i  xt i  a2   i 2  xt i   t .
• Положив
k
k
k
i 1
i 1
i 1
zi 0   xt i ,... zi 0   i  xt i ,... zi 0   i 2  xt i ,
• Имеем
• yt =  + a0zt0 + a1zt1 + a2zt2 + t.
(1.18)
• Значения , a0, a1, a2 могут быть
определены по МНК. При этом случайные
отклонения t удовлетворяют предпосылкам
МНК. Коэффициенты bi определяются из
соотношения (1.14). Отметим, что для
применения схемы Алмон необходимо
вначале определиться с количеством лагов k.
Обычно это количество находится подбором,
начиная с «разумного» максимального,
постепенно его уменьшая.
• После определения k необходимо
подобрать степень m полинома (1.13).
Обычно здесь используется следующее
правило: степень полинома должна
быть, по крайней мере, на единицу
больше количества точек «экстремума»
(точек, разделяющих интервалы
возрастания и убывания) в зависимости
bi = b(t–i).
• Однако с ростом степени полинома
повышается риск наличия неучтенной
мультиколлинеарности в силу
специфики построения zti. Это
увеличивает стандартные ошибки
коэффициентов ai в соотношениях,
аналогичных (1.18).
• Рассмотрим применение схемы Алмон
при степени многочлена m = 2 и
количестве лагов k = 4
• yt =  + b0xt +b1xt-1 + b2xt-2 + b3xt-3
+ b4xt-4 + t
• Подставим полином второй степени
(1.14) в это выражение
• yt =  + (a0 + a1i + a2i2)xt-i
   a0  xt  (a0  a1 1  a2 1)  xt 1  (a0  a1  2  a2  4)  xt 2 
 (a0  a1  3  a2  9)  xt 3  (a0  a1  4  a2 16)  xt 4   t 
   a0  ( xt  xt 1  xt 2  xt 3  xt 4 )  a1  (1 xt 1  2  xt 2  3  xt 3  4  xt 4 ) 
 a2  (1 xt 1  4  xt 2  9  xt 3  16  xt 4 )   t
• Последнее выражение позволит применить
МНК к соответствующим переменным yt, zt0,
zt1, zt2 и найти оценки (приближения)
коэффициентов , a0 ,a1, a2.
• Далее находим b0 = a0, b1 = a0 + a11 +
a21, b2 = a0 + a12 + a24, b3 = a0 +
a13 + a29, b4 = a0 + a14 + a216.
Лекция 11.
Эконометрика финансовых
рынков.
1. Задача Марковица.
• Постановка задачи: Пусть –
доля
вложения капитала инвестора в i-тый
вид рискового актива. Введем вектор
вложений:
• Предположим, что
Где
и известен вектор
– это ожидаемая доходность от
вложения капитала в рисковые активы.
• Пусть известна ковариационная
матрица статистических связей между
рисковыми активами
Четкая постановка:
• Необходимо определить долю вложения
капитала во i -тый вид ценных бумаг, т.е.
структуру портфеля, которая минимизирует
риск портфеля.
• Это - задача квадратичного
программирования.
• В этой постановке ограничение не
накладывается. Тогда это обычная
задача на условный экстремум с
ограничениями типа равенства. Такая
задача может быть решена
аналитически. Сделаем это.
• Нужно найти оптимальную структуру и
минимальный риск.
• Сведем задачу к задаче условной
оптимизации на основе введения функции
Лагранжа:
• Множители Лагранжа
– неизвестны
• Введем обозначения
• Имеем:
• По правилу Крамера:
• Получим
• Где
Пример 1
• Пусть n  3 и ковариационная матрица
эффективности известна:
• Ожидаемая доходность:
• Возьмем
• этот.е. если бы инвестор
вложил по капитала во все акции и то
он имел бы:
• По формуле
• Найдем теперь оптимальный портфель:
• – сумма диагональных элементов
• Здесь
• Проверим ограничения
8  17  8
 x  33  1
*
i
• Найдем ожидаемую доходность этого
портфеля
Вывод: оптимальный «расклад»
такой:
 x1  24%

 x2  52%
 x  24%
 3
Риск оптимального портфеля
• А было 2,33
• Выигрыш
• Итак: мы научились строить
оптимальный портфель Марковица,
теперь осталось научиться делать это с
использованием MS Excel.
2. Использование надстройки Поиск
решения
для поиска эффективных точек.
• Рассмотрим набор данных,
использованный в примере и
предположим, что нужно получить
эффективный портфель с доходностью
2%. Задача состоит в том, чтобы найти
такую комбинацию весов активов в
портфеле, которая бы достигала
целевого уровня доходности и
минимизировала дисперсию
доходности.
• Это стандартная оптимизационная
задача, к которой можно применить
надстройку Поиск решения (Solver),
содержащую ряд итеративных
оптимизационных методов. Так как
дисперсия портфеля представляет
собой квадратичную функцию
относительно весов, надстройка Поиск
решения будет использована для
квадратичного программирования.
• Подробно работу с надстройкой Solver
Вы изучите в одной из лабораторных
работ.
Нахождение оптимального
портфеля в Excel
Результаты
Download