1324782_presentation

ЛЕКЦИЯ 1 Введение в эконометрику • В современных программах подготовки экономистов курс эконометрики занял одно из ключевых мест, поскольку сегодня деятельность в любой области экономики требует от специалиста применения современных методов оценки, анализа и интерпретации экономических данных. • Сегодня эконометрические методы применяются в качестве • стандартных в различных отраслях прикладной экономики, изучающей • все, начиная от расходов домашних хозяйств и предпринимательских • инвестиций и заканчивая организацией производств, рынков труда и • проблемами государственной политики. • Эконометрика – это взаимодействие экономической теории, наблюдаемых данных и статистических методов. • присуждение шести нобелевских премий по экономике за разработки в этой области: премия 1969 г. была присуждена Р. Фишеру и Я.Тинбергену за разработку математический методов анализа экономических данных; премия 1980 г. – Л.Клейну за построение макроэконометрических моделей, основанных на системах эконометрических уравнений; премия 1981 г. – Д.Тобину за регрессию с цензурированной зависимой переменной, которую по его имени называют тобит • премия 1989 г. – Т. Хаавелмо за анализ и оценивание систем одновременных уравнений; премия 2000 г. – Дж. Хекману и Д. Макфаддену за разработку теорию и методов, широко использующихся • в статистическом анализе поведения индивидуумов и семейных хозяйств; премия 2003 г. – Р. Энглу и К. Грэнжеру за работы в области коинтеграции временных рядов • Применение эконометрических методов на практике невозможно представить без соответствующих программных средств. Перечислим некоторые из распространенных средств, применяемых в этой области: • • • • • MS Excel Statgraphics Statistica SPSS SAS • • • • • Эвриста STATA Eviews STADIA MatLab • Пакет Statgraphics имеет достаточно длинную историю. Широко использовалась, в свое время, его DOS версия, обладавшая очень неплохим набором возможностей. Мы познакомимся с двумя версиями этого пакета: • STATGRAPHICS Plus for Windows 2.1 • которая предъявляет весьма небольшие требования к ресурсам, и в которой присутствуют большинство возможностей Win версий этого пакета, а также с более современной версией STATGRAPHICS Centurion XV, в которой добавлены некоторые современные методы (например-нейронные сети). • Мощный специализированный эконометрический пакет . EVIEWS , по которому есть весьма полная документация на английском языке, поставляемая вместе с пакетом. • Мы будем работать с достаточно новой версией этого пакета • –Eviews 5.1 • В изучаемом курсе ( и в практикуме по курсу) Вы получите первичные навыки работы с этим пакетом. • Для задач, связанных с конструированием оптимальных портфелей, а также для некоторых других задач используются возможности MS Excel. • Для более сложных задач, возникающих в приложениях, можно порекомендовать пакет STATA. • Пакет STATA достаточно сложен для освоения начинающим пользователем, хотя желающие могут это сделать, используя замечательные лекции С.Коленикова • [. http://www.komkon.org/~tacik/science/ ]. • В курсе прикладной статистики мы научились строить оценки параметров распределений, доверительные интервалы, проверять статистические гипотезы и выявлять связи для различных типов признаков. При этом мы использовали пакет Statgraphics. Описательная статистика Доверительный интервал Сравнение двух средних Связь между ростом, весом, размером обуви ЛЕКЦИЯ 2 Модель парной линейной регрессии (ЛР). Свойства оценок в модели парной ЛР. Парная регрессия и корреляция • Парная регрессия представляет собой регрессию между двумя переменными – и , т. е. модель вида: y  f  x • где – зависимая переменная (результативный признак); – независимая, или объясняющая, переменная (признак-фактор). • Знак «^» означает, что между переменными и нет строгой функциональной зависимости, поэтому практически в каждом отдельном случае величина складывается из двух слагаемых: y  y   x • где – фактическое значение результативного признака; – теоретическое значение результативного признака, найденное исходя из уравнения регрессии; – возмущение, случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии. • • • • В парной регрессии выбор вида математической функции y x  f  x  может быть осуществлен тремя методами: графическим; аналитическим, т.е. исходя из теории изучаемой взаимосвязи; экспериментальным. • В практических исследованиях, как правило, имеет место некоторое рассеяние точек относительно линии регрессии. Оно обусловлено влиянием прочих, не учитываемых в уравнении регрессии, факторов. Иными словами, имеют место отклонения фактических данных от теоретических  y  y x  . • Величина этих отклонений и лежит в основе расчета остаточной дисперсии:  2 ост  1   y  yx n  2 • Чем меньше величина остаточной дисперсии, тем меньше влияние не учитываемых в уравнении регрессии факторов и тем лучше уравнение регрессии подходит к исходным данным (т.е. лучше «подгонка» модели). • Считается, что число наблюдений должно в 7-8 раз превышать число рассчитываемых параметров при переменной x . 1. Линейная модель парной регрессии и корреляции • Линейная регрессия сводится к нахождению уравнения вида yx  a  b  x • или y  a b x  (1.1) • Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК). • МНК позволяет получить такие оценки параметров a и b , при которых сумма квадратов отклонений фактических значений результативного признака от теоретических минимальна:  y  y n • i 1 i    2 xi n i 1 2 i  min (1.2) Рис. 1.2. Линия регрессии с минимальной дисперсией остатков. • Чтобы найти минимум функции (1.2), надо вычислить частные производные по каждому из параметров a и b и приравнять их к нулю. • Обозначим  через S  a, b  , тогда: 2 i i S  a, b     y  a  b  x  2  S  2  y  a  b  x   0;   a   S  2 x  y  a  b  x   0.   b   a  n  b   x   y;  2  a   x  b   x   x  y. • • a  y b x , b cov  x, y   2 x ______ • Где cov  x, y   y  x  y  x - ковариация признаков x и y ____ 2 •  x2  x  x 2 - дисперсия признака x • • 1 x   x, n ______ 1 y  x   y  x, n 1 y  y n ____ 2 1 x   x2 n • Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. Оценка качества «подгонки» модели • Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции rxy , который можно рассчитать по следующим формулам:  x cov  x, y  • rxy  b   y  x  y • Линейный коэффициент корреляции находится в пределах: 1  rxy  1 . • Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции rxy2 , называемый коэффициентом детерминации R2 . • Коэффициент детерминации характеризует долю дисперсии результативного признака y , объясняемую регрессией, в общей дисперсии результативного признака: 2  2 2 ост R r  1  • = xy 2 y • Где  2 ост  1   y  yx n  2 1 2    y  y   y2  y 2 n 2 y 2 1  r • Соответственно величина xy характеризует долю дисперсии , вызванную влиянием остальных, не учтенных в модели, факторов. Чем ближе коэффициент детерминации к единице, тем лучше точки на регрессионном поле укладываются на линию регрессии, т.е. тем выше уровень «подгонки» модели. • После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров. • Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации: y  yx 1 A   100% n y • Средняя ошибка аппроксимации не должна превышать 8–10%. Значимость регрессионной модели в целом • Оценка значимости уравнения регрессии в целом производится на основе -критерия Фишера, которому предшествует дисперсионный анализ. • Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной y от среднего значения y раскладывается на две части – «объясненную» и «необъясненную»:  y  y    y 2 x    y   y  yx  y  y  2 2  2 • Где - общая сумма квадратов отклонений; 2 •  yx  y - сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений); 2 •   y  y x  - остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов.   Схема дисперсионного анализа: • Определяются дисперсии на одну степень свободы, что приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину -критерия Фишера: 2 F  Sфакт 2 Sост • Фактическое значение F -критерия Фишера сравнивается с табличным значением F  ; k ; k  при уровне значимости  и степенях свободы k  m и k2  n  m  1 . При этом, если фактическое значение F -критерия больше табличного, то признается статистическая значимость уравнения в целом. табл 1 2 1 • Для парной линейной регрессии m  1 , поэтому y  y      n  2  y  y  2 F 2 Sфакт 2 Sост x 2 x • Величина F - критерия связана с 2 коэффициентом детерминации rxy , и ее можно рассчитать по следующей формуле: F rxy2 1 r 2 xy   n  2 • Из этой формулы видно, что чем ближе коэффициент детерминации к единице, тем больше F , т.е. критерий Фишера позволяет оценить, достаточно ли близок коэффициент детерминации к единице, чтобы модель можно было признать удовлетворительной по качеству «подгонки». • Следует заметить, что даже если «подгонка» идеальна и точки корреляционного поля в точности лежат на линии регрессии ( например - если мы построим интерполяционный многочлен), модель еще не может считаться качественной, поскольку важна значимость не только уравнения в целом, но и отдельных его параметров. Значимость коэффициентов регрессии • Стандартная ошибка коэффициента регрессии определяется по формуле: mb  2 Sост  x  x  2 Sост  x  n  y  y x  2 • Где S  n  2 - остаточная дисперсия на одну степень свободы. 2 ост • Величина стандартной ошибки совместно с t -распределением Стьюдента при n  2 степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительного интервала. • Для оценки существенности коэффициента регрессии его величина сравнивается с его стандартной ошибкой, т.е. определяется фактическое значение -критерия t b t  Стьюдента: которое затем m сравнивается с табличным значением при определенном уровне значимости  и числе степеней свободы  n  2 . b b • Стандартная ошибка параметра a определяется по формуле: x   n   x  x  2 ma  S 2 ост 2  Sост  2 x  x n t • Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрессии. Вычисляется t -критерий: t  a , a ma • его величина сравнивается с табличным 2 значением при степеняхn свободы. Прогнозирование с использование линейной регрессионной модели • В прогнозных расчетах по уравнению регрессии определяется предсказываемое y p значение как точечный прогноз y x при x p  xk , т.е. путем подстановки в уравнение регрессии y  a  b  x соответствующего значения x . x • Однако точечный прогноз явно не реален. Поэтому он дополняется расчетом стандартной ошибки y p,т.е. m,y p и соответственно интервальной оценкой yp прогнозного значения : y p  y  y p  y p  y p my p 1  xp  x   Sост  1   n n   x2 2 p Теорема Гаусса-Маркова (для простой линейной регрессии) • При оценке значимости модели в целом с использованием критерия Фишера и значимости каждого из коэффициентов, следует учитывать, что их применение строго обосновано только при выполнении условий теоремы ГауссаМаркова, которые для простой линейной регрессионной модели имеют следующий вид: Классическая линейная модель простой регрессии имеет вид: • • • • • 1. y t  a  bxt   t , t  1,2,..., n . 2.  t - случайная ошибка, M  t   0 , 2 2   D   e   3. - гомоскедастичность, t t 4. M  t s   0, s  t - некоррелированность. 5.  t - имеет нормальное распределение. • Утверждение теоремы Гаусса Маркова состоит в том, что при выполнении условий 15 оценки, полученные методом наименьших квадратов , будут состоятельными, несмещенными и максимально эффективными (в классе линейных оценок). • В следующих лекциях мы изучим последствия, к которым приводит нарушение того или иного условия этой теоремы. • Рассмотрим пример. По данным проведенного опроса восьми групп семей известны данные связи расходов населения на продукты питания с уровнем доходов семьи. Расходы на продукты питания, y тыс. руб. 0,9 1,2 1,8 2,2 2,6 2,9 3,3 3,8 Доходы семьи, x , Тыс. руб 1,2 3,1 5,3 7,4 9,6 11,8 14,5 18,7 Рис. 1.4. По графику видно, что точки выстраиваются в некоторую прямую линию. • Рассчитаем параметры линейного уравнения парной регрессии y x  a  b  x . Для этого воспользуемся формулами cov  x, y  x  y  x  y 26,09  8,95  2,34 b    0,168 2 x 30,56 x2  x 2 a  y  b  x  2,34  0,168  8,95  0,836 • Получили уравнение: y x  0,836  0,168  x . т.е. с увеличением дохода семьи на 1000 руб. расходы на питание увеличиваются на 168 руб. • Выпишем показатель тесноты связи – выборочный коэффициент корреляции • rxy : x 5,53 rxy  b   0,168   0,994 y 0,935 • Близость коэффициента корреляции к 1 указывает на тесную линейную связь между признаками. rxy2  0,987 • Коэффициент детерминации R = (примерно тот же результат получим, если найти по определению из формулы (1.7)) 2 • Оценим качество уравнения регрессии в целом с помощью F -критерия Фишера. Сосчитаем фактическое значение F -критерия: rxy2 0,987 F  n  2   6  455,54 2  1  rxy 1  0,987 • Табличное значение • ( k1  1 , k2  n  2  6 ,   0,05 ): Fтабл  5,99 • Так как Fфакт  Fтабл , то признается статистическая значимость уравнения в целом. • Рассчитаем случайные ошибки параметров линейной регрессии и коэффициента корреляции   S2   ост    y  y  x n2 2  0,1257   0, 021 82   Sост 0,021 mb    0,0093  x  n 5,53  8 2 x  0,021  885,24 ma  Sост    0,0975 x n 5,53  8 1 r2 1  0,987 mr    0,0465 n2 6 • Фактические значения t-статистик: 0,836 • 0,168 t   8,574 tb  0,0093  18,065 tr  a 0,994  21,376 0,0465 0,0975 • Табличное значение t -критерия Стьюдента при   0,05 и числе степеней свободы   n  2  6 есть tтабл . 2,447 Так как tb  tтабл , ta  t табл , то признаем статистическую значимость параметров регрессии . • Средняя ошибка аппроксимации Ai  yi  y xi yi  100% в нашем примере равна A  6,52% говорит о хорошем качестве уравнения регрессии, т.е. свидетельствует о хорошем подборе модели к исходным данным. • И, наконец, найдем прогнозное значение результативного фактора y p при значении признака-фактора, составляющем 110% от среднего уровня xp  1,1 x  1,1 8,95  9,845 , т.е. найдем расходы на питание, если доходы семьи составят 9,85 тыс. руб. y p  0,836  0,168  9,845  2, 490 • Значит, если доходы семьи составят 9,845 тыс. руб., то расходы на питание будут 2,490 тыс. руб. • Найдем доверительный интервал прогноза. Ошибка прогноза my  Sост  1  p 1  n  xp  x  n   x2 2  1  9,845  8,95 2   0,021 1     0,154  8  8  30,56   • а доверительный интервал ( 2,113  y p  2,867 y p   y  yp  y p   y p p ): • Подчеркнем, что здесь мы получили доверительный интервал для y p (а не для математического ожидания y p ). Построение регрессии в Excel Построение регрессии в StatGraphics Построение регрессии в EWiews Лекция 3. Преобразования переменных в регрессионном анализе. Все нелинейные регрессионные модели делятся на два класса: • нелинейные модели, сводящиеся к линейным с помощью некоторой замены переменных • и модели, которые к линейным не сводятся. Регрессионные модели, сводящиеся к линейным: • • • • • • • полиномы разных степеней , гиперболическая по x, гиперболическая по y, степенная, показательная, логистическая и т.д.- их достаточно много. С существенно нелинейными моделями дело обстоит сложнее: для того, чтобы найти параметры модели, на которых достигается минимум в методе наименьших квадратов, приходится численно минимизировать некоторую, как правило, многоэкстремальную функцию, что может быть непросто. Рассмотрим в качестве примера классическую модель Кобба-Дугласа В 1929 экономист Пол Дуглас и математик Чарлз Кобб предложили следующую макроэкономическую модель: пусть • Y- объем производства, • K- капитальные затраты, • L- затраты труда, тогда, используя метод наименьших квадратов, можно подобрать параметры A и так, чтобы  1 Y  AK L • Эта модель эквивалентна следующей степенной модели:  Y / L  A( K / L) или, взяв логарифмы: ln( Y / L)  ln A   ln( K / L) Это- уже простая линейная модель, в которой ln( Y / L) играет роль Y, а переменная играет роль х. ln( K / L) Получим следующие оценки параметров: ln A  0.013   0.257 Коэффициент детерминации R  0.643 2 • В нашем примере , для критерия Фишера, • P-val = 0.0000, и , следовательно, гипотеза о несущественном отличии параметра от нуля отвергается. Таким образом- оценка модели в целом положительная. • Следует запомнить простое правило: если P-val мало, то найденный коэффициент значимо отличается от нуля и его можно использовать. • В эконометрической теории существует много видов линейных по параметрам уравнений, которые следует использовать, или исходя из теоретических предпосылок, или из предпосылок качества оценивания. Обычно используются следующие функциональные формы: • Модели, у которых логарифм содержится в обеих частях равенства, называются двойными логарифмическими (log-log), • если же логарифм содержится только справаэто полулогарифмическая модель типа semilog, • если же логарифм только слева- это полулогарифмическая модель типа log-lin. • В нашем примере мы имеем двойную логарифмическую модель. • Далее мы разберем, каков содержательный смысл коэффициентов для различных видов модели. Лекция 4. Модель множественной линейной регрессии (МЛР): две объясняющие переменные и k объясняющих переменных. • В предыдущей лекции мы познакомились с классической моделью Кобба-Дугласа:  1 Y  AK L • • • • где Y- объем производства, K- капитальные затраты, L- затраты труда, • и нашли (методом наименьших квадратов) оценки параметров A и . В целом, модель оказалась удачной, однако коэффициент детерминации , характеризующий качество «подгонки » модели хотелось бы иметь побольше… • В связи с этим можно рассмотреть более общую модель:   Y  AK L . • Где     1 • Прологарифмируем это равенство ln Y  ln A   ln K   ln L • неизвестные параметры ln A,  ,  • входят линейно, т.е. это также линейная модель, но с двумя независимыми переменными, а именно: ln K и ln L • Введем следующие обозначения: y  ln( Y ), x1  ln( K ), x2  ln( L), b1   , b2   • тогда уравнение регрессии имеет следующий вид: y  a  b1 x (1)  b2 x ( 2) • Такого рода модель называется линейной множественной линией регрессии. • Коэффициенты такой модели обычно находятся с помощью уже известного нам метода наименьших квадратов (МНК): S (a, b1, b2 )  ( yi  yˆ xi )    min 2 2 i • где y xi  b0  b x  b x • Приравнивая к нулю производные функции S мы получим систему из трех линейных уравнений с тремя неизвестными b0 , b1 , b2 (t ) 1 t (2) 2 t Рассмотрим внимательнее Parameter Estimate CONSTA NT log(k) log(l) -0,17731 Standard Error 0,434293 0,233053 0,0635297 0,807278 0,145076 T Statistic PValue -0,40827 0,6872 3,66842 5,56451 0,0014 0,0000 • Мы получили следующие оценки для неизвестных параметров: b0  ln A  0,18 b1    0,23; b2    0,8 • Первый коэффициент незначимо отличается от нуля (Pval=0.69), зато второй и третий коэффициент вполне надежны ( Pval равны соответственно 0.0014 и 0.0000). • Также как и для простой линейной регрессии для оценки качества «подгонки» модели можно использовать коэффициент детерминации:  n R2  t 1 n yt  y  y t 1 t  y   n 2 2  1   yt t 1 n  y t 1 t  yt   y  2 2 • Однако в случае множественной регрессии он обладает неприятным свойством: если мы увеличиваем количество независимых переменных, коэффициент детерминации также увеличивается! • Для того, чтобы такого автоматического увеличения не происходило, используется исправленный (скорректированный-adjusted) коэффициент детерминации: R  1  (1  R )(n 1) /(n  k 1) 2 adj 2 • (n-объем выборки, k-число независимых переменных). • Если вернуться к нашей обобщенной модели Кобба-Дугласа, то R-squared = 95,7425 percent • из чего следует, что качество «подгонки» нашей модели достаточно хорошее. • Для общей оценки модели можно посмотреть на результат, который дает критерий Фишера: F=236,12 • т.е. модель действительно удачная. Содержательная интерпретация коэффициетов  и  для обобщенной модели Кобба-Дугласа • Найденные нами коэффициенты и имеют ясную интерпретацию: это коэффициенты эластичности переменной Y по K и по L соответственно. Действительно, эластичность Y по K равна: (Y / Y ) /(K / K )  ( AK  1    L )* K /( AK L )   • Аналогично проверяется второе высказывание. • Для нашего примера: b1    0,23; b2    0,8 • Какие вложения более эффективны? • Какую содержательную интерпретацию можно дать неравенству     1? Коэффициенты множественной линейной регрессионной регрессии и их свойства • Обозначим: Y   y1 ,..., yn  ,    b0 , b1 ,..., bk  ,   1,...,  n  T T T X  (1, x (1) , x (2) ,..., x ( k ) ) • (т.е. X-это матрица, первый столбец которой состоит из n единиц, а остальные столбцы представляют из себя n- мерные вектор-столбцы значений независимых переменных) Тогда условия теоремы ГауссаМаркова примут вид: • Y  XB   - спецификация модели; • X - детерминированная матрица, имеющая максимальный ранг k+1; M    0 , • T 2 D   M    In     •  ~ N O, I  • т.е. -  нормально 2 n распределенный случайный вектор с нулевым средним и матрицей ковариаций  In 2 Замечание • Если матрица X не является детерминированной, то остатки и независимые переменные должны быть независимыми при любом наблюдении t=1,2,…,n • Нарушение свойства 4 может быть из-за того, что дисперсии остатков для различных наблюдений различны. Такое нарушение называется гетероскедастичностью и приводит к тому, что свойство максимальной эффективности не сохранится, хотя свойства состоятельности и несмещенности сохраняются. • К таким же последствиям приводит автокорреляция остатков (т.е. • cov( i ,  j )  0 при i  j • Если нарушено условие 3 (или условие, сформулированное в замечании), то может быть нарушено свойство несмещенности оценок. • Найдем теперь оценки для коэффициентов линейной регрессионной модели. ˆ • Обозначим через Yt  X t B - прогноз значения Y в точке X t t (t=1,2,…,n) Здесь X t t строка матрицы Х B̂ искомая оценка вектора B  Остатки регрессии et  Yt  Yt Метод наименьших квадратов • Целью метода является выбор вектора оценок , минимизирующего сумму квадратов остатков ESS  n 2 T e  e e  min  t t 1 • Здесь e  Y Y  Y  X • Выразим eT e через Х и e e  Y  X   T T В: Y  X    Y T Y  Y T X   T X T Y  T X T X  • Приравниваем к нулю вектор-градиент этой функции (по b): 2 X Y  2 X X   0 T T T • Матрица X X у нас обратима (почему?), поэтому, умножим слева полученное уравнение на ( X T X )1 получим :    1 T T   МНК  X X X Y • В теореме Гаусса-Маркова утверждается, что найденные нами оценки коэффициентов множественной линейной регрессионной модели являются состоятельными, несмещенными и максимально эффективными (в классе линейных оценок) оценками. Проверка качества множественной линейной регрессионной модели • Так же как и для простой линейной регрессии, первоначальный (и неполный) анализ качества регрессионной модели сводится к проверке качества «подгонки» модели с помощью исправленного коэффициента детерминации и критерия Фишера, а затем анализа значимости найденных коэффициентов. Лекция 5 Мультиколлинеарность. Методы устранения мультиколлинеарности • Мультиколлинеарность (строгая) определяется нарушением требования к рангу матрицы - ранг матрицы меньше . Матрица оказывается X T X вырожденной. • Из материала предыдущей лекции следует, что нахождение параметров линейной регрессионной модели в этом случае становится невозможно. Такие ситуации, в которых независимые переменные линейно связаны, встречаются в приложениях и выявляются легко. Сложнее выявить связи близкие к линейным (нестрогую мультиколлинеарность) • Анализируют матрицу парных (и частных) коэффициентов корреляции. наличие значений коэффициентов корреляции > 0,75 - 0,80, свидетельствует о наличии мультиколлинеарности (нестрогой). • Существование тесных линейных статистических связей между объясняющими переменными приводит к слабой обусловленности матрицы T X X • Важную роль в анализе мультиколлинеарности играет и минимальное собственное число min матрицы X T X (оно близко к нулю). Мультиколлинеарность есть когда:  • некоторые из оценок  j, МНКимеют неправильные знаки или неоправданно большие по абсолютной величине значения • небольшое изменение исходных статистических данных приводит к существенному изменению оценок коэффициентов модели, вплоть до изменения их знаков • большинство или даже все оценки коэффициентов регрессии оказываются статистически незначимо отличающимися от нуля, а модель в целом является значимой при проверке с помощью статистики . Причины появления мультиколлинеарности. 1.Строгая мультиколлинеарность при введении фиктивных сезонных переменных. 2. Ложная корреляция. Общие тренды. • Значение одной из независимых переменных является лагированным ( т.е. полученным в другой момент времени) значением другой. Методы устранения мультиколлинеарности • Отбор наиболее существенных объясняющих переменных. • Переход к ортогонализированным объясняющим переменным с помощью метода главных компонент. • Переход к смещённым методам оценивания. • Подходом называемый “ридж регрессией”. Лекция 6. . Гетероскедастичность Линейные регрессионные модели с гетероскедастичными остатками • В предыдущей лекции мы уже отмечали, что гетероскедаксичность остатков, приводит к тому, что оценки коэффициентов регрессионной модели перестают быть эффективными, а также возникают проблемы с оценкой значимости коэффициентов и всей модели в целом. • Обнаружение гетероскедастичности в каждом конкретном случае является сложной задачей, поскольку точно определить дисперсию для отклонений  t мы не можем, (т.к. для этого нужно знать распределение этой случайной величины), а получить статистическую оценку для дисперсии тоже сложно, т.к. на практике для каждого значения независимой переменной xt мы, как правило, знаем единственное значение . yt • Однако, при некоторых дополнительных предположениях, к настоящему времени разработано достаточно много способов выявления гетероскедаксичности. • Проверить модель на гетероскедаксичность можно проверить с помощью следующих тестов: графический анализ отклонений, Уайта, Голдфельда-Квандта, Спирмена, Бреуша-Пагана, Глейзера. Рассмотрим некоторые из них. 1. Графический анализ отклонений. • С помощью любого из имеющихся у нас прграммных средств, легко построить график зависимости остатков (или их квадратов) от какой либо независимой переменной (либо их линейной комбинации). • Естественно предположить, что остатки гетероскедаксичны, если график будет похож на один из следующих: Примеры гетероскедастичности А) Б) В) • Наличие гетероскедастичности можно видеть и по рассмотренному выше графику зависимости остатков  i от теоретических значений результативного признака . Так, зависимость остатков от представлена на следующих рисунках: 2. Тест Уайта. • Тест Уайта- один из самых общих и достаточно распространенных тестов. • Пусть, для определенности, к=2, т.е. мы имеем модель следующего вида: yt  b0  b1 x (1) t  b2 x ( 2) t  t • Для квадратов остатков регрессионной модели строится вспомогательная регрессионная модель: e  a0  a x  a x  a3 ( x )  a4 ( x )  a x x  ut 2 t (1) 1 t (2) 2 t (1) 2 t (2) 2 t (1) (1) 5 t t • где ut нормально распределенная ошибка, независимая от  t . • Вспомогательная регрессия выбрана в такой форме для того, чтобы понять, есть ли существенная зависимость остатков от независимых переменных. • Пусть коэффициент детерминации для вспомогательной модели. Известно, что если коэффициенты вспомогательной регрессионной модели (кроме свободного члена) равны нулю, 2 nR то случайная величина имеет 2  (m)m – распределение близкое к , где количество слагаемых во вспомогательной модели (без свободного члена). (В нашем случае m=5). R2 - • Если фактическое значение будет больше критического значения, то гипотеза H 0 : a2  a3  ...  a6  0 отвергается и делается вывод о наличии гетероскедастичности. Разумеется, в статистических пакетах такой вывод делается если соответствующее Pval мало (обычно- меньше 0.05). • Грубо говоря, если коэффициент детерминации вспомогательной модели слишком близок к единице, то остатки гетероскедастичны. 3. Тест Спирмена. • В курсе прикладной статистики мы уже познакомились с тестом ранговой корреляции Спирмена. Здесь мы применяем этот тест для выявления связи между остатками и некоторой объясняющей переменной (это м.б., например, x ( i ) ). • Вычисляется коэффициент Спирмена: rxe  1  6( dt2 ) / n(n  1) • и если он по модулю близок к единице, то остатки гетероскедастичны. Можно, разумеется, формализовать это высказывание, используя тот факт, что при отсутствии связи между x и e, статистика t  rxe n  2 / 1  rxe2 имеет распределение Стьюдента с n-2 степенями свободы. 4. Тест Голдфелда – Куандта. • В тесте проверяется основная гипотеза H 0 :     ...   2 1 2 2 2 n • против альтернативной гипотезы H1 : не H 0 • предположение о прямой зависимости дисперсии ошибки от величины некоторой независимой переменной. • Тест проводится следующим образом: • 1) упорядочить данные по убыванию той независимой переменной, относительно которой есть подозрение на гетероскедастичность; исключить d средних наблюдений ; 2) провести две независимые регрессии первых n 2  d 2 наблюдений и последних нn 2  d 2 наблюдений и построить соответствующие остатки e1и e ; 3) составить статистику 2 T 1 1 e e F  T 2 e e2 • Если верна гипотеза H 0 , то F имеет распределение Фишера с n 2  d 2  p, n 2 d 2  p  степенями свободы. Большая величина этой статистики означает, что гипотезу H0 следует отвергнуть (т.е.модель гетероскедастична). 5. Тест Бреуша – Пагана (Breusch – Pagan). • В тесте проверяется основная гипотеза H 0 :     ...   2 1 • 2 2 2 n против альтернативной гипотезы H1 : не H 0 • Этот тест применяется в тех случаях, когда априорно предполагается, что дисперсии  t2 зависят от некоторых 2  дополнительных переменных: t   0  zt  t  1,..., n , где zt  z1t ,..., z pt  - вектор независимых переменных,  ,    ,...,  неизвестные параметры. T 0 1 p Тест Бреуша – Пагана предполагает выполнение следующих действий: 1) провести обычную регрессию Y  X   и получить вектор остатков e  e1 ,..., en T 2) построить оценку 2   1 n  et2 2 et 3) провести регрессию  2   0  zt   t    и найти для нее объясненную часть вариации ; RSS 4) построить статистику 2 . Установлено, что если верна гипотеза H 0, то величина RSS 2 асимптотически 2  имеет распределение  p  . • При выявлении гетероскедастичности можно попытаться коррекцию с помощью метода взвешенных наименьших квадратов, выбирая в качестве весов величины   z  , где    0,  - оценки. 1 0 t 2 • Процедура теста Бреуша – Пагана выглядит тогда совершенно аналогично с заменой регрессии на регрессию e  ln  2    0  zt  ut  t  2 t Обобщенная линейная множественная регрессионная модель с гетероскедастичными остатками. • Сейчас мы познакомимся с некоторыми методами борьбы с гетероскедастичностью. • Пусть Y  X   и ковариационная матрица вектора ошибок  диагональная, D t    t , t  1,2,..., n 2 Обобщенный метод наименьших квадратов: yt t • где p  bj j 1 ut x jt t t  t  ut , t  1,2,..., n , причем Dut   1, covut , us   0 при t  s .  1 Q b      t 1   t n 1   yt    p b j 1 j x jt     2 • Величины  выступают в роли «весов» и поэтому называют методом взвешенных наименьших квадратов. t 1) Стандартное отклонение ошибки пропорционально независимой переменной. В некоторых ситуациях априорно можно считать, что стандартное отклонение ошибки прямо пропорционально одной из независимых переменных. Если есть предположение о зависимости ошибок от одной из независимых переменных, то целесообразно расположить наблюдения в порядке возрастания значения этой переменной, а затем провести обычную регрессию и получить остатки. • Если размах их колебаний тоже возрастает, тогда надо сделать описанное ранее преобразование, вновь провести регрессию и исследовать остатки. Если теперь их колебание имеет неупорядоченный характер, то это может служить показателем того, что коррекция на гетероскедастичность прошла успешно. 2) Дисперсия ошибки принимает только два значения. • Пусть известно, что  t   для t  1,2,..., n1 и  t 2  22 для t  n  1, n  2,..., n1  n2 2 2 Но числа 1 и  2 неизвестны. В этом случае: • провести регрессию  e e  e e   • построить оценки   и n n 2 2  дисперсий 1 и 2 ; 2 2 1 2 1 T 1 1 2 2 1 T 2 2 2 • преобразовать переменные, разделив  n  первые 1 уравнений на ,а  2  последующие n2 - на 2 ; провести обычную регрессию для преобразованной модели. 2 1 • 3) На практике часто не удается определить причину и форму гетероскедастичности. • В этом случае обычно пытаются перевести все переменные в логарифмическую форму (если все они положительны). Лекция 7. . Автокоррелированность случайного члена • Одной из важных предпосылок построения линейной регрессии МНК является условие некоррелированности остатков (отсутствие авторегрессии). Последствия автокорреляции в определенной степени сходны с последствиями гетероскедастичности. Среди них при применении МНК обычно выделяются следующие. • 1. Оценки параметров, оставаясь линейными и несмещенными, перестают быть эффективными. Следовательно, они перестают обладать свойствами наилучших линейных несмещенных оценок. • 2. Дисперсии оценок являются смещенными. Зачастую дисперсии, вычисляемые по стандартным формулам, являются заниженными,что приводит к увеличению tстатистик. Это может привести к признанию статистически значимыми объясняющие переменные, которые в действительности таковыми могут и не являться. 3. Оценка дисперсии регрессии S 2  ( et2 ) /(n  k 1) является смещенной оценкой истинного значения  2 , во многих случаях занижая его. • 4. В силу вышесказанного выводы по tи F-статистикам, определяющим значимость коэффициентов регрессии и коэффициента детерминации, возможно, будут неверными. Вследствие этого ухудшаются прогнозные качества модели. • Здесь следует отметить, что автокорреляция остатков обычно встречается в регрессионном анализе при использовании данных, упорядоченных по времени. • Особенно существенно влияние автокорреляции при анализе временных рядов, которыми мы будем заниматься позднее. 1. Причины автокорреляции. • Чаще всего автокорреляция вызывается воздействием некоторых неучтенных в модели факторов • либо ошибкой спецификации модели. • причиной автокорреляции может быть инерционность изменения экономических факторов. • эффект автокорреляции может появиться в результате сглаживания данных. 2.Обнаружение автокорреляции. 1) Графический метод. • Автокорреляция обычно легко выявляется по графику, связывающему моменты наблюдения с остатками, например: Или по графику, связывающему последовательные остатки: Какому из предыдущих рисунков соответствует этот график ? 2. Критерий Дарбина-Уотсона • Наиболее известным критерием обнаружения атокорреляции первого порядка (т.е. коррелированности последовательных наблюдений) является критерий ДарбинаУотсона. Статистика ДарбинаУотсона есть во всех статистических и эконометрических пакетах. Предполагается, что остатки в регрессионной модели связаны следующим образом: et   et 1   t • Находится выборочная оценка параметра  - выборочный коэффициент корреляции ret et 1 . • Критерий Дарбина – Уотсона основан на статистике, имеющей вид n DW   et i2  et 1  2 n e i 1 2 i • где et  yi  yt остатки обыкновенного метода наименьших квадратов. Постоянный член включен в число регрессоров • Тогда 2   e  e t 2 t t 1 n DW  t 1 et n 2  n et et 1  e 2  e 2  2 1  t n2 2   1 n n2 .   e t 1 t  t 1 et  • Предполагая, что число наблюдений достаточно большое, можно ee  предполагать, что r  .получим n t 2 n DW  2 1  r   t e t 1 t t 1 2 • Дарбин и Уотсон доказали, что существуют две границы d u и d d u  d l u  верхняя, l  нижняя  которые обладают следующим свойством: • 4  dl  DW  4 отрицательная корреляция • 4  du  DW  4  dl неопределенность • du  DW  4  du нет автокорреляции • неопределенность dl  DW  du l • 0  DW  dl положительная корреляция • Тест Дарбина – Уотсона построен в предположении, что регрессоры и ошибки не коррелированны. • Приближенное правило звучит так: если DW  (1.3;2.7) то автокорреляции нет. 3. Критерии случайности. • В курсе прикладной статистики мы познакомились с несколькими критериями случайности, которые заложены в пакете Statgraphics: медианный критерий серий, критерий восходящих и нисходящих серий. Здесь мы можем использовать первый из них для выявления автокорреляции: выписываются знаки последовательности остатков, если среди них окажется слишком много серий, одного знака, или слишком длинная серия одного знака, то остатки коррелированны. 3.Методы устранения атокорреляции. • В начале лекции отмечалось, что одной из основных причин автокорреляции являются неучтенные (а иногдалишние) факторы. • Грубое правило, основанное на коэффициенте Дарбина-Уотсона гласит: если DW близко к нулю, есть положительная автокорреляция- нужно поискать, какой дополнительный фактор следует включить в модель, если же DW близко к 4, есть отрицательная автокорреляция, модель видимо переопределенаследует исключить какой-то фактор. • Часто изменение формы зависимости, например на лог-линейную или полиномиальную приводит к успеху. • Если такие методы не приводят к успеху, то возможно автокорреляция обусловлена внутренними свойствами остатков. Тогда можно воспользоваться, например , авторегрессионным преобразованием (выпишем для парной регрессии): • Мы предполагаем, что et   et 1   t тогда yt   yt 1  b0 (1   )  b1 ( xt   xt 1 )  (et   et 1 ) Переобозначив yt1  yt   yt 1 , xt1  xt   xt 1  t  et   et 1 где остатки уже некоррелированы. Лекция 8. Спецификация модели линейной регрессии. Фиктивные переменные. Спецификация модели подразумевает выбор: • независимых переменных: • функциональной формы: • модели случайного члена. Ошибки спецификации возникают, когда один из выборов произведен неудачно. Выбор переменных, включаемых в модель, можно произвести на основании следующих четырех критериев: • а) Теория.Соответствие экономической теории и смыслу задачи; • б) t-тест. Оценка коэффициента включаемой переменной должна быть значимой. • в) Исправленный коэффициент 2 R детерминации adj .В результате включения в уравнение переменной R должен возрасти. • г)Смещение. При добавлении существенной переменной в уравнение, оценки коэффициентов при других переменных должны значимо измениться. 2 adj 2. Выбор функциональной формы модели. • Наилучший выбор модели определяется опять таки теорией и здравым смыслом, хотя, разумеется, есть и формальные критерии выбора. • Если точная спецификация модели неизвестна (что практически всегда и бывает), то пользуются критериями, которые позволяют выбрать, из некоторого множества моделей наилучшую. • Наиболее распространенными являются информационные критерии Шварца и Акайке. Они устроены так, чтобы учесть влияние на качество модели двух противоположных тенденций: при увеличении числа регрессоров, «подгонка» модели улучшается, однако как мы уже отмечали в предыдущих лекциях, могут появиться незначимые коэффициенты. • Таким образом, число коэффициентов должно быть разумным, чтобы не вызвать «искусственной» подгонки (пример такой крайности – интерполяционный многочлен). Рассматриваемые критерии находят по следующим формулам: 2 2 2 S  ( e  t ) / n - выборочная • SH  ln S  (k  1) ln n / n, где AK  ln S 2  2(k  1) / n дисперсия остатков, k- число регрессоров (независимых переменных). • Сделаем два важных замечания: • 1)Критерии нельзя использовать для сравнения уравнений с разными формами зависимости от независимых переменных. • 2)Неправильная функциональная форма может дать хорошее качество подгонки в области проведенных наблюдений и быть совершенно неприемлемой вне нее. 3.Выбор модели случайного члена • Можно использовать уже знакомый нам по шестой лекции тест Уайта. Лекция 9. Модели двоичного выбора, модели с ограничениями для зависимой переменной и оценивание по методу максимума правдоподобия. • Заметим, что иногда фиктивные переменные (которые мы изучали в прошлой лекции) могут быть использованы для объяснения поведения зависимой переменной. Например, если рассматривать следующую зависимость: наличие автомобиля в зависимости от дохода, пола субъекта и т. п., то зависимая переменная имеет как бы два возможных значения:0, если машины нет, и 1, если машина есть. • Однако если для моделей данного типа использовать обыкновенный МНК, то оценки, получаемые с его помощью, не обладают свойствами наилучших линейных несмещенных оценок (BLUE). Поэтому для определения коэффициентов в этом случае используются другие методы. • В качестве одного из вариантов преодоления недостатков обычной линейной модели можно предложить logit модель. Поясним суть данной модели. • По линейной модели условная вероятность pi = P(Y = 1 | xi ) выражалась формулой: • Вместо этого, представим условную вероятность pi в следующем виде: 1 pi  M (Y  1/ xi )  1  e  zi • где zi  b0  b1 xi(1)  ...  bk xi( k ) (Функция в правой части называется логистической). • Из этой формулы нетрудно заметить, что при • − ∞ < < +∞ никогда не нарушается следующее неравенство: 0 ≤ ≤ 1. • Кроме того, формула зависимости от не является линейной. С другой стороны, • очевидно, что не является также линейной функцией и от параметров b j • Это означает, что для их определения неприменим МНК. Но эта проблема легко преодолима. Действительно, 1 1  pi  1  e zi pi 1  e zi zi   e 1  pi 1  e zi • Но тогда, мы имеем: • где отношение вероятностей в левой части P(y =1) , характеризует во сколько раз больше, чем P(yi =0). i • Прологарифмировав левую и правую части, получим ln pi  zi  b0  b1 xi(1)  ...  bk xi( k ) 1  pi • Эта модель и называется logit моделью. Она выражает логарифм от отношения вероятностей через линейную функцию. • Вместо логистической функции в описанной выше модели можно было использовать функцию с аналогичными свойствами Ф(z)функцию распределения для стандартного нормального распределения (т.е. нормального распределения с нулевым матожиданием и единичной дисперсией, N(0, 1)).. • . В этом случае модель называют probit моделью. • Логистическое распределение похоже на нормальное с нулевым ожиданием и дисперсией π2/3 (дисперсия логистического распределения). В связи с этим оценки коэффициентов в моделях различаются примерно на множитель π/√3 ≈ 1.8. Если вероятности далеки от границ 0 и 1 (около 0,5), то более точной оценкой множителя является величина ϕ(0)/λ(0) = 8/π ≈ 1.6. • При малом количестве наблюдений из-за схожести распределений сложно решить, когда следует применять логит, а когда— пробит. Различие наиболее сильно проявляется при вероятностях, близких к 0 и 1, поскольку логистическое распределение имеет более длинные хвосты, чем нормальное (оно характеризуется положительным коэффициентом эксцесса). • Для логита коэффициенты модели описывают влияние факторов на логарифм соотношения шансов. В общем случае по знаку коэффициентов можно судить о направлении зависимости, а по соответствующим t-статистикам—о наличии или отсутствии зависимости. Однако интерпретировать коэффициенты в содержательных • терминах затруднительно. РАБОТА ДЛЯ ЖЕНЩИН Титаник • Percentage of deviance explained by model = 43,3195 • Adjusted percentage = 40,9967 • • • • • • • Likelihood Ratio Tests Factor Chi-Squared Df sibsp 1,06573 1 parch 1,50828 1 pclass 20,772 1 sex 176,03 1 age 12,5562 1 P-Value 0,3019 0,2194 0,0000 0,0000 0,0004 Лекция 10. Временные ряды. 1. Временные ряды. Лаги в экономических моделях • При анализе многих экономических показателей (особенно в макроэкономике) часто используют ежегодные, ежеквартальные, ежемесячные, ежедневные данные. • Например, это могут быть годовые данные по ВНП, ВВП, объему чистого экспорта, инфляции и т.д., месячные данные по объему продажи продукции, ежедневные объемы выпуска какойлибо фирмы. • Для рационального анализа необходимо систематизировать моменты получения соответствующих статистических данных. • В этом случае следует упорядочить данные по времени их получения и построить так называемые временные ряды. • Пусть исследуется показатель Y. Его значение в текущий момент (период) времени t обозначают yt; значения Y в последующие моменты обозначаются yt+1 , yt+2 , …, yt+k , …; значения Y в предыдущие моменты обозначаются yt1 , yt-2 , …, yt-k, …. • Нетрудно понять, что при изучении зависимостей между такими показателями либо при анализе их развития во времени в качестве объясняющих переменных используются не только текущие значения переменных, но и некоторые предыдущие по времени значения, а также само время t. Модели данного типа называют динамическими или временными. • В свою очередь переменные, влияние которых характеризуется определенным запаздыванием, называются лаговыми переменными. Обычно динамические модели подразделяют на два класса. • 1. Модели с лагами (модели с распределенными лагами) — это модели, содержащие в качестве лаговых переменных лишь независимые (объясняющие) переменные. Примером является модель • yt =  + b0·xt-1 + b1·xt-2 + …+ bk·xt-k + k. (1.1) • 2. Авторегрессионные модели — это модели, уравнения которых в качестве лаговых объясняющих переменных включают значения зависимых переменных. Примером является модель • yt =  + bxt + yt-1 + k. (1.2) 2. Оценка моделей с лагами в независимых переменных • Оценка модели с распределенными лагами во многом зависит от того, конечное • yt =  + b0xt +b1xt-1 …+ bkxt-k + t, • или бесконечное число лагов она содержит. • yt =  + b0·xt +b1·xt-1 …+ bk·xt-k +…+ t. (1.3) • Сумму всех коэффициентов bj называют долгосрочным мультипликатором, так как она характеризует изменение Y под воздействием единичного изменения переменной X в каждом из рассматриваемых временных периодов. m • Любую сумму коэффициентов  b (m < k) называют промежуточным мультипликатором. j 0 j • Модель с конечным числом лагов (1.1) оценивается достаточно просто – сведением ее к уравнению множественной регрессии. В этом случае полагают • Х0= хt, Xl = xt-1, ..., Xk = xt-k • и получают уравнение • yt =  + b0X0 +b1X1 …+ bkXk + t, (1.4) • Для оценки моделей с бесконечным числом лагов разработано несколько методов. Рассмотрим некоторые из них. 3. Преобразование Койка (метод геометрической прогрессии) • В распределении Койка предполагается, что коэффициенты (известные как «веса») bk при лаговых значениях объясняющей переменной убывают в геометрической прогрессии: • bk = b0*k, k=0, 1, 2,…. (1.5) • где 0 <  < 1 характеризует скорость убывания коэффициентов увеличением лага (с удалением от момента анализа). • Такое предположение достаточно логично, если считать, что влияние прошлых значений объясняющих переменных на текущее значение зависимой переменной будет тем меньше, чем дальше по времени эти показатели имели место. • В данном случае уравнение (1.3) преобразуется в уравнение • yt =  + b0·xt +b0·xt-1 +b0·2 xt-2 …+ b0·k xt-k + …+ t, (1.6) • Параметры данного уравнения , b0,  можно определять различными способами. Например, достаточно популярен следующий метод. • Параметру  присваиваются последовательно все значения из интервала (0, 1) с произвольным фиксированным шагом (например, 0,01; 0,001; 0,0001). Для каждого  рассчитывается • zt = xt +·xt-1 +2 xt-2 …+ +p xt-p. (1.7) • Значение р определяется из условия, что при дальнейшем добавлении лаговых значений х величина изменения zt менее любого ранее заданного числа. • Далее оценивается уравнение регрессии • yt =  + b0·zt + t, (1.8) • Из всех возможных значений  выбирается то, при котором коэффициент детерминации R2 для уравнения (1.8) будет наибольшим. Найденные при этом параметры , 0, и  подставляются в (1.6). Возможности современных компьютеров позволяют провести указанные расчеты за приемлемое время. Однако более распространенной является схема вычислений на основе преобразования Койка. • Вычитая из уравнения (1.6) такое же уравнение, но умноженное на  и вычисленное для предыдущего периода времени t-1, получим • yt-1 =  + b0xt-1 + b0·2 xt-2 +…+ t-1, (1.9) • и далее получим следующее уравнение: • yt-yt-1 =  -  + b0·xt + (b0·xt-1 - b0· xt-1 ) +…+(t - t-1), • отсюда • yt= (1-) + b0·xt +yt-1+vt, (1.10) • где vt = t - t-1 — скользящая средняя между t и t-1. • Преобразование по данному методу уравнения (1.3) в уравнение (1.10) называется преобразованием Койка. • Отметим, что с помощью указанного преобразования уравнение с бесконечным числом лагов (с убывающими по степенному закону коэффициентами) преобразовано в авторегрессионное уравнение (1.10), для которого требуется оценить лишь три коэффициента: , b0, . • Это, кроме всего прочего, снимает одну из острых проблем моделей с лагами — проблему мультиколлинеарности. • Модель (1.10) позволяет анализировать краткосрочные и долгосрочные свойства переменных. В краткосрочном периоде можно значение yt-i рассматривать как фиксированное и краткосрочный мультипликатор считать равным b0. Долгосрочный мультипликатор вычисляется по формуле суммы бесконечно убывающей геометрической прогрессии. • Если предположить, что в долгосрочном периоде xt стремится к некоторому своему равновесному значению х*, то значения yt и yt-i также стремятся к своему равновесному значению у*. Тогда (1.10) без учета случайного отклонения примет вид • y*= (1-) + b0·x* +y*. (1.11) • Следовательно, • b0 y    x* (1   ) * (1.12) • Нетрудно заметить, что в силу формулы суммы бесконечно убывающей геометрической прогрессии b  b0  b0 *   b0 * 2  b0 * 3  ... (1   ) • полученная дробь является долгосрочным мультипликатором, который отражает долгосрочное воздействие X на Y. • При 0 <  < 1 долгосрочное воздействие будет сильнее краткосрочного (так как b0 ).  b0 (1   ) При применении преобразования Койка возможны следующие проблемы: • среди объясняющих переменных появляется переменная yt-1, которая, в принципе, носит случайный характер, что нарушает одну из предпосылок МНК. Кроме того, данная объясняющая переменная, скорее всего, коррелирует со случайным отклонением vt; • если для случайных отклонений t, t-1 исходной модели выполняется предпосылка 30 МНК, то для случайных отклонений vt очевидно, имеет место автокорреляция. Для ее анализа вместо обычной статистики DW Дарбина–Уотсона необходимо использовать h-статистику Дарбина; • при указанных выше проблемах оценки, полученные по МHK, являются смещенными и несостоятельными. 4. Полиномиально распределенные лаги Алмон • При использовании преобразования Койка для уравнения (1.1) на коэффициенты регрессии накладываются достаточно жесткие ограничения. Предполагается, что «веса» коэффициентов при лаговых переменных убывают в геометрической прогрессии. В ряде случаев такое предположение весьма уместно, в некоторых других оно не выполняется. • Встречаются ситуации, когда значения лаговой объясняющей переменной за 34 периода от момента наблюдения оказывают на зависимую переменную большее влияние, чем текущее или предшествующее ему значение объясняющей переменной (b3, b4 > b0, b1). Pacnpeделённые лаги Ш. Алмон (Shirley Almon) позволяют достаточно гибко моделировать такие изменения. • В основе модели Алмон лежит предположение, что «веса» коэффициентов bi в модели (1.1) могут аппроксимироваться (приближаться) полиномами определенной степени от величины лага: • bi = a0 + a1*i + a2*i2 + …+ am*im. (1.13) Это позволяет, например, отразить ситуации, изображенные на рисунке 1.2. а) б) Рис. 1.2. Виды зависимостей в модели Ш. Алмон в) • Например, на рисунках 1.2а, 1.2б это может быть квадратичная зависимость: • bi = a0 + a1*i + a2*i2. (1.14) • На рисунке 1.2,в это может быть полином третьей либо четвертой степени: • bi = a0 + a1*i + a2*i2 + a3*i3, (1.15) • bi = a0 + a1*i + a2*i2 + a3*i3 + a4*i4. (1.16) • Для простоты изложения схемы Алмон положим, что bi подчиняется зависимости (1.14). Тогда (1.1) может быть представлено в виде: • yt =  + (a0 + a1i + a2i2)·xt-i + t= k k k i 0 i 0 i 0   a0   xt i  a1   i  xt i  a2   i 2  xt i   t . • Положив k k k i 1 i 1 i 1 zi 0   xt i ,... zi 0   i  xt i ,... zi 0   i 2  xt i , • Имеем • yt =  + a0zt0 + a1zt1 + a2zt2 + t. (1.18) • Значения , a0, a1, a2 могут быть определены по МНК. При этом случайные отклонения t удовлетворяют предпосылкам МНК. Коэффициенты bi определяются из соотношения (1.14). Отметим, что для применения схемы Алмон необходимо вначале определиться с количеством лагов k. Обычно это количество находится подбором, начиная с «разумного» максимального, постепенно его уменьшая. • После определения k необходимо подобрать степень m полинома (1.13). Обычно здесь используется следующее правило: степень полинома должна быть, по крайней мере, на единицу больше количества точек «экстремума» (точек, разделяющих интервалы возрастания и убывания) в зависимости bi = b(t–i). • Однако с ростом степени полинома повышается риск наличия неучтенной мультиколлинеарности в силу специфики построения zti. Это увеличивает стандартные ошибки коэффициентов ai в соотношениях, аналогичных (1.18). • Рассмотрим применение схемы Алмон при степени многочлена m = 2 и количестве лагов k = 4 • yt =  + b0xt +b1xt-1 + b2xt-2 + b3xt-3 + b4xt-4 + t • Подставим полином второй степени (1.14) в это выражение • yt =  + (a0 + a1i + a2i2)xt-i    a0  xt  (a0  a1 1  a2 1)  xt 1  (a0  a1  2  a2  4)  xt 2   (a0  a1  3  a2  9)  xt 3  (a0  a1  4  a2 16)  xt 4   t     a0  ( xt  xt 1  xt 2  xt 3  xt 4 )  a1  (1 xt 1  2  xt 2  3  xt 3  4  xt 4 )   a2  (1 xt 1  4  xt 2  9  xt 3  16  xt 4 )   t • Последнее выражение позволит применить МНК к соответствующим переменным yt, zt0, zt1, zt2 и найти оценки (приближения) коэффициентов , a0 ,a1, a2. • Далее находим b0 = a0, b1 = a0 + a11 + a21, b2 = a0 + a12 + a24, b3 = a0 + a13 + a29, b4 = a0 + a14 + a216. Лекция 11. Эконометрика финансовых рынков. 1. Задача Марковица. • Постановка задачи: Пусть – доля вложения капитала инвестора в i-тый вид рискового актива. Введем вектор вложений: • Предположим, что Где и известен вектор – это ожидаемая доходность от вложения капитала в рисковые активы. • Пусть известна ковариационная матрица статистических связей между рисковыми активами Четкая постановка: • Необходимо определить долю вложения капитала во i -тый вид ценных бумаг, т.е. структуру портфеля, которая минимизирует риск портфеля. • Это - задача квадратичного программирования. • В этой постановке ограничение не накладывается. Тогда это обычная задача на условный экстремум с ограничениями типа равенства. Такая задача может быть решена аналитически. Сделаем это. • Нужно найти оптимальную структуру и минимальный риск. • Сведем задачу к задаче условной оптимизации на основе введения функции Лагранжа: • Множители Лагранжа – неизвестны • Введем обозначения • Имеем: • По правилу Крамера: • Получим • Где Пример 1 • Пусть n  3 и ковариационная матрица эффективности известна: • Ожидаемая доходность: • Возьмем • этот.е. если бы инвестор вложил по капитала во все акции и то он имел бы: • По формуле • Найдем теперь оптимальный портфель: • – сумма диагональных элементов • Здесь • Проверим ограничения 8  17  8  x  33  1 * i • Найдем ожидаемую доходность этого портфеля Вывод: оптимальный «расклад» такой:  x1  24%   x2  52%  x  24%  3 Риск оптимального портфеля • А было 2,33 • Выигрыш • Итак: мы научились строить оптимальный портфель Марковица, теперь осталось научиться делать это с использованием MS Excel. 2. Использование надстройки Поиск решения для поиска эффективных точек. • Рассмотрим набор данных, использованный в примере и предположим, что нужно получить эффективный портфель с доходностью 2%. Задача состоит в том, чтобы найти такую комбинацию весов активов в портфеле, которая бы достигала целевого уровня доходности и минимизировала дисперсию доходности. • Это стандартная оптимизационная задача, к которой можно применить надстройку Поиск решения (Solver), содержащую ряд итеративных оптимизационных методов. Так как дисперсия портфеля представляет собой квадратичную функцию относительно весов, надстройка Поиск решения будет использована для квадратичного программирования. • Подробно работу с надстройкой Solver Вы изучите в одной из лабораторных работ. Нахождение оптимального портфеля в Excel Результаты

1324782_presentation

Похожие документы

Разделы

Поддержка

1324782_presentation

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib