ЛЕКЦИЯ 1 Введение в эконометрику • В современных программах подготовки экономистов курс эконометрики занял одно из ключевых мест, поскольку сегодня деятельность в любой области экономики требует от специалиста применения современных методов оценки, анализа и интерпретации экономических данных. • Сегодня эконометрические методы применяются в качестве • стандартных в различных отраслях прикладной экономики, изучающей • все, начиная от расходов домашних хозяйств и предпринимательских • инвестиций и заканчивая организацией производств, рынков труда и • проблемами государственной политики. • Эконометрика – это взаимодействие экономической теории, наблюдаемых данных и статистических методов. • присуждение шести нобелевских премий по экономике за разработки в этой области: премия 1969 г. была присуждена Р. Фишеру и Я.Тинбергену за разработку математический методов анализа экономических данных; премия 1980 г. – Л.Клейну за построение макроэконометрических моделей, основанных на системах эконометрических уравнений; премия 1981 г. – Д.Тобину за регрессию с цензурированной зависимой переменной, которую по его имени называют тобит • премия 1989 г. – Т. Хаавелмо за анализ и оценивание систем одновременных уравнений; премия 2000 г. – Дж. Хекману и Д. Макфаддену за разработку теорию и методов, широко использующихся • в статистическом анализе поведения индивидуумов и семейных хозяйств; премия 2003 г. – Р. Энглу и К. Грэнжеру за работы в области коинтеграции временных рядов • Применение эконометрических методов на практике невозможно представить без соответствующих программных средств. Перечислим некоторые из распространенных средств, применяемых в этой области: • • • • • MS Excel Statgraphics Statistica SPSS SAS • • • • • Эвриста STATA Eviews STADIA MatLab • Пакет Statgraphics имеет достаточно длинную историю. Широко использовалась, в свое время, его DOS версия, обладавшая очень неплохим набором возможностей. Мы познакомимся с двумя версиями этого пакета: • STATGRAPHICS Plus for Windows 2.1 • которая предъявляет весьма небольшие требования к ресурсам, и в которой присутствуют большинство возможностей Win версий этого пакета, а также с более современной версией STATGRAPHICS Centurion XV, в которой добавлены некоторые современные методы (например-нейронные сети). • Мощный специализированный эконометрический пакет . EVIEWS , по которому есть весьма полная документация на английском языке, поставляемая вместе с пакетом. • Мы будем работать с достаточно новой версией этого пакета • –Eviews 5.1 • В изучаемом курсе ( и в практикуме по курсу) Вы получите первичные навыки работы с этим пакетом. • Для задач, связанных с конструированием оптимальных портфелей, а также для некоторых других задач используются возможности MS Excel. • Для более сложных задач, возникающих в приложениях, можно порекомендовать пакет STATA. • Пакет STATA достаточно сложен для освоения начинающим пользователем, хотя желающие могут это сделать, используя замечательные лекции С.Коленикова • [. http://www.komkon.org/~tacik/science/ ]. • В курсе прикладной статистики мы научились строить оценки параметров распределений, доверительные интервалы, проверять статистические гипотезы и выявлять связи для различных типов признаков. При этом мы использовали пакет Statgraphics. Описательная статистика Доверительный интервал Сравнение двух средних Связь между ростом, весом, размером обуви ЛЕКЦИЯ 2 Модель парной линейной регрессии (ЛР). Свойства оценок в модели парной ЛР. Парная регрессия и корреляция • Парная регрессия представляет собой регрессию между двумя переменными – и , т. е. модель вида: y f x • где – зависимая переменная (результативный признак); – независимая, или объясняющая, переменная (признак-фактор). • Знак «^» означает, что между переменными и нет строгой функциональной зависимости, поэтому практически в каждом отдельном случае величина складывается из двух слагаемых: y y x • где – фактическое значение результативного признака; – теоретическое значение результативного признака, найденное исходя из уравнения регрессии; – возмущение, случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии. • • • • В парной регрессии выбор вида математической функции y x f x может быть осуществлен тремя методами: графическим; аналитическим, т.е. исходя из теории изучаемой взаимосвязи; экспериментальным. • В практических исследованиях, как правило, имеет место некоторое рассеяние точек относительно линии регрессии. Оно обусловлено влиянием прочих, не учитываемых в уравнении регрессии, факторов. Иными словами, имеют место отклонения фактических данных от теоретических y y x . • Величина этих отклонений и лежит в основе расчета остаточной дисперсии: 2 ост 1 y yx n 2 • Чем меньше величина остаточной дисперсии, тем меньше влияние не учитываемых в уравнении регрессии факторов и тем лучше уравнение регрессии подходит к исходным данным (т.е. лучше «подгонка» модели). • Считается, что число наблюдений должно в 7-8 раз превышать число рассчитываемых параметров при переменной x . 1. Линейная модель парной регрессии и корреляции • Линейная регрессия сводится к нахождению уравнения вида yx a b x • или y a b x (1.1) • Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК). • МНК позволяет получить такие оценки параметров a и b , при которых сумма квадратов отклонений фактических значений результативного признака от теоретических минимальна: y y n • i 1 i 2 xi n i 1 2 i min (1.2) Рис. 1.2. Линия регрессии с минимальной дисперсией остатков. • Чтобы найти минимум функции (1.2), надо вычислить частные производные по каждому из параметров a и b и приравнять их к нулю. • Обозначим через S a, b , тогда: 2 i i S a, b y a b x 2 S 2 y a b x 0; a S 2 x y a b x 0. b a n b x y; 2 a x b x x y. • • a y b x , b cov x, y 2 x ______ • Где cov x, y y x y x - ковариация признаков x и y ____ 2 • x2 x x 2 - дисперсия признака x • • 1 x x, n ______ 1 y x y x, n 1 y y n ____ 2 1 x x2 n • Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. Оценка качества «подгонки» модели • Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции rxy , который можно рассчитать по следующим формулам: x cov x, y • rxy b y x y • Линейный коэффициент корреляции находится в пределах: 1 rxy 1 . • Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции rxy2 , называемый коэффициентом детерминации R2 . • Коэффициент детерминации характеризует долю дисперсии результативного признака y , объясняемую регрессией, в общей дисперсии результативного признака: 2 2 2 ост R r 1 • = xy 2 y • Где 2 ост 1 y yx n 2 1 2 y y y2 y 2 n 2 y 2 1 r • Соответственно величина xy характеризует долю дисперсии , вызванную влиянием остальных, не учтенных в модели, факторов. Чем ближе коэффициент детерминации к единице, тем лучше точки на регрессионном поле укладываются на линию регрессии, т.е. тем выше уровень «подгонки» модели. • После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров. • Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации: y yx 1 A 100% n y • Средняя ошибка аппроксимации не должна превышать 8–10%. Значимость регрессионной модели в целом • Оценка значимости уравнения регрессии в целом производится на основе -критерия Фишера, которому предшествует дисперсионный анализ. • Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной y от среднего значения y раскладывается на две части – «объясненную» и «необъясненную»: y y y 2 x y y yx y y 2 2 2 • Где - общая сумма квадратов отклонений; 2 • yx y - сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений); 2 • y y x - остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов. Схема дисперсионного анализа: • Определяются дисперсии на одну степень свободы, что приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину -критерия Фишера: 2 F Sфакт 2 Sост • Фактическое значение F -критерия Фишера сравнивается с табличным значением F ; k ; k при уровне значимости и степенях свободы k m и k2 n m 1 . При этом, если фактическое значение F -критерия больше табличного, то признается статистическая значимость уравнения в целом. табл 1 2 1 • Для парной линейной регрессии m 1 , поэтому y y n 2 y y 2 F 2 Sфакт 2 Sост x 2 x • Величина F - критерия связана с 2 коэффициентом детерминации rxy , и ее можно рассчитать по следующей формуле: F rxy2 1 r 2 xy n 2 • Из этой формулы видно, что чем ближе коэффициент детерминации к единице, тем больше F , т.е. критерий Фишера позволяет оценить, достаточно ли близок коэффициент детерминации к единице, чтобы модель можно было признать удовлетворительной по качеству «подгонки». • Следует заметить, что даже если «подгонка» идеальна и точки корреляционного поля в точности лежат на линии регрессии ( например - если мы построим интерполяционный многочлен), модель еще не может считаться качественной, поскольку важна значимость не только уравнения в целом, но и отдельных его параметров. Значимость коэффициентов регрессии • Стандартная ошибка коэффициента регрессии определяется по формуле: mb 2 Sост x x 2 Sост x n y y x 2 • Где S n 2 - остаточная дисперсия на одну степень свободы. 2 ост • Величина стандартной ошибки совместно с t -распределением Стьюдента при n 2 степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительного интервала. • Для оценки существенности коэффициента регрессии его величина сравнивается с его стандартной ошибкой, т.е. определяется фактическое значение -критерия t b t Стьюдента: которое затем m сравнивается с табличным значением при определенном уровне значимости и числе степеней свободы n 2 . b b • Стандартная ошибка параметра a определяется по формуле: x n x x 2 ma S 2 ост 2 Sост 2 x x n t • Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрессии. Вычисляется t -критерий: t a , a ma • его величина сравнивается с табличным 2 значением при степеняхn свободы. Прогнозирование с использование линейной регрессионной модели • В прогнозных расчетах по уравнению регрессии определяется предсказываемое y p значение как точечный прогноз y x при x p xk , т.е. путем подстановки в уравнение регрессии y a b x соответствующего значения x . x • Однако точечный прогноз явно не реален. Поэтому он дополняется расчетом стандартной ошибки y p,т.е. m,y p и соответственно интервальной оценкой yp прогнозного значения : y p y y p y p y p my p 1 xp x Sост 1 n n x2 2 p Теорема Гаусса-Маркова (для простой линейной регрессии) • При оценке значимости модели в целом с использованием критерия Фишера и значимости каждого из коэффициентов, следует учитывать, что их применение строго обосновано только при выполнении условий теоремы ГауссаМаркова, которые для простой линейной регрессионной модели имеют следующий вид: Классическая линейная модель простой регрессии имеет вид: • • • • • 1. y t a bxt t , t 1,2,..., n . 2. t - случайная ошибка, M t 0 , 2 2 D e 3. - гомоскедастичность, t t 4. M t s 0, s t - некоррелированность. 5. t - имеет нормальное распределение. • Утверждение теоремы Гаусса Маркова состоит в том, что при выполнении условий 15 оценки, полученные методом наименьших квадратов , будут состоятельными, несмещенными и максимально эффективными (в классе линейных оценок). • В следующих лекциях мы изучим последствия, к которым приводит нарушение того или иного условия этой теоремы. • Рассмотрим пример. По данным проведенного опроса восьми групп семей известны данные связи расходов населения на продукты питания с уровнем доходов семьи. Расходы на продукты питания, y тыс. руб. 0,9 1,2 1,8 2,2 2,6 2,9 3,3 3,8 Доходы семьи, x , Тыс. руб 1,2 3,1 5,3 7,4 9,6 11,8 14,5 18,7 Рис. 1.4. По графику видно, что точки выстраиваются в некоторую прямую линию. • Рассчитаем параметры линейного уравнения парной регрессии y x a b x . Для этого воспользуемся формулами cov x, y x y x y 26,09 8,95 2,34 b 0,168 2 x 30,56 x2 x 2 a y b x 2,34 0,168 8,95 0,836 • Получили уравнение: y x 0,836 0,168 x . т.е. с увеличением дохода семьи на 1000 руб. расходы на питание увеличиваются на 168 руб. • Выпишем показатель тесноты связи – выборочный коэффициент корреляции • rxy : x 5,53 rxy b 0,168 0,994 y 0,935 • Близость коэффициента корреляции к 1 указывает на тесную линейную связь между признаками. rxy2 0,987 • Коэффициент детерминации R = (примерно тот же результат получим, если найти по определению из формулы (1.7)) 2 • Оценим качество уравнения регрессии в целом с помощью F -критерия Фишера. Сосчитаем фактическое значение F -критерия: rxy2 0,987 F n 2 6 455,54 2 1 rxy 1 0,987 • Табличное значение • ( k1 1 , k2 n 2 6 , 0,05 ): Fтабл 5,99 • Так как Fфакт Fтабл , то признается статистическая значимость уравнения в целом. • Рассчитаем случайные ошибки параметров линейной регрессии и коэффициента корреляции S2 ост y y x n2 2 0,1257 0, 021 82 Sост 0,021 mb 0,0093 x n 5,53 8 2 x 0,021 885,24 ma Sост 0,0975 x n 5,53 8 1 r2 1 0,987 mr 0,0465 n2 6 • Фактические значения t-статистик: 0,836 • 0,168 t 8,574 tb 0,0093 18,065 tr a 0,994 21,376 0,0465 0,0975 • Табличное значение t -критерия Стьюдента при 0,05 и числе степеней свободы n 2 6 есть tтабл . 2,447 Так как tb tтабл , ta t табл , то признаем статистическую значимость параметров регрессии . • Средняя ошибка аппроксимации Ai yi y xi yi 100% в нашем примере равна A 6,52% говорит о хорошем качестве уравнения регрессии, т.е. свидетельствует о хорошем подборе модели к исходным данным. • И, наконец, найдем прогнозное значение результативного фактора y p при значении признака-фактора, составляющем 110% от среднего уровня xp 1,1 x 1,1 8,95 9,845 , т.е. найдем расходы на питание, если доходы семьи составят 9,85 тыс. руб. y p 0,836 0,168 9,845 2, 490 • Значит, если доходы семьи составят 9,845 тыс. руб., то расходы на питание будут 2,490 тыс. руб. • Найдем доверительный интервал прогноза. Ошибка прогноза my Sост 1 p 1 n xp x n x2 2 1 9,845 8,95 2 0,021 1 0,154 8 8 30,56 • а доверительный интервал ( 2,113 y p 2,867 y p y yp y p y p p ): • Подчеркнем, что здесь мы получили доверительный интервал для y p (а не для математического ожидания y p ). Построение регрессии в Excel Построение регрессии в StatGraphics Построение регрессии в EWiews Лекция 3. Преобразования переменных в регрессионном анализе. Все нелинейные регрессионные модели делятся на два класса: • нелинейные модели, сводящиеся к линейным с помощью некоторой замены переменных • и модели, которые к линейным не сводятся. Регрессионные модели, сводящиеся к линейным: • • • • • • • полиномы разных степеней , гиперболическая по x, гиперболическая по y, степенная, показательная, логистическая и т.д.- их достаточно много. С существенно нелинейными моделями дело обстоит сложнее: для того, чтобы найти параметры модели, на которых достигается минимум в методе наименьших квадратов, приходится численно минимизировать некоторую, как правило, многоэкстремальную функцию, что может быть непросто. Рассмотрим в качестве примера классическую модель Кобба-Дугласа В 1929 экономист Пол Дуглас и математик Чарлз Кобб предложили следующую макроэкономическую модель: пусть • Y- объем производства, • K- капитальные затраты, • L- затраты труда, тогда, используя метод наименьших квадратов, можно подобрать параметры A и так, чтобы 1 Y AK L • Эта модель эквивалентна следующей степенной модели: Y / L A( K / L) или, взяв логарифмы: ln( Y / L) ln A ln( K / L) Это- уже простая линейная модель, в которой ln( Y / L) играет роль Y, а переменная играет роль х. ln( K / L) Получим следующие оценки параметров: ln A 0.013 0.257 Коэффициент детерминации R 0.643 2 • В нашем примере , для критерия Фишера, • P-val = 0.0000, и , следовательно, гипотеза о несущественном отличии параметра от нуля отвергается. Таким образом- оценка модели в целом положительная. • Следует запомнить простое правило: если P-val мало, то найденный коэффициент значимо отличается от нуля и его можно использовать. • В эконометрической теории существует много видов линейных по параметрам уравнений, которые следует использовать, или исходя из теоретических предпосылок, или из предпосылок качества оценивания. Обычно используются следующие функциональные формы: • Модели, у которых логарифм содержится в обеих частях равенства, называются двойными логарифмическими (log-log), • если же логарифм содержится только справаэто полулогарифмическая модель типа semilog, • если же логарифм только слева- это полулогарифмическая модель типа log-lin. • В нашем примере мы имеем двойную логарифмическую модель. • Далее мы разберем, каков содержательный смысл коэффициентов для различных видов модели. Лекция 4. Модель множественной линейной регрессии (МЛР): две объясняющие переменные и k объясняющих переменных. • В предыдущей лекции мы познакомились с классической моделью Кобба-Дугласа: 1 Y AK L • • • • где Y- объем производства, K- капитальные затраты, L- затраты труда, • и нашли (методом наименьших квадратов) оценки параметров A и . В целом, модель оказалась удачной, однако коэффициент детерминации , характеризующий качество «подгонки » модели хотелось бы иметь побольше… • В связи с этим можно рассмотреть более общую модель: Y AK L . • Где 1 • Прологарифмируем это равенство ln Y ln A ln K ln L • неизвестные параметры ln A, , • входят линейно, т.е. это также линейная модель, но с двумя независимыми переменными, а именно: ln K и ln L • Введем следующие обозначения: y ln( Y ), x1 ln( K ), x2 ln( L), b1 , b2 • тогда уравнение регрессии имеет следующий вид: y a b1 x (1) b2 x ( 2) • Такого рода модель называется линейной множественной линией регрессии. • Коэффициенты такой модели обычно находятся с помощью уже известного нам метода наименьших квадратов (МНК): S (a, b1, b2 ) ( yi yˆ xi ) min 2 2 i • где y xi b0 b x b x • Приравнивая к нулю производные функции S мы получим систему из трех линейных уравнений с тремя неизвестными b0 , b1 , b2 (t ) 1 t (2) 2 t Рассмотрим внимательнее Parameter Estimate CONSTA NT log(k) log(l) -0,17731 Standard Error 0,434293 0,233053 0,0635297 0,807278 0,145076 T Statistic PValue -0,40827 0,6872 3,66842 5,56451 0,0014 0,0000 • Мы получили следующие оценки для неизвестных параметров: b0 ln A 0,18 b1 0,23; b2 0,8 • Первый коэффициент незначимо отличается от нуля (Pval=0.69), зато второй и третий коэффициент вполне надежны ( Pval равны соответственно 0.0014 и 0.0000). • Также как и для простой линейной регрессии для оценки качества «подгонки» модели можно использовать коэффициент детерминации: n R2 t 1 n yt y y t 1 t y n 2 2 1 yt t 1 n y t 1 t yt y 2 2 • Однако в случае множественной регрессии он обладает неприятным свойством: если мы увеличиваем количество независимых переменных, коэффициент детерминации также увеличивается! • Для того, чтобы такого автоматического увеличения не происходило, используется исправленный (скорректированный-adjusted) коэффициент детерминации: R 1 (1 R )(n 1) /(n k 1) 2 adj 2 • (n-объем выборки, k-число независимых переменных). • Если вернуться к нашей обобщенной модели Кобба-Дугласа, то R-squared = 95,7425 percent • из чего следует, что качество «подгонки» нашей модели достаточно хорошее. • Для общей оценки модели можно посмотреть на результат, который дает критерий Фишера: F=236,12 • т.е. модель действительно удачная. Содержательная интерпретация коэффициетов и для обобщенной модели Кобба-Дугласа • Найденные нами коэффициенты и имеют ясную интерпретацию: это коэффициенты эластичности переменной Y по K и по L соответственно. Действительно, эластичность Y по K равна: (Y / Y ) /(K / K ) ( AK 1 L )* K /( AK L ) • Аналогично проверяется второе высказывание. • Для нашего примера: b1 0,23; b2 0,8 • Какие вложения более эффективны? • Какую содержательную интерпретацию можно дать неравенству 1? Коэффициенты множественной линейной регрессионной регрессии и их свойства • Обозначим: Y y1 ,..., yn , b0 , b1 ,..., bk , 1,..., n T T T X (1, x (1) , x (2) ,..., x ( k ) ) • (т.е. X-это матрица, первый столбец которой состоит из n единиц, а остальные столбцы представляют из себя n- мерные вектор-столбцы значений независимых переменных) Тогда условия теоремы ГауссаМаркова примут вид: • Y XB - спецификация модели; • X - детерминированная матрица, имеющая максимальный ранг k+1; M 0 , • T 2 D M In • ~ N O, I • т.е. - нормально 2 n распределенный случайный вектор с нулевым средним и матрицей ковариаций In 2 Замечание • Если матрица X не является детерминированной, то остатки и независимые переменные должны быть независимыми при любом наблюдении t=1,2,…,n • Нарушение свойства 4 может быть из-за того, что дисперсии остатков для различных наблюдений различны. Такое нарушение называется гетероскедастичностью и приводит к тому, что свойство максимальной эффективности не сохранится, хотя свойства состоятельности и несмещенности сохраняются. • К таким же последствиям приводит автокорреляция остатков (т.е. • cov( i , j ) 0 при i j • Если нарушено условие 3 (или условие, сформулированное в замечании), то может быть нарушено свойство несмещенности оценок. • Найдем теперь оценки для коэффициентов линейной регрессионной модели. ˆ • Обозначим через Yt X t B - прогноз значения Y в точке X t t (t=1,2,…,n) Здесь X t t строка матрицы Х B̂ искомая оценка вектора B Остатки регрессии et Yt Yt Метод наименьших квадратов • Целью метода является выбор вектора оценок , минимизирующего сумму квадратов остатков ESS n 2 T e e e min t t 1 • Здесь e Y Y Y X • Выразим eT e через Х и e e Y X T T В: Y X Y T Y Y T X T X T Y T X T X • Приравниваем к нулю вектор-градиент этой функции (по b): 2 X Y 2 X X 0 T T T • Матрица X X у нас обратима (почему?), поэтому, умножим слева полученное уравнение на ( X T X )1 получим : 1 T T МНК X X X Y • В теореме Гаусса-Маркова утверждается, что найденные нами оценки коэффициентов множественной линейной регрессионной модели являются состоятельными, несмещенными и максимально эффективными (в классе линейных оценок) оценками. Проверка качества множественной линейной регрессионной модели • Так же как и для простой линейной регрессии, первоначальный (и неполный) анализ качества регрессионной модели сводится к проверке качества «подгонки» модели с помощью исправленного коэффициента детерминации и критерия Фишера, а затем анализа значимости найденных коэффициентов. Лекция 5 Мультиколлинеарность. Методы устранения мультиколлинеарности • Мультиколлинеарность (строгая) определяется нарушением требования к рангу матрицы - ранг матрицы меньше . Матрица оказывается X T X вырожденной. • Из материала предыдущей лекции следует, что нахождение параметров линейной регрессионной модели в этом случае становится невозможно. Такие ситуации, в которых независимые переменные линейно связаны, встречаются в приложениях и выявляются легко. Сложнее выявить связи близкие к линейным (нестрогую мультиколлинеарность) • Анализируют матрицу парных (и частных) коэффициентов корреляции. наличие значений коэффициентов корреляции > 0,75 - 0,80, свидетельствует о наличии мультиколлинеарности (нестрогой). • Существование тесных линейных статистических связей между объясняющими переменными приводит к слабой обусловленности матрицы T X X • Важную роль в анализе мультиколлинеарности играет и минимальное собственное число min матрицы X T X (оно близко к нулю). Мультиколлинеарность есть когда: • некоторые из оценок j, МНКимеют неправильные знаки или неоправданно большие по абсолютной величине значения • небольшое изменение исходных статистических данных приводит к существенному изменению оценок коэффициентов модели, вплоть до изменения их знаков • большинство или даже все оценки коэффициентов регрессии оказываются статистически незначимо отличающимися от нуля, а модель в целом является значимой при проверке с помощью статистики . Причины появления мультиколлинеарности. 1.Строгая мультиколлинеарность при введении фиктивных сезонных переменных. 2. Ложная корреляция. Общие тренды. • Значение одной из независимых переменных является лагированным ( т.е. полученным в другой момент времени) значением другой. Методы устранения мультиколлинеарности • Отбор наиболее существенных объясняющих переменных. • Переход к ортогонализированным объясняющим переменным с помощью метода главных компонент. • Переход к смещённым методам оценивания. • Подходом называемый “ридж регрессией”. Лекция 6. . Гетероскедастичность Линейные регрессионные модели с гетероскедастичными остатками • В предыдущей лекции мы уже отмечали, что гетероскедаксичность остатков, приводит к тому, что оценки коэффициентов регрессионной модели перестают быть эффективными, а также возникают проблемы с оценкой значимости коэффициентов и всей модели в целом. • Обнаружение гетероскедастичности в каждом конкретном случае является сложной задачей, поскольку точно определить дисперсию для отклонений t мы не можем, (т.к. для этого нужно знать распределение этой случайной величины), а получить статистическую оценку для дисперсии тоже сложно, т.к. на практике для каждого значения независимой переменной xt мы, как правило, знаем единственное значение . yt • Однако, при некоторых дополнительных предположениях, к настоящему времени разработано достаточно много способов выявления гетероскедаксичности. • Проверить модель на гетероскедаксичность можно проверить с помощью следующих тестов: графический анализ отклонений, Уайта, Голдфельда-Квандта, Спирмена, Бреуша-Пагана, Глейзера. Рассмотрим некоторые из них. 1. Графический анализ отклонений. • С помощью любого из имеющихся у нас прграммных средств, легко построить график зависимости остатков (или их квадратов) от какой либо независимой переменной (либо их линейной комбинации). • Естественно предположить, что остатки гетероскедаксичны, если график будет похож на один из следующих: Примеры гетероскедастичности А) Б) В) • Наличие гетероскедастичности можно видеть и по рассмотренному выше графику зависимости остатков i от теоретических значений результативного признака . Так, зависимость остатков от представлена на следующих рисунках: 2. Тест Уайта. • Тест Уайта- один из самых общих и достаточно распространенных тестов. • Пусть, для определенности, к=2, т.е. мы имеем модель следующего вида: yt b0 b1 x (1) t b2 x ( 2) t t • Для квадратов остатков регрессионной модели строится вспомогательная регрессионная модель: e a0 a x a x a3 ( x ) a4 ( x ) a x x ut 2 t (1) 1 t (2) 2 t (1) 2 t (2) 2 t (1) (1) 5 t t • где ut нормально распределенная ошибка, независимая от t . • Вспомогательная регрессия выбрана в такой форме для того, чтобы понять, есть ли существенная зависимость остатков от независимых переменных. • Пусть коэффициент детерминации для вспомогательной модели. Известно, что если коэффициенты вспомогательной регрессионной модели (кроме свободного члена) равны нулю, 2 nR то случайная величина имеет 2 (m)m – распределение близкое к , где количество слагаемых во вспомогательной модели (без свободного члена). (В нашем случае m=5). R2 - • Если фактическое значение будет больше критического значения, то гипотеза H 0 : a2 a3 ... a6 0 отвергается и делается вывод о наличии гетероскедастичности. Разумеется, в статистических пакетах такой вывод делается если соответствующее Pval мало (обычно- меньше 0.05). • Грубо говоря, если коэффициент детерминации вспомогательной модели слишком близок к единице, то остатки гетероскедастичны. 3. Тест Спирмена. • В курсе прикладной статистики мы уже познакомились с тестом ранговой корреляции Спирмена. Здесь мы применяем этот тест для выявления связи между остатками и некоторой объясняющей переменной (это м.б., например, x ( i ) ). • Вычисляется коэффициент Спирмена: rxe 1 6( dt2 ) / n(n 1) • и если он по модулю близок к единице, то остатки гетероскедастичны. Можно, разумеется, формализовать это высказывание, используя тот факт, что при отсутствии связи между x и e, статистика t rxe n 2 / 1 rxe2 имеет распределение Стьюдента с n-2 степенями свободы. 4. Тест Голдфелда – Куандта. • В тесте проверяется основная гипотеза H 0 : ... 2 1 2 2 2 n • против альтернативной гипотезы H1 : не H 0 • предположение о прямой зависимости дисперсии ошибки от величины некоторой независимой переменной. • Тест проводится следующим образом: • 1) упорядочить данные по убыванию той независимой переменной, относительно которой есть подозрение на гетероскедастичность; исключить d средних наблюдений ; 2) провести две независимые регрессии первых n 2 d 2 наблюдений и последних нn 2 d 2 наблюдений и построить соответствующие остатки e1и e ; 3) составить статистику 2 T 1 1 e e F T 2 e e2 • Если верна гипотеза H 0 , то F имеет распределение Фишера с n 2 d 2 p, n 2 d 2 p степенями свободы. Большая величина этой статистики означает, что гипотезу H0 следует отвергнуть (т.е.модель гетероскедастична). 5. Тест Бреуша – Пагана (Breusch – Pagan). • В тесте проверяется основная гипотеза H 0 : ... 2 1 • 2 2 2 n против альтернативной гипотезы H1 : не H 0 • Этот тест применяется в тех случаях, когда априорно предполагается, что дисперсии t2 зависят от некоторых 2 дополнительных переменных: t 0 zt t 1,..., n , где zt z1t ,..., z pt - вектор независимых переменных, , ,..., неизвестные параметры. T 0 1 p Тест Бреуша – Пагана предполагает выполнение следующих действий: 1) провести обычную регрессию Y X и получить вектор остатков e e1 ,..., en T 2) построить оценку 2 1 n et2 2 et 3) провести регрессию 2 0 zt t и найти для нее объясненную часть вариации ; RSS 4) построить статистику 2 . Установлено, что если верна гипотеза H 0, то величина RSS 2 асимптотически 2 имеет распределение p . • При выявлении гетероскедастичности можно попытаться коррекцию с помощью метода взвешенных наименьших квадратов, выбирая в качестве весов величины z , где 0, - оценки. 1 0 t 2 • Процедура теста Бреуша – Пагана выглядит тогда совершенно аналогично с заменой регрессии на регрессию e ln 2 0 zt ut t 2 t Обобщенная линейная множественная регрессионная модель с гетероскедастичными остатками. • Сейчас мы познакомимся с некоторыми методами борьбы с гетероскедастичностью. • Пусть Y X и ковариационная матрица вектора ошибок диагональная, D t t , t 1,2,..., n 2 Обобщенный метод наименьших квадратов: yt t • где p bj j 1 ut x jt t t t ut , t 1,2,..., n , причем Dut 1, covut , us 0 при t s . 1 Q b t 1 t n 1 yt p b j 1 j x jt 2 • Величины выступают в роли «весов» и поэтому называют методом взвешенных наименьших квадратов. t 1) Стандартное отклонение ошибки пропорционально независимой переменной. В некоторых ситуациях априорно можно считать, что стандартное отклонение ошибки прямо пропорционально одной из независимых переменных. Если есть предположение о зависимости ошибок от одной из независимых переменных, то целесообразно расположить наблюдения в порядке возрастания значения этой переменной, а затем провести обычную регрессию и получить остатки. • Если размах их колебаний тоже возрастает, тогда надо сделать описанное ранее преобразование, вновь провести регрессию и исследовать остатки. Если теперь их колебание имеет неупорядоченный характер, то это может служить показателем того, что коррекция на гетероскедастичность прошла успешно. 2) Дисперсия ошибки принимает только два значения. • Пусть известно, что t для t 1,2,..., n1 и t 2 22 для t n 1, n 2,..., n1 n2 2 2 Но числа 1 и 2 неизвестны. В этом случае: • провести регрессию e e e e • построить оценки и n n 2 2 дисперсий 1 и 2 ; 2 2 1 2 1 T 1 1 2 2 1 T 2 2 2 • преобразовать переменные, разделив n первые 1 уравнений на ,а 2 последующие n2 - на 2 ; провести обычную регрессию для преобразованной модели. 2 1 • 3) На практике часто не удается определить причину и форму гетероскедастичности. • В этом случае обычно пытаются перевести все переменные в логарифмическую форму (если все они положительны). Лекция 7. . Автокоррелированность случайного члена • Одной из важных предпосылок построения линейной регрессии МНК является условие некоррелированности остатков (отсутствие авторегрессии). Последствия автокорреляции в определенной степени сходны с последствиями гетероскедастичности. Среди них при применении МНК обычно выделяются следующие. • 1. Оценки параметров, оставаясь линейными и несмещенными, перестают быть эффективными. Следовательно, они перестают обладать свойствами наилучших линейных несмещенных оценок. • 2. Дисперсии оценок являются смещенными. Зачастую дисперсии, вычисляемые по стандартным формулам, являются заниженными,что приводит к увеличению tстатистик. Это может привести к признанию статистически значимыми объясняющие переменные, которые в действительности таковыми могут и не являться. 3. Оценка дисперсии регрессии S 2 ( et2 ) /(n k 1) является смещенной оценкой истинного значения 2 , во многих случаях занижая его. • 4. В силу вышесказанного выводы по tи F-статистикам, определяющим значимость коэффициентов регрессии и коэффициента детерминации, возможно, будут неверными. Вследствие этого ухудшаются прогнозные качества модели. • Здесь следует отметить, что автокорреляция остатков обычно встречается в регрессионном анализе при использовании данных, упорядоченных по времени. • Особенно существенно влияние автокорреляции при анализе временных рядов, которыми мы будем заниматься позднее. 1. Причины автокорреляции. • Чаще всего автокорреляция вызывается воздействием некоторых неучтенных в модели факторов • либо ошибкой спецификации модели. • причиной автокорреляции может быть инерционность изменения экономических факторов. • эффект автокорреляции может появиться в результате сглаживания данных. 2.Обнаружение автокорреляции. 1) Графический метод. • Автокорреляция обычно легко выявляется по графику, связывающему моменты наблюдения с остатками, например: Или по графику, связывающему последовательные остатки: Какому из предыдущих рисунков соответствует этот график ? 2. Критерий Дарбина-Уотсона • Наиболее известным критерием обнаружения атокорреляции первого порядка (т.е. коррелированности последовательных наблюдений) является критерий ДарбинаУотсона. Статистика ДарбинаУотсона есть во всех статистических и эконометрических пакетах. Предполагается, что остатки в регрессионной модели связаны следующим образом: et et 1 t • Находится выборочная оценка параметра - выборочный коэффициент корреляции ret et 1 . • Критерий Дарбина – Уотсона основан на статистике, имеющей вид n DW et i2 et 1 2 n e i 1 2 i • где et yi yt остатки обыкновенного метода наименьших квадратов. Постоянный член включен в число регрессоров • Тогда 2 e e t 2 t t 1 n DW t 1 et n 2 n et et 1 e 2 e 2 2 1 t n2 2 1 n n2 . e t 1 t t 1 et • Предполагая, что число наблюдений достаточно большое, можно ee предполагать, что r .получим n t 2 n DW 2 1 r t e t 1 t t 1 2 • Дарбин и Уотсон доказали, что существуют две границы d u и d d u d l u верхняя, l нижняя которые обладают следующим свойством: • 4 dl DW 4 отрицательная корреляция • 4 du DW 4 dl неопределенность • du DW 4 du нет автокорреляции • неопределенность dl DW du l • 0 DW dl положительная корреляция • Тест Дарбина – Уотсона построен в предположении, что регрессоры и ошибки не коррелированны. • Приближенное правило звучит так: если DW (1.3;2.7) то автокорреляции нет. 3. Критерии случайности. • В курсе прикладной статистики мы познакомились с несколькими критериями случайности, которые заложены в пакете Statgraphics: медианный критерий серий, критерий восходящих и нисходящих серий. Здесь мы можем использовать первый из них для выявления автокорреляции: выписываются знаки последовательности остатков, если среди них окажется слишком много серий, одного знака, или слишком длинная серия одного знака, то остатки коррелированны. 3.Методы устранения атокорреляции. • В начале лекции отмечалось, что одной из основных причин автокорреляции являются неучтенные (а иногдалишние) факторы. • Грубое правило, основанное на коэффициенте Дарбина-Уотсона гласит: если DW близко к нулю, есть положительная автокорреляция- нужно поискать, какой дополнительный фактор следует включить в модель, если же DW близко к 4, есть отрицательная автокорреляция, модель видимо переопределенаследует исключить какой-то фактор. • Часто изменение формы зависимости, например на лог-линейную или полиномиальную приводит к успеху. • Если такие методы не приводят к успеху, то возможно автокорреляция обусловлена внутренними свойствами остатков. Тогда можно воспользоваться, например , авторегрессионным преобразованием (выпишем для парной регрессии): • Мы предполагаем, что et et 1 t тогда yt yt 1 b0 (1 ) b1 ( xt xt 1 ) (et et 1 ) Переобозначив yt1 yt yt 1 , xt1 xt xt 1 t et et 1 где остатки уже некоррелированы. Лекция 8. Спецификация модели линейной регрессии. Фиктивные переменные. Спецификация модели подразумевает выбор: • независимых переменных: • функциональной формы: • модели случайного члена. Ошибки спецификации возникают, когда один из выборов произведен неудачно. Выбор переменных, включаемых в модель, можно произвести на основании следующих четырех критериев: • а) Теория.Соответствие экономической теории и смыслу задачи; • б) t-тест. Оценка коэффициента включаемой переменной должна быть значимой. • в) Исправленный коэффициент 2 R детерминации adj .В результате включения в уравнение переменной R должен возрасти. • г)Смещение. При добавлении существенной переменной в уравнение, оценки коэффициентов при других переменных должны значимо измениться. 2 adj 2. Выбор функциональной формы модели. • Наилучший выбор модели определяется опять таки теорией и здравым смыслом, хотя, разумеется, есть и формальные критерии выбора. • Если точная спецификация модели неизвестна (что практически всегда и бывает), то пользуются критериями, которые позволяют выбрать, из некоторого множества моделей наилучшую. • Наиболее распространенными являются информационные критерии Шварца и Акайке. Они устроены так, чтобы учесть влияние на качество модели двух противоположных тенденций: при увеличении числа регрессоров, «подгонка» модели улучшается, однако как мы уже отмечали в предыдущих лекциях, могут появиться незначимые коэффициенты. • Таким образом, число коэффициентов должно быть разумным, чтобы не вызвать «искусственной» подгонки (пример такой крайности – интерполяционный многочлен). Рассматриваемые критерии находят по следующим формулам: 2 2 2 S ( e t ) / n - выборочная • SH ln S (k 1) ln n / n, где AK ln S 2 2(k 1) / n дисперсия остатков, k- число регрессоров (независимых переменных). • Сделаем два важных замечания: • 1)Критерии нельзя использовать для сравнения уравнений с разными формами зависимости от независимых переменных. • 2)Неправильная функциональная форма может дать хорошее качество подгонки в области проведенных наблюдений и быть совершенно неприемлемой вне нее. 3.Выбор модели случайного члена • Можно использовать уже знакомый нам по шестой лекции тест Уайта. Лекция 9. Модели двоичного выбора, модели с ограничениями для зависимой переменной и оценивание по методу максимума правдоподобия. • Заметим, что иногда фиктивные переменные (которые мы изучали в прошлой лекции) могут быть использованы для объяснения поведения зависимой переменной. Например, если рассматривать следующую зависимость: наличие автомобиля в зависимости от дохода, пола субъекта и т. п., то зависимая переменная имеет как бы два возможных значения:0, если машины нет, и 1, если машина есть. • Однако если для моделей данного типа использовать обыкновенный МНК, то оценки, получаемые с его помощью, не обладают свойствами наилучших линейных несмещенных оценок (BLUE). Поэтому для определения коэффициентов в этом случае используются другие методы. • В качестве одного из вариантов преодоления недостатков обычной линейной модели можно предложить logit модель. Поясним суть данной модели. • По линейной модели условная вероятность pi = P(Y = 1 | xi ) выражалась формулой: • Вместо этого, представим условную вероятность pi в следующем виде: 1 pi M (Y 1/ xi ) 1 e zi • где zi b0 b1 xi(1) ... bk xi( k ) (Функция в правой части называется логистической). • Из этой формулы нетрудно заметить, что при • − ∞ < < +∞ никогда не нарушается следующее неравенство: 0 ≤ ≤ 1. • Кроме того, формула зависимости от не является линейной. С другой стороны, • очевидно, что не является также линейной функцией и от параметров b j • Это означает, что для их определения неприменим МНК. Но эта проблема легко преодолима. Действительно, 1 1 pi 1 e zi pi 1 e zi zi e 1 pi 1 e zi • Но тогда, мы имеем: • где отношение вероятностей в левой части P(y =1) , характеризует во сколько раз больше, чем P(yi =0). i • Прологарифмировав левую и правую части, получим ln pi zi b0 b1 xi(1) ... bk xi( k ) 1 pi • Эта модель и называется logit моделью. Она выражает логарифм от отношения вероятностей через линейную функцию. • Вместо логистической функции в описанной выше модели можно было использовать функцию с аналогичными свойствами Ф(z)функцию распределения для стандартного нормального распределения (т.е. нормального распределения с нулевым матожиданием и единичной дисперсией, N(0, 1)).. • . В этом случае модель называют probit моделью. • Логистическое распределение похоже на нормальное с нулевым ожиданием и дисперсией π2/3 (дисперсия логистического распределения). В связи с этим оценки коэффициентов в моделях различаются примерно на множитель π/√3 ≈ 1.8. Если вероятности далеки от границ 0 и 1 (около 0,5), то более точной оценкой множителя является величина ϕ(0)/λ(0) = 8/π ≈ 1.6. • При малом количестве наблюдений из-за схожести распределений сложно решить, когда следует применять логит, а когда— пробит. Различие наиболее сильно проявляется при вероятностях, близких к 0 и 1, поскольку логистическое распределение имеет более длинные хвосты, чем нормальное (оно характеризуется положительным коэффициентом эксцесса). • Для логита коэффициенты модели описывают влияние факторов на логарифм соотношения шансов. В общем случае по знаку коэффициентов можно судить о направлении зависимости, а по соответствующим t-статистикам—о наличии или отсутствии зависимости. Однако интерпретировать коэффициенты в содержательных • терминах затруднительно. РАБОТА ДЛЯ ЖЕНЩИН Титаник • Percentage of deviance explained by model = 43,3195 • Adjusted percentage = 40,9967 • • • • • • • Likelihood Ratio Tests Factor Chi-Squared Df sibsp 1,06573 1 parch 1,50828 1 pclass 20,772 1 sex 176,03 1 age 12,5562 1 P-Value 0,3019 0,2194 0,0000 0,0000 0,0004 Лекция 10. Временные ряды. 1. Временные ряды. Лаги в экономических моделях • При анализе многих экономических показателей (особенно в макроэкономике) часто используют ежегодные, ежеквартальные, ежемесячные, ежедневные данные. • Например, это могут быть годовые данные по ВНП, ВВП, объему чистого экспорта, инфляции и т.д., месячные данные по объему продажи продукции, ежедневные объемы выпуска какойлибо фирмы. • Для рационального анализа необходимо систематизировать моменты получения соответствующих статистических данных. • В этом случае следует упорядочить данные по времени их получения и построить так называемые временные ряды. • Пусть исследуется показатель Y. Его значение в текущий момент (период) времени t обозначают yt; значения Y в последующие моменты обозначаются yt+1 , yt+2 , …, yt+k , …; значения Y в предыдущие моменты обозначаются yt1 , yt-2 , …, yt-k, …. • Нетрудно понять, что при изучении зависимостей между такими показателями либо при анализе их развития во времени в качестве объясняющих переменных используются не только текущие значения переменных, но и некоторые предыдущие по времени значения, а также само время t. Модели данного типа называют динамическими или временными. • В свою очередь переменные, влияние которых характеризуется определенным запаздыванием, называются лаговыми переменными. Обычно динамические модели подразделяют на два класса. • 1. Модели с лагами (модели с распределенными лагами) — это модели, содержащие в качестве лаговых переменных лишь независимые (объясняющие) переменные. Примером является модель • yt = + b0·xt-1 + b1·xt-2 + …+ bk·xt-k + k. (1.1) • 2. Авторегрессионные модели — это модели, уравнения которых в качестве лаговых объясняющих переменных включают значения зависимых переменных. Примером является модель • yt = + bxt + yt-1 + k. (1.2) 2. Оценка моделей с лагами в независимых переменных • Оценка модели с распределенными лагами во многом зависит от того, конечное • yt = + b0xt +b1xt-1 …+ bkxt-k + t, • или бесконечное число лагов она содержит. • yt = + b0·xt +b1·xt-1 …+ bk·xt-k +…+ t. (1.3) • Сумму всех коэффициентов bj называют долгосрочным мультипликатором, так как она характеризует изменение Y под воздействием единичного изменения переменной X в каждом из рассматриваемых временных периодов. m • Любую сумму коэффициентов b (m < k) называют промежуточным мультипликатором. j 0 j • Модель с конечным числом лагов (1.1) оценивается достаточно просто – сведением ее к уравнению множественной регрессии. В этом случае полагают • Х0= хt, Xl = xt-1, ..., Xk = xt-k • и получают уравнение • yt = + b0X0 +b1X1 …+ bkXk + t, (1.4) • Для оценки моделей с бесконечным числом лагов разработано несколько методов. Рассмотрим некоторые из них. 3. Преобразование Койка (метод геометрической прогрессии) • В распределении Койка предполагается, что коэффициенты (известные как «веса») bk при лаговых значениях объясняющей переменной убывают в геометрической прогрессии: • bk = b0*k, k=0, 1, 2,…. (1.5) • где 0 < < 1 характеризует скорость убывания коэффициентов увеличением лага (с удалением от момента анализа). • Такое предположение достаточно логично, если считать, что влияние прошлых значений объясняющих переменных на текущее значение зависимой переменной будет тем меньше, чем дальше по времени эти показатели имели место. • В данном случае уравнение (1.3) преобразуется в уравнение • yt = + b0·xt +b0·xt-1 +b0·2 xt-2 …+ b0·k xt-k + …+ t, (1.6) • Параметры данного уравнения , b0, можно определять различными способами. Например, достаточно популярен следующий метод. • Параметру присваиваются последовательно все значения из интервала (0, 1) с произвольным фиксированным шагом (например, 0,01; 0,001; 0,0001). Для каждого рассчитывается • zt = xt +·xt-1 +2 xt-2 …+ +p xt-p. (1.7) • Значение р определяется из условия, что при дальнейшем добавлении лаговых значений х величина изменения zt менее любого ранее заданного числа. • Далее оценивается уравнение регрессии • yt = + b0·zt + t, (1.8) • Из всех возможных значений выбирается то, при котором коэффициент детерминации R2 для уравнения (1.8) будет наибольшим. Найденные при этом параметры , 0, и подставляются в (1.6). Возможности современных компьютеров позволяют провести указанные расчеты за приемлемое время. Однако более распространенной является схема вычислений на основе преобразования Койка. • Вычитая из уравнения (1.6) такое же уравнение, но умноженное на и вычисленное для предыдущего периода времени t-1, получим • yt-1 = + b0xt-1 + b0·2 xt-2 +…+ t-1, (1.9) • и далее получим следующее уравнение: • yt-yt-1 = - + b0·xt + (b0·xt-1 - b0· xt-1 ) +…+(t - t-1), • отсюда • yt= (1-) + b0·xt +yt-1+vt, (1.10) • где vt = t - t-1 — скользящая средняя между t и t-1. • Преобразование по данному методу уравнения (1.3) в уравнение (1.10) называется преобразованием Койка. • Отметим, что с помощью указанного преобразования уравнение с бесконечным числом лагов (с убывающими по степенному закону коэффициентами) преобразовано в авторегрессионное уравнение (1.10), для которого требуется оценить лишь три коэффициента: , b0, . • Это, кроме всего прочего, снимает одну из острых проблем моделей с лагами — проблему мультиколлинеарности. • Модель (1.10) позволяет анализировать краткосрочные и долгосрочные свойства переменных. В краткосрочном периоде можно значение yt-i рассматривать как фиксированное и краткосрочный мультипликатор считать равным b0. Долгосрочный мультипликатор вычисляется по формуле суммы бесконечно убывающей геометрической прогрессии. • Если предположить, что в долгосрочном периоде xt стремится к некоторому своему равновесному значению х*, то значения yt и yt-i также стремятся к своему равновесному значению у*. Тогда (1.10) без учета случайного отклонения примет вид • y*= (1-) + b0·x* +y*. (1.11) • Следовательно, • b0 y x* (1 ) * (1.12) • Нетрудно заметить, что в силу формулы суммы бесконечно убывающей геометрической прогрессии b b0 b0 * b0 * 2 b0 * 3 ... (1 ) • полученная дробь является долгосрочным мультипликатором, который отражает долгосрочное воздействие X на Y. • При 0 < < 1 долгосрочное воздействие будет сильнее краткосрочного (так как b0 ). b0 (1 ) При применении преобразования Койка возможны следующие проблемы: • среди объясняющих переменных появляется переменная yt-1, которая, в принципе, носит случайный характер, что нарушает одну из предпосылок МНК. Кроме того, данная объясняющая переменная, скорее всего, коррелирует со случайным отклонением vt; • если для случайных отклонений t, t-1 исходной модели выполняется предпосылка 30 МНК, то для случайных отклонений vt очевидно, имеет место автокорреляция. Для ее анализа вместо обычной статистики DW Дарбина–Уотсона необходимо использовать h-статистику Дарбина; • при указанных выше проблемах оценки, полученные по МHK, являются смещенными и несостоятельными. 4. Полиномиально распределенные лаги Алмон • При использовании преобразования Койка для уравнения (1.1) на коэффициенты регрессии накладываются достаточно жесткие ограничения. Предполагается, что «веса» коэффициентов при лаговых переменных убывают в геометрической прогрессии. В ряде случаев такое предположение весьма уместно, в некоторых других оно не выполняется. • Встречаются ситуации, когда значения лаговой объясняющей переменной за 34 периода от момента наблюдения оказывают на зависимую переменную большее влияние, чем текущее или предшествующее ему значение объясняющей переменной (b3, b4 > b0, b1). Pacnpeделённые лаги Ш. Алмон (Shirley Almon) позволяют достаточно гибко моделировать такие изменения. • В основе модели Алмон лежит предположение, что «веса» коэффициентов bi в модели (1.1) могут аппроксимироваться (приближаться) полиномами определенной степени от величины лага: • bi = a0 + a1*i + a2*i2 + …+ am*im. (1.13) Это позволяет, например, отразить ситуации, изображенные на рисунке 1.2. а) б) Рис. 1.2. Виды зависимостей в модели Ш. Алмон в) • Например, на рисунках 1.2а, 1.2б это может быть квадратичная зависимость: • bi = a0 + a1*i + a2*i2. (1.14) • На рисунке 1.2,в это может быть полином третьей либо четвертой степени: • bi = a0 + a1*i + a2*i2 + a3*i3, (1.15) • bi = a0 + a1*i + a2*i2 + a3*i3 + a4*i4. (1.16) • Для простоты изложения схемы Алмон положим, что bi подчиняется зависимости (1.14). Тогда (1.1) может быть представлено в виде: • yt = + (a0 + a1i + a2i2)·xt-i + t= k k k i 0 i 0 i 0 a0 xt i a1 i xt i a2 i 2 xt i t . • Положив k k k i 1 i 1 i 1 zi 0 xt i ,... zi 0 i xt i ,... zi 0 i 2 xt i , • Имеем • yt = + a0zt0 + a1zt1 + a2zt2 + t. (1.18) • Значения , a0, a1, a2 могут быть определены по МНК. При этом случайные отклонения t удовлетворяют предпосылкам МНК. Коэффициенты bi определяются из соотношения (1.14). Отметим, что для применения схемы Алмон необходимо вначале определиться с количеством лагов k. Обычно это количество находится подбором, начиная с «разумного» максимального, постепенно его уменьшая. • После определения k необходимо подобрать степень m полинома (1.13). Обычно здесь используется следующее правило: степень полинома должна быть, по крайней мере, на единицу больше количества точек «экстремума» (точек, разделяющих интервалы возрастания и убывания) в зависимости bi = b(t–i). • Однако с ростом степени полинома повышается риск наличия неучтенной мультиколлинеарности в силу специфики построения zti. Это увеличивает стандартные ошибки коэффициентов ai в соотношениях, аналогичных (1.18). • Рассмотрим применение схемы Алмон при степени многочлена m = 2 и количестве лагов k = 4 • yt = + b0xt +b1xt-1 + b2xt-2 + b3xt-3 + b4xt-4 + t • Подставим полином второй степени (1.14) в это выражение • yt = + (a0 + a1i + a2i2)xt-i a0 xt (a0 a1 1 a2 1) xt 1 (a0 a1 2 a2 4) xt 2 (a0 a1 3 a2 9) xt 3 (a0 a1 4 a2 16) xt 4 t a0 ( xt xt 1 xt 2 xt 3 xt 4 ) a1 (1 xt 1 2 xt 2 3 xt 3 4 xt 4 ) a2 (1 xt 1 4 xt 2 9 xt 3 16 xt 4 ) t • Последнее выражение позволит применить МНК к соответствующим переменным yt, zt0, zt1, zt2 и найти оценки (приближения) коэффициентов , a0 ,a1, a2. • Далее находим b0 = a0, b1 = a0 + a11 + a21, b2 = a0 + a12 + a24, b3 = a0 + a13 + a29, b4 = a0 + a14 + a216. Лекция 11. Эконометрика финансовых рынков. 1. Задача Марковица. • Постановка задачи: Пусть – доля вложения капитала инвестора в i-тый вид рискового актива. Введем вектор вложений: • Предположим, что Где и известен вектор – это ожидаемая доходность от вложения капитала в рисковые активы. • Пусть известна ковариационная матрица статистических связей между рисковыми активами Четкая постановка: • Необходимо определить долю вложения капитала во i -тый вид ценных бумаг, т.е. структуру портфеля, которая минимизирует риск портфеля. • Это - задача квадратичного программирования. • В этой постановке ограничение не накладывается. Тогда это обычная задача на условный экстремум с ограничениями типа равенства. Такая задача может быть решена аналитически. Сделаем это. • Нужно найти оптимальную структуру и минимальный риск. • Сведем задачу к задаче условной оптимизации на основе введения функции Лагранжа: • Множители Лагранжа – неизвестны • Введем обозначения • Имеем: • По правилу Крамера: • Получим • Где Пример 1 • Пусть n 3 и ковариационная матрица эффективности известна: • Ожидаемая доходность: • Возьмем • этот.е. если бы инвестор вложил по капитала во все акции и то он имел бы: • По формуле • Найдем теперь оптимальный портфель: • – сумма диагональных элементов • Здесь • Проверим ограничения 8 17 8 x 33 1 * i • Найдем ожидаемую доходность этого портфеля Вывод: оптимальный «расклад» такой: x1 24% x2 52% x 24% 3 Риск оптимального портфеля • А было 2,33 • Выигрыш • Итак: мы научились строить оптимальный портфель Марковица, теперь осталось научиться делать это с использованием MS Excel. 2. Использование надстройки Поиск решения для поиска эффективных точек. • Рассмотрим набор данных, использованный в примере и предположим, что нужно получить эффективный портфель с доходностью 2%. Задача состоит в том, чтобы найти такую комбинацию весов активов в портфеле, которая бы достигала целевого уровня доходности и минимизировала дисперсию доходности. • Это стандартная оптимизационная задача, к которой можно применить надстройку Поиск решения (Solver), содержащую ряд итеративных оптимизационных методов. Так как дисперсия портфеля представляет собой квадратичную функцию относительно весов, надстройка Поиск решения будет использована для квадратичного программирования. • Подробно работу с надстройкой Solver Вы изучите в одной из лабораторных работ. Нахождение оптимального портфеля в Excel Результаты