ЭКОНОМЕТРИКА Лекция 9. § 9. Эконометрический анализ в условиях нарушений классических предположений 9.1. Модели с гетероскедастичностью. Рассмотрим частный случай обобщенной регрессионной модели, а именно, модель с гетероскедастичностъю. Это означает, что ошибки некоррелированы, но имеют непостоянные дисперсии. (Классическая модель с постоянными дисперсиями ошибок называется гомоскедастичной). Гетероскедастичность довольно часто возникает, если анализируемые объекты, говоря нестрого, неоднородны. Например, если исследуется зависимость прибыли предприятия от каких-либо факторов, скажем, от размера основного фонда, то естественно ожидать, что для больших предприятий колебание прибыли будет выше, чем для малых. Пусть регрессионная модель имеет вид (9.1) Y X A , причем дисперсионно-ковариационная матрица K ( ) вектора ошибок диагональна, но ее 2 t ,t диагональные элементы различны, т.е. дисперсии D( t ) дальнейшем представление 2 t 2 t , где числа t 1,, T . Используем в нормированы таким образом, что 1. t Обобщенный метод наименьших квадратов в данном случае состоит в следующем – вспомогательное уравнение множественной регрессии получается делением каждого эмпирического уравнения на соответствующее значение yt t где ut t , причем a0 1 t a1 x1t am t D (u t ) 1, Cov( ut , u s ) t : xmt ut , (9.2) t 0 при t s . Применяя к (9.2) t стандартный метод наименьших квадратов, ОМНК - оценки получаем минимизацией по bT (b0 , b1,, bT ) следующей функции T 1 ( yt a0 a1 x1t am xmt ) 2 . t 1 t Используя обычный метод наименьших квадратов, мы минимизируем сумму квадратов отклонений, в которую, говоря нестрого, разные слагаемые дают разный статистический вклад из-за различных дисперсий, что в конечном итоге и приводит к неэффективности МНК-оценки. Взвешивая каждое наблюдение с помощью коэффициента 1 , мы t устраняем такую неоднородность (заметим, что это означает, что мы придаем больший «вес» наблюдениям с меньшей дисперсией, т.е. более «точным»). Поэтому часто обобщенный метод наименьших квадратов для системы с гетероскедастичностью называют методом взвешенных наименьших квадратов. Можно непосредственно проверить, что применение метода взвешенных наименьших квадратов приводит к уменьшению дисперсий оценок по сравнению с обычным методом наименьших квадратов. Если числа t неизвестны (что, как правило, и бывает на практике), необходимо использовать доступный обобщенный метод наименьших квадратов, который требует 1 оценивания дисперсий 2 t . Так как число этих параметров равно T, то без дополнительных ограничений на структуру матрицы K ( ) нет надежды получить приемлемые оценки дисперсий. Ниже мы рассмотрим несколько классов моделей с гетероскедастичностыо, где такие ограничения накладываются и благодаря этому удается построить удовлетворительные оценки матрицы K ( ) , а следовательно, используя доступный обобщенный метод наименьших квадратов, и соответствующую оценку коэффициентов. 1. Стандартное отклонение ошибки пропорционально независимой переменной. В некоторых ситуациях априорно можно считать, что стандартное отклонение ошибки 2 2 прямо пропорционально одной из независимых переменных, например, xk : t xkt . Тогда, разделив t-e уравнение на xkt , t 1, , T , и вводя новые независимые переменные x*jt x jt xkt и новую зависимую переменную yt yt* xkt , j 1, , m, t 1, , T , получим классическую регрессионную модель. МНК-оценки коэффициентов этой модели дают непосредственно оценки исходной модели. Следует только помнить, что если первый регрессор в X есть набор единиц, то оценки свободного члена и коэффициента при x1*t x1t xkt в новой модели являются оценками соответственно коэффициента при xkt и свободного члена в исходной модели. Возникает естественный вопрос, при каких обстоятельствах можно пользоваться описанным выше методом. Ниже будут описаны некоторые процедуры, позволяющие выявлять гетероскедастичность того или иного рода (тесты на гетероскедастичность). Здесь мы ограничимся лишь практическими рекомендациями. Если есть предположение о зависимости ошибок от одной из независимых переменных, то целесообразно расположить наблюдения в порядке возрастания значений этой переменной, а затем провести обычную регрессию и получить остатки. Если размах их колебаний тоже возрастает (это хорошо заметно при обычном визуальном исследовании), то это говорит в пользу исходного предположения. Тогда надо сделать описанное выше преобразование, вновь провести регрессию и исследовать остатки. Если теперь их колебание имеет неупорядоченный характер, то это может служить показателем того, что коррекция на гетероскедастичиость прошла успешно. Естественно, следует сравнивать и другие параметры регрессии (значимость оценок, сумму квадратов отклонений и т. п.) и только тогда принимать окончательное решение, какая из моделей более приемлема. 2. Дисперсия ошибки принимает только два значения. Пусть известно, что но числа 2 1 и 2 t 2 1,t 1,, T1 , и 2 t 2 2, t 2 2 неизвестны. Иными словами, в первых T1 1,, T1 T2 T, T1 наблюдениях дисперсия ошибки имеет одно значение, в последующих T2 - другое. В этом случае естественным является следующий вариант доступного обобщенного метода наименьших квадратов: 1) провести обычную регрессию (9.1), получить вектор остатков e и разбить его на два подвектора e1 , e 2 размерности T1 и T2 соответственно; e1T e1 2 и ˆ2 T1 e2T e2 2) 2 построить оценки ˆ 1 3) преобразовать переменные, разделив первые T1 уравнений на T2 дисперсий 2 1 и 2 2; ˆ 12 , а 2 последующие T2 — на ˆ 2 ; 2 4) провести обычную регрессию для преобразованной модели. Хотя, как было 2 2 установлено ранее, оценки ˆ 1 и ˆ 2 являются смещенными, можно показать их состоятельность. Ясно, что эта модель допускает обобщение на случай, когда дисперсия принимает не два, а несколько значений. 3. Состоятельное оценивание дисперсий. Предположим теперь, что в модели (9.1) с гетероскедастичностью для оценки вектора параметра A используется обычный метод наименьших квадратов. Как установлено выше, эта оценка является состоятельной и несмещенной, однако 2 1 T стандартная оценка ее матрицы ковариаций K ( A) ˆ X X смещена и несостоятельна. Отметим, что компьютерные пакеты при оценивании коэффициентов регрессии вычисляют стандартные ошибки коэффициентов регрессии именно по этой формуле. Можно ли сделать поправку на гетероскедастичность и «улучшить» оценку матрицы ковариаций? Положительный ответ дают приводимые ниже два способа оценивания. Стандартные ошибки в форме Уайта. Предположим, что матрица ковариаций вектора ошибок Aˆ XT X A 1 диагональна, K ( ) diag ( 2 2 1 , , T ) . поскольку X T , то K ( Aˆ ) M X T X 1 XT T 1 X XT X T T XT X T Рассмотрим матрицу X K ( ) X . Имеем X K ( ) X ij xTs , s Тогда 1 T 1 T xis s 1 X T K( )X XT X 1 . 2 s x js . Обозначим через 1,, T , 1 m векторы-строки матрицы регрессоров X. Тогда T X T K( )X 2 s xs s 1 xTs . Уайт (White, 1980) показал, что K ( Aˆ ) T X T X 1 1 T T es2 xs xTs 1 XT X (9.3) s 1 является состоятельной оценкой матрицы ковариаций оценок коэффициентов регрессии. Стандартные отклонения, рассчитанные по формуле (9.3), называются стандартными ошибками в форме Уайта (White standard errors) или состоятельными стандартными ошибками при наличии гетероскедастичности (Heteroscedasticity Consistent standard errors, HC s. e.). Стандартные ошибки в форме Ньюи-Веста. Для более сложного случая, когда в 2 1 T матрице ковариаций ошибок K ( A) ˆ X X ненулевые элементы стоят не только на главной диагонали, но и на соседних диагоналях, отстоящих от главной не более чем на L (т.е. ij , | i j | L ), Ньюи и Вест (Newey, West, 1987) показали, что оценка K ( Aˆ ) T X T X 1 1 T T es2 xs xTs s 1 1 T L T j 1s j 1 j et et j ( xt xtT j xt j xtT ) XT X (9.4) является состоятельной оценкой матрицы ковариаций оценок коэффициентов регрессии. Существует несколько способов выбора весовых коэффициентов j . 3 1 1. Наиболее простым кажется взять 1 . Однако при таком выборе матрица j (9.4) может оказаться не неотрицательно определенной. 2. j 1 j L 1 1 6 3. - (Бартлетт). j 2 6 L 1 j 21 j L 1 j L 1 3 , 1 L 1 , 2 j 2 , L 1 2 j - (Парзен). L. В большинстве случаев использование весов Парзена предпочтительнее. Стандартные отклонения, рассчитанные по формуле (9.4), называются стандартными ошибками в форме Ньюи-Веста (Newey- West standard errors) или стандартными ошибками с учетом гетероскедастичности и автокорреляции (Heteroscedasticity and Autocorrelation Consistent standard errors, НАС s. e.). Тесты на гетероскедастичность Опишем несколько общеупотребительных статистических тестов на гетероскедастичность, не проводя их детального исследования. Как правило, из определения тестов будет ясно, какова их значимость. Проблему мощности тестов мы рассматривать не будем. Во всех этих тестах проверяется основная гипотеза H0 : 2 1 2 2 2 T против альтернативной гипотезы H1 : не H 0 . Большинство тестов ориентированы на те или иные ситуации, когда относительно характера гетероскедастичности есть априорные структурные ограничения. Исключение составляет тест Уайта. Тест Уайта (White). Содержательный смысл этого теста состоит в следующем. Если в модели присутствует гетероскедастичность, то очень часто это связано с тем, что дисперсии ошибок некоторым образом (возможно, довольно сложно) зависят от регрессоров, а гетероскедастичность должна как-то отражаться в остатках обычной регрессии исходной модели. Реализуя эти идеи, Уайт (White, 1980) предложил метод тестирования гипотезы H 0 без каких-либо предположений относительно структуры гетероскедастичности. Сначала к исходной модели (9.1) применяется обычный метод наименьших квадратов и находятся остатки регрессии et , t 1, , T . Затем 2 осуществляется регрессия квадратов этих остатков et на все регрессоры X, их квадраты, попарные произведения и константу, если ее не было в составе исходных регрессоров. 2 Тогда при гипотезе H 0 величина T R асимптотически имеет распределение 2 ( N 1) , 2 где R — коэффициент детерминации, а, N — число регрессоров второй регрессии. Привлекательной чертой теста Уайта является его универсальность. Однако если гипотеза H 0 отвергается, этот тест не дает указания на функциональную форму гетероскедастичности, и единственным способом коррекции на гетероскедастичность является применение стандартных ошибок в форме Уайта. Тест Голдфелда-Kyandma (Goldfeld-Quandt). Этот тест применяется, как правило, когда есть предположение о прямой зависимости дисперсии ошибки от величины некоторой независимой переменной. Кратко тест можно описать следующим образом: 1) упорядочить данные по убыванию той независимой переменной, относительно которой есть подозрение на гетероскедастичность; 4 2) исключить d средних (в этом упорядочении) наблюдений ( d должно быть примерно равно четверти общего количества наблюдений); 3) провести две независимые регрессии первых T / 2 d / 2 наблюдений и последних T / 2 d / 2 наблюдений и построить соответствующие остатки e1 и e2 ; e1T e1 4) составить статистику F . Если верна гипотеза H 0 , то F имеет e2T e2 распределение Фишера с (T / 2 d / 2 m, T / 2 d / 2 m) степенями свободы (числитель и знаменатель в выражении для F следует разделить на соответствующее число степеней свободы, но в данном случае они одинаковы). Большая величина этой статистики означает, что гипотезу H 0 следует отвергнуть. Количество исключаемых наблюдений не должно быть ни слишком мало, ни слишком велико. Формально тест работает и без исключения наблюдений, но, как показывает опыт, при этом его мощность уменьшается. Аналогично этот тест используется, если есть предположение о межгрупповой гетероскедастичности, когда дисперсия ошибки принимает, например, только два возможных значения. Тест Бреуша-Пагана (Breusch-Pagan). Этот тест применяется в тех случаях, когда 2 t зависят от некоторых дополнительных априорно предполагается, что дисперсии переменных: 2 t где zt 0, 0 ztT ( z1t ,, z pt )T - вектор (наблюдаемых) независимых переменных, ( 1 , , T p) - неизвестные параметры. В соответствии с тестом Бреуша-Пагана следует действовать так: 1) провести обычную регрессию (9.1) и получить вектор остатков e 2 2) построить оценку ˆ 3) провести регрессию et2 ˆ2 (e1,, eT )T ; (1 / T ) et2 ; ztT 0 t и найти для нее объясненную часть вариации RSS; 4) построить статистику RSS/2. В работе (Breusch, Pagan, 1979) установлено, что если верна гипотеза H 0 (отсутствие гетероскедастичности), то величина RSS/2 2 асимптотически имеет распределение ( p) . При выявлении гетероскедастичности с помощью этого теста можно попытаться осуществить коррекцию с помощью метода взвешенных наименьших квадратов, выбирая в качестве весов величины ( ˆ 0 ztT ˆ ) 1/ 2 , где ˆ 0 , ˆ оценки, полученные в п. 3) 5