Множественная регрессия, мультиколлинеарность, методы её

реклама
Вопрос №3: Множественная регрессия, мультиколлинеарность, методы её
выявления и борьбы с ней. Критерий Фишера для множественной
регрессии.
Множественная регрессия
Суть регрессионного анализа: построение математической модели и определение ее
статистической надежности.
Вид множественной линейной модели регрессионного анализа:
Y = b0 + b1xi1 + ... + bjxij + ... + bkxik + ei
где ei - случайные ошибки наблюдения, независимые между собой, имеют нулевую
среднюю и дисперсию s.
Или в матричной форме:
Матричная запись множественной линейной модели регрессионного анализа:
Y = Xb + e
где Y - случайный вектор - столбец размерности (n x 1) наблюдаемых значений
результативного признака (y1, y2,..., yn);
X - матрица размерности [n x (k+1)] наблюдаемых значений аргументов;
b - вектор - столбец размерности [(k+1) x 1] неизвестных, подлежащих оценке параметров
(коэффициентов регрессии) модели;
e - случайный вектор - столбец размерности (n x 1) ошибок наблюдений (остатков).
На практике рекомендуется, чтобы n превышало k не менее, чем в три раза.
Назначение множественной регрессии: анализ связи между несколькими независимыми
переменными и зависимой переменной.
Мультиколлинеарность
Мультиколлинеарность – положение, при котором две или более независимых
переменных, входящих в уравнение регрессии, являются сильно коррелированными.
При этом коэффициенты регрессии становятся неустойчивыми к малым изменениям в
данных.
X1 = λX2
XT X
Для борьбы с мультиколлинеарностью применяются существуют методы:
1. Регуляризация. Накладываются дополнительные ограничения на норму вектора
коэффициентов α. Примером могут служить гребневая регрессия или L1регуляризация)
2. Преобразование признаков. Исходные n признаков с помощью некоторых
преобразований переводятся в меньшее число m новых признаков. В частности,
линейные преобразования приводят к методу главных компонент.
3. Отбор признаков. Производится явный перебор всевозможных подмножеств
признаков. Для линейной регрессии удаётся строить эффективные методы,
совмещающие перебор подмножеств с оптимизацией коэффициентов.
F - критерий Фишера используют для сравнения дисперсий двух вариационных рядов.
В регрессионном анализе критерий Фишера позволяет оценивать значимость линейных
регрессионных моделей. В частности, он используется в шаговой регрессии для проверки
целесообразности включения или исключения независимых переменных (признаков) в
регрессионную модель.
Он вычисляется по формуле:
,
где
- большая дисперсия,
- меньшая дисперсия.
Если вычисленное значение критерия F больше критического для определенного уровня
значимости и соответствующих чисел степеней свободы для числителя и знаменателя, то
дисперсии считаются различными.
Число степеней свободы числителя определяется по формуле:
,
где
- число вариант для большей дисперсии.
Число степеней свободы знаменателя определяется по формуле:
,
где
- число вариант для меньшей дисперсии.
Скачать