Вопрос №3: Множественная регрессия, мультиколлинеарность, методы её выявления и борьбы с ней. Критерий Фишера для множественной регрессии. Множественная регрессия Суть регрессионного анализа: построение математической модели и определение ее статистической надежности. Вид множественной линейной модели регрессионного анализа: Y = b0 + b1xi1 + ... + bjxij + ... + bkxik + ei где ei - случайные ошибки наблюдения, независимые между собой, имеют нулевую среднюю и дисперсию s. Или в матричной форме: Матричная запись множественной линейной модели регрессионного анализа: Y = Xb + e где Y - случайный вектор - столбец размерности (n x 1) наблюдаемых значений результативного признака (y1, y2,..., yn); X - матрица размерности [n x (k+1)] наблюдаемых значений аргументов; b - вектор - столбец размерности [(k+1) x 1] неизвестных, подлежащих оценке параметров (коэффициентов регрессии) модели; e - случайный вектор - столбец размерности (n x 1) ошибок наблюдений (остатков). На практике рекомендуется, чтобы n превышало k не менее, чем в три раза. Назначение множественной регрессии: анализ связи между несколькими независимыми переменными и зависимой переменной. Мультиколлинеарность Мультиколлинеарность – положение, при котором две или более независимых переменных, входящих в уравнение регрессии, являются сильно коррелированными. При этом коэффициенты регрессии становятся неустойчивыми к малым изменениям в данных. X1 = λX2 XT X Для борьбы с мультиколлинеарностью применяются существуют методы: 1. Регуляризация. Накладываются дополнительные ограничения на норму вектора коэффициентов α. Примером могут служить гребневая регрессия или L1регуляризация) 2. Преобразование признаков. Исходные n признаков с помощью некоторых преобразований переводятся в меньшее число m новых признаков. В частности, линейные преобразования приводят к методу главных компонент. 3. Отбор признаков. Производится явный перебор всевозможных подмножеств признаков. Для линейной регрессии удаётся строить эффективные методы, совмещающие перебор подмножеств с оптимизацией коэффициентов. F - критерий Фишера используют для сравнения дисперсий двух вариационных рядов. В регрессионном анализе критерий Фишера позволяет оценивать значимость линейных регрессионных моделей. В частности, он используется в шаговой регрессии для проверки целесообразности включения или исключения независимых переменных (признаков) в регрессионную модель. Он вычисляется по формуле: , где - большая дисперсия, - меньшая дисперсия. Если вычисленное значение критерия F больше критического для определенного уровня значимости и соответствующих чисел степеней свободы для числителя и знаменателя, то дисперсии считаются различными. Число степеней свободы числителя определяется по формуле: , где - число вариант для большей дисперсии. Число степеней свободы знаменателя определяется по формуле: , где - число вариант для меньшей дисперсии.