Лекция 7 Многомерный регрессионный анализ Многомерный регрессионный анализ был разработан для прогнозирования экономической активности в различных отраслях экономики (денежные потоки, уровни доходов, банковские ставки, уровень рождаемости, безработицы и т.д.) полезен для прогнозов будущих тенденций и для оценки и корректировки текущей стратегии (оценки настоящего) Многомерная регрессия Для прогноза зависимой переменной используется более одной независимой переменной Признаки хорошей независимой переменной: связанна с зависимой переменной не имеет тесной связи с любой другой независимой переменной Мультиколлинеарность Многомерная регрессия Зависимая переменная – объем продаж молока Независимые переменные: цена за 1 л, расходы на рекламу Многомерная регрессия Корреляционная матрица составляется из коэффициентов корреляции, вычисленных для каждой возможной пары переменных Переменные 1 2 3 r12 = r21 и т. д. r11 = r22 = r33 = 1 1 r11 r21 r31 2 r12 r22 r32 3 r13 r23 r33 Многомерная регрессия Неделя 1 2 3 4 5 6 7 8 9 10 Кол-во молока (тыс. л) 16 20 15 10 12 11 10 5 5 6 1,2 Цена 1 л (руб.) 16 17 18 20 21 23 24 25 26 30 Реклама (руб.) 52 500 73 500 42 000 31 500 35 000 49 000 52 500 17 500 21 000 24 500 1 0,8 0,6 0,4 0,2 0 0 10 25 20 15 10 5 0 0 50 20 30 40 Корреляционная матрица Переменные Продажа Цена Реклама 1 2 3 Продажа 1 1.00 Цена 2 -0.88 1.00 Реклама 3 0.89 -0.67 1.00 Многомерная регрессионная модель Математическое ожидание зависимой величины является линейной функцией всех объясняющих ее переменных Y 0 1 X1 2 X 2 ... k X k Многомерная регрессионная функция генеральной совокупности Многомерная регрессионная модель Статистическая модель многомерной регрессии Y 0 1 X1 2 X 2 ... k X k Метод наименьших квадратов Многомерная регрессионная модель Пример с молоком ^ Y 17.71 0.58 X 1 0.00015 X 2 Интерпретация коэффициентов регрессии b0 – свободный член ^ (значение Y при Х1 и Х2, равных нулю) b1 и b2 – частные или чистые коэффициенты регрессии ^ (среднее изменение Y при единичном изменении соответствующей независимой переменной и постоянных значениях других независимых переменных) Статистический анализ модели многомерной регрессии вычисления проводятся на компьютере SST (Y Y ) ^ SSE (Y Y ) ^ 2 2 SSR ( Y Y ) 2 Статистический анализ модели многомерной регрессии SST df: n-1 = SSR + SSE = k + n-k-1 Стандартная ошибка оценки Стандартная ошибка оценки измеряет отклонение ^ имеющихся данных (Y) от их оценок (Y ) ^ s y* x ' s (Y Y ) 2 SSE MSE n k 1 n k 1 Стандартная ошибка оценки Пример с молоком: • 2 независимые переменные: цена за 1 л и расходы на рекламу стандартная ошибка оценки = 1.42 • 1 независимая переменная: цена 1 л стандартная ошибка оценки = 2.5 Вывод: использование многомерной регрессии позволяет сделать более точный прогноз Значимость регрессии Источник Регрессия Ошибки Общая Сумма квадратов SSR SSE SST Степени свободы k n-k-1 n-1 Среднеквадратичное Отношение F значение MSR=SSR/k F=MSR/MSE MSE=SSE/(n-k-1) Значимость регрессии Гипотезы: H 0 : 1 2 ... k H1 : хоть один j 0 MSR F MSE df=k, n-k-1 H 0 отклоняется, если F F Значимость регрессии Коэффициент детерминации ^ SSR 2 R SST 2 ( Y Y ) 2 ( Y Y ) Многомерный коэффициент корреляции (характеризует корреляцию между зависимой переменной и прогнозом) R R2 Для многомерной регрессии 2 R n k 1 F ( ) 2 1 R k Значимость регрессии Пример с молоком Две независимые переменные SST=SSR+SSE 222=207.86+14.14 R2=0.94 Одна независимая переменная SST=SSR+SSE 222=172.023+49.977 R2=0.77 Отдельные независимые переменные H0 : j 0 Проверочная статистика t t bj sb j df = n-k-1 Прогнозирование будущих значений зависимой переменной Границы интервала прогноза величины Y: ^ Y t / 2 s y x 's Анализ остатков Рычаг – мера влияния i-й точки данных на положение функции регрессии ( X i X )2 1 hii n ( X i X )2 Стандартизированный остаток ei ei sei s y x 's 1 hii Анализ остатков Метки (большие стандартизированные остатки) ei 2 se i Предостережения при прогнозировании • прогнозирование вне допустимого множества • небольшой объем выборки • большое количество независимых переменных • в идеале – 10 наблюдений на одну независимую переменную • вычисление функции регрессии для одной части данных и проверка ее на оставшихся данных • при уровне значимости 0,05 отношение F было хотя бы в 4 раза больше соответствующего критического значения Фиктивные переменные Работник 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Оценка производительности Y 5 4 3 10 2 7 6 9 9 2 8 6 7 3 6 Данные теста способностей Х1 60 55 35 96 35 81 65 85 99 43 98 91 95 70 85 Пол Х2 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 Ж Ж Ж Ж Ж Ж Ж Ж М М М М М М М Фиктивные переменные Фиктивные, или индикаторные, переменные используются для определения взаимосвязи между качественными независимыми переменными и зависимой переменной Фиктивные переменные Фиктивные переменные Фиктивные переменные ^ Y 1.96 0.12 X 1 2.18 X 2 0 для женщин Х2 = (фиктивная переменная) 1 для мужчин ^ Y 1.96 0.12 X 1 для женщин ^ Y 4.14 0.12 X 1 для мужчин Применение в менеджменте Маркетинг – вывод нового товара на рынок Агрономы – урожайность Медики – давление крови Менеджеры по персоналу – уровень заработной платы Менеджеры по рекламе – изменение мнения покупателей Руководство компаний – месторасположение розничных магазинов Многомерный регрессионный анализ Мультиколлинеарность Выбор «наилучшего» уравнения регрессии Анализ всех возможных регрессий Пошаговая регрессия Мультиколлинеарность Стоимость дома Год строительства Жилая площадь Кол-во комнат Кол-во продаваемых домов Неточная линейная зависимость – неустойчивость полученных оценок Рассчитанные величины больше ожидаемых Неверный знак отдельных коэффициентов Значимость регрессии по F-тесту при незначимых t-статистиках отдельных коэффициентов Мультиколлинеарность Мультиколлинеарность –линейная зависимость между двумя или более независимыми переменными Степень мультиколлениарности определяется фактором роста дисперсии VIF j 1 , j 1,2,..., k 2 1 Rj R 2j - коэффициент детерминации из регрессии j-й независимой переменной по оставшимся (к-1) независимым переменным VIF близко к 1 – нет проблемы мультиколлинеарности больше 1- оценка коэффициента при этой независимой переменной неустойчива Мультиколлинеарность Стоимость выпуска газеты: тираж, кол-во семей, объем продаж Мультиколлинеарность Мультиколлинеарность При наличии в модели мультиколлинеарности для оценки эффекта одной отдельно взятой независимой переменной можно: 1. Использовать метод, отличный от метода наименьших квадратов 2. Найти и удалить из набора данных одну или более избыточных независимых переменных 3. Представить зависимую переменную Y как линейную комбинацию некоррелирующих между собой независимых переменных Х 4. Тщательно отобрать независимые переменные в начале исследования 5. Создать новые переменные Х посредством масштабирования (нулевое среднее значение и одно и то же выборочное среднеквадратичное отклонение) ~ X ij X ij X j 2 ( X X ) j ij , j 1,2,..., k , i 1,2,..., n Выбор «наилучшего» уравнения регрессии 1. 2. 3. Определение набора возможных независимых переменных Отбор переменных, неадекватных для данному случаю (например, при значительных ошибках измерения; недоступности данных; высокой их стоимости) Сокращение списка независимых переменных (нет «наилучшего» набора переменных, процесс отбора субъективен) Выбор «наилучшего» уравнения регрессии Выбор «наилучшего» уравнения регрессии Выбор «наилучшего» уравнения регрессии 1 шаг – изучение корреляционной матрицы 2 шаг – анализ всех возможных регрессий или пошаговая регрессия Анализ всех возможных регрессий 1этап – все возможные уравнения регрессии ( ) 2 этап – разделение уравнений на множества (по количеству оцениваемых параметров) Анализ всех возможных регрессий Анализ всех возможных регрессий Анализ всех возможных регрессий 3 этап – выбор наилучшей независимой переменной (или переменных) из каждой группы с определенным числом параметров Анализ всех возможных регрессий 4 этап – выбор наилучшего уравнения Желательно иметь наибольшее из возможных значений показателя детерминации, НО максимально простое уравнение регрессии Это уравнение объясняет 89,48% вариации переменной Y Пошаговая регрессия Процедура пошаговой регрессии предусматривает добавление в уравнение отдельных независимых переменных, по одной переменной на каждом этапе 1. Рассматриваются все возможные простые регрессии (наибольшая корреляция с зависимой переменной) 2. Следующая вводимая переменная должна привносить наибольший вклад в регрессионную сумму квадратов (F для включения) 3. Проверка уравнения (проверка на значимость независимой переменной на уровне 5%) , F=4 – критерий для включения или исключения 4. Этапы 2 и 3 повторяются, пока все возможные добавления не окажутся незначимыми, а все возможные удаления – значимыми Результат пошаговой регрессии – регрессионная модель, содержащая только независимые переменные с величинами t, значимыми на указанном уровне Пошаговая регрессия Пример Первая переменная – возраст Вторая переменная – результат теста способностей Тест на тревожность не имеет тесной связи с объемом продаж Потенциально хорошие переменные опыта работы и среднего балла совместно с переменной возраста создают проблему мильтиколлинеарности Упражнения 1. Что измеряет в многомерной регрессии частный или чистый коэффициент? 2. Пусть уравнение регрессии имеет вид: ^ Y 7.52 3 X 1 12.2 X 2 Спрогнозируйте значение У при Х1=20 и Х2=7. Упражнения 3. Объясните каждое из следующих понятий: а) корреляционная матрица б) R2 в) мультиколлинеарность г) остатки д) фиктивная переменная е) пошаговая регрессия