Лекция 6 Линейная регрессия Простая линейная регрессия Неделя 1 2 3 4 5 6 7 8 9 10 Кол-во молока Цена 1 л (руб.) (тыс. л) 10 20 6 30 5 26 11 23 10 24 15 18 5 25 12 21 16 16 20 17 Простая линейная регрессия кол-во молока (тыс. л) Продажа молока 25 20 15 10 5 0 12 17 22 цена за 1 л (руб.) 27 32 Простая линейная регрессия r = -0.88 достаточно тесная обратная взаимосвязь Прогнозирование минимально- максимальный метод линейная регрессия Минимально-максимальный метод низкая точность метода Y = 27.43 - 0.71X 25 20 15 прогноз факт 10 5 0 15 17 19 21 23 25 27 29 31 Простая линейная регрессия Y 0 1 X Генеральная совокупность ^ Y b0 b1 X Выборка Простая линейная регрессия метод наименьших квадратов (наименьшая сумма квадратов ошибок) ^ SSE (Y Y ) (Y b0 b1 X ) 2 Y 0 1 X 2 Простая линейная регрессия b1 n XY X Y n X 2 ( X ) 2 b1 b0 (Y Y ) ( X X ) (Y Y ) (X X ) 2 (X X ) r 2 Y b X 1 n n Y b1 X 2 Простая линейная регрессия кол-во молока (тыс. л) Продажа молока 25 20 15 10 5 0 12 17 22 цена за 1 л (руб.) 27 32 Простая линейная регрессия Математические ожидания возможных значений У на одной прямой при изменении Х Прогнозирование с использованием линейной регрессии Два источника неопределенности: 1. неопределенность, обусловленная отклонением точек данных от выборочной прямой регрессии 2. неопределенность, обусловленная отклонением выборочной прямой регрессии от регрессионной прямой генеральной совокупности Простая линейная регрессия: ошибки Ошибка (ε) – расстояние между значением У и его математическим ожиданием Стандартная ошибка оценки – степень отличия реальных значений Y от оценочных ^ s y* x (Y Y ) 2 n2 Стандартная ошибка прогноза - вариативность около Y для данного значения Х 2 s f s y* x 1 1 (X X ) n 2 ( X X ) Простая линейная регрессия Границы интервала прогноза величины У: ^ Y ts f df = n-2 Для большой выборки - 95%-ный интервал: ^ Y 2s f Простая линейная регрессия 25 20 15 10 5 0 16 -5 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Простая линейная регрессия Предположения, положенные в основу модели линейной регрессии: для заданного значения Х генеральная совокупность значений У имеет нормальное распределение относительно регрессионной прямой совокупности разброс генеральной совокупности точек данных относительно регрессионной прямой совокупности остается постоянным всюду вдоль этой прямой (дисперсия генеральной совокупности не увеличивается и не уменьшается) слагаемые ошибок ε независимы между собой в генеральной совокупности существует линейная зависимость между Х и У Разложение дисперсии наблюдение = прогноз + отклонение ^ ^ Y Y (Y Y ) или Y (b0 b1 X ) (Y b0 b1 X ) наблюдаемое значение Y объясненное линейной зависимостью остаток или отклонение от линейной зависимости Разложение дисперсии ^ ^ (Y Y ) (Y Y ) ( Y Y ) 2 2 SST =(Y n-1 = ^ 2 Y )SSE +(Y YSSR )2 ( Y 2 n–2 + 1 Разложение дисперсии SST 222 = = SSR 172.023 + + SSE 49.977 SSR/SST = 0.775 77.5% объясняется взаимосвязью Х и У Разложение дисперсии Таблица ANOVA для прямолинейной регрессии Источник Сумма квадратов Степени свободы Регрессия Ошибки Общая SSR SSE SST 1 n-2 n-1 ^ MSE SSE n2 2 ( Y Y ) n2 s y2*x Среднеквадратичное значение MSR = SSR/1 MSE = SSE/(n-2) Разложение дисперсии Источник Сумма квадратов Степени свободы Регрессия Ошибки Общая 172.023 49.977 222 1 8 9 SST 222 общая вариация = = SSR 172.023 объясненная вариация Среднеквадратичное значение MSR = 172.023 MSE = 6.247 + + SSE 49.977 необъясненная вариация Коэффициент детерминация 35 b0=32.75 30 регрессионная прямая 25 Yпрогноз.-Yср (объясненное посредством Х) 20 15 Yср=11 10 Y – Yср(всего) 5 0 0 30 Y.-Yпрогноз (необъясненное посредством Х) Коэффициент детерминации Выборочный коэффициент детерминации измеряет долю изменчивости Y, которую можно объяснить с помощью информации об изменчивости (разнице значений) независимой переменной Х ^ объясненна я вариация SSR r2 SST общая вариация ^ (Y Y ) 2 SSE 1 1 SST (Y Y ) 2 (Y Y ) (Y Y ) 2 1 2 необъяснен ная вариация общая вариация Коэффициент детерминации SSR 172.023 r 0.775 SST 222 2 77.5% изменчивости количества продаваемого молока можно объяснить разницей в цене за 1 л Коэффициент детерминации Для прямолинейной регрессии коэффициент детерминации равен квадрату коэффициента корреляции r (r ) 2 2 Коэффициент детерминации Проверка гипотез H 0 : 1 0 Проверка гипотез H 0 : 1 0 Проверочная статистика t b1 t s b1 df = n – 2 sb1 s y* x 2 ( X X ) Проверка гипотез t расч. = - 5.25 t табл. = 2.306 отклонить нулевую гипотезу Проверка гипотез Проверка нулевой гипотезы с помощью таблицы ANOVA среднеквадратичное значение регрессии MSR F MSE среднеквадратичное значение ошибок df = 1, n-2 Область отклонения гипотезы: r (n 2) F 2 1 r 2 F F Проверка гипотез F расч. = 27.54 F табл. = 5.32 отклонить нулевую гипотезу Анализ остатков Предположения, сделанные для модели прямолинейной регрессии Связь между переменными является линейной Ошибки являются независимыми Дисперсии ошибок равны Значения ошибки нормально распределены Анализ остатков Проверка соответствия предполагаемой модели Построить гистограмму значений остатков Расположить остатки по значениям оцениваемых величин Расположить остатки по значениям объясняющих переменных Расположить остатки по времени их появления, если исходные данные хронологически упорядочены Прогноз объемов продаж молока Неделя 1 2 3 4 5 6 7 8 9 10 Кол-во молока Цена 1 л (руб.) (тыс. л) 10 20 6 30 5 26 11 23 10 24 15 18 5 25 12 21 16 16 20 17 Регрессия Регрессионная статистика Множественный R 0,88 R-квадрат 0,77 Нормированный R-квадрат 0,75 Стандартная ошибка 2,50 Наблюдения 10 R 2 adj n 1 1 1 R , n k 1 2 Регрессия Дисперсионный анализ df SS Регрессия 1 172,02 Остаток 8 49,98 Итого 9 222 MS 172,02 6,25 F Значимость F 27,54 0,00 Регрессия tКоэффици Стандартная статис PНижние Верхние енты ошибка тика Значение 95% 95% Y-пересечение 32,75 4,22 7,76 0,00 23,02 42,48 Переменная X 1 -0,99 0,19 -5,25 0,00 -1,42 -0,55 S2 e Sb20 2 i Sb1 n2 S 2 xi2 n ( xi x ) 2 S 2 ( x x ) i Sb0 S 2 b0 Регрессия ВЫВОД ОСТАТКА Наблю Предсказан дение ное Y 1 12,98 2 3,09 3 7,05 4 10,01 5 9,02 6 14,95 7 8,03 8 11,99 9 16,93 10 15,94 Остатки -2,98 2,91 -2,05 0,99 0,98 0,05 -3,03 0,01 -0,93 4,06 Стандартные остатки -1,26 1,23 -0,87 0,42 0,41 0,02 -1,29 0,00 -0,40 1,72