Регрессионные модели. Метод наименьших квадратов Двумерные выборки До сих пор мы рассматривали одномерные выборки, но выборка может быть и многомерной. Сначала мы будем рассматривать двумерные выборки. Выборка объёма n из двумерной генеральной совокупности – это набор из n упорядоченных пар (xi, yi), i=1, 2, …., n. Обычно выборку представляют в табличной форме, как правило, используют три строки или столбца: номер опыта, значения xi и значения yi (см. таблицу 1): Таблица 1. Табличное представление выборки номер выборки xi yi 1 2 3 i n x1 yi x2 yi x3 yi xi yi xn yn или x1 yi xi yi x2 yi x3 yi xi yi xn yn Рассмотрим несколько примеров. Пример 1. Результаты тестирования (баллы) 10 студентов. Первый тест проверяет память x, второй – способность к логическому мышлению y. номер выборки память, xi логика, yi 1 2 3 4 5 6 7 8 9 10 5 7 8 9 7 6 10 9 4 6 7 7 9 10 6 7 8 6 6 8 Пример 2. На химическом производстве в ходе пяти рабочих смен получены следующие данные о зависимости выхода продуктов ξ2 (кг/час) от температуры ξ1 (0С): № xi,(0C) yi, (кг/час) № xi,(0C) yi, (кг/час) 1 51 52,7 10 28 5,3 2 32 15,2 11 35 20,7 3 80 89,5 12 40 21,7 4 73 94,8 13 29 9,2 5 64 76 14 53 55,4 6 45 39,3 15 58 64,3 7 83 114,8 16 65 79,1 8 9 44 93 36,5 137,4 17 75 101 Пример 3.Генеральная совокупность – это множество студентов, например, ТПУ. Случайная величина ξ1 – рост студентов; ξ2 – вес студентов. В табличном виде выборка (объём выборки n=25) выглядит так: рост, xi, вес, yi 185 77 xi yi xi yi 173 82 185 76 170 183 183 163 188 185 165 185 66 75 77 68 82 74 61 77 180 178 183 188 193 183 175 183 84 100 84 84 70 79 77 70 175 165 178 188 178 83 66 67 95 63 В этом примере данные выборки представлены без нумерации номера выборки и записаны по столбцам, а в примерах выше по строкам. Пример 4. Таблица. Результаты подбрасывания двух кубиков: номер подбра1 2 3 4 5 сывания число очков, выпавшие на 4 6 5 1 1 1-м кубике, xi число очков, выпавшие на 5 1 2 3 6 2-м кубике, yi 6 7 8 9 10 5 1 5 6 6 1 1 6 2 6 Пример 4. Одной из важнейших задач статистики является изучение изменений анализируемых показателей во времени, то есть их динамика. Эта задача решается при помощи анализа рядов динамики (временных рядов). Ряды динамики, как правило, представляют в виде таблицы (см. табл. 4) или графически (см. рис. Error! Reference source not found.), причем по оси абсцисс строится шкала времени t, а по оси ординат – шкала уровней ряда y. Таблица. Внешнеторговый оборот России за период 2000-2007 гг. Год, xi 2000 2001 2002 2003 2004 2005 2006 2007 Млрд. долл. США, yi 149,9 155,6 168,3 212,0 280,6 368,9 468,4 552,2 Пример 5. Задача взята из книги А.П. Матялис стр. 10 xi -0,667 -0,36 0,067 0,307 0,627 0,987 1,293 yi 2,6 2,01 1,34 1,08 0,94 1,06 1,25 Числовые характеристики двумерных выборок Для исследования двумерных выборок, так же как и для одномерных выборок используют числовые характеристики. Вычисляют выборочное среднее, дисперсию и среднеквадратичное отклонение для каждой выборки отдельно. Определим эти характеристики с использованием MS Excel. Имя выборки среднее рост вес 179,6667 76,54167 дисперсия отклонение 63,18841 90,08514 7,9491135 9,4913195 Как видно из таблицы средний рост студентов равен 179,9 см., а вес – 76,5 кг. Отклонение от среднего: для роста это 7,9 см., а для веса – 9,5 кг. Из таблицы видно (это следует и из жизненного опыта), что с увеличение роста увеличивается величина веса, но здесь отсутствует функциональная зависимость: чем больше рост, тем больше вес, но всё-таки наблюдается тенденция: чем выше рост, тем больше вес. Поэтому в статистике рассматривают так называемую статистическую зависимость. Условным средним 𝑦̅𝑥 называется среднее арифметическое значение случайной величины Y при X=x. Если каждому значению x соответствует одно значение условного среднего 𝑦̅𝑥 , то зависимость условного среднего от x является функциональной; в этом случае говорят о корреляционной зависимости случайной величины Y от случайной величины X. Уравнение 𝑦̅𝑥 =f(x) называется уравнением регрессии Y на X. Функция f(x) называется регрессией Y на X, а её график – линией регрессии Y на X. В качестве количественной оценки тесноты корреляционной связи между двумя случайными величинами используют коэффициент корреляции. Вычислим коэффициент корреляции rxy между ростом и весом. Используем MS Excel. Для нахождения коэффициента корреляции rxy используют функцию КОРРЕЛ(), которая находится в разделе "Формулы статистические". В итоге имеем rxy=0,42087. Графическое представление двумерных выборок – диаграммы рассеяния Графическое представление одномерной выборки – это гистограммы, полигон и эмпирическая функция распределения (функция накопленных частот, кумулятивная функция). Двумерные выборки удобно представлять с помощью диаграмм рассеяния (корреляционное поле, корреляционное облако). Каждый элемент двумерной выборки представляется точкой на плоскости с координатами (xi, yi), i=1, 2, …., n. Построим диаграммы рассеяния для наших примеров. Отметим, что при построении диаграммы рассеяния требуется сделать сортировку по величине x (по той величине, значения которой наносятся ось абсцисс). Диаграмма рассеяния 11 10 9 8 7 6 5 4 3 2 1 0 4 5 6 6 7 7 8 8 9 10 Рис. 1. Диаграмма рассеяния для примера 1 Диаграмма рассеяния y 6 5 4 3 2 1 0 0 1 2 3 4 5 6 x Рис. 2. Диаграмма рассеяния для примера с кубиками 600 2500 500 2000 400 1500 1000 300 500 468.4 200 368.9 280.6 212 168.3 155.6 149.9 0 100 2000 1 2001 2 2002 3 4 2003 5 2004 6 2005 7 2006 2007 Рис. 3. Внешнеторговый оборот России за период 2000-2007 гг. Диаграмма рассеяния y 3 2.5 2 1.5 1 0.5 0 -1 -0.5 0 0.5 1 1.5 x Рис. Диаграмма рассеяния Диаграмма рассеяния y 3 2.5 y = 0,8743x2 - 1,2459x + 1,4061 R² = 0,9977 2 1.5 1 0.5 0 -1 -0.5 0 0.5 1 1.5 x Рис. Диаграмма рассеяния и линия регрессии Основы корреляционного и регрессионного анализа Задача восстановления зависимостей по эмпирическим данным была и, вероятно, всегда будет центральной в прикладном анализе. Эта задача является математической интерпретацией одной из основных естествознания: как найти существующую закономерность по разрозненным данным. При изучении проблемы восстановления функциональных зависимостей по существу приходят к следующему классическому принципу восстановления функциональных зависимостей по эмпирическим данным. Следует из допустимого множества функций выбрать такую функцию, которая наилучшим образом приближается к совокупности имеющихся эмпирических данных. Следовательно, задача для своей корректной постановки требует априорной информации – указать множество функций, которому априори принадлежит функция y(x). Наиболее простым случаем является случай параметрического задания – y(x)=yθ(x, θ). Здесь yθ известная функция, а параметр θ неизвестен и определяется по значениям yi. Функцию yθ(x,θ) часто называют регрессионной моделью. Для подбора параметра θ необходимы сведения о распределении ошибки. Более сложным считается случай, когда функция y(x) неизвестна и обладает свойством гладкости. В этом случае пытаются подобрать удобный параметрический класс (например, многочленов или сплайн-функций). В этом случае мы имеем дело с ошибками двух сортов: систематической ошибкой (ошибкой модели) и случайной ошибкой (ошибкой определения параметров модели). Этот принцип является достаточно общим. Он составляет свободу в толковании того, что является мерой качества приближения функции к совокупности эмпирических данных. Существуют различные определения меры: среднеквадратичное уклонение, величина наибольшего отклонения, величина среднего отклонения и т.д. Различают два вида восстановления зависимостей по эмпирическим данным: интерполирование; аппроксимация. Целью любого исследования, осуществляемого в настоящее время, является использование его результатов в будущем, или, иначе говоря, прогнозирование состояния изучаемого явления. Примерами такого прогнозирования заполнены учебники всех естественнонаучных и экономических дисциплин. При этом, желая изучать явление во взаимосвязи с другими явлениями или величинами, приходится выделять некоторые из них, влияющие на изучаемое, оценивать степень и "качество" влияния, то есть характер связи между изучаемым (основным в данном исследовании) и влияющими на него величинами качественного или количественного характера. В дальнейшем мы "основную", изучаемую, величину будем называть зависимой переменной и обозначать литерой y, прочие, влияющие на у, величины будем называть независимыми переменными и обозначать литерами x1, x2, …, xk. Как у, так и x1, x2, …, xk, будем считать числовыми. Различают два вида связей. 1. Если значение зависимой переменной становится известным, как только известны значения независимых переменных, говорят о связи динамической или функциональной, поскольку в этом случае существует закон, по которому вычисляется у в зависимости от x1, x2, …, xk. В математике функциональную зависимость записывают в следующее виде у=f(x1, x2, …, xk). Примеры таких связей: закон свободного падения тела; закон Ома; закон БойляМариотта; связь между стоимостью единицы товара и ценой, уплаченной за партию его; зависимость производительности труда и затрат рабочего времени. 2. Иначе обстоит дело, когда по значениям независимых величин можно установить лишь некоторую "среднюю" тенденцию в значениях зависимой переменной. Так, например, общепонятно, что между ростом человека и его весом существует зависимость, созданы таблицы такой зависимости, учитывающие еще и пол, и возраст, однако пользоваться ими можно лишь, опять же, "в среднем". Подобного рода связи называют корреляционными1, а задачей установления математической формы корреляция [лат. correlatio] – 1) соотношение, взаимосвязь предметов, явлений или понятий; 2) в математической статистике – понятие, которым отмечают связь между явлениями, если одно из них входит в число причин, определяющих другие, или имеются общие причины, воздействующие на эти явления (функция является частным случаем корреляции); корреляция может быть более или менее тесной (т.е. зависимость 1 корреляционной связи занимается регрессионный анализ. Зависимая переменная у при этом рассматривается как случайная величина, а независимые переменные можно прямо или косвенно контролировать. Корреляционный анализ изучает совместное распределение всех измеряемых переменных с анализом точности оценивания одних величин через другие. В отличие от функциональной связи в регрессионном анализе речь идет об установлении функции регрессии M(y/x1, x2, …, xk)=f(x1, x2, …, xk), где символ M( / ) обозначает математическое ожидание случайной величины у при заданных значениях независимых переменных x. Здесь важно заметить следующее. В то время как независимые переменные x1, x2, …, xk контролируемы, управляемы, а у является случайной величиной, то по данным эксперимента, в котором x1, x2, …, xk приняли вполне конкретные значения, можно судить лишь об оценке параметра, связанного с распределением у, оценок же, как мы уже знаем, можно построить много. С точки зрения дальнейших применений желательно иметь оценку как можно более простого вида и которая удовлетворяла бы некоторому критерию оптимальности (подобному несмещенности, например, для оценок параметров). Из всех элементарных функций (исключая константу) наиболее простой является линейная. Этот случай мы и изучим в дальнейшем детально как наиболее прозрачный с точки зрения идейной и в то же время дающий возможность для дальнейших обобщений. В свою очередь второй вид связи можно разбить на два случая: 1. У, x1, x2, …, xk являются случайными величинами; 2. у – случайная величина, а x1, x2, …, xk детерминированы. Выше было сказано, что задача, связанная с подбором математического выражения, описывающего связь между экспериментальными данными, называется аппроксимацией. Само математическое выражение называют уравнением регрессии (регрессией), а соответствующую кривую – линией регрессии, такой эксперимент относят к числу так называемых регрессионных. Чтобы подобрать наилучшую в некотором смысле регрессию, сперва необходимо установить критерий, с помощью которого определить, что такое "наилучшая" регрессия. Одним из широко применяемых на практике критериев оптимальности регрессии является критерий минимума суммы квадратов отклонений линии регрессии от экспериментальных данных. Его применение позволяет при определении линии регрессии использовать хорошо разработанный метод наименьших квадратов, обеспечивающий построение линии регрессии, характеризуемой минимальным средним квадратом её отклонения от результатов эксперимента. После определения критерия оптимальности регрессии следует перейти к выбору типа уравнения регрессии. Тип уравнения в значительной мере зависит от вида экспериментальных данных, однако наиболее часто используется полином вида Y=b0+b1x+b2x2+… bkxk. одной величины от другой – более или менее ясно выражено); число, показывающее степень тесноты корреляции, называется коэффициентом корреляции (это число заключено между -1 и 1). Можно построить кривую, описываемую полиномом (n-1) степени и проходящую через все n точек, однако такой способ обычно не используется, поскольку не приводит к сглаживанию кривой, хотя график этого полинома будет проходить через все заданные точки, и сумма квадратов отклонений будет равна 0. Поскольку результаты измерений, как правило, случайны, предпочтительно аппроксимировать их средние значения. Поэтому обычно для аппроксимации используют полиномы первой и второй степени. Линейная регрессия Опишем вначале математическую постановку задачи, считая, что изучается одна зависимая переменная у в присутствии одной независимой переменной х (так называемая задача парной регрессии). Пусть зависимость между х и у имеет вид y=b0+b1x+ε, где b0, b1 – постоянные коэффициенты, называемые параметрами модели, -случайная величина с математическим ожиданием равным 0 и дисперсией равной 2. В этом случае уравнение регрессии превращается в уравнение прямой 𝑦̅ = M(y/x)=b0+b1x. Предположим, что независимой переменной придали значения x1,x2,…,xk, в результате чего зависимая переменная приняла значения y1, y2, …, yn. В предположении линейной зависимости получаем n равенств yi=b0+b1xi+εi, i=1,2, …, n, где εi – независимы и распределены так же, как . Требуется по значениям пар (xi, yi) оценить неизвестные b0, b1. Как мы уже знаем, каждая задача оценивания связана с некоторым критерием качества. В излагаемой нами теории таким критерием является критерий наименьших квадратов: Q(b0, b1)= ∑𝑛𝑖=1 𝜀 2 → min. Запишем эту сумму иначе, так, чтобы была видна зависимость от b0, b1: ∑𝑛𝑖=1 𝜀𝑖2 = ∑𝑛𝑖=1[𝑦̅(𝑥𝑖 ) − 𝑦𝑖 ]2 = ∑𝑛𝑖=1(𝑏0 + 𝑏1 𝑥𝑖 −𝑦𝑖 )2 . Теперь окончательно приходим к следующей задаче: отыскать такие значения неизвестных параметров b0, b1, чтобы функция 𝑄(𝑏0 , 𝑏1 ) = ∑𝑛𝑖=1(𝑏0 + 𝑏1 𝑥𝑖 −𝑦𝑖 )2 . приняла наименьшее значение. Метод решения этой задачи известен из курса высшей математики. Находим частные производные функции Q и приравниваем их к нулю, в результате чего приходим к системе линейных уравнений 𝑛 𝜕𝑄 = 2 ∑ (𝑏0 + 𝑏1 𝑥𝑖 −𝑦𝑖 ) = 0 𝜕𝑏0 𝑖=1 𝑛 𝜕𝑄 = 2 ∑ (𝑏0 + 𝑏1 𝑥𝑖 −𝑦𝑖 )𝑥𝑖 = 0. {𝜕𝑏1 𝑖=1 После очевидных преобразований получаем систему 𝑛 𝑛𝑏0 + 𝑏1 ∑ 𝑛 { 𝑏0 ∑ 𝑖=1 𝑛 𝑥𝑖 = ∑ 𝑖=1 𝑛 𝑥𝑖 + 𝑏1 ∑ 𝑖=1 𝑦𝑖 𝑖=1 𝑛 𝑥𝑖2 + ∑ 𝑥𝑖 𝑦𝑖 𝑖=1 Оценки параметров линейной регрессии имеют вид: 𝑄𝑥𝑦 𝑏̂1 = , 𝑏̂ = 𝑦̅ − 𝑏̂1 𝑥̅ 𝑄𝑥 0 1 1 где 𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 , 𝑦̅ = 𝑛 ∑𝑛𝑖=1 𝑦𝑖 , Qxy=∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅), Qx=∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 . то оценка функции регрессии примет вид 𝑦̂ = 𝑏̂0 + 𝑏̂1 𝑥=𝑦̅ + 𝑏̂1 (𝑥 − 𝑥̅ ). Пример 1. Агент по продаже домов изучает зависимость между ценой дома у (в $ 1000) и общей его площадью х (в сотнях квадратных футов). С этой целью он произвел выборку из 15 домов и зафиксировал такие результаты: Таблица 1 Номер Номер xi yi xi yi опыта опыта 20,0 89,5 24,3 119,9 1 9 14,8 79,9 20,2 87,6 2 10 20,5 83,1 22,0 112,6 3 11 12,5 56,9 19,0 12,8 4 12 18.0 66,6 12,3 78,5 5 13 14,3 82,5 14,0 74,3 6 14 27,5 126,3 16,7 74,8 7 15 16.5 79,3 8 Нанеся пары (xi, yi) на координатную плоскость, он получает так называемое корреляционное облако(корреляционное поле или диаграмма рассеяния), вид которого позволяет предположить, что линейная зависимость между переменными не лишена оснований. Приняв эту гипотезу, вычисляем затем по полученным выше формулам оценки 𝑏̂1 =3.88; 𝑏̂0 = 𝑦̅ − 𝑏̂1 𝑥̅ =18,354. Теперь уравнение регрессии имеет вид 𝑦̂ = 18.354 + 3.88𝑥. Её график нанесем на корреляционное поле (рис. 2) Литература