* 1. Уравнение регрессии, его смысл и назначение. 2. Понятие корреляции и её показатели. 3. Корреляция для нелинейной регрессии. -1- * В практике экономических исследований имеющиеся данные не всегда можно считать выборкой из многомерной нормальной совокупности, когда одна из рассматриваемых переменных не всегда является случайной или когда линия регрессии явно не прямая и т.п. * В этих случаях пытаются определить кривую (поверхность), которая даёт наилучшее приближение к исходным данным. * Cоответствующие методы приближения получили название регрессионного анализа. * * * Задачами регрессионного анализа являются установление формы зависимости между переменными, оценка функции регрессии, оценка неизвестных значений (прогноз значений) зависимой переменной. -1- * В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определённое, а множество возможных значений другой переменной. * Иными словами, каждому значению одной переменной соответствует определенное (условное) распределение другой переменной. * Такая зависимость получила название статистической (схоластической, вероятностной). -1- * Если зависимость между двумя переменными такова, что каждому значению одной переменной соответствует определенное математическое ожидание (среднее значение) другой, то такая статистическая зависимость называется корреляционной. * Иначе, корреляционной зависимостью между двумя переменными называется функциональная зависимость между значениями одной из них и условным математическим ожиданием другой. -1- * Корреляционная зависимость может быть представлена в виде: 𝑴𝒙 𝒀 = 𝝋 𝒙 или 𝑴𝒚 𝑿 = 𝝍 𝒚 , где 𝜑 𝑥 ≠ 𝑐𝑜𝑛𝑠𝑡, 𝜓 𝑦 ≠ 𝑐𝑜𝑛𝑠𝑡. * В регрессионном анализе рассматривается односторонняя зависимость случайной переменной Y от одной или нескольких неслучайной независимой переменной Х. * Такая зависимость может возникнуть, когда при каждом фиксированном значении Х соответствующие значения Y подвержены случайному разбросу за счет действия неконтролируемых факторов. -1- * Для точного описания уравнения регрессии необходимо знать условный закон распределения зависимой переменной Y при условии, что Х примет значение х, т.е. Х=х. * Однако, поскольку исследователь располагает лишь выборкой пар значений ограниченного объема, речь может идти об оценке (приближённом значении, аппроксимации) по выборке функции регрессии. * Такой оценкой является выборочная линия (кривая) регрессии: 𝑦 = 𝜑 𝑥, 𝑏0 , 𝑏1 , … 𝑏𝑛 (1.2) где 𝑦 - условная (групповая) средняя переменной Y при фиксированном значении переменной Х, 𝑏0 , 𝑏1 , … 𝑏𝑛 - параметры кривой. -1- * Парная (простая) регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной рассматривается как функция одной независимой (объясняющей) переменной x , т.е. это модель вида: 𝒚𝒙 = 𝒇 (𝒙) * Практически в каждом отдельном случае величина y складывается из двух слагаемых: 𝒚 = 𝒚𝒙 + 𝜺 где y – фактическое значение результативного признака; 𝑦𝑥 – теоретическое значение результативного признака, найденное исходя из уравнения регрессии; 𝜀 – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии. -1- * Случайная величина 𝜺 называется также возмущением. Она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее присутствие в модели порождено тремя источниками: * спецификацией модели, * выборочным характером исходных данных, * особенностями измерения переменных. -1- * В парной регрессии выбор Значения Y вида математической функции 𝑦𝑥 = 𝑓(𝑥) может быть осуществлен тремя методами: 12 10 8 6 Значения Y 4 2 исходя из теории изучаемой взаимосвязи; 0 0 5 10 * 1) графическим; * 2) аналитическим, т.е. 15 * 3) экспериментальным. 𝒚 = −𝟐, 𝟕𝟓 + 𝟏, 𝟎𝟏𝟔𝒙 1 2 3 4 5 6 7 8 9 10 8 11 12 9 8 8 9 9 8 12 5 10 10 7 5 6 6 5 6 8 -1- * В практических исследованиях, как правило, имеет место некоторое рассеяние точек относительно линии регрессии. Оно обусловлено влиянием прочих, не учитываемых в уравнении регрессии, факторов. Иными словами, имеют место отклонения фактических данных от теоретических 𝒚 − 𝒚𝒙 . * Величина этих отклонений и лежит в основе расчета остаточной дисперсии: 𝝈𝟐ост = 𝟏 𝒏 (𝒚 − 𝒚𝒙 )2 * Чем меньше величина остаточной дисперсии, тем меньше влияние не учитываемых в уравнении регрессии факторов и тем лучше уравнение регрессии подходит к исходным данным. -1- * Построение линейной регрессии y y x ε y i 0 i сводится к оценке ее параметров – a и b. Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК). * Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. * МНК позволяет получить такие оценки параметров a и b, при которых сумма x квадратов отклонений фактических значений результативного признака y от теоретических 𝑦𝑥 минимальна: 𝒏 𝒏 𝜺𝟐𝒊 → 𝒎𝒊𝒏 (𝒚𝒊 − 𝒚𝒙𝒊 )𝟐 = 𝒊=𝟏 𝒊=𝟏 -1- * Для расчёта параметров a и b можно воспользоваться следующими готовыми формулами, которые следуют непосредственно из решения системы: 𝒂= 𝒚 − 𝒃𝒙 𝒄𝒐𝒗 (𝒙, 𝒚) 𝒃= 𝝈𝟐𝒙 где 𝒄𝒐𝒗 𝒙, 𝒚 = 𝒚𝒙 − 𝒚 𝒙 - ковариация признаков x и y , 𝝈𝟐𝒙 = 𝒙𝟐 − 𝒙 2– дисперсия признака x 𝒙= 𝟏 𝒏 𝒙, 𝒚= 𝟏 𝒏 𝒚, 𝒚𝒙 = 𝟏 𝒏 𝒚𝒙, 𝟏 = 𝒏 𝒙𝟐 𝒙𝟐 * Ковариация – числовая характеристика совместного распределения двух случайных величин, равная математическому ожиданию произведения отклонений этих случайных величин от их математических ожиданий. -1- * После построения уравнения регрессии проводится проверка наличия у оценок 𝜺𝒊 (случайных остатков) тех свойств, которые предполагались. * Связано это с тем, что оценки параметров регрессии должны отвечать определенным критериям. Они должны быть несмещенными, состоятельными и эффективными. Эти свойства оценок, полученных по МНК, имеют чрезвычайно важное практическое значение в использовании результатов регрессии и корреляции. * Несмещенность оценки означает, что математическое ожидание остатков равно нулю. Если оценки обладают свойством несмещенности, то их можно сравнивать по разным исследованиям. * Оценки считаются эффективными, если они характеризуются наименьшей дисперсией. В практических исследованиях это означает возможность перехода от точечного оценивания к интервальному. * Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки. Большой практический интерес представляют те результаты регрессии, для которых доверительный интервал ожидаемого значения параметра регрессии bi имеет предел значений вероятности, равный единице. -1- * Условия, необходимые для получения несмещенных, состоятельных и эффективных оценок, представляют собой предпосылки МНК, соблюдение которых желательно для получения достоверных результатов регрессии. * Исследования остатков 𝜺𝒊 предполагают проверку наличия следующих пяти предпосылок МНК: 1) случайный характер остатков; 2) нулевая средняя величина остатков, не зависящая от xi ; 3) гомоскедастичность – дисперсия каждого отклонения 𝜺𝒊 , одинакова для всех значений x; 4) отсутствие автокорреляции остатков – значения остатков 𝜺𝒊 распределены независимо друг от друга; 5) остатки подчиняются нормальному распределению. -2- * Корреляционный анализ позволяет выявить наиболее значимые факторы и установить степень их влияния на показатели, характеризующие экономическое положение объекта (процесса). * Наиболее простым случаем однофакторного корреляционного анализа является случай, когда исследуется зависимость между двумя величинами (одномерный комплекс). * Результаты наблюдений могут быть представлены либо в табличной форме (корреляционная таблица), либо в графической форме (поле корреляции). * x1 x2 … xi … xk m y1 l11 l12 … l1i … l1k m1 y2 l21 l22 … l2i … l2k m2 … … … … … … … … yj lj1 lj2 … lji … ljk mj … … … … … … … … yt lt1 lt2 … lti … ltk m n n1 n2 … ni … nk N Корреляционная таблица * Корреляционная таблица строится в том случае, когда число наблюдений велико, либо возможно появление повторяющихся пар значений (хi,yi). -2- * В качестве точечных оценок неизвестных параметров двумерного закона распределения берутся соответствующие статистики: - оценки математических ожиданий 1 𝑚𝑥 = 𝑁 1 𝑚𝑦 = 𝑁 𝑘 𝑥ср𝑖 𝑛𝑥𝑖 , 𝑖=1 𝑚 𝑦ср𝑗 𝑛𝑗 , 𝑗=1 - оценки дисперсий 𝝈𝟐𝒙 и 𝝈𝟐𝒚 𝜎𝑥2 𝜎𝑦2 1 = 𝑁 1 = 𝑁 𝑘 𝑥𝑖2 𝑛𝑖 − 𝑚𝑥2 𝑖=1 𝑡 𝑦𝑗2 𝑚𝑗 − 𝑚𝑗2 𝑗=1 -2- - оценки коэффициента корреляции 1 𝑘 𝑡 𝑖=1 𝑗=1 𝑥𝑖 𝑦𝑗 𝑙𝑖𝑗 − 𝑚𝑥 𝑚𝑦 𝑁 𝑟= , 𝜎𝑥 𝜎𝑦 - оценки коэффициентов регрессии y на x, x на y 𝜎𝑦 𝑟𝑥𝑦 = 𝑟 , 𝜎𝑥 𝜎𝑥 𝑟𝑦𝑥 = 𝑟 𝜎𝑦 - оценки уравнений регрессии 𝑀 𝑦 𝑥 = 𝑚𝑦 + 𝑟𝑦𝑥 𝑥 − 𝑚𝑥 , 𝑀 𝑥 𝑦 = 𝑚𝑥 + 𝑟𝑥𝑦 𝑦 − 𝑚𝑦 . -2- * Особенностью корреляционного анализа по сравнению с дисперсионным анализом является то, что методы корреляционного анализа позволяют установить не только существенность влияния фактора Х на результаты наблюдения Y , но и степень тесноты этого влияния при помощи показателя тесноты связи. * При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции 𝒓𝒙𝒚 , который можно рассчитать по следующим формулам: 𝝈𝒙 𝒄𝒐𝒗 (𝒙𝒚) 𝒓𝒙𝒚 = 𝒃 = 𝝈𝒚 𝝈𝒙 𝝈𝒚 * Линейный коэффициент корреляции находится в пределах: −𝟏 ≤ 𝒓𝒙𝒚 ≤ 𝟏. -2- * Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции 𝒓𝟐𝒙𝒚, называемый коэффициентом детерминации. * Коэффициент детерминации характеризует долю дисперсии результативного признака y , объясняемую регрессией, в общей дисперсии результативного признака : 𝟐 𝟐 𝝈 𝝈 факт ост 𝒓𝟐𝒙𝒚 = = 𝟏 − , 𝝈𝟐𝒚 𝝈𝟐𝒚 где 𝝈𝟐𝒚 𝟏 = 𝒏 𝒚−𝒚 𝟐 , 𝝈𝟐факт 𝟏 = 𝒏 (𝒚𝒙 − 𝒚)𝟐 , 𝝈𝟐ост 𝟏 = 𝒏 (𝒚 − 𝒚𝒙 )𝟐 Соответственно величина 1 - 𝒓𝒙𝒚 характеризует долю дисперсии y , вызванную влиянием остальных, не учтенных в модели, факторов. * Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. * -2- * Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации: 𝟏 𝑨= 𝒏 𝒚 − 𝒚𝒙 𝟏𝟎𝟎% 𝒚 * Средняя ошибка аппроксимации не должна превышать 8–10%. -2- * Оценка значимости уравнения регрессии в целом производится на основе F -критерия Фишера, которому предшествует дисперсионный анализ. * В математической статистике дисперсионный анализ рассматривается как самостоятельный инструмент статистического анализа. * В эконометрике он применяется как вспомогательное средство для изучения качества регрессионной модели. * -2- * Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной y от среднего значения 𝑦 раскладывается на две части – «объясненную» и «необъясненную»: (𝒚 − 𝒚)𝟐 = (𝒚𝒙 − 𝒚)𝟐 + (𝒚 − 𝒚𝒙 )𝟐 где (𝑦 − 𝑦)2 – общая сумма квадратов отклонений; (𝑦𝑥 − 𝑦)2 − сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений); (𝑦 − 𝑦𝑥 )2 – остаточная сумма квадратов -2- Схема дисперсионного анализа. Компоненты дисперсии Общая Факторная Остаточная Сумма квадратов Число степеней свободы Дисперсия на одну степень свободы 𝑛−1 2 𝑆общ (𝑦 − 𝑦)2 = 𝑛−1 (𝑦𝑥 − 𝑦)2 𝑚 2 𝑆факт (𝑦𝑥 − 𝑦)2 = 𝑚 (𝑦 − 𝑦𝑥 )2 𝑛−𝑚−1 2 𝑆ост (𝑦 − 𝑦)2 (𝑦 − 𝑦𝑥 )2 = 𝑛−𝑚−1 Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. -2- * Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F - критерия Фишера: 𝑭= 𝑺𝟐факт 𝑺𝟐ост * Фактическое значение F -критерия Фишера сравнивается с табличным значением Fтабл (α ; k1; k2 ) при уровне значимости α и степенях свободы k1 = m и k2 = n - m -1. * При этом, если фактическое значение F -критерия больше табличного, то признается статистическая значимость уравнения в целом. -2- * Для парной линейной регрессии 𝑭= 𝑺𝟐факт 𝑺𝟐ост = 𝒚𝒙 − 𝒚 𝟐 (𝒚 − 𝒚𝒙 )𝟐 m =1, поэтому 𝒏−𝟐 * Величина F -критерия связана с коэффициентом детерминации 𝒓𝟐𝒙𝒚 ,и ее можно рассчитать по следующей формуле: 𝒓𝟐𝒙𝒚 𝑭= 𝒏−𝟐 𝟐 𝟏 − 𝒓𝒙𝒚 -2- * В парной линейной регрессии оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка: m b и m a. * Стандартная ошибка коэффициента регрессии определяется по формуле: 𝒎𝒃 = 𝑺𝟐ост (𝒙−𝒙)𝟐 = 𝑺ост , 𝝈𝒙 𝒏 где (𝒚− 𝒚𝒙 )𝟐 𝒏−𝟐 = – остаточная дисперсия на одну степень свободы. Величина стандартной ошибки совместно с t – распределением Стьюдента при n - 2 степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительного интервала. 𝑺𝟐ост -2- * Для оценки существенности коэффициента регрессии его величина сравнивается с его стандартной ошибкой, т.е. определяется фактическое значение t -критерия Стьюдента: 𝒃 𝒕𝒃 = , 𝒎𝒃 * которое затем сравнивается с табличным значением при определенном уровне значимости a и числе степеней свободы (n - 2). * Доверительный интервал для коэффициента регрессии определяется как 𝒃 ∓ 𝒕табл 𝒎𝒃 -2- * Стандартная ошибка параметра a определяется по формуле: 𝒎𝒂 = 𝑺𝟐ост 𝒙𝟐 (𝒙 − 𝒙)𝟐 𝒏 = 𝑺𝟐ост 𝒙𝟐 𝝈𝒙 𝒏 * Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрессии. - Вычисляется t -критерий: 𝒂 𝒕𝒂 = 𝒎𝒂 его величина сравнивается с табличным значением при n - 2 степенях свободы. - Значимость линейного коэффициента корреляции проверяется на основе величины ошибки коэффициента корреляции m r: 𝒎𝒓 = 𝟏− 𝒓𝟐 𝒏−𝟐 - Фактическое значение t -критерия Стьюдента определяется как 𝒓 𝒕𝒓 = 𝒎𝒓 -2- * Точечный прогноз дополняется расчетом стандартной ошибки 𝒎𝒚𝟎 = = (𝒙𝒑 − 𝒙)𝟐 𝟏 𝑺𝟐ост (𝟏 + + ) 𝟐 𝒏 (𝒙 − 𝒙) (𝒙𝒑 − 𝒙)𝟐 𝟏 𝑺𝟐ост (𝟏 + + ) 𝟐 𝒏 𝒏𝝈𝒙 где 𝑺𝟐ост = (𝒚− 𝒚𝒙 )𝟐 𝒏−𝟐 и построением доверительного интервала прогнозного значения 𝑦0∗ : 𝒚𝟎 − 𝒎𝒚𝒐 𝒕табл ≤ 𝒚∗𝟎 ≤ 𝒚𝒙 + 𝒎𝒚𝒙 𝒕табл -2- * В практике эконометрических исследований иногда возникает необходимость установить тесноту связи между ординальными (порядковыми) переменными (например, качество жилищных условий, тестовые баллы, экзаменационные оценки и т.д.) * В этом случае объекты анализа упорядочивают или ранжируют по степени выраженности измеряемых переменных. * При этом каждому объекту присваивается определённый номер, называемый рангом. Если объекты ранжированы по двум признакам, то имеется возможность оценить тесноту связи между переменными, основываясь на рангах, т.е. тесноту ранговой корреляции. * -2- * Коэффициент ранговой корреляции Спирмена находится по формуле 𝝆=𝟏− 𝟔 𝒏 𝟐 (𝒓 − 𝒔 ) 𝒊 𝒊 𝒊=𝟏 , 𝟑 𝒏 −𝒏 где ri и si - ранги i-го объекта по переменным X и Y; n – число пар наблюдений. * Если ранги всех объектов равны (𝑟𝑖 = 𝑠𝑖 , 𝑖 = 1,2, … , 𝑛) , то 𝝆 = 𝟏, т.е. при полной прямой связи 𝜌 = 1. При полной обратной связи (когда ранги по двум переменным расположены в обратном порядке) 𝝆 = −𝟏. -2- * При ранжировании иногда сталкиваются с невозможностью найти существенные отличия между объектами по величине проявления рассматриваемого признака. * Такие объекты называют связанными, и им присваиваются одинаковые средние ранги, в сумме не отличающиеся от суммы всех рангов при отсутствии связанных объектов. * В модификациях формулы коэффициента ранговой корреляции Спирмена на связанные ранги делаются поправки. -2- * При проверке значимости 𝜌 используется tстатистика: 𝒕= 𝝆 𝒏−𝟐 𝟏 − 𝝆𝟐 𝜌 значим на уровне α, если 𝑡 > 𝑡1−∝;𝑛−2 , где 𝑡1−∝;𝑛−2 - табличное значение t –критерия Стъюдента, определенное на уровне значимости α при числе свободы (n-2). * Ранговый коэффициент корреляции 𝜌 может быть использован и для оценки тесноты связи между обычными количественными переменными. Достоинство 𝜌 заключается в том, что нахождение этого коэффициента не требует нормального распределения переменных, линейной связи между ними. -2Регрессии, нелинейные Регрессии, нелинейные по относительно включенных в оцениваемым параметрам анализ объясняющих переменных, но линейные по оцениваемым параметрам – полиномы различных степеней – 𝑦x = a + b × x + c × x2, 𝑦x = a + b × x + c × x2 + d × x3; – равносторонняя гипербола – 𝑦x = a + b/x; – полулогарифмическая функция – 𝑦x = a + b × ln x . * – степенная – 𝑦x = a × xb; – показательная – 𝑦x = a ×bx ; – экспоненциальная – 𝑦x =ea+bx Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций. -2- * Регрессии нелинейные по включенным переменным приводятся к линейному виду простой заменой переменных, а дальнейшая оценка параметров производится с помощью метода наименьших квадратов (МНК). * Например, парабола второй степени 𝑦x = a + b × x + c × x2 приводится к линейному виду с помощью замены: х = х1, х2 = х2. -2- * Среди нелинейных моделей наиболее часто используется степенная функция y = a × xb × ε , которая приводится к линейному виду логарифмированием: ln y = ln(a × xb × ε) ln y = ln a + b × ln x + lnε Y = A + b × X + E, где Y = ln y, X = ln x, A = ln a, E = lnε . -2- * Широкое использование степенной функции связано с тем, что параметр b в ней имеет четкое экономическое истолкование – он является коэффициентом эластичности. * Коэффициент эластичности показывает, на сколько процентов измениться в среднем результат, если фактор изменится на 1%. * Формула для расчета коэффициента эластичности имеет вид: Э= 𝒇′ 𝒙 𝒙 . 𝒚 Формулы для расчета средних коэффициентов эластичности для наиболее часто используемых типов уравнений регрессии Средний коэффициент эластичности, Э Вид функции, y Первая производная, y′ 𝐲=a+b×x+ε 𝐛 𝐛𝐱 𝐚+𝐛𝐱 𝐲 = a + b × x + c × x2+ε 𝐛 + 𝟐𝐜𝐱 𝐛 + 𝟐𝐜 𝐱 𝐱 𝐚 + 𝐛 𝐱 + 𝐜 𝐱𝟐 𝐲 = a + b/x + ε − 𝐛 𝐱𝟐 − 𝐛 𝐚𝐱 +𝐛 𝐲 = a × xb×ε 𝐚𝐛𝐱 𝐛−𝟏 b 𝐲 = a × bx×ε 𝐚 𝐥𝐧 𝐛 𝐛𝐱 𝐱 𝐥𝐧 𝐛 𝐛 𝐱 𝐛 𝐚 + 𝐛 𝐥𝐧 𝐱 𝐚𝐛𝐜𝐞−𝐜𝐱 (𝟏 + 𝐛𝐞−𝐜𝐱 )𝟐 𝐛𝐜𝐱 𝐛 + 𝐞 𝐜𝐱 𝐲 = a + b × ln x +ε 𝐚 𝐲= 𝟏 + 𝐛𝐞−𝐜𝐱+𝛆 𝐲= 𝟏 𝐚 + 𝐛𝐱 + 𝛆 − 𝐛 (𝐚 + 𝐛𝐱)𝟐 − 𝐛𝐱 𝐚+𝐛𝐱 * Уравнение нелинейной регрессии, так же, как и в случае линейной зависимости, дополняется показателем тесноты связи. В данном случае это индекс корреляции: 𝜌𝑥𝑦 = 2 𝜎ост 1− 2 𝜎𝑦 где 1 2 𝜎𝑦2 = (𝑦 − 𝑦) – общая дисперсия результативного 𝑛 признака y , 2 = 𝜎ост 1 𝑛 (𝑦 − 𝑦𝑥 )2 – остаточная дисперсия. Величина данного показателя находится в пределах: 0 ≤ 𝜌𝑥𝑦 ≤ 1. -2- * Индекс детерминации характеризует долю дисперсии результативного признака y , объясняемую регрессией, в общей дисперсии результативного признака: 2 2 𝜎 𝜎 факт ост 2 𝜌𝑥𝑦 =1− 2 = 𝜎𝑦 𝜎𝑦2 т.е. имеет тот же смысл, что и в линейной регрессии; 1 2 𝜌𝑥𝑦 = (𝑦𝑥 − 𝑦)2 𝑛 -2- 2 можно сравнивать с * Индекс детерминации 𝜌𝑥𝑦 2 коэффициентом детерминации 𝑟𝑥𝑦 для обоснования возможности применения линейной функции. * Чем больше кривизна линии регрессии, тем 2 меньше 𝜌2 . А близость этих величина 𝑟𝑥𝑦 𝑥𝑦 показателей указывает на то, что нет необходимости усложнять форму уравнения регрессии и можно использовать линейную функцию. -2- * Индекс детерминации используется для проверки существенности в целом уравнения регрессии по F критерию Фишера: 2 𝜌𝑥𝑦 𝑛−𝑚−1 𝐹= 2 𝑚 1 − 𝜌𝑥𝑦 где 2 – индекс детерминации, * 𝜌𝑥𝑦 n – число наблюдений, m – число параметров при переменной x . * Фактическое значение F -критерия сравнивается с табличным при уровне значимости α и числе степеней свободы k2 = n - m -1 (для остаточной суммы квадратов) и k1 = m (для факторной суммы квадратов). * О качестве нелинейного уравнения регрессии можно также судить и по средней ошибке аппроксимации, так же как и в линейном случае. *