*

advertisement
*
1. Уравнение регрессии, его смысл и назначение.
2. Понятие корреляции и её показатели.
3. Корреляция для нелинейной регрессии.
-1-
* В практике экономических исследований
имеющиеся данные не всегда можно
считать выборкой из многомерной
нормальной совокупности, когда одна из
рассматриваемых переменных не всегда
является случайной или когда линия
регрессии явно не прямая и т.п.
* В этих случаях пытаются определить
кривую (поверхность), которая даёт
наилучшее приближение к исходным
данным.
* Cоответствующие методы приближения
получили название регрессионного
анализа.
*
*
* Задачами регрессионного анализа являются
установление формы зависимости между
переменными, оценка функции регрессии, оценка
неизвестных значений (прогноз значений)
зависимой переменной.
-1-
* В экономике в большинстве
случаев между переменными
величинами существуют
зависимости, когда каждому
значению одной переменной
соответствует не какое-то
определённое, а множество
возможных значений другой
переменной.
* Иными словами, каждому
значению одной переменной
соответствует определенное
(условное) распределение
другой переменной.
* Такая зависимость получила
название статистической
(схоластической,
вероятностной).
-1-
* Если зависимость между двумя переменными
такова, что каждому значению одной переменной
соответствует определенное математическое
ожидание (среднее значение) другой, то такая
статистическая зависимость называется
корреляционной.
* Иначе, корреляционной зависимостью между
двумя переменными называется функциональная
зависимость между значениями одной из них и
условным математическим ожиданием другой.
-1-
* Корреляционная зависимость может быть
представлена в виде:
𝑴𝒙 𝒀 = 𝝋 𝒙
или
𝑴𝒚 𝑿 = 𝝍 𝒚 ,
где 𝜑 𝑥 ≠ 𝑐𝑜𝑛𝑠𝑡, 𝜓 𝑦 ≠ 𝑐𝑜𝑛𝑠𝑡.
* В регрессионном анализе рассматривается
односторонняя зависимость случайной переменной
Y от одной или нескольких неслучайной
независимой переменной Х.
* Такая зависимость может возникнуть, когда при
каждом фиксированном значении Х
соответствующие значения Y подвержены
случайному разбросу за счет действия
неконтролируемых факторов.
-1-
* Для точного описания уравнения регрессии необходимо
знать условный закон распределения зависимой
переменной Y при условии, что Х примет значение х, т.е.
Х=х.
* Однако, поскольку
исследователь располагает лишь
выборкой пар значений ограниченного объема, речь
может идти об оценке (приближённом значении,
аппроксимации) по выборке функции регрессии.
* Такой оценкой является выборочная линия (кривая)
регрессии:
𝑦 = 𝜑 𝑥, 𝑏0 , 𝑏1 , … 𝑏𝑛
(1.2)
где
𝑦 - условная (групповая) средняя переменной Y при
фиксированном значении переменной Х,
𝑏0 , 𝑏1 , … 𝑏𝑛 - параметры кривой.
-1-
* Парная (простая) регрессия представляет собой
модель, где среднее значение зависимой
(объясняемой) переменной рассматривается как
функция одной независимой (объясняющей)
переменной x , т.е. это модель вида:
𝒚𝒙 = 𝒇 (𝒙)
* Практически в каждом отдельном случае величина y
складывается из двух слагаемых:
𝒚 = 𝒚𝒙 + 𝜺
где y – фактическое значение результативного
признака;
𝑦𝑥 – теоретическое значение результативного признака,
найденное исходя из уравнения регрессии;
𝜀 – случайная величина, характеризующая отклонения
реального значения результативного признака от
теоретического, найденного по уравнению регрессии.
-1-
* Случайная величина 𝜺 называется
также возмущением. Она
включает влияние не учтенных в
модели факторов, случайных
ошибок и особенностей измерения.
Ее присутствие в модели
порождено тремя источниками:
* спецификацией модели,
* выборочным характером
исходных данных,
* особенностями измерения
переменных.
-1-
* В парной регрессии выбор
Значения Y
вида математической
функции 𝑦𝑥 = 𝑓(𝑥) может
быть осуществлен тремя
методами:
12
10
8
6
Значения Y
4
2
исходя из теории
изучаемой взаимосвязи;
0
0
5
10
* 1) графическим;
* 2) аналитическим, т.е.
15
* 3) экспериментальным.
𝒚 = −𝟐, 𝟕𝟓 + 𝟏, 𝟎𝟏𝟔𝒙
1
2
3
4
5
6
7
8
9
10
8
11
12
9
8
8
9
9
8
12
5
10
10
7
5
6
6
5
6
8
-1-
* В практических исследованиях, как правило, имеет
место некоторое рассеяние точек относительно линии
регрессии. Оно обусловлено влиянием прочих, не
учитываемых в уравнении регрессии, факторов.
Иными словами, имеют место отклонения
фактических данных от теоретических 𝒚 − 𝒚𝒙 .
* Величина этих отклонений и лежит в основе расчета
остаточной дисперсии:
𝝈𝟐ост =
𝟏
𝒏
(𝒚 − 𝒚𝒙 )2
* Чем меньше величина остаточной дисперсии, тем
меньше влияние не учитываемых в уравнении
регрессии факторов и тем лучше уравнение
регрессии подходит к исходным данным.
-1-
* Построение линейной регрессии
y
y
x
ε
y
i
0
i
сводится к оценке ее параметров – a и
b. Классический подход к оцениванию
параметров линейной регрессии
основан на методе наименьших
квадратов (МНК).
* Параметр b называется
коэффициентом регрессии. Его
величина показывает среднее
изменение результата с изменением
фактора на одну единицу.
* МНК позволяет получить такие оценки
параметров a и b, при которых сумма
x
квадратов
отклонений фактических
значений результативного признака y
от теоретических 𝑦𝑥 минимальна:
𝒏
𝒏
𝜺𝟐𝒊 → 𝒎𝒊𝒏
(𝒚𝒊 − 𝒚𝒙𝒊 )𝟐 =
𝒊=𝟏
𝒊=𝟏
-1-
* Для расчёта параметров a и b можно воспользоваться следующими готовыми
формулами, которые следуют непосредственно из решения системы:
𝒂= 𝒚 − 𝒃𝒙
𝒄𝒐𝒗 (𝒙, 𝒚)
𝒃=
𝝈𝟐𝒙
где
𝒄𝒐𝒗 𝒙, 𝒚 = 𝒚𝒙 − 𝒚 𝒙 - ковариация признаков x и y ,
𝝈𝟐𝒙 = 𝒙𝟐 − 𝒙 2– дисперсия признака x
𝒙=
𝟏
𝒏
𝒙,
𝒚=
𝟏
𝒏
𝒚,
𝒚𝒙 =
𝟏
𝒏
𝒚𝒙,
𝟏
=
𝒏
𝒙𝟐
𝒙𝟐
* Ковариация – числовая характеристика совместного распределения двух
случайных величин, равная математическому ожиданию произведения
отклонений этих случайных величин от их математических ожиданий.
-1-
* После построения уравнения регрессии проводится проверка
наличия у оценок 𝜺𝒊 (случайных остатков) тех свойств, которые
предполагались.
* Связано это с тем, что оценки параметров регрессии должны
отвечать определенным критериям. Они должны быть
несмещенными, состоятельными и эффективными. Эти свойства
оценок, полученных по МНК, имеют чрезвычайно важное
практическое значение в использовании результатов регрессии и
корреляции.
* Несмещенность оценки означает, что математическое ожидание
остатков равно нулю. Если оценки обладают свойством
несмещенности, то их можно сравнивать по разным исследованиям.
* Оценки считаются эффективными, если они характеризуются
наименьшей дисперсией. В практических исследованиях это
означает возможность перехода от точечного оценивания к
интервальному.
* Состоятельность оценок характеризует увеличение их точности с
увеличением объема выборки. Большой практический интерес
представляют те результаты регрессии, для которых доверительный
интервал ожидаемого значения параметра регрессии bi имеет
предел значений вероятности, равный единице.
-1-
* Условия, необходимые для получения несмещенных,
состоятельных и эффективных оценок, представляют
собой предпосылки МНК, соблюдение которых
желательно для получения достоверных результатов
регрессии.
* Исследования остатков 𝜺𝒊 предполагают проверку наличия
следующих пяти предпосылок МНК:
1) случайный характер остатков;
2) нулевая средняя величина остатков, не зависящая от xi ;
3) гомоскедастичность – дисперсия каждого отклонения 𝜺𝒊 ,
одинакова для всех значений x;
4) отсутствие автокорреляции остатков – значения остатков
𝜺𝒊 распределены независимо друг от друга;
5) остатки подчиняются нормальному распределению.
-2-
* Корреляционный анализ позволяет выявить
наиболее значимые факторы и установить степень
их влияния на показатели, характеризующие
экономическое положение объекта (процесса).
* Наиболее простым случаем однофакторного
корреляционного анализа является случай, когда
исследуется зависимость между двумя величинами
(одномерный комплекс).
* Результаты наблюдений могут быть представлены
либо в табличной форме (корреляционная
таблица), либо в графической форме (поле
корреляции).
*
x1
x2
…
xi
…
xk
m
y1
l11
l12
…
l1i
…
l1k
m1
y2
l21
l22
…
l2i
…
l2k
m2
…
…
…
…
…
…
…
…
yj
lj1
lj2
…
lji
…
ljk
mj
…
…
…
…
…
…
…
…
yt
lt1
lt2
…
lti
…
ltk
m
n
n1
n2
…
ni
…
nk
N
Корреляционная таблица
*
Корреляционная таблица строится в том случае, когда число
наблюдений велико, либо возможно появление повторяющихся
пар значений (хi,yi).
-2-
* В качестве точечных оценок неизвестных параметров
двумерного закона распределения берутся
соответствующие статистики:
- оценки математических ожиданий
1
𝑚𝑥 =
𝑁
1
𝑚𝑦 =
𝑁
𝑘
𝑥ср𝑖 𝑛𝑥𝑖 ,
𝑖=1
𝑚
𝑦ср𝑗 𝑛𝑗 ,
𝑗=1
- оценки дисперсий 𝝈𝟐𝒙 и 𝝈𝟐𝒚
𝜎𝑥2
𝜎𝑦2
1
=
𝑁
1
=
𝑁
𝑘
𝑥𝑖2 𝑛𝑖 − 𝑚𝑥2
𝑖=1
𝑡
𝑦𝑗2 𝑚𝑗 − 𝑚𝑗2
𝑗=1
-2-
- оценки коэффициента корреляции
1 𝑘
𝑡
𝑖=1
𝑗=1 𝑥𝑖 𝑦𝑗 𝑙𝑖𝑗 − 𝑚𝑥 𝑚𝑦
𝑁
𝑟=
,
𝜎𝑥 𝜎𝑦
- оценки коэффициентов регрессии y на x, x на y
𝜎𝑦
𝑟𝑥𝑦 = 𝑟
,
𝜎𝑥
𝜎𝑥
𝑟𝑦𝑥 = 𝑟
𝜎𝑦
- оценки уравнений регрессии
𝑀 𝑦 𝑥 = 𝑚𝑦 + 𝑟𝑦𝑥 𝑥 − 𝑚𝑥 ,
𝑀 𝑥 𝑦 = 𝑚𝑥 + 𝑟𝑥𝑦 𝑦 − 𝑚𝑦 .
-2-
* Особенностью корреляционного анализа по сравнению с
дисперсионным анализом является то, что методы
корреляционного анализа позволяют установить не
только существенность влияния фактора Х на результаты
наблюдения Y , но и степень тесноты этого влияния при
помощи показателя тесноты связи.
* При использовании линейной регрессии в качестве
такого показателя выступает линейный коэффициент
корреляции 𝒓𝒙𝒚 , который можно рассчитать по
следующим формулам:
𝝈𝒙
𝒄𝒐𝒗 (𝒙𝒚)
𝒓𝒙𝒚 = 𝒃
=
𝝈𝒚
𝝈𝒙 𝝈𝒚
* Линейный коэффициент корреляции находится в
пределах:
−𝟏 ≤ 𝒓𝒙𝒚 ≤ 𝟏.
-2-
* Для оценки качества подбора линейной функции рассчитывается
квадрат линейного коэффициента корреляции 𝒓𝟐𝒙𝒚, называемый
коэффициентом детерминации.
* Коэффициент детерминации характеризует долю дисперсии
результативного признака y , объясняемую регрессией, в общей
дисперсии результативного признака :
𝟐
𝟐
𝝈
𝝈
факт
ост
𝒓𝟐𝒙𝒚 =
=
𝟏
−
,
𝝈𝟐𝒚
𝝈𝟐𝒚
где
𝝈𝟐𝒚
𝟏
=
𝒏
𝒚−𝒚
𝟐
,
𝝈𝟐факт
𝟏
=
𝒏
(𝒚𝒙 − 𝒚)𝟐 ,
𝝈𝟐ост
𝟏
=
𝒏
(𝒚 − 𝒚𝒙 )𝟐
Соответственно величина 1 - 𝒓𝒙𝒚 характеризует долю дисперсии y ,
вызванную влиянием остальных, не учтенных в модели, факторов.
* Проверить значимость уравнения регрессии –
значит установить, соответствует ли
математическая модель, выражающая зависимость
между переменными, экспериментальным данным
и достаточно ли включенных в уравнение
объясняющих переменных (одной или нескольких)
для описания зависимой переменной.
*
-2-
* Чтобы иметь общее суждение о качестве модели
из относительных отклонений по каждому
наблюдению, определяют среднюю ошибку
аппроксимации:
𝟏
𝑨=
𝒏
𝒚 − 𝒚𝒙
𝟏𝟎𝟎%
𝒚
* Средняя ошибка аппроксимации не должна
превышать 8–10%.
-2-
* Оценка значимости уравнения регрессии в целом
производится на основе F -критерия Фишера,
которому предшествует дисперсионный анализ.
* В математической статистике дисперсионный анализ
рассматривается как самостоятельный инструмент
статистического анализа.
* В эконометрике он применяется как вспомогательное
средство для изучения качества регрессионной
модели.
*
-2-
* Согласно основной идее дисперсионного анализа,
общая сумма квадратов отклонений переменной y от
среднего значения 𝑦 раскладывается на две части –
«объясненную» и «необъясненную»:
(𝒚 − 𝒚)𝟐 =
(𝒚𝒙 − 𝒚)𝟐 +
(𝒚 − 𝒚𝒙 )𝟐
где
(𝑦 − 𝑦)2 – общая сумма квадратов отклонений;
(𝑦𝑥 − 𝑦)2 − сумма квадратов отклонений, объясненная
регрессией (или факторная сумма квадратов
отклонений);
(𝑦 − 𝑦𝑥 )2 – остаточная сумма квадратов
-2-
Схема дисперсионного анализа.
Компоненты
дисперсии
Общая
Факторная
Остаточная
Сумма
квадратов
Число
степеней
свободы
Дисперсия
на
одну
степень свободы
𝑛−1
2
𝑆общ
(𝑦 − 𝑦)2
=
𝑛−1
(𝑦𝑥 − 𝑦)2
𝑚
2
𝑆факт
(𝑦𝑥 − 𝑦)2
=
𝑚
(𝑦 − 𝑦𝑥 )2
𝑛−𝑚−1
2
𝑆ост
(𝑦 − 𝑦)2
(𝑦 − 𝑦𝑥 )2
=
𝑛−𝑚−1
Определение дисперсии на одну степень свободы приводит
дисперсии к сравнимому виду.
-2-
* Сопоставляя факторную и остаточную дисперсии в
расчете на одну степень свободы, получим величину
F - критерия Фишера:
𝑭=
𝑺𝟐факт
𝑺𝟐ост
* Фактическое значение F -критерия Фишера
сравнивается с табличным значением Fтабл (α ; k1; k2 )
при уровне значимости α и степенях свободы k1 = m
и k2 = n - m -1.
* При этом, если фактическое значение F -критерия
больше табличного, то признается статистическая
значимость уравнения в целом.
-2-
* Для парной линейной регрессии
𝑭=
𝑺𝟐факт
𝑺𝟐ост
=
𝒚𝒙 − 𝒚
𝟐
(𝒚 − 𝒚𝒙
)𝟐
m =1, поэтому
𝒏−𝟐
* Величина F -критерия связана с коэффициентом
детерминации 𝒓𝟐𝒙𝒚 ,и ее можно рассчитать по
следующей формуле:
𝒓𝟐𝒙𝒚
𝑭=
𝒏−𝟐
𝟐
𝟏 − 𝒓𝒙𝒚
-2-
* В парной линейной регрессии оценивается значимость
не только уравнения в целом, но и отдельных его
параметров. С этой целью по каждому из параметров
определяется его стандартная ошибка: m b и m a.
* Стандартная ошибка коэффициента регрессии
определяется по формуле:
𝒎𝒃 =
𝑺𝟐ост
(𝒙−𝒙)𝟐
=
𝑺ост
,
𝝈𝒙 𝒏
где
(𝒚− 𝒚𝒙 )𝟐
𝒏−𝟐
=
– остаточная дисперсия на одну степень
свободы.
Величина стандартной ошибки совместно с t –
распределением Стьюдента при n - 2 степенях свободы
применяется для проверки существенности
коэффициента регрессии и для расчета его
доверительного интервала.
𝑺𝟐ост
-2-
* Для оценки существенности коэффициента
регрессии его величина сравнивается с его
стандартной ошибкой, т.е. определяется
фактическое значение t -критерия Стьюдента:
𝒃
𝒕𝒃 =
,
𝒎𝒃
* которое затем сравнивается с табличным значением
при определенном уровне значимости a и числе
степеней свободы (n - 2).
* Доверительный интервал для коэффициента
регрессии определяется как
𝒃 ∓ 𝒕табл 𝒎𝒃
-2-
* Стандартная ошибка параметра a определяется по
формуле:
𝒎𝒂 =
𝑺𝟐ост
𝒙𝟐
(𝒙 − 𝒙)𝟐
𝒏
= 𝑺𝟐ост
𝒙𝟐
𝝈𝒙 𝒏
* Процедура оценивания существенности данного параметра
не отличается от рассмотренной выше для коэффициента
регрессии.
- Вычисляется t -критерий:
𝒂
𝒕𝒂 =
𝒎𝒂
его величина сравнивается с табличным значением при n - 2
степенях свободы.
- Значимость линейного коэффициента корреляции
проверяется на основе величины ошибки
коэффициента корреляции m r:
𝒎𝒓 =
𝟏− 𝒓𝟐
𝒏−𝟐
- Фактическое значение t -критерия Стьюдента
определяется как
𝒓
𝒕𝒓 =
𝒎𝒓
-2-
* Точечный прогноз дополняется расчетом стандартной
ошибки
𝒎𝒚𝟎 =
=
(𝒙𝒑 − 𝒙)𝟐
𝟏
𝑺𝟐ост (𝟏 + +
)
𝟐
𝒏
(𝒙 − 𝒙)
(𝒙𝒑 − 𝒙)𝟐
𝟏
𝑺𝟐ост (𝟏 + +
)
𝟐
𝒏
𝒏𝝈𝒙
где
𝑺𝟐ост
=
(𝒚− 𝒚𝒙 )𝟐
𝒏−𝟐
и построением доверительного интервала прогнозного
значения 𝑦0∗ :
𝒚𝟎 − 𝒎𝒚𝒐 𝒕табл ≤ 𝒚∗𝟎 ≤ 𝒚𝒙 + 𝒎𝒚𝒙 𝒕табл
-2-
* В практике эконометрических исследований иногда
возникает необходимость установить тесноту связи
между ординальными (порядковыми) переменными
(например, качество жилищных условий, тестовые
баллы, экзаменационные оценки и т.д.)
* В этом случае объекты анализа упорядочивают или
ранжируют по степени выраженности измеряемых
переменных.
* При этом каждому объекту присваивается
определённый номер, называемый рангом. Если
объекты ранжированы по двум признакам, то
имеется возможность оценить тесноту связи между
переменными, основываясь на рангах, т.е. тесноту
ранговой корреляции.
*
-2-
* Коэффициент ранговой корреляции Спирмена находится
по формуле
𝝆=𝟏−
𝟔
𝒏
𝟐
(𝒓
−
𝒔
)
𝒊
𝒊
𝒊=𝟏
,
𝟑
𝒏 −𝒏
где
ri и si - ранги i-го объекта по переменным X и Y; n – число
пар наблюдений.
* Если ранги всех объектов равны (𝑟𝑖 = 𝑠𝑖 , 𝑖 = 1,2, … , 𝑛) , то
𝝆 = 𝟏,
т.е. при полной прямой связи 𝜌 = 1.
При полной обратной связи (когда ранги по двум
переменным расположены в обратном порядке)
𝝆 = −𝟏.
-2-
* При ранжировании иногда сталкиваются с
невозможностью найти существенные отличия между
объектами по величине проявления
рассматриваемого признака.
* Такие объекты называют связанными, и им
присваиваются одинаковые средние ранги, в сумме
не отличающиеся от суммы всех рангов при
отсутствии связанных объектов.
* В модификациях формулы коэффициента ранговой
корреляции Спирмена на связанные ранги делаются
поправки.
-2-
* При проверке значимости 𝜌 используется tстатистика:
𝒕=
𝝆 𝒏−𝟐
𝟏 − 𝝆𝟐
𝜌 значим на уровне α, если 𝑡 > 𝑡1−∝;𝑛−2 ,
где 𝑡1−∝;𝑛−2 - табличное значение t –критерия
Стъюдента, определенное на уровне значимости α при
числе свободы (n-2).
* Ранговый коэффициент корреляции 𝜌 может быть
использован и для оценки тесноты связи между
обычными количественными переменными.
Достоинство 𝜌 заключается в том, что нахождение
этого коэффициента не требует нормального
распределения переменных, линейной связи между
ними.
-2Регрессии, нелинейные
Регрессии, нелинейные по
относительно включенных в
оцениваемым параметрам
анализ объясняющих переменных,
но линейные по оцениваемым
параметрам
– полиномы различных степеней –
𝑦x = a + b × x + c × x2,
𝑦x = a + b × x + c × x2 + d × x3;
– равносторонняя гипербола –
𝑦x = a + b/x;
– полулогарифмическая функция –
𝑦x = a + b × ln x .
*
– степенная –
𝑦x = a × xb;
– показательная –
𝑦x = a ×bx ;
– экспоненциальная –
𝑦x =ea+bx
Если между экономическими явлениями
существуют нелинейные соотношения, то они
выражаются с помощью соответствующих
нелинейных функций.
-2-
* Регрессии нелинейные по
включенным переменным
приводятся к линейному
виду простой заменой
переменных, а дальнейшая
оценка параметров
производится с помощью
метода наименьших
квадратов (МНК).
* Например, парабола второй
степени 𝑦x = a + b × x + c × x2
приводится к линейному
виду с помощью замены: х =
х1, х2 = х2.
-2-
* Среди нелинейных моделей наиболее часто используется
степенная функция y = a × xb × ε , которая приводится к
линейному виду логарифмированием:
ln y = ln(a × xb × ε)
ln y = ln a + b × ln x + lnε
Y = A + b × X + E,
где Y = ln y, X = ln x, A = ln a, E = lnε .
-2-
* Широкое использование степенной функции связано
с тем, что параметр b в ней имеет четкое
экономическое истолкование – он является
коэффициентом эластичности.
* Коэффициент эластичности показывает, на сколько
процентов измениться в среднем результат, если
фактор изменится на 1%.
* Формула для расчета коэффициента эластичности
имеет вид:
Э=
𝒇′
𝒙
𝒙 .
𝒚
Формулы для расчета средних коэффициентов эластичности для
наиболее часто используемых типов уравнений регрессии
Средний
коэффициент
эластичности, Э
Вид функции, y
Первая производная, y′
𝐲=a+b×x+ε
𝐛
𝐛𝐱
𝐚+𝐛𝐱
𝐲 = a + b × x + c × x2+ε
𝐛 + 𝟐𝐜𝐱
𝐛 + 𝟐𝐜 𝐱 𝐱
𝐚 + 𝐛 𝐱 + 𝐜 𝐱𝟐
𝐲 = a + b/x + ε
−
𝐛
𝐱𝟐
−
𝐛
𝐚𝐱 +𝐛
𝐲 = a × xb×ε
𝐚𝐛𝐱 𝐛−𝟏
b
𝐲 = a × bx×ε
𝐚 𝐥𝐧 𝐛 𝐛𝐱
𝐱 𝐥𝐧 𝐛
𝐛
𝐱
𝐛
𝐚 + 𝐛 𝐥𝐧 𝐱
𝐚𝐛𝐜𝐞−𝐜𝐱
(𝟏 + 𝐛𝐞−𝐜𝐱 )𝟐
𝐛𝐜𝐱
𝐛 + 𝐞 𝐜𝐱
𝐲 = a + b × ln x +ε
𝐚
𝐲=
𝟏 + 𝐛𝐞−𝐜𝐱+𝛆
𝐲=
𝟏
𝐚 + 𝐛𝐱 + 𝛆
−
𝐛
(𝐚 + 𝐛𝐱)𝟐
−
𝐛𝐱
𝐚+𝐛𝐱
* Уравнение нелинейной регрессии, так же, как и в
случае линейной зависимости, дополняется
показателем тесноты связи. В данном случае это
индекс корреляции:
𝜌𝑥𝑦 =
2
𝜎ост
1− 2
𝜎𝑦
где
1
2
𝜎𝑦2 =
(𝑦 − 𝑦) – общая дисперсия результативного
𝑛
признака y ,
2 =
𝜎ост
1
𝑛
(𝑦 − 𝑦𝑥 )2 – остаточная дисперсия.
Величина данного показателя находится в пределах:
0 ≤ 𝜌𝑥𝑦 ≤ 1.
-2-
* Индекс детерминации
характеризует долю
дисперсии результативного признака y ,
объясняемую регрессией, в общей дисперсии
результативного признака:
2
2
𝜎
𝜎
факт
ост
2
𝜌𝑥𝑦
=1− 2 =
𝜎𝑦
𝜎𝑦2
т.е. имеет тот же смысл, что и в линейной
регрессии;
1
2
𝜌𝑥𝑦 =
(𝑦𝑥 − 𝑦)2
𝑛
-2-
2 можно сравнивать с
* Индекс детерминации 𝜌𝑥𝑦
2
коэффициентом детерминации 𝑟𝑥𝑦
для
обоснования возможности применения
линейной функции.
* Чем больше кривизна линии регрессии, тем
2 меньше 𝜌2 . А близость этих
величина 𝑟𝑥𝑦
𝑥𝑦
показателей указывает на то, что нет
необходимости усложнять форму уравнения
регрессии и можно использовать линейную
функцию.
-2-
* Индекс детерминации используется для проверки
существенности в целом уравнения регрессии по F критерию Фишера:
2
𝜌𝑥𝑦
𝑛−𝑚−1
𝐹=
2
𝑚
1 − 𝜌𝑥𝑦
где
2 – индекс детерминации,
* 𝜌𝑥𝑦
n – число наблюдений, m –
число параметров при переменной x .
* Фактическое значение F -критерия сравнивается с
табличным при уровне значимости α и числе степеней
свободы k2 = n - m -1 (для остаточной суммы квадратов) и k1
= m (для факторной суммы квадратов).
* О качестве нелинейного уравнения регрессии можно также
судить и по средней ошибке аппроксимации, так же как и в
линейном случае.
*
Download