10.Корреляционный и регрессионныйанализ

реклама
Корреляционный и
регрессионный анализ
О форме корреляционной связи между X Y
в виде некоторой функциональной
зависимости, которая хотя бы приближенно
изображала расплывчатую корреляционную
зависимость.
Об оценке тесноты корреляционной связи
между X и Y , т.е. о степени близости
корреляционной
зависимости
к
функциональной.
Регрессии
Регрессией Y от X называется
функциональная зависимость между
значениями x и соответствующими
условными средними значениями y ( x ) .
Регрессии можно представить
геометрически в виде ломанных линий,
соединяющих или точки A ( x ; y ( x )), или
точки B (x ( y ) ; y ).
Эти линии называются эмпирическими
(полученными из опыта) ломаными линиями
регрессии.
Плавную кривую можно получить и иначе, –
если ломаную линию регрессии “сгладить”
посредством какой-либо известной линии
(прямой, параболы, гиперболы и т.п.).
Уравнение сглаживающей линии даст хотя и
приближенно, но аналитическое – в виде
формулы – выражение регрессии. Подобные
формулы называют эмпирическими
1. Выбор типа линии, выравнивающей
ломанную регрессии, т.е. типа линии,
около которой группируются
экспериментальные точки A ( x ; y ( x ) )
или B ( x ( y ) ; y ).
2. Определение параметров, входящих
в уравнение линии выбранного типа,
таким образом, чтобы из множества
линий этого типа взять ту, которая
наиболее близко проходит около точек
ломаной регрессии.
Выбор типа линии,
выравнивающей ломаную
линию регрессии
Для
выбора
типа
линии,
выравнивающей
ломаную
линию
регрессии, необходимо хорошо знать
простейшие
виды
линий
и
их
уравнения.
Необходимо минимизировать сумму
S 
n
2
(
y
(
x
)

y
)

i
i
i 1
где x i , yi – значения опытных данных;
y( xi ) – значение функции, взятое из
эмпирической зависимости в точке x i ;
n– число опытов.
В случае линейной эмпирической
формулы сумма принимает вид
n
S (a; b)   (axi  b  yi ) ,
2
i 1
а в случае квадратической зависимости –
следующий вид:
n
S (a; b; c)  
i 1
2
(axi
2
 bxi  c  yi ) .

2
a  xi  b xi   xi yi ,
i 1
i 1
i 1

n
n
 a  xi  bn   yi .

i 1
i 1
n
n
n
n
n
n
 n 4
3
2
2
a  xi  b xi  c xi   xi yi ,
i 1
i 1
i 1
 i n1
n
n
n
a x 3  b x 2  c x  x y ,
 i  i  i i
  i
i 1
i 1
i 1
 i 1
n
n
 n 2
 a  xi  b xi  cn   yi .
i 1
i 1
 i 1
С целью вычисления параметров a0, a1
применяют метод наименьших квадратов
и решают систему уравнений
n * a0  а1xi  yi

2
a0 * xi  а1 * xi  xi * yi
Значение параметров
( x i  x ) * ( y i  y )
а1 
2
( xi  x )
a0  y  а1 * x
Значение параметров
параметр а0 показывает усредненное
влияние на результат неучтенных
факторов
параметр a1 характеризует, на сколько
изменяется в среднем значение
результата при увеличении фактора на
единицу собственного измерения
Тесноту и направление парной линейной
корреляционной связи измеряют с помощью
линейного коэффициента корреляции - r
Для оценки тесноты корреляционной
зависимости служит корреляционное
отношение:
 ( yx )

2
 ( y)
2
где  ( y ) – выборочная дисперсия
случайной величины Y , вычисленная по
всей таблице;
2
 ( y x ) – дисперсия условных средних
относительно общей средней, так
называемая внешняя дисперсия.
2
Критерий Фишера.
Fэмп 


2
ост
2
воспр. ср
,
2

где ост
1 n
2


(
y

y
)

i –
n  l i 1 i
остаточная дисперсия;
l – число коэффициентов в уравнении
регрессии;
y i – ордината линии регрессии в точке xi ;
2
 воспр.
ср – дисперсия воспроизводимости
средних, равная исправленной внутренней
дисперсии, деленной на число m
экспериментов , по которым вычислялись
условные средние y i :
Характеристика связи
Значения линейного
коэффициента
корреляции
r = 1(-1)
-1< r < 0
r=0
Характер связи
функциональная
обратная
отсутствует
0<r<1
прямая
Шкала Чеддока
0,1-0,3 0,3-0,5
0,5-0,7
Ir xy I
0,7-0,9 0,9-0,99
сила
очень
слабая умеренная заметная сильная
связи
сильная

2
в оспр. ср .
1 m
1
2
2
 
  в нутр. 
  в нутр.
m m 1
m 1
Величина Fэм п имеет распределение
Фишера с k1  n  l и k2  n(m  1) числами
степеней свободы ( n – число задаваемых
экспериментатором значений величины X ,
m – число проводимых опытов, l – число
коэффициентов в уравнении регрессии).
Из таблицы критических точек распределения
Фишера находим .
Если Fэм п< Fкрит , уравнение регрессии
адекватно.
Если Fэм п > Fкрит расхождение между
теоретической и эмпирической линиями
регрессии значимо, уравнение не
адекватно, следует взять многочлен
более высокого порядка.
Линейная корреляция.
Из всех корреляционных зависимостей
надо
особо
выделить
линейную
корреляцию, т.е. такую, когда точки
регрессии
располагаются
вблизи
некоторой прямой линии.
Виды регрессии
1) регрессия Y на X в виде
функциональной зависимости
y x   yx x  b ;
2) регрессия X на Y в виде
функциональной зависимости
x y   xy y  d .
Основные виды уравнений парной
регрессии
Наименование
Вид уравнения парной
формы
парной
регрессии
регрессии
Линейная
ỹ = а0 + a1x
Гиперболическая
ỹ = а0 + a1 (1/x)
Параболическая
ỹ = а 0 + a 1x + a 2x 2
ỹ-
теоретическое значение результативного
признака
а0 – свободный член уравнения
a1, a2 – коэффициенты регрессии
Выборочный коэффициент корреляции
rв
n


xy
xy  n  x  y
n x y
Выборочное уравнение прямой линии
регрессии на
Y
X
y
y x  y  rв
( x  x)
x
 1  rв  1
Выборочное уравнение прямой линии
X
Y
регрессии
на
x
x y  x  rв
( y  y)
y
 1  rв  1
Если данные наблюдений над признаками
X и Y заданы в виде корреляционной
таблицы с равноотстоящими вариантами,
то целесообразно перейти к условным
вариантам :
xi  C1
Ui 
h1
,
Vj 
y j  C2
h2
Выборочный коэффициент корреляции
rв
n


uv  n  u  v
n  u  v
uv
nu
nv


u
, v
,
u
v
n
n
 u  u  ( u) ,  v  v  ( v) .
2
2
2
2
x  u  h1  C1 , y  v  h2  C2
 x   u  h1 ,  y   v  h2 .
Скачать