Корреляционный и регрессионный анализ О форме корреляционной связи между X Y в виде некоторой функциональной зависимости, которая хотя бы приближенно изображала расплывчатую корреляционную зависимость. Об оценке тесноты корреляционной связи между X и Y , т.е. о степени близости корреляционной зависимости к функциональной. Регрессии Регрессией Y от X называется функциональная зависимость между значениями x и соответствующими условными средними значениями y ( x ) . Регрессии можно представить геометрически в виде ломанных линий, соединяющих или точки A ( x ; y ( x )), или точки B (x ( y ) ; y ). Эти линии называются эмпирическими (полученными из опыта) ломаными линиями регрессии. Плавную кривую можно получить и иначе, – если ломаную линию регрессии “сгладить” посредством какой-либо известной линии (прямой, параболы, гиперболы и т.п.). Уравнение сглаживающей линии даст хотя и приближенно, но аналитическое – в виде формулы – выражение регрессии. Подобные формулы называют эмпирическими 1. Выбор типа линии, выравнивающей ломанную регрессии, т.е. типа линии, около которой группируются экспериментальные точки A ( x ; y ( x ) ) или B ( x ( y ) ; y ). 2. Определение параметров, входящих в уравнение линии выбранного типа, таким образом, чтобы из множества линий этого типа взять ту, которая наиболее близко проходит около точек ломаной регрессии. Выбор типа линии, выравнивающей ломаную линию регрессии Для выбора типа линии, выравнивающей ломаную линию регрессии, необходимо хорошо знать простейшие виды линий и их уравнения. Необходимо минимизировать сумму S n 2 ( y ( x ) y ) i i i 1 где x i , yi – значения опытных данных; y( xi ) – значение функции, взятое из эмпирической зависимости в точке x i ; n– число опытов. В случае линейной эмпирической формулы сумма принимает вид n S (a; b) (axi b yi ) , 2 i 1 а в случае квадратической зависимости – следующий вид: n S (a; b; c) i 1 2 (axi 2 bxi c yi ) . 2 a xi b xi xi yi , i 1 i 1 i 1 n n a xi bn yi . i 1 i 1 n n n n n n n 4 3 2 2 a xi b xi c xi xi yi , i 1 i 1 i 1 i n1 n n n a x 3 b x 2 c x x y , i i i i i i 1 i 1 i 1 i 1 n n n 2 a xi b xi cn yi . i 1 i 1 i 1 С целью вычисления параметров a0, a1 применяют метод наименьших квадратов и решают систему уравнений n * a0 а1xi yi 2 a0 * xi а1 * xi xi * yi Значение параметров ( x i x ) * ( y i y ) а1 2 ( xi x ) a0 y а1 * x Значение параметров параметр а0 показывает усредненное влияние на результат неучтенных факторов параметр a1 характеризует, на сколько изменяется в среднем значение результата при увеличении фактора на единицу собственного измерения Тесноту и направление парной линейной корреляционной связи измеряют с помощью линейного коэффициента корреляции - r Для оценки тесноты корреляционной зависимости служит корреляционное отношение: ( yx ) 2 ( y) 2 где ( y ) – выборочная дисперсия случайной величины Y , вычисленная по всей таблице; 2 ( y x ) – дисперсия условных средних относительно общей средней, так называемая внешняя дисперсия. 2 Критерий Фишера. Fэмп 2 ост 2 воспр. ср , 2 где ост 1 n 2 ( y y ) i – n l i 1 i остаточная дисперсия; l – число коэффициентов в уравнении регрессии; y i – ордината линии регрессии в точке xi ; 2 воспр. ср – дисперсия воспроизводимости средних, равная исправленной внутренней дисперсии, деленной на число m экспериментов , по которым вычислялись условные средние y i : Характеристика связи Значения линейного коэффициента корреляции r = 1(-1) -1< r < 0 r=0 Характер связи функциональная обратная отсутствует 0<r<1 прямая Шкала Чеддока 0,1-0,3 0,3-0,5 0,5-0,7 Ir xy I 0,7-0,9 0,9-0,99 сила очень слабая умеренная заметная сильная связи сильная 2 в оспр. ср . 1 m 1 2 2 в нутр. в нутр. m m 1 m 1 Величина Fэм п имеет распределение Фишера с k1 n l и k2 n(m 1) числами степеней свободы ( n – число задаваемых экспериментатором значений величины X , m – число проводимых опытов, l – число коэффициентов в уравнении регрессии). Из таблицы критических точек распределения Фишера находим . Если Fэм п< Fкрит , уравнение регрессии адекватно. Если Fэм п > Fкрит расхождение между теоретической и эмпирической линиями регрессии значимо, уравнение не адекватно, следует взять многочлен более высокого порядка. Линейная корреляция. Из всех корреляционных зависимостей надо особо выделить линейную корреляцию, т.е. такую, когда точки регрессии располагаются вблизи некоторой прямой линии. Виды регрессии 1) регрессия Y на X в виде функциональной зависимости y x yx x b ; 2) регрессия X на Y в виде функциональной зависимости x y xy y d . Основные виды уравнений парной регрессии Наименование Вид уравнения парной формы парной регрессии регрессии Линейная ỹ = а0 + a1x Гиперболическая ỹ = а0 + a1 (1/x) Параболическая ỹ = а 0 + a 1x + a 2x 2 ỹ- теоретическое значение результативного признака а0 – свободный член уравнения a1, a2 – коэффициенты регрессии Выборочный коэффициент корреляции rв n xy xy n x y n x y Выборочное уравнение прямой линии регрессии на Y X y y x y rв ( x x) x 1 rв 1 Выборочное уравнение прямой линии X Y регрессии на x x y x rв ( y y) y 1 rв 1 Если данные наблюдений над признаками X и Y заданы в виде корреляционной таблицы с равноотстоящими вариантами, то целесообразно перейти к условным вариантам : xi C1 Ui h1 , Vj y j C2 h2 Выборочный коэффициент корреляции rв n uv n u v n u v uv nu nv u , v , u v n n u u ( u) , v v ( v) . 2 2 2 2 x u h1 C1 , y v h2 C2 x u h1 , y v h2 .