Лекция 4. Элементы теории корреляции. Во многих задачах требуется установить и оценить зависимость изучаемой случайной величины Y от случайной величины X. Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения другой. В частности, статистическая зависимость проявляется в том, что при изменении одной из величин изменяется среднее значение другой. В этом случае статистическую зависимость называют корреляционной. Условным средним yx называют среднее арифметическое наблюдавшихся значении Y , соответствующих X=x. Пример. Если при x1=2 величина Y приняла значения y1=5, y2=6, y3=10, то условное среднее yx=(5+6+10)/3. Выборочным уравнением регрессии Y на X называют уравнение вида yx=f(x). Случай 1. Пусть в результате n независимых опытов получены n пар чисел (x1,y1), (x2,y2),…, (xn,yn). Так как различные значения признака х и соответствующие им значения признака у наблюдались по одному разу, то нет надобности группировать данные и использовать понятие условной средней. Представим одну из величин как функцию другой. Для простоты ограничимся приближенным представлением величины Y как линейной функции величины X. Будем искать выборочное уравнение прямой линии регрессии Y на X вида: y yx x b . Угловой коэффициент ρyx прямой линии регрессии Y на X называют выборочным коэффициентом регрессии. Параметры ρxy и b подбираются так, чтобы точки (x1,y1), (x2,y2),…, (xn,yn), построенные по данным наблюдений, на плоскости xOy лежали как можно ближе к прямой y yx x b . То есть сумма квадратов отклонений (Yi – yi) должна быть минимальной. Здесь Yi - вычисленная по уравнению ордината, соответствующая xi, а yi – наблюдаемая ордината, соответствующая xi. В этом состоит сущность метода наименьших квадратов. yx n xy x y n x 2 ( x) 2 , x y x xy . b n x ( x) 2 2 2 Случай 2. (обобщенный) При большом числе наблюдений одно и тоже значение x может встретиться nx раз, одно и тоже значение y – ny раз, одна и та же пара чисел (x,y) может наблюдаться nxy раз. Поэтому данные наблюдений группируют и записывают в виде таблицы, которую называют корреляционной. Пример 10 20 30 ny 0.4 5 - 7 12 0.6 - 2 6 8 0.8 3 10 - nx 12 13 n=33 8 13 В данном случае выборочное уравнение прямой линии регрессии Y на X имеет вид y x y rв y ( x x ), x где x и y - выборочные средние, σx и σy – выборочные средние квадратические отклонения, rв – выборочный коэффициент корреляции. rв n xy xy n x y n x y . Пример Найти выборочное уравнение прямой линии регрессии Y на X по данным n=4 наблюдений x 5 9 10 12 y 3 6 4 7 Решение: Составим расчетную таблицу. xi yi xi 2 xi yi 5 3 25 15 9 6 81 54 10 4 100 40 12 7 144 84 x i 36 y i 20 x 2 i 350 x i yi 193 Вычислим параметры ρxy и b: yx xy n xy x y n x 2 ( x) 2 4 193 36 20 52 0.5 4 350 1296 104 x y x xy n x ( x) 2 b b 2 2 350 20 36 193 52 0.5 4 350 1296 104 Искомое выборочное уравнение прямой линии регрессии будет иметь вид: y 0.5 x 0.5 .