ЛЕКЦИЯ 27 Корреляционный анализ. Свойства коэффициента корреляции.

advertisement
ЛЕКЦИЯ 27
Корреляционный анализ. Свойства коэффициента корреляции.
Поле корреляции. Корреляционное отношение.
Цель: Изучение основных положений корреляционного анализа.
Задачи:
1. Дать понятие статистической зависимости.
2. Рассмотреть кривые регрессии.
3. Сформулировать основные положения корреляционного анализа.
4. Привести свойства коэффициента корреляции.
5. Дать определение корреляционного отношения.
6. Ввести понятие поля корреляции.
Желаемый результат: Студенты должны основы корреляционного
анализа.
Учебные вопросы:
1. Статистическая зависимость.
2. Кривые регрессии.
3. Коэффициент корреляции.
4.
Корреляционное отношение.
5.
Поле корреляции.
Определение формы связи
Связи между различными явлениями в природе, сложны и многообразны,
однако их можно определенным образом классифицировать. В технике и естествознании часто речь идет о функциональной зависимости. В реальном мире
многие явления природы происходят в обстановке действия многочисленных
факторов, влияние которых мало, а число их велико. В этом случае связь теряет
свою однозначность и речь может идти о так называемой статистической связи.
Определение. Статистической называют зависимость, при которой измене1
ние одной из величин влечет изменение распределения другой.
В частности, статистическая зависимость проявляется в том, что при изменении одной из величин изменяется среднее значение другой; в этом случае
статистическую зависимость называют корреляционной. Знание статистической зависимости между случайными переменными имеет широкое практическое значение. С её помощью можно прогнозировать значение зависимой случайной переменной в предложении, что независимая переменная примет определенное значение. Прогнозы могут быть любыми, в том числе и ошибочными.
Применяя некоторые вероятностные методы, можно вычислить вероятность
того, что ошибка прогноза не выйдет за определенные границы.
Определить формулу связи - значит выявить механизм получения зависимой случайной переменной. При изучении статистических зависимостей формул связи можно характеризовать функцией регрессии (линейной, квадратной
и показательной).
Условное математическое ожидание М(y/x=x) случайной переменной У,
рассматриваемое как функция x, т.е. М(y/x=x)=φ(x) называется функцией регрессии случайной переменной У относительно X (или функцией регрессии У
по X) Точно также М(x/y=x)=φ(y) называется функцией регрессии случайной
переменной Х относительно У(или функцией регрессии X по У).
Функция регрессии имеет важное значение при статистическом анализе
зависимостей между переменными и может быть использована для прогнозирования одной из случайных переменных, если известно значение другой случайной переменной. Несмотря на важность понятия функции регрессии, возможности её практического применения весьма ограничены. Для оценки функции
регрессий необходимо знать аналитический вид двумерного распределения (X
;У). Только в этом случае можно точно определить вид функции регрессии, а
затем оценить параметры двумерного распределения. Для характеристики формы связи при изучении зависимости используют понятие кривой регрессии.
Определение. Кривой регрессии У по X называют условное среднее значение случайной величины У, рассматриваемое как функция определенного
2
класса, параметры которой находят методом наименьших квадратов по наблюдаемым значениям двумерной случайной величины (Х; У), т.е.
y ( x)   ( x, b1, b2 ,...,bm .
Аналогично определяется кривая регрессии X по У (Х на У)
x ( y)   ( y, c1, c2 ,...,cm .
Кривую регрессии называют также эмпирическим уравнением регрессии
или просто уравнением регрессии.
Функция
обладает одним замечательным свойством: она дает наи-
меньшую среднюю погрешность оценки прогноза.
Основные положения корреляционного анализа
Статистические связи между переменными можно изучать методом
корреляционного и регрессионного анализа.
Основная задача корреляционного анализа - выявление связи между
случайными переменными путем точечной и интервальной оценки парных коэффициентов корреляции, вычисления и проверки значимости множественных
коэффициентов и детерминации, оценки частных коэффициентов корреляции.
Корреляционный анализ позволяет также оценить функцию регрессии одной
случайной переменной на другую. Предпосылки корреляционного анализа
следующие:
1.Переменные величины должны быть случайными.
2.Случайные величины должны иметь совместное нормальное распределение.
Рассмотрим простейший случай корреляционного анализа - двумерную модель. Введем основные понятия и опишем принцип проведения корреляционного анализа.
Пусть X и У случайные переменные, имеющие совместное нормальное распределение. В этом случае связь между X и У можно описать коэффициентом корреляции. Этот коэффициент определяется как вариация
3
между Х и У, отнесенная к их средним квадратическим отклонениям:

 х  М ( х) У  М ( у ) 
; или   М 

 х у
у
  х

К ху
(1)
Оценкой коэффициента корреляции является выборочный коэффициент
корреляции r. Для его нахождения необходимо знать оценки следующих параметров: М(х), М(у), б х , б у . Наилучшей оценкой математического ожидания является среднее арифметическое, т . е .
n
хi
i 1
n
М ( х)  х  
.
Оценкой дисперсии служит выборочная дисперсия, т.е.
( хi  x )2
.
n
i 1
n
 x2  sx2  
Тогда выборочный коэффициент корреляции
( хi  x )( yi  y )
nsx s y
i 1
n
r
(2)
Коэффициент ρ называют также парным коэффициентом корреляции, а r выборочным парным коэффициентом корреляции.
При совместном нормальном законе распределение случайных величин
X и У, используя рассмотренные параметры распределения и коэффициент
корреляции, можно получить выражение для уcловного математического
ожидания, т . е . записать выражение для функции регрессии одной случайной величины по другой. Так функция регрессии У на X имеет вид;
y
y

 X  M ( x)
М   x   M ( y)  
x
x

(3)
Аналогично, функция регрессии X на У
x


М   y   M ( x)   x Y  M ( y )
y
y

(4)
4
Выражения 
y

и  x называют коэффициентами регрессии. Подставим
y
x
в (3) и (4) соответствующие оценки параметров, получим уравнения регрессии,
график которых - прямая линия, проходящая через точку С( x ; y ). Запишем
уравнения регрессии у на х и х на у:

( х  х) 

Sх

Sу
х( у )  х  r
( у  у )
Sх

у ( х)  у  r
Sу
(5)
Таким образом, в корреляционном анализе на основе оценок параметров двумерной нормальной совокупности получаем оценки тесноты связи
между случайными переменными и можем оценить регрессию одной переменной на другую. Особенностью корреляционного анализа является строго
линейная зависимость между переменными. На практике корреляционный
анализ можно применять для обработки наблюдений, сделанных на предприятиях при нормальных условиях работы, если случайные изменения свойства
сырья или других факторов вызывают случайные изменения свойств продукции
.
Свойства коэффициента корреляции
Коэффициент корреляции является одним из самых распространенных
способов измерения связи между случайными переменными. Рассмотрим некоторые свойства:
1. Коэффициент корреляции принимает значения на интервале (-1, +1).
Если коэффициент корреляции положителен, то связь между переменными также положительна и значения переменных увеличиваются или
уменьшаются одновременно. Если коэффициент корреляции имеет отрицательное значение, то при увеличении одной переменной уменьшается другая.
5
2. Коэффициент корреляции не зависит от выбора начала отсчета и единицы измерения, т . е . от любых постоянных а 1 и а 2 ,в 1 и в 2 , таких, что а 1 > 0
и а 2 >0, т.е. р(а1х+в1; а2у+в1)=рху
Таким образом, переменные X и У можно уменьшать или увеличивать в
а раз, а также вычитать или прибавлять к значениям X и У одно и то
же число в. В результате величина коэффициента корреляции не изменится.
Если коэффициент корреляции рху=0, то случайные переменные некоррелированы. Понятие некоррелированнасти не следует смешивать с понятием независимости, независимые величины всегда некоррелированы. Однако,
обратное утверждение невероятно; некоррелированные величины могут быть
зависимы и даже функционально, однако эта связь не линейная. Выборочный коэффициент корреляции вычисляют по формуле (2).
Корреляционное отношение
Определение. Полной называется дисперсия признака относительного
математического ожидания.
Так для признака У это
 y2  M Y  M (y)2 .
Дисперсию  y2 можно разложить на две составляющие, одна из которых характеризует влияние фактора X на У, другая - влияние прочих факторов.
Очевидно, чем меньше влияние прочих факторов, тем теснее связь, тем более приближенна она к функциональной.
Представим  y2 в виде:
 у2  М М ( у / х  х)  М ( у)2  М У  М ( у / х  х)2 .
Первое слагаемое обозначим  2y .
Это дисперсия функции регрессии относи-
x
тельно математического ожидания признака (в данном случае признака У), она
6
измеряет влияние признака Х на У. Второе слагаемое обозначим  2y . Это дисx
персия признака У относительно функции регрессии. Её называют также среднее из условных дисперсий или остаточной дисперсией, она измеряет влияние
на У прочих факторов.
M  y  x   M  y 
2
Определение. Отношение

обозначают  2 x , называют теоре-
2
y

y
тическим корреляционным отношением.
 2y
Таким образом,
 2y 

x
x
 y2
.
y
Часто используют величину 
y

x
  2y 

x
x
y
.
Считают, что она не может быть отрицательной. Значения величины 


x
y

y
или
x
могут также находиться лишь в пределах от нуля до единицы. Это
очевидно из последней формулы. При вычислении η2 по выборочным данным
получаем выборочное корреляционное отношение. Обозначим его €2 . Вмеs 2y
сто дисперсий в этом случае используется их оценки. Тогда ˆ 2 
x
s y2
.
Поле корреляции
На практике для вычисления оценок параметров двумерной модели удобно использовать корреляционную таблицу и поле корреляции. Пару случайных
чисел (хi, yi) можно изобразить графически в виде точки с координатами (хi, yi).
Аналогично можно изобразить весь набор случайных чисел (всю выборку). Од7
нако при большом объеме выборки это затруднительно. Задача упрощается, если выборку упорядочить, т.е. переменные сгруппировать. Сгруппированные
ряды могут быть как дискретными, так и интервальными. По осям координат
откладывают дискретные значения переменных или интервалы их изменения.
Каждую пару переменных из данной выборки изображают в виде точки с соответствующими координатами. Такое изображение корреляционной зависимости называют полем корреляции.
Y
60
50
40
30
20
10
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14
X
На рис. изображено поле корреляции для выборки состоящей из переменных пар. Если вычислить средние значения У в каждом интервале изменения X
нанести эти точки и соединить их между собой, то получим ломаную линию,
по виду которой можно судить в форме связи между переменными. В данном
случае ломаную линию можно аппроксимировать прямой линией, так как она
достаточно хорошо приближается к ней.
По выборочным данным можно построить корреляционную таблицу, в
первой строке которой указаны наблюдаемые значения X, а в первом столбце
наблюдаемые значения признака У.
На пересечении строк и столбцов находятся частоты nxy наблюдаемых пар
значений признаков
8
Y
X
10
20
30
40
ny
0,4
5
-
7
14
26
0,6
-
2
6
4
12
0,8
3
19
-
-
22
nx
8
21
13
n =60
В последнем столбце записаны суммы частот строк.
В последней отроке записаны суммы частот столбцов.
В клетке, расположенной в нижнем правом углу таблицы помещена сумма всех
частот. Очевидно ∑nx=∑ny=n. В нашем случае n=60.
Вопросы для самоппроверки:
1. Дать определение статистической зависимости.
2. Что называется кривой регрессии?
3. Что такое коэффициент корреляции?
4.
Что называется корреляционным отношением?
9
Download