МАТЕМАТИЧЕСКАЯ СТАТИСТИКА 3 •Основные темы • Элементы теории корреляции • Однофакторный дисперсионный анализ § Элементы теории корреляции 1. Основные понятия Зависимость величины Y от X называется функциональной, если каждому значению величины X соответствует единственное определённое значение величины Y. Зависимость величины Y от X называется статистической (вероятностной, стохастической), если каждому значению величины X соответствует не одно, а множество значений величины Y, причём сказать заранее, какое именно значение примет величина Y невозможно. Среднее значение, которое принимает величина Y при X = x, называется математическим ожиданием случайной величины Y, вычисленным при условии, что X = x, или условным математическим ожиданием: М(Y|X=x) Если при изменении x условные математические ожидания М(Y|X=x) изменяются, то говорят, что имеет место корреляционная зависимость величины Y от X. При этом функцию f (x)=М(Y|X=x) называют функцией регрессии Y на X. f (x)=М(Y|X=x) – ? f (x)=М(Y|X=x) – ? Условным средним y x называют среднее арифметическое наблюдавшихся значений Y, соответствующих X=x. Условное среднее является оценкой условного математического ожидания: М(Y|X=x) y x Каждому x соответствует своё значение y x , следовательно, y x – есть функция от x: y x f * ( x) это уравнение называется выборочным уравнением регрессии, а функция f*(x) – выборочной функцией регрессии. f ( x) f * ( x) f (x)=М(Y|X=x) – ? Если функция регрессии – линейная: f (x) = М(Y|X=x) = ax+b, то выборочное уравнение регрессии имеет вид: n xy xy nx y Y x, y – выборочy x y rв ( x x ) , где rв X n X Y ный коэффициент корреляции x, y – выборочные средние X , Y – выборочные средние квадратические отклонения nxy – частота пары вариант (x, y) 2. Выборочный коэффициент корреляции • Выборочный коэффициент корреляции может принимать значения от -1 до +1. Он сходится к теоретическому коэффициенту корреляции соответствующих случайных величин, если тот существует. • По абсолютной величине и знаку коэффициента можно судить о степени зависимости (сильной или слабой) и о её характере (положительной или отрицательной). T r n2 1 r2 Корреляционная таблица X 10 20 30 40 nY 0.4 5 – 7 14 26 0.6 – 2 6 4 12 0.8 3 19 – – 22 nX 8 21 13 18 n=60 Y • Замечание. В случае, когда нормальность данных нарушается, применение выборочного коэффициента корреляции может привести к ошибкам: • или мы не заметим зависимость между величинами, • или получим ложную зависимость. • Существуют коэффициенты и методы, свободные от предположения нормальности. 3. Ранговый критерий независимости Кендалла 4. Ранговый критерий независимости Спирмена Критерий Спирмена (ранги 1-й выборки упорядочены) Свойства выборочного коэффициента корреляции Спирмена • Свойство 1. Если между качественными признаками X и Y имеется полная прямая зависимость в том смысле, что ранги объектов совпадают при всех значениях i, то выборочный коэффициент ранговой корреляции Спирмена равен единице. Свойства выборочного коэффициента корреляции Спирмена • Свойство 2. Если между качественными признаками X и Y имеется противоположная зависимость в том смысле, что рангу 1 признака X соответствует ранг n признака Y , рангу 2 признака X соответствует ранг n - 1 признака Y и т.д, то выборочный коэффициент ранговой корреляции Спирмена равен минус единице (-1). Свойства выборочного коэффициента корреляции Спирмена • Свойство 3. Если между качественными признаками X и Y нет ни полной прямой, ни противоположной зависимости, то выборочный коэффициент ранговой корреляции Спирмена заключён между -1 и +1, причём чем ближе к нулю его абсолютная величина, тем зависимость меньше.