Корреляционный анализ • Пусть у нас имеются n серии значений двух параметров X и Y: (x1;y1),(x2;y2),...,(xn;yn). Подразумевается, что у одного и того же объекта измерены два параметра. Нам надо выяснить есть ли значимая связь между этими параметрами. • Как известно, случайные величины X и Y могут быть либо зависимыми, либо независимыми. Существуют следующие формы зависимости – функциональная и статистическая. В математике функциональной зависимостью переменной Y от переменной Х называют зависимость вида y=f(x), где каждому допустимому значению X ставится в соответствие по определенному правилу единственно возможное значение Y. • Например, в функции Y = 2X каждому значению X соответствует в два раза большее значение Y. В функции Y = 2X2 каждому значению Y соответствует 2 определенных значения X. • Однако, если X и Y случайные величины, то между ними может существовать зависимость иного рода, называемая статистической. Дело в том, что на формирование значений случайных величин X и Y оказывают влияние различные факторы. Под воздействием этих факторов и формируются конкретные значения X и Y. Допустим, что на Х и У влияют одни те же факторы, например Z1, Z2, Z3, тогда X и Y находятся в полном соответствии друг с другом и связаны функционально. Предположим теперь, что на X воздействуют факторы Z1, Z2, Z3, а на только Y и Z1, Z2. Обе величины и X и Y являются случайными, но так как имеются общие факторы Z1 и Z2, оказывающие влияние и на X и на Y, то значения X и Y обязательно будут взаимосвязаны. • И связь это уже не будет функциональной: фактор Z3, влияющий лишь на одну из случайных величин, разрушает прямую (функциональную) зависимость между значениями X и Y, принимаемыми в одном и том же испытании. Связь носит вероятностный случайный характер, в численном выражении меняясь, от испытания к испытанию, но эта связь определенно присутствует и называется статистической. При этом каждому значению X может соответствовать не одно значение Y, как при функциональной зависимости, а целое множество значений. • Зависимость случайных величин называют статистической, если изменения одной из них приводит к изменению закона распределения другой. • Если изменение одной из случайных величин влечет изменение среднего другой случайной величины, то статистическую зависимость называют корреляционной. Сами случайные величины, связанные корреляционной зависимостью, оказываются коррелированными. • Существует два базовых инструмента, с помощью которых анализируются двухмерные данные: корреляционный анализ и регрессионный анализ, который показывает, как можно предсказать поведение одной из двух переменных или управлять ею с помощью другой. • Задача корреляционного анализа сводится к установлению направления и формы связи между признаками, измерению ее тесноты и к оценке достоверности выборочных показателей корреляции. • Корреляционная связь между признаками может быть линейной и криволинейной (нелинейной), положительной и отрицательной. Прямая корреляция отражает однотипность в изменении признаков: с увеличением значений первого признака увеличиваются значения и другого, или с уменьшением первого уменьшается второй. • Обратная корреляция указывает на увеличение первого признака при уменьшении второго или уменьшение первого признака при увеличении второго. • Примерами коррреляционной зависимости являются: зависимость массы от роста: - каждому значению роста (X) соответствует множество значений массы (Y), причем, несмотря на общую тенденцию, справедливую для средних, большему значению роста соответствует и большее значение массы – в отдельных наблюдениях субъект с большим ростом может иметь и меньшую массу. - зависимость заболеваемости от воздействия внешних факторов, например, запыленности, уровня радиации, солнечной активности и т.д. - количество (X) вводимого объекту препарата и его концентрация в крови (Y). - между показателями уровня жизни населения и процентом смертности; - между количеством пропущенных студентами лекций и оценкой на экзамене. Именно корреляционные зависимости наиболее часто встречаются в природе в силу взаимовлияния и тесного переплетения огромного множества самых различных факторов, определяющих значения изучаемых показателей. Коэффициент корреляции • Коэффициент корреляции — это показатель взаимного вероятностного влияния двух случайных величин. Коэффициент корреляции R может принимать значения от -1 до +1. Если абсолютное значение находится ближе к 1, то это свидетельство сильной связи между величинами, а если ближе к 0 — то, это говорит о слабой связи или ее отсутствии. Если абсолютное значение R равно единице, то можно говорить о функциональной связи между величинами, то есть одну величину можно выразить через другую посредством математической функции. • На практике, для вычисления коэффициента корреляции чаще используется формула ( 1.4 ) т.к. она требует меньше вычислений. Однако если предварительно была вычислена ковариация cov(X,Y), то выгоднее использовать формулу ( 1.1 ), т.к. кроме собственно значения ковариации можно воспользоваться и результатами промежуточных вычислений. • Величина cov(X,Y) называется ковариацией случайных величин X и Y или корреляционным моментом. Коэффициент ковариации характеризует степень линейной зависимости двух случайных величин Х и Y и вычисляется по формуле: • Для независимых случайных величин ковариация будет равна нулю. Однако равенство cov(X, Y) = 0 не означает в общем случае полной независимости величин X и Y, т.е. оно является необходимым, но не достаточным условием для независимости признаков. • Величина ковариации зависит от единиц измерения (изменяется, например, при переходе от метров к сантиметрам). Поэтому на практике чаще используют другой показатель — коэффициент корреляции, который является величиной безразмерной. Свойства коэффициента корреляции. 1. Модуль |г| не меняется от прибавления к X и Y постоянных слагаемых и от умножения X и Y на положительные числа, т.е. при линейных преобразованиях случайных величин: образом, .Таким коэффициент корреляции не зависит от выбора начала отсчета и единиц измерения. 2. Если одну из величин умножить на -1, то коэффициент корреляции поменяет знак. 3. Коэффициент значения в интервале корреляции принимает Коэффициент корреляции может быть равен -1 или 1, только если X и Y линейно зависят друг от друга, т.е. если существует функциональная связь у(х) = Ь0 + Ь1х. Величина |г|, близкая к 1, указывает, что зависимость между данными случайными величинами почти линейная. Значения |г|, близкие к нулю, означают, что связь между случайными величинами либо слабая, либо не носит линейного характера. Таким образом, можно сделать вывод, что коэффициент корреляции характеризует степень приближения зависимости между случайными величинами к линейной функциональной зависимости. Если распределение величин X и Y близко к нормальному, то корреляция между ними линейная и выборочный коэффициент корреляции r является надежной оценкой генерального (теоретического) коэффициента ρ. Если r > 0, то связь между переменными положительная (прямая). Иначе говоря, можно утверждать, что с точностью до случайных погрешностей величины X и Y одновременно возрастают или убывают. При r < 0 связь отрицательная (обратная), т.е. с возрастанием одной величины другая имеет устойчивую тенденцию к убыванию. Коэффициент корреляции часто используют и при связях, отличающихся от линейных. Если |г| =0,8...0,9, то, независимо от реального вида связи, можно утверждать, что она достаточно тесна для того, чтобы можно было исследовать ее форму с помощью коэффициента корреляции. Отсутствует Слабая Умеренная Значительная Сильно выраженная Очень сильная Прямая Обратная 0 (0; 0,3) [0,3; 0,5) [0,5; 0,7) 0 (0; -0,3) [-0,3; -0,5) [-0,5; -0,7) [0,7; 0,9) [-0,7; -0,9) [0,9; 1] [-0,9; -1] Ошибка при интерпретации (даже еще при подсчете) коэффициента корреляции может быть допущена и в том случае, когда выборке присутствуют аномальные значения (очевидно большие или очевидно низкие). Они могут возникать, во-первых, из-за неоднородности исследуемых элементов выборки. Вовторых, - из-за ошибок. Например, снятые показания какого-либо прибора: 0 4 2 6 6 2 9 8 25 3 8 9 1 0 5 2 4 6 35 1 Одной такой ошибки оказывается достаточно для того, чтобы коэффициент корреляции очень существенно увеличился. 4. Ложная корреляция может также возникать при неслучайном отборе наблюдений для подсчета. Этот пункт некоторым образом противоположен предыдущему (первой части). Если там утверждалось, что аномальные значения желательно исключать из рассмотрения, то этот пункт предлагает делать это с осторожностью, чтобы своим умышленным влиянием не исказить подлинное положение вещей. xk yk хk2 yk2 хkyk 1 25.2 30.8 635.04000 948.64000 776.16000 2 26.4 29.4 696.96000 864.36000 776.16000 3 26.0 30.2 676.00000 912.04000 785.20000 4 25.8 30.5 665.64000 930.25000 786.90000 5 24.9 31.4 620.01000 985.96000 781.86000 6 25.7 30.3 660.49000 918.09000 778.71000 7 25.7 30.4 660.49000 924.16000 781.28000 8 25.7 30.5 660.49000 930.25000 783.85000 9 26.1 29.9 681.21000 894.01000 780.39000 10 25.8 30.4 665.64000 924.16000 784.32000 11 25.9 30.3 670.81000 918.09000 784.77000 12 26.2 30.5 686.44000 930.25000 799.10000 13 25.6 30.6 655.36000 936.36000 783.36000 14 25.4 31 645.16000 961.00000 787.40000 15 26.6 29.6 707.56000 876.16000 787.36000 16 26.2 30.4 686.44000 924.16000 796.48000 17 26 30.7 676.00000 942.49000 798.20000 18 22.1 31.6 488.41000 998.56000 698.36000 19 25.9 30.5 670.81000 930.25000 789.95000 20 25.8 30.6 665.64000 936.36000 789.48000 21 25.9 30.7 670.81000 942.49000 795.13000 22 26.3 30.1 691.69000 906.01000 791.63000 23 26.1 30.6 681.21000 936.36000 798.66000 24 26 30.5 676.00000 930.25000 793.00000 25 26.4 30.7 696.96000 942.49000 810.48000 26 25.8 30.8 665.64000 948.64000 794.64000 k 32 31.5 31 30.5 30 29.5 29 22 23 24 25 26 27 Полученный в примере коэффициент корреляции является выборочным, так как он определен для выборок из соответствующих генеральных совокупностей. Поэтому всегда существует ошибка коэффициента корреляции. Эта ошибка - расхождение между коэффициентом корреляции выборки объемом и коэффициентом корреляции для генеральной совокупности - определяется формулами: при ;и при . Оценка достоверности коэффициента линейной корреляции осуществляется с помощью -критерия Стьюдента: . В данном случае критерий служит для проверки нулевой гипотезы о том, что значение коэффициента корреляции для генеральной совокупности равно нулю, т.е. в генеральной совокупности отсутствует корреляция. Альтернативной является гипотеза . Критическое значение определяется по таблице Стьюдента. Число степеней свободы связано с объемом выборки формулой: . Если , то нуль-гипотеза отвергается, то есть вычисленный коэффициент корреляции значимо отличается от нуля с вероятностью • Пример. Коэффициент корреляции между показателями "Толчок штанги" и "Прыжок в высоту с места" для 13 тяжелоатлетов равен 0,855. Требуется оценить достоверность коэффициента корреляции Задача 1. Оценить значимость полученного коэффициента корреляции Таблица 2 t-распределение Число степеней свободы (n-2) α = 0.1 α = 0.05 α = 0.02 α = 0.01 α = 0.002 α = 0.001 1 6.314 12.706 31.821 63.657 318.31 636.62 2 2.920 4.303 6.965 9.925 22.327 31.598 3 2.353 3.182 4.541 5.841 10.214 12.924 4 2.132 2.776 3.747 4.604 7.173 8.610 5 2.015 2.571 3.365 4.032 5.893 6.869 6 1.943 2.447 3.143 3.707 5.208 5.959 7 1.895 2.365 2.998 3.499 4.785 5.408 8 1.860 2.306 2.896 3.355 4.501 5.041 9 1.833 2.262 2.821 3.250 4.297 4.781 10 1.812 2.228 2.764 3.169 4.144 4.587 11 1.796 2.201 2.718 3.106 4.025 4.437 12 1.782 2.179 2.681 3.055 3.930 4.318 13 1.771 2.160 2.650 3.012 3.852 4.221 14 1.761 2.145 2.624 2.977 3.787 4.140 15 1.753 2.131 2.602 2.947 3.733 4.073 16 1.746 2.120 2.583 2.921 3.686 4.015 17 1.740 2.110 2.567 2.898 3.646 3.965 18 1.734 2.101 2.552 2.878 3.610 3.922 19 1.729 2.093 2.539 2.861 3.579 3.883 20 1.725 2.086 2.528 2.845 3.552 3.850 21 1.721 2.080 2.518 2.831 3.527 3.819 22 1.717 2.074 2.508 2.819 3.505 3.792 23 1.714 2.069 2.500 2.807 3.485 3.767 24 1.711 2.064 2.492 2.797 3.467 3.745 25 1.708 2.060 2.485 2.787 3.450 3.725 26 1.706 2.056 2.479 2.779 3.435 3.707 27 1.703 2.052 2.473 2.771 3.421 3.690 28 1.701 2.048 2.467 2.763 3.408 3.674 29 1.699 2.045 2.462 2.756 3.396 3.659 30 1.697 2.042 2.457 2.750 3.385 3.646 40 1.684 2.021 2.423 2.704 3.307 3.551 60 1.671 2.000 2.390 2.660 3.232 3.460 120 1.658 1.980 2.358 2.617 3.160 3.373 ∞ 1.645 1.960 2.326 2.576 3.090 3.291 Задача: Имеется связанная выборка из 11 пар значений (хk,yk): Требуется вычислить - коэффициент ковариации; - коэффициент корреляции; - проверить гипотезу зависимости случайных величин X и Y, при уровне значимости α = 0.05 k 1 2 3 4 5 xk 51.00000 13.00000 50.00000 15.00000 48.00000 13.00000 51.00000 16.00000 46.00000 12.00000 yk k 6 7 8 9 10 11 xk 47.00000 14.00000 49.00000 12.00000 60.00000 10.00000 51.00000 18.00000 52.00000 10.00000 56.00000 12.00000 yk Регрессионный анализ • Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет зависимость между исследуемыми переменными. • Последовательность этапов регрессионного анализа • Рассмотрим кратко этапы регрессионного анализа. • Формулировка задачи. На этом этапе формируются предварительные гипотезы о зависимости исследуемых явлений. • Определение зависимых и независимых (объясняющих) переменных. • Сбор статистических данных. Данные должны быть собраны для каждой из переменных, включенных в регрессионную модель. • Формулировка гипотезы о форме связи (простая или множественная, линейная или нелинейная). • Определение функции регрессии (заключается в расчете численных значений параметров уравнения регрессии) • Оценка точности регрессионного анализа. • Интерпретация полученных результатов. Полученные результаты регрессионного анализа сравниваются с предварительными гипотезами. Оценивается корректность и правдоподобие полученных результатов. • Предсказание неизвестных значений зависимой переменной. • При помощи регрессионного анализа возможно решение задачи прогнозирования и классификации. Прогнозные значения вычисляются путем подстановки в уравнение регрессии параметров значений объясняющих переменных. Решение задачи классификации осуществляется таким образом: линия регрессии делит все множество объектов на два класса, и та часть множества, где значение функции больше нуля, принадлежит к одному классу, а та, где оно меньше нуля, - к другому классу. • Задачи регрессионного анализа • Рассмотрим основные задачи регрессионного анализа: установление формы зависимости, определение функции регрессии, оценка неизвестных значений зависимой переменной. • Установление формы зависимости. • Характер и форма зависимости между переменными могут образовывать следующие разновидности регрессии: • положительная линейная регрессия (выражается в равномерном росте функции); • положительная равноускоренно возрастающая регрессия; • положительная равнозамедленно возрастающая регрессия; • отрицательная линейная регрессия (выражается в равномерном падении функции); • отрицательная равноускоренно убывающая регрессия; • отрицательная равнозамедленно убывающая регрессия. • Однако описанные разновидности обычно встречаются не в чистом виде, а в сочетании друг с другом. В таком случае говорят о комбинированных формах регрессии. Определение функции регрессии. Вторая задача сводится к выяснению действия на зависимую переменную главных факторов или причин, при неизменных прочих равных условиях, и при условии исключения воздействия на зависимую переменную случайных элементов. Функция регрессии определяется в виде математического уравнения того или иного типа. Оценка неизвестных значений зависимой переменной. Решение этой задачи сводится к решению задачи одного из типов: Оценка значений зависимой переменной внутри рассматриваемого интервала исходных данных, т.е. пропущенных значений; при этом решается задача интерполяции. Оценка будущих значений зависимой переменной, т.е. нахождение значений вне заданного интервала исходных данных; при этом решается задача экстраполяции. Обе задачи решаются путем подстановки в уравнение регрессии найденных оценок параметров значений независимых переменных. Результат решения уравнения представляет собой оценку значения целевой (зависимой) переменной. • Рассмотрим некоторые предположения, на которые опирается регрессионный анализ. • Предположение линейности, т.е. предполагается, что связь между рассматриваемыми переменными является линейной. Так, в рассматриваемом примере мы построили диаграмму рассеивания и смогли увидеть явную линейную связь. Если же на диаграмме рассеивания переменных мы видим явное отсутствие линейной связи, т.е. присутствует нелинейная связь, следует использовать нелинейные методы анализа. • Предположение о нормальности остатков. Оно допускает, что распределение разницы предсказанных и наблюдаемых значений является нормальным. Для визуального определения характера распределения можно воспользоваться гистограммами остатков. • При использовании регрессионного анализа следует учитывать его основное ограничение. Оно состоит в том, что регрессионный анализ позволяет обнаружить лишь зависимости, а не связи, лежащие в основе этих зависимостей. • Регрессионный анализ дает возможность оценить степень связи между переменными путем вычисления предполагаемого значения переменной на основании нескольких известных значений.