М.В.Дубатовская. Теория вероятностей и математическая статистика § 35. Выборочный коэффициент ранговой корреляции Кендалла и проверка гипотезы о его значимости. Пусть известны ранги объектов выборки объема n : по признаку A : x1 , x2 , ..., x n . по признаку B : y1 , y 2 , ..., y n . Допустим, что правее y1 имеется R1 рангов, больших y1 , правее y 2 имеется R2 рангов, больших y 2 , …, правее y n 1 имеется Rn 1 рангов, больших y n 1 . Пусть сумма рангов R R1 R2 ... Rn 1 . Выборочный коэффициент ранговой корреляции Кендалла определяется формулой: В 4R 1, n(n 1) где n - объем выборки, R R1 R2 ... Rn 1 . Коэффициент Кендалла имеет те же свойства, что и коэффициент Спирмена: 1) В случае полной прямой зависимости правее y1 имеется n 1 рангов, больших y1 , Rn 1 1 . R1 n 1 . R2 n 2 , поэтому Очевидно, …, Следовательно, 4n(n 1) n(n 1) 1 2 1 1. R (n 1) (n 1) ... 1 . Тогда В 2n(n 1) 2 2) В случае противоположной зависимости x1 1 , x2 2 , ..., xn n . y1 n , y2 n 1 , ..., yn 1. Правее y1 нет рангов, больших y1 , поэтому R1 0 . Очевидно R2 ... Rn 1 0 . 1. Следовательно, R 0 и В Замечание. При достаточно большом объеме выборки и при значениях ранговой корреляции, не близких к единице, имеет место приближенное равенство: rВ 3 2 В Приведем правило, позволяющее установить значимость или незначимость ранговой корреляционной связи Кендалла. При уровне значимости проверим H0 : Г 0 , H1 : Г Вычислим Tкр 0, zкр где n - объем выборки, 2(2n 5) 9n(n 1) М.В.Дубатовская. Теория вероятностей и математическая статистика z кр - критическая точка двусторонней критической области, находят ее из таблицы функции Лапласа из условия 1 . 2 Если Tкр , то нет оснований отвергнуть гипотезу В корреляционная связь между качественными признаками незначима. ( zкр ) H0 . Ранговая Если В Tкр , то нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь. § 36. Понятие о дисперсионном анализе. Пусть генеральные совокупности X1, X 2 ,...,X p распределены нормально и имеют одинаковую, хотя и неизвестную дисперсию. Математические ожидания также неизвестны, но могут быть различны. Требуется при заданном уровне значимости по выборочным средним проверить нулевую гипотезу H 0 : M ( X1) M ( X 2 ) ... M (X p) о равенстве всех математических ожиданий. Другими словами, требуется установить, значимо или незначимо различаются выборочные средние. Казалось бы, при сравнении нескольких средних их можно было бы сравнивать попарно, одно с возрастанием числа средних возрастает и наибольшее различие между ними: среднее новой выборки может оказаться больше наибольшего или меньше наименьшего из средних, полученных до нового опыта. Поэтому для сравнения нескольких средних используют другой метод, который основан на сравнении дисперсий и поэтому назван дисперсионным анализом. Метод развит английским статистиком Р.Фишером. На практике дисперсионный анализ используют, чтобы установить, оказывает ли существенное влияние некоторый качественный фактор F , который имеет p уровней F1, F2 ,...,Fp , на изучаемую СВ X . Например, требуется выяснить, какой вид удобрений наиболее эффективен для получения наибольшего урожая. В этом случае качественный фактор F - удобрение, а его уровни – виды удобрений. Основная идея дисперсионного анализа состоит в сравнении «факторной» дисперсии, порождаемой воздействием фактора, и «остаточной» дисперсии, обусловленной случайными причинами. Если различие между этими дисперсиями значимо, то фактор оказывает существенное влияние на СВ X . В этом случае средние наблюдаемых значений на каждом уровне (групповые средние) различаются также значимо. М.В.Дубатовская. Теория вероятностей и математическая статистика Если уже установлено, что фактор оказывает существенное влияние на СВ X , а требуется выяснить, какой из уровней фактора оказывает наибольшее воздействие, то дополнительно производят попарное сравнение средних. Дисперсионный анализ используют также для установления однородности нескольких совокупностей (дисперсии этих совокупностей одинаковы по предположению; если дисперсионный анализ покажет, что математические ожидания одинаковы, то в этом смысле совокупности однородны). Однородные совокупности можно объединять в одну и тем самым получить о ней более полную информацию, следовательно, и более надежные выводы. В более сложных случаях исследуют воздействие нескольких факторов на нескольких постоянных или случайных уровнях и выясняют влияние отдельных уровней и их комбинаций (т.н. многофакторный анализ).