Занятие 1 Основные понятия. Описательная статистика. Данные – результаты некоторого количества измерений какой-либо ПЕРЕМЕННОЙ (переменных) – variable, такой, как: - вес, длина тела, пол, окрас, температура тела ..... наблюдение популяция = генеральная совокупность выборка Важнейший вопрос: что мы можем сказать обо всей ПОПУЛЯЦИИ, если всё, что у нас есть, это лишь ВЫБОРКА из неё? ПЕРЕМЕННЫЕ Качественные nominal Ранговые Количественные ordinal (качественные, могут быть Дискретные выстроены в discrete Непрерывные последовательность) continuous Если переменная имеет несколько классов, которые отличаются друг от друга, но которым нельзя сопоставить числовые значения, мы говорим о качественных переменных. В том случае, если этим классам можно сопоставить числовые значения, то речь идет о количественных переменных. Строго говоря, является переменная качественной или количественной зависит от того, какая шкала используется для измерения данной переменной. Таких шкал четыре (Stevens, 1946) 1. Номинальная (nominal) 2. Ординальная или упорядоченная (ordinal) 3. Интервальная (interval) 4. Отношений (ratio) Непрерывные переменные: рост, вес Ани, Тани и Мани 1. Не нужно писать много знаков после запятой (ориентируются на точность измерений). 2. Если почему-то необходимо округлить числа, чётные округляют в меньшую сторону, нечётные – в большую (2.5 в 2, 3.5 в 4); Три основные концепции в анализе данных: 1. Что такое РАСПРЕДЕЛЕНИЕ переменной и как его описывать 2. Что такое распределение ВЫБОРОЧНЫХ СРЕДНИХ и как оно связано с распределением переменной 3. Что такое СТАТИСТИКА КРИТЕРИЯ Необходимо для обдумывания и обсуждения данных Частотное распределение переменной (frequency distribution) На примере непрерывной переменной Взвешиваем N кроликов Частотное распределение переменной (frequency distribution) 1. Упорядочим по возрастанию значения переменной (выстроим кроликов от меньшего к большему); 2. Напротив значений напишем, сколько раз они встретились в выборке (для непрерывной переменной разобьём их на группы по равным интервалам). Частотное распределение (frequency distribution) – это соответствие между значениями нашей переменной и их вероятностями Частотное распределение переменной (frequency distribution) Частота – то, сколько раз встретилось данное значение переменной Гистограмма – графическое представление частотного Интервалы должны быть: Частота распределения, разбитого по интервалам, где высота столбика отражает ЧАСТОТУ •одного размера, •не должны иметь общих точек. Масса кролика, кг Частотное распределение переменной (frequency distribution) Как описать непрерывное распределение? 1. По количеству «максимумов» (мод): мультимодальное унимодальное бимодальное обычно возникают, если популяция имеет естественные обособленные подгруппы Частотное распределение переменной (frequency distribution) Как описать непрерывное распределение? 2. По признаку симметрии: Симметричное Скошенное (skewed) negatively positively Частотное распределение переменной (frequency distribution) Как описать непрерывное распределение? 3. распределение асимптотическое не асимптотическое Частотное распределение переменной (frequency distribution) Нормальное распределение (Гауссово): первое знакомство Унимодальное Симметричное Асимптотическое Это непрерывное распределение Высота деревьев, масса тела новорожденных, IQ, скорость прохождения лабиринта крысами и многие, многие другие переменные Частотное распределение переменной (frequency distribution) Картинка распределения качественных или ранговых переменных трава корни плоды листва Виды пищи Оставим на некоторое время качественные и ранговые переменные и обратимся только к КОЛИЧЕСТВЕННЫМ Частотное распределение переменной (frequency distribution) Три ОСНОВНЫЕ ХАРАКТЕРИСТИКИ, которыми можно почти полностью описать большинство распределений 1. «Середина» распределения; 2. «Ширина» распределения; 3. Форма распределения «Середина» Мода (mode) Медиана (median) Среднее значение (mean) Частотное распределение переменной (frequency distribution) «Середина» распределения Мода (mode) – наиболее часто встречающееся значение существует и для качественных, и для ранговых переменных Частотное распределение переменной (frequency distribution) «Середина» распределения Медиана (median)– значение, которое делит распределение пополам (его площадь в т.ч.): половина значений больше медианы, половина – не больше. 1 2 3 4 5 6 7 8 9 10 11 Номера кроликов Медиана = (11+1)/2 = 6 Имеет смысл для ранговых и количественных переменных, но не для качественных Частотное распределение переменной (frequency distribution) «Середина» распределения Среднее значение – сумма всех значений переменной, делённая на количество значений *«balancing point» method Среднее для выборки X X i n i Среднее для популяции X N Частотное распределение переменной (frequency distribution) «Середина» распределения Мода, медиана и среднее СОВПАДАЮТ для симметричного унимодального распределения ЗАРПЛА ЧАСТ ТА, $ ОТА 200000 1 20000 1 19000 1 14000 3 К появлению перекоса чувствительнее всего среднее значение Частотное распределение переменной (frequency distribution) «Ширина» распределения = Разброс* Размах (range) Стандартное отклонение (standard deviation) Дисперсия (variance) Размах (range) – разность между максимальным и минимальным значениями = Xn – X1 Хорош тем, что легко считается и имеет «биологический смысл». Плох тем, что зависит лишь от 2-х точек из всего распределения * Это лишь основные параметры разброса Частотное распределение переменной (frequency distribution) Разброс распределения Стандартное отклонение (standard deviation) Для выборки: s (X i X) i n 1 Поправка на то, что в выборке разброс всегда будет меньше, чем во всей популяции Для популяции: 2 (x i ) 2 i n Сумма квадратов (sum of squares = SS) Стандартное отклонение зависит ото всех значений переменной Частотное распределение переменной (frequency distribution) Разброс распределения Стандартное отклонение (standard deviation): для нормального распределения = дистанции от среднего значения до каждой из точек перегиба Стандартное отклонение измеряется в тех же единицах, что и переменная! s s Частотное распределение переменной (frequency distribution) Разброс распределения Дисперсия (variance) Для выборки: s 2 2 ( X X ) i i n 1 Для популяции: 2 2 ( x ) i i n Равна стандартному отклонению в квадрате и содержит почти ту же информацию; измеряется в единицах переменной, возведённых в квадрат (что не всегда удобно). Дисперсия используется скорее в различных статистических тестах, а не в описательной статистике Частотное распределение переменной (frequency distribution) Другие параметры распределения: Процентили Квартили (quartiles) делят распределение на четыре части так, что в каждой из них оказывается поровну значений (2-я квартиль = медиана). 1-я квартиль = 25% процентиль 3-я квартиль = 75% процентиль Интерквартильный размах – разница между третьей и первой квартилями. Коэффициент вариации (Coefficient of variation) s 100 CV X Частота Частотное распределение переменной (frequency distribution) 6 5 4 3 2 1 25% 25% 25% Квартиль 1 25% Квартиль 3 медиана Значение переменной Частотное распределение переменной (frequency distribution) Процентили и z-оценка 95% процентиль – значение переменной, левее которого находится 95% значений переменной 95% Частотное распределение переменной (frequency distribution) Процентили и z-оценка Z-оценка (z-scores) – переменная, соответствующая количеству стандартных отклонений относительно среднего значения выборка точка перегиба XX z s популяция z Z-оценка X Частотное распределение переменной (frequency distribution) «Площадь распределения» Площадь, которую занимает график распределения, соответствует количеству измерений в выборке. частота Отрезая часть распределения на графике, мы отделяем эквивалентную часть от выборки 16% площади распределения ~ 16% объёма выборки масса, кг Частотное распределение переменной (frequency distribution) Площадь нормального распределения Нормальное распределение определяется лишь 2-мя параметрами – μ и σ . 1 f e 2 1 X 2 ( ) 2 Необыкновенное свойство: Относительные площади под участками нормального распределения всегда одинаковы! Частотное распределение переменной (frequency distribution) Площадь нормального распределения Откладывая от среднего значения стандартное отклонение (в ту или другую сторону) мы всегда отрезаем строго определённую долю популяции, приблизительно: Z-оценка (количество стандартных отклонений) Пример с IQ (μ=100, σ=15) Частотное распределение переменной (frequency distribution) Площадь нормального распределения Распределение выборочных средних (sampling distribution of the means) Три основные концепции в анализе данных: 1. Что такое РАСПРЕДЕЛЕНИЕ переменной и как его описывать 2. Что такое распределение ВЫБОРОЧНЫХ СРЕДНИХ и как оно связано с распределением переменной 3. Что такое СТАТИСТИКА КРИТЕРИЯ популяция выборка Мы ловим 4-х кроликов и считаем их среднюю массу; ловим ещё 4-х, снова считаем среднюю массу, опять ловим…. популяция Распределение выборочных средних (sampling distribution of the means) Выборка должна быть РЕПРЕЗЕНТАТИВНОЙ, т.е. её свойства должны отражать свойства популяции. Для этого она должна быть СЛУЧАЙНОЙ (random) – т.е., все особи в популяции должны иметь одинаковые шансы клетка попасть в неё. Пример: если в одну группу поместить зверьков, которые первыми вышли из клетки, а в другую – тех, кто в ней остался, выборки буду неслучайными Распределение выборочных средних (sampling distribution of the means) Ещё раз центральный статистический вопрос: что мы можем сказать обо всей ПОПУЛЯЦИИ, если всё, что у нас есть, это лишь ВЫБОРКА из неё? На ферме живёт 1000 кроликов, которые содержатся в 25-и вольерах по 22 зверька. Средняя масса кролика – μ=50 кг, σ = 4 кг. Посчитаем средние массы для каждой вольеры! ….. Форма распределений маленьких выборок не обязательна должна удовлетворять критериям нормального распределения. Распределение выборочных средних (sampling distribution of the means) Мы посчитали средние массы кроликов в КАЖДОЙ вольере, и теперь построим распределение из этих СРЕДНИХ значений! 1.2 5 40 45 50 55 60 50 Оно будет намного УЖЕ распределения всех кроликов на ферме, и уже, чем каждое из распределений из отдельных вольер Это и будет распределение выборочных средних (sampling distribution of the means) Распределение выборочных средних (sampling distribution of the means) Популяция Выборка Распределение (вся ферма) (из вольеры) выборочных средних стандартное отклонение среднее X X s >> X Стандартная ошибка среднего (Standard error = SE) Распределение выборочных средних (sampling distribution of the means) ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА Определяет форму, среднее и разброс в распределении выборочных средних • Форма: с увеличение размера выборок (вольер) распределение выборочных средних приближается к нормальному распределению (независимо от формы распределения популяции). • Среднее: среднее значение в распределении средних равно среднему значению в популяции, т.е., X • Разброс: распределение выборочных средних уже распределения популяции на n , где n – объём выборки, т.е. SE X Пример с монеткой n Распределение выборочных средних (sampling distribution of the means) Следствие: если некоторая величина отклоняется от среднего под воздействием слабых, независимых друг от друга факторов, она имеет нормальное распределение. Поэтому оно так широко распространено в природе! Распределение выборочных средних (sampling distribution of the means) Использование распределения выборочных средних Из нашей выборки мы получили среднее значение X. Насколько оно близко истинному среднему значению во всей популяции? Мы знаем, что для нормального распределения существует z-оценка, значениям которой соответствуют однозначно определённые площади распределения. Но мы также знаем, что выборочные средние образуют нормальное распределение!! Распределение выборочных средних (sampling distribution of the means) 1.2 5 -2 -1 0 1 2 Z - оценка 0 Z - оценка Вопрос: какая часть ОСОБЕЙ имеет массу больше 55 кг? Другой вопрос: какая часть ВЫБОРОК имеет СРЕДНЮЮ массу больше 55 кг? Пример про бутылки с кока-колой Оценка параметров популяции на основе свойств выборки Мы посчитали среднюю массу кроликов в одной вольере, но на самом деле нас интересует средняя масса всех кроликов! Решим обратную задачу: Пусть мы изначально знаем среднюю массу кроликов на ферме и стандартное отклонение в популяции. Как оценить среднюю массу в одной из вольер? Построим распределение выборочных средних! Вспомним, что оно – нормальное, а его среднее значение соответствует среднему в популяции. Зная стандартное отклонение в нем 1.2 (=SE!!) можем рассчитать интервал, в который попадёт 95% (99%) всех средних масс в вольерах: zcv0.0 5 1.96 -2 -1 0 1 μ 2 cv – critical value Оценка параметров популяции на основе свойств выборки 95% доверительный интервал (95% confidence interval): интервал значений переменной, который с вероятностью 95% содержит нужный параметр. Т.е., расстояние от выборочного среднего до среднего значения в популяции в 95% выборок не больше 1.96 SE Вернёмся к исходной задаче: Как оценить среднюю массу в популяции, если нам известно среднее в выборке?? Расстояние от среднего в выборке до (неизвестного) среднего в популяции с вероятностью 95% не больше 1.96 SE Оценка параметров популяции на основе свойств выборки Вопрос: где расположено μ? Ответ: я точно не знаю, но наиболее вероятно – в пределах ± 2-х стандартных ошибок среднего (SE) X zcv0.05 ( X ) X zcv0.05 ( X ) Чем больше уровень достоверности – 99%, 99,9%... (= доверительный уровень) тем ШИРЕ будет интервал Вопрос: где расположено μ? Ответ: я совершенно уверен, что оно лежит в пределах... от до В примере нам было известно σ, но на практике оно обычно неизвестно! Оценка параметров популяции на основе свойств выборки Мы не знаем стандартное отклонение в популяции, и оцениваем его через стандартное отклонение в выборке – поэтому, доверительный интервал должен быть ШИРЕ, чем при известном σ. И поправка (t вместо z-оценки) будет зависеть от РАЗМЕРА ВЫБОРКИ (число степеней свободы df = n-1) s (X i X) i n 1 df 2 s SE s X n (x i ) i n 2 t-критерий Стьюдента — общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках. t-статистика строится обычно по следующему общему принципу: в числителе случайная величина с нулевым математическим ожиданием (при выполнении нулевой гипотезы), а в знаменателе — выборочное стандартное отклонение этой случайной величины, получаемое как квадратный корень из несмещенной оценки дисперсии. t-распределение (Стьюдента) df=k t df При больших (>30) размерах выборок приближается к нормальному Гипотеза – предположение о свойстве популяции (каком-либо параметре, форме распределения…). Тестирование гипотезы (hypothesis testing) – – процедура, в которой мы решаем, принять гипотезу («accept») или отвергнуть (reject). Предполагается, что мы формулируем гипотезу ДО сбора данных. Пример: Мы хотим знать, являются ли студенты МГУ случайной выборкой из популяции с IQ μ=100. ? Примечание. На самом деле мы никогда не можем действительно принять гипотезу: можем либо отвергнуть, либо не иметь достаточных оснований, чтобы её отвергнуть. Тестирование гипотез в статистике Очевидно, ДА Различия неочевидны Очевидно, НЕТ Тестирование гипотез в статистике Гипотеза формулируется о свойствах ПОПУЛЯЦИИ = генеральной совокупности, (предположения о самой выборке легко проверить без статистики). Опровергнуть гипотезу в принципе легче, чем подтвердить (пример с IQ=100,2). Формулируем ДВЕ взаимоисключающие гипотезы: H0 (нулевая гипотеза, null hypothesis) – её мы собираемся опровергать; обычно говорит, что нет различий, нет эффекта, нет изменений… H1 (альтернативная гипотеза, alternative hypothesis) – её мы примем, если удастся отвергнуть H0 . Решение о том, принять или отвергнуть гипотезу принимается на основе статистики критерия (test statistic). ANOVA Сравнение ДВУХ И БОЛЕЕ групп Дисперсионный анализ ANOVA (analysis of variance) Sir Ronald Aylmer FISHER ANOVA Мы тестировали гипотезы о среднем значении для одной и двух выборок. Как быть, если выборок три или больше? Предположим, у нас 4 группы тигров, которых кормят поразному. Различается ли средняя масса тигра в этих группах? ANOVA исследования значимости различий в средних значениях. В отличие от t-критерия, позволяет сравнивать средние значения трех и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. Чем дальше друг от друга отстоят средние значения в группах, тем меньше вероятность, что верна Н0 В t-тесте сходство выборочных средних оценить легко – просто посчитать разность. Но с 3-мя (4, 5...) группами так не получится! Корреляции. Регрессионный анализ КОРРЕЛЯЦИИ (correlation) До сих пор нас в наших выборках интересовала только одна зависимая переменная. Мы изучали, отличается ли распределение этой переменной в одних условиях от распределения той же переменной в других условиях. Настало время обратиться к ситуации, когда зависимых переменных будет ДВЕ и более. Это могут быть измерения одной особи или связанных пар. Корреляции Мы исследуем жёлтых сусликов. И хотим узнать, не связаны ли между собой у них масса и длина хвоста? Переменные – 1. масса; 2. длина хвоста. Корреляции Вопрос: в какой степени две переменные СОВМЕСТНО ИЗМЕНЯЮТСЯ? (т.е., повлечёт ли за собой увеличение одной переменной увеличение или уменьшение другой, или не повлечёт) КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ характеризует силу связи между переменными. ЭТО ПРОСТО ПАРАМЕТР ОПИСАТЕЛЬНОЙ СТАТИСТИКИ Большой коэффициент корреляции между массой тела и длиной хвоста позволяет нам предсказывать, что у большого суслика, скорее всего, и хвост будет длинным Корреляции Коэффициент корреляции 1. Может принимать значения от -1 до +1 2. Знак коэффициента показывает направление связи (прямая или обратная) 3. Абсолютная величина показывает силу связи 4. всегда основан на парах чисел (измерений 2-х переменных от одной особи или 2-х переменных от разных, но связанных особей) r – в случае, если мы характеризуем ВЫБОРКУ - если мы характеризуем ПОПУЛЯЦИЮ Корреляции Рост братьев: коэффициент корреляции r -? Петя Гриша 1. r=1.0: если Петя высокого роста, значит, Гриша тоже высокий, это не предположение, а факт. 2. r=0.7: если Петя высокий, то, скорее всего, Гриша тоже высокий. 3. r=0.0: если Петя высокий, то мы… не можем сказать росте Гриши НИЧЕГО. Корреляции Скаттерплот (= диаграмма рассеяния; scatterplot, scatter diagram) Главное – наклон (направление связи) и ширина (сила связи) воображаемого эллипса Корреляции r=0.90 r=-0.90 r=0.00 r=0.40 Корреляции Коэффициент корреляции Пирсона (Pearson product-moment correlation coefficient r) Karl Pearson (1857 –1936 ) Корреляции Коэффициент корреляции Пирсона суслик вес хвост Дима 72 160 Гриша 66 144 Миша 68 154 Коля 74 210 Федя 68 182 Рома 64 159 68,7 168,2 r z X i zYi z – оценки (см. занятие 1) n 1 число строк (сусликов) Xi X zXi sX Yi Y zYi sY стандартное стандартное отклонение для веса отклонение для хвоста для каждого X и Y (для каждого суслика) Корреляции z r X zY n 1 параметр ВЫБОРКИ z X zY N параметр ПОПУЛЯЦИИ Всё как для других параметров описательной статистики: среднего, дисперсии, и т.д.! Что определяет z z ? X Y Корреляции Чем определяются знак и величина коэффициента корреляции? Знаком и величиной здесь Y больше среднего, а X меньше: их произведение <0 здесь и X, и Y меньше среднего: их произведение >0 z X zY : здесь и X, и Y больше среднего: их произведение >0 здесь X больше среднего, а Y меньше: их произведение <0 Корреляции Создаётся впечатление, что близкий к нулю коэффициент корреляции говорит о том, что связи между переменными нет или почти нет. Здесь и впрямь её нет НО это не всегда так, есть исключения. Корреляции Факторы, влияющие на коэффициент корреляции 1. Коэффициент корреляции Пирсона оценивает только линейную связь переменных! И он не покажет нам наличие нелинейной связи r=0.00 Здесь связь переменных есть, и она очень сильная, но r=0.00 Корреляции Корреляции 2. Необходимо, чтобы у переменных была значительная изменчивость! Если сформировать выборку изначально однотипных особей, нечего надеяться выявить там корреляции. Корреляции 3. Коэффициент корреляции Пирсона очень чувствителен к аутлаерам. I'm not an outlier; I just haven't found my distribution yet! Ronan Conroy Корреляции Коэффициент корреляции Пирсона – параметр выборки. Можем ли мы на основе него судить о популяции? Просто глядя на коэффициент – НЕТ. Correlation between each x and y = 0.816 Корреляции Мы хотим оценить коэффициент корреляции в популяции. H0 : ρ=0 H1: ρ≠0 (альтернативная гипотеза может быть односторонней) Связаны ли у сусликов масса тела и длина хвоста? Корреляции Статистика = параметр выборки – параметр популяции стандартная ошибка параметра выборки r t sr r t sr стандартная ошибка коэффициента корреляции Корреляции В статьях обычно приводят сам коэффициент корреляции Пирсона (значение t не столь обязательно). Он сам и является показателем практической значимости (effect size) корреляции. Cohen, 1988: ρ = 0.1 - слабая корреляция; ρ = 0.3 – корреляция средней силы; ρ = 0.5 - сильная корреляция. Корреляции частота Требование к выборке для тестирования гипотезы о коэффициенте корреляции Пирсона: Для каждого X значения Y должны быть распределены нормально, и для каждого Y все X должны иметь нормальное распределение - двумерное нормальное распределение (bivariate normal distribution) значение признака Корреляции Непараметрические тесты для ассоциаций (ранговые) 1. Коэффициент корреляции Спирмана (Spearman rank order correlation) Связана ли дистанция расселения с индексом упитанности у мыши? Переменные – 1. дистанция расселения; 2. индекс упитанности (ранговый) Корреляции Для нашей задачи не годится коэффициент корреляции Пирсона: одна из переменных ранговая! Коэффициент корреляции Спирмана: 1. Ранжируем данные для каждой переменной от меньшего к большему; 2. Если встретились одинаковые значения (tied ranks), присваиваем им средние ранги; 3. Считаем разности рангов в каждой строчке (паре); 4. Считаем коэффициент rs rs 1 6 D 2 i n(n 2 1) разности рангов число строк (размер выборки) Корреляции H0 : ρs=0 H1: ρs≠0 Статистика критерия – сам коэффициент корреляции Спирмана (имеет t-распределение) Коэффициент Спирмана – аналог коэффициента корреляции Пирсона, стремится к нему в больших выборках. Подходит для 2-х и более переменных, лучший для дробных количественных признаков. Размер выборки ≥ 10. 2. Коэффициент корреляции Кендалла (Kendall’s coefficient of rank correlation, Kendall-τ) Он оценивает разность между вероятностью того, что порядок данных в обеих переменных одинаков, и вероятностью того, что порядки разные. Считается совсем не так, как коэффициент Спирмана. Связана ли дистанция расселения с упитанностью у экзотических зелёных мышей? Только для ранговых переменных! Для количественных лучше коэффициент Спирмана 3. Гамма-статистика (Gamma) Почти как коэффициент корреляции Кендалла, её лучше использовать, если в выборке много совпадающих значений (tied ranks) - она их учтёт. Ближе к коэффициенту Кендалла (тоже оценивает вероятность совпадений). 3. Коэффициент конкордантности Кендалла (Kendall’s coefficient of concordance) Используется для сравнения ранговых признаков например, при сравнении мнений разных экспертов (6 детей и 3 типа пирожных). Переменных может быть 3 и более Считается он на основе среднего всех коэффициентов корреляции Спирмана. Петя Гриша Гурвинек РЕГРЕССИОННЫЙ АНАЛИЗ Рост братьев. Петя Гриша r=0.7: если Петя высокий, то, скорее всего, Гриша тоже высокий. Но можем ли мы предсказать, насколько высокий? Сам коэффициент корреляции этого нам не скажет. Ответ нам даст РЕГРЕССИОННЫЙ АНАЛИЗ. Регрессии Регрессионный анализ предсказывает значение одной переменной на основании другой. Для этого в линейной регрессии строится прямая – линия регрессии. Линейная регрессия: Даёт нам правила, определяющие линию регрессии, которая лучше других предсказывает одну переменную на основании другой. По оси Y располагают переменную, которую мы хотим предсказать, а по оси Х – переменную, на основе которой будем предсказывать. Предсказанное значение Y обычно обозначают как Yˆ Регрессии То есть, РЕГРЕССИЯ (regression) – предсказание одной переменной на основании другой. Одна переменная – независимая (independent), а другая – зависимая (dependent). Пример: скорость набора веса у бегемота растёт с увеличением продолжительности кормления; долго кормившийся бегемот быстрее набирает вес КОРРЕЛЯЦИЯ (correlation) – показывает, в какой степени две переменные СОВМЕСТНО ИЗМЕНЯЮТСЯ. Нет зависимой и независимой переменных, они эквивалентны. Пример: длина хвоста у суслика коррелирует положительно с его массой тела ЭТО НЕ ОДНО И ТО ЖЕ! Регрессии Мы изучаем поведение бегемотов в Африке. Мы хотим узнать, как связана длительность кормления со скоростью набора веса у этих зверей? У нас две переменные – 1. длительность кормления в день (independent); 2. скорость набора веса в день (dependent) 20 часов в день 5 часов в день 1 час в день прибавка в весе в день длительность кормления прибавка в весе в день прибавка в весе в день Регрессии Мы ищем прямую, которая наилучшим образом будет предсказывать значения Y на основании значений Х. длительность кормления длительность кормления Регрессии Простая линейная регрессия (linear regression) Y – зависимая переменная X – независимая переменная a и b - коэффициенты регрессии Yˆi bX i a b – характеризует НАКЛОН прямой; это самый важный коэффициент; a – определяет точку пересечения прямой с осью OY; не столь существенный (intercept). Пояснить размерность b и a Регрессии Задача сводится к поиску коэффициентов a и b. sX br sY стандартные отклонения для X и Y коэффициент корреляции Пирсона! Y bX a a Y bX Линия регрессии всегда проходит через точку есть через середину графика. ( X , Y ), то b – определяет, насколько изменится Y на единицу X; имеет тот же знак, что и r. Пример с кол-вом удобрения на каждый кг помидоров Прибавка в весе в день Регрессии Y Yˆi bX i a X Длительность кормления Регрессии Если r=0.0, линия регрессии всегда горизонтальна. Чем ближе r к нулю, тем труднее на глаз провести линию регрессии. А чем больше r, тем лучше предсказание. Важная особенность нашего предсказания: предсказанное значение Y всегда ближе к среднему значению, чем то значение X, на основе которого оно было предсказано – регрессия к среднему. Пример про Dr. Nostat, который отобрал 100 самых глупых учеников, подверг их специальной программе и потом протестировал повторно, и их IQ оказался в среднем выше. Пример про очень умную 5-летнюю девочку Регрессии Линия регрессии в стандартной форме a Y bX sX br sY a = 0, b = r Yˆz rXˆ z (математическое объяснение регрессии к среднему) Регрессии «Лучшая» линия регрессии Ошибка предсказания (residual) = «остатки» прибавка в весе в день ei Yi Yˆi длительность кормления e положительно для точек над прямой и отрицательно для точек под прямой. Регрессии Как определить «лучшую» линию регрессии? Метод наименьших квадратов: линию регрессии подбирают такую, чтобы общая сумма квадратов ошибок (residuals) была наименьшей. e i 0 2 e i - минимальна Регрессии Насколько хорошо «лучшая» линия регрессии предсказывает Y? Чем меньше стандартное отклонение ошибок ei (standard error of estimate), тем точнее предсказание (потому, что оно напрямую зависит от размера самих ошибок). se 2 ( e e ) i n2 2 e i se sY 1 r n2 2 зависит от квадрата коэффициента корреляции n 1 n2 1 Регрессии Чем больше коэффициент корреляции, тем меньше стандартное отклонение ошибки, и наоборот. Важное требование к выборке: размер этой стандартной ошибки должен быть независимым от Х. Квадрат коэффициента корреляции Пирсона называется коэффициент детерминации (coefficient of determination) r2 или R2. Определяет, какую долю изменчивости зависимой переменной объясняет независимая переменная (т.е., насколько точно предсказание). Насколько велик или мал коэффициент корреляции 0.3? 0.32 = 0.09, независимая переменная объясняет только около 1/10 изменчивости зависимой переменной. Регрессии Для любого значения Xi Y должна иметь нормальное распределение То есть прибавка в весе для всех бегемотов, кормившихся по 20 часов в день имеет нормальное распределение 20 часов в день Регрессии Требования к выборке для построения линии регрессии 1. Ожидаемая зависимость переменной Y от X должна быть линейной. 2. Для любого значения Xi Y должна иметь нормальное распределение. 3. Для любого значения Xi выборки для Y должны иметь одинаковую дисперсию (homoscedasticity). 4. Для любого значения Xi выборки для Y должны быть независимы друг от друга. Регрессии Тестирование гипотезы в регрессионном анализе: отличен ли от нуля наклон линии регрессии? Н0: bpopulation = 0 bpopulation часто обозначается как , в т.ч. в Statistica Если r достоверно отличается от нуля, то и b ≠ 0! То есть, если мы отвергаем H0 о том, что r=0, то эта гипотеза отвергается автоматически. Сравнение двух линий регрессии 1. Сравнение коэффициентов наклона b1 b2 2. Сравнение коэффициентов сдвига a1 и a2 На основе критерия Стьюдента 3. Сравнение двух линий регрессии в целом (предполагается, что если линии для 2-х выборок у нас сильно различаются, и мы объединим выборки, то общая линия по этим двум выборкам будет хуже описывать изменчивость, остаточная дисперсия будет больше) – на основе F-критерия линии регрессии Трансформация в регрессии В случае, если наши переменные связаны друг с другом принципиально не линейной зависимостью: 1. можно трансформировать данные и привести зависимость к линейной; 2. Можно угадать или как-то предположить функцию, которая их связь отражает и потом сравнить данные с ней 1. у работников телевидения создалось впечатление, что в компании BBC новости идут слишком долго по сравнению с Американским телевидением. Чтобы это выяснить, сотрудники выбрали по 20 выпусков новостей из Британии и США, и измерили длительность (мин). Верно ли предположение работников? Н0? Статистический критерий? 2. исследователь решил узнать, как зависит размер дома у семьи от дохода семьи (в год). Собрал данные от 50 семей. Н0? Статистический критерий? Как изменится результат теста, если доходы семей увеличатся каждая на 5000$ в год? 3. педиатры изучают прибавку в весе у младенцев (её оценивают как разницу в массе ребёнка в 2 мес и при рождении). При этом, в их выборке есть дети, которые вскармливаются искусственно, а есть те, которые находятся на грудном вскармливании. Кроме того, некоторые матери кормят младенцев по требованию, другие же – строго по расписанию. Влияют ли тип пищи и распорядок вскармливания на прибавку в весе? Н0? Статистический критерий? 4. владелец бассейна думает, что количество хлора, которое ежедневно затрачивается на то, чтобы содержать бассейн в чистоте, зависит от температуры воздуха. Он стал отмечать, сколько каждый раз у него уходит хлора на очистку, и взял из газет данные о дневных температурах. Так он делал в течение месяца. Зависит ли количество хлора от температуры? Н0? Статистический критерий? 5.Доктор Ворнер изучает, какие ярлычки с предупреждением об опасности лучше действуют (добрвольцы оценивают опасность по 100-бальной шкале). Он выбрал 40 добровольцев разбил их на 4 группы и показал им 4 типа ярлычков – красные (обычный шрифт), красные (жирный шрифт), чёрные (курсив), чёрные (заглавные буквы). Предыдущее исследование показало, что цвет ярлыка важнее, чем шрифт. Так ли это? 6. исследователь хочет узнать, насколько мнения мужчин сходны, когда они оценивают привлекательность женщин. Он выбрал двух добровольцев и показал им по 20 фотографий с девушками, попросив оценить их привлекательность от 1 до 10. Н0? Статистический критерий? Изменится ли выбор критерия, если добровольцев будет четверо?