Российский Государственный Университет физической культуры, спорта, молодежи и туризма Кафедра естественно-научных дисциплин В.С. Маркарян РАСЧЁТНО-ГРАФИЧЕСКИЕ РАБОТЫ ПО КУРСУ МАТЕМАТИКИ Учебное пособие Москва 2012 2 Автор: Маркарян В.С. – кандидат технических наук, доцент кафедры естественно-научных дисциплин Российского государственного университета физической культуры, спорта, молодежи и туризма. 3 Оглавление 1.Теоретические основы…………………………………………………………4 Математическая статистика. Генеральная совокупность и выборка..…………………………………………………………………............4 Графическое представление вариационного ряда………………………8 Нормальное распределение..……………………………………………..11 Аналитический анализ. Основные статистические характеристики ряда измерений………………..………………………………………………...13 Характеристики положения….…………………………………………..13 Характеристики рассеяния результатов измерений………………........15 Характеристики формы распределения………………………………....18 2. Методика выполнения расчётно-графической работы №1………………...21 Пример 1…………………………………………………………………...23 3. Теоретические основы………………………………………………………..32 Корреляционный анализ………………………………………………….32 Определение формы связи……………………………………………….33 Определение направления взаимосвязи…………………………………34 Определение степени или тесноты взаимосвязи………………………..34 Парный линейный коэффициент корреляции Бравэ-Пирсона (r). Коэффициент детерминации (D)………………………………………….…...36 Оценка достоверности статистических показателей…………………...37 Статистические гипотезы………………………………………………...37 Виды статистических гипотез…………………………………………....38 Достоверность коэффициента корреляции……………………………...40 Регрессионный анализ…………………………………………………....41 Линейная регрессия………………………………………………………41 Расчёт коэффициентов уравнений линейной регрессии……………….42 4. Методика выполнения расчётно-графической работы №2………………...44 Пример……………………………………………………………………..46 Приложение……………………………………………………………………..53 4 1. Теоретические основы МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Генеральная совокупность и выборка Математическая статистика занимается разработкой методов сбора, описания и обработки статистических измерений (данных), т. е. результатов наблюдений, с целью получения научных и практических выводов. Статистические измерения представляют собой экспериментальные данные, полученные в результате обследования большого числа объектов или явлений, т.е. математическая статистика имеет дело с массовыми явлениями. Введем основные понятия математической статистики. Экспериментальные данные в области физической культуры и спорта представляют собой результаты измерения некоторых признаков (спортивный результат, результаты физических, психологических, биохимических, физиологических тестов) объектов, выбранных из большой совокупности объектов. Результаты измерений в математической статистике обозначаются латинскими буквами ( Х 1 , Х 2 , Х n или Y1 , Y2 Yn ). Статистической совокупностью называется множество однородных объектов, объединенных по некоторому общему отличительному признаку. Если требуется изучить некоторый признак статистической совокупности, можно провести сплошное обследование, т. е. обследование, проведенное на всей генеральной совокупности. Генеральной совокупностью называется совокупность всех однородных объектов, подлежащих изучению. Но если число объектов достаточно велико, то осуществить указанное обследование невозможно. В таком случае для изучения интересующего признака применяется выборочный метод. Сущность этого метода заключается в том, что обследованию подвергаются не все объекты совокупности, а только некоторая их часть, случайно выбранная из данной совокупности; выводы, полученные при изучении этой части, распространяются на всю совокупность объектов. Таким образом, выборочной совокупностью, или выборкой, называется совокупность объектов, случайно отобранных из генеральной совокупности. Число N объектов генеральной совокупности и число n объектов выборочной совокупности называются объёмами генеральной или выборочной совокупностей соответственно, при этом N значительно больше, чем n. Если выборку отбирают по одному объекту, который обследуют и снова возвращают в генеральную совокупность, то выборка называется повторной. Если объекты выборки уже не возвращаются в генеральную совокупность, то выборка называется бесповторной. На практике чаще используется бесповторная выборка. Если объём выборки составляет небольшую долю 5 объёма генеральной совокупности, то разница между повторной и бесповторной выборками незначительна. Как отмечалось выше, о свойствах генеральной совокупности (случайной величины Х) можно судить по данным наблюдений над отобранными объектами, т. е. по выборке. Для того чтобы по выборке можно было достаточно уверенно судить о случайной величине, выборка должна быть репрезентативной (представительной). Репрезентативность выборки означает, что объекты выборки достаточно хорошо представляют генеральную совокупность. Репрезентативность выборки обеспечивается случайностью отбора. Это означает, что любой объект выборки отобран случайно, при этом все объекты имеют одинаковую вероятность попасть в выборку. При проведении выборочных исследований предполагается, что выборка является однородной, т. е. она получена из одной генеральной совокупности, где отсутствуют объекты, резко выделяющиеся по значениям изучаемого признака. Обычно полученные выборочные данные представляют собой результаты измерений для спортсменов одного возраста, квалификации, спортивной специализации и т. п. Все результаты спортивных измерений или наблюдений классифицируются на три основные группы: Количественные характеристики - показатели, которые можно измерить с помощью любого прибора или те, которые имеют размерность. Количественные показатели могут быть дискретные (прерывные) и непрерывные. К дискретным показателям можно отнести: количество подтягиваний на перекладине, количество отжиманий из упора лежа, количество человек, участвующих в соревнованиях, число попаданий (промахов) при выстреле и т.д. Обычно дискретные показатели выражаются целыми числами. К непрерывным показателям можно отнести: рост человека, результат в беге на 100м, прыжок в высоту, длину, угол в коленном суставе и т.д. Непрерывные показатели могут быть как дробными, так и целыми числами. Порядковые характеристики - результаты, оцениваемые в баллах или очках. Например, оценки в фигурном катании, спортивной и художественной гимнастике, занятое место в соревнованиях и т.д. Эти результаты можно расположить в определенном порядке. Качественные характеристики - результаты, которые не имеют количественной оценки. Например, национальность, цвет волос, форма глаз, спортивная специализация, пол спортсмена и т.д. Эти результаты не могут быть упорядочены. Обычно полученные наблюдаемые данные представляют собой множество расположенных в беспорядке чисел. Просматривая это множество чисел, зачастую бывает трудно выявить какую-либо закономерность их варьирования (изменения). Для изучения закономерностей варьирования значений случайной величины опытные данные подвергаются обработке. При систе- 6 матизации выборочных данных используются дискретные и интервальные ряды распределений. Причём, прежде всего полученные экспериментальные данные ранжируются. Ранжирование - расположение результатов наблюдений над случайной величиной в порядке возрастания или убывания. После ранжирования опытные данные объединяются в группы, т. е. группируются. Каждое значение случайной величины, входящее в отдельную группу сгруппированного ряда, называется вариантом, а изменение этого значения – варьированием. Для каждой группы сгруппированного ряда данных можно подсчитать численность вариант, т. е. определить число, показывающее, сколько раз встречается соответствующий вариант в ряде наблюдений, это число называется частотой варианта, обозначается ni. Сумма частот вариант равна объёму выборки n. Отношение частоты варианта к объёму выборки называется относительной частотой, или частостью, обозначается рi*: рi*= ni . n Отметим, что сумма относительных частот равна единице р1*+ р2*+…+рi*= n n n1 n2 ... i 1 . n n n n Дискретным вариационным рядом распределения называется ранжированная совокупность вариантов хi с соответствующими им частотами ni или частостями рi*. Если изучаемая случайная величина является непрерывной, то ранжирование и группировка наблюдаемых значений не позволяют выявить характерные черты варьирования её значений. Нецелесообразно также построение дискретного ряда для дискретной случайной величины, число возможных значений которой велико. В этом случае следует построить интервальный вариационный ряд распределения. Для его построения весь интервал варьирования наблюдаемых значений случайной величины разбивается на ряд частичных интервалов и подсчитывается частота попадания значений величины в каждый частичный интервал. Интервальным вариационным рядом называется упорядоченная совокупность интервалов варьирования случайной величины с соответствующими частотами или частостями попаданий в каждый из них значений величины. Для построения интервального вариационного ряда прежде всего результаты эксперимента заносятся в таблицу, состоящую из трёх строк. Первая строка – нумерация показателей, вторая строка – неупорядоченная выборка (экспериментальные данные заносятся в эту строку по мере обследования объектов или явлений), третья строка таблицы представляет собой ранжированную или упорядоченную выборку (экспериментальные данные второй строки таблицы ранжируются). 7 Вся упорядоченная выборка разбивается на интервалы. Причём число интервалов определяется либо по таблице рекомендуемого числа интервалов для выборок разного объёма, приведённой ниже, либо рассчитывается по формуле Стерджеса (Sturges, 1926 г.) K 1 3,32 lg n Таблица 1 Рекомендуемое число интервалов для выборок разного объёма Объём выборки n 10-30 30-60 60-100 100-300 300-400 Число интервалов k 4-5 5-6 7 8 9 Затем определяется шаг или ширина интервала по формуле: h X max X min K , где X max - максимальное значение измеряемого показателя в упорядоченной (ранжированной) выборке; X min - минимальное значение показателя. Полученное значение шага обычно округляют в большую сторону до размерности измеряемого показателя. Нижняя граница первого интервала выбирается чуть меньшей или рав- h 2 ной минимальному значению выборки, то есть от ( X min ) до X min . После этого заполняется таблица (см. табл. 2.) по результатам выборки, которые распределены в интервалы, т. е. результаты измерений представляются в виде вариационного ряда по образцу, где количество строк зависит от количества интервалов. Таблица 2 № интервала Границы интервала Срединное значение интервала 1 2 3 Частота Накопленная частота ni 4 5 Частость рi * 6 Накопленная частость 7 В первый столбец таблицы вписывается номер интервала. Во второй столбец – границы интервала. Причем верхняя граница первого интервала определяется прибавлением шага интервала к его нижней границе. Этот результат является также и нижней границей для следующего интервала. Максимальное число верхней границы последнего интервала должно быть больше или равно максимальному значению показателя в выборке. В третий столбец вписываются срединные значения интервалов. 8 Середины интервалов являются средними арифметическими значениями границ интервалов. Причём достаточно определить середину первого интервала, прибавив к ней шаг интервала, получить середину второго интервала и т.д. Четвёртый столбец – частота (ni), т. е. количество значений, попавших в заданный интервал. Если граничный результат был учтен в интервале, то в последующем интервале учитываются значения выше граничного результата. Пятый столбец – накопленная частота, которая рассчитывается суммированием частот предыдущих интервалов. Причем в последней строке этого столбца обязательно должно быть число, равное объему выборки (n). Шестой столбец – частость (рi*), т. е. отношение частоты к объёму выборки. Седьмой столбец – накопленная частость, получаемая суммированием частостей предыдущих интервалов. В последней строке столбца 6 получается единица. Распределение измерений, представленное в столбцах 2(границы интервалов) и 4(частота) или 2(границы интервалов) и 6(частость), называется вариационным рядом. Графическое представление вариационного ряда Графическое представление результатов измерений выражается в построении трех графиков: полигона частот (рис. 1), гистограммы (рис. 2) и полигона накопленных частот (кривой сумм или кумуляты) (рис. 4). Полигон частот и гистограмма показывают распределение измеряемых показателей и их сгруппированность вокруг среднего значения. Для построения полигона частот в декартовых координатах по оси абсцисс откладываются срединные значения интервалов, а по оси ординат – соответствующие им частоты (или частости). частота 3 2 1 результат измерения середина интервала Рис. 1. Полигон частот результатов 9 Для построения гистограммы по оси абсцисс откладываются границы интервалов и на них восстанавливаются прямоугольники до уровня частот, соответствующих интервалам, отложенных по оси ординат (рис. 2). частота 3 2 1 результат измерения граница интервала Рис. 2. Гистограмма распределения результатов Если нанести на гистограмму пунктирной линией полигон распределения частот, то мы получим первоначальное представление о дифференциальной функции распределения. Таким образом, теоретическим аналогом гистограммы является плотность распределения вероятностей, или дифференциальная функция распределения (рис. 3). Рис. 3. Плотность распределения вероятностей Иначе говоря, гистограмма является экспериментальным аналогом плотности распределения вероятностей. 10 Площадь гистограммы равна сумме всех частот, т. е. объёму выборки, или сумме частостей, т. е. единице. Полигон накопленных частот показывает прирост показателей от интервала к интервалу, поэтому ее ещё называют кривой сумм или кумулятой. Для построения полигона накопленных частот по оси абсцисс откладываются верхние границы интервалов, а по оси ординат – соответствующие им накопленные частоты (или накопленные частости) (рис. 4). накопленная частота 10 9 результат измерения верхняя граница интервала Рис. 4. Полигон накопленных частот результатов Теоретическим аналогом полигона накопленных частот результатов является функция распределения, или интегральная функция распределения (рис. 5). Рис. 5. Функция распределения Иначе говоря, полигон накопленных частот результатов является экспериментальным аналогом функции распределения. 11 Таким образом, графическое представление результатов измерений выявляет закономерности их распределения и позволяет правильно выбрать последующие статистические характеристики для дальнейшего анализа полученных экспериментальных данных. Однако прежде чем перейти к дальнейшим расчётам, напомним о нормальном законе распределения. Нормальное распределение Большинство экспериментальных исследований не только в области физической культуры и спорта, но и в биологии, медицине и др. связано с измерениями, результаты которых могут принимать любые значения в заданном интервале, и описываются моделью непрерывных случайных величин, которые подчинены определённому закону распределения. Среди всех непрерывных законов распределения вероятностей особое место занимает нормальное распределение, или распределение Гаусса, как наиболее часто встречающийся вид распределения. Закон нормального распределения выражается следующей формулой: 1 f ( x) e 2 где µ - математическое ожидание; ( x )2 2 2 , 3,1416; e 2,7183 (основание натурального логарифма); x - называется нормированным отклонением. Поэтому этот закон называется законом нормального распределения, а график функции f(x) называют нормальной кривой, или кривой Гаусса (рис.6). Рис. 6. Кривая нормального распределения 12 Теорема. Математическое ожидание случайной величины Х приближённо равно среднему арифметическому всех её значений (при достаточно большом числе испытаний). Как видно из рисунка 6, график нормальной кривой представляет собой колоколообразную фигуру, симметричную относительно вертикальной прямой x , и асимптотически приближающуюся к оси абсцисс при x . Главная особенность нормального закона состоит в том, что он является предельным законом, к которому приближаются другие законы распределения. При достаточно многочисленной совокупности нормальное распределение проявляется и в эмпирическом распределении. Определение. Совокупность всех возможных значений случайной величины и соответствующих им вероятностей образует так называемое теоретическое распределение. Определение. Совокупность фактических значений случайной величины, полученных в результате наблюдений, с соответствующими частотами (или частостями) образуют эмпирическое распределение. Рассмотрим некоторые свойства нормального распределения. 1. График нормального распределения определен на всей оси ОХ, т. е. каждому значению х соответствует вполне определённое значение функции. 2. При всех значениях х (как положительных, так и отрицательных) функция принимает положительные значения, т. е. нормальная кривая расположена над осью ОХ. 3. Предел функции при неограниченном возрастании х равен нулю lim f x 0 . x Поскольку функция стремится к 0 при x , то ось абсцисс является асимптотой графика этой функции. 4. Функция в точке xmax имеет максимум, равный: 1 y max . 2 5. График кривой f(x) симметричен относительно прямой, проходящей через точку х = μ. Отсюда следует равенство для нормально распределённой величины моды, медианы и математического ожидания. 6. Коэффициенты асимметрии и эксцесса нормального распределения равны 0: 3 = 0; 3 Е 44 3 = 0. A Отсюда следует важность вычисления этих коэффициентов для эмпирических рядов распределения, т. к. они характеризуют скошенность и крутость данного ряда по сравнению с нормальным. 13 7. Изменение значений параметра (при неизменном ) не влияет на форму нормальной кривой; кривая сдвигается вдоль оси Ox вправо, если возрастает, и влево, если убывает. С изменением же значений параметра форма нормальной кривой изменяется. Максимальная ордината графика функции убывает с возрастанием значения (кривая «сжимается» к оси Ox) и возрастает с убыванием значения (кривая «растягивается» в положительном направлении оси Oy). На рис. 7. изображены три нормальные кривые при одном и том же значении и различных значениях . Рис. 7. Нормальные кривые при равных и разных Аналитический анализ. Основные статистические характеристики ряда измерений К основным статистическим характеристикам ряда измерений (вариационного ряда) относятся характеристики положения (средние характеристики, или центральная тенденция выборки); характеристики рассеяния (вариации, или колеблемости) и характеристики формы распределения. К характеристикам положения относятся среднее арифметическое значение (среднее значение), мода и медиана. К характеристикам рассеяния (вариации, или колеблемости) относятся: размах вариации, дисперсия, среднее квадратическое (стандартное) отклонение, ошибка средней арифметической (ошибка средней), коэффициент вариации и др. К характеристикам формы относятся коэффициент асимметрии, мера скошенности и эксцесс. 14 Далее приводятся формулы для расчёта основных статистических характеристик, причём предлагаются расчётные формулы как для несгруппированных данных, так и для данных, сгруппированных в интервалы. Характеристики положения 1. Среднее арифметическое значение Среднее арифметическое значение – одна из основных характеристик выборки. Она, как и другие числовые характеристики выборки, может вычисляться как по необработанным первичным данным, так и по результатам группировки этих данных. Точность вычисления по необработанным данным выше, но процесс вычисления оказывается трудоёмким при большом объёме выборки. Для несгруппированных данных среднее арифметическое определяется по формуле: n X x x1 x2 xn i 1 i , n n где n- объем выборки, х1, х2, ... хn - результаты измерений. Для сгруппированных данных: k X n x i i 1 n i , где n- объем выборки, k – число интервалов группировки, ni – частоты интервалов, xi – срединные значения интервалов. 2. Мода Определение 1. Мода - наиболее часто встречающаяся величина в данных выборки. Обозначается Мо и определяется по формуле: Mo xMoH h где xMoH - nMo nMo nMо 1 , nMo 1 nMo nMo 1 нижняя граница модального интервала, группировки, h - ширина интервала nMo - частота модального интервала, nMo1 - частота интервала, предшествующего модальному, nMo1 - частота интервала, последующего за модальным. Определение 2. Модой Мо дискретной случайной величины называется наиболее вероятное её значение. Геометрически моду можно интерпретировать как абсциссу точки максимума кривой распределения. Бывают двухмодальные и многомо- 15 дальные распределения. Встречаются распределения, которые имеют минимум, но не имеют максимума. Такие распределения называются антимодальными. Определение. Модальным интервалом называется интервал группировки с наибольшей частотой. 3. Медиана Определение. Медиана - результат измерения, который находится в середине ранжированного ряда, иначе говоря, медианой называется значение признака Х, когда одна половина значений экспериментальных данных меньше её, а вторая половина – больше, обозначается Ме. Когда объем выборки n - четное число, т. е. результатов измерений четное количество, то для определения медианы рассчитывается среднее значение двух показателей выборки, находящихся в середине ранжированного ряда. Для данных, сгруппированных в интервалы, медиану определяют по формуле: Me xMeН h 0,5n nxMe 1 , nMe где xMeН - нижняя граница медианного интервала; h ширина интервала группировки, 0,5n – половина объёма выборки, nMе - частота медианного интервала, nxMе1 - накопленная частота интервала, предшествующего медианному. Определение. Медианным интервалом называется тот интервал, в котором накопленная частота впервые окажется больше половины объёма выборки (n/2) или накопленная частость окажется больше 0,5. Численные значения среднего, моды и медианы отличаются, когда имеет место несимметричная форма эмпирического распределения. Характеристики рассеяния результатов измерений Для математико-статистического анализа результатов выборки знать только характеристики положения недостаточно. Одна и та же величина среднего значения может характеризовать совершенно различные выборки. Поэтому кроме них в статистике рассматривают также характеристики рассеяния (вариации, или колеблемости) результатов. 1. Размах вариации Определение. Размахом вариации называется разница между наибольшим и наименьшим результатами выборки, обозначается R и определяется R=Xmax - Xmin . 16 Информативность этого показателя невелика, хотя при малых объёмах выборки по размаху легко оценить разницу между лучшим и худшим результатами спортсменов. 2. Дисперсия Определение. Дисперсией называется средний квадрат отклонения значений признака от среднего арифметического. Для несгруппированных данных дисперсия определяется по формуле n 2 = ( хi х) ( х1 х) ( х2 х) ( хn х) i 1 n 1 n 1 2 2 2 2 , (1) где Хi – значение признака, Х - среднее арифметическое. Для данных, сгруппированных в интервалы, дисперсия определяется по формуле k n ( хi х) 2 i 1 2 i n 1 , где хi – среднее значение i интервала группировки, ni – частоты интервалов. Для упрощения расчётов и во избежание погрешностей вычисления при округлении результатов (особенно при увеличении объёма выборки) используются также другие формулы для определения дисперсии. Если среднее арифметическое уже вычислено, то для несгруппированных данных используется следующая формула: n х nх 2 = i 1 для сгруппированных данных: 2 i n 1 k 2 , n х nх 2 i 1 2 i 2 i n 1 . Эти формулы получаются из предыдущих раскрытием квадрата разности под знаком суммы. В тех случаях, когда среднее арифметическое и дисперсия вычисляются одновременно, используются формулы: для несгруппированных данных: 17 2 n x / n x i 1 i 2 = i 1 , n 1 n 2 i для сгруппированных данных: 2 k ni x ni xi / n i 1 2 i 1 . n 1 k 2 i 3. Среднее квадратическое (стандартное) отклонение Определение. Среднее квадратическое (стандартное) отклонение характеризует степень отклонения результатов от среднего значения в абсолютных единицах, т. к. в отличие от дисперсии имеет те же единицы измерения, что и результаты измерения. Иначе говоря, стандартное отклонение показывает плотность распределения результатов в группе около среднего значения, или однородность группы. Для несгруппированных данных стандартное отклонение можно определить по формулам n = n хi2 n х = ( xi x) ( х1 х) ( х2 х) ( хn х) i 1 n 1 n 1 2 i 1 n 1 2 2 2 , 2 n 2 xi xi / n i 1 i 1 = . n 1 n 2 или Для данных, сгруппированных в интервалы, стандартное отклонение определяется по формулам: k n ( xi x) i 1 2 i n 1 , 18 k n х nх i 1 i 2 i n 1 2 или 2 k 2 ni xi ni xi / n i 1 i 1 . n 1 k 4. Ошибка средней арифметической (ошибка средней) Ошибка средней арифметической характеризует колеблемость средней и вычисляется по формуле: mx n . Как видно из формулы, с увеличением объёма выборки ошибка средней уменьшается пропорционально корню квадратному из объёма выборки. 5. Коэффициент вариации Коэффициент вариации определяется как отношение среднего квадратического отклонения к среднему арифметическому, выраженное в процентах: V 100% . x Считается, что если коэффициент вариации не превышает 10 %, то выборку можно считать однородной, то есть полученной из одной генеральной совокупности. Характеристики формы распределения Кривая эмпирического распределения (рис. 6) не всегда идеально колоколообразна (нормальна) и симметрична. Отсюда и следует важность вычисления коэффициентов асимметрии и эксцесса для эмпирических рядов распределения, т. к. они характеризуют скошенность и крутость данного ряда по сравнению с нормальным. Таким образом, для многих распределений характерен сдвиг кривой влево или вправо. В связи с этим различают левостороннюю (положительную) и правостороннюю (отрицательную) асимметрию. Она зависит от знака формулы для определения коэффициента асимметрии (нормированного центрального момента третьего порядка), который служит характеристикой скошенности или асимметрии распределения, определяемой по формулам: для несгруппированных данных: 19 n A 3 3 ( xi x)3 i 1 n 3 , где 3 - центральный момент третьего порядка, - среднее квадратическое отклонение, хi – значение признака, x - среднее арифметическое, n – объём выборки; для данных, сгруппированных в интервалы: k A ni ( xi x)3 i 1 n 3 , где ni – частоты интервалов группировки, xi – срединное значение i интервала группировки, k – число интервалов. При этом, если знак этого выражения отрицательный (-), то асимметрия правосторонняя, или отрицательная (рис. 8), если же знак положительный (+), то асимметрия левосторонняя, или положительная (рис. 9). Рис. 8. Правосторонняя (отрицательная) асимметрия 20 Рис. 9. Левосторонняя (положительная) асимметрия Наиболее простой показатель асимметрии – это мера скошенности: Sk x Mo . В основу её положено отклонение средней арифметической от моды, а по знаку выражения определяется левосторонняя (положительная) или правосторонняя (отрицательная асимметрия). Кроме асимметричности кривые распределения имеют характеристики плосковершинности и островершинности. Их характеристикой служит величина эксцесса (нормированного центрального момента четвёртого порядка, см. учебник), которая рассчитывается по формулам: для несгруппированных данных: n ( xi x)4 Еx 4 3 i 1 4 4 n 3, где хi - значение признака; для сгруппированных данных k ni ( xi x)4 E x i 1 n 4 3, где ni - частоты интервалов группировки; х i - срединное значение интервала группировки; σ - среднеквадратическое отклонение. 21 Рис. 10. Островершинная и плосковершинная кривые распределения Если знак эксцесса отрицательный (-), то имеется тенденция к плосковершинности (рис. 10). Если же знак положительный (+), то имеется тенденция к островершинности (рис. 10). 22 2. Методика выполнения расчётно-графической работы №1 Расчётно-графическая работа содержит 4 раздела. В первом разделе: 1. Формулируется тема; 2. Формулируется цель работы. Во втором разделе: 1. Формулируется условие задачи (в зависимости от специализации); 2. Заполняется таблица исходных данных выборки по результатам экспериментов, проведённых со спортсменами одной специализации. В третьем разделе: 1. Результаты измерений представляются в виде вариационного ряда; 2. Даётся графическое представление вариационного ряда. 3. Формулируется вывод. В четвёртом разделе: 1. Рассчитываются основные статистические характеристики ряда измерений; 2. По итогам расчётов формулируется вывод. Оформление работы: 1. Работа выполняется в отдельной тетради или на форматных листах. 2. Титульный лист заполняется по образцу. 23 (Пример оформления титульного листа) Российский Государственный Университет физической культуры, спорта, молодёжи и туризма Кафедра естественнонаучных дисциплин Графическое представление результатов экспериментов Расчёт основных статистических характеристик Расчётно-графическая работа №1 по курсу математики Выполнил: студент 1 к. 1 пот. 1гр. Иванов С.М. Преподаватель : доц. кафедры ЕНД и ИТ (Ф.И.О.) Москва - 2012 24 Пример выполнения расчётно-графической работы №1. Пример Тема работы: Графическое представление результатов эксперимента. Расчёт основных статистических характеристик. Цель работы: Научиться представлять результаты исследований в графическом виде и определять основные статистические характеристики. Условие задачи: 18 спортсменов выполняли прыжки в длину. Результаты длины прыжка Yi (м) занесены в таблицу. Таблица исходных данных выборки: № п/п Y i, м ранжированная выборка № п/п Y i, м ранжированная выборка 1 6,35 6,00 2 6,83 6,06 3 6,25 6,18 4 6,38 6,20 5 6,42 6,22 6 6,35 6,25 7 6,51 6,35 Таблица 3 8 9 6,06 6,22 6,35 6,38 10 6,20 6,42 11 6,00 6,50 12 6,50 6,51 13 6,65 6,55 14 6,55 6,55 15 6,75 6,60 16 6,60 6,65 17 6,18 6,75 18 6,55 6,83 Определим число интервалов по формуле Стерджеса К 1 3,32 lg N 1 3,32 lg 18 1 3,32 1,25 5 . Определим шаг (или ширину) интервала по формуле: h X max X min , K где X max - максимальное значение измеряемого показателя в упорядоченной (ранжированной) выборке; X min - минимальное значение показателя. Определим шаг или ширину интервала h X max X min 6,83 6,00 0,83 0,17 . К 5 5 Границу интервала обычно округляют в большую сторону до размерности измеряемого показателя. Нижнюю границу первого интервала выберем равной минимальному значению выборки, то есть X min 6 . Заполним таб- 25 лицу по результатам выборки (см. табл. 6), которые распределены в интервалы, т. е. результаты измерений представим в виде вариационного ряда. В первый столбец таблицы впишем номера 5 интервалов. Во второй столбец – границы интервала. Нижней границей первого интервала выбрали 6, прибавим к ней шаг и получим верхнюю границу первого интервала (6,00+0,17=6,17). Этот же результат является нижней границей следующего интервала (6,17+0,17=6,34) и т. д. Значение верхней границы последнего интервала 6,85 больше максимального значения показателей выборки 6,83. Третий столбец – срединные значения интервалов. Середину первого интервала определим как среднее арифметическое значение его границ. Середины следующих интервалов получим прибавлением шага интервала к предыдущим значениям. Четвертый столбец – частота (ni), т. е. количество значений, попавших в заданный интервал. Если граничный результат был учтен в интервале, то в последующем интервале учитываются значения выше граничного результата. Пятый столбец – накопленная частота рассчитывается суммированием частот предыдущих интервалов. В последней строке столбца 4 получилось число, равное объему выборки (14). Шестой столбец – частость (рi*) рассчитывается делением частоты на объём выборки. Седьмой столбец – накопленная частость получается суммированием частостей предыдущих интервалов. В последней строке столбца 7 получилась единица. Распределение измерений, представленное в столбцах 2(границы интервалов) и 4(частота) или 2(границы интервалов) и 6(частость), называется вариационным рядом. Напомним, что интервальным вариационным рядом называется упорядоченная совокупность интервалов варьирования случайной величины с соответствующими частотами или частостями попаданий в каждый из них значений величины. Представим результаты измерений в виде вариационного ряда (табл. 7). Таблица 4 Результаты измерений, представленные в виде вариационного ряда № интервала Границы интервала 1 1 2 3 4 5 2 6,00 – 6,17 6,17 – 6,34 6,34 – 6,51 6,51 – 6,68 6,68 – 6,85 Срединное Частота Накопленная значение частота ni интервала 3 6,085 6,255 6,425 6,595 6,765 4 2 4 6 4 2 5 2 6(2+4) 12(6+6) 16(12+4) 18(16+2) Частость рi * 6 2/18 4/18 6/18 4/18 2/18 Накопленная частость 7 2/18 6/18 12/18 16/18 18/18=1 26 Графическое представление вариационного ряда Графическое представление результатов измерений выражается в построении трех графиков: полигона частот (см. рис. 1), гистограммы (рис. 2) и полигона накопленных частот (кривой сумм или кумуляты) (рис. 4). Полигон частот и гистограмма показывают распределение измеряемых показателей и их сгруппированность вокруг среднего значения. Для построения полигона частот в декартовых координатах по оси абсцисс отложим срединные значения интервалов из таблицы 7, а по оси ординат – соответствующие им частоты (или частости). Для приведённого примера полигон распределения изображён на рис. 11. Частота 6 4 2 6,085 6,255 6,425 6.595 6,765 Середины интервалов длина (м) Рис 11. Полигон частот результатов Для построения гистограммы по оси абсцисс отложим границы интервалов и на них восстановим прямоугольники до уровня частот, соответствующих интервалам, отложенных по оси ординат (рис. 12). 27 Частота 6 4 2 6,00 6,17 6,34 6,51 6,68 Границы интервалов 6,85 длина (м) Рис 12. Гистограмма распределения результатов Если нанести на гистограмму пунктирной линией полигон распределения частот, то мы получим первоначальное представление о дифференциальной функции распределения. Как уже говорилось выше, гистограмма является экспериментальным аналогом плотности распределения вероятностей. Площадь гистограммы равна сумме всех частот, т. е. объёму выборки (18), или сумме частостей, т. е. единице. Накопленная частота 18 16 12 6 2 6,17 6,34 6,51 6,68 6,85 Верхние границы интервалов длина (м) Рис 13. Полигон накопленных частот результатов 28 Для построения полигона накопленных частот (кривой сумм или кумуляты) по оси ординат отложим верхние границы интервалов, а по оси абсцисс – соответствующие им накопленные частоты (рис. 13). Полигон накопленных частот результатов является экспериментальным аналогом функции распределения. Далее проведём расчёт основных статистических показателей ряда измерений, он сводится к расчёту характеристик положения, характеристик рассеяния результатов измерений и характеристик формы распределения. Причём приведём методику расчёта с помощью формул для данных сгруппированных в интервалы. Аналитический анализ. Характеристики положения: среднее арифметическое значение (среднее значение) k X ni xi i 1 n 2 6,085 4 6,255 6 6,425 4 6,595 2 6,765 6,4 , 18 где n- объем выборки, k – число интервалов группировки, ni – частоты интервалов, xi – срединные значения интервалов. Мода Mo xMoH h 6,34 0,17 где nMo nMo nMо 1 nMo 1 nMo nMo 1 64 6,4. 6 4 6 4 xMoH - нижняя граница модального интервала. В нашем примере модальным является третий интервал (таблица 7), т.к. модальным называется интервал группировки с наибольшей частотой. Тогда нижняя граница модального интервала 6,34. h - ширина интервала группировки, nMo - частота модального интервала, т.е. частота третьего интервала 6, nMo1 - частота интервала, предшествующего модальному, т.е. частота второго интервала 4, nMo1 - частота интервала, последующего за модальным, т.е. частота четвёртого интервала 4. 29 Медиана Me xMeН h 0,5n nxMe 1 0,5 18 6 6,34 0,17 6,4 . nMe 6 где xMeН - нижняя граница медианного интервала. В нашем примере медианным является третий интервал, т.к. медианным называется тот интервал, в котором накопленная частота впервые окажется больше половины объёма выборки (n/2) или накопленная частость окажется больше 0,5. Половина объёма выборки 18/2=9, именно в третьем интервале накопленная частота впервые оказалась больше 9, т.е. 12, а накопленная частость 12/18=0,7 (больше 0,5). h – ширина интервала группировки, 0,5n – половина объёма выборки (9), nMе – частота медианного интервала (6), nxMе1 – накопленная частота интервала, предшествующего медиан- ному (6). Характеристики рассеяния результатов измерений: Размах вариации: R = Xmax - Xmin = 6,83 – 6,00 = 0,83. Дисперсия. Для данных, сгруппированных в интервалы, дисперсия определяется по формуле: k ni ( хi х) 2 2 i 1 n 1 2 6,085 6,42 4 6,255 6,42 6 6,425 6,42 4 6,595 6,42 18 1 2 6,765 6,42 0,041 где хi – среднее значение i интервала группировки, ni – частоты интервалов. Среднеквадратическое отклонение (стандартное отклонение) Для данных, сгруппированных в интервалы, стандартное отклонение определяется по формуле: 30 k ni ( xi x) 2 i1 n 1 0,041 0,2 , Ошибка средней арифметической (ошибка средней) mx n 0,2 0,047 . 18 Коэффициент вариации V 0,2 100% 100% 3,1% . 6,4 x Вывод: так как коэффициент вариации не превышает 10 % (V<10 %), то выборка считается однородной. Характеристики формы распределения: Мера скошенности Sk x Mo 6,4 6,4 0. 0,2 Равенство нулю меры скошенности свидетельствует о том, что имеет место симметричное распределение. Действительно, как видно из предыдущих расчётов Мо = Ме = X . Это характерно для нормального распределения. Эксцесс для сгруппированных данных: k ni ( xi x)4 Ex i 1 n 4 3 2 6,085 6,44 4 6,255 6,44 6 6,425 6,44 4 6,595 6,44 18 0,0412 2 6,765 6,44 3 0,93 , 31 где ni - частоты интервалов группировки; х i - срединное значение интервала группировки; σ - среднеквадратическое отклонение. Знак эксцесса отрицательный, следовательно, у рассматриваемого эмпирического распределения наблюдается тенденция к плосковершинности. 32 3. Теоретические основы КОРРЕЛЯЦИОННЫЙ АНАЛИЗ Существует два вида связей или зависимостей между изучаемыми показателями: функциональные и корреляционные (статистические). При функциональной зависимости каждому значению одной переменной величины соответствует одно вполне определенное значение другой переменной. Такие зависимости наблюдаются в математике и физике. Например, между длиной окружности и радиусом существует функциональная связь - С=2R. Иначе говоря, каждому значению R соответствует строго определенное значение С. Точно также, сила тока в электрической цепи определяется напряжением I U . R В спортивных исследованиях между изучаемыми признаками (показателями) чаще всего существуют корреляционные (статистические) связи, при которых численному значению одной переменной соответствует несколько значений другой. Например, между массой тела и ростом спортсмена существует статистическая зависимость, так как один спортсмен с массой тела 72 кг может иметь рост 178см, другой, с той же массой, - рост 180 см, а третий – 182 см. Связь между результатами в прыжке в длину и бегом на 100м у спортсменов также статистическая (корреляционная). Функциональную связь можно выразить математической формулой в виде уравнения, а корреляционную нельзя. Корреляция или корреляционная связь - статистическая связь между любыми случайными показателями. Основные задачи корреляционного анализа: определение формы связи (линейная, нелинейная); определение направления связи (положительная связь или отрицательная); определение степени или тесноты взаимосвязи (слабая, средняя, сильная). При оценке корреляционной связи (взаимосвязи) объем выборок должен быть одинаковым n1=n2=n. Анализ взаимосвязи начинают с построения корреляционного поля (диаграммы рассеяния) - графического представления результатов измерений в прямоугольной системе координат. По корреляционному полю делается предварительный вывод относительно формы связи, направления связи и степени связи между исследуемыми признаками. Для окончательного вывода рассчитывается коэффициент корреляции. Значение коэффициента корреляции заключено в пределах от -1 до +1. Причём знак коэффициента корреляции показывает направление связи между исследуемыми показателями, а числовое значение – степень связи. 33 Определение формы связи Пару случайных чисел Х и У, представляющих собой результаты измерений, можно изобразить графически в прямоугольной системе координат в виде точек с координатами Х;У. Множество этих точек образуют графическую зависимость, называемую корреляционным полем или диаграммой рассеяния. Визуальный анализ графика (рис. 14) позволяет выявить форму зависимости между исследуемыми признаками: если множество точек корреляционного поля заключено в геометрическую фигуру эллипс, то такая правильная форма называется линейной зависимостью, или линейной формой взаимосвязи; если множество точек имеет иную форму, то имеет место нелинейная форма взаимосвязи, или нелинейная зависимость; Линейная зависимость Отсутствие зависимости Нелинейная зависимость Рис 14. Форма связи 34 если же корреляционное поле представляет собой множество точек, заключённых в окружность, это означает отсутствие взаимосвязи между исследуемыми признаками. Определение направления взаимосвязи Кроме формы взаимосвязи, корреляционное поле позволяет определить направление взаимосвязи (рис. 15): если между исследуемыми признаками наблюдается прямо пропорциональная зависимость, т. е. с увеличением одного показателя увеличивается и другой, то взаимосвязь положительная; если же зависимость обратно пропорциональная, т. е. с увеличением одного показателя другой уменьшается, то имеет место отрицательная взаимосвязь. В первом случае при расчёте коэффициент корреляции получается со знаком «+», а во втором случае – со знаком «-». Y Y X Положительная зависимость X Отрицательная зависимость Рис 15. Направление связи Определение степени или тесноты взаимосвязи Анализ корреляционного поля позволяет определить не только форму и направление взаимосвязи, но и степень зависимости, или тесноту (силу) связи. Ниже приводятся графики при различной степени связи с соответ- 35 ствующими им коэффициентами корреляции при положительной зависимости (рис. 16а) и при отрицательной зависимости (рис. 16б). Как видно из рисунка, чем ближе корреляционное поле к прямой, тем больше по модулю коэффициент корреляции, значит, тем сильнее зависимость между исследуемыми результатами; а чем ближе форма корреляционного поля к окружности, тем меньше по модулю коэффициент корреляции и тем слабее зависимость между исследуемыми результатами. По приведённым графикам видно, что в случае, когда коэффициент корреляции равен +1 или -1, то наблюдается функциональная взаимосвязь, т. к. значению одного показателя соответствует только одно значение другого и поэтому никакой вариации на корреляционном поле не наблюдается. Причём, если в первом ряду представлены виды прямо пропорциональной зависимости корреляционного поля, когда увеличение одного показателя связано с увеличением другого; то во втором ряду представлены виды обратно пропорциональной зависимости корреляционного поля, когда увеличение одного показателя связано с уменьшением другого (в среднем). Таким образом, по виду корреляционного поля можно судить о степени взаимосвязи между исследуемыми показателями и сделать предварительный вывод, который затем подтверждается расчётом коэффициента корреляции, приведённым ниже. а) б) Рис 16. Степень связи 36 Парный линейный коэффициент корреляции Бравэ-Пирсона (r). Коэффициент детерминации (D) Парный линейный коэффициент корреляции Бравэ-Пирсона вычисляется в том случае, когда между показателями исследуемых выборок (Хi и Уi) существует линейная связь. Если Х и У независимые случайные величины, то коэффициент корреляции равен 0. Заметим, что обратное утверждение неверно. Если r = 0, то между изучаемыми признаками нет линейной корреляционной зависимости, но это условие не исключает существования какого-либо другого вида корреляционной зависимости (параболической, показательной и др.) Одна из формул для расчета коэффициента корреляции Бравэ-Пирсона: n r ( X i 1 i X ) (Yi Y ) n x y где Xi, Yi - показатели первой и второй выборок соответственно; X , Y - средние арифметические значения первой и второй выборок соответственно; x , y - стандартные отклонения первой и второй выборок соответственно; n - объем каждой выборки. Абсолютная величина коэффициента корреляции не превосходит единицы: r < 1. Коэффициент корреляции характеризует степень зависимости, или тесноту (силу) зависимости между Х и У, чем больше r , т. е. чем ближе он к 1, тем сильнее (теснее) связь между изучаемыми признаками, а чем ближе он к 0, тем слабее. Принято считать, если: коэффициент корреляции равен 1, то между исследуемыми признаками наблюдается функциональная связь; изменяется от 0,9 до 0,7 - сильная статистическая связь; изменяется от 0,69 до 0,5 - средняя статистическая связь; изменяется от 0,49 до 0,2 - слабая статистическая связь; коэффициент корреляции равен нулю - то между изучаемыми признаками нет линейной корреляционной зависимости. Таким образом, коэффициент корреляции Бравэ-Пирсона r используется только при наличии линейной взаимосвязи между исследуемыми признаками. Существует несколько видов коэффициентов корреляции: парный линейный коэффициент корреляции Бравэ - Пирсона r, ранговый коэффициент корреляции Спирмэна , тетрахорический коэффициент сопряженности Т, 37 коэффициент множественной корреляции rxyz, коэффициент частной корреляции rxyz. После вычисления любого из перечисленных выше коэффициентов корреляции, необходимо рассчитать его достоверность с использованием критерия Стьюдента. В некоторых случаях тесноту связи случайных величин характеризуют коэффициентом детерминации D, равным: D r 2 100% . Коэффициент детерминации показывает, какой процент взаимосвязи результатов двух выборок объясняется их взаимовлиянием. Остальная часть (100 - D)% объясняется влиянием других неучтённых факторов. Оценка достоверности статистических показателей Часто в спорте стоит следующая задача: как по результатам измерений сделать какой-то обобщающий вывод. Пример1. Группу борцов тестировали в начале и конце тренировочного занятия по следующему тесту: сделать 8 бросков в максимальном темпе с измерением времени выполнения (с). начало тренировки: X 19c, x 1,5c Vx 7,8% конец тренировки: Y 19c, y 1,2c Vy 6,3% Влияет ли тренировка на изменение времени выполнения бросков. Влияет ли нагрузка на изменение скоростных качеств? Пример 2. Измеряли массу тела у юношей (10 спортсменов) и девушек (10 спортсменов), специализирующихся в самбо. X 68,6кг, x 8,8кг; Y 59кг, y 6,3кг Различаются ли массы тела юношей от массы тела девушек. Для ответа на вопросы: - как сравнить средние результаты различных групп; - как оценить влияние тренировочного занятия на тот или иной показатель; - как определить (предсказать) интервал, в котором лежат исследуемые показатели; необходимо использовать приемы проверки статистических гипотез. Статистические гипотезы Гипотеза - научное предположение. 38 Статистическая гипотеза - предположение о характеристиках, которые доказываются методами математической статистики. Статистическую гипотезу обычно обозначают буквой Н (от греческого Hipotes). Гипотеза называется нулевой (Но), если отсутствует различие между сравниваемыми выборками ( X Y ). Противоположной (альтернативной или единичной) гипотезой (Н1) будет предположение о том, что X Y или X Y . Виды статистических гипотез Гипотеза о доверительном интервале. Гипотеза о достоверности различий средних арифметических: -связанных выборок; -несвязанных выборок. Гипотеза о достоверности различий дисперсий. Гипотеза о достоверности коэффициента корреляции. При проверке статистических гипотез решение никогда не принимается с уверенностью, т.е. всегда есть вероятность принять неправильное решение. Уровень значимости - вероятность появления ошибки при выборе гипотезы. Следует отметить, что любая гипотеза должна формулироваться, а уровень значимости задаётся исследователем всегда до получения экспериментальных данных, по которым эта гипотеза будет проверяться. В таблице приведены значения вероятности события при различных значениях ошибки предположения. Уровень значимости и вероятность события Таблица 5 Вероятность ошибки уровень значимости ( ) полная уверенность 0,05 (5 %) 0,01 (1 %) 0,001 (0,1 %) Вероятность события (р) % 100 % 95 % 99 % 99,9 % Доверительная вероятность q= (1 ) 1 0,95 0,99 0,999 Уровень значимости 0,05 означает, что ошибочное значение может встретиться, например, в 5 наблюдениях из 100. 39 Обычно в научных исследованиях в области физической культуры и спорта считается достаточной доверительная вероятность 0,95 (95%), тогда уровень значимости составляет 0,05 (5%). Только в тех случаях, когда выводы, сделанные в конкретном исследовании, связаны с большой ответственностью или же уточняются результаты предыдущих исследований, применяются высокие уровни доверительной вероятности: 99 или 99,9% (уровень значимости 0,01 (1 %) или 0,001 (0,1 %) соответственно). Доверительная вероятность – вероятность, признанная достаточной для того, чтобы уверенно судить о генеральных параметрах на основании выборочных характеристик. Основные этапы проверки статистической гипотезы. 1. Формулировка гипотезы, которую в дальнейшем необходимо принять или отклонить. x2 y2; r 0 ( r-коэффициент корреляции) Но: X Y ; x2 y2; r0 H1: X Y ; 2. Определить расчетное значение критерия, то есть некоторой величины по определенной заданной формуле. Критерий – правило, с помощью которого подтверждается или отвергается та или иная гипотеза. tрасч. Fpacч. tpacч. r (коэффициента корреляции) критерий Стьюдента критерий Фишера критерий Стьюдента 3. Определить табличные критические значения (по таблице, см. приложение). tтабл. , Fтабл. Для этого необходимо знать: - число степеней свободы и - уровень значимости. 4. Сравнить значения расчетного коэффициента с табличным: tpacч. tтабл. Fpacч. Fтабл. 5. Сделать вывод. Статистическая гипотеза принимается или отвергается. а) если tpacч. tтабл. ( ,), то нулевая гипотеза о том, что средние значения двух выборок равны (Но: X Y ) принимается с вероятностью q=1; если tpacч.> tтабл. - нулевая гипотеза отвергается, тем самым утверждается, что средние арифметические двух выборок не равны. б) если Fрасч.<Fтабл., то нулевая гипотеза о равенстве дисперсий двух выборок (Но: x y ) принимается с вероятностью q=1- , то есть дисперсии не различаются и выборки однородны; 2 2 40 если Fpacч Fтабл., то нулевая гипотеза отклоняется с вероятностью q=1- , указывая на то, что показатели двух выборок имеют существенные 2 2 отклонения от среднего значения и выборки неоднородны. ( x y ). Из двух выборок более однородна будет та, у которой значение дисперсии меньше. Достоверность коэффициента корреляции Полученный любым из способов коэффициент корреляции является выборочным, потому что он определен для ограниченной совокупности, которая является выборкой из генеральной совокупности. Поэтому существует ошибка при расчете коэффициента корреляции. Эта ошибка - расхождение между коэффициентом корреляции для генеральной совокупности и коэффициентом для выборки. Эта ошибка определяется следующим образом: 1 r2 S , если n 30, n2 1 r2 S n если n 30 В приведенные выше формулы вместо r можно подставить или Т4. Для определения достоверности коэффициента корреляции используется критерий Стьюдента. Основные этапы проверки гипотезы о достоверности коэффициента корреляции. 1. Формулировка гипотезы, которую в дальнейшем необходимо принять или отклонить. Но: r=0. 2. Определить расчетное значение t критерия Стьюдента r n2 tрасч 1 r 2 3. Определить табличное критическое значение (приложение 1) tтабл. Для этого необходимо знать: =n-2 - число степеней свободы и - уровень значимости. 4. Сравнить значения расчетного коэффициента с табличным tpacч. tтабл. 5. Сделать вывод. Статистическая гипотеза принимается или отвергается. если tpacч. tтабл. ( ,), то полученный коэффициент корреляции достоверен, и между исследуемыми показателями существует статистическая связь с вероятностью q=1- ; если tpacч.< tтабл., то полученный коэффициент корреляции недостоверен, и между исследуемыми показателями не существует взаимосвязи. 41 РЕГРЕССИОННЫЙ АНАЛИЗ При изучении корреляционной связи было отмечено, что коэффициент корреляции показывает степень связи, направление связи, форму связи между двумя исследуемыми выборками, но он не дает возможности определить, как количественно меняется одна величина по мере изменения другой. Регрессия - это зависимость среднего значения случайной величины У от величины Х и, наоборот, зависимость среднего значения случайной величины Х от величины У, описанная уравнением, полученная путем построения эмпирической или теоретической линии регрессии и с помощью вычисления коэффициентов регрессии. Существует линейная и нелинейная взаимосвязь между исследуемыми показателями, следовательно, можно составить уравнение линейной или нелинейной регрессии. Существует зависимость между двумя показателями и несколькими. И уравнения регрессии могут быть множественными. В выборе регрессионной модели помогает графическое представление экспериментальных данных в виде диаграммы рассеяния или корреляционного поля. По выборочным данным составляется корреляционное поле, на которое наносятся также средние значения У в каждом интервале изменения Х. Эти точки соединяются между собой ломаной линией, по виду которой можно судить, как в среднем меняется У в зависимости от изменения Х. Такая ломаная линия называется эмпирической линией регрессии. Затем ломаную линию аппроксимируют прямой линией. При линейной зависимости можно сделать проще: заменить корреляционный эллипс прямой линией. Линейная регрессия Линейная регрессия, или линейная форма связи между случайными переменными занимает особое место в теории корреляции. При такой форме связи У есть линейная функция от Х, т. е. У = а + bХ , где а и b – коэффициенты регрессии, Х – независимая случайная переменная. Линейная регрессия обусловливается двумерным нормальным законом распределения пары случайных величин (Х, У). Параметры в уравнении регрессии, т. е. коэффициенты регрессии, определяются по способу наименьших квадратов. Суть его заключается в том, чтобы сумма квадратов отклонений измеренных величин от истинного значения была бы минимальной. В случае линейной регрессии за теоретическое значение принимается значение У, получаемое по известной формуле, т. е. ищется такая прямая линия, сумма квадратов отклонений измеренных Уi от которой была бы минимальной. 42 Значения коэффициентов регрессии определяются решением системы нормальных уравнений. 43 Расчёт коэффициентов уравнений линейной регрессии Как уже было сказано выше, в случае линейной зависимости уравнение регрессии является уравнением прямой линии. Различают У = ау/х +bу/хХ - прямое уравнение регрессии; Х = ах/у+bх/у Y - обратное уравнение регрессии. Здесь а и b – коэффициенты, или параметры, которые определяются по формулам. Значение коэффициента b вычисляется by / x r y ; x bx / y r x . y Из формул видно, что коэффициенты регрессии bу/х и bх/у имеют тот же знак, что и коэффициент корреляции, размерность, равную отношению размерностей изучаемых показателей Х и У, и связаны соотношением: by / x bx / y r 2 . Для вычисления коэффициента а достаточно подставить в уравнения регрессии средние значения коррелируемых переменных a y / x Y by / x X ; a x / y X bx / y Y . График теоретических линий регрессии (рис. 17) имеет вид: Регрессия X на Y (обратное уравнение) Y Регрессия Y на X (прямое уравнение) Y α β X 0 X Рис 17. Теоретические линии регрессии 44 Из приведённых выше формул легко доказать, что угловые коэффициенты прямых регрессии равны соответственно y 1y ; tg . x r x Так как r 1 , то tg tg . Это означает, что прямая регрессии Y на tg r Х имеет меньший наклон к оси абсцисс, чем прямая регрессии Х на Y. Чем ближе r к единице, тем меньше угол между прямыми регрессии. Эти прямые сливаются только тогда, когда r 1. При r 0 прямые регрессии описываются уравнениями Y Y , X X . Таким образом, уравнения регрессии позволяют: определить, насколько изменяется одна величина относительно другой; прогнозировать результаты. 45 2. Методика выполнения расчётно-графической работы №2 Расчётно-графическая работа содержит 4 раздела. В первом разделе: 3. Формулируется тема; 4. Формулируется цель работы. Во втором разделе: 3. Формулируется условие задачи; 4. Заполняется таблица исходных данных выборки. В третьем разделе: 4. Результаты измерений представляются в виде вариационного ряда; 5. Даётся графическое представление вариационного ряда. 6. Формулируется вывод. В четвёртом разделе: 3. Рассчитываются основные статистические характеристики ряда мерений; 4. По итогам расчётов формулируется вывод. Оформление работы: 3. Работа выполняется в отдельной тетради или на форматных листах. 4. Титульный лист заполняется по образцу. из- 46 Российский Государственный Университет физической культуры, спорта, молодёжи и туризма Кафедра естественнонаучных дисциплин Корреляционный и регрессионный анализы Расчётно-графическая работа №2 по курсу математики Выполнил: студент 1 к. 1 пот. 1гр. Иванов С.М. Преподаватель : доц. кафедры ЕНД и ИТ (Ф.И.О.) Москва – 2012 (Пример оформления титульного листа) 47 Пример выполнения расчётно-графической работы №2. Тема работы: Корреляционный и регрессионный анализы. Цель работы: Определить взаимосвязь показателей двух выборок. Ход выполнения работы: 1. Придумать две выборки из своего вида спорта с одинаковым объемом n. 2. Нарисовать корреляционное поле, сделать предварительный вывод. 3. Рассчитать коэффициент корреляции Бравэ-Пирсона и сделать вывод. 4. Определить достоверность коэффициента корреляции и сделать окончательный вывод. 5. Рассчитать коэффициент детерминации и сделать вывод о степени взаимосвязи показателей двух выборок. 6. Рассчитать коэффициенты прямого и обратного уравнений регрессии. 7. Построить теоретические линии регрессии на корреляционном поле и показать точку их пересечения. 1. Условие задачи: У группы спортсменов определяли результаты в беге на 100 м с барьерами Xi (с) и прыжках в длину Yi (м) (табл.). Проверить, существует ли корреляционная связь между исследуемыми признаками и определить достоверность коэффициента корреляции. Таблица исходных данных выборки: Результаты приведены в таблице исходных данных. Таблица 6 Результаты бега и прыжка № п/п Xi, с Y i, м № п/п Xi, с Y i, м 1 13,68 6,35 10 13,84 6,20 2 13,34 6,83 11 13,91 6,00 3 13,75 6,25 12 13,46 6,50 4 13,51 6,38 13 13,5 6,65 5 13,53 6,42 14 13,6 6,55 6 13,7 6,35 15 13,35 6,75 7 13,45 6,51 16 13,42 6,60 8 13,72 6,06 17 13,8 6,18 9 13,61 6,22 18 13,5 6,55 48 Решение: 2. Построим корреляционное поле (диаграмму рассеяния) и сделаем предварительный вывод относительно связи между исследуемыми признаками. 6,9 результаты прыжка, м 6,8 6,7 6,6 6,5 6,4 6,3 6,2 6,1 6 5,9 13,3 13,4 13,5 13,6 13,7 13,8 13,9 14 результаты в беге, с Рис 18. Корреляционное поле Предварительный вывод: Связь между показателями результатов в беге на 100 м с барьерами Xi (с) и прыжками в длину Yi (см): линейная; отрицательная; сильная. 3. Рассчитаем парный линейный коэффициент корреляции Бравэ – Пирсона, предварительно рассчитав основные статистические показатели двух выборок. Для их расчёта составим таблицу, в которой предпоследний и последний столбцы необходимы для расчёта стандартных отклонений, если они неизвестны. Для нашего примера эти значения рассчитаны в первой расчётно-графической работе, но для наглядности покажем расчёт дополнительно. 49 Таблица 7 Вспомогательная таблица для расчета коэффициента корреляции Бравэ – Пирсона № 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 n=18 Xi, с Yi, см 13,68 13,34 13,75 13,51 13,53 13,7 13,45 13,72 13,61 13,84 13,91 13,46 13,5 13,6 13,35 13,42 13,8 13,5 6,35 6,83 6,25 6,38 6,42 6,35 6,51 6,06 6,22 6,20 6,00 6,50 6,65 6,55 6,75 6,60 6,18 6,55 Х Y 13,59 6,41 Xi X Yi Y 0,09 -0,25 0,16 -0,08 -0,06 0,11 -0,14 0,13 0,02 0,25 0,32 -0,13 -0,09 0,01 -0,24 -0,17 0,21 -0,09 -0,06 0,42 -0,16 -0,03 0,01 -0,06 0,1 -0,35 -0,19 -0,21 -0,41 0,09 0,24 0,14 0,34 0,19 -0,23 0,14 X i X Yi Y -0,005 -0,105 -0,03 0,0024 -0,0006 -0,0066 -0,014 -0,0455 -0,004 -0,0525 -0,1312 -0,0117 -0,0216 0,0014 -0,0816 -0,0323 -0,0483 -0,0126 ∑=-0,6015 X i x = i 1 n 1 0,4839 0,17 , 17 n 2 ( yi y ) 0,9041 y = i 1 0,2 , n 1 17 X i X Yi Y n r i 1 n x y Y Y 2 0,0081 0,0625 0,0256 0,0064 0,0036 0,0121 0,0196 0,0169 0,0004 0,0625 0,1024 0,0169 0,0081 0,0001 0,0576 0,0289 0,0441 0,0081 ∑=0,483 9 n ( xi x) 2 X 0,6015 0,98 . 18 0,17 0,2 2 i 0,0036 0,18 0,0256 0,0009 0,0001 0,0036 0,01 0,1225 0,0361 0,0441 0,1681 0,0081 0,0576 0,0196 0,1156 0,0361 0,0529 0,0196 ∑=0,9041 50 Полученное значение коэффициента корреляции позволяет подтвердить предварительный вывод и сделать окончательное заключение – связь между исследуемыми признаками: линейная; отрицательная; сильная. 4. Определим достоверность коэффициента корреляции. Предположим, что связь между результатом в беге на 100 м и прыжком в длину отсутствует (Но: r=0). t расч r n2 0,98 18 2 0,98 4 19,6 . 0,2 1 r2 1 0,982 Находим t табл = 2,12 для α = 0,05 и = n - 2 = 16. tрасчет > tтабл (19,6 > 2,12). Вывод: существует сильная, отрицательная статистически достоверная (р=0,95) связь между бегом с препятствиями на дистанцию 100 м и прыжком в длину. Это означает, что с улучшением результата в прыжке в длину уменьшается время пробега дистанции 100 м. 5. Вычислим коэффициент детерминации: D r 2 100% 0,96 100% 96% . Следовательно, только 96% взаимосвязи результатов в беге на 100 м с барьерами и в прыжке в длину объясняется их взаимовлиянием, а остальная часть, т. е. 4% объясняется влиянием других неучтённых факторов. 6. Рассчитаем коэффициенты прямого и обратного уравнений регрессии, воспользовавшись формулами, подставим значения рассчитанных коэффициентов в соответствующую формулу и запишем прямое и обратное уравнения регрессии: Y = а1 + b1Х - прямое уравнение регрессии; Х = а2 + b2 Y - обратное уравнение регрессии. Воспользуемся результатами расчёта, приведёнными выше: x = 0,17 ; y = 0,2 ; r 0,98 ; Х 13,59; Y 6,4, Рассчитаем коэффициент b1, воспользовавшись формулой: 51 b1 r y 0,2 0,98 1,15, x 0,17 Для расчета коэффициента а1 подставим в прямое уравнение регрессии вместо b1 рассчитанное значение, а вместо Х и Y средние арифметические значения двух выборок из таблицы: a1 Y b1 X 6,4 (1,15) 13,59 22 Подставим полученные значения коэффициентов а1 и b1 в прямое уравнение регрессии и запишем уравнение прямой линии: Y = 22 - 1,15Х Рассчитаем коэффициент b2, воспользовавшись формулой: x 0,17 0,98 0,83, y 0,2 Для расчета коэффициента а2 подставим в прямое уравнение регрессии вместо b2 рассчитанное значение, а вместо Х и Y средние арифметические b2 r значения двух выборок из таблицы: a2 X b2 Y 13,59 (0,83) 6,4 18,92 Подставим полученные значения коэффициентов а1 и b1 в прямое уравнение регрессии и запишем уравнение прямой линии: Х = 18,92 - 0,83Y Таким образом, мы получили прямое и обратное уравнения регрессии: Y = 22 - 1,15Х - прямое уравнение регрессии; Х = 18,92 - 0,83Y - обратное уравнение регрессии. Для проверки правильности расчётов достаточно подставить в прямое уравнение среднее значение Х и определить значение Y. Полученное значение Y должно быть близким или равным среднему значению Y . Y = 22 - 1,15 Х = 22 - 1,1513,59 = 6,4 = Y . 52 При подстановке в обратное уравнение регрессии среднего значения Y , полученное значение Х должно быть близким или равным среднему значению Х . Х = 18,92 - 0,83 Y = 18,92 - 0,83 6,4 = 13,6 = Х . 7. Построим линии регрессии на корреляционном поле. Для графического построения теоретических линий регрессии, как и для построения любой прямой, необходимо иметь две точки из диапазона значений Х и Y. Причём, в прямом уравнении регрессии независимая переменная Х, а зависимая Y, а в обратном – независимая переменная Y, а зависимая Х. Y = 22 - 1,15Х X Y 13,42 6,57 13,8 6,13 Х = 18,92 - 0,83Y Y X 6,2 13,77 6,6 13,44 Координатами точки пересечения линий прямого и обратного уравнений регрессии являются значения средних арифметических двух выборок (с учётом погрешностей округлений при приближённых расчётах). Вывод: зная результат бега с препятствиями на дистанцию 100 м, по прямому уравнению регрессии, можно теоретически определить результат прыжка в длину; и наоборот, зная результат прыжка в длину по обратному уравнению регрессии, можно определить результат бега с препятствиями. 53 ПРИЛОЖЕНИЕ Таблица 1 Критические значения t-критерия Стьюдента Число степеней Уровень значимости для двусторонней критической области свободы ν 0,1 0,05 0,01 0,005 0,001 2 2,9200 4,3027 9,9250 14,0892 31,5998 4 2,1318 2,7765 4,6041 5,5975 8,6101 6 1,9432 2,4469 3,7074 4,3168 5,9587 8 1,8595 2,3060 3,3554 3,8325 5,0414 10 1,8125 2,2281 3,1693 3,5814 4,5868 12 1,7823 2,1788 3,0545 3,4284 4,3178 14 1,7613 2,1448 2,9768 3,3257 4,1403 16 1,7459 2,1199 2,9208 3,2520 4,0149 18 1,7341 2,1009 2,8784 3,1966 3,9217 20 1,7247 2,0860 2,8453 3,1534 3,8496 22 1,7171 2,0739 2,8188 3,1188 3,7922 24 1,7109 2,0639 2,7970 3,0905 3,7454 26 1,7056 2,0555 2,7787 3,0669 3,7067 28 1,7011 2,0484 2,7633 3,0470 3,6739 30 1,6973 2,0423 2,7500 3,0298 3,6460 32 1,6939 2,0369 2,7385 3,0149 3,6218 34 1,6909 2,0322 2,7284 3,0020 3,6007 36 1,6883 2,0281 2,7195 2,9905 3,5821 38 1,6860 2,0244 2,7116 2,9803 3,5657 40 1,6839 2,0211 2,7045 2,9712 3,5510 50 1,6759 2,0086 2,6778 2,9370 3,4960 60 1,6706 2,0003 2,6603 2,9146 3,4602 70 1,6669 1,9944 2,6479 2,8987 3,4350 80 1,6641 1,9901 2,6387 2,8870 3,4164 90 1,6620 1,9867 2,6316 2,8779 3,4019 100 1,6602 1,9840 2,6259 2,8707 3,3905 110 1,6588 1,9818 2,6213 2,8648 3,3811 120 1,6576 1,9799 2,6174 2,8599 3,3734 1,6449 1,9600 2,5758 2,8070 3,2905 0,05 0,025 0,005 0,0025 0,0005 Число степеней Уровень значимости для односторонней критической свободы ν области 54 Таблица 2 ν2 4 5 6 7 8 9 10 11 12 14 16 20 24 30 40 50 70 100 Критические значения F-критерия Фишера-Снедекора (ν1 - число степеней свободы большей дисперсии; ν2 - число степеней свободы меньшей дисперсии) Уровень значимости = 0,05 ν1 4 5 6 7 8 9 10 11 12 14 16 20 30 40 50 75 6,39 5,19 4,53 4,12 3,84 3,63 3,48 3,36 3,26 3,11 3,01 2,87 2,78 2,69 2,61 2,56 2,50 2,46 6,26 5,05 4,39 3,97 3,69 3,48 3,33 3,20 3,11 2,96 2,85 2,71 2,62 2,53 2,45 2,40 2,35 2,30 6,16 4,95 4,28 3,87 3,58 3,37 3,22 3,09 3,00 2,85 2,74 2,60 2,51 2,42 2,34 2,29 2,23 2,19 6,09 4,88 4,21 3,79 3,50 3,29 3,14 3,01 2,92 2,77 2,66 2,52 2,43 2,34 2,25 2,20 2,14 2,10 6,04 4,82 4,15 3,73 3,44 3,23 3,07 2,95 2,85 2,70 2,59 2,45 2,36 2,27 2,18 2,13 2,07 2,03 6,00 4,78 4,10 3,68 3,39 3,18 3,02 2,90 2,80 2,65 2,54 2,40 2,30 2,21 2,12 2,07 2,01 1,97 5,96 4,74 4,06 3,63 3,34 3,13 2,97 2,86 2,76 2,60 2,49 2,35 2,26 2,16 2,07 2,02 1,97 1,92 5,93 4,70 4,03 3,60 3,31 3,10 2,94 2,82 2,72 2,56 2,45 2,31 2,22 2,12 2,04 1,98 1,93 1,88 5,91 4,68 4,00 3,57 3,28 3,07 2,91 2,79 2,69 2,53 2,42 2,28 2,18 2,09 2,00 1,95 1,89 1,85 5,87 4,64 3,96 3,52 3,23 3,02 2,86 2,74 2,64 2,48 2,37 2,23 2,13 2,04 1,95 1,90 1,84 1,79 5,84 4,60 3,92 3,49 3,20 2,98 2,82 2,70 2,60 2,44 2,33 2,18 2,09 1,99 1,90 1,85 1,79 1,75 5,80 4,56 3,87 3,44 3,15 2,93 2,77 2,65 2,54 2,39 2,28 2,12 2,02 1,93 1,84 1,78 1,72 1,68 5,74 4,50 3,81 3,38 3,08 2,86 2,70 2,57 2,46 2,31 2,20 2,04 1,94 1,84 1,74 1,69 1,62 1,57 5,71 4,46 3,77 3,34 3,05 2,82 2,67 2,53 2,42 2,27 2,16 1,99 1,89 1,79 1,69 1,63 1,56 1,51 5,70 4,44 3,75 3,32 3,03 2,80 2,64 2,50 2,40 2,24 2,13 1,96 1,86 1,76 1,66 1,60 1,53 1,48 5,68 4,42 3,72 3,29 3,00 2,77 2,61 2,47 2,36 2,21 2,09 1,92 1,82 1,72 1,61 1,55 1,47 1,42 100 5,66 4,40 3,71 3,28 2,98 2,76 2,59 2,45 2,35 2,19 2,07 1,90 1,80 1,69 1,59 1,52 1,45 1,39