МИНИСТЕРСТВО СЕЛЬСКОГО ХОЗЯЙСТВА РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ БУРЯТСКАЯ ГОСУДАРСТВЕННАЯ СЕЛЬСКОХОЗЯЙСТВЕННАЯ АКАДЕМИЯ им. В.Р.ФИЛИППОВА Р.З.СИРАЗИЕВ Л.М.МАЛАКШИНОВА Н.Б.САДУЕВ Г.А.ИГУМНОВ Р.Ц.ЦЫДЫПОВ СТАТИСТИЧЕСКИЙ АНАЛИЗ МАТЕМАТИЧЕСКИХ ДАННЫХ В БИОЛОГИИ (для самостоятельной работы) Допущено Министерством сельского хозяйства Российской Федерации в качестве учебного пособия для студентов высших учебных заведений, обучающихся по специальностям «Зоотехния» и «Ветеринария» Улан-Удэ Издательство ФГОУ ВПО БГСХА 2004 УДК: 619:578.087.1 С 40 Печатается по решению учебно-методического совета ФГОУ ВПО «Бурятская государственная сельскохозяйственная академия им. В.Р.Филиппова» Рецензенты: доктор медицинских наук, профессор С.М. Николаев, доктор биологических наук, профессор Л.В. Хибхенов Сиразиев Р.З., Малакшинова Л.М., Садуев Н.Б., Игумнов Г.А.Цыдыпов Р.Ц. С40 Статистический анализ математических данных в биологии.- Улан-Удэ: Изд-во ФГОУ ВПО «Бурятская государственная сельскохозяйственная академия», 2004.- с. ISBN В пособии даются основные понятия биометрии и ее практические методики, приводятся приемы компьютерного статистического анализа числовых показателей с использованием Microsoft Excel. Работа предназначена для аудиторной и самостоятельной работы студентов очного и заочного обучения, аспирантов, научных работников факультета ветеринарной медицины и биологических специальностей. ISBN © Сиразиев Р.З., Садуев Н.Б., Малакшинова Л.М., Игумнов Г.А., Цыдыпов Р.Ц.2004 © ФГОУ ВПО «Бурятская ГСХА», 2004 I. ПРИНЦИПЫ БИОМЕТРИЧЕСКОЙ ОБРАБОТКИ Вводная часть Биометрия - это наука о математическом анализе групповых свойств в биологии. Групповые свойства - это такие особенности, признаки, которые проявляются только у группы объектов; отдельные объекты групповыми свойствами не обладают. Например, яйценоскость кур за месяц составила 25,5 яйца, однако, ни одна курица пол-яйца не снесла. Групповые свойства являются характеристикой, по которой группы отличаются друг от друга. Группа включает от двух до бесконечности объектов. Множество объектов, обладающих определёнными групповыми свойствами, составляет статистическую совокупность, её величина может иметь разный объём. В биометрии выделяются генеральная и выборочная совокупность. Генеральная совокупность охватывают всех членов данного множества, её объём может быть конечным, а чаще - бесконечным. Например, стадо коров учхоза представляет собой новую породную группу. Значит, коровы учхоза являются генеральной совокупностью, но они являются составной частью другой, более обширной генеральной совокупности всех коров, объём которой бесконечен. Генеральную совокупность можно создать искусственно. Её объём зависит от цели исследования. Выборочная совокупность – это группа объектов, взятая из генеральной совокупности для характеристики генеральной совокупности. Выборочная совокупность составляется следующим образом. Вначале намечается генеральная совокупность. Затем выбирается соответствующим образом достаточное количество объектов из генеральной совокупности, чаще всего методом рэндомизации, т.е. случайно. При этом необходимо, чтобы выборочная совокупность была репрезентативной – представительной, однако по трём объектам уже можно судить о параметрах генеральной совокупности с определённой точностью и надёжностью. Биометрия изучает признаки, которые могут быть качественными и количественными. 2 Качественные признаки воспринимаются непосредственно органами чувств (цвет, консистенция и т.п.). Качественные признаки обычно выступают в форме альтернативных, взаимоисключающих признаков (белый – не белый ). Количественные признаки требуют счета (счётные) или меры (мерные). Счётные признаки дискретны, т.е. считаются штуками и всегда выражаются целыми числами (яйценоскость). Мерные признаки требуют измерения (размеры, вес и т.п.), при этом могут получиться любые числа. Любой признак в группе у разных объектов проявляется по-разному -варьирует (разный вес одновозрастных животных). Получение и первичная обработка материала После составления выборочной совокупности производится исследование (измерение) объектов. Измерять нужно точно, определённым способом, одним инструментом, при одинаковых условиях. Далее необходимо проанализировать выборочные показатели для оценки параметров генеральной совокупности. Полученные данные могут быть представлены в виде статических таблиц, этого достаточно, если они достоверно показывают определённые результаты. Сорт Урожайность по годам, в ц/га 2000 10,5 6,8 А Б 2001 12,3 10,5 2002 9,3 7,2 Из таблицы ясно, что сорт А даёт урожай во все годы больше, чем сорт Б. Однако, чаще нужна дальнейшая обработка. Допустим, что величины признаков были: 5,2,1,5,7,9,3,5,4,10,4,5,7,3,5,9,4,12,7,7. По данному ряду чисел сделать какие-либо выводы трудно, а иногда невозможно. Поэтому в некоторых случаях проводится ранжирование – значения признаков (варианты или даты) распределяются по величине в убывающем или возрастающем порядке в ранжированный ряд:12,10,9,9,7,7,7,7,5,5,5,5,5,4,4,4,3,3,2,1. В ранжированном ряду сразу видно максимальное или минимальное значение признака, какое значение встречается чаще, а какое реже и т.п. Однако при многочисленных датах ранжирование трудоёмко, да и результаты незначительны. Поэтому, чаще строится простой или сложный вариационный ряд. Простой вариационный ряд представлен в виде двух строк – в первой записываются значения вариант (V) от максимальной до минимальной, во второй – частота их встречаемости (f ). V f 12 1 11 0 10 1 9 2 8 0 7 4 6 0 5 5 4 3 3 2 2 2 1 1 Общее количество дат (n) равно сумме частот: n = ∑ f В случаях, когда дат много, их разбивают на классы - группы, включающие несколько дат. Величина классов или классовый промежуток определяется следующим образом. Число классов (r) вычисляется по формуле r =1+3,3 lg ּn или по таблице: Число дат Число классов 3 6-11 12-22 23-46 47-93 94-187 188-377 378-755 4 5 6 7 8 9 10 K Классовый промежуток определяется по формуле: где Vmax Vmin , r К - классовый промежуток, r - число классов, V max – максимальное значение дат, V min – минимальное значение дат. Величину классового промежутка можно округлить, желательно до чётного числа. Если величины дат выражены целыми числами, то и классовый промежуток должен быть целым числом. В первой половине сложного вариационного ряда записываются границы классов, во второй – их середины или вариации. В следующей колонне (разноска дат) условными значками обозначается число дат, входящих в тот или иной класс: (. –1, ..-2, :.-3, : : -4, : : -5, : : -6, : : -7, : : -8, : : -9, : : -10). В следующую колонку записывается число дат, входящих в данный класс (частота – f). За середину первого класса (W) обычно принимают максимальную дату или близкое к ней число. Начало класса определяют по формуле: Wα = W – Конец класса – Wω = W + К - ∆ , где 2 К , 2 ∆ - принятая точность. При составлении границ классов необходимо учитывать, чтобы: 1. конец первого класса был не меньше максимальной даты; 2. начало предшествующего класса было больше конца последующего класса на единицу измерения; 3. разница между началами (концами) соседних классов была постоянной и равной величине классового промежутка. 4. начало последнего класса было не больше минимальной даты. Пример. Составить сложный вариационный ряд из следующих чисел. 413 423 414 423 433 450 420 410 434 395 419 416 409 402 433 412 407 416 431 420 427 427 430 410 439 435 428 403 405 398 n = 100, 404 417 426 436 437 430 398 407 405 422 421 424 400 424 394 399 420 423 405 416 414 401 425 412 424 386 424 391 413 434 428 411 432 444 408 441 426 409 392 443 397 380 418 411 407 417 419 418 428 421 418 406 388 394 422 414 419 421 431 410 Vmax = 450, Vmin = 380 r = 1+3,3 lg n = 1 + 3,3 lg100=1+3,3 · 2 = 7,6 4 429 429 415 411 423 417 406 417 422 409 Vmax Vmin 450 380 9,2 10 r 7,6 10 10 W= 450, Wα = 450 = 445; Wω = 450 + - 1= 454 2 2 K Wα ÷ Wω W Разноска дат Частоты -f 445-454 435-444 425-434 415-424 405-414 395-404 385-394 375-384 450 440 430 420 410 400 390 380 ˙ :: :: :: :: :: :: :: :: :: :: :: . 1 7 20 30 25 10 6 1 ∑f = n = 100 Вариационные ряды используются для расчётов многих биометрических показателей. Кроме того, сами показывают распределение признака в группе. Графическое изображение вариационных рядов Вариационные ряды можно изобразить графически. Для этого в биометрии обычно используются 4 формы графиков – гистограмма, полигон (вариационная кривая), кумулята и огива. Для построения графиков используются системы прямоугольных координат. Возьмём, для примера, простой вариационный ряд: f W 6 5 4 3 2 1 1 2 4 5 3 1 S 16 15 13 9 4 1 Для построения гистограммы по оси абсцисс откладываются в выбранном масштабе значения дат, по оси ординат – частоты их встречаемости. Строятся столбики, основания которых равны единице масштаба, середина основания располагается на значении данной даты, высота столбика соответствует частоте данной даты. Если из точек значения вариант восстановить перпендикуляры до пересечения с перпендикулярами из точек соответствующих частот, полученные точки пересечения соединить ломаной кривой, то получится полигон или вариационная кривая. 5 Для построения кумуляты и огивы к вариационному ряду достраивают полный ряд накопленных частот – S . Для этого частоту самой малой варианты переносят в ряд накопленных частот без изменения, к ней прибавляют частоту следующей варианты, к полученному числу прибавляют частоту следующей варианты и т.д. По оси абсцисс в выбранном масштабе откладывают значения вариант, по оси ординат – значения ряда накопленных частот. Точки пересечения перпендикуляров соединяют плавной кривой. Полученную S-образную кривую и называют кумулятой. Если поменять места вариант (W) и значения ряда накопленных частот (варианты отложить на оси ординат, а значения ряда накопленных частот – на оси абсцисс), получится огива. Графически могут изображаться и сложные вариационные ряды. Для этого вместо вариант берут вариации (середины классов). II. СПЕЦИАЛЬНАЯ ЧАСТЬ Биометрия подразделяется на 6 разделов: Теория средних величин (учение о средних). Теория разнообразия – показатели разнообразия, закономерности разнообразия (теория распределения). Достоверность выборочных показателей. Она даёт возможность оценить, насколько достоверны результаты проведённых исследований, то есть, могут ли результаты исследований выборочной совокупности быть перенесены на генеральную совокупность. 4. Корреляции (учение о связях). 5. Дисперсионный анализ. Он выявляет изменения признаков под влиянием одного или нескольких факторов. 6. Регрессия (теория функций в биологии). Даёт возможность выразить биологическое явление в форме математического уравнения. 1. 2. 3. 1. УЧЕНИЕ О СРЕДНИХ В биометрии используется несколько средних: а) средняя арифметическая б) средняя квадратическая в) средняя геометрическая г) средняя гармоническая д) мода е) медиана Средние являются результатом большого обобщения. На кривой вариационного ряда они занимают срединное положение. Они обладают свойством репрезентативности, т.е. могут заменить любую варианту. Средние являются некоторой абстракцией – в группе может не быть носителя средней. Например, куры несут целые яйца, но в среднем, яйценоскость может быть равна 25,5 яиц. Средние выражают определённый признак и поэтому являются конкретными и должны выражаться в тех же единицах, что и признак. Они представляют все объекты группы и обладают суммарным свойством, т.к. все варианты могут быть заменены средней. Средняя арифметическая (М) ~ М – средняя арифметическая, вычисленная из выборочной совокупности; М – средняя арифметическая, рассчитанная для генеральной совокупности. V , M n где ∑V – сумма вариант- (V1+,V2+,V3 + ……Vn), n – число вариант. Это так называемый прямой способ вычисления средней арифметической. Он используется при наличии вычислительной техники или при небольшом количестве вариант. 6 В противном случае строится вариационный ряд, и среднюю арифметическую вычисляют с использованием условной средней. За условную среднюю (А) принимают варианту или середину класса, имеющую наибольшую численность в данном ряду (модальные варианты или класс). Чаще используют два способа вычисления средней арифметической с использованием условной средней – способ произведений и способ сумм. Способ произведений При этом класс, в котором находится условная средняя , отмечают нулём и нумеруют остальные классы. Номер класса (a) определяют по формуле: a Wi WA , K где WА – середина класса с условной средней, Wі – частные середины классов, К – классовый промежуток. Таким образом, классы в сторону уменьшения от модального будут отмечены отрицательными числами, а в сторону увеличения - положительными. Получается условный ряд а. Далее перемножают частоту каждого класса на его номер, получают дополнительный ряд fа. Определяют сумму произведений ∑ fа и рассчитывают среднюю арифметическую по формуле: M A K f a n W 450 440 430 f 1 7 20 420 410 400 390 380 30 25 10 6 1 a 3 2 1 fa 3 14 20 0 - 0 1 2 3 4 - 25 20 18 4 А = 420 К = 10, ∑f · а = - 30, n = ∑f = 100 M 420 10 30 417 100 Способ сумм При вычислении средней арифметической по этому способу строятся неполные ряды накопленных частот р 1 и q1, которые составляются следующим образом: модальный класс прочёркивается. С обоих концов распределения 7 по направлению к модальному классу строятся ряды накопленных частот. Первым числом ряда накопления считается частота крайнего класса, вторым – первое число плюс частота следующего класса, третьим – второе число плюс частота следующего класса и т. д. Половина ряда в сторону увеличения значений вариант от модального класса считается положительной частью, в сторону уменьшения – отрицательной (минус не ставим). При правильном составлении полурядов накопления сумма последних чисел обоих полурядов и частоты модального класса должна равняться общему числу вариант (n). Средняя арифметическая по этому способу рассчитывается по формуле: M A K S1 – сумма всех значений обоих полурядов накопления S1 = ∑ р1 - ∑ q1 Пример: W f р1 S1 n A = 420, К = 10, n = ∑ f = 100 S1 = 37 – 67 = -30 450 440 430 420 410 400 390 380 1 1 7 8 30 417 M = 420+10· 20 28 100 30 25 42 10 17 6 7 1 1 n=∑f q1 Кроме того, при разбивке вариант на классы иногда средняя арифметическая вычисляется по способу взвешенных вариаций. При этом пользуются формулой: M W f n , где ∑W·f – сумма произведений вариаций (середина классов или вариант) на соответствующую частоту. Применение этого способа ограничено. Он используется при наличии вычислительной техники или при небольших числах. Свойства средней арифметической 1. Сумма центральных отклонений (разности вариант от средней) равна нулю: ∑ (V – M) = ∑ Д =0 2. Сумма условных отклонений ( отклонений вариант от условной средней) не равна нулю. ∑ (V – A) ≠0. Следствие. Средняя арифметическая равна условной средней плюс сумма условных отклонений, делённая на объём выборки: M A (V A) n 3. Сумма квадратов центральных отклонений меньше суммы квадратов любых условных отклонений: (V M ) 4. 2 ∑ (V - A) 2 Сумма квадратов центральных отклонений равна сумме квадратов условных отклонений минус квадрат суммы условных отклонений, делённый на объём выборки: (V M ) 2 (V A) (V A) 2 2 n 5. Средняя арифметическая из вариант, к которым прибавлено (вычтено) какое-то число а, равна средней арифметической из вариант до прибавления (вычитания) плюс (минус) этого же число а: МV±a = MV ± a 8 6. Средняя арифметическая из вариант, умноженных (разделённых) на число а, равна этому числу а, умноженному (разделённому) на среднюю арифметическую из вариант до умножения (деления) М V·a = a · MV Взвешенная средняя арифметическая Она используется при вычислении средней из нескольких средних. M взв= M n n i i i M 1 n1 M 2 n2 ... , n1 n2 ... где Mi - частная средняя арифметическая, ni - объём выборки, из которой вычислена частная средняя. Средняя квадратическая (S) Она используется при вычислении средних площадей криволинейных фигур, диаметров, радиусов. Средняя квадратическая вычисляется по формуле : S V n 2 V12 V22 V32 ...Vn2 n Пример. Диаметры 5 колоний микробов равны 15; 20; 10; 25 и 30 мм. Высчитываем средний диаметр: S 15 2 20 2 10 2 25 2 30 2 2250 21,22 мм 5 5 Если высчитать среднюю арифметическую из этих же значений, она будет равна: M V n 20 мм Как видно, средняя арифметическая и средняя квадратическая, вычисленные по одним показателям, не одинаковы. Для того, чтобы проверить, какая средняя в данном случае ближе к истине, определим общую площадь всех пяти колоний: F= π ·(r 2 1 2 2 2 2 +r 2 +r 3 +r 4 +r 5 ) = 3,14 · (7,52 + 102 + 52 + 12,52 + 152 ) =1766,25 (мм2) Если высчитать площадь всех колоний по средним данным, получим: Fм =3,14 · 102 · 5 = 1570 (мм2 ) Fs = 3,14 · 10,612 · 5 = 1767,40 (мм2 ), т.е. практически равную общей площади всех пяти колоний. Средняя геометрическая (G) 9 Используется для вычисления средних приростов: G n n V n V1 V2 V3 ...Vn , т.е. необходимо извлечь корень степени, равной числу вариант, из произведения всех вариант . Если число вариант больше трёх , извлечение корня затруднительно. В таких случаях среднегеометрическую рассчитывают путём логарифмирования. lg G lg V n Средняя гармоническая (H) Она применяется при усреднении меняющихся скоростей. Н= n 1 V = 1 1 1 1 1 ... V1 V2 V3 Vn Все средние, вычисленные по одним показателям, по численному значению находятся между минимальным и максимальным значениями признака и могут быть расположены в ряд: Vmin < H < G < M < S < Vmax Мода ( Мo ) Мода – это наиболее часто встречающаяся варианта (класс) в исследуемой группе. Часто за моду принимают середину модального класса. Чаще в совокупности бывает одна мода. В таких случаях вариационная кривая будет одновершинная. Но может быть две или более мод, тогда вариационная кривая будет двух или многовершинная, они показывают, что исследуемый материал неоднородный. Медиана ( Ме ) Медиана – это такая варианта, которая разбивает группу на две равные части: одна часть будет иметь значение признаков меньше медианы, другая – больше. 2. ПОКАЗАТЕЛИ РАЗНООБРАЗИЯ Средние показатели являются очень важными, но они не могут характеризовать разнообразие признака. Признак в группе всегда представлен разными показателями – он варьирует. Различия эти иногда очень велики. Иногда почти незаметны, но они всегда имеются; невозможно найти двух особей абсолютно одинаковых. Для оценки разнообразия признака используется несколько его показателей: лимиты, среднее квадратическое отклонение, коэффициент вариации, нормированное отклонение. Лимиты ( lim ) Лимиты показывают величину максимального (Vmax) и минимального(Vmin) значения признака. Разность между Vmax и Vmin называется размахом. Пример: в двух совхозах имеется по 5 быков- производителей, которые по живой массе распределились следующим образом. № быков Живая масса в килограммах 10 1 2 3 4 5 1 совхоз 640 645 650 655 660 2 совхоз 600 625 650 675 700 Оказалось, что средняя масса быков в обоих совхозах одинакова lim lim (М1 = М2 = 650 кг), однако лимиты и размах разные: 1→ 640 : 660 (20), 2→ 600 : 700 (100), т.е. разнообразие признака во второй группе значительно выше. В биологии в некоторых случаях лимиты могут служить единственной характеристикой разнообразия признака. Например, при описании простейших приводятся только лимиты их размеров (размеры амебы находятся в пределах от 20 до 30 мкм, т.е. lim→ 20 : 30 мкм). Однако лимиты не могут служить основным показателем разнообразия, т.к. они не всегда отражают очень важные его особенности. Пример: № особей 1 2 3 4 5 6 7 8 9 М lim 1-я группа 10 11 12 13 14 15 16 17 18 14 10-18 (8) 2-я группа 10 14 14 14 14 14 14 18 14 14 10-18 (8) В данном примере лимиты не отображают разнообразия признака в группах. Среднее квадратическое отклонение ( σ) Этот показатель используется как абсолютная мера разнообразия. Рассчитывается среднеквадратическое отклонение по формуле: σ= C , где С – дисперсия или сумма квадратов центральных отклонений n 1 (V ) 2 2 2 C ( V M ) V n ν n – 1= - число степеней свободы, равное числу объектов в группе без 1. Если число вариант большое, уменьшение на 1 существенно не скажется на конечном результате. Сигма в квадрате называется вариансой. Она используется при дисперсионном анализе. Этой основной формулой вычисления среднего квадратического отклонения пользуются при небольших выборках. При больших выборках расчёт среднего квадратического отклонения производят по способам произведений и сумм с построением вариационных рядов. 11 Величина среднего квадратического отклонения служит основой для многих других показателей изменчивости (М ± σ). Если от средней взять + σ или – σ, сюда попадет 68,2% вариант: таких объектов в данной совокупности 68,2%; М ± 2 М± σ – то есть, σ – 95,5%; М ± 3σ – 99,7%. Способ произведений По этому способу вычисление среднего квадратического отклонения производят по формуле: C , n 1 K ν где К – классовый промежуток, n–1= –число степеней свободы, C – дисперсия. Последняя при данном способе рассчитывается по формуле: f a 2 C f a 2 n , где а – номер класса, f – количество вариант в каждом классе (частота), n – число вариант в группе. Пример: W 450 440 430 420 410 400 390 380 K = 10, n = 100 С 192 f 1 7 20 30 25 10 6 1 302 100 f · a2 9 28 20 0 25 40 54 16 a f·a 3 3 2 14 1 20 0 0 -1 -25 -2 -20 -3 -18 -4 -4 ∑ f · a = -30; ∑ f · a2 = 192 183 10 183 13,6 99 способу сумм Способ сумм Расчёт К С , n 1 среднего квадратического где дисперсия – С = S2 - отклонения по производится по формуле: 2 1 S n S1 = ∑ р1 - ∑ q1 ; S2 = ∑р1 + ∑q1 +2 (∑р2 + ∑q2); р1 и q1 - значения первых полурядов накопленных частот, которые составляются так же, как при вычислении средней арифметической по способу сумм. р2 и q2 - значения вторых полурядов накопленных частот, для составления которых прочёркивается модальный класс, и по одному классу над и под модальным, значения первых полурядов для первого и последнего 12 классов переносят без изменения, затем к этим значениям прибавляются значения первых полурядов следующих классов т.д. Пример: W 450 440 430 420 f 1 7 20 30 р1 1 8 28 - 410 400 390 380 25 10 6 1 42 17 7 1 q1 р2 1 9 - 25 8 1 q2 K = 10, n = 100, S1= 37 – 67 = - 30 , S2 = 37 + 67 + 2 (10 + 34) = 192 2 30 C 192 100 183 10 183 13,6 99 Способ взвешенных вариаций f W 2 C n 1 C f W 2 n Пример: W 450 440 430 f 1 7 20 р1 1 8 28 р2 1 9 - f·W 450 3080 8600 f · W2 202500 1355200 3698000 420 30 - 410 400 390 380 25 10 6 1 42 17 7 1 25 8 1 12600 10250 4000 2340 380 5292000 4202500 16000000 912600 144400 q1 q2 При расчёте среднего квадратического отклонения, для генеральной совокупности: σ= C N , где С = V – M, N - объём генеральной совокупности. Среднее квадратическое отклонение (сигма) - показатель именованный, выражается в тех же единицах, что и варианты, и средняя арифметическая, и поэтому показать разнообразие признаков, выраженных в разных единицах измерениях, оно не может. В таких случаях используются другие показатели, такие как коэффициент вариации и нормированное отклонение. 13 Коэффициент вариации (CV) Коэффициент вариации – это отношение сигмы к средней арифметической, выраженное в процентах. CV = М 100% В биологических исследованиях следует считать, что: если CV < 10% - разнообразие слабое, материал однородный; если 10% < СV < 20% - разнообразие среднее, если СV ≥ 20% - разнообразие большое, материал неоднородный. Пример: Показатели M σ СV Живая масса телят при рождении Живая масса коров Процент жира в молоке Удой за лактацию Высота в холке 30 кг 400 кг 4% 3000 л 120 см 3 кг 48 кг 0,2 % 600 л 7,2 см 10% 12% 5% 20% 6% Из данной таблицы видно, что по проценту жира в молоке и высоте в холке разнообразие в стаде небольшое, наибольшее разнообразие по удою за лактацию, т.е. можно предположить, что в стаде животные одной породы, но разновозрастные. Нормированное отклонение (X) Нормированное отклонение - это есть центральное отклонение, выраженное в сигмах: X = V M . Оно даёт возможность оценить отдельные объекты в группе по нескольким признакам, сравнить отдельные объекты из разных групп, входит в расчёты законов распределения. Пример: Показатели Группа коров М Оцениваемое животное σ V X= V M Удой зал лактацию 3500 л 500 л 4000 л +1 Процент жира в молоке 3,62% 0,20% 3,50% - 0,6 Живая масса 455 кг 50 кг 450 кг - 0,1 Высота в холке 118 см 10 см 120 см + 0,2 Индекс мясности 0,57 0,05 0,52 -1 14 Нормированное отклонение показывает, что оцениваемая корова даёт молока на 1 σ больше среднего показателя по группе, а по проценту жира и индексу мясности значительно отстаёт. Пример : Корова № 1 за лактацию дала 3500 л молока при среднем удое по группе М1 = 2500 л и л. Корова №2 дала за лактацию 4000 л при среднем удое по группе М2 = 3500 л и σ2 = 500 л. X1 = 3500 2500 = + 3,3σ; 300 σ1 = 300 4000 3500 = +1σ 500 X2 = σ Показатель коровы № 1 выходит за пределы +3 ,т.е. это животное резко выделяется в группе, по существу это рекордистка, вторая же мало выделяется от животных со средним показателем. 3. СТАТИСТИЧЕСКИЕ ОШИБКИ В результате биометрической обработки материала могут возникать 5 групп ошибок: 1. Методические – применение порочной методики (невыравненность условий жизни контрольных и подопытных животных и т.п.). Биометрия эти ошибки не исправляет. 2. Ошибки точности – использование непроверенных, неисправных приборов, неточные расчёты (с избыточной или недостаточной точностью). Биометрия такие ошибки не исправляет. 3. Случайные ошибки – описки, просчёты, перепутывание или потеря данных. 4. Ошибки типичности – нетипичные объекты в выборке. Биометрия их не выявляет. 5. Ошибки репрезентативности (представительности), ошибки выборочных данных. Они происходят потому, что о генеральной совокупности судят по выборке. Однако выборочное обследование даёт точную характеристику генеральной совокупности, т.к. величину ошибок репрезентативности можно свести к минимуму. Можно определить возможную величину ошибок репрезентативности и учитывать их. Эта группа ошибок присуща всем статическим показателям, когда исследование ведётся по выборке. Генеральная совокупность ошибок репрезентативности не имеет. Ошибка средней арифметической зависит от сигмы и от числа вариант в выборочной совокупности. Она в случае, когда объём генеральной совокупности неизвестен или близок к бесконечности, вычисляется по формуле: mм = n . Когда объём генеральной совокупности известен, формула для вычисления ошибки выглядит следующим образом: mм = · n 1 где n – объём выборки, N – объём генеральной совокупности. Ошибка среднего квадратического отклонения: mσ= n , N 2n Ошибка коэффициента вариации: mCV = CV 2n Ошибки репрезентативности дают возможность по выборке определить границы параметров генеральной совокупности. Оценка генеральных параметров Она проводится в форме определения двух крайних значений - минимального и максимального. max ~ ~ A = A ± t ּm A min ~ ~ – ошибка выборочного A – генеральный параметр, A – выборочный параметр, m A 15 параметра, t – критерий надёжности или показатель вероятности безошибочных прогнозов . Практика биологических исследований выработала 4 порога вероятности безошибочных прогнозов: нулевой порог - В0 = 0,90, первый порог - В1 = 0,95, второй порог- В2 = 0,99, третий порог - В3 = 0,999. Для достаточно больших выборок величина критерия надёжности связана с этими четырьмя порогами и определяется по таблице: Пороги надёжности В0 = 0,90 В1 = 0,95 В2 = 0,99 В3 = 0,999 Критерий надёжности t = 1,6 t = 2,0 t = 2,6 t = 3,3 Объём выборки n ≥ 20 n ≥ 30 n ≥ 100 n ≥ 200 При малых выборках критерий надёжности вычисляется по формуле Стьюдента: t ν = t∞ t2 + , 3 1,5 t где ν - число степеней свободы, равное n – 1, t – критерий надёжности для больших выборок. Пример: ~ M = 360 , = 25, n =100 ~ ~ M = M ± t ּ mM max tВ2 = 2,6. min 25 2,5 m= n 10 366,5 MB2 = 360 ± 2,6 2,5 , 353,5 т.е. в 99% выборочных исследований средняя арифметическая не выйдет за пределы 366,5 ÷ 353,5. Оценка средней разности Часто приходится проводить парные исследования: продуктивность матерей и дочерей, показатели до и после лечения и т.п. Пример. При оценке производителя сравнивали удой 20 дочерей с удоем их матерей. В результате получено 20 разностей (d = Д – М), из которых получают сводные выборочные показатели. Допустим, что Мd = + 1ц., = 2,5ц. Возникает 16 вопрос: будут ли все дочери этого быка лучше своих матерей, т.е. будет ли генеральная разность ( M d) тоже положительной? Учитывая большое экономическое значение данного показателя, необходимо оценить генеральный параметр с надёжностью не ниже второго порога(0,99). При объёме выборки n =20, t – критерий надёжности определяется по таблице или по формуле Стьюдента: tν = 2,6 2,6 2 =2,9 19 3 1,5 2,6 Вычисляется ошибка репрезентативности: m n 2,5 20 0,56 Генеральный параметр находим по формуле: ~ Md= M +2,6 d ±t·m ~ M d = 1 ± 2,9 · 0,56 = 1 ± 1,6 -0,6 Таким образом, по этим расчётам можно дать прогноз, что дочери не всегда будут лучше матерей. Такие результаты, когда нельзя получить определённой оценки генерального показателя, называются недостоверными. Если повторить предыдущую оценку на 100 парах мать-дочь при тех же сводных показателях (Мd = +1, σ = 2,5), то оценка генеральной средней разницы будет вполне определённой и достоверной: n = 100, t = 2,6; m = 2,5 100 0,25 + 1,65 Md = 1 ± 2,6 · 0,25 = 1 ± 0,65 + 0,35, т.е. производитель достоверный улучшатель, т.к. дочери с вероятностью В = 0,99 будут лучше своих матерей. 4. ДОСТОВЕРНОСТЬ РАЗНОСТИ ПОКАЗАТЕЛЕЙ Целью любого исследования является выяснение разности между сравниваемыми группами. ~ ~ Допустим , имеются две выборочные средние M 1 и M 2 .Может оказаться, ~ ~ что M 1 > M 2. А какой будет разность между генеральными средними? Когда направление разницы между выборочными показателями по знаку совпадает с направлением разницы между генеральными, разность считается ~ ~ достоверной, т.е. M 1 > M 2 M 1 M 2. Когда же направление разницы в выборке не совпадает по знаку в генеральной совокупности, разность будет ~ ~ недостоверной, т.е. M 1 > M 2 M 1 ≤ M 2. 17 Для определения достоверности разности существуют несколько критериев. Один из них – критерий достоверности разности по Стьюденту: td = ~ d , где d md ~ разность между выборочными показателями ( M 1 M 2 ), md - ошибка этой разности (md = m12 m22 ). Вычисленный td сравнивается со стандартным значением tst, определённым по таблице, а при малых выборках - по формуле Стьюдента при ν = n1 + n2 - 2. Когда td > tst – разность будет достоверной по соответствующему порогу надёжности. Когда td < tst – разность недостоверна, т.е. по выборочной разности нельзя сделать никакой оценки генеральной разницы. Пример.Сравниваем вес индеек 2 пород: n1 = 20, M1 m1 = 4,0 0,3 n2 = 25, M2 m2 = 4,6 0,4 td= M1 M 2 m m 2 1 2 2 0,6 1,2 0,5 td < tst (1,2 < 1,6) даже по нулевому порогу, значит разность недостоверна. При повторении исследования на более обширном материале: n1 = 100, M1 m1 = 4,1 0,1 n2 = 100, M2 m2 = 4,7 0,1 td = 0,6 0,01 0,01 0,6 = 4,3 0,14 т.е. разность достоверна по третьему порогу (td = 4,3 > tst = 3,3 ). Достоверность разности зависит от: 1. Объёма выборки; 2. Разнообразия внутри групп; 3. Величины разницы между группами. 2 Критерий согласия Критерий согласия нужен, когда устанавливается соответствие между рядами наблюдений, для сравнения наблюдаемых показателей с теоретическими, для определения достоверности разницы между распределениями, для вычисления коэффициента корреляции. 18 Критерий согласия – это мера отличий наблюдаемых значений от тех, которые должны получиться согласно первоначально принятой нулевой гипотезе – теоретически. 2= (0 ) , 2 где 0 - значения фактических наблюдений – теоретические значения. Пример. При моногибридном наследовании во втором поколении по Менделю происходит расщепление в соотношении 3:1. В опыте же получилось 310:90. 0- 0 (0- )2 (0 ) 2 + - 310 90 300 100 10 -10 100 100 100/300=0,3 100/100=1 2=0,3+1=1,3 Если бы было полное совпадение, т.е. 0 = , то 2= 0. Значение 2 может быть от 0 до Чем больше значение 2, тем больше расходятся эмпирические данные от теоретических. Расчёт ведётся по числу степеней свободы. Число степеней свободы определяется путём вычитания числа наложенных ограничений из числа вариант: ν= (r – 1)(c - 1), где r – число клеток по горизонтали, с – число клеток по вертикали. В биологии нулевая гипотеза (нет разницы между фактическими и теоретическими значениями) отбрасывается, когда 2 при одной степени свободы больше 3,84, при двух – 6,00, при трех – 7,82. Это значит, что если 2 при одной степени свободы меньше 3,84, принимается нулевая гипотеза – разницы нет, если больше (2>3,84) – расхождение между наблюдаемыми и теоретическими значениями существенно. Есть другие способы вычисления 2. Можно представить в виде многопольной решётки (чаще четырёхпольной). Гр + - 0 310 а 90 в а+в 300 с 100 d c+d 19 а+с в +d a +в+с+d 2= (a rb) , 2 r ( a b) где r – ожидаемое отношение (в данном случае r = 3:1=3 по закону Менделя) 2= (310 3 90) 2 1600 4 1,3 3(310 90) 1200 3 Так рассчитывается 2, когда теоретические данные известны. Если они неизвестны, их рассчитывают. Для этого фактические данные заносят в многопольную решётку. а b a+b c d c+d a+c b+d a+b+c+d Теоретические данные (а в ) (а с) авсd (a b)(b d ) b abcd (c d )(c а) abcd (c d )(b d ) d abcd a c Пример. Сравнить 2 способа лечения. Гр. Выздоров. Пало Сп. А 15 5 (12,5) а (7,5) b Сп. В 10 10 (12,5) с (7,5) d 25 15 20 25 12,5 40 20 15 b 7,5 40 20 20 40 20 25 12,5 40 20 15 d 7,5 , 40 a c т.е. на основании рассчитанных теоретических данных создаётся нулевая гипотеза – разницы между этими способами нет. Находим 0 0- (0 – ) 0 2 15 5 10 10 12,5 7,5 12,5 7,5 2,5 -2,5 -2,5 2,5 6,25 6,25 6,25 6,25 20 0,50 0,83 0,50 0,83 2 = 2,66 < 2st =3,84 Значит, 0 – гипотеза принимается – существенной разницы нет. При возможности занесения данных в четырехпольную решётку (чаще при качественных показателях) расчёты проводят по формуле: 2 = 2 (ad bc) 2 n (a b)(c d )( a c)(b d ) (150 50) 2 40 = 2,66 20 20 25 15 Если хотя бы в одной клетке решётки значение будет меньше 4, то в формулу вводится поправка Ейтса: n ( ad bc ) 2 n 2 2 = (a b)(c d )( a c)(b d ) группы + - опыт 0 3 3 a контр. 2 b 0 2 c 2 d 3 a+c = 2 5 b+d ( 0 6 2,5) 2 5 3 2 2 3 1,7 5. БИОМЕТРИЧЕСКАЯ ОБРАБОТКА КАЧЕСТВЕННЫХ ПОКАЗАТЕЛЕЙ Качественные признаки обычно не могут иметь градаций проявления: они или имеются, или не имеются у каждой особи, например, пол, комолость, наличие или отсутствие каких-нибудь особенностей, уродств, хромосомных перестроек, точечных мутаций, заболеваний, исходов болезней и т.д. Принципиальной разницы между количественными и качественными признаками нет. Степень проявления большинства качественных признаков может быть измерена, и тогда качественный признак становится количественным. И наоборот, любой количественный признак может быть выражен в альтернативной форме (например, тяжелобольной, среднебольной, здоровый) и тогда он превратится в качественный признак. Качественные признаки можно обработать математически в виде вариационных рядов, рассчитать типичное значение признака, среднюю, степень 21 разнообразия, зависимость качественных признаков от количественных признаков, оценку достоверности. Абсолютное значение признака обозначается р+ - и доля р рассчитывается формулой : р р ; n где р+ - значение носителя признака, n - объём группы. р 100% n Качественные признаки выражаются в процентах: р Пример. В 1 звероферме было 500 норок и они распределились по окраске меха. Типы окраски Коричневый Серо – голубой Сапфировый Чёрный Число зверей р+ 120 160 180 40 Доли единиц р 0,24 0,32 0,36 0,08 Процент 500 1 100% р% 24 22 36 8 Рассчитать долю единицы, «процент». Как изобразить в виде вариационного ряда: + - Можно рассчитать М : Есть признак Нет признака M A K V f a f·a 1 р+ 1 р+ 0 р- 0 0 M 0 1 р р n f a ; n Значит, доля будет равна средней арифметической: р = M. Зная среднюю арифметическую, можно найти сигму и другие показатели р q , зная сигму, можно найти ошибку: m n рq , где q- доля n противоположного признака. Мы имеем возможность определить долю генеральной совокупности: ~ P = P t mp max min Рассчитайте хотя бы по первому порогу надёжности коричневый цвет: 22 m 0,24 0,76 0,019 0,02 500 Отсюда видно, что по всей ферме коричневый цвет колеблется в пределах от 28, до 20 процентов: 0,28 P = 0,24 ± 2 · 0,02 0,20 И самое главное – достоверность разницы, т.е. найти критерий достоверности: td d , где md ~ ~ d P1 P2 , Если выборки взяты из одной генеральной совокупности и воздействие на них разное, то md рассчитывается так же, как при количественных признаках: md m12 m22 ; если выборки взяты из разных совокупностей, а воздействие на них одно, то md рассчитывается по формуле: 1 1 ; где рвзв – взвешенная доля n1 n2 р n р2 n2 ... рвзв 1 1 , q = 1-рвзв n1 n2 ... md= рвзвq Примеp: выборки взяты из одной генеральной совокупности n1 = 16 р1+ =4 р 1 и р2 n2 = 12 р2+ = 6 надо найти m1 и m2 р1 р1 4 0,25 n 16 P2 6 0,5 12 рq 0.25 0.75 0.012 n 16 0,5 0,5 m2 0,021 12 m1 md 0,012 0,021 0,033 0,18 ~ ~ d P1 P2 = 0,25 0,5 0,20 ; t d 0,20 d 1,1 ; = md 0,18 Пример: выборки взяты из разных совокупностей: n1 = 284 р1+ = 83 n2 = 50 р2+ = 6 найти td = ? р1 р1 83 6 0,29 р2 0,12 n 284 50 ~ ~ d P1 P2 0,29 0,12 =0,17 23 md рв зв 1 1 рвзв q n1 n2 р1 n1 р2 n2 0,29 284 0,12 50 83 6 0,27 , q = 1- р = 0,73 = 284 50 334 n1 n2 1 1 md 0,27 0,73 0,068 284 50 td d 0,17 2,52 md 0,068 6. УЧЕНИЕ О СВЯЗЯХ (КОРРЕЛЯЦИЯ) Во многих исследованиях требуется изучить несколько признаков в их взаимной связи. Если вести такое исследование по отношению к двум признакам, то можно заметить, что изменчивость одного признака находится в некотором соответствии с изменчивостью другого. В некоторых случаях такая зависимость проявляется настолько сильно, что при изменении первого признака на определённую величину всегда изменяется и второй признак на определённую величину, поэтому каждому значению первого признака всегда соответствует совершенно определённое, единственное значение второго признака. Такие связи называются функциональными. При изучении живых объектов – диких и культурных растений, животных, микроорганизмов – приходится иметь дело со связями другого рода. Живой организм развивается в связи с условиями его жизни, под действием бесконечно большого числа факторов, которые по-разному определяют развитие разных признаков. У живых объектов связь между любыми двумя признаками настолько часто и сильно разрушается и модифицируется, что не всегда может быть обнаружена. У растений, животных и микроорганизмов связь между признаками обычно проявляется особым образом. Каждому определённому значению первого признака соответствует не одно значение второго признака, а целое распределение этих значений, при вполне определённых основных показателях этого частного распределения – средней величины и степени разнообразия. Такая связь называется корреляционной или просто корреляцией. По форме корреляция может быть прямолинейной и криволинейной, по направлению – прямой и обратной. Одним из показателей наличия связи является коэффициент корреляции – r. 24 Коэффициент корреляции Используется для определения направления и силы связи: r 1 1 . Число показывает силу связи, знак на направление. Если коэффициент корреляции r < 0,5, то связь слабая r = 0,6 – 0,7, то связь средняя r > 0,7, то связь сильная. В биологии доли связанных признаков определяются квадратом коэффициента корреляции: r2 <0,25 - связь слабая r2 = 0,36 - 0,49 - связь средняя r2 >0,49 - связь сильная. Существует несколько коэффициентов корреляции: 1. Простой коэффициент корреляции используется для нахождения связей между количественными признаками. V V V V n V V V V n n 1 Рабочая формула: r 1 2 2 2 2 2 2 1 2 2 2 , где n – количество сравниваемых пар; r C2 C1 C 2 , где C – дисперсия Пример: взяты матери различных возрастов и определили у них количество молока. Есть ли связь между возрастом и секрецией? N Возраст V1 1 2 3 4 5 6 7 15 18 21 24 27 30 33 Кол-во молока после кормления ребенка V2 110 100 105 110 105 90 95 25 V12 V22 V1·V2 225 324 441 576 729 900 1089 12100 10000 11025 12100 11025 8100 9025 1650 1800 2205 2640 2835 2700 3135 8 9 10 ∑ 36 39 42 285 90 85 80 970 r 1296 1521 1764 8865 285 970 10 285 2 970 2 8865 95100 10 10 8100 7225 6400 95100 26880 3240 3315 3360 26880 0,88 r2=0,75 - связь обратная, сильная. 2. Коэффициент ранговой корреляции rs=1 6 d 2 n(n 2 1) d – разность рангов. Ранг – это номер варианты в ранжированном ряду. Если одинаковых вариант несколько, ранг равен среднему номеру V - 80 N- 1 R- 1 85 2 2 90 3 90 4 3,5 95 5 5 100 6 6 ранги V1 V2 1 9,5 2 6 3 7,5 4 9,5 5 7,5 6 3,5 7 5 8 3,5 9 2 10 1 rs 1 105 105 110 110 7 8 9 10 7,5 9,5 d d2 8,5 4 4,5 5,5 2,5 2,5 2 4,5 7 9 72,25 16 20,25 30,25 6,25 6,25 4 20,25 49 81 6 305,5 0,85 ; r2 = 0,72 - связь сильная, обратная. 10 99 26 3. Коэффициент корреляции для качественных показателей (тетрахорический): ad bc rю= a b a c b d c d Если посмотреть опыт Моргана, как зависят цвет тела и форма крыльев, то нужно скрестить серого самца с нормальными крыльями с чёрными самками с недоразвитыми крыльями (рецессивный признак). Во втором поколении получилось: Серых - 100 с нормальными крыльями 20 с зачатковыми крыльями чёрных - 20 с нормальными крыльями 100 с зачатковыми крыльями. Гр. Серое тело Чёрное тело ∑ rю= Нормальн. Зачатковые крылья крылья 100 20 a b 20 100 c d a+c b+d 100 100 20 20 100 20 100 20 20 100 20 100 ∑ a+b c+d a+b+c+d 10000 400 9600 0,67 120 120 120 120 связь прямая, средняя. Коэффициент корреляции Чупровым: можно r вычислить x2 , где n по формуле, предложенной χ – критерий согласия. Так же как у других показателей, у коэффициента корреляции есть ошибки репрезентативности: 1 r2 mr , где N – количество сравниваемых пар. N 2 Зная ошибку, можно найти достоверность: tr r mr 27 Рассчитаем ошибку по первому примеру: mr 1 0,75 0,25 0,18 10 2 8 0,88 tr 4,9 0,18 Теперь, зная ошибку, можем определить коэффициент корреляции в генеральной совокупности: r ~ r t mr . 7. ЭЛЕМЕНТЫ ДИСПЕРСИОННОГО АНАЛИЗА Разнообразие признаков в группе зависит от многих факторов. Сущность дисперсионного анализа заключается в изучении влияния одного или нескольких факторов на результативный признак (У) - элементарное качество или свойство объектов, изучаемый как результат влияния организованных (Х) и неорганизованных (Z) факторов. Результативные признаки могут быть количественными (длина, вес, продуктивность и т.п.) и качественными (масть, болезнь, смерть, выздоровление). Фактор - это любое воздействие или состояние, способное отражаться на разнообразии признака (физический, химический, биологический). Градации факторов - это степени их воздействия (дозы лекарственных веществ, периоды болезни, состав корма, продолжительность воздействия). Для изучения действия одного фактора организуется однофакторный дисперсионный комплекссовокупность градаций с изучаемыми датами и средними из дат по каждой градации (частные средние Mi) и по всему комплексу (общая средняя M∑). При изучении количественных признаков в градации комплекса заносятся даты - числовые результаты измерения изучаемого признака у каждого объекта. При изучении качественных признаков в градации комплекса заносится число объектов с наличием признака (m) и общее число объектов(N). Для расчета силы влияния фактора (в однофакторном комплексе) вначале рассчитываются подсобные величины: 1. сумма дат по всему комплексу -∑V 2. общая подсобная величина или вспомогательная компонента - H∑ = 3. сумма частных подсобных величин -∑Hi, где Hi= 4. градации сумма квадратов дат по всему комплексу -∑V2. Сила влияния фактора η2x= (V ) 2 N (V ) 2 - частная подсобная величина по каждой n Cx , показатель достоверности влияния рассчитывается по Фишеру – Cy x C x 1 x2 F= · = 2 или через его ошибку – Ф= , где Cz 2 z m 2 2 x Сx – факториальная (межгрупповая) дисперсия, сумма взвешенных квадратов центральных отклонений частных средних от общей средней: Сx=ΣnДx2=Σn(Mi- MΣ)2=ΣHi-HΣ; Сz-случайная (внутригрупповая) дисперсия, сумма квадратов центральных отклонений каждой даты от своей средней частной: Сz=ΣДz2=Σ(V- Mi)2=ΣV2-ΣHi; 28 Сy – общая дисперсия, сумма квадратов центральных отклонений дат от общей средней: Сy=ΣДy2=Σ(V- MΣ)2=ΣV2-HΣ; σ x ν=ν x σ z 1 2 – факториальная варианcа, равная факториальной дисперсии, деленной на число степеней свободы - (число градаций без одного ν =r-1); 1 -случайная варианcа, равная случайной дисперсии, делённой на число степеней свободы - 2 ν= ν 2 z ν (объём комплекса без числа градаций 2= N - r). Показатель силы влияния (η2x) показывает долю (процент) влияния изучаемого фактора на развитие данного результативного признака. Рассчитанный показатель достоверности влияния F(ф) необходимо сравнить со стандартным значением Fst ν ν критерия Фишера для двух степеней свободы ( 1 и 2). Если эмпирический показатель окажется больше стандартного (F≥Fst), влияние изучаемого фактора считается достоверным по тому или иному порогу вероятности безошибочных прогнозов. Используя ошибку показателя силы влияния, можно определить его доверительные границы: x2 ~x2 Fst m 2 x . Однако нужно помнить, что максимально допустимые, доверительные границы находятся в пределах от 0 до 1. Пример дисперсионного анализа для количественных признаков: испытывались разные дозы (0,5;1,0;1,5 мл) лекарственного вещества на частоту пульса у кроликов. В группы взяли по 2 кролика. Составляем однофакторный комплекс. Градации A2 Показатели A1 0.5 1.0 1.5 V n 8;0 2 10;14 2 0;4 2 4 12 2 A3 r=3 ∑V=36 ∑n=N=6 ν =r-1=3-1=2 ν =N-r=3 1 Mi= Vi ni 6 -2 4 6 36 -4 16 Cx=∑nּДx2=112 Дz= V-Mi Д z2 4;-4 16;16; -2;2; 4;4 -2;2; 4;4 Cz=∑Дz2=48 Дy= V-M∑ Дy2 2;-6; 4;36 4;8; 16;64 -6;-2; 36;4 Cy=∑Дy2=160 C x 112 = =0,70 C y 160 x2 56 F= 2 = =3,5 z 16 m 2 =(1- η2x) · x Ф= x2 m 2 =3,5 x Fst=9,6-30,8-148,5 F(Ф)< Fst Вывод: влияние фактора недостоверно +2,62 – 1,0 N Дx= Mi- M∑ Дx2 η2x= 2 х V M∑ = = 0,70 9,6 · 0,2=0,70 1,92 -0,22 – 0,0 29 r 1 =0,2 N r 2 σ 2 Сx 2 СZ = x σ z = 1 2 56 16 В медицине и ветеринарии чаще приходится иметь дело с качественными признаками, которые чаще всего выражаются в долях единицы. р= m , где m-количество носителей признака, n-объем выборки (градации). n ( m) 2 m2 H∑ = ; Hi= N n Сx= ΣHi-HΣ; Cz= Σm-ΣHi; Cy= Σm-Σ HΣ σ 2 x = Сx ; r 1 σ z 2 = Cz N r Пример дисперсионного анализа однофакторных комплексов для качественных признаков: показатели 1 2 градации 3 4 5 r=5 Cx=∑Hi- HΣ=5.2 ( m) 14.4 N 2 HΣ= n m m2 20 2 4 0.2 m2 Hi= n m р= n 30 3 9 0.3 0.1 η2x= 0.1 C x 5,2 = =0.155 C y 33,6 40 8 64 1.6 30 15 225 7.5 0.2 40 20 400 10.0 0.5 0.5 ν =r-1=4; ν =N-r=155; 1 2 N=∑n=160 ∑m=48 ∑Hi=19.6 p∑=0.3 Fst=2,4-3,4-4,9 Общий вывод: влияние фактора достоверно по 3 порогу, с вероятностью B>0,999 m 2 =(1- η2x) · x r 1 =0,02 N r x2 ~x2 Fst m 2 x +0.253 =0,155 4,9 · 0,02 +0.057 30 Cz=∑m-∑Hi=28.4 Cy=∑m-H∑=33.6 Сx =1.300 r 1 σz2= C z =0.183 N r 2 1,300 F= x2 = =7,1 z 0,183 σ 2 x = Стандартные значения критерия Стьюдента(t) V B0=0,90 B1=0,95 В2=0,99 B3=0,999 υ В0=0,90 B1=0,95 В2=0,99 В3=0,999 1 6,3 12,7 63,7 637,0 13 1,8 2,2 3,0 4,1 2 2,9 4,3 9,9 31,6 14-15 1,8 2,1 3,0 4,1 3 2,4 3,2 5,8 12,9 16-17 1,7 2,1 2,9 4,0 4 2,1 2,8 4,6 8,6 18—20 1,7 2,1 2,9 3,9 5 2,0 2,6 4,0 6,9 21—24 1,7 2,1 20 ,0 3,8 6 1,9 2,4 3,7 6,0 25—28 1,7 2,1 2,8 3,7 7 1,9 2,4 3,5 5,3 29—30 1,7 2,0 2,8 3,7 8 1,9 2,3 3,4 5,0 31—34 1,7 2,0 2,7 3,7 9 1,8 2,3 3,3 4,8 35—42 1,7 2,0 2,7 3,6 10 1,8 2,2 3,2 4,6 43—62 1,7 2,0 2,7 3,5 11 1,8 2,2 3,1 4,4 63-175 1,6 2,0 2,6 3,4 12 1,8 2,2 3,1 4,2 176- ∞ 1,6 2,0 2,6 3,3 III. ВОПРОСЫ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ 1. Темы: А. Основные понятия биометрии Б. Составление вариационных рядов. B. Средние величины Контрольные вопросы 1. Дайте краткое определение биометрии как науки. 2. Что такое групповые свойства? 3. Что называется статистической совокупностью? 4. Что называется генеральной совокупностью? 5. Что называется выборочной совокупностью—выборкой? 6. В каком порядке проводится выборочное исследование? 7. На какие две категории разделяются изучаемые в биометрии признаки? 8. Чем характеризуются качественные признаки и как количественно они учитываются? 9. Как выражаются количественные признаки, и на какие категории они подразделяются? 10. Что такое разнообразие (варьирование) признака в совокупности объектов? 11. Что такое дата или варианта—V? 12. Как группируются даты для биометрической обработки? 13. Каково назначение статистических таблиц? 14. Что такое ранжирование? 15. Что такое вариационный ряд (ряд распределения)? 16. Какие два вида вариационных рядов используются в биометрии? 17. Для чего строятся вариационные ряды? 18. Каков общий порядок построения вариационного ряда с разбивкой дат на классы (вариации)? 31 19. Какими графиками изображаются вариационные ряды? 20. Какие общие закономерности выявляются вариационными рядами и их графиками? 21. Что такое средняя величина признака? 22. Какие средние показатели используются обычно в биометрии? 23. Приведите основную формулу расчета средней арифметической. 24. Опишите специальные математические свойства средней арифметической. 25. Приведите формулу расчета М способом произведений (при наличии вариационного ряда с использованием условной средней А). 26. Приведите формулу расчета М способом сумм (при наличии вариационного ряда с дополнительным построением ряда накопленных частот – S1). 27. Когда и как вычисляется средняя взвешенная – Мвзв.? 28. Приведите формулу расчета средней квадратической - S, когда она используется? 29. Приведите формулу расчета средней геометрической - G, когда она используется. 30. Приведите формулу расчета средней гармонической - H, когда она используется. 31. Что такое Мо? 32. Что такое Мe? 2. Темы: А. Показатели разнообразия. Б. Законы распределения случайных величин. В. Статистические ошибки. Контрольные вопросы 1. Какие показатели характеризуют разнообразие признаков в совокупности (в вариационном ряду)? 2. Какой показатель указывает фактические границы разнообразия (вариабельности) признака, как он обозначается? 3. Приведите основную формулу для расчета среднего квадратического отклонения, 4. Какова основная формула расчета дисперсии (суммы квадратов)? 5. Что такое число степеней свободы, чему оно равно при расчете выборочной σ? 6. Что измеряется сигмой (средним квадратическим отклонением)? 7. Что такое варианса—средний квадрат, какова ее формула? 8. Приведите формулу генеральной сигмы. 9.Что такое коэффициент вариации? 10. В каких случаях используется коэффициент вариации? 11. Какие значении CV характеризуют разные степени разнообразия? 12. Приведите формулу нормированного отклонения, что оно показывает? 13. Для чего служит нормированное отклонение? 14. Что такое вероятность, по какой формуле она вычисляется? 15. Как обозначаются вероятности наступления и не наступления события? 16. Чему равна сумма полной вероятности? 17. Что такое случайная величина? Почему разные значения признака в вариационном ряду можно считать случайной величиной? 18. Что надо знать о случайной величине для получения возможной полноты сведений о ней (как ее охарактеризовать)? 19. Что такое закон распределения случайной величины? 20. Какие типичные законы распределения случайной величины наиболее часто встречаются в биологии? 21. Чем характеризуется нормальное распределение? 22. Как называется прием расчета теоретической кривой нормального распределения по эмпирическим данным? Что надо для этого расчета? 23. Как определяется количество вариант (в процентах от общего количества вариант в вариационном ряду), отклоняющихся от средней на то или иное количество сигм? Сколько процентов составляют варианты с отклонением ±1σ, с отклонением ±2σ и с отклонением ±3σ? 24. Какое распределение называется биноминальным? 25. Какое распределение называется распределением Пуассона, чем оно характеризуется? 26. Что такое репрезентативность в биометрии? 27. Что такое ошибка репрезентативности? 28. Какие показатели имеют ошибки репрезентативности и какие не имеют? 29. Чем отличаются ошибки репрезентативности от других ошибок, которые могут возникнуть при выборочном и сплошном исследовании? 32 30. Можно ли по выборочным показателям, которые несут неизбежно ошибки репрезентативности, судить о возможных значениях параметров генеральной совокупности? 31. Как выражаются параметры генеральной совокупности по выборочным данным? 32. Какое общее правило положено в определении доверительных границ любых генеральных показателей? 33. Что такое ошибка средней арифметической? 34. Приведите формулу расчета ошибки репрезентативности средней арифметической, среднего квадратического отклонения и коэффициента вариации. 35. Какие пороги вероятности безошибочных прогнозов оценок значений генеральных показателей используются в биометрии? 36. Чем определяется тот или иной порог надежности (вероятности) безошибочного прогноза (определения) значений параметров генеральной совокупности? 37. Как определяется величина критерия надежности при достаточном объеме выборок? 38. Как определяется величина критерия надежности при выборках объемом меньше 20 — 30? 39. Приведите формулу расчета t, не используя таблиц Стьюдента. 40. Чем определяется выбор порогов безошибочного прогноза? 3. Темы: А. Достоверность, выборочных показателей. Б. Критерий соответствия — критерий 2 (хи - квадрат). В. Обработка данных, выраженных в долях Контрольные вопросы 1. Что в биометрии понимается под достоверностью выборочной разности? 2. Когда выборочная разность считается достоверной и когда недостоверной? 3. Как определяется достоверность разности средних? 4. Как обозначается (записывается) критерий достоверности разности при разных порогах надежности? 5. Что такое средняя разность? 6. Как определяется достоверность средней разности? 7. Что такое уровень вероятности (доверительная вероятность) и как он обозначается? 8. Что такое уровень значимости показателя и как он обозначается? 9. Что называется в биометрии долями? 10. Какие обозначения приняты для долей? 11. Какое значение признака выражает доля? 12. Чему равна сумма квадратов центральных отклонений (дисперсия) при долях в выборках и в генеральной совокупности? 13. Приведите формулу среднего квадратического отклонения выборочного и генерального для долей. 14. Чему равно максимальное значение среднего квадратического отклонения качественных признаков в выборке и в генеральной совокупности? 15. Приведите формулу расчета ошибки репрезентативности доли и ее возможного максимального значения. 16. Как оценивается генеральная доля по выборочным долям (как определяются доверительные границы р)? 17. Как определяется достоверность разности долей? 18. Чему равны квадраты ошибок долей, необходимых для расчета критерия достоверности? 19. Чему равна ошибка доли, когда ее выборочное значение равно либо 0, либо 1, т. е. когда в выборке нет ни одного носителя изучаемого признака, либо все члены выборки имеют этот признак? 20. Как вычисляется ошибка при определении достоверности разницы долей, когда выборки взяты из разных совокупностей? 21. Что такое нуль- гипотеза — Но? 22. Что такое критерий согласия (критерий соответствия) — 2 (хи - квадрат)? 23. Приведите основную формулу расчета хи-квадрат и пределы его значений. 24. Как связана величина (значение) хи-квадрат со степенью соответствия фактического распределения частот теоретическому? 25. Как определяются значения хи-квадрат с учетом степеней свободы, когда нулевая гипотеза принимается и когда она отбрасывается? 26. Как рассчитывается число степеней свободы при расчете хи-квадрат? 27. Как рассчитываются ожидаемые частоты при определении хи-квадрат, когда неизвестно теоретическое распределение? 33 28. Приведите формулу расчета хи-квадрат для четырехпольной решетки. 4. Темы: А. Учение о связях. Б. Дисперсионный анализ однофакторных комплексов количественных и качественных признаков Контрольные вопросы 1. Что называется таблицами сопряженности? 2. Как устанавливается наличие связи между признаками по таблицам сопряженности? 3. Что такое корреляция? 4. Что такое функциональная связь? 5. Чем различаются положительная и отрицательная корреляции? 6. Какую форму (характер) могут принимать связи между сопряженными признаками? 7. Какими показателями измеряется степень (теснота) корреляционной связи? 8. Приведите основные рабочие формулы для вычисления коэффициента корреляции — r. 9. Какие значения может принимать коэффициент корреляции—r? 10. Что выражают знаки плюс и минус при коэффициенте корреляции – r? 11. Какое значение имеет коэффициент корреляции при полной связи и её отсутствии? 12. Какие значения коэффициента корреляции следует считать низкими, средними, высокими и почему? 13. Как рассчитываются ошибки репрезентативности выборочного коэффициента корреляции — r? 14. Как найти доверительные границы генерального значения коэффициента корреляции- r? 15. Как определяется достоверность разности коэффициентов корреляции? 16. Что такое корреляционная решетка, как она строится? 17. Для чего служит корреляционная решетка? 18. Как сформулировать нуль гипотезу в применении к коэффициенту корреляции, к разнице между двумя коэффициентами корреляции? 19. Что такое ранговая корреляция? 20. Приведите формулу Спирмена для расчета коэффициента ранговой корреляции. 21. Как рассчитывается коэффициент корреляции при качественных (альтернативных) признаках— тетрахорический показатель связи - r + + (rю)? 22. Как определяется достоверность тетрахорического показателя связи — r ++ (rю)? 23. Приведите формулу расчета тетрахорического показателя с использованием критерия хи-квадрат. 24. Что такое коэффициент ассоциации К, как он рассчитывается? 25. Что такое коэффициент прямолинейной регрессии R? 26. Как рассчитывается коэффициент прямолинейной регрессии? 27. Как определяются доверительные границы генерального коэффициента регрессии? 28. В чем заключается основная задача дисперсионного анализа? 29. Что является основанием дисперсионного анализа? 30. Как в дисперсионном анализе определяется сила (доля) влияния организованного фактора на результативный признак? 31. Как может быть вычислена ошибка показателя силы влияния? 32. Как определяется достоверность показателя силы влияния при использовании критерия Ф? 33. Как определяется показатель достоверности по Фишеру? 34. Можно ли определить силу влияния на результативный признак не одного, а нескольких организованных факторов, и, если можно, то на каком основании? 35. Как рассчитываются дисперсии (суммы квадратов) при анализе качественных признаков? 36. Какие разделы включает биометрия? 37. Какое значение имеет биометрия в биологических исследованиях, в сельском хозяйстве, медицине и ветеринарии? 34 IV. СТАТИСТИЧЕСКИЙ АНАЛИЗ С ИСПОЛЬЗОВАНИЕМ MICROSOFT EXCEL Microsoft Excel предоставляет для проведения анализа данных широкий набор функций, основное назначение которых - проведение простого статистического анализа данных. Данный табличный процессор включает более 70 статистических функций. Правильное использование статистических функций помогает глубоко и всесторонне изучить имеющиеся наборы данных, сохраненных в рабочих листах Microsoft Excel, списках или сводных таблицах. Функции в Microsoft Excel используются для выполнения стандартных вычислений в рабочих книгах. Значения, которые используются для вычисления функций, называются аргументами. Значения, возвращаемые функциями в качестве ответа, называются результатами. Помимо встроенных функций вы можете использовать в вычислениях пользовательские функции, которые создаются при помощи средств Microsoft Excel. 1. Базовые понятия Набор функции вручную. Чтобы использовать функцию, нужно ввести ее как часть формулы в ячейку рабочего листа. Последовательность, в которой должны располагаться используемые в формуле символы, называется синтаксисом функции. Все функции используют одинаковые основные правила синтаксиса. Если вы нарушите правила синтаксиса, Microsoft Excel выдаст сообщение о том, что в формуле имеется ошибка. Если функция появляется в самом начале формулы, ей должен предшествовать знак равенства, как и во всякой другой формуле. Если необходимо использовать какую-то функцию, то создается формула с участием этой функции. В качестве аргументов можно использовать числа, текст, логические значения, массивы, значения ошибок или ссылки. Аргументы могут быть как константами, так и формулами. В свою очередь эти формулы могут содержать другие функции. Функции, являющиеся аргументом другой функции, называются вложенными. В формулах Microsoft Excel можно использовать до семи уровней вложенности функций. Для большинства функций необходимо указать значения аргументов. Аргументы функции заключаются в круглые скобки. Если функция требует для себя значения сразу нескольких аргументов, они отделяются друг от друга точкой с запятой. Задаваемые входные параметры должны иметь допустимые для данного аргумента значения. Некоторые функции могут иметь необязательные аргументы, которые могут отсутствовать при вычислении значения функции. Продемонстрируем сказанное на двух примерах использования простейших функций. Цел настоящих примеров - дать общие знания об использовании функций. Функция СУММ предназначена для вычисления суммы всех значений, указанных в качестве ее аргументов. В приведенном ниже примере этими аргументами являются числа 2, 2, значение ячейки А1 и значения, введенные в диапазоне В3:G5. 35 =СУММ(2;2;А1;В3:G5). В следующем примере показано использование функции СРЗНАЧ, которая вычисляет среднее для всех значении, сохраненных в диапазоне В2:В100. =СРЗНАЧ(В2:В100). В выше приведенных примерах необходимо знать следующее. Ввод ссылок на ячейку (в нашей ситуации А1) или на диапазон ячеек (В3:G5 или В2:В100) можно осуществить двумя способами: непосредственный ввод и указание манипулятором мышь. В первом случае регистр клавиатуры должен быть переведен на английский либо комбинацией клавиш CTRL+SHIFT (или ALT+SHIFT), либо изменением индикатора клавиатуры на панели задач с помощью манипулятора мышь. Во втором случае фиксируется манипулятором мыши соответствующая ячейка на рабочем листе или выделяется диапазон ячеек. Выделение диапазона производится следующим образом: указатель манипулятора мышь устанавливается в предполагаемую начальную ячейку диапазона и при фиксированном положении левой кнопки мыши указатель перемещается до последней ячейки диапазона, а затем отпустить кнопку. В большинстве случаев для ввода ссылок используется второй способ. Способ набора в ячейках формул, содержащих функции, зависит от того, насколько хорошо вы представляете себе способ использования этих функций. Если вы точно знаете, как правильно использовать ту функцию, которая вам нужна, или по крайней мере точно знаете ее название, можно просто набрать в ячейке название функции. При наборе после названия функции круглой скобки, Microsoft Excel отобразит рядом экранную подсказку с указанием всех необходимых для функции аргументов. Типы функций. Для удобства работы функции в Microsoft Excel разбиты по категориям: функции управления базами данных и списками, функции даты и времени, DDE/Внешние функции, инженерные функции, финансовые, информационные, логические, статистические, текстовые и математические и др. При помощи текстовых функций имеется возможность обрабатывать текст: извлекать символы, находить нужные, записывать символы в строго определенное место текста и многое другое. С помощью функций даты и времени можно решить практически любые задачи, связанные с учетом даты или времени (например, определить возраст, вычислить стаж работы, определить число рабочих дней на любом промежутке времени). Логические функции помогают создавать сложные формулы, которые в зависимости от выполнения тех или иных условий будут совершать различные виды обработки данных. В Microsoft Excel широко представлены математические функции. Например, можно выполнять различные операции с матрицами: умножать, находить обратную, транспонировать. С помощью статистических функций возможно проводить статистическое моделирование. Кроме того, возможно, использовать элементы факторного и регрессионного анализа. В Microsoft Excel можно решать задачи оптимизации и использовать анализ Фурье. В частности, реализован алгоритм быстрого преобразования Фурье, при помощи которого вы можете построить амплитудный и фазовый спектр. Использование команды Функция. 36 Если не ясно представляете название функции или, может быть, не знаете как ее использовать, то необходимо воспользоваться командой Вставка - Функция для поиска нужной функции и последующего корректного определения всех ее аргументов. Процесс использования команды Вставка - Функция заключается в следующем. 1. Перейти к ячейке, в которую должна быть введена формула, содержащая функцию. 2. Выбрать команду Вставка - Функция. Или щелкнуть манипулятором мышь на кнопке Вставка функции. 3. На появившемся диалоговом окне определить категорию функции. 4. Выбрать нужную функцию и подтвердить. 5. На появившемся диалоговом окне выбранной функции указать значения аргументов функции. Значение аргумента определяется путем набора в поле аргумента числа, формулы, ссылки на ячейку или диапазон ячеек. Если для выполнения функции необходимо несколько аргументов, то определяются значения для каждого из них. Результат отображается в нижней части диалогового окна возле слова Значение. 6. После определения значения всех аргументов щелкнуть по кнопке ОК. 2.Краткое описание некоторых статистических функций Подсчет количества элементов. Подсчет количества ячеек с числовыми значениями: =СЧЕТ(диапазон). Значение аргумента диапазон указывает на диапазон ячеек, содержащих исходные данные. Пример: =СЧЕТ(А1:В5). Подсчет непустых ячеек: =СЧЕТЗ(диапазон). Пример: =СЧЕТЗ(С1:D6). Подсчет количества пустых ячеек: =СЧИТАТЬПУСТОТЫ(диапазон). Пример: =СЧИТАТЬПУСТОТЫ(А5:H8). Посчет ячеек, значения которых удовлетворяют заданному критерию: =СЧЁТЕСЛИ(диапазон;критерий). Пример: =СЧЁТЕСЛИ(С1:С10;">4"). Средние значения, моды и медианы. Среднее абсолютных отклонений: =СРОТКЛ(диапазон). Определяет среднее абсолютных отклонений точек данных от среднего. Пример: =СРОТКЛ(А1:В6). Вычисление среднего: =СРЗНАЧ(диапазон). Используется для вычисления арифметического среднего набора числовых значений. Приближенное среднее: =УРЕЗСРЕДНЕЕ(диапазон;процент). Вычисляет среднее арифметическое набора числовых значений, но только после того, как будет отброшен определенный процент экстремальных значений. Пример: =УРЕЗСРЕДНЕЕ(С2:С10;0,1). Производится вычисление среднего арифметического набора числовых значений, собранных в ячейках С2:С10, но только после того, как будут отброшены 10 % экстремальных значений (т.е. 5% максимальных и 5% минимальных). Вычисление медианы: =МЕДИАНА(диапазон). Находит среднее значение в наборе исходных числовых значений. Таким образом, половина исходных значений будет больше найденного значения, а 37 вторая половина - меньше. При обработке четного количества исходных значений функция находит два средних значения и определяет их среднее арифметическое. Пример: =МЕДИАНА(В3:В24). Вычисление моды набора чисел: =МОДА(диапазон). Находит число, которое наиболее часто встречается в наборе исходных значений. Пример: =МОДА(А5:А13). Вычисление геометрического среднего: =СРГЕОМ(число1;число2...). Функция предназначена для нахождения геометрического среднего набора числовых значений. Среднее вычисляется как корень n - ой степени от произведения всех чисел. Аргумент число1 и последующие необязательные аргументы представляют собой числа, для которых должно быть найдено геометрическое среднее. Вычисление среднего гармонического: =СРГАРМ(число1;число2...). Используется для вычисления среднего гармонического множества исходных числовых значений. Аргумент число1 и последующие необязательные аргументы представляют собой числа, для которых должно быть найдено среднее гармоническое. Поиск значений, рангов. Поиск максимального значения: =МАКС(диапазон). Пример: =МАКС(D1:D15). Поиск минимального значения: =МИН(диапазон). Пример: =МИН(А5:А10). Поиск k-того наибольшего значения: =НАИБОЛЬШИЙ(массив;k). В данном случае массив - это множество данных, среди значений которого проводится поиск, а k - порядковый номер искомого значения в рейтинге наибольших значений. Пример: =НАИБОЛЬШИЙ(А1:А10;3). Поиск k-того наименьшего значения: =НАИМЕНЬШИЙ(массив;k). В данном случае массив - это множество данных, среди значений которого проводится поиск, а k - порядковый номер искомого значения в рейтинге наименьших значений. Пример: =НАИМЕНЬШИЙ(В1:В9;2). Определение ранга числа: =РАНГ(число;ссылка;порядок). Используется для определения номера позиции числа в упорядоченном списке. Аргумент число обозначает само число, для которого нужно определить ранг, аргумент ссылка указывает на диапазон ячеек, содержащих список исходных значений, аргумент порядок задает порядок сортировки значений в списке: нуль или логическое значение Ложь обозначает сортировку по убыванию,а единица или логическое Истина - сортировку по возрастанию. Если в списке встречаются одинаковые значения, то присваивается им одинаковый ранг, однако ранг последующих значений все равно вычисляется с учетом предыдущих. Если не указано значение аргумента порядок, значения в списке автоматически будут сортированы по убыванию. Пример: =РАНГ(6;А1:А9;1). Подсчет количества значений, попадающих в указанные диапазоны: =ЧАСТОТА(массив_данных;массив_интервалов). Аргумент массив_данных указывает на ячейки, содержащие набор исходных значений, а аргумент массив_интервалов является ссылкой на ячейки, значения которых идентифицируют интервалы, куда попадают исходные значения. Отчет о количестве исходных значений, попавших в заданные интервалы, и будет результатом. Пример: =ЧАСТОТА(А2:А20;В2:В20). Стандартное отклонение и дисперсия. Стандартное отклонение по выборке: =СТАНДОТКЛ(диапазон). Оценивает степень разброса случайных значений относительно среднего показателя. Пример: =СТАНДОТКЛ(А1:А5). 38 Стандартное отклонение для генеральной совокупности: =СТАНДОТКЛОНП(диапазон). Пример: =СТАНДОТКЛОНП(А1:А5). Вычисление дисперсии по выборке: =ДИСП(диапазон). Пример: =ДИСП(А1:А5). Вычисление дисперсии по генеральной совокупности: =ДИСПР(диапазон). Пример: =ДИСПР(А1:А5). Вычисление ковариации: =КОВАР(массив1;массив2). Аргумент массив1 указывает на первое множество данных, а массив2 - на второе. Вычисление доверительного интервала: =ДОВЕРИТ(альфа;станд_откл;размер). Здесь альфа это уровень значимости, используемый для вычисления уровня надежности. Уровень надежности равняется 100*(1-альфа) процентам; другими словами, альфа, равное 0.05, означает 95%-ный уровень надежности. Аргумент станд_откл - это стандартное отклонение генеральной совокупности; размер - это размер выборки. Пример: =ДОВЕРИТ(1-0,95;20000;100). Распределение хи-квадрат. Распределение хи-квадрат: =ХИ2РАСП(х;степени_свободы). Вычисляет уровень значимости. Здесь х - числовое значение, степени_свободы - число степеней свободы. Вычисление величины хи-квадрат: =ХИ2ОБР(вероятность;степени_свободы). Вычисляет значение хи-квадрат, которому соответствует заданный уровень значимости. Здесь вероятность - заданный уровень значимости, степени_свободы - число степеней свободы. Корреляция. Коэффициент корреляции: =КОРРЕЛ(массив1;массив2). Оценивает степень и характер зависимости между различными наборами данных. Аргумент массив1 указывает на первое множество данных, а массив2 - на второе. 3.Использование инструментов описательной статистики Под описательной статистикой подразумевается метод описания больших наборов данных с помощью нескольких ключевых показателей. Некоторые инструменты описательной статистики в Microsoft Excel становятся доступными после подключения надстройки Пакет анализа. В случае отсутствия оной необходимо выбрать команду Сервис - Надстройки, в открывшемся диалоговом окне установить флажок напротив опции Пакет анализа и щелкнуть на кнопке ОК. Инструментальные средства Пакета анализа позволяют провести анализ данных по широкому кругу статистических показателей, и в т.ч. показателей описательной статистики. Использование инструментов описательной статистики. Продемонстрируем особенности его работы на примере списка данных (рис. 1 ). 39 Рис. 1 . Исходный набор данных 1. 2. Выбрать команду Сервис-Анализ данных. В диалоговом окне Анализ данных в списке Инструменты анализа выделить пункт Описательная статистика и щелкнуть на кнопке ОК (рис.2.). Рис. 2 . Диалоговое окно Анализ данных 3. Использовать раздел Входные данные диалогового окна Описательная статистика для определения исходных данных, на основании которых должны проводится вычисления. Для указания диапазона исходных данных щелкнуть в текстовом поле Входной интервал и ввести ссылку на требующий диапазон непосредственным вводом или указать манипулятором мышь. Чтобы определить, содержаться ли записи по строкам или столбцам, выбрать соответственно переключатель по столбцам или по строкам. Чтобы указать, что в первой строке содержатся названия полей, активизировать опцию Метки в первой строке (рис3.). 40 Рис. 3 . Диалоговое окно Описательная статистика 4. Используйте раздел Параметры вывода диалогового окна Описательная статистика для описания того, значения каких параметров и где именно должны быть отображены. Значения показателей описательной статистики представлены на рис.4. Рис. 4. Значения показателей описательной статистики 4. Создание гистограмм Инструмент анализа Гистограмма используется для построения распределения частот и при необходимости для создания гистограммы. Распределение частот показывает, как значения из набора 41 данных распределяются по категориям. Гистограмма представляет ту же информацию в виде диаграммы, состоящей из столбцов. Чтобы приступить к использованию инструмента Гистограмма, вначале нужно задать категории (границы классов), по которым будет построено распределение частот. Введем данные представленные в таблице 1 в ячейки столбца А электронной таблицы. Наименования и значения показателей вводим в отдельные свободные ячейки (n, Vmax, Vmin, r, K, W, Wa, Ww). Вначале необходимо подсчитать число данных n (функция СЧЁТ(диапазон)), рассчитать число классов разбиения данных r по формуле r = 1+3,3*lgn ( в Microsoft Excel функция вычисляющая значение десятичного логарифма Log10(число) ) определить максимальное и минимальное значение данных Vmax и Vmin(соответственно функции(МАКС(диапазон), МИН(диапазон)), величину классового промежутка К по формуле К=(VmaxVmin) / r и округляем до ближайшего четного числа. Определяются границы классов и записываются в отдельный столбец таблицы, например в ячейки столбца Е электронной таблицы. За середину первого класса W обычно принимают число с максимальным значением. Начало класса определяется по формуле W=W - K/2. Конец класса - W =W + K/2 - принятая точность. Вышеуказанные действия можно оформить в соответствии с рис. . В результате подтверждения ввода формул в ячейках будут представлены числовые значения, полученные в ходе вычислений, а не сами формулы. Адреса ячеек вводятся фиксированием указателем соответствующей ячейки. Названия используемых функций в данном примере могут вводить непосредственно, или использованием команд Вставка – Функция. Для округления полученного значения классового промежутка К до ближайшего четного числа используется функция ЧЕТН(К). Таблица 1 413 419 427 404 421 414 428 397 418 429 423 416 427 417 424 401 411 380 406 429 414 409 430 426 400 425 432 418 388 415 423 402 410 436 424 412 444 411 394 411 433 433 439 437 394 424 408 407 422 423 450 412 435 430 399 386 441 417 414 417 420 407 428 398 420 424 426 419 419 406 410 416 403 407 423 391 409 418 421 417 434 431 405 405 405 413 392 428 431 422 395 420 398 422 416 434 443 421 410 409 Введем название классы в ячейку G3. Введем в G4 значение W. Введем в G5 значение W . Зная значение классового промежутка К введем остальные границы классов (ячейки G6 по G11). Правильность определения границ классов проверить по рис.5. Чтобы построить распределение частот и гистограмму, необходимо выполнить перечисленные ниже действия: 1. Использовать команду Сервис-Анализ данных. 2. В диалоговом окне Анализ данных в списке Инструменты анализа выбрать пункт Гистограмма и щелкнуть на кнопке ОК. 3. В диалоговом окне Гистограмма определить диапазоны ячеек, содержащих данные, которые 42 необходимо проанализировать. Входной интервал - диапазон ячеек с исходными данными, интервал карманов - диапазон ячеек с границами классов (категории) (рис.6.). 4. В диалоговом окне Гистограмма определить параметры вывода. Выбрать один из трех вариантов вывода. Рис. 5. Пример оформления расчетов. Рис. 6. Установление параметров гистограммы 5. В диалоговом Гистограмма параметры окне определить гистограммы ( по необходимости). При активизации ( установление флажка манипулятором Парето мышь) опции (отсортированная диаграмма) создается гистограмма, у которой все отсортированы столбцы в будут убывающем порядке. Для расположения столбцов в естественном порядке с учетом указанных категорий эту опцию не 43 активизировать. Выбор опции Интегральный процент дает возможность отобразить на гистограмме линию, точки которой обозначают нарастающее количество значений в процентном выражении (аналог функции распределения). Выбор опции Вывод графика позволяет отобразить гистограмму рядом с распределением частот. В случае отказа от выбора данной опции будет показано распределение частот (рис. 7). Рис. 7. Распределение частот и гистограмма, демонстрирующие количество значений, попадающих в тот или иной интервал. 5. Генерирование случайных чисел Инструмент Генерация случайных чисел используют как вспомогательный инструмент для получения набора случайно выбранных элементов из генеральной совокупности (т.е. для получения выборки). Итак, чтобы получить набор случайных чисел, выполняются ряд действий. 1. Выбрать команду Сервис-Анализ данных. 2. В диалоговом окне Анализ данных из списка Инструменты анализа выбрать пункт Генерация случайных чисел и щелкнуть на кнопке ОК. 3. Указать, сколько строк и сколько столбцов должен включать диапазон сгенерированных случайных чисел. Количество столбцов задается в текстовом поле Число переменных, а для указания количества строк предусмотрено текстовое поле Число случайных чисел (рис. 8.). 4. Выбрать закон распределения случайных чисел. Выбрать один из пунктов раскрывающегося списка Распределение, каждый из которых обозначает один из законов распределения. В этом списке представлено несколько вариантов: Равномерное, Нормальное, Бернулли, Биноминальное, Пуассона, Модельное и Дискретное. Каждое из этих названий соответствует названию одного из законов распределения случайных чисел. 44 Рис.8. Установление параметров генерации случайных чисел 5. Определить параметры выбранного закона распределения (по необходимости). 6. Выбрать начальную точку, которая будет использована при генерировании случайных чисел (по необходимости). 7. Указать Параметры вывода, чтобы определить место, куда должны быть помещены генерируемые случайные числа. 8. Подтвердить выполнение операции. 6. Выборка данных Инструмент Выборка предназначен для выбора из общего списка данных некоторого набора случайных элементов или отбора каждого n-го элемента. Предполагается, что имеются введенные в электронную таблицу исходные данные (рис.9.). Для получения выборки элементов из списка данных выполняются ряд действий. 1. Выбрать команду Сервис-Анализ данных. 2. В диалоговом окне Анализ данных из списка Инструменты анализа выбрать пункт Выборка и щелкнуть на кнопке ОК. 3. Определить диапазон входящих данных. Область введенных данных и будет определять Входной интервал. 45 Рис.9.Общий список данных. 4. Определить получения метод выборочных значений. Предусмотрено два метода: периодический случайный. первого и Использование метода позволяет получить выборку, состоящую из каждого n-го значения исходного набора данных. Далее в текстовом определить поле шаг, с Период которым должен извлекаться значения из исходного набора данных. Во втором случае получают выборку из некоторого набора случайных элементов (рис.10.). 4. Рис.10. Установление параметров выборки Определить параметры вывода. Результаты в зависимости от метода отбора данных представлены на рис.11 и 12. 46 Рис.11. Выборка (случайный метод отбора данных Рис.12. Выборка (периодический метод отбора данных) 7. Создание точечных графиков Одной из наиболее интересных форм анализа данных является метод проведения регрессионного анализа. Используя регрессионный анализ, исследуется характер зависимости между двумя наборами наблюдаемых значений. Обычным шагом при проведении регрессионного анализа является построение точечной диаграммы, позволяющей визуально определить степень зависимости значений двух наборов данных. В Microsoft Excel среди стандартных типов диаграмм предусмотрен тип Точечная. Предположим, например, нужно определить, существует ли зависимость между значениями, представленными на рис. 13. В диапазоне ячеек A1:A11 расположены данные о количестве введенных доз. В диапазоне ячеек В1:В11 показаны значения одного из параметров изменения качественного роста культуры в соответствующие периоды времени. Нужно определить, существует ли зависимость между значениями. Для создания по имеющимся данным точечную диаграмму, выполним ряд действий. 1. Выделить диапазон ячеек, включающих оба ряда данных. 2. Запустить мастер построения диаграмм, щелкнув на стандартной панели инструментов на кнопке Мастер диаграмм. Или выполнить команду Вставка - Диаграмма. 3. В диалоговом окне во вкладке Стандартные в списке Тип выбрать пункт Точечная (рис. 14.). 47 Рис. 13. Исходные данные. Рис.14. Первое диалоговое окно Мастер диаграмм 4. В разделе Вид выбрать схему диаграммы, не включающей никаких линий и щелкнуть по кнопке Далее (рис.15.). 48 Рис.15. Второе диалоговое окно Мастер диаграмм 5. Проверить правильность выбранного диапазона с исходными данными, адрес которого отображается в поле Диапазон (рис.16.). 6. Щелкнуть на кнопке Далее. 7. Подписать диаграмму, т. е. указать название диаграммы и осей координат. При необходимости настроить параметры, представленные во вкладках Оси, Линии сетки, Легенда, Подписи данных (рис.17.). Рис.16. Третье диалоговое окно Мастер диаграмм 8. После установления необходимых параметров щелкнуть на кнопке Далее. 9. Определяется способ размещения создаваемой диаграммы. 49 Рис.17. Четвертое диалоговое окно Мастер диаграмм Опция отдельном позволяет разместить диаграмму на отдельном вновь созданном листе. Опция имеющемся позволяет поместить диаграмму на текущем рабочем листе. Название листа, на которым должна быть размещена диаграмма, можно выбрать из расположенного справа от этого переключателя раскрывающегося списка. Рис.18. Размещенная на рабочем листе точечная диаграмма 10. Щелкнуть на кнопку Готово. 11. Для добавления к диаграмме линии тренда выбрать команда Диаграмма - Добавить линию тренда. Для того чтобы меню Диаграмма стало доступным, нужно предварительно выделить вставленную в рабочий лист диаграмму или перейти на созданный лист диаграммы. для выделения достаточно указатель манипулятора мышь подвести к области диаграммы и нажать левую кнопку. 12. Добавление к диаграмме уравнения регрессии. Диалоговое окно Линия тренда содержит две вкладки: Тип и Параметры. Перейти во вкладку Параметры. В этой вкладке установить флажки показывать уравнение на диаграмме и поместить на диаграмме величину достоверности 50 аппроксимации (R^2). Microsoft Excel добавит к диаграмме ключевую информацию о проведенных регрессионных вычислениях, с помощью которых была построена линия тренда (рис. 19). Рис. 19. Добавление линии тренда 13. Щелкнуть на кнопке ОК. 51 Рис.20. Вкладка Параметры диалогового окна Линия тренда Рис. 18. Точечная диаграмма с размещенной на ней информацией о проведенных регрессионных вычислениях 52 8. Использование инструмента Регрессия Мы уже построили для своего набора данных точечную диаграмму и добавили к ней линию тренда, что позволило поверхностно оценить имеющиеся данные. Для проведения детального исследования и получения полной и точной информации воспользуемся инструментом Пакета анализа - Регрессия. Выполняются ряд следующих действий. 1. Выбрать команду Сервис-Анализ данных. 2. В диалоговом окне Анализ данных из списка Инструменты анализа выбрать пункт Регрессия и щелкнуть на кнопке ОК. 3. Определить значения X и Y (рис. 19). В диалоговом окне Регрессия в поле Входной интервал Y указать ссылку на диапазон ячеек, в которых содержится набор зависимых значений (диапазон ячеек во втором столбце). Затем перейдите к полю Входной интервал X и указать ссылку на диапазон ячеек, в которых содержится набор независимых значений (диапазон ячеек в первом столбце). 4. Установить флажок Константа-ноль (по необходимости). Рис. 19. Диалоговое окно Регрессия 5. Указать, нужно ли при проведении регрессионного анализа учитывать уровень надежности. для этого установить флажок Уровень надежности и в расположенном справа текстовом поле задать значение этого уровня. 6. Указать параметры вывода. 7. Определить, какие именно значения должны быть вычислены. Включение группы Остатки позволяет определить, информация какого рода об остатках должна быть включена в отчет о проведенном регрессионном анализе. Установление флажка График нормальной вероятности добавляет информацию об остатках, которые соответствуют нормальной вероятности, и отображает график нормальной 53 вероятности. 8. Щелкнуть на кнопке ОК. Полученный отчет содержит значения некоторых ключевых статистических регрессионных показателей, включая значение R-квадрат, значение стандартной ошибки и количество наблюдений. Далее следуют данные дисперсионного анализа, включая информацию о количестве степеней свободы, суммы квадратов, среднего квадратов, значений f-величины и данные о значимости f-величины. ниже следуют данные о построенной линии регрессии, включая показатели коэффициентов, стандартной ошибки, tстатистики, вероятностные показатели, а также некоторые данные о независимой переменной. Рис.20. Результаты, полученные в ходе проведения регрессионного анализа V. ЛИТЕРАТУРА 1. Бажин И.И. Информационные системы менеджмента.- М.: ГУ-ВШЭ.-2000. 2. Боровиков В.П., Боровиков И.П. Statistica /Статистический анализ и обработка данных в среде Windows. М.: Филинъ, 1997.- 583 с. 3. Мазер К., Джинкс Дж. Биометрическая генетика: Пер. с англ.- М.: Мир, 1985.- 463 с. 4. Меркурьева Е.К., Шангин-Березовский Г.Н. Генетика с основами биометрии.- М.: Колос, 1983. 5. Нельсон С. Анализ данных Microsoft Excel для «чайников».: Пер. с англ.- М.: Издательский дом «Вильямс», 2002. 6. Петухов В.Л. и др. Ветеринарная генетика.- М.: Наука, 1996. 54 7. Плохинский Н.А. Руководство по биометрии для зоотехников.- М.: Колос, 1970. 8. Чекотовский Э.В. Графический анализ статистических данных в Microsoft Excel 2000.- М.: ГУВШЭ, 2000. СОДЕРЖАНИЕ I. Принципы биометрической обработки ……………………………………… 1. Вводная часть ………………………………………………………………… Получение и первичная обработка материала …………………………….... Графическое изображение вариационных рядов …………………………… II. Специальная часть …………………………………………………………… 1. Учение о средних …………………………………………………………… Средняя арифметическая …………………………………………………….. Способ произведений …………………………………………………………. Способ сумм …………………………………………………………………… Свойство средней арифметической ………………………………………….. Взвешенная средняя арифметическая ……………………………………….. Средняя квадратическая ……………………………………………………… Средняя геометрическая ……………………………………………………… Средняя гармоническая, мода, медиана …………………………………….. 2. Показатели разнообразия ………………………………………………… Лимиты ………………………………………………………………………... Среднее квадратическое отклонение ………………………………………… Способ произведений ………………………………………………………… Способ сумм ………………………………………………………………….. Способ взвешенных вариаций ………………………………………………. Коэффициент вариации ……………………………………………………… Нормированное отклонение ………………………………………………… 3. Статистические ошибки …………………………………………………….. Оценка генеральных параметров …………………………………………… Оценка средней разности …………………………………………………… Оценка средней разности ……………………………………………………. 4. Достоверность разницы показателей …………………………………….. Критерий согласия …………………………………………………………… 5. Биометрическая обработка качественных показателей …………………… 6. Учение о связях (Корреляция)...…………………………………………. Коэффициент корреляции …………………………………………………… 7. Элементы дисперсионного анализа………………………………………. Стандартные значения критерия Стьюдента ………………………………. 55 III. Вопросы для самостоятельной работы ……………………………………. IV. Статистический анализ с использованием Microsoft Excel ……………… 1. Базовые понятия ……………………………………………………………….. Набор функции вручную………………………………………………………. Типы функций ………………………………………………………………….. Использование команды функция ……………………………………………. 2. Краткое описание некоторых статистических функций …………………… Подсчет количества элементов …………………………………………………. Средние значения, моды и медианы …………………………………………… Поиск значений, рангов ………………………………………………………… Стандартное отклонение и дисперсия …………………………………………. Распределение хи-квадрат ………………………………………………………. Корреляция ………………………………………………………………………. 3. Использование инструментов описательной статистики ……………………. 4. Создание …………………………………………………………… гистограмм 5.Генерирование случайных чисел ……………………………………………… 6.Выборка данных ………………………………………………………………… 7. Создание точечных графиков ………………………………………………….. 8. Использование инструмента Регрессия ………………………………………. V. ЛИТЕРАТУРА …………………………………………………………………. 56 УЧЕБНОЕ ПОСОБИЕ Ромазан Закарьянович Сиразиев Любовь Маратовна Малакшинова Нима Батодоржиевич Садуев Геннадий Александрович Игумнов Статистический анализ математических данных в биологии (для самостоятельной работы) Редактор Д.Д.Филиппова 57