Загрузил pvny

Статистические методы обработки и анализа данных. Конспект лекций для гидробиологов.

реклама
Министерство аграрной политики и продовольствия Украины
Государственное агентство рыбного хозяйства Украины
КЕРЧЕНСКИЙ ГОСУДАРСТВЕННЫЙ МОРСКОЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ
КАФЕДРА ИНФОРМАТИКИ И ПРИКЛАДНОЙ МАТЕМАТИКИ
СТАТИСТИЧЕСКИЕ МЕТОДЫ ОБРАБОТКИ И АНАЛИЗА ДАННЫХ
Конспект лекций
для студентов направления 6.090201 «Водные биоресурсы и аквакультура»
дневной и заочной форм обучения
Керчь, 2012
2
УДК 519.23 + 519.25
Автор: Полупанов В.Н. к.г.н., доцент кафедры «Информатика и прикладная математика»
КГМТУ
Рецензент: Гуляев М.В. к.в.н., доцент кафедры «Информатика и прикладная математика»
КГМТУ
Конспект лекций рассмотрен и одобрен на заседании кафедры «Информатика и прикладная
математика», протокол № 5 от 22.03.2012 г.
Конспект лекций утверждён и рекомендован к публикации на заседании методической
комиссии МФ КГМТУ, протокол №____ от _____ ____________ 2012 г.
© Керченский государственный морской технологический университет
3
Содержание
Введение
4
1. Роль и задачи методов математической статистики
5
2. Основные определения и числовые характеристики
8
3. Средние величины
15
4. Показатели разнообразия
22
5. Нормированное отклонение
34
6. Распределение признака, полигон и гистограмма
39
7. Выборочный метод и ошибки репрезентативности
50
8. Ошибки среднего арифметического
59
9. Ошибки разности средних арифметических
63
10. Необходимый объем выборочной совокупности
66
11. Анализ альтернативных признаков
68
12. Корреляция
73
13. Регрессия
80
14. Рекомендации по выполнению расчётов
97
Список литературы и интернет-источников
99
Приложение 1. Стандартное нормальное распределение
101
Приложение 2. Критические значения t-распределения
102
Приложение 3. Критические значения F-распределения
103
Приложение 4. Критические значения χ2 -распределения
105
Приложение 5. Критические значения коэффициента корреляции Пирсона
106
Приложение 6. Многолетние ряды показателей по азовской тюльке
107
4
ВВЕДЕНИЕ
Студентам, будущим инженерам и исследователям по направлению «Водные
биоресурсы и аквакультура», придётся получать различные данные
при
проведении
лабораторных экспериментов, в результате экспедиционных наблюдений, при контроле за
характеристиками действующего объекта аквакультуры и других мероприятий. На основе
этих мероприятий делаются выводы, заключения и принимаются решения, качество которых
во многом зависит от качества исследовательских работ, их соответствия современным
требованиям, одно из которых – подробное описание методики и способов обработки
первичных данных, полученных в ходе исследования.
Таким
образом,
в
исследовательской
и
инженерной
деятельности
будущих
специалистов большое место занимают вопросы статистической обработки полученных
данных, сравнительной оценки результатов наблюдений. Студенты испытывают потребность в
справочных пособиях, руководствах по применению методов математической статистики в
своих
исследованиях, с учётом специфики своих измерений. Поэтому возникла
необходимость разработки настоящего конспекта лекций
применительно к специальности
«Водные биоресурсы».
Цель
конспекта
лекций:
изложение
необходимого
теоретического
минимума
статистических методов обработки и анализа данных и возможностей их практического
использования на практике, применительно к специальности «Водные биоресурсы».
Конспект лекций соcтоит из 13-ти разделов, каждый из которых посвящён
определённой теме, содержит теоретический материал и примеры, помогающие усвоению
материала.
Для
вычислений
рекомендуется
использовать
электронные
таблицы,
предложенные в разделе 14. Список литературы включает 12 источников.
В приложениях 1÷6 помещены таблицы, используемые в примерах и необходимые для
выполнения упражнений.
Теоретический материал и примеры основаны на знаниях и навыках, полученных при
изучении
дисциплин:
«Прикладная
математика»,
«Вычислительная
техника
и
программирование», «Биометрия», а также традиционно изучаемых дисциплин, относящихся к
области гидробиологии, ихтиологии и рыбоводства.
5
К содержанию
1. РОЛЬ И ЗАДАЧИ МЕТОДОВ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
Гидробиология,
теория
вероятностей
и
математическая
статистика
–
это
самостоятельные науки, но они, тем не менее, связаны между собой, поскольку
гидробиологические явления, процессы, происходящие в биоресурсных системах, могут быть
описаны с использованием методов теории вероятностей и математической статистики,
являющихся разделами математики. Однако, долгое время живые объекты, а также их связь с
различными абиотическими и экологическими факторами изучались без использования
математики. Действительно, насыщенная яркими красками и красивыми формами природа,
казалось, не нуждается в использовании для ее познания математики. Если морская вода в
различных частях Керченского залива меняет по разному свою окраску, то, причём здесь
математика? А стаи кефали и охотящиеся дельфины, часто появляющиеся в одних частях
залива и никогда — в других, заставляют задуматься о чём угодно, но не о математических
формулах. Хотя… можно подсчитать количество тех или иных объектов, сравнить те или иные
числовые характеристики, оценить урожай культур, выразив его в килограммах или
центнерах.
Можно,
например,
вычислить
продуктивность
небольшого
водоёма
по
фактическому вылову одного вида рыб за один день. Это несложно сделать с помощью
простых вычислений. А в экспериментах, связанных с изучением
особенностей всех или
части живых организмов и происходящих при этом явлений за продолжительный период
времени, исследователи получают групповые, трудно обозримые результаты, - вот тут-то, для
определения того, проявляются ли в этих экспериментах определённые закономерности,
трудно обойтись без методов теории вероятностей и математической статистики.
Теория вероятностей относится к одному из разделов "чистой математики". Она
строится на дедуктивных принципах, на основании опыта и умозаключений. Эта наука о
возможных взаимоотношениях большого количества случайных событий.
Вероятностно-статистический
подход
для
обработки
и
интерпретации
экспериментальных данных широко используется на всех этапах работы с физической
информацией. Это обуславливается тем, что любое отдельное данное, полученное
экспериментальным путем, является случайным событием. К таким событиям могут быть
отнесены все любые события, объекты, так как данные, собранные на этих объектах другими
людьми или в другое время могут дать несколько иными, так как сами объекты со временем
изменяются, а положение точек наблюдений и отбора проб выбираются исследователями
самостоятельно. Кроме того, из-за наложения помех, связанных с погрешностью приборов,
6
различными неоднородностями, неучтёнными вариациями физических объектов и ряда других
причин, объект исследования реализуется случайным образом. Следовательно, если на
практике исследователь имеет дело с данными, которые с большим основанием оцениваются
случайными величинами и процессами, то для выделения полезной информации он
обязательно должен использоваться вероятностно-статистический подход. Теоретической
базой указанного метода являются теория вероятностей, математическая статистика и их
различные приложения.
Учёным и инженерам, специалистам в области водных биоресурсов,
очень важно
получить достоверные количественные показатели явления, состояния, функционирования
биосистемы, найти и проанализировать парные и множественные корреляционные связи и
регрессионные
зависимости
между
факторами
окружающей
среды
и
отдельными
компонентами экосистемы. При анализе полученных данных должны использоваться
соответствующие методы теории вероятностей математической статистики. Только в этом
случае они могут считаться достоверными и стать основанием для объективных выводов.
При
учитывать,
всей
что
универсальности
исследователи
в
вероятностно-статистических
области
гидробиологических
методов
необходимо
наук
пользуются
определёнными специфическими характеристиками: показателями, индексами, критериями и
т.д. Поэтому необходима адаптация используемых статистических методов применительно к
конкретной задаче, соблюдая соответствующую математическую строгость.
Задачи математической статистики коротко можно сформулировать следующим
образом, исходя из того, что результаты наблюдений описывают случайные явления, которые
описываются законами теории вероятностей. Отсюда:
•
первая задача математической статистики — указать способы сбора и группировки
статистических сведений, полученных в результате наблюдений или в результате специально
поставленных экспериментов;
•
вторая
задача
математической
статистики
—
разработать
методы
анализа
статистических данных в зависимости от целей исследования. Сюда относятся:
а) оценка неизвестной вероятности события; оценка неизвестной функции распределения;
оценка параметров распределения, вид которого известен; оценка зависимости случайной
величины от одной или нескольких случайных величин и др.;
б) проверка статистических гипотез о виде неизвестного распределения или о величине
параметров распределения, вид которого известен.
7
Современная математическая статистика разрабатывает способы определения числа
необходимых испытаний до начала исследования (планирование эксперимента), в ходе
исследования (последовательный анализ) и решает многие другие задачи. Современную
математическую статистику определяют как науку о принятии решений в условиях
неопределённости.
Итак, задача математической статистики состоит в создании методов сбора и
обработки статистических данных для получения научных и практических выводов.
Вопросы для самоконтроля:
1.
Основные задачи математической статистики?
2.
В чём состоит различие методов теории вероятностей и математической статистики
применительно к гидробиологии?
3.
Когда возникает потребность в использовании методов математической статистики?
Рекомендуемая литература: [7], [6], [7], [8], [9]
8
К содержанию
2. ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ И ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ
Группы биологических объектов, обладающие общими свойствами, называются
статистическими совокупностями. Совокупности делятся на генеральные и выборочные.
Генеральную совокупность составляют все объекты данного вида, семейства, сорта, породы
в зависимости от того, что изучается. Если представить, что перед учеными поставлена задача
изучения живых существ, населяющих определенную планету, то на первом этапе все эти
существа
и будут составлять
генеральную
совокупность.
Численность
генеральной
совокупности очень велика, говоря языком математики - бесконечна. Рассмотрим на
примерах:
• научная
лаборатория
занимается
изучением
возможности
плантационного
воспроизводства вида морской водоросли грацилярии (Gracilaria verrucosa) на
плантациях Керченского пролива – в этом случае в генеральную совокупность войдут
все экземпляры данного вида, которые будут выращиваться в разных хозяйствах на
самых разных территориях на протяжении многих лет;
• проводятся научные исследования по влиянию таких экологических факторов как
повышение температуры и солёности в Азовском море на численность одного из вида
анчоусов (род рыбы) - азовской хамсы, которая которая, в свою очередь является
разновидностью
европейской хамсы. В данном случае в качестве генеральной
совокупности можно экспериментировать со всеми представителями рода анчоусов, а
также с представителями вида и разновидности, изучая особенности воздействия
данных экологических факторов.
Конечно, исследовать такое количество объектов невозможно, да и не нужно. Из
данной генеральной совокупности для изучения берется часть, которая называется
выборочной совокупностью или выборкой. Соответствующие методы статистического
анализа позволяет распространять результаты, полученные при работе с выборкой, на всю
генеральную совокупность. Без использования таких методов исследования не могут
считаться научными, а их результаты - убедительными и доказанными.
Итак, исследователь приступает к работе с намерением изучить некоторую
совокупность. А это значит, изучить признаки, которыми наделены составляющие ее
биологические объекты. Эти признаки могут быть количественными или качественными. К
количественным признакам можно отнести, например, размер устрицы, её массу,
массу
раковины, количество особей в сообществе, в популяции, процент молоди в популяции и др. К
качественным
относятся
признаки,
которые
у
объекта
могут
присутствовать
9
или
отсутствовать. Такие признаки называются альтернативными. Например, цвет морской воды в
районе устричной банки в моменты проведения наблюдений может иметь различную окраску,
отдельные экземпляры устриц могут быть заражены или не заражены какой-либо инфекцией.
Количественные и качественные признаки не существуют отдельно друг от друга, они
связаны между собой. Например, окраска окружающей среды зависит от наличия
микроводорослей, а от наличия микроводорослей - количество и размеры здоровых устриц,
число заражённых особей.
На основании изучения количественных и качественных признаков исследователи
описывают виды, подвиды, продуктивность и т.д. Получаемые при этом результаты
подвергаются статистической обработке. Определяются различные показатели: средние
величины, данные о разнообразии, ошибка репрезентативности, достоверность и др.
Ниже приводятся
основные определения
и понятия
теории
вероятностей
и
математической статистики и числовые характеристики, часто объединяемые термином
«описательные статистики».
Определение.
Случайной
называют
величину,
принимающую
в
результате
эксперимента одно только значение из некоторой их совокупности и неизвестное заранее,
какое именно. Случайная величина Х является расширением понятия случайных событий,
состоящих в появлении некоторых числовых значений в результате эксперимента.
Как и результат отдельного эксперимента, точное значение случайной величины
предсказать нельзя, можно лишь установить ее статистические закономерности, т.е.
определить вероятности значений случайной величины. Например, измерения длин рыб в
уловах являются наблюдениями соответствующих случайных величин.
Среди случайных величин, с которыми приходится встречаться гидробиологу и
ихтиологу, можно выделить два основных типа: величины дискретные и величины
непрерывные.
Определение. Дискретной случайной величиной называется такая, которая может
принимать конечное (или бесконечное счётное) множество значений.
В качестве типичных примеров дискретной случайной величины могут выступать все
результаты промеров экспедиции, все результаты лабораторных экспериментов, привезённые
из экспедиции образцы и пр.
10
Всевозможные n значений случайной величины образуют полную группу событий, т.е.
n
∑ pi=1
, где
n - конечное или бесконечное. Поэтому можно говорить, что случайная
i=1
величина обобщает понятие случайного события.
Необходимо различать понятие вероятностного распределения, относящегося к
генеральной
совокупности
и
статистического
(или
выборочного)
распределения.
Рассмотрим вероятностное распределение на примере.
Пример 2.1 Число дней, когда у рыбаков обычно нет уловов в течение срока путины в
некотором заливе, описано вероятностным распределением, представленным в виде таблицы
2.1 или в графическом виде на рис.2.1. Эти значения, основанные на прошлом опыте рыбаков,
можно использовать для прогнозирования количества дней, отводимых для ремонта
плавательных средств.
Таблица 2.1
Вероятности, P(X)
№ п/п
Дней без уловов, X
1
1
0,10
2
2
0,20
3
3
0,25
4
4
0,15
5
5
0,30
∑
15
1
Рис. 2.1 Плотность распределения вероятности количества дней без улова
11
Отметим, что перечислены все возможные значения дискретной величины X, поэтому
5
сумма их вероятностей равна единице (
∑ p( x i )=1
или 100%, если представить вероятности
i=1
в процентах).
Для вероятностного распределения, представленного в таблице 2.1, математическое
ожидание, в соответствии с формулой для его вычисления, равно
5
M(X) =
∑ x i⋅p(x i )
= 1 · (0,1) + 2 · (0,2) + 3 · (0,25) + 4 · (0,15) + 5 · (0,30) = 3,35
i=1
Таким образом, если рыбаки будут соблюдать все ранее выполняемые технологии и
способы рыбалки, то среднее значение числа дней вынужденного простаивания будет равным
3.35 и руководство сможет перебросить часть средств на другие нужды (допустим средства на
оплату труда рыбакам за такое число дней можно перебросить на оплату за ремонт).
Часто у гидробиолога не имеется сведений о прошлом и нет вероятностного
распределения исследуемого признака. Тогда ему необходимо провести эксперименты
(получить выборку) и построить выборочное (статистическое) распределение.
Пусть в результате исследований был получен следующий ряд данных о длинах ( в
некоторых единицах) особей в некоторой популяции: 4; 3; 1; 2; 5; 4; 2; 2; 3; 1; 5; 4; 3; 5; 5; 2; 5;
5; 6; 1. Всего было проведено 20 испытаний. Для того, чтобы с данными было удобно
работать, их преобразовали: расположили полученные значения по возрастанию и подсчитали
количество появления каждого из значений. В результате получили таблицу 2.2:
Значение
1
2
3
4
5
Таблица 2.2
6
Количество
3
4
3
3
6
1
Определение. Распределение данных по возрастанию называется ранжированием.
Определение. Наблюдаемое значение некоторого признака после ранжирования
случайной величины называется вариантом.
Определение. Ряд, составленный из вариант, называется вариационным рядом.
Определение. Изменение некоторого признака случайной величины называется
варьированным.
Определение. Число, показывающее сколько раз варьируется данная варианта,
называется частотой и обозначается mxi.
Определение. Относительная частота (или, часто говорят, вероятность появления
данной варианты, хотя ...) равна отношению частоты к общей сумме вариационного ряда
px =
i
mx
N
12
i
Перепишем таблицу 2.2 с учётом последних определений:
Варианта, xi
1
2
3
4
5
Таблица 2.3
6
Частота, mxi
3
4
3
3
6
1
Относительная частота, pxi
3/20
4/20
3/20
3/20
6/20
1/20
При
статистическом
анализе
экспериментальных
данных
главным
образом
используется дискретные величины. В таблице 2.4 приведены основные числовые
характеристики этих величин, имеющих важное практическое значение при обработке
экспериментальных данных.
№
Таблица 2.4 Числовые характеристики случайных величин
Характеристика
Формула для нахождения
случайной величины и
характеристики случайной
Примечание
ее обозначение
величины
M X =∑ p i⋅xi
Среднее значение ,
(2.2)
̄x
̄x =
(2.3) Мода, Mo
(2.4) Медиана, Me
i=1
Если случайная
величина независимая,
то ̄x =M x
n
1
∑x
n i=1 i
Такое значение xi, для которого pi
наибольшее
2
Me=X n
+1
2
(2.7)
Коэффициент
вариации, V
находится в центре
ранжированного ряда.
- для нечётных n
D X =M ( X−M X ) =∑ p i⋅(x i− ̄x )
Характеризует рассеяние
случайной величины
вокруг среднего
(изменчивость).
σ=√( D X )
-»-
V= σ
X
Наряду с дисперсией и
среднеквадратическим
отклонением
характеризует
изменчивость случайной
величины
2
n
i=1
Среднеквадратическое
(2.6) отклонение (стандарт),
σ
Равна наиболее часто
встречающемуся
значению xi.
Me=( X n + X n )/2 - для чётных n; Значение, которое
+1
2
(2.5) Дисперсия, Dx
Характеризует
положение случайной
величины на числовой
оси.
n
Математическое
(2.1)
ожидание, MX
2
13
Продолжение таблицы 2.4
Центрированное
нормированное
(2.8) отклонение
(стандартизованная
величина xi), x'i
x ' i=
Начальный момент k(2.9)
го порядка, mk
mk =M =∑ pi⋅x ki
(x i−̄x )
σ
k
X
Пояснение см. дальше
n
-»-
i=1
n
Центральный момент
k-го порядка, μk
μ k =M (X −M X )k =∑ pi⋅( x i−̄x )k
(2.11)
Асимметрия
распределения, A
A=
(2.12)
Эксцесс
распределения, E
E=
(2.10)
-»-
i=1
μ3
-»-
3
σ
μ4
σ4
−3
-»-
Упражнения.
Упражнение 2.1 В результате исследований был получен следующий ряд данных о
длинах ( в некоторых единицах) особей в некоторой популяции: 4; 3; 1; 2; 5; 4; 2; 2; 3; 1; 5; 4;
3; 5; 5; 2; 5; 5; 6; 1. Всего было проведено 20 измерений. Необходимо вычислить начальный
момент первого порядка. Каким параметром закона распределения является вычисленная вами
величина. Расчёты выполнить с использованием электронных таблиц Gnumeric.
Упражнение 2.2 В результате исследований был получен следующий ряд данных о
длинах ( в некоторых единицах) особей в некоторой популяции: 1; 2; 5; 4; 2; 2; 3; 1; 5; 4; 3; 5;
5; 2; 5; 5; 6; 1; 4; 3. Всего было проведено 20 измерений. Необходимо вычислить центральный
момент второго порядка. Каким параметром закона распределения является вычисленная вами
величина. Расчёты выполнить с использованием электронных таблиц OpenOffice.org Calc
(LibreOffice.org Calc).
Упражнение 2.3 В результате исследований был получен следующий ряд данных о
длинах ( в некоторых единицах) особей в некоторой популяции: 4; 2; 2; 3; 1; 5; 4; 3; 5; 5; 2; 5;
5; 6; 1; 4; 3; 1; 2; 5. Всего было проведено 20 измерений. Необходимо вычислить коэффициент
асимметрии.
Можно
ли
считать
вид
кривой
плотности
распределения
признака
асимметричным? Расчёты выполнить с использованием электронных таблиц Gnumeric.
Упражнение 2.4 В результате исследований был получен следующий ряд данных о
длинах ( в некоторых единицах) особей в некоторой популяции: 3; 1; 5; 4; 3; 5; 5; 2; 5; 5; 6; 1;
4; 3; 1; 2; 5; 4; 2; 2; . Всего было проведено 20 измерений. Необходимо вычислить
14
коэффициент эксцесса. Что вы можете сказать о виде кривой плотности распределения
признака? Расчёты выполнить с использованием электронных таблиц Gnumeric.
Вопросы для самоконтроля.
1. Что такое генеральная совокупность?
2. Что такое выборка?
3. В чём различие вероятностного распределения и выборочного распределения
случайной величины?
4. Чему равна площадь под кривой вероятностной плотности распределения случайной
величины?
5. Чему равна площадь под кривой выборочной плотности распределения случайной
величины?
6. Размер генеральной совокупности — конечное или бесконечное число?
7. Непрерывная и дискретная случайные величины?
8. Что такое ранжирование?
9. Какие характеристики (параметры) случайной величины вы знаете?
10. Что такое оценка характеристики случайной величины?
11. Какие оценки характеристик случайной величины вы знаете?
12. Формула для вычисления начального момента k-го порядка?
13. Формула для вычисления центрального момента k-го порядка?
Рекомендуемая литература: [1], [3], [6], [7], [8], [9]
15
К содержанию
3. СРЕДНИЕ ВЕЛИЧИНЫ
Прежде всего надо знать, что существуют три меры центральной тенденции,
характеризующие любое распределение. Их не следует смешивать, поскольку получаемые с их
помощью оценки могут и не совпадать. Первая - это мода, или наиболее часто встречающееся
значение признака. Мода соответствует вершине распределения. Вторая характеристика
- медиана - представляет собой такое значение, выше и ниже которого располагаются
результаты 50% значений признака. И, наконец, наиболее часто используемая и известная
всем характеристика - это среднее, то есть среднее арифметическое, определяемое путем
суммирования всех значений измерявшегося признака и деления полученной суммы на число
обследованных. Для некоторых распределений мода, медиана и среднее различаются, для
некоторых - совпадают (это, например, нормальное распределение). Если распределение
асимметрично, т.е. имеет длинный "хвост" с одной стороны, мода, медиана и среднее будут
значительно отличаться.
Чаще всего первым шагом при обработке выборочной совокупности является
определение средних величин, из которых наиболее часто употребляемой является средняя
арифметическая.
Средние величины используются не только в процессе теоретических расчетов, но и
для практических целей. Например, чтобы дать представление об урожае спирулины в какомлибо хозяйстве, необязательно перечислять эти показатели для каждого года, достаточно
назвать среднюю величину. Общая формула для определения средней арифметической
выглядит так:
n
x 1+ x 2+ x 3+ ...+ x n
1
̄x = ∑ x i=
n i=1
n
,
(3.1)
где:
•
̄x — средняя арифметическая,
• ∑ — знак суммирования,
• xi — отдельные значения признака,
• n — число значений или объектов в выборке, называемое объемом совокупности.
Кроме среднего арифметического используются также другие средние величины:
среднее геометрическое, средняя гармоническое и др.
Среднее арифметическое является понятием математической статистики. Эта величина
является оценкой математического ожидания, понятия теории вероятностей. При больших n
16
эти величины близки друг к другу, а при малых будут различаться на величину, средняя
арифметическая которой вычисляется по формулам математической статистики (об этой
величине — далее).
Кроме средней арифметической оценками математического ожидания являются также
мода и медиана. Выбор той или иной оценки зависит от задачи, в которой они применяются,
но в любом случае делать этот выбор надо сознательно, а для этого нужно знать основы
теории вероятностей и математической статистики. Замкнутый круг! Но продолжим далее о
среднем арифметическомю
Отдельные значения признака могут быть получены путем непосредственного
измерения (длина объекта, его масса) или могут быть результатом подсчета по формулам,
предусмотренным используемыми методиками.
Пример 1. Необходимо подсчитать среднее количество рыб, попадающих в некоторое
экспериментальное орудие лова, в пруду некоторого рыбного хозяйства. Проведено 10
выловов: n = 10. Получены следующие результаты:
X
̄x =
8
10
7
8
10
8
9
9
10
9
8+ 10+ 7+ 8+ 10+ 8+ 9+ 9+ 10+ 9
=8,8 .
10
В данном примере некоторые значения повторяются несколько раз: значения 8 встретились 3
раза, 9 – 3 раза, 10 – тоже 3 раза. Для рационального подсчета в формулу вводится показатель
частоты встречаемости или математического веса р (
∑ p=n
):
.
̄x =
∑ p⋅x = x 1⋅p1+ x 2⋅p2+ ...+ xn⋅p n
n
∑p
(3.2)
В нашем примере
̄x =
В
8⋅3+ 10⋅3+ 7⋅1+ 9⋅3
=8,8 .
10
этом
случае
средняя
арифметическая
носит
название
взвешенной
средней
арифметической. Это обозначение свидетельствует только о способах расчета и никак не
меняет сути полученного показателя.
Вывод: в первом и во втором случае в одном вылове в среднем содержится 8,8 экземпляров.
Хотя в каждом вылове находится целое число экземпляров, при подсчете средней
17
арифметической допускается дробный результат с точностью на порядок выше, чем исходные
данные (в нашем примере до десятых долей).
Пример 2. В некоторой водоросли определялось содержание витамина С методом,
который предусматривает подсчет результатов по формуле. Всего было взято 5 проб:
V
60
65
70
64
71
Получены следующие данные в мг% ( миллиграмм-проценты*):
̄x =
60+ 65+ 70+ 64+ 71
=66,0 .
5
Вывод: таким образом, содержание витамина С водоросли в среднем составило 66,0 мг%.
*Данная единица измерения показывает, сколько мг витамина С содержится в 100 г навески водоросли.
Продолжаем рассмотрение темы средних величин.
Теперь рассмотрим одну важную функцию данного статистического показателя,
которая во многом объясняет цель его использования. Основная функция средней величины
заключается в «сжатии» исходной информации. Представим, что нам интересно сравнить
уровень зарплат в некоторых странах, в которых проживает по несколько миллионов человек.
Зарплаты у всех разные, есть богатые, бедные, середнячки. Как правильно определить, в какой
стране люди получают больше? Как получить обобщающую оценку уровня благосостояния? А
ведь именно так часто ставится вопрос: где больше получают, у нас или у них? Невозможно
ответить на этот вопрос, не прибегая к статистическому анализу данных. Однако, если
рассчитать средние зарплаты по странам, то огромное количество исходных данных
«сожмется» всего до одного показателя по каждой стране. После этого средние значения
можно очень легко и наглядно сопоставить между собой. Нужно понимать, что при переходе
от исходных данных к средним значениям все многообразие первоначальных данных исчезает.
Мы уже не увидим зарплату каждого работника в отдельности (часть информации теряется),
но зато огромный объем исходной информации, который невозможно осмыслить и переварить
невооруженным мозгом, превращается в достаточно компактную и информативную
характеристику всей совокупности значений. Жонглировать одним мячом легче, чем
несколькими. Следить за одной птичкой легче, чем за десятью. Короче, с одним предметом
легче управиться, чем со многими.
Качество такой характеристики (средней) зависит от исходных данных, но суть от этого
не меняется – большой объем данных «сжимается» до одного значения. Если исходные
данные в статистическом смысле качественные (однородные), то среднее значение, сохранит
18
информативность (то есть корректно отразит закономерность) исходных данных и во много
раз уменьшит их объем. Однако в реальности однородная совокупность данных встречается не
часто. Дальнейшие действия зависят от целей анализа. Если нам все-таки важно быстро и
просто получить обобщенную оценку зарплат по странам, то можно рассчитать средние
величины, игнорируя их однородность. Тогда нужно иметь в виду, что рассчитанные средние
значения не будут надежно отражать закономерный уровень зарплат, а будут только
показывать общий фонд заработной платы на одного работника. Именно этот показатель чаще
всего можно встретить в различных публикациях. Но мы теперь, как грамотные аналитики
понимаем, что трактовать его следует не как средний (закономерный) уровень з/п, а буквально
так, как он рассчитывается: фонд з/п на одного работника. Это, конечно, мелочь для
обывателя, но все-таки согласимся, что между рядами чисел {8, 10, 9, 7, 8, 7, 2, 1, 2, 1, 3, 2} и
{4, 5, 5, 6, 3, 5, 5, 4, 7, 5, 6, 5} есть некоторая качественная разница, хотя в обоих рядах средняя
арифметическая одинаковая – 5. Для наглядности различий изобразим данные на графиках.
Рис. 3.1 Две выборки с одинаковыми средними арифметическими
На левом рисунке отчетливо видно, что в первой выборке чисел данные неоднородны –
часть значений существенно больше, чем среднее значение (красная линия), часть –
значительно меньше; во втором множестве (правый рисунок) все значения гораздо более
однородны (незначительно отличаются друг от друга и скученны около среднего значения –
красной линии).
Если мы хотим добиться статистически качественных средних, то исходную
неоднородную совокупность следует разделить на однородные группы и уже по
сгруппированным данным рассчитывать средние значения. Сколько получится групп, столько
и средних значений. Это если делать по науке. На практике мало кто знает, что такое
однородность и продолжает считать «среднюю температуру по больнице». С другой стороны,
зачастую однородность вовсе и не требуется, потому что аналитику обычно интересен анализ
ситуации в динамике. В общем, однородность данных – это важное требование, но не всегда
необходимое. Однако вернемся к правильной и строгой статистике.
19
Очевидно, чем на большее количество групп разделить исходные данные, тем более
однородными они будут внутри каждой группы. Однако при этом возрастает количество
самих средних значений, а это в свою очередь затрудняет проведение и осмысление
статистического анализа. По этой причине аналитик должен стараться добиться оптимального
соотношения между количеством групп и их качеством (однородностью). Также следует
обратить внимание на количество значений внутри групп. Часто бывает, что вся совокупность
делится так, что большинство значений попадает только в одну-две группы, а остальные
значения настолько отличаются от основной массы, что хоть отдельные группы делай для них.
Понятное дело, что анализировать данные из одного или двух наблюдений нет смысла. Такие
значения называют аномальными, и во многих случаях их следует вообще исключить из
расчетов (но, все-таки не забывая об их существовании).
Таким образом, есть два полярных типа информации: либо максимально точный (если
оперировать каждым исходным значением отдельно), либо максимально компактный (когда
вся информация заменяется одной характеристикой, например средним значением).
Промежуточные варианты определяются группировкой данных. Чем больше групп, тем более
однородны в них данные, но тем больше и средних значений. Данное положение вызывает
проблему выбора между точностью и компактностью. Если данные анализируется в динамике,
то неоднородностью можно пренебречь, так как она мало влияет на динамику показателя. Но
если мы сравниваем средние величины с другими средними величинами (с другими объектами
в пространстве, а не в динамике), то на качество показателей все же следует обращать
внимание. Для неоднородных данных следует провести группировку и/или корректно
трактовать результаты расчетов. Самое главное для аналитика не отрываться от земли и за
каждым расчетом чувствовать связь с реальностью.
Необходимо отметить, что такое, на поверхностный взгляд, простое понятие как
среднее, на самом деле более содержательно, и может привести либо к появлению
информации из первичных данных, либо к её изчезновению. Существует теория средних по
Колмогорову. Естественная система аксиом (требований к средним величинам) приводит к
так называемым ассоциативным средним. Их общий вид нашел в 1930 г. А.Н.Колмогоров [8].
Теперь их называют «средними по Колмогорову». Они являются обобщением нескольких из
перечисленных выше средних.
Для чисел X1, X2,...,Xn среднее по Колмогорову вычисляется по формуле
G{(F(X1) + F(X2)+... + F(Xn))/n},
20
где F - строго монотонная функция (т.е. строго возрастающая или строго убывающая), G функция, обратная к F.
Среди средних по Колмогорову - много хорошо известных персонажей. Так,
если F(x) = x, то среднее по Колмогорову - это среднее арифметическое, если F(x) = ln x, то
среднее геометрическое, если F(x) = 1/x, то среднее гармоническое, если F(x) = x2, то среднее
квадратическое, и т.д. (в последних трех случаях усредняются положительные величины).
Среднее по Колмогорову - частный случай среднего по Коши. С другой стороны, такие
популярные средние, как медиана и мода, нельзя представить в виде средних по Колмогорову.
Более подробно
о проблеме средних (и не только) можно узнать по адресу:
http://www.aup.ru/books/m163/ [12].
Упражнения.
Упражнение 2.1 В результате исследований был получен следующий ряд данных о
длинах ( в некоторых единицах) особей в некоторой популяции: 4; 3; 1; 2; 5; 4; 2; 2; 3; 1; 5; 4;
3; 5; 5; 2; 5; 5; 6; 1. Всего было проведено 20 измерений. Необходимо вычислить среднее
арифметическое признака: 1) «вручную» - с использованием арифметических операций
суммирования и деления; 2) с использованием функции SUM() и операции деления; 3)
с
использованием функции AVERAGE(). Расчёты выполнить с использованием электронных
таблиц Gnumeric.
Упражнение 2.2 В результате исследований был получен следующий ряд данных о
длинах ( в некоторых единицах) особей в некоторой популяции: 2; 5; 4; 2; 2; 3; 1; 5; 4; 3; 5; 5;
2; 5; 5; 6; 1; 4; 3; 1. Всего было проведено 20 измерений. Необходимо вычислить среднее
арифметическое признака: 1) «вручную» - с использованием арифметических операций
суммирования и деления; 2) с использованием функции SUM() и операции деления; 3)
с
использованием функции AVERAGE(). Расчёты выполнить с использованием электронных
таблиц OpenOffice.org Calc (LibreOffice.org Calc).
Упражнение 2.3 В приложении 6 имеется таблица показателей (признаков) по азовской
тюльке, полученная за многолетний период. Необходимо вычислить средние арифметические
первых трёх показателей: биомассы, уловов и численности. Вычисления необходимо провести
трижды: 1) за довоенный период; 2) за послевоенный период; 3) за весь период, охваченный
наблюдениями. На основании полученных величин сделайте вывод о тенденции средних
величин трёх показателей.
Вопросы для самоконтроля.
1. В чём различие среднего арифметического и математического ожидания?
2. Среднее арифметическое суммы независимых случайных величин?
21
3. Какой вид плотности распределения должна иметь случайная величина, чтобы мода,
медиана и среднее арифметическое были равны между собой?
4. Геометрический смысл медианы?
5. Оценкой какой вероятностной характеристики является среднее арифметическое?
6. К какому значению будет стремиться среднее арифметическое величины xt,
изменяющейся со временем по синусоидальному закону, xt = sin(t), t = 0, 1, 2, …, n, при
n ➔ ∞?
7. К какому значению при увеличении N будет стремиться среднее арифметическое
величины xi, i = 1, 2, …, N, генерируемой с помощью функции rand(), или random() или
СЛЧИС() в электронных таблицах GNUMERIC, Openoffice.org Calc, Libreoffice.org Calc
или MS Excell?
Рекомендуемая литература: [1], [2], [3], [6], [8]
22
К содержанию
4. ПОКАЗАТЕЛИ РАЗНООБРАЗИЯ
Биологические объекты, которые входят в состав любой совокупности, в той или иной
степени отличаются друг от друга. Если это крупные объекты, то различия заметны сразу.
Если объекты мелкие, например, семена, то различия обнаруживаются не сразу, но они все
равно имеются. Эта неодинаковость обозначается разными терминами, но чаще всего мы
говорим о разнообразии признака.
Степень разнообразия может быть разной. Чтобы ее оценить, существует ряд
показателей. Простейшие из них – это пределы (лимиты), т.е. максимальное и минимальное
значения признака. Наиболее часто употребляемым является среднее квадратическое
отклонение, которое обозначается буквой σ (сигма) и для краткости так и называется.
Определяется сигма по следующей формуле:
σ=
√
∑ (x−̄x )2
n−1
,
(4.1)
где в знаменателе – число степеней свободы, которое обозначается ν (ню): ν = n - 1.
Если многие значения сильно отличаются от среднего, σ будет высокой, а
распределение растянутым. Если же значения признака у обследованных индивидов
группируются вблизи средней величины, то σ будет низкой.
Если какие–то значения повторяются несколько раз (см. пример 3.1), то в формулу
вводится показатель р:
σ=
√
∑ p⋅(x− ̄x )2 =
n−1
√
( x 1−̄x )2⋅p 1+ (x 2− ̄x )2⋅p 2+ ...+ ( x n−̄x )2⋅p n
.
n−1
(4.2)
Сигма имеет те же единицы измерения, что и сам признак. Это могут быть метры,
граммы и т.д.
Иногда требуется сравнить степень разнообразия признаков, измеряемых в разных
единицах, например, масса рыбы в граммах и длина ее тела в сантиметрах. В этом случае
используется коэффициент вариации, выраженный в процентах. Формула этого показателя
выглядит так:
V= σ ,
mx
(4.3)
то есть коэффициент вариации – это доля, которую составляет сигма от средней
арифметической.
Часто коэффициент вариации выражают в процентах:
23
V=
σ⋅100
,
mx
(4.4)
тогда коэффициент вариации – это процент, который составляет сигма от средней
арифметической.
Иногда используют более простой приближённый метод расчёта стандартного
отклонения по следующей формуле:
Δ=
x max−x min
,
K
(4.5)
где K — коэффициент, определяемый по таблице 4.1.
Таблица 4.1
Значение коэффициента K для формулы (4.5)
При большом числе наблюдений в выборке (N > 200) принимают K = 6.
Пример 4.1. Определить степень разнообразия при анализе данных о количестве птенцов в
гнездах береговой ласточки:
V
4
6
5
4
4
6
то есть n = 10,
̄x =
4⋅3+ 6⋅3+ 5⋅4 12+ 18+ 20
=
=5,0 ,
10
10
σ=
√
(4−5)2⋅3+ (6−5)2⋅3+ (5−5)2⋅4
3+ 3+ 0
6
=
= =0,82 .
9
9
9
√
√
5
5
6
5
24
Примечание: среднее квадратическое отклонение определяется на два порядка более точно,
чем значения признака, или на порядок точнее, чем средняя арифметическая.
Пример 4.2 Сравнить степень изменчивости двух разных признаков, если известно, что:
•
x̄1=12 ,
•
x̄2=14 ,
•
σ1 =3,6 ,
•
σ2 =2,3 .
Так как следствием изменчивости является разнообразие, то здесь необходимо сравнить между
собой коэффициенты вариации:
V 1=
3,6⋅100 %
2,3⋅100 %
=30 % , V 2=
=16,4 % .
12
14
Вывод: полученные результаты показывают, что первый признак более изменчив, чем второй.
Показатели вариации могут быть использованы не только в анализе изменчивости
изучаемого признака, но и для оценки степени воздействия одного признака на вариацию
другого признака, т.е. в анализе взаимосвязей между показателями.
Важнейшее свойство живой системы - изменчивость ее различных признаков,
обусловленная как природой самой живой системы, так и влиянием факторов окружающей
среды, характеризуется количественно такими статистическими показателями, как дисперсия,
среднеквадратичное отклонение вариант от среднего значения признака, а также коэффициент
вариации признака.
При этом изменчивость данного признака биологического объекта,
характеризуемая дисперсией, можно рассматривать как результат воздействия на объект всей
совокупности биотических и абиотических факторов. В биологических экспериментах одни
факторы, например, средние сезонные температура, солёность, растворённый кислород, pH и
т. д., измеряется и строго учитываются количественно, тогда как другую группу факторов ,
например, суточные и синоптические колебания тех же и других факторов, иногда учесть с
необходимой точностью невозможно.
Таким образом, совокупность факторов, воздействующих на живой объект, можно
делить на две группы: учитываемые (или регулируемые) и не учитываемые (или не
регулируемые). На основе этого можно придти к заключению, что общая дисперсия в
принципе должна состоять из двух слагаемых: дисперсия, обусловленная воздействием
регулируемых, или учитываемых в опыте факторов, т.е. так называемая факториальная или
25
факторная дисперсия и дисперсия, обусловленная влиянием случайных, не учитываемых и не
регулируемых в опыте факторов, что называется остаточной дисперсией.
Ниже
рассматривается
наиболее
часто
используемый
анализ
межгрупповой
изменчивости, являющийся основой понятия «дисперсионный анализ» (или анализ ANOVA,
analysis of variance, в англоязычных пакетах программ, в том числе в электронных таблицах).
При этом предполагается, что выборки извлечены из нормальных совокупностей с
одинаковыми дисперсиями.
При проведении такого анализа совокупность должна представлять собой множество
единиц,
каждая
из
которых
характеризуется
двумя
признаками
–
факторным
и
результативным.
Для выявления взаимосвязи исходная совокупность делится на две или более групп по
факторному признаку. Выводы о степени взаимосвязи базируются на анализе вариации
результативного признака. При этом применяется правило сложения дисперсий:
σ2 =σ̄2i + δ2 ,
(4.6)
где σ2 - общая дисперсия;
σ̄2i - средняя внутригрупповых дисперсий σ2i ;
δ2 - межгрупповая дисперсия:
Общая дисперсия измеряет вариацию признака по всей совокупности под влиянием
всех факторов, обусловивших эту вариацию.
(x i−̄x )2⋅f i
∑
σ=
.
∑ fi
2
Межгрупповая
дисперсия отражает
ту
.
часть
(4.7)
вариации,
которая
обусловлена
воздействием факторного признака. Это воздействие проявляется в отклонении групповых
средних от общей средней:
δ2 =
где:
∑ ( ̄xi −̄x )2⋅ni
∑ ni
,
x̄i - среднее значение признака по i-ой группе;
̄x - общая средняя по совокупности в целом;
ni — численность i-ой группы.
(4.8)
26
Если факторный признак, по которому производится группировка, не оказывает никакого
влияния на результативный признак, то групповые средние будут равны между собой и
совпадут с общей средней. В этом случае межгрупповая средняя будет равна нулю.
Внутригрупповая дисперсия отражает случайную вариацию, т.е. часть вариации,
происходящую под влиянием неучтенных факторов и независящую от признака фактора,
положенного в основание группировки:
σ2i =
Средняя
из
∑ (x i−̄x )⋅ni
∑ ni
внутригрупповых
.
дисперсий отражает
(4.9)
ту
часть
вариации
результативного признака, которая обусловлена действием всех прочих неучтенных факторов,
кроме фактора, по которому осуществлялась группировка:
∑ σi⋅ni ,
σ̄2 =
∑ ni
(4.10)
где σ2i - дисперсия результативного признака в i-той группе;
ni — численность этой группы.
Эмпирический коэффициент детерминации представляет собой долю межгрупповой
дисперсии в общей дисперсии.
2
η 2= δ 2 ,
σ
Теснота связи между факторным и
(4.11)
результативным признаком оценивается на
основе эмпирического корреляционного отношения:
√
2
η= δ 2
σ
(4.12)
Данный показатель может принимать значения от 0 до 1. Чем ближе к 1 будет его
величина, тем сильнее взаимосвязь между рассматриваемыми признаками.
При малом числе наблюдений необходимо учитывать число степеней свободы.
По числу факторов, влияющих на результативный признак, дисперсионный анализ
бывает однофакторным, двух-, трехфакторным и многофакторным.
Выше было изложена общие положения дисперсионного анализа. Рассмотрим, далее,
алгоритм однофакторного дисперсионного анализа на конкретных примерах. Снимок-2012-0514 11:16:17
27
Однофакторный дисперсионный анализ используется для сравнения средних
значений для трех и более выборок. Фактором - одна независимая переменная, влияние
которой изучается на зависимую переменную. Например, фактором может быть уровень
освещения аквариума, тип питательной среды, возрастная группа в популяции, степень
влияния загрязнённости на популяцию и т.д. Анализ основан на расчете F – статистики
(статистика Фишера), которая представляет собой отношение двух дисперсий: межгрупповой
и внутригрупповой. F–тест в однофакторном дисперсионном анализе устанавливает, значимо
ли отличаются средние нескольких независимых выборок. Он заменяет t–тест для
независимых выборок при наличии более двух выборок и дает тот же результат в случае двух
выборок.
Процедуру выполнения однофакторного дисперсионного анализа можно представить
в виде последовательности следующих этапов;
1.
Определение независимых и зависимых переменных и группировка данных для
2.
Разложение полной дисперсии (SS).
3.
Измерение эффекта ( η2 ).
4.
Проверка значимости (F).
5.
Представление результата.
анализа.
Далее представим этапы в виде процедуры ANOVA в электронных таблицах Excell.
Набор данных в ANOVA состоит из k – независимых одномерных выборок, элементы
которых измерены в одинаковых единицах (штуки, кг, см, мм, % и др.). Допустимы различные
объемы (размеры) выборок.
Этап 1. Подготовка данных для анализа выглядит следующим образом:
Зависимая:
Зависимая:
Зависимая:
Зависимая:
Зависимая:
Зависимая:
Зависимая:
Объем
Независимая переменная – фактор
(напр., тип насыщенности питательной среды в %)
(количество выборок k = 4)
Выборка 1 –
Выборка 2 –
Выборка 3 –
Выборка k –
(20%)
(40%)
(60%)
(80%)
Х1,1
Х2,1
Х3,1
Хk,1
Х1,2
Х2,2
Х3,2
Хk,2
Х1,3
Х2,3
Х3,3
Хk,3
Х1,4
Х2,4
Х3,4
Хk,4
Х1,5
Х2,5
Х2,5
Х2,6
Хk,6
Х2,7
n1 = 5
n2 = 7
n3 = 4
nk = 6
28
n=n1+n2+n3+nk
Среднее
Ст. отклонение
Х1
σ1
Х2
σ2
Х3
σ3
Хk
σk
Нулевая гипотеза в однофакторном дисперсионном анализе утверждает, что все средние
значения из различных генеральных совокупностей (которые представлены выборочными
средними) равны между собой:
Н0 : μ1 = μk (все равны). (или Х1 = Х2= … = Хk)
Альтернативная гипотеза утверждает, что хотя бы два любых средних не равны между
собой:
Н1 : μ1 ≠ μk (хотя бы две на равны). (или Х1 ≠ Хk)
F–тест состоит в расчете F–статистики и сравнении ее с табличным значением (таблицы
П.3.1-П.3.2 приложения 3).
Поскольку нулевая гипотеза утверждает, что средние всех генеральных совокупностей
равны, необходимо оценить это среднее значение по всем выборкам, т.е. рассчитать общее
среднее. Общее среднее представляет собой среднее всех значений из всех выборок. Если
размеры выборок не равны, то среднее рассчитывается как средневзвешенное с учетом размера
выборок:
k
∑ n i∗X i
̄ = i=1
X
(4.13)
.
n
Этап 2. Для изучения различий между зависимыми переменными проводится
разложение полной дисперсии:
MS=MS b + MS w ,
(4.14)
где MSb — межгрупповая (between) дисперсия (вариация):
MS b=
SS b
k−1
,
(4.15)
где SSb — сумма квадратов отклонений за счёт межгрупповой изменчивости:
k
̄ )2
SS b=∑ ni⋅( X i− X
,
(4.16)
i=1
МSw — внутригрупповая (within) вариация:
MS w =
SS w
n−k
,
SSw — сумма квадратов отклонений за счёт внутригрупповой изменчивости:
(4.17)
29
k
SS w =∑ (ni −1)⋅σ 2i
.
(4.18)
i=1
Разложению (4.14) соответствует разложение полной суммы квадратов:
SS=SS b+ SS w ,
(4.19)
Этап 3. Эффект влияния независимой переменной на зависимую переменную
рассчитывается через коэффициент детерминации η2 , который в соответствии с (4.11)
рассчитывается по формуле:
η2 =
SS b
.
SS
(4.20)
Используется также корреляционное отношение (4.12):
η= √ η2
.
(4.21)
Величина η2 представляет собой долю дисперсии зависимой переменной, вызванную
влиянием на нее независимой переменной и, также, как корреляционное отношение, меняется
от 0 до 1. Они равны 0, когда все выборочные средние равны, т.е. независимая переменная не
влияет на зависимую, и, наоборот, с ростом влияния увеличивается рост этого значения.
Этап 4. Проверка нулевой гипотезы о равенстве средних выполняется с
использованием F – статистики:
F=
MS b
MS b
.
Чтобы сделать вывод в пользу нулевой гипотезы, необходимо обратиться к
(4.22)
таблице
распределения Фишера в приложении 3, содержащей критические значения Fкрит при
истинной нулевой гипотезе.
Чтобы найти критическое значение, необходимо учесть
количество степеней свободы (df – degree freedom) и соответствующий уровень значимости α
(чаще выбираются α=0,05 (или 5%) и α=0,01 (1%)).
Степень свободы df
для межгрупповой вариации равна «k – 1», а для внутригрупповой
вариации «n – k».
F–тест заключается в сравнении F–статистики, рассчитанной по имеющимся данным
с Fкрит таблицы F-распределения. Результат является значимым, если F > Fкрит , поскольку
это говорит о наличии существенных различий между средними значениями по группам.
Этап 5. При уверенности в значимости межгрупповой вариации, то есть в наличии
фактора или независимой переменной можно оценить количественно эту вариацию, оценить
её влияние на независимую переменную и разработать рекомендации по учёту этого влияния.
Рассмотрим процедуру дисперсионного анализа на примере из [4].
30
В лаборатории определяли содержание каротиноидов в листьях канатника в разные
часы суток. Полученные данные представлены в табл. 4.2.
Таблица 4.2
Содержание каротиноидов (мг/дм ) в листьях канатника (Abutilon) в разные часы суток
Часы суток (уровни
Измерения, j
x̄i
∑ ( xij− x̄i )2
фактора), i
1
2
3
4
3
15
1
1,41
0,95
1,00
0,90
1,065
0,1637
18
2
1,17
1,10
0,84
1,01
1,030
0,0610
21
3
1,38
1,30
0,91
1,36
1,238
0,1465
24
4
0,66
0,48
0,40
0,62
0,540
0,0440
6
5
0,74
0,41
0,35
0,45
0,487
0,0901
9
6
0,76
0,59
0,71
0,46
0,630
0,0538
12
7
0,64
1,02
1,10
0,98
0,935
0,1235
̄x
0,846
SS
2,7298
SSw
0,6826
SSb
2,0473
η2
η
0,75
0,87
В таблице справа представлена также столбцы со средними и суммы квадратов
отклонений, вычисленными по каждому уровню фактора. Эти значения затем использовались
для вычисления всех величин, необходимых для дисперсионного анализа (помещены в
последних шести строках таблицы 4.2). Столбец
x̄i показывает, что среднее содержание
каротиноидов в различные часы суток неодинаково. По результатам в таблице уже можно
предположить, что суточные вариации средних вносят ощутимый вклад в изменчивость
признака. Это также подтверждается достаточно большим значением коэффициента
детерминации.
Полезно строить соответствующие графики. На рис. 4.1 данные таблицы 4.2
представлены в графическом виде.
31
Рис.4.1 Содержание каротиноидов (мг/дм3) в листьях канатника (Abutilon) по часам суток
Суточные изменения средних значений можно видеть и на графике. Однако малое
число наблюдений не позволяет уверенно утверждать, что такие колебания средних будут
присущи
признаку
при
увеличении
числа
наблюдений.
Используем
возможности
дисперсионного анализа для утверждения с заданной вероятностью, что суточная вариация
признака имеет место.
Построим таблицу для дисперсионного анализа, используя расчётные значения из
таблицы 4.2.
Таблица 4.3
Источник
Сумма
варьирования квадратов,
SS
Число
степеней
свободы, df
Средний
квадрат,
MS
Общее
2,7298
27
-
Фактор
(время суток)
2,0473
6
0,341
Случайные
отклонения
0,6826
21
0,0325
F
фактическое
0,341/0,0325=
10,50
F табличное
α=0,05
α=0,01
2,57
3,81
Табличные значения F находим по таблицам П.2.1-П.2 .2 приложения 2.
Фактическое значение F превышает табличные, поэтому с вероятностью 99% можно
считать доказанным влияние времени суток на содержание каротиноидов в листьях канатника.
32
Далее можно приступать к количественному учёту такого влияния и рекомендациям.
Например, можно рекомендовать собирать урожай во второй половине дня и в вечернее время,
так как в это время содержание каротиноидов существенно выше, чем в утром и в первой
половине дня.
Упражнения.
Упражнение 4.1
Возьмите данные из таблицы 4.2 и вычислите приближённое значение среднего
квадратического отклонения по размаху с использованием формулы (4.5) (и таблицы 4.1) и
значение с использованием формулы (4.1). Велико ли расхождение?
Упражнение 4.2
Дополнительно к заданию упражнения 4.1 вычислите коэффициенты вариации с
использованием приближённого и точного значений среднеквадратического отклонения.
Сравните полученные величины. Велико ли расхождение?
Упражнение 4.3
Повторите однофакторный дисперсионный анализ данных из таблицы 4.2, но не
«вручную», как это было сделано в примере, а с помощью электронных таблиц Gnumeric
(Статистика-Тесты_с_множеством_выборок-Дисперсионный_анализ-Однофакторный).
Сравните результаты.
Упражнение 4.4
Повторите задание упражнения 4.3, но с помощью электронных таблиц OpenOffice.org
Calc ( LibreOffice.org Calc).
Упражнение 4.5
Повторите задание упражнения 4.3, но с помощью электронных таблиц Excell.
Упражнение 4.6 В приложении 6 имеется таблица показателей (признаков) по азовской
тюльке, полученная за многолетний период. Необходимо выполнить однофакторный
дисперсионный анализ каждого из первых трёх показателей: биомассы, уловов и численности
с целью установления значимости (или, наоборот, не значимости) колебаний средних
арифметических каждого показателя при разбивке рядов на две группы по времени: 1) за
довоенный период; 2) за послевоенный период. Расчёты провести для двух уровней
значимости: 0,05 и 0,01.
Вопросы для самоконтроля.
1. Формула для расчёта приближённого значения среднего квадратического отклонения
по размаху?
2. Правило вычисления среднего квадратического отклонения
33
суммы независимых
случайных величин, если известны средние квадратические отклонения этих величин.
3. Как соотносятся среднее квадратическое отклонение и средний модуль отклонений
(или среднее линейное отклонение) случайной величины?
4. Что такое F-критерий и как его можно использовать при сравнении дисперсий?
5. В чём заключается нулевая гипотеза при сравнении дисперсий?
6. Как вы понимаете однофакторный дисперсионный анализ?
7. Метод определения достоверности разницы между средними арифметическими
отдельных групп при дисперсионном анализе?
8. Этапы процедуры однофакторного диперсионного анализа.
9. Различие между однофакторным и двухфакторным дисперсионными анализами.
Рекомендуемая литература: [1], [2], [3], [4], [8], [9]
34
К содержанию
5. НОРМИРОВАННОЕ ОТКЛОНЕНИЕ
В ежедневном общении, термины нормировка и стандартизация подразумевают
подгонку под общий стандарт или создание некоторого соответствия со стандартом. В
статистике, этот термин имеет специфичные значения и определяет трансформацию данных
вычитая каждое значение из некоторого базисного значения (например - выборочное среднее)
и деля на стандартное отклонение (обычно - выборочное стандартное отклонение). Это важное
преобразование все исходные значения (не обращая внимания на их начальные распределения
и единицы измерения) приводит к набору сравнимых элементов из распределения с нулевым
средним и стандартным отклонением равным 1. Данный вид преобразования очень широко
применим, так как он упрощает механизм сравнения переменных. Кроме того, применение
стандартизации к исходным данным делает результаты статистических методов совершенно
независимыми от их размахов и единиц измерения. Обсуждение этих вопросов, как правило,
присутствует в разделах «Элементарные понятия», «Основные статистики», «Регрессия и
множественная регрессия», «Факторный анализ» и др.
Чтобы выяснить, как развит признак у того или иного конкретного объекта, этот
признак измеряют и получают числовые именованные значения. Например, высота растения
60 см, площадь листа 30 см², масса икры у щуки 30 г и т.д. Но когда требуется еще и оценить
данное значение, используется формула для определения нормированного отклонения.
Иногда преобразованное таким образом значение признака называют стандартизированным
значением признака. Для этого значение признака сравнивают со средним арифметическим и
находят разницу между ними:
x i−̄x .
Затем эту разницу выражают в количестве сигм:
x i− ̄
x ,
x ' i= σ
(5.1)
где x'i – нормированное отклонение.
Стандартизованное значение признака показывает, на сколько сигм отличается данное
значение признака от средней арифметической. Это отличие может иметь как знак "+", так и
знак "-".
Пример 5.1 При обследовании учащихся колледжей было установлено, что средний
рост юношей равен 164,8 см при σ = 5,80 см. Как велико отклонение от среднего показателя у
юноши, рост которого равен 171,2 см?
Находим нормированное отклонение:
x '=
35
171,2−164,8
=1,1 .
5,8
Превышение роста данного юноши по сравнению со средним уровнем составляет 1,1 сигмы.
Зная нормированное отклонение, можно рассчитать, каким будет рост этого человека,
когда он станет взрослым. Для этого надо, воспользовавшись справочниками, узнать средний
показатель роста для данной возрастной группы и величину сигмы.
Вывод: таким образом, с помощью данного показателя можно сравнивать развитие тех или
иных признаков как у одного, так и у разных объектов.
Ещё одна возможность использовать стандартизованные значения состоит в том, что
после такого преобразования можно сравнивать выборки по различным признакам, поскольку
все
они
будут
иметь
одинаковое
среднее
арифметическое,
равное
нулю,
и
среднеквадратическое отклонение, равное единице. В пакетах программ такое преобразование
часто называют z-преобразованием. Пусть в ходе эксперимента получили выборку х1, х2, …,
хn, где значения представляют собой исходные значения баллов (так называемые «сырые»
баллы). Для другого теста можно получить аналогичные данные, однако часто бывает, что
шкала тестов различается по диапазону. Для того, чтобы можно было сравнить полученные
данные по различным шкалам и применяют процедуру стандартизации по формуле (5.1). В
результате получается новая выборка: z1, z2, …, zn. В результате новые стандартизованные
данные будут иметь среднее значение, равное 0, а стандартное отклонение – 1, независимо от
исходных данных, (т.е.шкалы): z=0; Sz=1.
Не
для
любых
данных
необходимо
предварительное
z-преобразование.
Целесообразность такой предобработки данных должна объясняться содержательным
смыслом задачи и происхождением признаков. Хотя необходимо знать, что при таком
преобразовании сохраняется соотношение между первичными показателями (X) и новыми
показателями z. Относительная величина разницы между стандартными показателями,
полученными при таком линейном преобразовании, в точности соответствует относительной
величине различия первичных показателей. Все свойства первоначального распределения
показателей полностью воспроизводятся в распределении линейных стандартных показателей.
По этой причине любые вычисления, которые можно производить с исходными данными,
могут также выполняться и с линейными стандартными показателями без какого-либо
искажения конечных результатов. Для иллюстрации изложенного относительно нормального
распределения приведём рисунок 5.1.
36
Рис. 5.1 Изменение параметров нормального распределения при z-преобразовании
Следует иметь в виду, что обычно таблицы нормального распределения составляются
по формуле, приведённой в правой части рис.5.1, то есть для z-преобразованных величин.
Такая таблица имеется в приложении 1 конспекта лекций.
Рассмотрим один из примеров практического использования
z-преобразования и
таблицы нормального распределения приложения 1.
Пример 5.2 Генеральная совокупность веса пакетов с кормом для рыб, комплектуемых
на специализированном предприятии, имеет нормальное распределение со средним значением
25 кг и среднеквадратическим отклонением 1 кг. Какова вероятность того, что случайно
выбранный пакет будет иметь вес от 24 до 26 кг?
Таблицы нормального распределения чаще всего содержат значения площади области
под кривой от центра до некоторой точки, как в таблице приложения 1, поэтому следует
определить площади двух отдельных областей — с двух сторон от среднего значения, а затем
сложить их. Результат такой процедуры даст вероятность попадания значения в заданный
интервал. Для нашего примера два значения после z-преобразования равны
x −μ 24−25
z 1= 1σ =
=−0,5 ,
2
x 2−μ 26−25
z 2= σ =
=0,5
2
Область между 24 и 26 под кривой плотности распределения для исходных значений
признака будет соответствовать области между -0,5 и 0,5
под кривой плотности
распределения
таблицей
для
стандартизованных
значений.
Пользуясь
нормального
распределения, приведённой в приложении 1, находим значение для z=0,5 значение, равное
0,1915, равное площади для области от 0 до 0,5. Не трудно догадаться, что такая же площадь
соответствует площади от -0,5 до 0. В результате получаем значение 0,383 = 0,1915 + 0,1915.
Таким образом, процент случаев, когда произвольно выбранный пакет будет иметь вес от -24
до 26 кг, составляет 38,3%.
В специализированных пакетах программ используются также применимые в
некоторых предметных областях, частные, способы стандартизации, меняющие распределения
исходных данных посредством нелинейных преобразований (по формулам, отличающимся от
37
(5.1)). Такие преобразования необходимо выполнять, только лишь, если вы понимаете, к каким
распределениям они приводят.
Упражнения.
Упражнение 5.1 В таблице 5.1 приведены измерения различных признаков некоторой
особи. Постройте два отдельных графика, на каждом из них - изменения всех восьми
признаков во времени: без стандартизации и после стандартизации (z-преобразования)
исходных данных (вид диаграммы «XY» в электронных таблицах Gnumeric, по оси X —
время, по Y — одна шкала для всех признаков). В каком виде данные более информативны и
почему: до z-преобразования или после z-преобразования.
Таблица 5.1
Упражнение 5.2. Генеральная совокупность веса пакетов с кормом для рыб,
комплектуемых предприятием, имеет нормальное распределение со средним значением 10 кг и
среднеквадратическим отклонением 0,5 кг. Какова вероятность того, что случайно выбранный
пакет будет иметь вес от 9 до 10,5 кг?
Упражнение 5.3 В приложении 6 имеется таблица показателей (признаков) по азовской
тюльке, полученная за многолетний период. Постройте два отдельных графика, на каждом из
них - изменения всех восьми показателей (признаков) во времени: без стандартизации и после
стандартизации (z-преобразования) исходных данных (вид диаграммы «XY» в электронных
38
таблицах Gnumeric, по оси X — время, по Y — одна шкала для всех признаков). В каком виде
данные более информативны и почему: до z-преобразования или после z-преобразования.
Контрольные вопросы.
1.
Что такое z-преобразование (стандартизация, нормировка) исходных данных?
2.
Меняет ли z-преобразование вид распределения данных?
3.
Чему равно среднее арифметическое данных после z-преобразования?
4.
Чему равно среднее квадратическое отклонение после z-преобразования?
5.
В каких случаях целесообразна предобработка данных в виде z-преобразования?
6.
Алгоритм возврата от z-преобразованных данных к исходным?
7.
Изменится ли вид распределения, если отклонения от среднего исходных
данных разделить не на среднеквадратическое отклонение, а на размах?
Рекомендуемая литература: [3], [6], [8]
39
К содержанию
6. РАСПРЕДЕЛЕНИЕ ПРИЗНАКА, ПОЛИГОН И ГИСТОГРАММА
При наблюдении за большими группами биологических объектов можно заметить, что
разные значения признака встречаются неодинаковое число раз. Одни значения встречаются
чаще, другие – реже. Различная встречаемость значений признака называется распределением.
Перед гидробиологом часто стоит задача подбора (восстановления) теоретического закона
распределения по ограниченной выборке наблюдений над некоторым признаком.
Наряду с выше указанной задачей часто (а воможно — чаще) с помощью критерия
Пирсона приходится решать ещё и другую задачу, а именно: сопоставлять два, три или более
эмпирических распределений одного и того же признака. Совпадение полученного
распределения с теоретическим иногда интересует исследователя в гораздо в меньшей
степени, чем совпадение или несовпадение его данных с данными других исследователей.
Для решения двух перечисленных выше задач теоретики математической статистики
разработали различные критерии. В гидробиологии наиболее часто используется критерий
Пирсона или критерий χ2 (хи-квадрат).
Критерий Пирсона отвечает на вопрос о том, с одинаковой ли частотой встречаются
разные значения признака в эмпирическом и теоретическом распределениях или в двух и
более эмпирических распределениях.
Подбор теоретического распределения состоит из следующих этапов:
•
подбор вида закона распределения;
•
подбор параметров закона распределения (т.е. чисел, входящих в выражение для
функции и плотности распределения);
•
проверка правильности выбора закона распределения.
В этом разделе будут рассмотрены эти три этапа на примере двух законов: нормального
и равномерного.
Наиболее распространенным является нормальное распределение, при котором чаще
всего встречаются значения признака, близкие к средней арифметической. Чем дальше от нее
в сторону увеличения или уменьшения, тем значения признака встречаются реже. Например, в
популяции рыб среднего размера гораздо больше, чем крупного и малого. О нормальном
распределении случайной величины вы знаете из теории вероятностей. Вспомним основные
формулы.
40
Плотность нормального распределения − колоколообразная кривая, симметричная
относительно своей вертикальной оси, но может быть смещена по горизонтали относительно
оси Y. Значения x могут быть разного знака. Выражение для плотности нормального
распределения имеет вид:
2
−(x−M x )
f x (x)=
1
⋅e
σ⋅√ 2⋅π
2⋅σ
2
(6.1)
В выражение для плотности и функции нормального распределения входят 2 параметра: mx и
σ, поэтому нормальное распределение является двухпараметрическим. По нормальному
закону обычно распределена ошибка наблюдений, если на результат эксперимента влияет
много мелких независимых факторов. Кроме этого, в гидробиологии распределение признаков
многих исследуемых объектов отвечает нормальному закону.
На практике также часто придётся использовать свойства равномерного распределения.
Плотность равномерного распределения отлична от нуля только в заданном заданном
интервале [a, b], и принимает в этом интервале постоянное значение:
f x (x)=
1
; x∈[a ,b ] .
b−a
(6.2)
Равномерное распределение − двухпараметрическое, т.к. в выражения для fx(x) входят 2
параметра: a и b. По равномерному закона распределены, например, ошибка округления и фаза
случайных колебаний. Кроме этого, в каждом языке программирования или пакете, например,
в электронных таблицах, имеется стандартная функция для генерации случайных чисел,
отвечающих равномерному распределению с a=0, b=1. С помощью этой функции, которую
часто называют датчиком псевдослучайных чисел, и некоторых преобразований, изучаемых
при освоении основ теории вероятностей, можно моделировать другие распределения.
Моделирование признаков с различными распределениями используется для разработки
проверки алгоритмов и программ перед тем, как начинать использовать эти алгоритмы и
программы для обработки натурных данных.
Существует несколько способов представления эмпирических законов распределений:
вариационный ряд, вариационная кривая (или полигон распределения) и гистограмма.
Вариационный ряд – это двойной ряд чисел, состоящий из значений признака и
соответствующих частот. Например, даны значения урожайности ламинарии в ц/га (V) и
количество гектаров, на которых получена такая урожайность, то есть частота встречаемости
(mxi):
41
V, ц/га (xi)
15
13
16
10
Частота, mxi
5
10
8
4
При графическом изображении (см. рис. 6.1) на оси абсцисс откладываются значения
признака (V), на оси ординат – их частоты или встречаемость (mxi):
Рассмотрим процедуру построения полигона и гистограммы.
Для экспериментальной информации характерно большое количество разнообразных
наблюдаемых значений, которые отличаются друг от друга на небольшую величину. В таком
случае рекомендуется от дискретного распределения перейти к непрерывному ряду. Данный
переход может выполняться двумя способами.
Первый способ рекомендуется для длинных рядов (N > 200). Этот переход основан на
использовании формулы Стерджеса, с помощью которой определяется количество участков
разбиения:
k = 1 +3,322 · lg N,
(6.3)
где k - количество интервалов разбиения, округляется до целого.
Шаг
дискретизации
интервала
[xmax;
xmin]
экспериментальных
данных
использованием формулы Стерджеса вычисляется, как:
h=
x max −x min
x max−x min
,
=
k
1+ 3,322⋅lg N
(6.4)
где xmax — наибольшее, а xmin - наименьшее значения в исследуемой выборке измерений;
N — количество измерений.
На интервале [xmax; xmin] вычисляют границы будущих полуинтервалов (классов):
a0 =x min−
h
;
2
a1 = a0 + h ;
∙
∙
∙
ak = ak-1 + h ;
∙
∙
∙
разбиение завершается при
ak > xmax.
В результате весь интервал разбит на полуинтревалы: [ai; ai+1).
с
42
И, наконец, на каждом полученном полуинтервале [ai; ai+1) подсчитываются значения
частот ni,
отвечающие условию xi ∈ [ai; ai+1). Вычисляются относительные частоты:
wi= ni/N.
Рассмотрим пример. Пусть получены 27 значений (N = 27) плотности раковин устриц:
2.58;2.65;2.52;2.68;2.70;2.73;2.71;2.58;2.49;2.50;2.73;2.68;2.64;2.68;2.72;2.73;2.78;2.78;2.77;
2.59;2.53;2.59;2.62;2.51;2.52;2.64;2.65.
Ранжируем ряд, вычисляем частоты и относительные частоты:
Таблица 6.1
Варианта, xi
2,49 2,50 2,51 2,52 2,53 2,58 2,59 2,62 2,64 2,65 2,68 2,70 2,71 2,72 2,73 2,78
1
Частота, ni
1
1
2
1
2
2
1
2
2
3
1
1
1
3
2
Относительная 1/27 1/27 1/27 2/27 1/27 2/27 2/27 1/27 2/27 2/27 3/27 1/27 1/27 1/27 3/27 2/27
частота, wi
В результате выделено 16 вариант при длине выборки N = 27.
Сформируем далее интервальный вариационный ряд. Вычислим шаг по формуле
Стерджеса:
h=
2,78−2,49
≈ 0,025 ≈ 0,03.
1+ 3,322⋅3,3
(Внимание! При вычислении h допущена ошибка. Проверьте и скажите - какая?)
Определим границу первого полуинтервала: a0 = 2,49 + 0,015 = 2,47. Разобьём ряд на
полуинтервалы (классы), вычислим частоты, относительные частоты и эмпирическую
плотность (или просто плотность). Последняя вычисляется по формуле: pi = wi/h.
Таблица 6.2
Классы
2,47- 2,502,50 2,53
2,532,56
2,562,59
2,592,62
2,622,65
2,652,68
2,682,71
2,712,74
2,742,77
2,772,80
Частота, ni
1
1
4
2
2
3
2
4
5
0
2
Относит.
частота,
1/27
1/27
4/27
2/27
2/27
3/27
2/27
4/27
5/27
0
2/27
Эмпириче 1,23
ская
плотность,
pi
1,23
4,94
2,47
2,47
3,70
2,47
4,94
6,17
0
2,47
wi
В результате оказалось, что ряд разбит на 10 полуинтервалов, вместо 16-ти.
43
Второй способ рекомендуется для коротких рядов (N < 60). В этом случае выбирают
число участков k для построения гистограммы как ближайшее целое к корню квадратному из
N:
k =√ N .
(6.5)
При построении гистограммы необходимо учитывать, что, с одной стороны, число
участков разбиения должно быть как можно больше, а с другой стороны, в каждый из этих
участков должно попадать как можно больше значений xi. Необходимо искать компромисс
между этими требованиями, поэтому формулы (6.3)-(6.5) должны рассматриваться, как
приближённые, облегчающие принятие решения для исследователя. Самое простое правило число наблюдений должно быть таким, чтобы в каждый интервал попадало не менее пяти
наблюдений. В противном случае интервалы рекомендуется объединять.
Построим, далее, полигон (для дискретного распределения) и гистограмму (для
непрерывного распределения), отложив по оси X варианты, а по оси Y — частоты.
Рис. 6.1 Полигон частот (дискретное распределение)
Рис. 6.2 Гистограмма частот (непрерывное распределение)
44
Полигон частот и гистограмма описывают распределение частот (на рисунке частоты
обозначены как mxi) определяемых для каждого значения случайной величины. При
построении этих графиков не существует строгих методов выбора конечного числа интервалов
или значений.
Гистограмма часто строится для оценивания плотности распределения признака. В этом
случае гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников,
основаниями которой служат частичные интервалы длиною h, а высоты равны отношению
pi=wi/h =(ni/N)/h. Такое построение часто называют гистограммой эмпирических плотностей
вероятности. Для построения такой гистограммы частот на оси абсцисс откладывают
частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии
(высоте) pi. Площадь i–го прямоугольника равна wi, а сумма площадей всех прямоугольников
равна сумме всех относительных частот, то есть единице.
Полигон и гистограмма эмпирических плотностей отражают одну и ту же плотность
распределения генеральной совокупности и при увеличении количества наблюдений
отображаемые ими кривые распределения становится похожими друг на друга и всё больше
будут приближаться к теоретической кривой распределения плотностей.
Для выработки навыков восстановления теоретического закона распределения часто
используют
моделирование
случайных
чисел
с
заданным
законом
распределения.
Смоделируем выборку случайных, нормально распределённых чисел. Воспользуемся для
этого алгоритмом, в основе которого лежит центральная предельная теорема: распределение
суммы независимых случайных величин r1, r2, …, rn, равномерно распределённых на
интервале [0, 1) близко к нормальному при n=12. Подробности можно прочитать в [5]. Такой
алгоритм несложно реализовать в электронных таблицах (рекомендуется использовать
Gnumeric [11]). На рис.6.3 показаны гистограммы и полигоны частот и эмпирических
плотностей вероятностей для смоделированных таким образом случайных чисел (N = 240). На
этом же рисунке показаны теоретические частоты и плотности вероятностей, рассчитанные по
формуле (6.1).
45
Рис. 6.3 Гистограммы (а, б) и полигоны (в, г) частот (а, в) и эмпирических плотностей (б, г)
при N=240, а также теоретические значения плотности нормального распределения при Mx=2
и σ=4.
По виду графиков на рис.6.3 опытный пользователь может догадаться, что
распределение признака из данной выборки отвечает теоретическому нормальному
распределению. Но возьмём другой пример выборки c N=40, смоделированной по тому же
алгоритму c, аналогичные графики для которой изображены на рис.6.4.
46
Рис. 6.4 Гистограммы (а, б) и полигоны (в, г) частот (а, в) и эмпирических плотностей (б, г)
при N=40, а также теоретические значения плотности нормального распределения при Mx=2,
σ=4 (пунктир) и Mx=1,3, σ=4,35 (сплошная линия).
По виду гистограмм на рис.6.4 достаточно трудно однозначно сказать, что исследуемый
признак отвечает нормальному распределению. Необходим некоторый количественный
критерий, с помощью которого любой исследователь мог бы упростить себе принятие
решения об отнесении исследуемого признака к предполагаемому закону распределения.
Наиболее часто для этой цели используются критерии согласия Колмогорова и Пирсона [1, 3,
4,6, 7, 8]. Приведём пример использования критерия Пирсона для выборки, графики которой
показаны на рис.6.4.
Пользуясь графиками рис.6.4 а),б), смысл критерия Пирсона можно пояснить
следующим образом. Три графика, изображённые ломанной, сплошной и пунктирной линиями
соответствуют трём законам; эмпирическому выборочному; теоретическому нормальному с
математическим ожиданием и среднеквадратическим отклонением, равными выборочному
среднему
и
среднеквадратическому
отклонению;
теоретическому
нормальному
для
генеральной совокупности. Параметры последнего закона (для генеральной совокупности) нам
неизвестны и критерий Пирсона не сможет помочь определить, насколько близки наши оценки
47
этих параметров к теоретическим для генеральной совокупности. Критерий Пирсона может
помочь лишь определить вид теоретического закона, то есть, в данном случае, насколько
близок наш эмпирический закон к нормальному. Для этого можно вычислить средний квадрат
невязок χ2 между законами и сопоставить его с критическим значением значением χ2α (хиквадрат -распределения) для уровня значимости α и числа степеней свободы k' = k - m - 1.
Здесь k - число интервалов после объединения; m - число параметров распределения, закон
которого подбирается (закон нормального распределения двухпараметрический, то есть имеет
два параметра Mx и σ, и для него m=2). Нулевую гипотезу о соответствии выборочного
распределения предполагаемому теоретическому отвергают, если выполняется неравенство
χ2 ≤ χ2α .
(6.6)
Статистику вычисляют по формуле:
2
k
( p j− p ' j)
p'j
j=1
χ 2= ∑
,
(6.7)
где p'j - теоретическая вероятность, pj - эмпирическая (выборочная) вероятность;
либо по формуле:
k
2
(n j −n ' j)
χ =∑
n'j
j=1
2
,
(6.8)
где n'j — теоретическая частота, nj — эмпирическая (выборочная) частота.
Необходимо учитывать следующие ограничения критерия Пирсона.
1. Объем выборки должен быть достаточно большим: n≥30. При n<30 критерий χ2 дает
весьма приближенные значения. Точность критерия повышается при больших n.
2. Теоретическая частота для каждой ячейки таблицы не должна быть меньше
5: ni>5. Это означает, что если число интервалов разбиения задано заранее и не может быть
изменено, то мы не можем применять метод χ2, не накопив определенного минимального
числа наблюдений. Если, например, мы хотим проверить наши предположения о том, что
частота случаев гибели кефали летом в Керченском заливе неравномерно распределяются по 7
дням недели, то нам потребуется 5*7=35 случаев. Таким образом, если количество интервалов
(k) задано заранее, как в данном случае, минимальное число наблюдений (nmin) определяется
по формуле: nmin=k*5.
3. Полученные интервалы должны "вычерпывать" все распределение, то есть
охватывать весь диапазон вариативности признаков. При этом группировка на разряды должна
быть одинаковой во всех сопоставляемых распределениях.
4.
48
Интервалы должны быть неперекрещивающимися: если наблюдение отнесено к
одному разряду, то оно уже не может быть отнесено ни к какому другому разряду.
5. Сумма наблюдений по разрядам всегда должна быть равна общему количеству
наблюдений.
Упражнения.
Упражнение 6.1 Построить вариационный ряд и начертить полигон частот для
следующего распределения некоторой величины. Результаты измерений приведены в
процентах.
39 41 40 42 41 40 42 44 43 42 41 43
39 42 41 42 39 41 37 43 41 38 43 42
41 40 41 38 44 40 42 40 41 42 40 43
38 39 41 41 42
Упражнение 6.2 Построить интервальный вариационный ряд и начертить гистограмму
частот для результатов измерений упражнения 6.1.
Упражнение 6.3 Построить интервальный вариационный ряд и гистограмму
относительных частот для результатов измерений упражнения 6.1.
Упражнение
6.4
Определить
основные
статистические
характеристики
ряда,
приведенного в упражнении 6.1.
Упражнение 6.5 Построить гистограммы для всех восьми показателей, привёдённых в
приложении 6. Используя критерий Пирсона, подобрать для каждого из этих показателей
закон распределения среди законов: нормального, равномерного, логнормального.
Вопросы для самоконтроля.
1. Чему равна сумма частот интервального вариационного ряда?
2. Приведите пример непрерывной случайной величины.
3. Алгоритм составления дискретного вариационного ряда
4. Полигон частот, относительных частот и плотностей.
5. Чему должна быть равна площадь под гистограммой частот?
6. Чему должна быть равна площадь под гистограммой относительных частот?
7. Чему должна быть равна площадь под гистограммой плотностей?
8. Чему должна быть равна площадь под гистограммой относительных частот?
9. Выборочная дифференциальная функция распределения ( выборочная плотность) и ее
график.
10. Как можно определить моду, если имеется полигон частот?
11. Как определяется медиана?
49
12. Равнозначна ли информация, содержащаяся в исходной выборке и в выборке,
представленной в виде вариационного ряда?
Рекомендуемая литература: [1], [2], [3], [6],[7],[8],[9], [10], [11], [12], [13], [14].
50
К содержанию
7. ВЫБОРОЧНЫЙ МЕТОД И ОШИБКИ РЕПРЕЗЕНТАТИВНОСТИ
Вследствие разнообразия биологических объектов выборочная совокупность не может
точно охарактеризовать генеральную. Всегда будут присутствовать расхождения или ошибки,
которые часто называют ошибками репрезентативности (от лат. represento – представляю
или от франц. representatif – представляющий собой что-либо). Они возникают при оценке
целого по его части. Эти ошибки не зависят от исследователя, их нельзя избежать, но можно и
нужно учитывать в процессе статистической обработки результатов, например, для
нахождения параметров достоверности.
Понятие
репрезентативности
широко
используется
в
практике
эмпирических
исследований в рамках выборочного метода, когда обследование целого (генеральной
совокупности) сводится к обследованию части (выборки или выборочной совокупности) с
последующим распространением результатов обследования выборки на генеральную
совокупность. Здесь репрезентативность выступает как понятие формальное и выражается
обычно через величину и границы интервала (называемого доверительным интервалом), в
котором с заданной степенью достоверности (или, как говорят, с заданной доверительной
вероятностью) может
оказаться
определённая
числовая
характеристика
генеральной
совокупности. Величина и границы доверительного интервала поддаются расчёту и зависят от
объёма генеральной совокупности, объёма выборки, способа отбора, задаваемой априори
степени
достоверности (доверительной
вероятности),
способа
расчёта
обследуемой
характеристики и её значения для выборочной совокупности. Изучением подобных
зависимостей занимается формальная теория репрезентативности, разрабатываемая в рамках
одного из разделов математической статистики — теории выборочного метода.
Введём некоторые понятия теории выборочного метода, дающие представление об
основах планирования наблюдений над какими-либо признаками исследуемого объекта.
Статистическое наблюдение можно организовать как сплошное и несплошное.
Сплошное предусматривает обследование всех единиц изучаемой совокупности явления,
несплошное — лишь ее части. К несплошному относится и выборочное наблюдение.
Выборочное наблюдение является одним из наиболее широко применяемых видов
несплошного наблюдения. В основе этого наблюдения лежит идея о том, что отобранная в
случайном порядке некоторая часть единиц может представлять всю изучаемую совокупность
явления по интересующим исследователя признакам. Целью выборочного наблюдения
является получение информации, прежде всего, для определения сводных обобщающих
характеристик всей изучаемой (генеральной) совокупности. По своей цели выборочное
51
наблюдение совпадает с одной из задач сплошного наблюдения, и поэтому встает вопрос о
том, какое из двух видов наблюдения — сплошное или выборочное — целесообразнее
провести.
При решении этого вопроса необходимо исходить из следующих основных требований,
предъявляемых к статистическому наблюдению:
• информация должна быть достоверной, т.е. максимально соответствовать реальной
действительности;
• сведения должны быть достаточно полными для решения задач исследования;
• отбор информации должен быть проведен в максимально сжатые сроки для
использования ее в оперативных целях;
• денежные и трудовые затраты на организацию и проведение должны быть
минимальными.
При выборочном наблюдении эти требования обеспечиваются в большей мере, чем при
сплошном. Преимущества этого метода по сравнению со сплошным можно оценить, если оно
организовано и проведено в строгом соответствии с научными принципами теории
выборочного метода, а именно обеспечение случайности отбора единиц и достаточного их
числа. Соблюдение этих принципов позволяет получить такую совокупность единиц, которая
представляет всю изучаемую совокупность по интересующим исследователя признакам, т.е.
является репрезентативной (представительной).
При проведении выборочного наблюдения обследуются не все единицы изучаемого
объекта, т.е. не все единицы совокупности, а лишь некоторая специально отобранная часть.
Первый принцип отбора — обеспечение случайности — заключается в том, что при
отборе каждой из единиц изучаемой совокупности обеспечивается равная возможность
попасть в выборку. Случайный отбор — это не беспорядочный отбор, а отбор при соблюдении
определенной методики, например, осуществление отбора по жребию, применение таблицы
случайных чисел и т.д.
Второй принцип отбора — обеспечение достаточного числа отобранных единиц —
тесно связан с понятием репрезентативности выборки. Поскольку любое выборочное
наблюдение проводится с определенной целью и четко сформулированными конкретными
задачами, то понятие репрезентативности как раз и связано с целью и задачами исследования.
Отобранная из всей изучаемой совокупности часть должна быть репрезентативной, прежде
всего, в отношении тех признаков, которые изучаются или оказывают существенное влияние
на формирование сводных обобщающих характеристик.
52
В выборочном наблюдении используются понятия «генеральная совокупность» —
изучаемая совокупность единиц, подлежащая изучению по интересующим исследователя
признакам, и «выборочная совокупность» — случайно выбранная из генеральной
совокупности
некоторая
ее
часть.
К
данной
выборке
предъявляется
требование
репрезентативности, т.е. при изучении лишь части генеральной совокупности полученные
выводы можно применять ко всей совокупности.
Характеристиками генеральной и выборочной совокупностей могут служить средние
значения изучаемых признаков, их дисперсии и средние квадратические отклонения, мода и
медиана и др. Исследователя могут интересовать и распределение единиц по изучаемым
признакам в генеральной и выборочной совокупностях. В этом случае частоты называются
соответственно генеральными и выборочными.
Система правил отбора и способов характеристики единиц изучаемой совокупности
составляет содержание выборочного метода, суть которого состоит в получении первичных
данных
при
наблюдении
выборки
с
последующим
обобщением,
анализом
и
их
распространением на всю генеральную совокупность с целью получения достоверной
информации об исследуемом явлении.
Репрезентативность выборки обеспечивается соблюдением принципа случайности
отбора объектов совокупности в выборку. Если совокупность является качественно
однородной, то принцип случайности реализуется простым случайным отбором объектов
выборки. Простым случайным отбором называют такую процедуру образования выборки,
которая обеспечивает для каждой единицы совокупности одинаковую вероятность быть
выбранной для наблюдения для любой выборки заданного объема. Таким образом, цель
выборочного метода — сделать вывод о значении признаков генеральной совокупности на
основе информации случайной выборки из этой совокупности.
Ошибки выборочного наблюдения являются важным понятием в теории выборочного
наблюдения, поэтому остановимся на этом понятии более подробно.
Между
признаками
выборочной
совокупности
и
признаками
генеральной
совокупности, как правило, существует некоторое расхождение, которое называется ошибкой
статистического наблюдения. При массовом наблюдении ошибки неизбежны, но возникают
они в результате действия различных причин. Величина возможной ошибки выборочного
признака происходит из-за ошибок регистрации и ошибок репрезентативности.
Ошибки
регистрации,
или
технические
ошибки,
связаны
с
недостаточной
квалификацией наблюдателей, неточностью подсчетов, несовершенством приборов и т.п. Под
53
ошибкой репрезентативности (представительства) понимают расхождение между выборочной
характеристикой и разыскиваемой (истинной) характеристикой генеральной совокупности.
Ошибки репрезентативности бывают случайными и систематическими.
Систематические ошибки связаны с нарушением установленных правил отбора.
Случайные ошибки объясняются недостаточно равномерным представлением в выборочной
совокупности различных категорий единиц генеральной совокупности.
В результате первой причины (систематическая ошибка) выборка легко может
оказаться смещенной, т.к. при отборе каждой единицы допускается ошибка, всегда
направленная в одну и ту же сторону. Эта ошибка получила название ошибки смещения. Ее
размер может превышать величину случайной ошибки. Особенность ошибки смещения
состоит в том, что, являясь постоянной частью ошибки репрезентативности, она
увеличивается с увеличением объема выборки.
Случайная же ошибка с увеличением объема выборки уменьшается. Кроме того,
величину случайной ошибки можно определить, тогда как размер ошибки смещения
практически определить очень сложно, а иногда и невозможно, поэтому важно знать причины,
вызывающие ошибку смещения, и предусмотреть мероприятия по ее устранению.
Ошибки
смещения
бывают
преднамеренные
и
непреднамеренные.
Причиной
возникновения преднамеренной ошибки является тенденциозный подход к выбору единиц из
генеральной совокупности. Чтобы не допустить появления такой ошибки, необходимо
соблюдать принцип случайности отбора единиц.
Непреднамеренные ошибки могут возникать на стадии подготовки выборочного
наблюдения, формирования выборочной совокупности и анализа ее данных. Чтобы не
допустить появления таких ошибок, необходима хорошая основа выборки, т.е. та генеральная
совокупность, из которой предполагается производить отбор, например, список единиц
отбора. Основа выборки должна быть достоверной, полной и соответствовать цели
исследования,
а
единицы
отбора
и
их
характеристики
должны
соответствовать
действительному их состоянию на момент подготовки выборочного наблюдения. Нередки
случаи, когда в отношении некоторых единиц, попавших в выборку, трудно собрать сведения
из-за их отсутствия на момент наблюдения, нежелания дать сведения и т.п. В таких случаях
эти
единицы
приходится
заменять
другими.
Необходимо
следить,
чтобы
замена
осуществлялась равноценными единицами.
Случайная ошибка выборки возникает в результате случайных различий между
единицами, попавшими в выборку, и единицами генеральной совокупности, т.е. она связана со
54
случайным отбором. Теоретическим обоснованием работы со случайными ошибками выборки
является теория вероятностей и ее предельные теоремы.
Формирование выборочной совокупности — важнейший этап планирования
наблюдений. Приведём основные понятия.
Вид формирования выборочной совокупности подразделяется на индивидуальный,
групповой и комбинированный.
Способ отбора может быть бесповторный и повторный.
Бесповторным называется такой отбор, при котором попавшая в выборку единица не
возвращается в совокупность, из которой осуществляется дальнейший отбор. При этом объем
генеральной совокупности по мере формирования выборки уменьшается.
При повторном отборе попавшая в выборку единица после регистрации наблюдаемых
признаков возвращается в исходную (генеральную) совокупность для участия в дальнейшей
процедуре отбора. В этом случае объем генеральной совокупности остается постоянным, что
упрощает формулы ошибок.
Метод отбора определяет конкретный механизм выборки единиц из генеральной
совокупности и подразделяется на:
• собственно случайный;
• механический;
• типический;
• серийный;
• комбинированный.
Cобственно случайный отбор, технически проводится методом жеребьевки или по
таблице случайных чисел. Собственно случайный отбор может быть повторным и
бесповторным.
Механический отбор применяется в тех случаях, когда генеральная совокупность
каким-либо
образом
упорядочена,
т.е.
имеется
определенная
последовательность
в
расположении единиц (все промеры какого-то признака расположены по возрастанию,
известна кривая роста биомассы какой-то популяции). Для определения средней ошибки
механической выборки используется формула средней ошибки при собственно случайном
бесповторном отборе.
Типический отбор используется, когда все единицы генеральной совокупности можно
разбить на несколько типических групп. При исследовании особей такими группами могут
55
быть районы, возрастные или постоянно вылавливаемые группы и т.д. Типический отбор
предполагает выборку единиц из каждой группы собственно случайным или механическим
способом.
Серийный отбор применяется в тех случаях, когда единицы совокупности объединены
в небольшие группы или серии. Например: упаковки с определенным количеством готовой
продукции, партии товара и. т.п. Сущность серийной выборки заключается в собственно
случайном либо механическом отборе серий, внутри которых производится сплошное
исследование единиц.
Комбинированный отбор — это комбинация рассмотренных выше способов отбора.
Сущность предельных теорем состоит в том, что в массовых явлениях совокупное
влияние различных случайных причин на формирование закономерностей и обобщающих
характеристик будет сколь угодно малой величиной или практически не зависит от случая. Так
как случайная ошибка выборки возникает в результате случайных различий между единицами
выборочной и генеральной совокупностей, то при достаточно большом объеме выборки она
будет сколь угодно мала.
Предельные теоремы теории вероятностей позволяют определять размер случайных
ошибок выборки. Различают среднюю (стандартную) и предельную ошибку выборки. Под
средней (стандартной) ошибкой выборки понимают такое расхождение между средней
выборочной и генеральной совокупностями (~ —), которое не превышает ±. Предельной
ошибкой выборки принято считать максимально возможное расхождение (~ —), т. е.
максимум ошибки при заданной вероятности ее появления.
В математической теории выборочного метода сравниваются средние характеристики
признаков выборочной и генеральной совокупностей и доказывается, что с увеличением
объема выборки вероятность появления больших ошибок и пределы максимально возможной
ошибки уменьшаются. Чем больше обследуется единиц, тем меньше будет величина
расхождений выборочных и генеральных характеристик. На основании теоремы, доказанной
П.Л. Чебышевым, величину стандартной ошибки простой случайной выборки при достаточно
большом объеме выборки (n) можно определить по формуле
σ x̄=
где
√
Dx σ
,
=
N √N
(7.1)
σ ̄x - стандартная ошибка среднего арифметического.
Из этой формулы средней (стандартной) ошибки простой случайной выборки видно,
что величина зависит от изменчивости признака в генеральной совокупности (чем больше
56
вариация признака, тем больше ошибка выборки) и от объема выборки n (чем больше
обследуется единиц, тем меньше будет величина расхождений выборочных и генеральных
характеристик).
В математической статистике употребляют распределение Стьюдента (t-распределение)
или, часто говорят, коэффициент доверия t. Значения вероятностей доверия или уверенности
отсутствия ошибки F(t) и уровней доверительной вероятности (наличия ошибки) α(t) = 1 F(t) для больших N табулированы при разных значениях t. Фрагмент такого табулирования
приведён в табл. 7.1.
Таблица 7.1
Соответствие доверительных вероятностей F(t), уровней доверительной вероятности α(t) и
коэффициентов доверия t
t
1,00
1,96
2,00
2,58
3,00
F(t)
0,683
0,950
0,954
0,990
0,997
α(t)
0,317
0,050
0,046
0,010
0,003
Коэффициент доверия позволяет вычислить предельную ошибку выборки,
x по
формуле:
(7.2)
δ̄x =t⋅σ̄x
т. е. предельная ошибка выборки равна t-кратному числу средних ошибок выборки.
Для уточнения значений t при малом числе наблюдений
(N < 30) необходимо
пользоваться таблицами распределения Стьюдента (см. таблицу П2).
Таким образом, величина предельной ошибки выборки может быть установлена с
определенной вероятностью. Как видно из последней графы табл. 7.1, появление случайной
ошибки равной или большей утроенной средней ошибки выборки, т. е.
 x =3⋅ x ,
маловероятно среди правильно измеренных признаков (α(t)=1-0,997=0,003).
Формула (7.1) справедлива для повторной выборки. При бесповторном способе отбора
используют другую формула для расчета стандартной ошибки:
σ ̄x =
где
1−
n

N
√
√
Dx
σ2
n
n
(1− )= x (1− ) ,
N
N
N
N
(7.3)
- доля единиц генеральной совокупности, не попавших в выборку. Так как эта
доля всегда меньше единицы, то ошибка при бесповторном отборе при прочих равных
условиях всегда меньше, чем при повторном. Бесповторный отбор организовать легче, чем
повторный, и он применяется намного чаще. Величину стандартной ошибки при бесповторном
57
отборе иногда можно определять по более простой формуле (7.1). Такая замена возможна,
если доля единиц генеральной совокупности, не попавших в выборку, большая и,
следовательно, величина близка к единице.
Определить необходимый объём (n) выборки можно, исходя из требуемой величины
допустимой случайной ошибки (7.2). Тогда, при повторном способе формирования выборки
t 2⋅σ2
,
2
δ̄x
(7.4)
t 2⋅N⋅σ 2
.
δ 2̄x⋅N+ t 2⋅σ 2
(7.5)
n=
а при бесповторном способе
n=
Формировать выборку в строгом соответствии с правилами случайного отбора
практически очень сложно, а иногда невозможно, так как при использовании таблиц
случайных чисел необходимо пронумеровать все единицы генеральной совокупности.
Довольно часто генеральная совокупность такая большая, что провести подобную
предварительную работу чрезвычайно сложно и нецелесообразно, поэтому на практике
применяют другие виды выборок, каждая из которых не является строго случайной. Однако
организуются они так, чтобы было обеспечено максимальное приближение к условиям
случайного отбора.
Упражнения.
Упражнение 7.1 Определите число случайных нормально распределённых чисел с
Mx = 2 и σ = 4, позволяющих вычислить оценку математического ожидания с допустимой
случайной ошибкой, δ̄x = 0,15 с доверительной вероятностью 95% при повторной способе
формирования выборки.
Упражнение 7.2 Определите число случайных нормально распределённых чисел с
Mx = 2 и σ = 4, позволяющих вычислить оценку математического ожидания с допустимой
случайной ошибкой, δ̄x = 0,15 с доверительной вероятностью 95% при бесповторном
способе формирования выборки.
Упражнение 7.3 При промере берикса установлено, что максимальная длина особей в
уловах составляет 60 см, а минимальная – 25 см. Нужно узнать, какое количество рыбы
необходимо для массового промера при t = 3. При этом можно использовать эмпирическое
правило, по которому среднее квадратическое отклонение составляет, как правило, около 1/6
58
размаха вариационного ряда, т.е. приблизительно 1/6 (xmax-xmin). Точность зависит от точности
измерения и в этом рейсе составляет 1 см.
Упражнение 7.4 При промере берикса установлено, что максимальная длина особей в
уловах составляет 60 см, а минимальная – 25 см. Нужно узнать, какое количество рыбы
необходимо для массового промера при t = 3. При этом можно использовать эмпирическое
правило, по которому среднее квадратическое отклонение составляет, как правило, около 1/6
размаха вариационного ряда, т.е. приблизительно 1/6 (xmax-xmin). Точность зависит от точности
измерения и в этом рейсе составляет 0,5 см.
Вопросы для самоконтроля.
• Что понимается под понятием «реперезентативность»?
• Что понимается под ошибкой репрезентативности?
• Что понимается под выборочным наблюдением?
• В чем состоит главная цель выборочного наблюдения?
• Как называется статистическая совокупность, из которой производится отбор единиц
при организации выборочного наблюдения?
• Виды формирования выборочной совокупности.
• Методы формирования выборочной совокупности.
• Способы отбора единиц при формировании выборочной совокупности.
• Как вы понимаете понятие «малая выборка»?
• Какой закон распределения используется в малых выборках?
• Почему при выборочном наблюдении неизбежны ошибки и как они
классифицируются?
• В чем различие повторной и бесповторной выборки?
• Что такое коэффициент доверия к наблюдению признака?
Рекомендуемая литература: [1], [3], [6], [7], [8], [9]
59
К содержанию
8. ОШИБКИ СРЕДНЕГО АРИФМЕТИЧЕСКОГО
Ошибка среднего арифметического определяется по формуле:
σ x̄=
σx
√n ,
(8.1)
из которой видно, что чем больше разнообразие признака, характеризуемого величиной σx, тем
больше ошибка.
Если бы все объекты были одинаковы, то есть разнообразия бы не было, то и ошибка
была бы равна нулю. В этом случае даже один экземпляр точно характеризовал бы всю
генеральную совокупность.
Ошибка также зависит от численности выборки n: чем больше численность, тем
меньше ошибка.
Определив ошибку среднего арифметического
σ ̄x , можно найти генеральную
среднюю по формуле:
mx = ̄x ±t⋅σ̄x ,
(8.2)
где
mx – генеральная средняя или математическое ожидание признака x;
̄x – выборочная средняя,
σ ̄x – среднеквадратическая ошибка среднего арифметического или просто ошибка,
t – критерий Стьюдента, соответствующий вероятности получаемого результата.
Точное значение генеральной средней найти невозможно, поскольку число объектов
стремится к бесконечности. С помощью данной формулы с определенной степенью
вероятности находятся две границы: максимального и минимального значений. Эти значения
называются доверительными интервалами, то есть такими, которым можно доверять.
Если доверительные интервалы определены с вероятностью 95% или 0,95, то с вероятностью
5% (100% – 95%) или 0,05 генеральная средняя может быть меньше минимального и больше
максимального значений. Значение 5% (или 0,05) называется уровнем значимости.
Часто в гидробиологических исследованиях результат определяется с вероятностью
95% или 0,95. Такой вероятности при большом количестве наблюдений соответствует tst = 2.
Для уточнения стандартных значений t можно воспользоваться таблицей П2 из приложения 2.
В этой таблице степень вероятности, выраженная в долях единицы, обозначается B. Всего
представлено четыре степени вероятности.
60
Из данных, приведенных в таблице видно, что при значениях ν больше 28, при
вероятности 95% t = 2. Если значения ν меньше, то величина t постепенно увеличивается. При
работе со средними арифметическими ν = n - 1. Этот показатель называется числом степеней
свободы.
Пример 8.1 В 10-ти случаях в некотором водоёме экспериментальной снастью (рюжей) было
выловлено следующее количество сигов в штуках:
x
12
10
5
8
9
10
9
7
10
10
Найти генеральную среднюю.
Определена выборочная средняя арифметическая:
̄x
= 9,0, определена σ = 1,94.
Находим ошибку:
σ ̄x =
1,94
=0,61 .
√ 10
Далее находим генеральную среднюю: по таблице П.2 определяем, что при n = 10, (ν =
10 - 1 = 9) критерий Стьюдента (tst) равен 2,3. Значит:
mx =9,0±2,3⋅1,4=9,0±3,2 .
Вывод: с вероятностью 95% (или в долях единицы 0,95) генеральная средняя для
количества рыб, вылавливаемых снастью данного вида в данном водоёме, будет находиться в
пределах от 5,8,6 до 12,2.
С помощью ошибки также определяется достоверность полученных результатов,
которая показывает, насколько правильно выборочные данные характеризуют генеральные.
Достоверность также определяется через критерий Стьюдента. При нахождении
генеральных параметров мы сами задаем значение этого критерия, уточнив по таблице П1.
При определении же достоверности получаем его значение по формуле:
m
t= σ x .
x
̄
(8.3)
При определении достоверности какого–либо показателя этот показатель делится на
свою стандартную ошибку. Если полученное значение больше табличного или равно ему t ≥
tst, то результат достоверен, если t < tst, то результат недостоверен.
В предыдущем примере:
t=
9,0
=14,7 .
0,61
61
Стандартное (табличное) значение t, как мы уже говорили, равно 2,3. Значит, наш
результат достоверен, и ему можно доверять. Причем, если мы внимательно посмотрим на
таблицу П2, то при таком значении полученного t результат достоверен не только с
вероятностью 0,95, но и при более высокой степени вероятности. Если же наш результат
оказался
недостоверным,
Вспомним, что
это
значит
ошибка
очень
большая.
σ ̄x = σ , и, если мы добавим для исследования еще несколько объектов, то
√n
величина ошибки сразу снизится, и мы добьемся достоверного результата, то есть, для
снижения величины ошибки и получения достоверного результата, необходимо увеличить
количество объектов исследования.
При малом числе наблюдений (n < 30) необходимо исправлять смещение за счёт
уменьшения на единицу числа независимых наблюдений при расчёте средних квадратических
отклонений:
σ ̄x =
σx
√ n−1 .
(8.4)
Упражнения.
Упражнение 8.1 Найти минимальный объём выборки, при котором с доверительной
вероятностью F(x) = 0,975 точность оценки математического ожидания μ x генеральной
совокупности по выборочной средней будет равна
квадратическое отклонение
δ=0,3 , если известно среднее
σ ̄x =1,2 генеральной совокупности и, что эта совокупность
отвечает нормальному распределению.
Упражнение 8.2 Найти минимальный объём выборки, при котором с доверительной
вероятностью F(x) = 0,99 точность оценки математического ожидания μ x генеральной
совокупности по выборочной средней будет равна
квадратическое отклонение
δ=0,3 , если известно среднее
σ ̄x =1,2 генеральной совокупности и, что эта совокупность
отвечает нормальному распределению.
Упражнение 8.3 Решить пример 8.1, но с учётом того, что количество элементов в
выборке мало, и среднеквадратическое отклонение правильнее рассчитывать по формуле (8.4),
а не (8.1), как это было сделано в примере.
Вопросы для самоконтроля.
• Свойства средней арифметической?
• Объясните термины «точечная оценка» и «интервальная оценка» математического
ожидания?
• Что такое «степени свободы»?
62
• Когда медиана является более предпочтительной оценкой математического ожидания,
чем среднее арифметическое?
• Когда при расчёте стандартной ошибка среднего необходимо учитывать степень
свободы рассчитываемой статистики?
• Какой закон распределения используется в малых выборках?
• Как изменяется стандартная ошибка среднего при увеличении числа наблюдений?
• Как исчисляются предельные статистические ошибки выборки?
• По каким формулам определяется необходимая численность выборки, обеспечивающая
с определённой вероятностью заданную точность наблюдения?
• Кокой доверительной вероятности соответствует предельная ошибка среднего при
коэффициенте доверия t = 3 и числе наблюдений N > 30 ?
Рекомендуемая литература: [1], [2], [3], [8], [9]
63
К содержанию
9. ОШИБКИ РАЗНОСТИ СРЕДНИХ АРИФМЕТИЧЕСКИХ
При проведении научных исследований в области биологии и экологии часто возникает
необходимость дать оценку различий между статистическими параметрами, например,
средними арифметическими, то есть определить, отличаются ли они друг от друга.
Например, сравниваются результаты контрольного и опытного вариантов, или данные,
полученные разными методами. В этом случае сначала определяется разница между
выборочными средними: d =
x̄1
- x̄2
(из большей величины вычитается меньшая).
Затем находится ошибка репрезентативности разности (или просто ошибка):
σ d=√ σ x̄ + σ x̄ ,
1
2
(9.1)
где
σ x̄
– ошибка первой средней арифметической,
σ x̄
– ошибка второй средней арифметической.
1
2
Зная ошибку разности σ d , можно найти генеральную разность:
̄d =d±t⋅σd ,
(9.2)
где t – критерий Стьюдента для числа степеней свободы ν = n1 + n2 - 2.
Достоверность разности или вычисляемое значение t-статистики определяется по формуле:
d
t= σ
d
,
(9.3)
(вспомним, что при определении достоверности какого-либо показателя этот показатель
делится на свою ошибку). Здесь, как и в случае со средними арифметическими, возможны два
варианта ответа:
1) если t ≥ tst, то разница достоверна;
2) если t < tst, то разница недостоверна.
Пример 9.1 Для изучения влияния кобальта на рост севрюги проводился эксперимент с
опытной и контрольной группами рыб в возрасте двух месяцев. В опытной группе было 9
особей, в контрольной – 8. Исходная масса особей – 600 г. Опыт длился 1,5 месяца. Обе
группы содержались на одном и том же кормовом рационе. Но опытные особи в отличие от
контрольных ежедневно получали добавку хлористого кобальта в виде водного раствора. Цель
эксперимента – выяснить, оказывает ли влияние включение кобальта в питание севрюги на
увеличение их привеса.
64
За время опыта были получены следующие показатели привеса: в опытном варианте, то
есть получавшие добавку, имели среднюю арифметическую по привесу
контрольном варианте
x̄1
= 638 г, в
x̄2 = 526 г. Разница d = 638 - 526 = 112, ошибка репрезентативности
σ d составила 27,13 г. Определяем достоверность разности:
t=
112
=4,1 .
27,13
Число степеней свободы равно ν = 9 + 8 - 2 = 15, так как в опытной группе было 9, а в
контрольной – 8 особей. При сравнении полученного результата с табличным видно, что t >
tst не только при 95%–ной, но и более высокой вероятности.
Таким образом, мы можем сделать вывод, что добавка препарата кобальта в кормовой
рацион увеличивает прирост массы севрюги по сравнению с контрольной группой. Результат,
полученный при сравнении двух выборок (опытной и контрольной) может быть
сформулирован в виде выводов для двух генеральных совокупностей: для особей, которые
всегда будут получать кобальтовую добавку, и особей, которые не будут ее получать. В этой
задаче можно поставить вопрос: насколько гарантировано увеличение привеса у опытных рыб
по сравнению с контрольными?
В данном эксперименте разница в привесе одной особи составила, в среднем, 112 г.
Чтобы ответить на вопрос, необходимо определить доверительные интервалы для генеральной
разности. По таблице П2 определяем величину tst, соответствующую 95%–ной вероятности
(или уровню значимости 5%): ̄d =d±t⋅σd , отсюда ̄d =112±2,1⋅27,13 .
С данной степенью вероятности среднее увеличение привеса одной особи севрюги по
сравнению с контрольным особями за 1,5 месяца будет составлять от 55 до 169 г. Можно
рассчитать, окупятся ли затраты на приобретение кобальтовой добавки для питания рыбы, и
можно ли рекомендовать этот прием для рыбоводов.
Если исследователь в ходе своей работы получил недостоверный результат, то
необходимо выяснить причины произошедшего. Обратимся еще раз к формуле определения
d
достоверности разности средних арифметических: t= σ .
d
Если t < tst, то результат недостоверен, а значит необходимо добиться увеличения
показателя t.
Первой причиной недостоверности результата может быть недостаточное количество
данных. Тогда можно дополнительно ввести в эксперимент определенное количество
измерений (объектов). Таким образом, появляется возможность
65
получить достоверный
результат. Другой причиной получения недостоверного ответа может быть отсутствие
различий. Предположим, добавка кобальта никак не влияет на привес рыбы. А мы получили
разницу между средней арифметической по привесу опытной группы рыб
( x̄1 )
вычисляемое значение t-статистики определяется по формуле и средней арифметической по
привесу контрольной группы рыб ( x̄2 ), так как вследствие разнообразия числа даже в одной
выборке отличаются. Но, как правило, разница в этом случае бывает очень небольшой.
Чтобы сделать вывод об отсутствии влияния кобальта на привес, мы должны быть
уверены, что взяли для исследования необходимое количество объектов. Для этого
существуют специальные способы расчета, речь о которых пойдет далее.
Упражнения.
Упражнение 9.1 В двух группах дельфинов были получены следующие показатели
измерения времени сложной зрительно-двигательной реакции:
А
0,31
0,37
0,43
0,45
0,57
0,36
0,41
0,49
0,39
0,42
Б
0,45
0,56
0,59
0,49
0,64
0,65
0,70
0,36
0,48
0,58
Необходимо сделать вывод о наличии различия между средними значениями признаков,
считая выборки независимыми. Для определения различия необходимо использовать tкритерий с двумя уровнями значимости нулевой гипотезы: 0,05 и 0,01.
Вопросы для самоконтроля.
• Как вычисляется среднеквадратическая ошибка разности средних арифметических для
двух независимых выборок?
• Формула для вычисления t-статистики разности средних арифметических двух
независимых выборок?
• Как вычисляются степени свободы для определения критического значения t по
таблице t-распределения (распределения Стьюдента)?
• Что такое доверительная вероятность при использовании t-критерия?
• Что такое уровень значимости при использовании t-критерия?
• Как вы понимаете правило «трёх сигм» при использовании его для определения
значимости различия средних арифметических?
Рекомендуемая литература: [1], [3], [6], [7], [8], [9]
66
К содержанию
10. НЕОБХОДИМЫЙ ОБЪЕМ ВЫБОРОЧНОЙ СОВОКУПНОСТИ
Когда исследователь приступает к эксперименту, возникает вопрос, какое количество
объектов необходимо взять или сколько анализов нужно сделать, чтобы получить достоверные
результаты. Другими словами, необходимо определить объем выборки или число n, от
которого, как мы уже знаем, зависит величина ошибки репрезентативности, а значит и
достоверность. Для этого используется формула:
n=
t 2⋅σ2 ,
δ2
(10.1)
где t - критерий Стьюдента (мы задаем его сами, исходя из желаемой вероятности. Для
большого числа наблюдений (более 30-ти) часто принимают t, равным 2, — вспоминаем
смысл правила «двух сигма»).
Сигму (σ) можно предположить из исследований, проводимых ранее, или на других объектах.
Приближённое значение σ можно быстро вычислить по формуле:
σ=
x max −x min
.
K
(10.2)
где K — коэффициент, определяемый по таблице 4.1. При большом числе наблюдений
(n>200) можно принимать K = 6.
На величину δ (дельта) отличаются генеральные данные от выборочных. Например, для
средней арифметической: ̄x =μ x ±t⋅σ ̄x , где t⋅σ̄x = δ, то есть погрешность.
Например, изучая среднесуточный привес осетров, можно принять, что желаемая
погрешность δ, то есть разница между генеральной средней μx и выборочной средней
̄x ,
должна быть в пределах 15 г. Если, подсчитав по формуле, мы получили количество n = 10, то
учитывая, что сигму и δ мы определили очень приблизительно, ориентируясь на полученное
по формуле количество объектов, можно их взять немного больше.
При определении n двух сравниваемых выборок применяется формула:
n=
2⋅t 2⋅σ 2
2
δ
Эта формула предполагает, что n1 = n2, то есть полученное по формуле число n (или n,
увеличенное на какое-то количество единиц) должно быть одинаковым для обеих
сравниваемых групп.
(10.3)
67
Упражнения.
Упражнение 10.1 Построить
Вопросы для самоконтроля.
• Как следует изменить формулу (10.1), чтобы учитывались особенности расчёта
среднего квадратического отклонения при малом числе наблюдений?
• Как следует изменить формулу (10.3), чтобы учитывались особенности расчёта
среднего квадратического отклонения при малом числе наблюдений?
• По каким формулам определяется необходимый размер выборки, обеспечивающий с
определенной вероятностью заданную точность наблюдения?
Рекомендуемая литература: [1], [6], [8], [9]
68
К содержанию
11. АНАЛИЗ АЛЬТЕРНАТИВНЫХ ПРИЗНАКОВ
Если одни объекты имеют определенный признак, а другие не имеют его, то такие
качественные признаки называются альтернативными. Они могут выражаться в процентах
или долях единицы.
Альтернативный признак — понятие, взятое из раздела генетики, или, обобщенно
говоря, – биологии. Ввел его известный австрийский учёный Грегор Иоганн Мендель (1822–
1884). Мендель одним из первых в биологии использовал точные количественные методы для
анализа данных. На основе знания теории вероятностей он понял необходимость анализа
большого числа скрещиваний для устранения роли случайных отклонений. Основываясь
только на альтернативных признаках, Менделю удалось сузить число задач исследования, и
это
позволило
определить
общие
законы
b1aeclack5b4j.org/index.php/Законы_Менделя).
Эти
наследования
принципы
стали
( http://xn-базисом
для
классической генетики.
Мендель разделил признаки на доминантные и рецессивные (те, которые подавляют, и
те, которые подавляются). А началом такого подхода для Менделя послужили альтернативные
признаки, сортов гороха (именно на основе опытов, проведенных над скрещиванием гороха,
он построил свои теории) - два варианта, которые четко различались. Альтернативными
признаками у подопытного гороха были:
гладкие или морщинистые семена, белый или
розовый цветок, высокие или низкие растения.
Таким образом, альтернативные признаки - это качественные признаки, которые
не могут присутствовать у одного конкретного организма одновременно, так как они
исключают наличие друг друга. Альтернативный признак принимает всего два
значения: 1 — наличие признака; 0 — отсутствие признака.
Вероятностно-статистические подходы, которые использовал Мендель в своих опытах:
1.
Все генетические закономерности носят вероятностно-статистический характер.
Соотношение особей с доминантными и рецессивными признаками должно быть равно 3:1.
При достаточно большом числе потомков фактическое отношение будет очень близко к
ожидаемому. Но если число потомков невелико, соотношение между обеими формами может
сильно отличаться от ожидаемого: например, если в потомстве 4 особи, то оно может
оказаться каким угодно, от 4:0 до 0:4, хотя последняя возможность (все особи рецессивного
типа) реализуется крайне редко. Поэтому лучше сказать, что при скрещивании двух
гетерозигот для каждого потомка существует три шанса из четырёх (3/4) оказаться особью
доминантного типа и один шанс из четырёх (1/4) оказаться особью рецессивного типа.
2.
69
Правило умножения вероятностей: вероятность произведения двух событий
(совместного появления этих событий) равна произведению вероятности одного из них на
вероятность другого. Так вероятность появления в потомстве растения с зелёными семенами и
пурпурными цветками равно произведению вероятности одного(1 шанс из 4, т.е. 1/4) и
вероятности другого (3 шанса из 4, т.е. 3/4). Получаем: 3/4*1/4 =3/16 (т. е. 3 шанса из 16).
3.
Правило сложения вероятностей: вероятность того, что произойдет какое-либо
одно (безразлично какое) из нескольких несовместимых событии, равна сумме вероятностей
этих событий. То есть вероятность появления в потомстве растения или с зелёными семенами
и пурпурными цветками или с жёлтыми семенами и пурпурными цветками равна:
3/16 (из предыдущего закона) + 9/16=12/16 (т. е. 12 шансов из 16)
Если общее количество объектов n, то n+ – это число объектов, имеющих данный
признак, а доля таких объектов -
будет соответствовать доля
p=
p=
n+
. Числу объектов n- , не имеющих данного признака,
n
n.
n
Среднеквадратическая ошибка (или ошибка репрезентативности) доли равна
m= σ , где σ - среднее квадратическое отклонение альтернативных признаков равно [1]:
√n
σ=√ p⋅q
,
(11.1)
отсюда
m=
√
p⋅q
.
n
(11.2) .
Ошибка разности долей определяется так:
md= √ m21+ m22 =
√
p1⋅q 1 p2⋅q 2
.
+
n1
n2
(11.3)
Достоверность или t-статистика разности долей находится по формуле:
t=
p1− p2
d
=
md
p 1⋅q1 p 2⋅q 2 ,
+
n1
n2
√
где d = p1 - p2 – разность между двумя выборочными долями,
p – доля особей, имеющих данный признак,
q – доля особей, не имеющих данный признак.
(11.4)
70
Пример 11.1 Необходимо определить процент выживания молоди устриц посаженных
на некоторую экспериментальную устричную банку. Взято 20 особей молоди, то есть n = 20.
Из них выжило 12, то есть n+ = 12. Тогда доля выживших особей составила
12
=0,6 ,
20
p=
а доля не выживших –
q=
20−12 8
= =0,4 .
20
20
Можно найти долю не выживших особей и таким образом: 1 - 0,6 = 0,4.
Ошибка
m=
√
√
0,6⋅0,4
0,24
=
=√ 0,012=0,11 ,
20
20
t — статистика
t=
0,6
.
0,11
Результат достоверен с большой доверительной вероятностью. Убеждаемся в этом, определяя
tкр по таблице П2 приложения 2. Поэтому можно сделать вывод, что при высадке на
экспериментальную банку такого типа выживет 0,6 (в долях) или 60% молоди устриц.
Пример 11.2 Изучалось влияние облучённой питательной добавки на заболеваемость
молодых тюленей, оставшихся без родителей и выращиваемых в специальных питомниках. Из
1000 особей, получавших облучённую добавку, болело рахитом 10, а из 2000 особей, не
получавших облученную добавку, болело 80. Требуется определить эффективность прибавки в
корм молодым тюленям облучённой питательной добавки.
Расчёты показали следующее:
p1=
10
0,01⋅0,99
=0,01 ; m21=
=0,0000099 ;
1000
1000
p2 =
80
0,04⋅0,96
=0,04 ; m 22=
=0,0000192 ;
2000
2000
d = 0,04 — 0,01 = 0,03; m d= √0,0000099+ 0,0000192=0,005 ;
t d=
0,03
=6 .
0,005
Вывод: разность долей достоверна при большой доверительной вероятности. Значит, прибавка
в корм молодым тюленям облучённой питательной добавки снижает их заболеваемость
рахитом.
71
Упражнения.
Упражнение 11.1 По данным примера 11.1 определите с помощью таблицы П2
приложения 2 критические точки распределения Стьюдента при доверительной вероятности,
равной 95% и 99%. Действительно ли достоверен результат, полученный в примере?
Упражнение 11.2 По данным примера 11.2 определите с помощью таблицы П2
приложения 2 критические точки распределения Стьюдента при доверительной вероятности,
равной 95% и 99%. Действительно ли достоверен результат, полученный в примере?
Упражнение 11.3 По данным примера 11.1 определите p-значение с помощью таблицы
П2 приложения 2. Действительно ли достоверен результат, полученный в примере?
Вспомним, p-значение или значимая вероятность, - это вероятность получить (в
предположении справедливости гипотезы) значение, не меньшее значения выборочной
статистики.
Упражнение 11.4 (из книги: Кендалл Дж., Стьюарт А. Теория распределения, M.:
Наука,
1966,
с.306,
адрес:
http://page-book.ru/i284374).
Скрещивая
растения,
обладающие двумя различными качественными признаками, например, высокий и низкий
горох, необходимо проверить простой закон Менделя о наследовании доминантных
и
рецессивных признаков. Если скрестить между собой два чистых вида высокого и низкого
гороха, а затем скрестить между собой растения этого первого поколения, то согласно
простому закону Менделя во втором поколении относительные частоты «низких» и «высоких»
будут ¾ и ¼ при доминировании признака «низкий» и ¼ и ¾ при доминировании признака
«высокий». Предположим, что мы производим такой эксперимент и для 400 растений частоты
оказываются равными 70 и 330. Могло ли это отклонение от теоретических значений 100 и 300
возникнуть случайно или оно достаточно велико, чтобы вызвать сомнение в справедливости
простого закона Менделя?
При выполнении упражнения необходимо исходить из следующего. Пусть имеется
основание полагать долю элементов, обладающих качеством A, известной и равной ω.
Подтверждает наблюдённая доля p эту гипотезу или отклонение от ω столь велико, что
вызывает сомнение в её реальности?
Вопросы для самоконтроля.
• К какой категории признаков относятся альтернативные признаки: количественные,
качественные?
• Какой закон распределения используется для вероятностного описания двух
альтернативных признаков?
72
• Как осуществляется распространение результатов выборочного наблюдения на всю
совокупность при статистическом анализе альтернативных признаков?
• Как исчисляются предельные статистические ошибки выборки при анализе
альтернативных признаков?
• По каким формулам определяется необходимая численность выборки, обеспечивающая
с определенной вероятностью заданную точность наблюдения при анализе
альтернативных признаков?
Рекомендуемая литература: [1], [2], [3], [6], [7], [8]
73
К содержанию
12. КОРРЕЛЯЦИЯ
Биологические объекты обладают множеством признаков. Эти признаки могут быть
зависимы друг от друга. Например, размеры рыб и масса их тела связаны между собой. Чем
больше размеры, тем больше масса и наоборот. В других случаях можно наблюдать
зависимость величины признаков от действия экологических факторов, например, от
температуры или солёности. Такие связи называют корреляционными или просто
корреляцией.
Слово корреляция происходит от латинского correlation, что означает связь,
соотношение, сопряженность. В практике гидробиологических исследований часто возникает
необходимость изучить связь между признаками одного организма или зависимость между
признаками организма и условиями внешней среды.
Задача корреляционного анализа состоит в том, чтобы определить характер связи
между сопряженными признаками, убедиться в статистической достоверности найденного
количественного значения связи, выяснить корреляционное отношение между признаками с
тем, чтобы в дальнейшем подвергать эти данные регрессионному анализу.
Корреляционная связь может иметь разную степень: есть связи сильные, средние или
слабые. Кроме того, связи могут быть прямые и обратные или положительные и
отрицательные. Как прямая, так и обратная корреляция может быть линейной, если с
увеличением одного показателя планомерно увеличивается или уменьшается второй
показатель, или криволинейной, если с увеличением одного показателя до известных пределов
второй показатель также повышается, а затем начинает снижаться.
Одним из показателей корреляционной связи является коэффициент корреляции
Пирсона, который определяется по формуле:
1
⋅[ (x −̄x )⋅( y i− ̄y )]
n ∑ i
,
r yx =
S x⋅S y
(12.1)
или
r yx =
∑ ( x i−̄x )⋅( y i− ̄y)
√ ∑ ( xi −̄x )2⋅∑ ( y i− ̄y )2
.
(12.2)
Коэффициент корреляции ryx может принимать значения от - 1 до +1. При этом могут
быть случаи:
74
1) ryx = 0, т.е. корреляция между у и х отсутствует;
2) ryx > 0 с максимальным значением +1, что означает, увеличение увеличение признака xi
связано с увеличением другого признака yi;
3) ryx < 0 с максимальным отрицательным значением -1. Это значит, увеличение признака
xi влечет за собой уменьшение признака yi.
При большом количестве наблюдений (n > 30÷60), используют приближённый
критерий силы связи. При значениях коэффициента 0,5–0,6 связь средняя; значения ниже 0,5
указывают на слабую связь. Корреляция является сильной, если ryx не ниже 0,7.
Обычно коэффициент корреляции определяется с точность до сотых долей.
Чтобы ответить на вопрос, есть ли корреляция между признаками, необходимо
определить
достоверность
коэффициента
корреляции,
а
для
этого
найти
его
седнеквадратическую ошибку (ошибку репрезентативности)
σr =
√
1−r 2 ,
n−2
(12.3)
и отношение
r
t= σ
r
.
(12.4)
Случайная величина t называется t-статистикой. В условиях нулевой гипотезы H0 : ρ = 0
эта величина распределена по закону Стьюдента с ν = n-2 степенями свободы. Поэтому, если
|t| > tα,ν,
то
нулевая
гипотеза
отклоняется,
а
если
|t| < tα,ν,
то
принимается,
как
подтвердившаяся. Здесь α - уровень значимости, а tα,ν - соответствующее значение из таблиц
распределения Стьюдента (приложение 2).
Аналогично, статистика
F=
r2
.
σ 2r
(12.5)
в условиях нулевой гипотезы H0 : ρ = 0 имеет F-распределение (распределение Фишера) со
степенями свободы ν1 =1 и ν2 =n-2. Критические значения F-распределения для α = 0,05 и α
= 0,01 приведены в таблицах П3.1 и П3.2 приложения 3.
Иногда удобнее вместо F-статистики, вычисляемой по (12.5), использовать статистику
F '=
75
1+ r
1−r
(12.6)
со степенями свободы ν1 =n-2 и ν2 =n-2.
Пример 12.1 При изучении влияния различных доз минеральных удобрений в г/м 2 (Vx)
на урожай микроводоросли в г/м2 (Vy) были получены следующие результаты, показанные на
рис.12.1 и представленные в таблице 12.1
Рис. 12.1 Урожай микроводоросли (Vy, г/м2 ) в зависимости от дозы минеральных
удобрений (Vx, г/м2 )
Представление данных в виде графика на рис. 12.1 часто называют полем корреляции
или диаграммой рассеивания. Поле корреляции позволяет визуально быстро приблизительно
определить
вид
связи
(линейная/нелинейная),
направление
связи
(положительная/отрицательная). Опытный исследователь может также достаточно точно
сказать о силе связи и её значимости (эти понятия будем рассматривать ниже).
76
Таблица 12.1
№
Vx
Vy
1
2
3
4
5
6
7
8
9
10
Сумма
1
2
3
4
5
6
7
8
9
10
∑ = 55
10
13
15
16
19
18
21
23
22
23
∑ = 180
(Vx - Mx) = (Vy - My) =
x
y
- 4,5
- 3,5
- 2,5
- 1,5
- 0,5
0,5
1,5
2,5
3,5
4,5
-8
-5
-3
-2
1
0
3
5
4
5
xy
x²
y²
36
20,25
64
17,5
12,25
25
7,5
6,25
9
3,0
2,25
4
-0,5
0,25
1
0
0,25
0
4,5
2,25
9
12,5
6,25
25
14,0
12,25
16
22,5
20,25
25
∑ xy = 117 ∑ x² = 82,5 ∑ y² = 178
My =
Среднее Mx = 55/10
180/10 =
значение
= 5,5
18
Полученные результаты подставляем в формулы:
√
r=
2
118
118
118
=
=
=0,97 ; σ r= 1−0,97 = 1−0,94 = 0,06 =0,092 ;
√ 82,5⋅178 √ 4685 121
10−2
8
8
t=
0,97
=10,5 ; ν = n — 2 = 10 — 2 = 8.
0,092
√
√
По таблице П2 находим: t0,05;,8= 2,3. Коэффицент корреляции значим при α = 0,05, то есть
вероятность ошибочно отвергнуть нулевую гипотезу составляет 5%. Вероятность уверенности
в правильности отклонения нулевой гипотезы, а значит — в значимости коэффициента
корреляции, составляет 95%.
Вывод: Исследуемое минеральное удобрение влияет на величину урожая. При этом
полученный коэффициент корреляции r указывает на сильную положительную связь между
признаками.
Определяемые описанными выше способами критерии называются двусторонними.
При их использовании не учитывается априорная информация, известная специалистугидробиологу. Априорная информация используется в так называемых односторонних
критериях. Так, в примере 12.1 гидробиологу понятно, что связь между вносимым
количеством удобрений и приростом урожая должна быть положительной. Поэтому можно
77
отбросить часть неопределённости, связанной с отрицательной связью, обратив всё внимание
на проверку положительной связи (говорят - увеличим мощность критерия). Таблицы
значений одностороннего t-критерия и рекомендации по его использованию расположены по
адресу: http://sixsigmaonline.ru/load/24-1-0-210.
В
приложении
коэффициента
5
помещена
корреляции
таблица,
Пирсона
облегчающие
(таблица
взята
выяснение
по
значимости
адресу:
http://www.dpva.info/Guide/GuideMathematics/TheTheoryOfProbabilityAndStatistics/Pirs
onVsSignificance/ ). Там же приведена инструкция по использованию таблиц с применением
одностороннего и двустороннего критериев.
При малых объёмах наблюдений n значение r получается заниженным по сравнению с
истинным значением коэффициента корреляции. Поэтому при n<10 для r следует
использовать оценку с поправкой
r=r *⋅[1+
2
1−r
]
2⋅(n−3)
(12.7)
где r* - коэффициент корреляции, вычисленный по формулам (12.1) или (12.2).
Из формулы (12.7) следует, что величина поправки зависит от объема выборки n. При
малом объеме выборки эмпирический коэффициент корреляции не является точной оценкой
генерального параметра. Для наиболее точной оценки генерального параметра Фишер
предложил замену rух преобразованной величиной z, которая мало зависит от объема выборки
и связана с эмпирическим коэффициентом по формуле:
1 1+ r
1+ r
z= ⋅ln
=1,15159⋅lg
.
2 1−r
1−r
(12.8)
Фишером было доказано, что при n >30 случайная величина z имеет приближенно
нормальное распределение с независящей от r дисперсией
σ z≈
1
n−3
(12.9)
и математическим ожиданием
1+ ρ
ρ
1+ ρ
1
1
mz = ⋅ln
+
≈ ⋅ln
2
1−ρ 2⋅n−2 2
1−ρ
где ρ — истинное значение коэффициента корреляции.
(12.10)
78
Стандартизуя Z, получим случайную величину, которая имеет распределение,
близкое к нормальному (N(0;1):
z−m z
.
u= σ
z
(12.11)
Преобразование Фишера позволяет проверять более общую гипотезу о сравнении
с эталоном H0 : ρ = 0 против любой из трех альтернатив H 1 :{ ρ< ρ0 ; ρ≠ρ0 ; ρ > ρ0 } .
Достоверность показателя z можно проверить с помощью
t-статистики,
вычисляемой по формуле
t z=z⋅√ n−3 .
(12.12)
Показатель z при недостоверности его на данном уровне значимости позволяет
вычислить необходимый объем выборки для получения заданной точности при
определении эмпирического коэффициента корреляции rух
2
n=
t
+3 ,
2
z
(12.13)
где t - величина нормированного отклонения при заданном уровне значимости α.
Упражнения.
Упражнение 12.1 Пересчитайте коэффициент корреляции в примере 12.1 с учётом
поправки (12.7). Изменился ли вывод о значимости коэффициента корреляции?
Упражнение 12.2 Рассчитайте преобразование Фишера для данных примера 12.1 и
определите значимость связи между признаками с помощью этого преобразования с уровнем
значимости 0.01.
Упражнение 12.3 Измерение длины головы (в мм) и длины грудного плавника (в мм) у
16 окуней дали результаты:
1) длина головы (x): 66 61 67 73 51 59 48 47 58 44 41 54 52 47 51 45 ;
2) длина плавника (y): 38 31 36 43 29 33 28 25 36 26 21 30 20 27 28 26 .
Рассчитайте коэффициент корреляции Пирсона и определите его значимость с уровнем
значимости 0.01 с помощью t-критерия и с помощью F-критерия.
Упражнение 12.4 Рассчитайте преобразование Фишера для данных примера 12.3 и
определите значимость связи между признаками с помощью этого преобразования с уровнем
значимости 0.01.
79
Упражнение 12.5 В приложении 6 имеются данные по тюльке за многолетний период.
Возьмите совместные значения запаса (тыс. т) и уловов (тыс. т) и рассчитайте коэффициент
корреляции Пирсона и определите его значимость с уровнем значимости 0.05 и 0.01 с
помощью t-критерия.
Вопросы для самоконтроля.
• Свойства коэффициента корреляции Пирсона?
• Между какими признаками определяется наличие связи с помощью коэффициента
корреляции Пирсона: количественными или качественными?
• Степени свободы при вычислении коэффициента корреляции Пирсона?
• Формула для расчёта дисперсии ошибки коэффициента корреляции Пирсона?
• Алгоритм определения значимости коэффициента корреляции с помощью
распределения Стьюдента?
• Алгоритм определения значимости коэффициента корреляции с помощью
распределения Фишера?
• Что такое преобразование Фишера применительно к исследуемым признакам?
Рекомендуемая литература: [1], [3], [6], [7], [8], [9]
80
К содержанию
13. РЕГРЕССИЯ
Если корреляционный и дисперсионный анализ дают ответ на вопрос, существует ли
взаимосвязь между переменными, то регрессионный анализ предназначен для того, чтобы
найти «явный вид» этой зависимости .
Цель
регрессионного
анализа
–
найти
функциональную
зависимость
между
переменными. Для этого предполагается, что зависимая переменная (иногда называемая
откликом) определяется известной функцией (иногда говорят – моделью), зависящей от
зависимой переменной или переменных (иногда называемых факторами) и некоторого
параметра. Требуется найти такие значения этого параметра, чтобы полученная зависимость
(модель) наилучшим образом описывала имеющиеся экспериментальные данные. Например, в
простой линейной регрессии предполагается, что зависимая переменная y является линейной
функцией y = a · x + b от независимой переменной x. Требуется найти значения параметров a и
b, при которых прямая a · x + b будет наилучшим образом описывать (аппроксимировать)
экспериментальные точки (x1, y1), (x2, y2), ..., (xn, yn).
Фраза «описывать наилучшим образом» требует пояснений. Мы будем рассматривать
«наилучшим образом в смысле наименьших квадратов», когда для поиска параметров
используют метод наименьших квадратов, то есть ищут такие значения параметров, чтобы
сумма по всем экспериментальным точкам квадратов расстояний от них до построенной
зависимости была минимальной. Есть и другие методы, например, метод наименьших
модулей, в которых используются другие критерии для определения «наилучшей» модели.
Итак, кратко и упрощённо, но достаточно для практического использования,
рассмотрим построение линейного уравнения регрессии методом наименьших квадратов
(МНК).
Линейное уравнение регрессии основано на модели
y=b 0+ b 1⋅x+ ϵ
(13.1)
где b0 и b1 — теоретические, как правило, заранее неизвестные коэффициенты регрессии;
e — отклонения, которые предполагаются независимыми и нормально распределёнными с
математическим ожиданием, равным нулю и среднеквадратическим отклонением σ .
По данным наблюдений строится оценка уравнения регрессии
̂y =b̂0+ b̂1⋅x
(13.2)
где b̂0
и b̂1 — коэффициенты регрессии, определяемые по данным наблюдений при
81
условии, чтобы сумма квадратов невязок e= y− ̂y (принимаем её равной ошибке в (13.1) это упрощение, но пока что нам этого достаточно), подчинялось условию МНК
2
S=min ∑ e
(13.3)
Для независимой нормально распределённой
невязки с нулевым математическим
ожиданием и постоянной дисперсией условие (13.3) выполняется при
σ
b1=r⋅σ y
и
x
(13.4)
b 0= y −b 1⋅x
Из (13.4) следует, что коэффициент регрессии
b̂1
(13.5)
можно вычислить, зная коэффициент
корреляции и средние квадратические отклонения признаков.
Коэффициент линейной регрессии b̂1 определяет линейную связь признаков,
выраженную в виде уравнения прямой
̂y =b̂0+ b̂1⋅x .
Пример 13.1 Определим коэффициенты регрессии для данных примера 12.1, используя
полученные там результаты при вычислении коэффициента корреляции.
σ x=
√
4,4
82,5
178
=3,0 ; σ y =
=4,4 ; b1=0,97⋅ =1,42 ; b0 =18,0+ 5,5⋅1,42=10,2 .
3,0
9
9
√
Искомое уравнение регрессии будет иметь вид:
̂y =10,2+ 1,42⋅x. Повторим рис.12.1 с
полем корреляции (диаграммой рассеивания), дополнив его прямой, соответствующей
полученному уравнению.
Рис.13.1 Исходные данные из примера 12.1 с нанесённой линией регрессии: урожай
микроводоросли (y, г/м2 ) в зависимости от дозы минеральных удобрений (x, г/м2 )
82
На рис. 13.1
показано также уравнение, коэффициенты которого рассчитаны
автоматически при построении графика средствами Gnumeric (не лишне бывает убедиться в
расчётах, выполнив их несколькими способами).
Коэффициент регрессии ( b̂1 ) показывает, на сколько единиц изменится один
признак, при изменении другого на одну единицу измерения.
Вычисления оценок коэффициентов регрессии обычно выполняют не так, как в примере
13.1, а по формулам, обеспечивающим условие минимума суммы квадратов (13.3):
∑ ( x−̄x )⋅( y− ̄y) = n⋅∑ x⋅y −∑ x⋅∑ y
b̂1=
,
2
∑ (x− ̄x )2
n⋅∑ x2 −( ∑ x )
(13.6)
∑ y − b̂ ⋅∑ x .
b̂0 =
1
n
n
Среднеквадратическую
(13.7)
ошибку невязок (или стандартную
ошибку регрессии)
определяем по следующей формуле:
Se=
√ √
∑ e2 = ∑ ( y − ̂y )2
n−2
n−2
.
(13.8)
Стандартная ошибка регрессии (13.8) измеряет степень отличия реальных
значений Y от оцененной величины Ŷ .
Стандартную ошибку регрессии можно вычислить также, используя коэффициент
корреляции:
S e =S y⋅√ 1−r 2 .
(13.8')
Для сравнительно больших выборок можно ожидать, что около 67% невязок
e=( y− ̂y )
по модулю не будут превышать
3 · S e . Другими словами,
Se
S e , около 95% - 2· S e и около 99.6% -
оценивает общее стандартное отклонение нормального
распределения невязок и при большом числе наблюдений (n>30) можно определить, ошибочно
ли значение признака (или вызвать подозрение ошибки) с использованием критерия
∣y − ̂y∣ < k⋅Se ,
(13.9)
где при k = 1, 2 или 3 выполняется известное правило «k сигм» .
При малом числе наблюдений (n< 30) для выявления ошибочных значений признака
используют t-статистику
t=
y− ̂y
,
Se
(13.10)
83
и t-критерий
∣ t ∣ ≥ t  , ,
(13.11)
Другими словами, при n < 30 вместо k в (13.9) следует подставлять t ν , α .
Пример 13.2 Отберём наблюдения, которые с 95%-ной уверенностью можно считать не
ошибочными, отделив те из них, которые можно считать ошибочными с 5%-ной
возможностью сделать неправильный вывод. По таблице П2 определяем значение t8;0,05 = 2,3.
По формуле (13.8) вычисляем среднеквадратическую невязку: S ̂y = 1,2 . Рассчитываем
величину
t 8; 0,05⋅S ̂y =2,3⋅1,2=2,8 и
каждое
значение
y i,
выходящее
за
пределы
ŷ i ±t 9 ; 0,1⋅S ŷ = ŷ i ±2,8 , можно считать ошибочным или, по крайней мере, необходимо
обратить на такое значение признака внимание, более тщательно проанализировать условия, в
которых оно было получено, и, возможно, исключить такое наблюдение из выборки.
Результаты изображены графически на рис.13.2.
Рис.13.2 Исходные данные из примера 12.1 с нанесённой линией регрессии и границами
(пунктирные линии), за пределами которых согласно t-критерию, наблюдения можно считать
ошибочными с 95% уверенностью.
Из рис.13.2 можно заключить, что среди значений признака Y нет таких, относительно
которых можно было предположить, что они ошибочны.
Необходимо различать стандартную ошибку регрессии (13.8) и стандартную ошибку
коэффициентов регрессии. Последние можно вычислить, зная первую, по формулам:
√
S 2e
,
Sb =
∑ (x− x̄ )2
1
(13.12)
84
Sb =
0
√
S 2e⋅∑ x 2
2
n⋅∑ ( x−̄x )
.
(13.13)
Значимость коэффициентов регрессии с заданным уровнем α проверяется с помощью tкритерия. Для этого рассчитывают соответствующую t-статистику
t=
b1
Sb
или t=
1
b0
Sb
(13.14)
0
t  , , выбираемым из таблиц распределения
и сравнивают её с критическим значением
Стьюдента (приложение 2).
В частности, если b0 не значим, а b1 значим, то можно обойтись без b0 , пересчитав заново
значение
b1. В этом случае прямая регрессии будет проходить через начало координат
(через 0).
Пренебрегать
коэффициентом
b0
можно
также,
исходя
из
физического
(биологического) смысла подбираемого уравнения регрессии.
При проверке значимости нельзя забывать об уже известных вам понятиях
«двустороний t-критерий» и «односторонний t-критерий».
Более точные расчёты интервальных значений регрессии связаны с
расчётом
стандарной ошибки для каждого значения xi. Другими словами, необходимо рассчитывать
стандартную ошибку прогноза:
√
2
( x −̄x )
1
S ei = S + S ⋅ ( +
) ,
n ∑ (x− ̄x )2
2
e
2
e
(13.15)
или
√
( x −̄x )2
1
,
S ei =S e⋅ 1+ +
n ∑ (x−̄x )2
(13.16)
Первое слагаемое под радикалом в (13.15) — постоянная величина, яляется
стандартной ошибкой
S e2
и даёт меру отклонения точек данных от выборочной прямой
регрессии (первый источник неопределённости). Второе слагаемое под радикалом в (13.15)
представляет собой переменную долю стандартной ошибки
S e2
и измеряет отклонение
выборочной прямой регрессии от прямой регрессии генеральной совокупности (второй
источник неопределённости).
вычисляется величина
возрастает при удалении
Второе слагаемое зависит от значения xi, по которому
ŷ i . Отметим , что второе слагаемое минимально, когда
x i от ̄x .
x i=x , и
85
Граничными значениями интервала для расчётных (прогностических) значений будут
величины
ŷ i ± t⋅S ei ,
(13.17)
Если выборка велика (n > 30), то можно использовать правило «k сигма». Например, в
интервал
ŷ i ± 2⋅S e i ,
(13.18)
будут попадать приблизительно 95% значений yi выборки.
Пример 13.3 Для данных примера 12.1 рассчитаем границы, в рамках которых
отклонения от линии регрессии не превышают стандартную ошибку оценки
ŷ i .
Результаты расчётов показаны графически на рис.13.3.
Рис.13.3 Исходные данные из примера 12.1 с нанесённой линией регрессии и границами
интервалов, рассчитанными для постоянной стандартной ошибки (13.8)-(13.8') и для
переменной стандартной ошибки (13.15)-(13.16).
На рис.13.13 видно, что, в соответствии с (13.15)-(13.16), по мере удаления от центра
распределения признака
xi
x ), стандартная ошибка оценки
(от оценки мат.ожидания
y i , получаемой по уравнению регрессии, увеличивается.
Иногда уравнение регрессии используется для получения
расположенным за пределами имеющихся значений
используется не для интерполяции, когда
ŷ i по значениям x,
x i , то есть уравнение регрессии
x min≤x i≤x max , а для экстраполяция или прогноза,
когда x min> x i> x max . В таких случаях стандартная ошибка может существенно возрасти. На
рис. 13.14 показаны границы интервала, объясняемого регрессией полученной по данным
примера 12.1, но при этом добавлены прогностические данные признака
ŷ i , полученные
86
при подстановке в уравнение регрессии значений признаков из интервала x ∊ [-4;15] , в том
числе, выходящих за пределы значений, имеющихся в выборке примера 12.1 ( x ∊ [1;10] ).
Рис.13.4 Экстраполяция (прогноз) значений признака по уравнению регрессии, построенному
в примере 13.3.
На рисунке видно, что ошибка за пределами интервала
x ∊ [1;10] начинает быстро
увеличиваться. Вообще говоря, в соответствии с (13.15)-(13.16), стандартная ошибка при
удалении
x от
̄x
увеличивается по параболе, то есть достаточно быстро. Поэтому не
рекомендуется использовать регрессию для экстраполяции (прогноза).
Рассмотрим, далее, следующие понятия, связанные с линейной регрессией: разложение
дисперсии; оценка значимости регрессии по F-критерию; коэффициент детерминации.
Разложение дисперсии.
Уравнение регрессии запишем в виде:
Y
= Ŷ
+
e ,
или
Y
= Ŷ
+
( Y −Ŷ ) ,
или
Y=
(b0 + b1· X)
Наблюдаемое
значение
Объясняемое
линейной
зависимостью
+
(Y — b0 — b1· X)
Остаток от линейной
зависимости
В идеале, когда все точки лежат на прямой регрессии, все остатки равны нулю и
значения Y полностью определяются по линейной функции от X.
87
Отнимая Ȳ от обеих частей предыдущего равенства, получим
Y −Ȳ =(Y −Ŷ )+ ( Ŷ −Ȳ )
Не сложно показать справедливость выражения относительно сумм квадратов
∑ (Y −Ȳ )2=∑ (Ŷ −Ȳ )2+ ∑ (Y −Ŷ )2
(13.19)
или
SST
=
SSR
+
SSE
где SS — Sum of Squars (сумма квадратов);
T — Total (общая);
R — Regression (регрессионная);
E — Error (ошибка).
Суммам квадратов в (13.19) соответствуют следующее соотношение степеней свободы
n-1
=
1
+
(n - 2)
(13.20)
или
df(SST)
= df(SSR) + df(SSE)
Выражение (13.19) представляет собой разложение дисперсии, которое в словесной
форме можно выразить так:
Общая изменчивость=Изменчивость, объясняемая линейной зависимостью+Необъясняемая изменчивость
Суммы квадратов (13.19) и степени свободы (13.20) обычно размещаются в виде
стандартной таблицы, известной как таблица
ANOVA (Analysis of Variance — таблица
анализа дисперсий)
Таблица 13.1 Таблица ANOVA для линейной регрессии
Степени свободы Среднеквадратическое значение
Источник
Сумма квадратов
Регрессия
SSR
1
MSR = SSR/1
Ошибки
SSE
n-2
MSE = SSE/(n-2)
Общая
SST
n-1
MST = SST/(n-1)
Последний столбец таблицы ANOVA
- среднеквадратичные значения (дисперсии),
характеризующие изменчивость за счёт: MSR — регрессии; MSE — ошибок; MST — общей
изменчивости.
Таким образом — таблица ANOVA является таблицей разложения общей дисперсии на
составляющие: дисперсии за счёт регрессии и дисперсии за счёт ошибок. Если внимательно
сопоставить эту таблицу с таблицей однофакторного дисперсионного анализа в разделе 4, то
можно увидеть много общего, поскольку таблица ANOVA как раз и является элементом
анализа, только теперь в рамках регрессионного анализа.
88
Необходимо отметить, что в соответствии c (13.8) величина MSE является стандартной
ошибкой регрессии:
2
SSE ∑ (Y −Ŷ )
2
MSE=
=
=S e .
n−2
n−2
Оценка значимости регрессии по F-критерию.
Проверить значимость уравнения регрессии – значит, установить, соответствует
ли математическая модель, выражающая зависимость между переменными, имеющимся
данным и достаточно ли включённых в уравнение объясняющих переменных для
описания зависимой переменной.
Выше был рассмотрен способ проверки гипотезы о значимости коэффициентов
регрессии с помощью сравнения t-статистики (13.14) с табличным значением распределения
Стьюдента (t-критерий). Ещё один способ проверки гипотезы H0 : β1 = 0 — с помощью
данных таблицы ANOVA.
При предположении, что статистическая модель линейной регрессии правильна и
нулевая гипотеза H0 : β1 = 0 истинна, отношение
F=
Дисперсия за счёт регрессии MSR
=
Дисперсия за счёт ошибок
MSE
(13.21)
имеет F-распределение со степенями свободы df = 1, n-2. Если гипотеза H0 истинна, каждая из
величин MSR и MSE будет равна оценке дисперсии ошибки e в статистической модели
прямолинейной регрессии (оценке σ2). Но, если верна гипотеза H0 : β1 ≠ 0, то числитель в
отношении (13.21) стремится стать большим, чем знаменатель. Большое значение F
согласуется с истинностью альтернативной гипотезы H0 : β1 ≠ 0.
Для модели линейной регрессии проверка гипотезы H0 : β1 = 0 при альтернативе
H0 : β1 ≠ 0 основывается на отношении
F =
MSR
с df = 1, n-2. При уровне значимости
MSE
α область отклонения гипотезы: F > F1, n-2;α .
Коэффициент детерминации.
Как показано выше, в таблице ANOVA (таблица 13.1) показатель SST измеряет общую
изменчивость относительно
Ȳ , а её часть, объяснённая изменением X, соответствует SSR.
Оставшаяся, или необъяснённая вариация, соответствует SSE.
Отношение
объяснённой
детерминации и обозначается R2.
вариации
к
общей
называется
коэффициентом
89
Объяснённая вариация SSR ∑ ( Ŷ −Ȳ )
=
=
,
Общая вариация
SST ∑ (Y −Ȳ )2
2
R 2=
(13.22)
или
2
(Y −Ŷ )
Необъяснённая вариация
SSE
∑
R =1−
=1−
=1−
,
Общая вариация
SST
∑ (Y −Ȳ )2
2
Коэффициент детерминации измеряет долю изменчивости Y,
(13.23)
которую можно
объяснить с помощью информации об изменчивости, содержащейся в независимой
переменной X.
В случае линейной регрессии коэффициент детерминации R2 равен квадрату
коэффициента корреляции r:
Коэффициент детерминации=( Коэффициент корреляции)2 ,
R
2
=
2
(r )
Различие между R2 и r состоит в том, что коэффициент корреляции выявляет не
только силу, но и направление (знак) линейной связи.
Коэффициент детерминации можно также выразить через слагаемые общей дисперсии
в таблице ANOVA, учитывая соотношения, известные из теории вероятностей:
R 2=
σ2Ŷ
σ 2e
=1−
σ2Y
σ 2Y
(13.24)
Значение F-статистики также может быть выражено в терминах коэффициента
детерминации
R 2⋅(n−2)
F=
1−R2
(13.25)
Cледует обратить внимание на следующее: для линейной регрессии проверка гипотезы
с помощью F-критерия может быть заменена проверкой гипотезы с помощью t-критерия,
поскольку справедливо равенство
F1, n−2; α=(t n −2, α )2
(13.26)
При этом следует учесть, что равенство (13,26) справедливо для двустороннего критерия.
В заключение настоящего раздела рассмотрим ещё один пример регрессии с
использованием изложенного выше теоретического материала.
90
Пример 13.4 По данным опроса восьми групп семей в некотором приморском городе
получены следующие данные о влиянии среднемесячных доходов этих семей на
среднемесячные расходы на рыбопродукты:
Таблица 13.2
Доходы семьи, X
(тыс. грн.)
1,2
3,1
5,3
7,4
9,6
11,8
14,5
18,7
Расходы на
рыбопродукты, Y
(тыс. грн)
0,9
1,2
1,8
2,2
2,6
2,9
3,3
3,8
Опрос
проведён
некоторой
крупной
компанией,
планирующей
поставку
рыбопродукции. Требуется составить уравнение регрессии и, если это уравнение будет
значимым, рассчитать возможные (прогностические, прогнозные) оценки расходов семьи на
рыбные продукты при доходе семей, составляющем 110% от среднего уровня. По прогнозу
экспертов
предприятия
именно
эту
часть
семей
можно
считать
покупателями
специализированных фирменных магазинов предприятия. Учитывая большие затраты
кампании из-за ошибки в прогнозе, вероятность такой ошибки должна быть очень малой (или
уверенность в прогнозе должна быть высокой) , конечно, в разумных пределах.
Построим поле корреляции или диаграмму рассеивания
Рис. 13.5 Поле корреляции (диаграмма рассеивания) для данных примера 13.4
По виду поля корреляции можно предположить, что связь между доходами и расходами
на рыбопродукты (далее — расходами) — линейная.
Представим данные из таблицы 13.2 в виде таблицы 13.3 и дополним её столбцами и
расчётами, необходимыми для последующих расчётов.
91
Таблица 13.3
X' =
̄
X- X
Y' =
̄
Y- Y
X'·Y'
X'2
Y'2
Ŷ
e=
Y- Ŷ
0,9
−7,75
−1,44
11,14
60,06
2,07
1,0
−0,13
0,0160
3,1
1,2
−5,85
−1,14
6,65
34,22
1,29
1,3
−0,15
0,0219
3
5,3
1,8
−3,65
−0,54
1,96
13,32
0,29
1,7
0,08
0,0064
4
7,4
2,2
−1,55
−0,14
0,21
2,40
0,02
2,1
0,12
0,0155
5
9,6
2,6
0,65
0,26
0,17
0,42
0,07
2,4
0,15
0,0233
6
11,8
2,9
2,85
0,56
1,60
8,12
0,32
2,8
0,08
0,0065
7
14,5
3,3
5,55
0,96
5,34
30,80
0,93
3,3
0,02
0,0006
8
18,7
3,8
9,75
1,46
14,26
95,06
2,14
4,0
−0,19
0,0349
∑
71,6
18,7
**
Ошибки в
выражени
и **
0
41,34
244,42
7,12
18,7
0
0,1250
Среднее
8,95
2,34
σ
5,91
1,01
σ2
34,92
1,017
X
Y
1
1,2
2
e2
2,34
Рассчитаем коэффициент корреляции r, его стандартную ошибку σr и t-статистику,
используя формулы (12.1)÷(12.4) и определим значимость связи для уровней значимости
α = 0.05 и α = 0.01: r = 0,991; σr = 0,0541; t = 18,32. Соответствующие табличные критические
значения
t ν ;α
равны:
t 6 ; 0,05=2,45 и t 6 ; 0,001=5,96 . Сравнив с ними расчётное значение t-
статистики, делаем вывод: Линейная связь значима и в этом можно быть уверенным с
большой вероятностью p > 99%.
Рассчитаем коэффициенты линейного уравнения парной регрессии
̂y =b 0+ b 1⋅x
. Для
этого воспользуемся формулами (13.6)-(13.7). Получили уравнение для расчёта точечных
оценок признака
̂y :
̂y =0,824+ 0,169⋅x .
(13.27)
Из этого уравнения следует, что при увеличении дохода семьи на 1 тыс. грн. расходы на
рыбопродукты увеличиваются на 169 грн.
Коэффициент детерминации вычисляем по формуле (13.23): R2 = 0,982. Убеждаемся,
что
R2 = r2 (эти величины рассчитаны по различным формулам и такая проверка даёт
уверенность, что пока что в расчётах нет ошибки). По значению коэффициента детерминации
можно судить о том, что исследуемая связь достаточно сильная (хотя в этом мы убедились,
92
убедившись в значимости коэффициента корреляции), а на долю необъясняемой регрессией
изменчивости остаётся лишь 1.8%.
Однако необходимо ещё проверить значимость самого уравнения регрессии по Fкритерию (или значимость коэффициентов регрессии по t-критерию, что равнозначно). Кроме
того, более полную информацию о возможных значениях признаков дают интервальные
регрессионные оценки, которые можно вычислить с использованием F- и (или) t-статистик).
Определим значимость коэффициентов регрессии, рассчитав их стандартные ошибки,
t-статистики и сравнив последние с табличными значениями для уровней значимости α = 0.05
и α = 0.001. Табличные значения в таблице П2 равны:
t 6 ; 0,05=2,45 и
t 6 ; 0,001=5,96 (их мы
уже определяли при оценке значимости коэффициента корреляции). Имеем: Sb1 = 0,00923;
Sb = 0,0971; t
0
b1
= 18,32; t
b0
= 8,48. Оба коэффициента регрессии значимы и в этом можно
быть уверенным с большой вероятностью p > 99%. Обратите внимание: t-статистика для
коэффициента регрессии b1 в точности равна t-статистике для коэффициента корреляции r, так
что можно обойтись одной из этих проверок.
И всё-таки мы ещё не всё возможное сделали при проверке значимости с помощью
t - критерия. Вспоминаем про понятия односторонний и двусторонний t-критерии. В случае с
данным примером трудно представить, что в связи с увеличением дохода семью будет меньше
потребляться такой продукции, как
рыбная. Об устойчивой положительной связи между
признаками можно судить и по коэффициенту корреляции. Поэтому вполне понятно, что
следует использовать более сильный критерий, односторонний, вместо двустороннего, как это
было сделано выше. При этом нулевая гипотеза формулируется так:
H0 : β1 = 0, при
альтернативе H0 : β1 > 0.
Двусторонний t-критерий можно вычислить с помощью таблицы П2 в приложении 2.
Однако лучше это сделать, впрочем, как и двусторонний
с помощью функции tinv()
электронных таблиц (англоязычная версия). Определим значимость коэффициентов регрессии
с использованием той же t-статистики, но теперь сравним последние с табличными
значениями для уровней значимости α/2 = 0.025 и α/2 = 0.0005. Табличные значения равны:
t 6 ; 0,025=2,97 и
t 6 ; 0,0005=6,79 . Нулевая гипотеза отвергается и мы ещё раз убеждаемся, что
наше уравнение значимо, но теперь это можно утверждать с ещё большей уверенностью,
поскольку теперь вероятность принять правильное решение составляет (1-α) = 99.9% (это
важно при таком малом количестве признаков, n = 8).
93
Используя полученные выше значения стандартных ошибок коэффициентов регрессии
и табличное значение t-распределения для α/2=0,025 (для одностороннего критерия),
определим доверительные интервалы для коэффициентов регрессии:
оценки:
b0
-
0
1
Получаем
интервальные
для b1 —
0,169±2,97⋅0,00923=0,169±0,027 . В результате имеем уравнение для расчёта
интервальных оценок признака
для
b0 ±t⋅S b и b1±t⋅S b .
0,824±2,97⋅0,0971=0,824±0,288 ;
̂y с вероятностью того, что в рассчитываемый по этому
уравнению интервал попадёт не менее 95% значений признака y из генеральной совокупности:
̂y =(0,824±0,288)+ (0,169±0,027)⋅x .
Найдём требуемое прогнозируемое значение признака
xpr, составляющего 110% от среднего значения
ŷpr
(13.28)
, при значении признака
̄x , то есть найдём расходы на рыбные
продукты, если доходы семьи составляют x pr =1,1⋅̄x =1,1⋅8,95=9,845≈9,84
Точечное
прогнозируемое
значение
по
уравнению
тыс. грн.
(13.27)
будет
равно
y pr=0,824+ 0,169⋅9,84=2,49 тыс. грн.
Рассчитываем стандартную ошибку прогнозируемого значения по уравнению (13.15) или
(13.16):
S e = 0,153 и доверительный интервал
i
Интервальные оценки с вероятностью попадания прогнозируемого значения в интервал 95%
равны:
(2,49−2,97⋅0,153)< ŷe < (2,49+ 2,97⋅0,153) или 2,060< ŷe < 2,944
i
i
На рис. 13.6 представлены полученные результаты в графическом виде.
Рис. 13.6 Результаты из примера 13.4 в графическом виде
94
На этом можно было бы считать задачу примера законченной. Но повторим расчёт
значимости уравнения и расчёт интервальных оценок с помощью результатов, помещаемых в
таблицу ANOVA. При этом следует знать, что в случае парной линейной регрессии полученные
выше результаты с помощью t-статистик полностью будут равны результатам, получаемым с
помощью F-статистик таблицы ANOVA. Однако таблица ANOVA и F-статистики приобретают
самостоятельное значение
в случае множественной регрессии, которую мы пока что не
рассматриваем, но предстоит изучать на следующем курсе. Поэтому есть смысл научиться
работать с ANOVA и F-критерием.
Рассчитаем ANOVA, используя помещённый выше материал, но не вручную, а с
использованием
Gnumeric.
(меню:
Статистика-Зависимые_наблюдения-Регрессия-
Несколько_линейных_регрессий).
Таблица 13.3 Таблица ANOVA для примера 13.4
Табличное значение (df1=1; df2=6; α=0,05) определим с помощью таблицы П3.1
приложения 3: F1,6;0,05 = 5,99. Но лучше это сделать с помощью функции
электронных
таблиц: «=finv(0,05;1;6)». Так, как 335,7 > 5,99, то наше уравнение регрессии можно признать
значимым
с
вероятностью
95%,
отбросив
нулевую
гипотезу
H0 : β1 = 0,
приняв
альтернативную гипотезу H0 : β1 ≠ 0.Следует заметить, что в ANOVA электронных таблиц
рассчитывается обычно ещё одна величина, так называемое P-значение — вероятность
допустить ошибку, отбросив нулевую гипотезу H0 : β1 = 0. В таблице 13.3 - это «Значимость
F» в последнем столбце, равная 0,0000017 (или 0,00017%). Это значение показывает, что такая
вероятность очень мала, и, наоборот, вероятность правильности того, что мы приняли
альтернативную гипотезу высока: 100-0,00017%=99,99983%. Заметим, что наш F-критерий —
двусторонний. Впрочем, этот F-критерий равнозначен нашему двустороннему t-критерию,
который мы использовали выше (вспомним, F df, df;α =( tν, α)2). В нашем случае t6;0,05 = 18,32 и
335,7 ≈ (18,32)2.
Упражнения.
Упражнение 13.1 Возьмите данные примера 12.1. Составьте уравнение регрессии по
этим данным и его значимость для α = 0,01, но при расчёте коэффициентов регрессии
используйте формулы (13.6)-(13.7), а не (13.4)-(13.5). Сопоставьте полученные коэффициенты
95
регрессии с коэффициентами примера 13.1. Коэффициенты должны совпадать. Запишите
вывод о значимости (не значимости) уравнения регрессии.
Упражнение 13.2 Возьмите данные из примера (12.3). Составьте линейное уравнение
регрессии по этим данным и проверьте данные на ошибочность с использованием t-критерия
для α = 0,01.
Упражнение 13.3 Возьмите данные из примера (12.3). Составьте линейное уравнение
регрессии по этим данным и его значимость с использованием t-критерия
при уровнях
значимости α = 0,05 и α = 0,01. Запишите вывод о значимости (или не значимости) уравнения
регрессии.
Упражнение 13.4 Возьмите данные из примера (12.3). Составьте линейное уравнение
регрессии по этим данным и его значимость с использованием F-критерия
при уровнях
значимости α = 0,05 и α = 0,01. Запишите вывод о значимости (или не значимости) уравнения
регрессии.
Упражнение 13.5 Измерение длины головы (в мм) и длины грудного плавника (в мм) у
16 окуней дали результаты:
3) длина головы (x): 66 61 67 73 51 59 48 47 58 44 41 54 52 47 51 45 ;
4) длина плавника (y): 38 31 36 43 29 33 28 25 36 26 21 30 20 27 28 26 .
Рассчитайте интервальное уравнение регрессии для этих данных при
уровне
значимости коэффициентов регрессии α = 0,05.
Упражнение 13.6 Используя данные упражнения 13.5, составьте линейное уравнение
регрессии, рассчитайте интервальные оценки каждого признака yi по формулам (13.15) или
(13.16) и представьте результаты расчётов в табличном и графическом виде (пример графиков
смотрите на рис. 13.3).
Упражнение 13.7 Используя данные упражнения 13.5, составьте линейное уравнение
регрессии, рассчитайте коэффициент детерминации, таблицу ANOVA и определите
значимость (или незначимость) уравнения с помощью F-критерия при уровне значимости
α = 0,05 и α = 0,01.
Упражнение 13.8 В приложении 6 имеются данные по тюльке за многолетний период.
Возьмите совместные значения запаса (тыс. т) в качестве x и уловов (тыс. т) в качестве y,
составьте линейное уравнение регрессии, рассчитайте коэффициент детерминации, и
определите
значимость коэффициентов регрессии с помощью t-критерия при уровне
значимости 0.05 и 0.01.
96
Упражнение 13.9 В приложении 6 имеются данные по тюльке за многолетний период.
Возьмите совместные значения запаса (тыс. т) в качестве x и уловов (тыс. т) в качестве y,
составьте линейное уравнение регрессии, рассчитайте коэффициент детерминации, таблицу
ANOVA и определите значимость (или незначимость) уравнения с помощью F-критерия при
уровне значимости α = 0,05 и α = 0,01.
Вопросы для самоконтроля.
• Какие задачи помогает решить регрессионный анализ?
• Виды регрессионной зависимости?
• Линейная регрессия?
• Стандартные ошибки регрессионной зависимости?
• Условия, которым должно подчиняться распределение невязок регрессии?
• Стандартные ошибки коэффициентов линейной регрессии?
• Интерполяция и экстраполяция (прогноз) с использованием уравнения регрессии?
• Коэффициент детерминации?
• Дисперсионный анализ линейной регрессии?
• Значимость коэффициентов линейной регрессии?
• Как выбирается уровень значимости для проверки гипотез о коэффициенте регрессии?
• Как рассчитывается число степеней свободы при проверке значимости коэффициента
регрессии?
• Какие преобразования уравнения регрессии можно сделать при незначимости
свободного члена?
• Коэффициент детерминации?
• Таблица ANOVA для линейной регрессии?
• Составляющие коэффициента детерминации?
Рекомендуемая литература: [1], [3], [6], [7], [8], [9]
97
К содержанию
14. РЕКОМЕНДАЦИИ ПО ВЫПОЛНЕНИЮ РАСЧЁТОВ
При разборе примеров, приведённых в данном конспекте, студенты должны выполнять
расчёты. Естественно, что расчёты нужно уметь выполнять достаточно быстро и для этого
нужен соответствующий инструментарий. Универсальным инструментом для выполнения
статистических расчётов являются электронные таблицы. Умелое использование электронных
таблиц при условии освоения основ теории вероятностей и математической статистики
позволяет обойтись без дорогостоящих специализированных пакетов.
При этом необходимо знать, что часто используемые электронные таблицы Microsoft
Excel являются закрытыми и платными (говорят - проприетарными), поскольку входят в
состав платного пакета Microsoft Office стоимостью от $500. Конечно, можно использовать,
нелицензионные программы, однако будущие инженеры
должны знать о моральной и
уголовной ответственности за нарушение авторских прав.
Впрочем, оказывается, что тратить средства или использовать нелицензионное ПО не
нужно, так как помимо проприетарных MS Excell существует немало подобных программ,
которые распространяются как "свободное программное обеспечение", чаще всего бесплатно,
на условиях лицензии GNU GPL (GNU General Public License (Универсальная общественная
лицензия GNU, Универсальная общедоступная лицензия GNU или Открытое лицензионное
соглашение GNU). GNU GPL - лицензия на свободное программное обеспечение, созданная
ещё в 1988 году!
Для выполнения статистических расчётов рекомендуется использовать свободно
распространяемые бесплатные электронные таблицы Openoffice.org Calc (с 2010 года LibreOffice.org Calc) и Gnumeric.
Имеются версии Calc, работающие в Linux и в Windows. Calc загружается в составе
пакета Openoffice.org (LibreOffice.org). В настоящее время (июнь 2011 года) доступна версия
3.4. Имеется также локализованная под русскоязычного пользователя версия OpenOffice 3.2.1
pro
компании
«Инфра-Ресурс»,
которую
можно
загрузить
по
адресу:
http://ru.openoffice.org/about-downloads.html. Пакет LibreOffice.org можно загрузить по адресу:
http://www.libreoffice.org/download. Размер файла для скачивания около 157 MB. При
установке требуется около 200 MB на жёстком диске. Для выполнения работы достаточно
стандартной установки с выбором русского или украинского языка.
Для освоения работы с электронными таблицами Calc рекомендуется использовать
руководство http://linux.armd.ru/common/img/uploaded/files/Calc.pdf .
98
Пакет Gnumeric является наиболее «лёгким» и быстро работающим вариантом
электронных
таблиц.
Gnumeric
имеется
и
для
Linux
и
для
Windows
http://projects.gnome.org/gnumeric/downloads.shtml. Для Linux на настоящее время (декабрь
2011 года) доступна версия 2.12.0, а для Windows – 1.10.11. Размер файла для скачивания
около 18 MB. При установке требуется около 200 MB на жёстком диске. Достаточно
стандартной установки с выбором одной лишь опции перевода (Translate) на нужный язык (ru
-русский, uk – украинский и т.д.).
Для освоения работы с электронными таблицами Gnumeric рекомендуется учебник на
русском языке, который создаёт И.А.Хахаев (http://www.altlinux.org/Books:Gnumeric ).
Для тех, кто предпочитает работать с MS Excell, рекомендуется воспользоваться
пособием [5], в котором подробно описано использование статистических функций
применительно к примерам, похожим на рассматриваемые в настоящем конспекте лекций.
Упражнения.
Упражнение 14.1 В приложении 5 имеются данные по тюльке за многолетний период.
Возьмите совместные значения запаса (тыс. т) в качестве x и уловов (тыс. т) в качестве y и
постройте корреляционное поле (диаграмму рассеивания) с использованием электронных
таблиц MS Excell.
Упражнение 14.2 В приложении 5 имеются данные по тюльке за многолетний период.
Возьмите совместные значения запаса (тыс. т) в качестве x и уловов (тыс. т) в качестве y и
постройте корреляционное поле (диаграмму рассеивания) с использованием электронных
таблиц Openoffice.org Calc (или Libreoffice.org Calc).
Упражнение 14.3 В приложении 5 имеются данные по тюльке за многолетний период.
Возьмите совместные значения запаса (тыс. т) в качестве x и уловов (тыс. т) в качестве y и
постройте корреляционное поле (диаграмму рассеивания) с использованием электронных
таблиц Gnumeric.
Вопросы для самоконтроля.
1. Что такое GNU GPL?
2. Что означают термины «свободное ПО» и «проприетарное ПО»?
3. К какому — к сободному или к проприетарному, относятся электронные таблицы
Microsoft Excell ?
4. К какому — к сободному или к проприетарному, относятся электронные таблицы
Openoffice.org Calc (Libreoffice.org Calc)?
5. К какому — к сободному или к проприетарному, относятся электронные таблицы
Gnumeric?
Рекомендуемая литература: [5], [15], [16]
99
К содержанию
СПИСОК ЛИТЕРАТУРЫ И ИНТЕРНЕТ-ИСТОЧНИКОВ
1. Гмурман В.Е. Теория вероятностей и математическая статистика/ Учебное пособие
для втузов. - М.: Высшая Школа,1997. - 497с.
2. Гмурман В.Е. Руководство к решению
задач
по теории вероятностей и
математической статистике/ Учебное пособие для втузов. Изд. 2-е, доп. М., «Высш. Школа»,
1975, 333 с.
3. Зайцев Г.Н. Математика в экспериментальной ботанике. - Москва. 1990. - 296 с.
4. Любищев А.А. Дисперсионный анализ в биологии. - М.: Изд-во МГУ, 1986. - 200 с.
5. Макарова Н.В. Статистика в Excell/ Н.В.Макарова, В.Я. Трофимец - М. 2002. - 367 с.
6. Малков П.Ю. Количественный анализ биологических данных/ Горно-Алтайск. 2005. 72 с.
7. Мятлев В.Д. Основы математической статистики. Пособие по курсу
«Математические методы в биологии: Основы математической статистики»/
В.Д.Мятлев,
Л.А.Панченко,
А.Т.Терёхин.
М.,
«МАКС
Пресс»,
2002,
(http://www.sevin.ru/fundecology/literature/uchpos.html )
8. Рокицкий П.Ф. Биологическая статистика/ Изд. 3-е, испр., Минск, «Вышэйш.
Школа», 1973, 320 с.
9. Шмидт В.М. Математические методы в ботанике/ Ленинград. - 1984. - 288 с.
10. Моделирование
нормально
[электронный
распределённых
случайных
величин
ресурс],
/
адрес:
http://www.intuit.ru/department/calculate/intromathmodel/8/3.htm
11. О выборочном методе, выборке, генеральной совокупности, гистограмме /
[электронный ресурс], адрес:
http://apollyon1986.narod.ru/docs/TViMS/NP/lekziitv/lekziya12.htm#3.2
12. О критерии согласия Пирсона с возможностью использования веб-
страницы (на языке Javascript) для его расчёта /[электронный ресурс], адрес:
http://www.psychol-ok.ru/statistics/pearson/
13. Правила проверки согласия опытного распределения с теоретическим /
[электронный ресурс], адрес: http://www.ami.nstu.ru/~headrd/seminar/xi_square/start1.htm
14. Курс лекций за первый семестр по теор.вер и мат.статистике /
[электронный ресурс], адрес: http://works.tarefer.ru/75/100101/index.html#_Toc10437102
100
15. Руководство по работе с электронными таблицами Openoffice.org
Calc / [электронный ресурс], адрес:
http://linux.armd.ru/common/img/uploaded/files/Calc.pdf
16. Руководство по работе с электронными таблицами Gnumeric
[электронный ресурс], адрес: http://www.altlinux.org/Books:Gnumeric
101
Приложение 1. Стандартное нормальное распределение
Таблица П1. Площадь областей под кривой стандартного нормального распределения
102
Приложение 2. Критические значения распределения Стьюдента
Таблица П2. Критические значения распределения Стьюдента
B0=0,90
B1=0,95
B2=0,99
B3=0,999
ν
1
2
3
4
5
6
7
8
9
10
11
12
13
14-15
16-17
18-20
21-24
25-28
29-30
31-34
35-42
43-62
63-175
176-∞
6,3
2,9
2,4
2,1
2,0
1,3
1,9
1,9
1,8
1,8
1,8
1,8
1,8
1,8
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,6
1,6
12,7
4,3
3,2
2,8
2,6
2,4
2,4
2,3
2,3
2,2
2,2
2,2
2,2
2,1
2,1
2,1
2,1
2,1
2,0
2,0
2,0
2,0
2,0
2,0
63,7
9,9
5,8
4,6
4,0
3,7
3,5
3,4
3,3
3,2
3,1
3,1
3,0
3,0
2,9
2,9
2,8
2,8
2,8
2,7
2,7
2,7
2,6
2,6
637,0
31,6
12,9
8,6
6,9
6,0
5,3
5,0
4,8
4,6
4,4
4,2
4,1
4,1
4,0
3,9
3,8
3,7
3,7
3,7
3,6
3,5
3,4
3,3
Стьюдент (Student) –псевдоним английского ученого Вильяма Госсета (1876–1937),
которым он подписывал свои работы по статистике.
современных
статистических
методов,
вывел
Госсет стал пионером развития
статистику
используемую в критериях различия средних для малых выборок.
t
(t–Стьюдента),
широко
103
Приложение 3. Критические значения F-распределения
Таблица П.3.1 Критические значения F-распределения (α = 0,05)
104
Продолжение приложения 3
Таблица П.3.2 Критические значения F-распределения (α = 0,01)
105
Приложение 4
Таблица П4. Критические точки распределения χ2 (хи-квадрат)
106
Приложение 5
Таблица П5 Критические значения коэффициента корреляции Пирсона (для различных
уровней значимости и различного числа степеней свободы (размеров выборки)).
Источник: Fisher R.A., Frank Y. Statistical Tables for Biological, Agricultural and Medical Research, 6th ed., published by
Longman Group, Ltd., London (previously published by Oliver and Boyd, Edinburgh), Table VII.
Взято с сайта по адресу:
http://www.dpva.info/Guide/GuideMathematics/TheTheoryOfProbabilityAndStatistics/PirsonVsSignificance/
Уровень значимости для двустороннего критерия
df=
0,05
0,25
0,01
0,005
(N-2)
Уровень значимости для
одностороннего критерия
Уровень значимости для двустороннего критерия
0,0005
0,1
0,05
0,02
0,01
0,001
1
2
3
4
5
0,98769
0,90000
0,8054
0,7293
0,6694
0,99692
0,95000
0,8783
0,8114
0,7545
0,9995
0,980
0,934
0,882
0,833
0,999877
0,990000
0,95873
0,91720
0,8745
6
7
8
9
10
0,6215
0,5822
0,5494
0,5214
0,4973
0,7067
0,6664
0,6319
0,6021
0,5760
0,789
0,750
0,715
0,685
0,658
0,8343
0,7977
0,7646
0,7348
0,7079
0,999998
8
0,99900
0,99116
0,97406
0,95074
0,92493
0,8982
0,8721
0,8471
0,8233
11
12
13
14
15
0,4762
0,4575
0,4409
0,4259
0,4124
0,5529
0,5324
0,5139
0,4973
0,4821
0,634
0,612
0,592
0,574
0,558
0,6835
0,6614
0,6411
0,6226
0,6055
16
17
18
19
20
0,4000
0,3887
0,3783
0,3687
0,3598
0,4683
0,4555
0,4438
0,4329
0,4227
0,542
0,529
0,515
0,503
0,492
0,5897
0,5751
0,5614
0,5487
0,5368
df=
0,05
0,25
0,01
0,005 0,0005
(N-2)
Уровень значимости для одностороннего критерия
0,1
0,05
0,02
0,01
0,001
21
22
23
24
0,352
0,344
0,337
0,330
0,413
0,404
0,396
0,388
0,482
0,472
0,462
0,453
0,526
0,515
0,505
0,496
0,640
0,629
0,618
0,607
25
30
35
40
45
0,3233
0,2960
0,2746
0,2573
0,2428
0,3809
0,3494
0,3246
0,3044
0,2875
0,482
0,4487
0,4182
0,3932
0,3721
0,4869
0,4487
0,4182
0,3932
0,3721
0,5974
0,5541
0,5189
0,4896
0,4648
0,8010
0,7800
0,7603
0,7420
0,7246
50
60
70
80
90
100
0,2306
0,2108
0,1954
0,1829
0,1726
0,1638
0,2732
0,2500
0,2319
0,2172
0,2050
0,1946
0,3541
0,3248
0,3017
0,2830
0,2673
0,2540
0,3541
0,3248
0,3017
0,2830
0,2673
0,2540
0,4433
0,4078
0,3799
0,3568
0,3375
0,3211
0,7084
0,6932
0,6787
0,6652
0,6524
120
∞
0,1500 0,1780 0,2100 0,2100 0,2940
0,0730 0,0870 0,1030 0,1030 0,1460
Инструкция для поиска вероятности ошибки (p) для вычисленного коэффициента.
1. Решите, какой критерий вы будете использовать – односторонний или двухсторонний. Односторонний
(one-tailed) если Вы имеете априорную гипотезу о направлении корреляции . Двусторонний (two-tailed)
если вы не имеете гипотезы о направлении корреляции. Чаще всего нас интересует значимость
корреляции без учёта знака, поэтому в таблице смотрим Two-tailed.
2. Рассчитайте df (степени свободы) по формуле N – 2, где N – размер выборки.
3.
4.
5.
Найдите в таблице строчку с соответствующим либо наиболее близким df .
В найденной строке найдите значение коэффициента корреляции большее либо равное тому, которое Вы
рассчитали. Таким образом, определите необходимый столбец.
Значение в заглавии столбца (0,1; 0,05; 0,02; 0,01; 0,001) будет вероятностью ошибки.
107
Приложение 6 Многолетние ряды наблюдений по азовской тюльке
Таблица П6. Численность тюльки (в том числе по поколениям), биомасса и уловы
(данные из: Луц Г.И. Экология и промысел азовской тюльки. Рекомендации. Азовский НИИРХ.
Ростов-на-Дону, 1986, 88 с.)
108
©Полупанов Владимир Николаевич
Конспект лекций по дисциплине «Статистические методы обработки и анализа данных». Для
студентов направления 6.090201 «Водные биоресурсы и аквакультура» специальности
«Водные биоресурсы» дневной и заочной форм обучения.
Тираж ___ экз. Подписано к печати ____________
Заказ № ________. Объём 3.8 п.л.
Изд-во «КГМТУ»
98309 г.Керчь, Орджоникидзе, 82.
Скачать