åÄíÖåÄíàóÖëäàÖ åÖíéÑõ Ç ÅàéãéÉàà: ÄçÄãàá ÅàéãéÉàóÖëäàï ÑÄççõï STATISTICA

реклама
êéëëàâëäÄü îÖÑÖêÄñàü
åàçàëíÖêëíÇé éÅêÄáéÇÄçàü à çÄìäà
îÉÅéì Çèé íûåÖçëäàâ
ÉéëìÑÄêëíÇÖççõâ ìçàÇÖêëàíÖí
àçëíàíìí ÅàéãéÉàà
ë. ç. ÉÄòÖÇ, î. ï. ÅÖíãüÖÇÄ,
å. û. ãìèàçéë
åÄíÖåÄíàóÖëäàÖ åÖíéÑõ
Ç ÅàéãéÉàà: ÄçÄãàá
ÅàéãéÉàóÖëäàï ÑÄççõï
Ç ëàëíÖåÖ STATISTICA
ì˜Â·ÌÓ ÔÓÒÓ·ËÂ
ÑÓÔÛ˘ÂÌÓ ì˜Â·ÌÓ-ÏÂÚӉ˘ÂÒÍËÏ Ó·˙‰ËÌÂÌËÂÏ
ÔÓ Í·ÒÒ˘ÂÒÍÓÏÛ ÛÌË‚ÂðÒËÚÂÚÒÍÓÏÛ Ó·ð‡ÁÓ‚‡Ì˲
‚ ͇˜ÂÒڂ ۘ·ÌÓ„Ó ÔÓÒÓ·Ëfl ‰Îfl ÒÚÛ‰ÂÌÚÓ‚ ‚˚Ò¯Ëı
ۘ·Ì˚ı Á‡‚‰ÂÌËÈ, Ó·Û˜‡˛˘ËıÒfl ÔÓ Ì‡Ôð‡‚ÎÂÌ˲
020200 (020400) «ÅËÓÎÓ„Ëfl» Ë ÒÔˆˇθÌÓÒÚË
020501 «ÅËÓËÌÊÂÌÂðËfl Ë ·ËÓËÌÙÓðχÚË͇»
í˛ÏÂ̸
àÁ‰‡ÚÂθÒÚ‚Ó
í˛ÏÂÌÒÍÓ„Ó „ÓÒÛ‰‡ðÒÚ‚ÂÌÌÓ„Ó ÛÌË‚ÂðÒËÚÂÚ‡
2014
УДК 57.087.1:004.9(075.8)
ББК Е0с51я73
Г248
С. Н. Гашев, Ф. Х. Бетляева, М. Ю. Лупинос. МАТЕМАТИЧЕСКИЕ МЕТОДЫ В БИОЛОГИИ: АНАЛИЗ БИОЛОГИЧЕСКИХ ДАННЫХ В СИСТЕМЕ STATISTICA: учебное пособие. Тюмень: Издательство
Тюменского государственного университета, 2014. 208 с.
Изложены методы анализа биологических данных на основе программы STATISTICA. Рассмотрены основные статистические понятия, одномерные и многомерные статистические методы, углубленные методы анализа, временные ряды и прогнозирование. Наглядные примеры, доступная
форма изложения позволяют приобрести навыки самостоятельной постановки задач для контекстно-значимого массива данных, отбора метода
анализа и интерпретации полученных результатов.
Предназначено для студентов направлений 020200 (020400) «Биология» и специальности 020501 «Биоинженерия и биоинформатика», аспирантов, научных работников, специалистов, занимающихся статистической обработкой данных и использующих современные компьютерные
технологии.
Работа выполнена в рамках базовой части государственного задания
Министерства образования и науки РФ № 01201460003 (№ 2-14 ТюмГУ).
Рецензенты: Г. П. Селюкова, кандидат биологических наук, зав. кафедрой
экономико-математических методов и вычислительной техники Государственного аграрного университета Северного
Зауралья
А. В. Белкин, кандидат биологических наук, доцент кафедры
анатомии и физиологии человека и животных Института
биологии Тюменского государственного университета
ISBN 978-5-400-01048-4
© ФГБОУ ВПО Тюменский государственный университет, 2014
© С. Н. Гашев, Ф. Х. Бетляева, М. Ю. Лупинос, 2014
—2—
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ........................................................................................................5
1. ТОЧЕЧНЫЕ И ИНТЕРВАЛЬНЫЕ ОЦЕНКИ ПАРАМЕТРОВ.................8
1.1. Точечные оценки параметров............................................................12
1.2. Робастная оценка в программе STATISTICA ..................................18
1.3. Интервальные оценки параметров ....................................................23
Задания для самостоятельной работы......................................................30
Контрольные вопросы...............................................................................31
2. ПАРАМЕТРИЧЕСКИЕ И НЕПАРАМЕТРИЧЕСКИЕ
КРИТЕРИИ СРАВНЕНИЯ .............................................................................32
2.1. Проверка нормальности эмпирического распределения ................32
2.2. Параметрические критерии сравнения средних ..............................45
2.3. Непараметрические критерии сравнения средних...........................58
2.3.1. Сравнение независимых выборок.............................................59
2.3.2. Сравнение зависимых групп .....................................................64
2.3.3. Сравнение номинальных (категориальных) переменных ......66
Задания для самостоятельной работы......................................................68
Контрольные вопросы...............................................................................69
3. ДИСПЕРСИОННЫЙ АНАЛИЗ ФАКТОРНЫХ ЭФФЕКТОВ ................70
3.1. Параметрические методы оценки факторных эффектов.................70
3.2. Непараметрические методы оценки факторных эффектов.............87
Задания для самостоятельной работы......................................................93
Контрольные вопросы...............................................................................94
4. МЕТОДЫ АНАЛИЗА ВЫЖИВАЕМОСТИ .............................................95
4.1. Описательные методы исследования цензурированных данных
(таблицы времен жизни и распределения) ..............................................96
4.2. Метод множительных оценок Каплана–Мейера............................102
4.3. Сравнение выживаемости в группах...............................................104
Задания для самостоятельной работы....................................................111
Контрольные вопросы.............................................................................111
—3—
5. МЕТОДЫ ОЦЕНКИ СВЯЗИ МЕЖДУ ПРИЗНАКАМИ .......................112
5.1. Параметрические показатели связи ................................................112
5.2. Факторный анализ ............................................................................117
5.3. Регрессионный анализ......................................................................125
5.4. Непараметрические показатели связи ............................................131
5.5. Оценка связи между номинальными величинами .........................136
Задания для самостоятельной работы....................................................146
Контрольные вопросы.............................................................................147
6. АНАЛИЗ ВРЕМЕННЫХ РЯДОВ И ПРОГНОЗИРОВАНИЕ................148
6.1. Модель авторегрессии и проинтегрированного
скользящего среднего..............................................................................149
6.2. Сезонная декомпозиция ...................................................................164
Задания для самостоятельной работы....................................................168
Контрольные вопросы.............................................................................169
7. МЕТОДЫ КЛАССИФИКАЦИОННОГО АНАЛИЗА ............................170
7.1. Кластерный анализ ...........................................................................170
7.2. Дискриминантный анализ................................................................177
Задания для самостоятельной работы....................................................186
Контрольные вопросы.............................................................................189
ЗАКЛЮЧЕНИЕ .............................................................................................190
ПЕРЕЧЕНЬ МАТЕМАТИКО-СТАТИСТИЧЕСКИХ ТАБЛИЦ................191
СЛОВАРЬ ТЕРМИНОВ................................................................................194
СПИСОК ЛИТЕРАТУРЫ.............................................................................200
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ.....................................................................201
—4—
ВВЕДЕНИЕ
В современном информационно-организованном мире биологу,
так же как и специалистам других направлений, невозможно обойтись без всестороннего анализа данных. Эта работа обеспечивается
знанием статистических закономерностей и методов анализа. Использование компьютерных программ анализа данных повышает
эффективность этой работы.
Исходные данные для статистического анализа в биологии получают в результате проведения лабораторных и полевых исследований, в ходе которых регистрируются значения одной или нескольких переменных (признаков). В статистическом анализе
различают следующие типы шкал измерения переменных: номинальные (каждое значение определяет одну категорию, отличие
категорий не может быть оценено количественно); порядковые
(шкалы ранжирования значений переменных); интервальные (шкалы упорядочивания наблюдений и оценки расстояния между ними); относительные (шкалы, имеющие определенную точку абсолютного нуля). Между свойствами интервальных и относительных
шкал в статистическом анализе частот не делают различия. Соответственно шкалам выделяют типы переменных: номинальные, порядковые, интервальные, относительные [2], [11], [21].
К номинальным и ранговым (порядковым) переменным применимы лишь некоторые разделы математической статистики, например категориальный анализ, методы сравнения частот. Если
номинальные значения предварительно заменены на числа, обозначающие коды, номинальные и порядковые переменные могут быть
обработаны как количественные переменные. Значения количественных переменных являются числовыми. На обработку количественных переменных ориентировано большинство методов компьютерной программы STATISTICA [6], [16], [18], [20].
Реализованные в STATISTICA (advanced) методы анализа разделены на группы: основные статистики/таблицы, множественная
регрессия, дисперсионный анализ, непараметрические данные, настройка распределения, дополнительные линейные/нелинейные мо—5—
дели, многомерные исследовательские методы, анализ мощности,
информационная проходка, статистика данных блока, STATISTICA
Visual Basic, подсчет вероятности [3], [5], [21].
В первом разделе пособия рассмотрены современные подходы
для проведения описания статистических совокупностей. Большинство методов основной статистики относятся к методам параметрической статистики, основывающимся на предположении, что
распределение выборок соответствует нормальному типу.
Перед применением параметрических критериев проводится
проверка выборочных распределений на нормальность на основе
совокупности критериев. Применение параметрических и непараметрических методов изложено во втором разделе. Непараметрические методы — методы вычисления основных статистических показателей, характеризующих малые выборки, распределение
которых не соответствует нормальному типу. Базируются эти методы, как правило, только на предположениях о независимости наблюдений, случайном характере исходных данных, о непрерывности генеральной совокупности, из которой они извлечены.
В параметрических ситуациях (когда выполняются условия
применения параметрических методов) непараметрические процедуры обычно обладают меньшей точностью по выявлению различий, чем их параметрические аналоги, но они более объективны в
ситуациях, когда параметрические процедуры неприменимы: для
номинальных или ранговых переменных, для выборок с произвольным распределением или малочисленных выборок.
В третьем разделе рассмотрено применение параметрических и
непараметрических методов оценки разности при одновременном
сравнении нескольких групп, изложена методика сравнения групп
с повторными измерениями признака.
В четвертом разделе описана техника работы с цензурированными данными, приведены методы анализа цензурированных данных на основе построения таблиц времен жизни и распределений,
множительных оценок Каплана-Мейера, сравнения выживаемости
в группах и их соответствие теоретическим функциям времен
жизни.
—6—
В пятом разделе рассмотрены применение параметрических и
непараметрических показателей связи, техника проведения факторного и регрессионного анализа; изложены возможности факторного
анализа для определения структуры взаимосвязи между признаками
регрессионного анализа для проведения прогноза изменения переменных величин.
В шестом разделе на основе биологических данных описаны
методы анализа структуры временных рядов, проведение прогноза
изменения временных рядов.
В седьмом разделе приведены методы классификационного
анализа: кластеризация — разделение биологических объектов на
однородные группы или кластеры; дифференциация биологических
объектов к определенным группам в зависимости от значений признаков — дискриминантный анализ.
Кроме того, пособие включает перечень математико-статистических таблиц с объяснением области их применения, словарь терминов, список литературы, предметный указатель.
Учебное пособие посвящено описанию новой версии пакета
STATISTICA 10. При рассмотрении примеров в основном использованы экспериментальные данные специалистов кафедры зоологии и
эволюционной экологии и кафедры генетики, а также файлы данных
из встроенной в программу STATISTICA библиотеки Examples. Написано по материалам лекционных и лабораторных занятий, проводимых в Институте биологии Тюменского государственного университета по дисциплине «Математические методы в биологии» для
направлений 020400.62, 020400.68 «Биология» и специальности
020501 «Биоинженерия и биоинформатика».
Данное пособие адресовано студентам, аспирантам, преподавателям, научным работникам, изучающим проблемы биологии и
экологии; будет полезно всем, занимающимся обработкой результатов лабораторных и полевых исследований и использующих современные компьютерные технологии.
Авторы благодарят за экспертизу рукописи Учебно-методический совет по биологии Министерства образования и науки РФ, а
также рецензентов за замечания, улучшившие содержание учебного пособия.
—7—
1. ТОЧЕЧНЫЕ И ИНТЕРВАЛЬНЫЕ
ОЦЕНКИ ПАРАМЕТРОВ
При проведении биологических исследований могут быть изучены все объекты массива или только их часть. В первом случае
исследования называют полными, или сплошными, во втором случае — частичными, или выборочными. В математической статистике весь массив объектов одной категории называют генеральной
совокупностью. Изучение генеральной совокупности проводят
редко. В большинстве случаев изучается часть генеральной совокупности, называемая выборочной совокупностью, или выборкой.
Выборка должна соответствовать следующим условиям:
 сформирована по принципу случайного отбора (рандоминизированно);
 доступна для изучения, объем выборки может быть любым,
он определяется задачами исследования;
 характеризовать всю генеральную совокупность; группы,
выделенные не для характеристики всей генеральной совокупности
(например, на выставку), не могут быть использованы в качестве
выборки.
Важнейшим требованием к выборке является ее репрезентативность, то есть правильная представимость в ней пропорций генеральной совокупности [1], [9], [12], [14], [19].
Числовые показатели, характеризующие генеральную совокупность, называют генеральными параметрами, а числовые показатели, характеризующие выборку, называют выборочными характеристиками, или статистиками.
Выборочные характеристики являются приближенными оценками генеральных параметров. Это случайные величины, варьирующие вокруг своих параметров. Оценки генеральных параметров
по выборочным характеристикам могут быть точечными и интервальными.
Точечные оценки генеральных параметров — это числа, вычисляемые по случайной выборке.
—8—
Интервальные оценки генеральных параметров — значения, в
пределах которых с заданной доверительной вероятностью находится генеральный параметр.
Точечные и интервальные оценки генеральных параметров в
программе STATISTICA проводятся на основе методов описательные статистики (Descriptive statistics). В программе STATISTICA
эти методы реализованы в разделе Основные статистики/Таблицы
(Basic Statistics/Tables), меню Statistics.
Значения переменных для анализа в электронную таблицу
STATISTICA загружают из приложения или вводят с клавиатуры.
Для ввода данных в электронную таблицу STATISTICA, подготовленных в каком-либо другом приложении, можно воспользоваться одним из способов: буфером обмена, технологией динамического обмена данными, средствами импорта файлов. Буфер
обмена — самый быстрый и простой путь ввода данных из прикладных программ Windows. Для реализации этого способа необходимо: в исходном материале выделить данные, которые необходимо скопировать; в меню Правка (Edit) выбрать команду
Копировать, данные будут скопированы в буфер обмена; перейти в
электронную таблицу STATISTICA и установить указатель там, где
следует скопировать данные, затем нажать кнопку мыши; в меню
Правка (Edit) выбрать команду Вставка (Paste), данные будут скопированы в направлении вправо и вниз от места, обозначенного
курсором.
Иногда необходимо установить связь между данными из какого-либо приложения (источника или сервера), например Excel, и
таблицей STATISTICA (клиентский файл) таким образом, чтобы
при изменении данных в сервере соответствующие изменения произошли в таблице STATISTICA — клиенте. Связи такого типа в
STATISTICA устанавливаются при помощи процедуры динамического обмена данными (DDE) из меню Правка (Edit). Для создания
связи нужно активизировать кнопку Новая связь, откроется окно.
В поле DDE связь пишется инструкция связи (обслуживание, разделы,
элементы), которая связывает ячейки электронной таблицы источника с ячейками в электронной таблице STATISTICA. После напи—9—
сания инструкции связи и нажатия ОК в таблице STATISTICA (клиенте) появятся элементы из соответствующего источника (сервера).
Импорт файлов реализован при помощи команды Получение
внешних данных в меню Данные (Data). Эта команда формирует
запросы из других баз данных. Программа STATISTICA позволяет
обращаться к наиболее распространенным базам данных (БД): Oracle, MS SQL Server, Sybase, MS Access, Fox Pro и др. Для доступа к
данным используется драйвер ODBC (Open Data Base Connectivity —
совместимость открытых баз данных), который позволяет приложению обращаться к БД на языке SQL. Запросы дают возможность
выбрать из таблиц БД необходимые для статистического анализа
данные и сохранить их в программе STATISTICA. Параметры подключения проходят тестирование. Если параметры подключения
указаны верно, нажатием кнопки ОК производится подключение
к базе данных и импорт данных в программу STATISTICA. После
импорта данным запроса присваивается имя (чтобы сохранить
для дальнейшего использования, запросы сохраняются в файлах с
расширением *sqy), и данные запроса передаются в таблицу
STATISTICA [6], [21].
Исходные данные для статистического анализа в программе
STATISTICA организованы в виде таблицы (рис. 1).
Электронная таблица состоит из строк и столбцов. В отличие от
обычных электронных таблиц, в которых строки и столбцы равноправны, в STATISTICA они имеют разные смысловые значения.
Столбцы таблицы называются переменными (Variables), представляют собой наблюдаемые величины. В электронной таблице пользователь может задать спецификации переменных: формат отображения (например, число десятичных знаков), коды пропущенных
значений (при хранении данных STATISTICA приписывает пропущенным наблюдениям по умолчанию код — 9999, пользователь
может установить значение этого кода для каждой конкретной переменной; способ обработки пропущенных данных определяется
после выбора метода статистического анализа), длинные имена переменных, комментарии для отдельных значений, формулы, которые можно использовать для преобразования каждой переменной.
— 10 —
Окно спецификаций переменной вызывается двойным щелчком на
имени переменной в таблице исходных данных.
Рис. 1. Электронная таблица программы STATISTICA и методы
раздела Основные статистики/Таблицы (Basic Statistics/Tables)
Результаты наблюдений записываются в строках таблицы
(Cases). Нулевой столбец, в котором по умолчанию указаны номера
наблюдений, при необходимости может быть изменен на имена
случаев либо даты наблюдений.
Для удобной работы с переменными, принимающими текстовые значения, реализован так называемый механизм двойной записи, согласно которому каждому текстовому значению переменной
в спецификации ставится в соответствие некоторое число. Это соответствие может быть установлено автоматически (самой системой при вводе данных) или определено пользователем. При работе
с данными всегда можно переключиться с текстовой на числовую
форму записи исходных данных.
— 11 —
1.1. ТОЧЕЧНЫЕ ОЦЕНКИ ПАРАМЕТРОВ
Рассмотрим применение методов описательной статистики (Descriptive statistics) для характеристики статистических совокупностей.
Пример 1. Приведены показатели плотности птиц (особей/км2)
в лесопарке «Затюменский» (рекреационная нагрузка 21 чел./ч).
72,5
59,3
44,0
75,0
57,6
42,3
77,5
55,9
39,6
80,0 101,0 102,7 70,0
54,2 52,5 50,8 49,1
37,1 34,6 32,1 29,6
67,5
2,0
27,1
65,0
1,9
24,6
62,5
47,4
22,1
61,0
45,7
Для выбора из электронной таблицы переменной плотность
птиц (особей/км2) в лесопарке «Затюменский» надо нажать кнопку
Variables и в открывшемся диалоговом окне активизировать исследуемую переменную (рис. 2).
Рис. 2. Выбор переменной (переменных) для анализа
На вкладке Quick (или Summary/Descriptive statistics) программа
отражает результаты определения основных статистических показателей:
— 12 —
Среднее арифметическое (Mean, Х ) Х = 51,38 особей/км².
Показатель средней плотности птиц в лесопарке «Затюменский»
составляет 51,38 особей/ км2.
Минимум и максимум (Minimum & Maximum): min = 1,9;
max = 102,7.
Среднее квадратическое отклонение (Standard Deviations, Sx)
Sx = ±23,73 особей/км2.
Среднее квадратическое отклонение — величина, показывающая среднее отклонение вариант от среднего значения. Варианта —
числовое значение отдельного объекта.
Количество (Valid, N) N = 32.
Статистические показатели для полного анализа выборочной
совокупности выбираются на вкладке Advanced установлением
флажков напротив соответствующих статистик. При помощи кнопки Select all stats можно выбрать все статистики. Они разделены на
три группы (рис. 3).
Рис. 3. Статистики для характеристики совокупностей
— 13 —
1. Показатели положения (location) (рис. 4).
Количество (Valid) N = 32; % обработанных значений (% valid
obvn.).
Рис. 4. Показатели положения
Среднее арифметическое (Mean) Х = 51,38 особей/км².
Медиана (Median) Me = 51,65 особей/км². Медиана — это значение, которое делит выборку на две равные части.
Мода (Мode) — значение, наиболее часто встречающейся варианты в данной совокупности. Среди показателей плотности птиц
лесопарка «Затюменский» нет повторяющихся значений.
Среднее геометрическое (Geom. mean, Х g ) определяется при
оценке средних темпов изменения величины переменной за определенные промежутки времени.
Среднее гармоническое (Harm. mean, Х h ) определяется при
работе с переменными величинами, изменяющимися во времени.
2. Показатели изменчивости (variation), моментные характеристики (moments) (рис. 5).
Рис. 5. Показатели изменчивости, моментные характеристики
Дисперсия (Variance) S x2 = 562,63 особей/км².
Среднее квадратическое отклонение (Standard Deviations)
Sx = ±23,72 особей/км².
Коэффициент вариации Сv = 46,1%.
— 14 —
Ошибка репрезентативности для среднего арифметического
(стандартная ошибка) S X = ±4,19 особей/км².
Коэффициент асимметрии (Skewness, Аs) — показатель, характеризующий симметричность распределения. При нормальном
распределении коэффициент асимметрии равен нулю. Если коэффициент асимметрии существенно отличается от нуля, то распределение несимметрично. Определяется коэффициент асимметрии
по формуле:
Аs =
 ( x )3
.
n S x 3
Стандартная ошибка асимметрии (Standard errow of Skewn., S As ):
6
.
n 3
Коэффициент эксцесса (Kurtosis, Ех) характеризует особенность
распределения вариант выборки около своего центра. Определяется коэффициент эксцесса по формуле:
S As
 ( x  )4
3 .
n S x4
Стандартная ошибка эксцесса (Standard errow of Kurtosis, S Ex ):
Ex =
6
.
n 5
Для нормального распределения коэффициент эксцесса, так же
как и коэффициент асимметрии, равен нулю. Если коэффициенты
асимметрии и эксцесса превосходят критические (стандартные)
значения, приведенные в табл. 1, 2, гипотеза о нормальности распределения не принимается, формулируется вывод о наличии у
распределения значимой асимметрии или эксцесса.
В выборке (пример 1) значимая асимметрия и эксцесс не наблюдаются. Коэффициент асимметрии (Аs = 0,023) и коэффициент
эксцесса (Ex = 0,26) меньше стандартных значений, приведенных
в табл. 1, 2.
SEx  2
— 15 —
Таблица 1
Критические значения коэффициента асимметрии, As
Уровни значимости
0,05
0,01
Объем
выборки
25
30
35
40
45
50
60
70
80
90
100
125
150
175
200
0,711
0,611
0,621
0,587
0,558
0,533
0,492
0,459
0,432
0,409
0,389
0,350
0,321
0,298
0,280
Объем
выборки
1,061
0,982
0,921
0,869
0,825
0,787
0,723
0,673
0,631
0,596
0,567
0,508
0,464
0,430
0,403
250
300
350
400
450
500
550
600
650
700
750
800
850
900
950
Уровни значимости
0,05
0,01
0,251
0,230
0,213
0,200
0,188
0,179
0,171
0,163
0,157
0,151
0,146
0,142
0,138
0,134
0,130
0,360
0,329
0,305
0,285
0,269
0,255
0,243
0,233
0,224
0,215
0,208
0,202
0,196
0,190
0,185
Таблица 2
Критические значения коэффициента эксцесса, Ех
Объем выборки
Уровни значимости
1
0,05
2
0,01
3
11
16
21
26
31
36
41
0,907
0,888
0,877
0,869
0,863
0,858
0,854
0,936
0,914
0,900
0,890
0,883
0,877
0,872
— 16 —
Окончание табл. 2
1
2
3
46
51
61
71
81
91
101
201
0,851
0,848
0,843
0,840
0,840
0,835
0,834
0,823
0,868
0,865
0,859
0,855
0,855
0,848
0,846
0,832
3. Процентили, размахи (percentiles, ranges) (рис. 6).
Рис. 6. Процентили и размахи
Минимум и максимум (Minimum & Maximum): min = 1,9;
max = 102,7.
Минимальная и максимальная квартили (Lower & upper quartiles, Р25 ; Р75 ). Р25 = 35,85; Р75 = 66,25. Квартиль — значение переменной, ниже которого находится часть (25% и 75%) выборки.
Размах (Range) — разность между максимальным и минимальным значениями выборки.
Квартильный размах (Quartiles range) — разность значений
верхней и нижней квартилей.
Программа STATISTICA позволяет задать определение значения процентилей. В практике обычно используют процентили:
Р3, Р97; Р10, Р90.
Для анализа изменчивости переменных предусмотрено построение графиков на вкладке Box & Whisker. Выбор показателей
для построения графиков проводится на вкладке Options.
— 17 —
Показатели для оценки изменчивости на графике:
 медиана / квартиль / размах;
 среднее арифметическое / стандартная ошибка / среднее
квадратическое отклонение;
 среднее арифметическое / среднее квадратическое отклонение / 1,96  среднее квадратическое отклонение;
 среднее арифметическое / стандартная ошибка / 1,96  стандартная ошибка.
1.2. РОБАСТНАЯ ОЦЕНКА В ПРОГРАММЕ STATISTICA
Статистический метод, способный действовать в условиях выбросов (анг. outlier), называют робастным. Выбросами в статистике
считают значения, выделяющиеся из общей выборки. Причины
выбросов бывают разные (ошибки измерения; необычная природа
входных данных; выбросы могут быть частью распределения, при
нормальном распределении (это распределение будет рассмотрено
в разделе 2) каждое 22-е измерение выходит из интервала ± две
сигмы, каждое 370-е измерение — из интервала ± три сигмы). Определяются выбросы на основе различных методов.
Простейший метод основан на межквартильном расстоянии. Все
значения, которые не попадают в диапазон [(х25 – 1,5  (х75 – х25))],
[(х75 + 1,5  (х75 – х25))], считаются выбросами. Минимальное значение плотности птиц 1,9 особей/км2 (пример 1) и максимальное
значение плотности попадают в диапазон [(х25 – 1,5  (х75 – х25))],
[(х75 + 1,5  (х75 – х25))].
Для проведения устойчивой оценки программа STATISTICA
определяет:
 усеченное среднее (trimmed mean) — среднее значение после
удаления выбросов;
 винсоризованное среднее (winsorized mean) — среднее значение после замены выбросов процентилью, по которой сделано
усечение;
 критерий Граббса для выбросов (Grubbs test for outliers) (рис. 7).
— 18 —
Рис. 7. Робастная оценка в системе STATISTICA
Критерий Граббса (Т) определяется по формуле:
Т   хi – X  : S x ,
где хi — текущее значение выборки; X — среднее арифметическое;
Sx — среднее квадратическое отклонение.
Среднее арифметическое, усеченное среднее, винсоризованное
среднее имеют примерно одинаковые значения. Критерий Граббса
для выделяющегося значения (102,7) из выборки имеет уровень
значимости 0,8123 (0,8123 больше 0,05). Критерий Граббса не превышает критическое значение 2,938 (табл. 3). Выделяющееся значение (102,7) не является выбросом.
Таблица 3
Критические значения для критерия Граббса
№
1
3
4
5
6
7
8
9
10
11
Одно наибольшее или одно наименьшее значение
при уровне значимости
0,01
0,05
2
1,155
1,496
1,764
1,973
2,131
2,274
2,387
2,482
2,564
3
1,155
1,481
1,715
1,887
2,020
2,126
2,215
2,290
2,355
— 19 —
Окончание табл. 3
1
2
3
12
2,636
2,412
13
2,699
2,462
14
2,755
2,507
16
2,852
2,585
18
2,932
2,651
20
3,001
2,709
22
3,060
2,758
24
3,112
2,802
26
3,157
2,841
28
3,199
2,876
30
3,236
2,908
32
3,270
2,938
34
3,301
2,965
36
3,330
2,991
38
3,356
3,014
40
3,381
3,036
При оценке выбросов наряду с критерием Граббса принято определять критерий Шовене, критерий Пирса, Q-тест Диксона.
Статистические характеристики, полученные на материале выборок, являются случайными величинами, варьирующими вокруг
своих генеральных параметров. Такие выборочные характеристики
рассматриваются как приближенные значения или точечные оценки соответствующих генеральных параметров. Выборочное среднее ( Х ) является оценкой генерального среднего (  ), выборочная
дисперсия является ( S x2 ) — оценкой генеральной дисперсии (  2х ),
среднее квадратическое отклонение (Sx) — оценкой стандартного
отклонения (  х ), характеризующего генеральную совокупность.
— 20 —
Имея множество выборок из одной генеральной совокупности,
можно получить достаточно точную величину генерального параметра. Для того чтобы по одной выборке оценить генеральные параметры, требуется определить:
1) ошибку репрезентативности (статистическую ошибку) —
величину отклонения выборочного показателя от его генерального
параметра;
2) показатель точности (Сs);
3) доверительный интервал — область, в которой с определенной вероятностью находится величина генерального параметра.
Оценка статистических ошибок (ошибок репрезентативности)
Оценка ошибок репрезентативности проводится по формулам:
S
 Ошибка среднего арифметического: S X   x .
n
S
 Ошибка среднего квадратического отклонения: S S x   x .
2n
 Ошибка дисперсии: S S 2  
S х2
.
2n
Ошибки репрезентативности уменьшаются при увеличении
объема выборки, то есть при n →  , S X → 0. Это свойство статиX
стических ошибок обусловлено действием закона больших чисел,
по которому наиболее вероятный результат получается при наибольшем числе испытаний. Ошибки репрезентативности зависят от
изменчивости. Чем сильнее варьирует признак, тем больше ошибка
выборочных показателей. Чем меньше ошибка, тем ближе выборочная характеристика к величине генерального параметра, и наоборот: чем больше ошибка, тем менее точно выборочная характеристика репрезентирует генеральный параметр.
Судить о том, как та или иная выборочная величина характеризует соответствующий параметр генеральной совокупности, позволяет критерий достоверности выборочного показателя. Он обозна— 21 —
чается буквой t с подстрочным знаком того показателя, для котороX
го он вычисляется: t X 
— критерий достоверности среднего
SX
арифметического, tS x 
Sx
— критерий достоверности среднего
S sx
квадратического отклонения, tS 2 
x
Sx2
— критерий достоверноSS 2
x
сти дисперсии.
Если критерий достоверности t > 3, то есть выборочный показатель превышает в три раза свою ошибку X 3 S X , S x 3 S S x ,
S x 2 3 S S22 , такая выборка достоверно характеризует генеральную
х
совокупность. Выборочные показатели достоверно характеризуют
генеральные параметры. Если критерии достоверности выборочных показателей меньше трех (t < 3), то выборочные показатели
меньше трех своих ошибок X 3 S X , S x 3 S S x , S x 2 3S s 2 , такая
х
выборка не может быть использована для характеристики генеральной совокупности.
Показатели точности оценок
Судить о точности, с какой определена та или иная выборочная
характеристика, позволяет отношение ошибки репрезентативности
к своей средней. Этот показатель, обозначаемый символом Сs
(обычно выражен в процентах), определяют по одной из формул:
Сs =
SX
X
Cs =
100 ;
Cv
n
— 22 —
,
где Cv — коэффициент вариации. Рассчитывается коэффициент
Sx
100 .
X
Точность среднего показателя, которым оцениваются результаты наблюдений, считается вполне удовлетворительной, если величина точности (Сs) не превышает 3-5%.
вариации по формуле: Cv 
1.3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ ПАРАМЕТРОВ
Выборочные характеристики используются при определении
доверительных интервалов, в которых с той или иной вероятностью находятся генеральные параметры.
Статистическая программа STATISTICA рассчитывает доверительные интервалы среднего арифметического (  ) и стандартного
отклонения (  х ).
Оценка доверительного интервала среднего
арифметического — 
Значения, в пределах которых с определенной доверительной
вероятностью находится генеральное среднее, определяют по математическому выражению:
X  t  S X   X  t  S X ,
где X — выборочное среднее арифметическое; t — нормированное отклонение доверительного уровня вероятности.
В биологии используют доверительные уровни вероятности
Р ≥ 0,95, Р ≥ 0,99, Р ≥ 0,999 (см. табл. 4):
0,95 — интеграл нормированного отклонения t = 1,96;
0,99 — интеграл нормированного отклонения t = 2,58;
0,999 — интеграл нормированного отклонения t = 3,29;
S X — ошибка репрезентативности среднего арифметического.
— 23 —
Таблица 4
Значения интеграла вероятностей для разных значений t
(значения вероятности даны числами после запятой)
t
1
0
2
1
3
2
4
3
5
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
0000
0797
1585
2358
3108
3829
4515
5161
5763
6319
6827
7287
7699
8064
8385
8664
8904
9108
9281
9425
9545
9643
9722
9786
9836
0080
0876
1663
2434
3182
3899
4581
5223
5821
6372
6875
7330
7737
8098
8415
8690
8926
9127
9297
9439
9556
9652
9729
9791
9840
0160
0995
1741
2510
3255
3969
4647
5285
5878
6424
6923
7373
7775
8182
8444
8715
8948
9146
9312
9451
9566
9660
9736
9797
9845
0239
1034
1819
2586
3328
4039
4713
5346
5935
6476
6970
7415
7813
8165
8473
8740
8969
9164
9327
9464
9576
9668
9748
9802
9849
Сотые доли t
4
5
6
7
0319
1114
1897
2661
3401
4108
4778
5407
5991
6528
7017
7457
7850
8198
8501
8764
8990
9182
342
9476
9586
9676
9749
9807
9853
— 24 —
0399
1192
1974
2737
3473
4177
4843
5467
6047
6579
7063
7499
7887
8230
8529
8788
9011
9199
9357
9488
9596
9684
9755
9812
9857
6
8
7
9
8
10
9
11
0478
1271
2051
2812
3545
4245
4907
5527
6102
6629
7109
7540
7923
8262
8557
8812
9031
9216
9371
9500
9608
9692
9762
9817
9861
0558
1350
2128
2886
3616
4313
4971
5587
6157
6679
7154
7580
7959
8293
8584
8836
9051
9233
9385
9512
9615
9700
9768
9822
9866
0638
1428
2205
2961
3688
4381
5035
5646
6211
6729
7199
7620
7995
8324
8611
8859
9070
9249
9399
9523
9625
9707
9774
9827
9869
0717
1507
2282
3034
3759
4448
5098
5705
6265
6778
7243
7660
8030
8355
8638
8882
9089
9265
9412
9534
9634
9715
9780
9832
9872
Окончание табл. 4
1
2
3
4
5
6
7
8
9
10
11
2,5
2,6
2,7
2,8
2,9
3,0
3,1
3,2
3,3
3,4
3,5
9876
9907
9931
9949
9963
9973
9981
9986
9990
9993
9995
9879
9909
9933
9950
9964
9974
9981
9987
9991
9993
9995
9883
9912
9935
9952
9965
9975
9982
9987
9991
9994
9996
9886
9915
9937
9953
9966
9976
9983
9988
9991
9994
9996
0989
9917
9939
9955
9967
9976
9983
9988
9992
9994
9996
9892
9920
9940
9956
9968
9977
9984
9988
9992
9994
9996
9895
9922
9942
9956
9969
9978
9984
9989
9992
9995
9996
9898
9924
9944
9959
9970
9979
9985
9989
9992
9995
9996
9901
9926
9946
9960
9971
9979
9985
9990
9993
9995
9997
9904
9929
9947
9961
9972
9980
9986
9990
9993
9995
9997
В приведенном примере 1 лесопарк «Затюменский» характеризуется следующими статистическими показателями: X = 51,38
особей/км², S X = ±4,19 особей/км², Sx = ±23,72 особей/км²,
S S = ±2,96 особей/км², n = 32. С вероятностью Р = 0,95 можно утx
верждать, что генеральное среднее данного распределения находится между 42,82 особей/км² и 59,93 особей/км². Это довольно
узкий интервал.
Можно утверждать, что выборочное среднее X = 51,38 особей/км² является точной оценкой генерального параметра:
X  t  S X   X  t  S X ;
51,38 – 1,96  4,19    51,38 + 1,96  4,19;
42,82    53,93.
Оценка доверительного интервала стандартного отклонения —  х
Значения, в пределах которых с определенной доверительной
вероятностью находится генеральное стандартное отклонение, определяют по математическому выражению:
— 25 —
S x  t SSx   х  S x + t SS ,
x
где S x — выборочное стандартное отклонение; t — нормированное отклонение доверительного уровня вероятности.
В биологии используют доверительные уровни вероятности
Р ≥ 0,95, Р ≥ 0,99, Р ≥ 0,999 (см. табл. 4):
0,95 — интеграл нормированного отклонения t = 1,96;
0,99 — интеграл нормированного отклонения t = 2,58;
0,999 — интеграл нормированного отклонения t = 3,29;
S S — ошибка репрезентативности стандартного отклонения.
x
В приведенном примере 1 (лесопарк «Затюменский») стандартное отклонение Sx = ±23,72 особей/км², статистическая ошибка
стандартного отклонения S S = ±2,39 особей/км², n = 32. С вероятx
ностью Р = 0,95 можно утверждать, что генеральное стандартное
отклонение данного распределения находится между 19,02 особей/км² и 31,54 особей/км (рис. 8).
S x  t SS   х  S x + t S S ;
х
x
23,72 – 1,962,39 ≤  х ≤ 23,72 + 1,962,39; 19,02 ≤  х ≤ 28,40.
Рис. 8. Результаты интервальной оценки
Оценка доверительного интервала дисперсии —  2
Значения, в пределах которых с определенной доверительной
вероятностью находится генеральная дисперсия, определяют по
математическому выражению:
S x 2  t  S S 2   x 2  S x2 + t  S S 2 ,
x
x
— 26 —
где S x2 — выборочная дисперсия; t — нормированное отклонение
доверительного уровня вероятности.
В биологии используют доверительные уровни вероятности
Р ≥ 0,95, Р ≥ 0,99, Р ≥ 0,999 (см. табл. 4):
0,95 — интеграл нормированного отклонения t = 1,96;
0,99 — интеграл нормированного отклонения t = 2,58;
0,999 — интеграл нормированного отклонения t = 3,29;
S S 2 x — ошибка репрезентативности дисперсии.
Пример 2. Характеристики лесопарка им. Ю. А. Гагарина по
плотности птиц: X = 73,06; S x = ±4,1; S x2 = 787,36; S S 2 = ±98,42;
x
n = 32. Определите 95% доверительный интервал для генеральной
дисперсии.
Первый способ определения доверительного интервала генеральной дисперсии:
S x 2  t  S S 2   x 2  S x2 + tS S 2 ;
x
787,36 – 1,96  98,42 ≤
x
 2x
≤ 787,36 + 1,96  98,42;
 2x
≤ 980,26.
594,46 ≤
Второй способ определения доверительного интервала генеральной дисперсии, используемый статистическими программами,
основан на критических значениях хи-квадрат (  2 ).
Нижняя граница генеральной дисперсии:
(n – 1) S x2 : С1 = (32-1)  787,36 : 48,23 = 506,07.
Верхняя граница генеральной дисперсии:
(n – 1) S x2 : С2 = (32-1)  787,36 : 17,54 = 1391,57.
С1 — статистика  2 для уровня значимости Р <
(см. табл. 5,  = 31, С1 = 48,23).
— 27 —
0,05
, Р < 0,025
2
С2 — статистика  2 для уровня значимости Р > 1 –
0,05
,
2
Р > 0,975 (см. табл. 5,  = 31, С2 = 17,54).
Выборочная дисперсия S x2 = 787,36. Генеральная дисперсия
находится в интервале 506,07 <  2x < 1391,57.
При характеристике генеральных параметров используют доверительные вероятности. Вероятности, признанные достаточными
для суждения о генеральных параметрах на основании известных
выборочных показателей, называют доверительными. Понятие о
доверительных вероятностях связано с принципом, который положен в основу применения теории вероятностей к решению практических задач. Согласно этому принципу, маловероятные события
считают невозможными, а события, вероятность которых близка к
единице, принимают за почти достоверные. В качестве доверительных обычно используют вероятности Р1 = 0,95; Р2 = 0,99;
Р3 = 0,999. Они означают, что при оценке генеральных параметров
по известным выборочным параметрам подтверждение будет наблюдаться в 95 случаях на 100 испытаний, 99 случаях — на 100
испытаний, в 999 случаях — на 1000 испытаний. Доверительным
вероятностям соответствуют определенные значения нормированных отклонений. Доверительные вероятности являются значениями
интегралов нормированных отклонений (см. табл. 4). Вероятности
Р1 = 0,95 соответствует t1 = 1,96; вероятности Р2 = 0,99 — t2 = 2,58;
вероятности Р3 = 0,999 — t3 = 3,29. Выбор того или иного уровня
доверительной вероятности исследователь осуществляет исходя из
той ответственности, с какой делаются выводы о генеральных параметрах.
С доверительной вероятностью тесно связан уровень значимости, показывающий уровень риска: при Р ≥ 0,95 уровень значимости Р ≤ 0,05; при Р ≥ 0,99 — Р ≤ 0,01; при Р ≥ 0,999 — Р ≤ 0,001.
— 28 —
Таблица 5
 2 -распределение. Критические (процентные) точки для разных
значений вероятностей и чисел степеней свободы

1
5
2
2,5
3
а, %
1
4
0,5
5
0,1
6
99,9
7
99,5
8
Р, %
99,0
9
97,5
10
95,0
11
16
17
18
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
26,30
27,59
28,87
31,41
32,67
33,92
35,17
36,42
37,65
38,88
40,11
41,34
42,56
43,77
44,93
46,19
47,40
48,60
49,80
51,00
52,19
53,38
54,57
55,76
56,94
28,84
30,19
31,53
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,19
44,46
45,72
46,98
48,23
49,48
50,72
51,97
53,00
54,44
55,67
56,90
58,12
59,34
60,56
32,00
33,41
34,80
37,57
38,93
40,29
41,64
42,98
44,31
45,64
46,96
48,28
49,59
50,89
52,19
53,49
57,78
56,06
57,34
58,62
59,89
61,18
62,43
63,69
64,95
34,27
35,72
37,16
40,00
41,40
42,80
44,18
45,56
46,93
48,29
49,64
50,99
52,34
53,67
55,00
56,33
57,65
58,96
60,28
61,58
62,88
64,18
65,48
66,77
68,05
39,25
40,79
42,31
45,32
46,80
48,27
49,73
51,18
52,62
54,05
55,48
56,89
58,30
59,70
61,10
62,49
63,87
62,25
66,62
67,98
69,35
70,70
72,05
73,40
74,74
3,94
4,42
4,91
5,92
6,45
6,98
7,53
8,09
8,65
9,22
9,80
10,39
10,99
11,59
12,20
12,81
13,43
14,06
14,59
15,32
15,94
16,61
17,26
17,92
18,58
5,24
5,80
6,56
7,43
8,43
8,35
9,06
9,69
10,02
11,06
11,81
12,46
13,12
13,79
14,46
15,13
15,82
16,50
17,19
17,89
18,59
19,29
20,00
20,71
21,42
5,81
6,41
7,02
8,27
8,90
9,54
10,20
10,86
11,52
12,20
12,88
13,56
14,25
14,95
15,66
16,36
17,07
17,79
18,51
19,23
19,96
20,69
21,43
22,16
22,91
6,91
7,56
8,23
9,59
10,28
10,98
11,69
12,40
13,12
13,84
14,57
15,31
16,05
16,79
17,54
18,29
19,05
19,81
20,57
21,34
22,11
22,88
23,65
24,43
25,22
7,96
8,57
9,39
10,85
11,59
12,34
13,09
13,85
14,61
15,38
16,15
16,93
17,71
18,49
19,28
20,07
20,88
21,66
22,46
23,27
24,08
24,88
25,70
26,51
27,33
— 29 —
Окончание табл. 5
1
2
3
4
5
6
7
8
9
10
11
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
58,12
59,30
60,48
61,66
62,83
64,00
65,17
66,34
67,51
68,67
69,83
70,99
72,15
73,13
74,47
75,62
76,78
61,78
62,99
64,20
65,41
66,62
37,82
69,02
70,22
71,42
72,62
73,81
75,00
76,19
77,38
78,57
79,75
80,94
66,21
67,46
68,71
69,96
71,20
72,44
73,68
74,92
76,15
77,39
78,62
79,84
81,07
82,29
83,51
84,73
85,95
69,34
70,62
71,89
73,17
74,44
75,70
76,97
78,23
79,49
80,75
82,00
83,25
84,50
85,75
86,99
88,24
89,48
76,08
77,42
78,75
80,08
81,40
82,72
84,04
85,35
86,66
87,97
89,27
90,57
91,87
93,17
94,46
95,75
97,04
19,24
19,91
20,58
21,25
21,93
22,61
23,30
23,98
24,67
25,37
26,06
26,76
27,47
28,17
28,88
29,59
30,30
22,14
22,86
23,58
24,31
25,04
25,78
26,51
27,25
27,99
28,74
29,48
30,23
30,98
31,74
32,49
33,25
34,01
23,65
24,40
25,15
25,90
26,66
27,42
28,18
28,94
29,71
30,48
31,25
32,02
32,79
33,57
34,35
35,13
35,61
26,00
26,78
27,58
28,37
29,16
29,96
30,76
31,56
32,36
53,06
33,97
34,78
35,59
36,40
37,21
38,03
38,84
28,14
28,97
29,79
30,61
31,44
32,27
33,10
33,93
34,76
35,60
36,44
37,28
38,12
38,96
39,80
40,65
41,49
ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ
Задание 1. Охарактеризуйте выборку (масса тела краба Pachygrapsus crassipes, г) на основе показателей описательной статистики: количество животных, n; минимальное значение, min; максимальное значение, max; среднее арифметическое, Х ; ошибка
среднего арифметического, S X ; дисперсия, S x2 ; среднее квадратическое отклонение, Sx; медиана, Ме; мода Мо; верхняя квартиль, Р75 ; нижняя квартиль, Р25 ; доверительный интервал среднего арифметического, ≤  ≤; коэффициент асимметрии, Аs; ошибка
коэффициента асимметрии; коэффициент эксцесса, Ех; ошибка коэффициента эксцесса.
— 30 —
6,1
10,7
9,7
12,7
9,6
12,6
11,3
17,8
11,5
7,0
12,5
13,8
10,5
15,6
7,1
11,8
9,1
8,6
12,4
10,6
11,6
8,3
13,6
13,3
11,6
14,7
6,6
11,3
9,5
8,8
14,5
10,5
Задание 2. Охарактеризуйте выборку (масса жабр краба Pachygrapsus crassipes, мг) на основе показателей описательной статистики: количество животных, n; минимальное значение, min; максимальное значение, max; среднее арифметическое, Х ; ошибка
среднего арифметического, S X ; дисперсия, S x2 ; среднее квадратическое отклонение, Sx; медиана, Ме; мода Мо; верхняя квартиль, Р75 ; нижняя квартиль, Р25 ; доверительный интервал среднего арифметического, ≤  ≤; коэффициент асимметрии, Аs; ошибка
коэффициента асимметрии; коэффициент эксцесса, Ех; ошибка коэффициента эксцесса.
198
145
125
91
167
133
108
81
176
138
106
165
127
116
144
136
115
146
125
111
153
126
117
158
133
105
147
136
90
156
135
86
КОНТРОЛЬНЫЕ ВОПРОСЫ
1. Что характеризуют среднее арифметическое, среднее квадратическое отклонение, дисперсия, квартили, медиана?
2. Каковы значения показателей асимметрии и эксцесса при
нормальном распределении?
3. Что принято называть доверительным интервалом, ошибками репрезентативности?
4. Выявите различия между генеральными параметрами и выборочными характеристиками.
5. Объясните доверительные вероятности Р = 0,95, Р = 0,99,
Р = 0,999, уровни значимости Р = 0,05, Р = 0,01, Р = 0,001.
— 31 —
2. ПАРАМЕТРИЧЕСКИЕ
И НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
СРАВНЕНИЯ
2.1. ПРОВЕРКА НОРМАЛЬНОСТИ
ЭМПИРИЧЕСКОГО РАСПРЕДЕЛЕНИЯ
В многочисленной группе особей, отобранной для изучения определенного признака, отдельные значения данного признака
встречаются неодинаковое число раз. Совокупность всех возможных значений признака (хi) и соответствующих им значений частоты (рi ) составляет распределение признака.
К числу наиболее распространенных типов распределения относится нормальное распределение, которое отражает характер
варьирования количественных (непрерывно меняющихся) признаков. Нормальное распределение является частным случаем биномиального распределения, в котором p = q (р — вероятность
наступления события А; q — вероятность наступления противоположного события А ) и n→∞. Графически нормальное распределение изображается в виде симметричной кривой, имеющей форму
колокола.
Кривую нормального распределения характеризуют следующие
закономерности:
 основное варьирование признака ограничивается лимитом,
составляющим ±3 Sx от среднего значения признака ( Х ). В эти
границы входит 99,7% всех особей совокупности. За пределами
±3 Sx встречается только 0,3% особей с величиной признака выше
+3 Sx или меньше –3 Sх;
 варьирование величины признака в границах ±3 Sx имеет
особенность, которая заключается в том, что для каждой величины
хi можно установить теоретическую частоту (уi) встречаемости
особей с таким же значением. Для этих целей используют уравнение нормальной кривой:
— 32 —
2
(х  X )
n k
уi =
,
e i 2
S x 2
Sx  2
где уi — теоретическое число наблюдений для данной величины хi;
Sx — среднее квадратическое отклонение;  — постоянное число,
равное 3,1416; е — основание натуральных логарифмов, равное
2,71828; (хi – X ) — отклонение величины хi от среднего арифметического X ; (хi – X ) : Sx = t — нормированное отклонение;
(хi – X )2 : 2 S x2 = t2 : 2.
Зная n и Sx совокупности, выражая отклонение хi от X в нормированном отклонении t = (хi – X ) : Sx, можно определить величины теоретических частот и построить вариационный ряд.
Теоретическая частота для любого значения х может быть определена по таблице значений ординат нормальной кривой (табл. 6).
Таблица 6
Значения функции f (t )
1
2
t
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
0
1
2
3
3989
3970
3910
3814
3683
3521
3332
3123
2897
2661
2420
2179
3989
3965
3902
3802
3668
3503
3312
3101
2874
2637
2396
2155
3989
3961
3894
3790
3653
3485
3292
3079
2850
2613
2371
2131
3988
3956
3885
3778
3637
3467
3271
3056
2827
2589
2347
2107
t2
e 2
(координаты нормальной кривой)
Сотые доли t
4
5
3986
3951
3876
3765
3621
3448
3251
3034
2803
2565
2323
2083
— 33 —
3984
3945
3867
3752
3605
3429
3230
3011
2780
2541
2299
2059
6
7
8
9
3982
3939
3857
3739
3589
3410
3209
2989
2756
2516
2275
2036
3980
3932
3847
3726
3572
3391
3187
2966
2732
2492
2251
2012
3977
3925
3836
3712
3555
3372
3166
2943
2709
2468
2227
1989
3973
3918
3825
3697
3538
3352
3144
2920
2685
2444
2203
1965
Окончание табл. 6
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
4,0
0
1
2
3
4
5
6
7
8
9
1942
1714
1497
1295
1109
0940
0790
0656
0540
0440
0356
0283
0224
0175
0136
0104
0079
0060
0044
0033
0024
0017
0012
0009
0006
0004
0003
0002
0001
1919
1691
1476
1276
1092
0925
0775
0644
0529
0431
0347
0277
0219
0171
0132
0101
0077
0058
0043
0032
0023
0017
0012
0008
0006
0004
0003
0002
0001
1895
1669
1456
1257
1074
0909
0761
0632
0519
0422
0339
0270
0213
0167
0129
0099
0075
0056
0042
0031
0022
0016
0012
0008
0006
0004
0003
0002
0001
1872
1647
1435
1238
1057
0893
0748
0620
0508
0413
0332
0264
0208
0163
0126
0096
0073
0055
0041
0030
0022
0016
0011
0008
0005
0004
0003
0002
0001
1849
1626
1415
1219
1040
0878
0734
0608
0498
0404
0325
0258
0203
0158
0122
0093
0071
0053
0039
0029
0021
0015
0011
0008
0005
0004
0003
0002
0001
1826
1604
1394
1200
1023
0863
0721
0596
0488
0396
0317
0252
0198
0154
0119
0091
0069
0051
0038
0028
0020
0015
0010
0007
0005
0004
0002
0002
0001
1804
1582
1374
1182
1006
0848
0707
0584
0478
0387
0310
0246
0194
0151
0116
0088
0067
0050
0037
0027
0020
0014
0010
0007
0005
0004
0002
0002
0001
1781
1561
1354
1163
0989
0833
0694
0573
0468
0379
0303
0241
0189
0147
0113
0086
0065
0048
0036
0026
0019
0014
0010
0007
0005
0003
0002
0002
0001
1758
1539
1334
1145
0973
0818
0681
0562
0459
0371
0297
0235
0184
0143
0110
0084
0063
0047
0035
0025
0018
0013
0009
0007
0005
0003
0002
0001
0001
1736
1518
1315
1127
0957
0804
0669
0551
0449
0363
0290
0229
0180
0139
0107
0081
0061
0046
0034
0025
0018
0013
0009
0006
0004
0003
0002
0001
0001
— 34 —
Проводят проверку нормальности эмпирического распределения на основе нескольких методов:
1) на основе показателей метода Описательные статистики/Descriptive statistics:
 коэффициент асимметрии: Аs 
 коэффициент эксцесса: Ex
 ( x  Χ )3
n S x3
;
 ( x  Χ )4
3 .
n  Sч 4
При нормальном распределении As = 0, Ex = 0. В действительности такое равенство почти не наблюдается. Значения коэффициента асимметрии и эксцесса сравнивают с критическими (стандартными) значениями коэффициента асимметрии и эксцесса,
приведенными в табл. 1, 2. Если коэффициенты превосходят значения, приведенные в таблицах, гипотеза о нормальности распределения (нулевая гипотеза) не принимается. Формулируется вывод о
наличии у распределения значимой асимметрии и эксцесса;
2) на основе сравнения гистограммы выборочного распределения с кривой нормального распределения; интервалы (число классов) для построения гистограммы определяют по формуле:
int  1,5  3,3log10 ( n) .
Интервалы (число классов) можно определить по табл. 7.
Таблица 7
Объем выборки и число классов
Объем выборки,
n
Число
классов, k
Объем выборки,
n
Число
классов, k
12 – 22
23 – 46
47 – 93
5
6
7
94 – 187
188 – 377
> = 388
8
9
10 – 12
Подчитываются фактические частоты f (число значений в каждом интервале); по 1-й функции нормального распределения определяются теоретические частоты f (t );
— 35 —
3) по критериям нормальности:
k

 критерий Колмогорова–Смирнова d  max  f (t )  осноn

ван на максимуме разности между кумулятивным распределением
выборки и теоретическим кумулятивным распределением; при определении значения вероятности на основе средней арифметической и стандартного отклонения, известных априори, используются
значения вероятности, табулированные Massey; если средняя арифметическая и стандартное отклонение предполагаемого распределения не известны (они оцениваются из выборки данных), значения
вероятности, табулированные Massey, не верны, в этом случае для
определения значимости критерия Колмогорова–Смирнова используются так называемые вероятности Liliefors (Лилиефорса);
 критерий Шапиро–Уилка основан на отношении линейной
несмещенной оценки дисперсии к дисперсии, определенной методом максимального правдоподобия.
Критерий Шапиро–Уилка — один из наиболее эффективных
критериев проверки нормальности распределения случайных величин; определяется по формуле:
2
1

W  2 
  ani1  xni1  xi  ,
S
2
1
где S 2   хi  X  ; X   xi .
n
Коэффициенты а n  i 1 приведены в табл. 8. Критические значения статистики W(α) приведены в табл. 9.
Если W < W(α) , то нулевая гипотеза нормальности распределения отклоняется на уровне значимости α.
Рассмотрим оценку нормальности распределения на примере
показателей плотности птиц лесопарка «Затюменский».
Пример 1. Приведены показатели плотности птиц (особей/км2)
в лесопарке «Затюменский» (рекреационная нагрузка 21 чел./ч).
72,5
59,3
44,0
75,0
57,6
42,3
77,5
55,9
39,6
80,0 101,0 102,7 70,0
54,2 52,5 50,8 49,1
37,1 34,6 32,1 29,6
— 36 —
67,5
2,0
27,1
65,0
1,9
24,6
62,5
47,4
22,1
61,0
45,7
Необходимо провести оценку соответствия эмпирических частот теоретическим на основе коэффициента асимметрии (Аs), коэффициента эксцесса (Ех), сравнения гистограммы выборочного
распределения с кривой нормального распределения, по критериям: Колмогорова–Смирнова (d), Шапиро–Уилка, вероятности Лилиефорса.
Для оценки соответствия эмпирического распределения нормальному типу предназначена вкладка Normality (рис. 9). При работе с непрерывными случайными величинами нужно установить
флажок на Number intervals и указать число классов для построения
гистограммы или таблицы частот (Frequency tables). При выборе
опции ожидаемые частоты (Normal expected frequencies) на гистограмму накладывается кривая нормального распределения. Тип
распределения оценивается на основе расчета критериев Колмогорова–Смирнова, Шапиро–Уилка и оценки их значимости.
При работе с дискретными переменными выбирается опция Integer intervals. Число интервалов определяется числом различных
значений переменной.
Рис. 9. Выбор критериев для оценки соответствия эмпирического
распределения нормальному типу. Descriptive statistics/Normality
— 37 —
Таблица 8
4
Коэффициенты аni1 (х 10 ) критерия Шапиро–Уилка
n
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
I
1
7071
6872
6646
6431
6233
6052
5888
5739
5601
5475
5359
5251
5150
5056
4968
4886
4808
4734
4634
4590
4542
4493
4450
4407
4366
4328
4291
4254
4220
4188
4156
4127
4096
4068
4040
4015
3989
3964
3940
3917
3894
3872
3850
3830
3808
3789
3770
3751
2
3
4
5
6
7
8
9
10
11
12
1677
2413
2806
3031
3164
3244
3291
3315
3325
3325
3318
3306
3290
3273
3253
3232
3211
3185
3156
3126
3098
3069
3043
3018
2992
2968
2944
2921
2898
2876
2854
2834
2813
2794
2774
2755
2737
2719
2701
2684
2667
2651
2635
2620
2604
2589
2574
0875
1401
1743
1976
2141
2260
2347
2412
2460
2495
2521
2540
2553
2561
2565
2578
2571
2563
2554
2543
2533
2522
2510
4299
2487
2475
2463
2451
2439
2427
2415
2403
2391
2380
2368
2357
2345
2334
2323
2313
2302
2291
2281
2271
2260
0561
0947
1224
1429
1586
1707
1802
1878
1939
1988
2027
2059
2085
2119
2131
2139
2124
2148
2151
2152
2151
2150
2148
2145
2141
2137
2132
2127
2121
2116
2110
2104
2098
2091
2085
2078
2072
2065
2958
2052
2045
2038
2032
0399
0695
0922
1099
1240
1353
1447
1524
1587
1641
1686
1736
1764
1787
1807
1822
1836
1848
1857
1864
1870
1874
1878
1880
1882
1883
1883
1883
1881
1880
1878
1876
1874
1871
1868
1865
1862
1859
1855
1851
1847
0303
0539
0727
0880
1005
1109
1197
1271
1334
1399
1430
1480
1512
1539
1563
1584
1601
1616
1630
1641
1651
1660
1667
1673
1678
1683
1686
1689
1691
1693
1694
1695
1695
1695
1695
1695
1693
1692
1691
0240
0433
9593
0725
0837
0932
1013
1092
1150
1201
1245
1283
1316
1346
1372
1395
1415
1433
1449
1463
1475
1487
1496
1505
1513
1520
1526
1531
1535
1539
1542
1545
1548
1550
1551
1553
1554
0196
0359
0496
0612
0711
0804
0878
0941
0997
1046
1089
1128
1162
1192
1219
1243
1265
1284
1301
1317
1331
1344
1356
1366
1376
1384
1392
1398
1405
1410
1415
1420
1423
1427
1430
0173
0303
0422
0530
0618
0696
0764
0823
0876
0923
0965
1002
1036
1066
1093
1118
1140
1160
1179
1196
1211
1225
1237
1249
1259
1269
1278
1286
1293
1300
1306
1312
1317
0140
0263
0368
0459
0539
0610
0672
0728
0778
0822
0862
0899
0931
0961
0988
1013
1036
1056
1075
1092
1108
1123
1136
1149
1160
1170
1180
1189
1197
1295
1212
0122
0228
0321
0403
0476
0540
0598
0690
0697
0739
0777
0812
0844
0873
0900
0924
0947
0967
0986
1004
1020
1035
1049
1062
1073
1085
1095
1105
1113
0107
0200
0284
0358
0424
0483
0537
0585
0629
0669
0706
0739
0770
0798
0824
0848
0870
0891
0909
0927
0943
0959
0972
0986
0998
1010
1020
— 38 —
Окончание табл. 8
n
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
13
14
15
16
17
18
I
19
20
21
22
23
24
25
0094
0178
0253
0320
0381
0435
0485
0530
0572
0610
0645
0677
0706
0733
0759
0782
0804
0824
0842
0860
0876
0892
0906
0919
0932
0084
0159
0227
0289
0344
0395
0441
0484
0523
0559
0592
0622
0651
0677
0701
0724
0745
0765
0783
0801
0817
0832
0846
0076
0144
0206
0262
0314
0361
0404
0444
0481
0515
0546
0575
0602
0628
0651
0673
0694
0713
0731
0748
0764
0068
0131
0187
0239
0287
0331
0372
0409
0444
0476
0506
0534
0560
0584
0607
0628
0648
0667
0685
0062
0119
0172
0220
0264
0305
0343
0379
0411
0442
0471
0497
0522
0546
0568
0588
0608
0057
0110
0158
0203
0244
0283
0318
0352
0383
0412
0439
0465
0489
0511
0532
0053
0101
0146
0188
0227
0263
0296
0328
0357
0385
0411
0436
0459
0049
0094
0136
0175
0211
0245
0277
0307
0335
0361
0386
0045
0087
0126
0163
0197
0229
0259
0288
0314
0042
0081
0118
0153
0185
0215
0244
0039
0076
0111
0143
0174
0037
0071
0104
0035
— 39 —
Результаты обработки. Средний показатель плотности птиц
X  S X = 51,3±4,19; среднее квадратическое отклонение Sx = ±23,7
особей/км2; коэффициент асимметрии Аs± S As = 0,023±0,41; коэффициент эксцесса Ex± = 0,04±0,81; дисперсия S2 =
 ( хi  X )2
=
= 17440,45 особей/км2.
2
1 
  ani1  xni1  xi 
  0, 4188  (102,7-1,9)+
2 
S
+ 0,2898(101,0 – 2,0) + 0,2463 (80,0 – 22,1) + 0,2141 (77,5 – 24,6) +
+ 0,1878  (75,0 27,1) + 0,1651 (72,5 – 29,6) + 0,1449 (70,0 – 32,1) +
+ 0,1265  (67,5 – 34,6) + 0,1093  (65,0 – 37,1) + 0,0931 (62,5 – 39,6) +
+ 0,0777  (61,0 – 42,3) + 0,0629  (59,3 – 44,0) + 0,0485 (57,6 – 45,7) +
+ 0,0344  (55,9 – 47,4) + 0,0206 (54,2 – 49,1) +
W
2
 : 17440,45 = 0,983.
+ 0,0068  52,5  50,8 
Коэффициенты: 0,4188; 0,2898; 0,2463; 0,2141; 0,1878; 0,1651;
0,1449; 0,1265; 0,1093; 0,0931; 0,0777; 0,0629; 0,0485; 0,0344;
0,0206; 0,0068 взяты из табл. 8. Коэффициенты а n  i 1 (х 104 ) критерия Шапиро–Уилка (n = 32).
Значения xn  i 1  xi найдены путем вычитания из наибольшего
значения наименьшего (для этого значения должны быть расположены в порядке возрастания).
102,7 101,0 80,0
59,3
57,6 55,9
39,6
37,1 34,6
77,5
54,2
32,1
75,0
52,5
29,6
72,5
50,8
27,1
70,0
49,1
24,6
67,5
47,4
22,1
65,0
45,7
2,0
62,5
44,0
1,9
61,0
42,3
Критерий Колмогорова–Смирнова d = 0,05138, Р > 0,20; вероятность Лилиефорса Р > 0,20 (см. рис. 10).
Критерий Шапиро–Уилка W = 0,983, Р = 0,88591.
Принимается нулевая гипотеза. Распределение не отличается от
нормального.
— 40 —
Критерий Шапиро–Уилка:
W=
1
1
2
 =
  ani1 ( xni1  xi ) 
130,82 = 0,983.
2 
17440, 4
S
Критические значения Шапиро–Уилка для Р = 0,05 и n = 32 равно 0,93 (критические значения критерия Шапиро–Уилка приведены
в табл. 9). Так как W = 0,983 > W32 (0,05) = 0,93, гипотеза нормальности распределения не отклоняется.
Таблица 9
Критические значения критерия Шапиро–Уилка W(α)
(α-уровень значимости)
n
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Α
n
0,05
0,01
0.767
0.748
0.762
0.788
0.803
0.818
0.829
0.842
0.850
0.859
0.866
0.974
0.881
0.887
0.892
0.897
0.901
0.905
0.737
0.687
0.686
0.713
0.730
0.749
0.764
0.781
0.792
0.805
0.814
0.825
0.835
0.844
0.851
0.858
0.863
0.868
— 41 —
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
Α
0,05
0,01
0.923
0.924
0.926
0.927
0.929
0.930
0.931
0.933
0.934
0.935
0.936
0.938
0.939
0.940
0.941
0.942
0.943
0.944
0.894
0.896
0.898
0.900
0.902
0.904
0.906
0.908
0.910
0.912
0.914
0.916
0.917
0.919
0.920
0.922
0.923
0.924
Окончание табл. 9
n
21
22
23
24
25
26
Α
n
0,05
0,01
0.908
0.911
0.914
0.916
0.918
0.920
0.873
0.878
0.881
0.884
0.888
0.891
45
46
47
48
49
50
Α
0,05
0,01
0.945
0.945
0.946
0.947
0.947
0.947
0.926
0.927
0.928
0.929
0.929
0.930
Рис. 10. Распределение показателей (n = 32) плотности птиц
лесопарка «Затюменский»
— 42 —
Заключение. Выборочное среднее арифметическое X  S X =
= 51,38±4,19; выборочное среднее квадратическое отклонение
S x = ±23,7;
As = 0,023±0,41
коэффициент
асимметрии
( Акритичесое = 0,621, n = 35); коэффициент эксцесса Е х = 0,26±0,81
( Е критическое = 0,85, n = 36). Коэффициенты асимметрии и эксцесса
меньше критических значений (см. табл. 1, 2). Критерий Колмогорова–Смирнова d = 0,05138, Р > 0,2 (значимость больше 0,05); вероятность Лилиефорса Р > 0,2 (значимость больше 0,5). Критерий Шапиро–Уилка W = 0,983 > 0,93; Р = 0,88591 (значимость больше
0,05). Принимается нулевая гипотеза. Распределение не отличается
от нормального.
Вывод. Коэффициент асимметрии и эксцесса больше критических значений. Уровень значимости критерия Колмогорова–
Смирнова (d), Шапиро–Уилка больше 0,05. Распределение отвечает
нормальному типу.
Пример 2. Приведены показатели плотности птиц (особей/км²)
в лесопарке № 2.
172,5 175,0 177,5 180,0 101,0 102,7 70,0
59,3
57,6 55,9 54,2 52,5 50,8 49,1
44,0
42,3 39,6 37,1 34,6 32,1 29,6
67,5
2,0
27,1
65,0
1,9
24,6
62,5
47,4
22,1
61,0
45,7
Проведите оценку соответствия эмпирических частот теоретическим на основе коэффициента асимметрии (Аs), коэффициента
эксцесса (Ех), сравнения гистограммы выборочного распределения
с кривой нормального распределения, по критериям: Колмогорова–
Смирнова (d), Шапиро–Уилка, вероятности Лилиефорса.
Результаты обработки. Средний показатель плотности птиц
X  S X = 63,8±8,53; среднее квадратическое отклонение Sx = ±48,3
особей/км2; коэффициент асимметрии Аs  S As = 1,51±0,44; коэффициент эксцесса Ex± = 1,61±0,81; дисперсия S2 =
= 2333,7 особей/км2.
— 43 —
 ( хi  X )2 =
Критерий Колмогорова–Смирнова d = 0,28211, Р < 0,05 (значимость меньше 0,05); вероятность Лилиефорса Р < 0,01 (значимость
меньше 0,05). Критерий Шапиро–Уилка W = 0,79206, Р = 0,00003
(значимость меньше 0,05). Гипотеза 1: распределение отличается
от нормального.
Заключение.
Выборочное
среднее
арифметическое
X  S X = 63,8±8,31; выборочное среднее квадратическое отклонение
S x = ±48,3;
коэффициент
асимметрии
As = 1,51±0,44
( Акритичесое = 0,621, n = 35); коэффициент эксцесса Е х = 1,61±0,81
( Е критическо е = 0,85, n = 36). Коэффициент асимметрии больше критического значения (см. табл. 1). Коэффициент эксцесса больше
критического значения (см. табл. 2). Критерий Колмогорова–
Смирнова d = 0,26211, Р < 0,05 (значимость меньше 0,05); вероятность Лилиефорса Р < 0,01 (значимость меньше 0,05) (рис. 11).
Критерий Шапиро–Уилка W = 0,79206, Р = 0,00003 (значимость
меньше 0,05). Нулевая гипотеза не принимается. Распределение
отличается от нормального.
Рис. 11. Распределение показателей (n = 32) плотности птиц лесопарка № 2
— 44 —
Вывод. Коэффициенты асимметрии и эксцесса больше критических значений. Уровень значимости Шапиро–Уилка и вероятность
Лилиефорса меньше 0,05. Распределение не отвечает нормальному
типу.
При проверке нормальности распределения статистические
программы определяют:
 ( f  f / )2 ,
 критерий хи-квадрат:  2 
f/
где f — фактические частоты; f / — теоретические частоты.
Вычисленное значение хи-квадрат (критерий соответствия)
сравнивается со стандартным с учетом числа степеней свободы.
Символ 2 не является квадратом какого-либо числа, выражает
лишь исходную величину отклонения фактического распределения
от теоретического;
2

1
2k 1
 критерий омега-квадрат: 2  n   f (t ) 
,

12
2n 
оценивает различия между распределениями на всем интервале
выборочных значений. Критерий омега-квадрат (  2 ) менее исследован, нет таблиц критических значений. Оценивается уровень

1
значимости Р = 2,383 e3118W, где W = n 2 1 .
 2n 
Рассчитанный уровень значимости сравнивается с первым
уровнем значимости Р = 0,05. Если рассчитанный уровень Р больше 0,05, распределение соответствует нормальному типу.
2.2. ПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ СРАВНЕНИЯ СРЕДНИХ
В биологических исследованиях постоянно приходится сравнивать выборочные совокупности (данные контроля и опыта, сходные признаки у разных групп растений и животных) [7], [8], [17].
О различии сравниваемых групп судят по разности значений их
выборочных показателей, но так как выборочные показатели —
— 45 —
величины случайные, варьирующие вокруг своих генеральных параметров, то разность между ними может возникнуть не вследствие
систематически действующих на признак в одной группе и не действующих в другой группе причин, а чисто случайно. Поэтому возникает необходимость установления истинной значимости различий. С этой целью требуется проанализировать нулевую гипотезу
(Но), согласно которой первоначально предполагается, что между
изучаемыми показателями достоверного различия нет, а выявленные различия являются случайными. То есть, принять Но — значит
согласиться с тем, что выборочные совокупности взяты из одной
генеральной совокупности. Отклонить нулевую гипотезу (принять
альтернативную гипотезу На), то есть признать, что различие между показателями достоверно с определенной вероятностью (95%,
99%, 99,9%).
При сравнении совокупностей, имеющих нормальный тип распределения, для проверки истинности нулевой гипотезы используют параметрические критерии оценок: критерий Фишера (F), критерий Стьюдента (Т), для которых функции распределения известны
[10], [12]. Для каждого критерия имеется таблица (см. табл. 9, 10), в
которой обозначены критические точки, отвечающие определенным числам степеней свободы и принятым уровням значимости.
Критерий Фишера используют для оценки равенства генеральных дисперсий 12   22 . На основе критерия Фишера проверяется
нулевая гипотеза об отсутствии разницы между дисперсиями. Если
разницы между дисперсиями нет, то разница между средними
арифметическими не обусловлена влиянием случайных причин.
Определяют критерий Фишера (F) нахождением отношения
выборочных дисперсий: F =
S12
.
S22
Фактическое значение F сравнивается со стандартными значениями, приведенными в табл. 10. Значения критерия Фишера при
уровнях значимости Р ≤ 0,05, Р ≤ 0,01 и Р ≤ 0,001. Стандартное значение F зависит от степеней свободы 1 = n1 – 1 и 2 = n2 – 1. Нулевая гипотеза о равенстве дисперсий двух выборок принимается,
— 46 —
если Fфакт. ≤ Fst.. Дисперсия характеризует внутригрупповую изменчивость. Если дисперсии равны, наблюдаемая разница между
выборочными средними обусловлена влиянием изучаемого фактора. Разница между средними арифметическими не обусловлена
влиянием случайных причин. Критерий Фишера повышает точность оценки разности между генеральными параметрами, особенно при использовании малочисленных выборок.
Таблица 10
Стандартные значения критерия Фишера
(дисперсионное отношение Фишера)
2
y1
3
4
5
6
7
8
9
1
2
3
4
5
6
7
8
9
10
11
167,5
34,1
10,1
74,1
21,2
7,7
47,0
16,3
6,6
148,5
30,8
9,6
61,2
18,8
6,9
36,6
13,3
5,8
141,1
29,5
9,3
56,1
16,7
6,6
33,2
12,1
5,4
137,1
28,7
9,1
53,4
16,0
6,4
31,1
11,4
5,2
134,6
28,2
9,0
51,7
15,5
6,3
29,8
11,0
5,1
132,9
27,9
8,9
50,5
15,2
6,2
28,8
10,7
5,0
131,8
27,7
8,9
49,8
15,0
6,1
28,2
10,5
4,9
130,6
27,5
8,8
49,0
14,8
6,0
27,6
10,3
4,8
130,0
27,5
8,8
48,6
14,7
6,0
27,3
10,2
4,8
129,5
27,2
8,8
48,2
14,7
6,0
27,0
10,1
4,7
128,9
27,1
8,8
47,8
14,5
5,9
26,7
10,0
4,7
35,5 27,0 23,7 21,9 20,8 20,0 19,5 19,0 18,8 18,5 18,3
13,4 10,9 9,8 9,2 8,8 8,5 8,3 8,1 8,0 7,9 7,8
6,0
5,1
4,8 4,5 4,3 4,3 4,2 4,1 4,1 4,1 4,0
29,2 21,7 18,8 17,2 16,2 15,5 15,1 14,6 14,4 14, 13,1
8,5 7,9 7,5 7,2 7,0 6,8 6,7 6,6 6,5
12,3 9,6
4,4 4,1 4,0 3,9 3,8 3,7 3,7 3,6 3,6
4,7
5,6
25,4 18,5 15,8 14,4 13,5 12,9 12,5 12,0 11,8 11,6 11,4
11,3 8,7
7,6 7,0 6,6 6,4 6,2 6,0 5,9 5,8 5,7
5,3
4,6
4,1 3,8 3,7 3,6 3,5 3,4 3,4 3,3 3,3
22,9 16,4 13,9 12,6 11,7 11,1 10,8 10,4 10,2 10,0 9,8
10,6 8,0
7,0 6,4 6,1 5,8 5,6 5,5 5,4 5,3 5,2
5,1
4,8
3,6 3,6 3,5 3,4 3,3 3,2 3,2 3,1 3,1
— 47 —
Окончание табл. 10
2
y1
1
21,0
10 10,0
5,0
19,7
11
9,7
4,8
18,6
12 9,3
4,8
17,8
13 9,1
4,7
17,1
14 8,9
4,6
16,6
15 8,7
4,5
2
14,9
7,9
4,1
13,8
7,2
4,0
12,3
6,9
3,9
12,3
6,7
3,8
11,8
6,5
3,7
11,3
6,4
3,7
3
4
5
12,3 11,3 10,5
6,6 6,0 5,6
3,7 3,5 3,3
11,6 10,4 9,6
6,2 5,7 5,3
3,6 3,4 3,2
10,8 9,6 8,9
6,0 5,4 5,1
3,5 3,3 3,1
10,2 9,1 8,4
5,7 5,2 4,9
3,4 3,2 3,0
9,7 8,6 7,9
5,6 5,0 4,7
3,3 3,1 3,0
9,3 8,3 7,6
5,4 4,9 4,6
3,3 3,1 2,9
6
7
8
9
10
11
9,9
5,4
3,2
9,1
5,1
3,1
8,4
4,8
3,0
7,9
4,6
2,9
7,4
4,5
2,9
7,1
4,3
2,8
9,6
5,2
3,1
8,8
4,9
3,0
8,1
4,7
2,9
7,6
4,4
2,8
7,1
4,3
2,8
6,8
4,1
2,7
9,2
5,1
3,1
8,4
4,7
3,0
7,7
4,5
2,9
7,2
4,3
2,8
6,8
4,1
2,7
6,5
4,0
2,6
9,0
5,0
3,0
8,2
4,6
2,9
7,5
4,4
2,8
7,0
4,2
2,7
6,6
4,0
2,7
6,3
3,9
2,6
8,9
4,9
2,9
8,0
4,5
2,9
7,4
4,3
2,8
6,9
4,1
2,7
6,5
3,9
2,6
6,2
3,8
2,6
8,7
4,8
2,9
7,8
4,5
2,9
7,2
4,2
2,7
6,7
4,0
2,6
6,3
3,9
2,6
6,0
3,7
2,5
При равенстве дисперсий объектов в выборках проверка гипотезы о равенстве выборочных средних производится:
1) на основе статистики Стьюдента:
Т факт. 
Χ1  Χ 2
S12  S22
,
если Т факт.  Т st . ( Т st . из табл. 10. Стандартные значения критерия
Стьюдента для принятого уровня значимости и числа степеней
свободы   n1  n 2  2 ; n1 — число объектов в первой выборке,
n2 — число объектов во второй выборке), то разница достоверна;
— 48 —
2) на основе сравнения критерия Стьюдента для парных переменных:
Т факт. 
d
n
 n:S2 ,
S 2 определяется по выборке составленной из разности парных
элементов двух сравниваемых выборок. Если Т факт.  Т st . ( Т st . из
табл. 11. Стандартные значения критерия Стьюдента для принятого
уровня значимости и числа степеней свободы   n1  1 , n — число пар), то разница достоверна.
Таблица 11
Стандартные значения критерия Стьюдента
(критерия достоверности разности)
Число
степеней
свободы, 
1
2
3
4
5
7
8
9
10
11
12
13
14
15
Вероятность, Р
0,95
12,7
4,30
3,18
2,78
2,57
2,37
2,31
2,26
2,23
2,20
2,18
2,16
2,15
2,13
0,99
0,999
Число
степеней
свободы, 
63,66 637,0
9,93 31,60
5,84 12,94
4,60 8,61
4,03 6,86
3,50 5,41
3,36 5,04
3,25 4,78
3,17 4,49
3,11 4,44
3,06 4,32
3,01 4,22
2,98 4,14
2,95 4,07
— 49 —
16
17
18
19
20
22
23
24
25
26
27
28
29
30
Вероятность, Р
0,95
0,99
0,999
2,12
2,11
2,10
2,09
2,09
2,07
2,07
2,06
2,06
2,06
2,05
2,05
2,05
2,04
1,96
2,92
2,90
2,88
2,86
2,85
2082
2081
2,80
2,79
2,78
2,77
2,76
2,76
2,75
2,58
4,02
3,97
3,92
3,88
3,85
3,79
3,77
3,75
3,73
3,71
3,69
3,67
3,66
3,65
3,29
Если выборки не парные:
 при равенстве дисперсий критерий определяется по формуле:
Т d  n m(n  m  2) : (( m 1)S х2  (n 1) S у2 (n  m) ;
 при неравенстве дисперсий:
Т  Х 1  Х 2 
n m
.
m S x2  n S y2
Для каждого критерия программа STATISTICA определяет
уровень значимости и сравнивает с уровнем значимости Р ≤ 0,05.
Если показатель значимости оцениваемого критерия больше 0,05,
разница между генеральными средними не достоверна.
Если показатель значимости оцениваемого критерия меньше
0,05 разница между генеральными параметрами достоверна. Результат, полученный при сравнении выборок, будет наблюдаться
при сравнении генеральных совокупностей у 95 особей из каждых
100 сравниваемых.
После проверки критерия Фишера рассчитывают критерий
Стьюдента — Т-статистика для оценки разности между выборочными средними. Критерий Стьюдента проверяет нулевую гипотезу
о равенстве выборочных средних. В зависимости от результатов
сравнения дисперсий применяют различные формулы вычислений
Т-статистики: для непарных выборок при равенстве дисперсий; для
непарных выборок при неравенстве дисперсий (используется критерий Уэлча); для парных выборок. При Тфакт. ≥ Тst. (см. табл. 11)
разница между выборочными средними установлена.
Для каждой статистики вычисляется уровень значимости Р соответствующей нулевой гипотезы отсутствия различий. Если Р ≥ 0,05
нулевая гипотеза может быть принята. В случае нескольких выбранных переменных вычисления производятся для всех пар переменных.
Если условия применения параметрических критериев сравнения средних не выполнимы, то необходимо использовать непараметрические критерии сравнения средних.
— 50 —
Пример 1. Оценены показатели плотности птиц в двух лесопарках им. Ю. А. Гагарина и «Затюменский».
Показатели плотности птиц (особей/км²) в лесопарке им. Ю. А. Гагарина (рекреационная нагрузка 16 чел./ч).
1,3
45,2
82,7
112,0 136,0 34,0 112,1
96,3 50,3 91,5 56,6
64,3 80,5 665 78,3
35,0 101,5 35,5 106,9 40,1 101,7
86,6 60,5 86,7 55,4 84,1 62,7
68,7 76,1 70,1 86,4 72,3
Показатели плотности птиц (особей/км²) в лесопарке «Затюменский» (рекреационная нагрузка 21 чел./ч).
72,5
59,3
44,0
75,0
57,6
42,3
77,5
55,9
39,6
80,0 101,0 102,7 70,0
54,2 52,5 50,8 49,1
37,1 34,6 32,1 29,6
67,5
2,0
27,1
65,0
1,9
24,6
62,5
47,4
22,1
61,0
45,7
Определите для этих лесопарков показатели средней плотности
птиц, дисперсии, ошибок средних арифметических. Проведите
сравнение этих выборок на основе критерия Фишера и Стьюдента.
Результаты обработки. Оценка параметров на основе описательной статистики:
X 1  S X1  73,06±4,96, S 12  787,75.
X 2  S X 2 = 51,38±4,19, S 22  562,92.
Оценка нормальности 1-й выборки. Критерий Колмогорова–
Смирнова d = 0,06349, значимость = >0,2; значимость Лилиефорса >0,2; критерий Шапиро–Уилка W = 0,98943, значимость
0,98473 > 0,05. Распределение не отличается от нормального.
Оценка нормальности 2-й выборки. Критерий Колмогорова–
Смирнова d = 0,05138, значимость = >0,2; значимость Лилиефорса >0,2; критерий Шапиро–Уилка W = 0,98332, значимость
0,88591 > 0,05. Распределение соответствует нормальному типу.
Оценку достоверности разности между средними арифметическими следует провести на основе параметрических критериев достоверности оценок.
— 51 —
Для запуска программы в верхнем меню Statistics надо выбрать
команду Basic Statistic/Tables (Основные статистики/Таблицы). Откроется меню команды, в котором Т-критерий представлен четырьмя процедурами:
 Т-test, independent, by variables (Т-критерий для независимых
выборок) применяется, если надо сравнить средние двух независимых выборок;
 Т-test, independent, by groups (Т-критерий для независимых
выборок с группирующей переменной) используется, если надо
сравнить средние двух независимых групп, полученных из одной
выборки при помощи группирующей переменной;
 Т-test, dependent samples (Т-критерий для зависимых выборок) применяется, если надо сравнить средние двух зависимых
групп;
 t-test, single samples (простые выборки) используется для
оценки достоверности выборочных средних.
Для оценки достоверности разности между средними арифметическими независимых выборок (пример 1) необходимо определить:
 t-test, single samples (простые выборки) используется для
оценки достоверности выборочных средних;
 Т-test, independent, by variables (Т-критерий для независимых
выборок).
Рис. 12. Определение t-test, single samples (простые выборки)
Судить о том, как та или иная выборочная величина характеризует соответствующий параметр генеральной совокупности позволяет критерий достоверности выборочного показателя. Он обозначается буквой t с подстрочным знаком того показателя, для
— 52 —
которого он вычисляется: t X 
X
SX
— критерий достоверности
средней арифметической.
Если критерий достоверности t > 3, то есть выборочный показатель превышает в три раза свою ошибку Χ 3 S Χ , такая выборка
достоверно характеризует генеральную совокупность.
По 1-й выборке t = 12,25 > 3; Р = 0,0 < 0,05. Выборочное среднее арифметическое достоверно характеризует генеральное среднее. По 2-й выборке t = 14,72 > 3; Р = 0,0 < 0,05. Выборочное среднее арифметическое достоверно характеризует генеральное среднее
(рис. 12).
Если критерии достоверности выборочных показателей меньше
трех (t < 3), то выборочные показатели меньше трех своих ошибок
( X 3 S X , S x 3 S S x , S x 2 3 S s 2 ), такая выборка не может быть исx
пользована для характеристики генеральной совокупности.
Рис. 13. Определение Т-test, independent, by variables
(Т-критерий для независимых выборок)
Критерий Фишера = 1,39; Р = 0,35 > 0,05 (стандартное значение
Фишера = 1,84 при числах степеней свободы 31 и 31). Принимается нулевая гипотеза. Нет различий между выборочными дисперсиями. Разница между средними арифметическими не обусловлена
влиянием случайных причин.
Статистика Стьюдента = 3,33; Р = 0,001 < 0,05 (стандартное
значение статистики Стьюдента = 2,0 при числе степеней свободы = 62). Разница между средними арифметическими достоверна
(рис. 13).
— 53 —
Пример 2. Охарактеризуйте зависимые выборки (результаты
двух оценок показателей плотности птиц в лесопарке «Затюменский») по следующему плану:
 описательная статистика;
 гистограмма и тест нормальности;
 критерии достоверности оценок (критерий Фишера, критерий
Стьюдента).
Выборка 1
65,3
36,5
71,6
1,1
52,7
97,0
63,2
39,7
73,7
2,1
49,4
938
61,1
43,0
75,8
26,9 59,0 30,1 56,9 33,3 54,8
46,2 106,2 67,4 104,2 69,5 100,1
90,6 78,5 88,1 81,7 84,5
Выборка 2
72,5
59,3
44,0
75,0
57,6
42,3
77,5
55,9
39,6
80,0 101,0 102,7 70,0
54,2 52,5 50,8 49,1
37,1 34,6 32,1 29,6
67,5
2,0
27,1
65,0
1,9
24,6
62,5
47,4
22,1
61,0
45,7
Заключение. Оценка параметров выборок:
X 1  S X  62,62  4,82 , S12  743,65.
1
X 2  S X  51,38  4,19, S 22  562,63.
2
Оценка нормальности 1-й выборки. Критерий Колмогорова–
Смирнова d = 0,055, значимость = >0,2; значимость Лилиефорса >0,2;
критерий Шапиро–Уилка W = 0,97120, значимость 0,53914 > 0,05.
Распределение не отличается от нормального.
Оценка нормальности 2-й выборки. Критерий Колмогорова–
Смирнова d = 0,05138, значимость = >0,2; значимость Лилиефорса >0,2; критерий Шапиро–Уилка W = 0,98322, значимость
0,88591 > 0,05. Распределение соответствует нормальному типу.
Для оценки достоверности разности между средними арифметическими зависимых выборок (пример 2) необходимо определить:
 t-test, single samples (простые выборки) используется для
оценки достоверности выборочных средних;
— 54 —
 Т-test, dependent samples (Т-критерий для зависимых выборок) применяется, если надо сравнить средние двух зависимых
групп.
Рис. 14. Определение T-test, single samples
(Т-критерий для простых выборок)
По 1-й выборке t = 12,99 > 3; Р = 0,0 < 0,05. Выборочное среднее арифметическое достоверно характеризует генеральное среднее. По 2-й выборке t = 12,25 > 3; Р = 0,0 < 0,05. Выборочное среднее арифметическое достоверно характеризует генеральное среднее
(рис. 14).
Рис. 15. Определение T-test, dependent samples
(Т-критерий для зависимых выборок)
Критерий Фишера = 1,14 (стандартное значение статистики
Фишера = 1,84 при числе степеней свободы 31,31). Нет различий
между выборочными дисперсиями. Разница между средними
арифметическими не обусловлена влиянием случайных причин.
Критерий Стьюдента для парных значений 1,39 (стандартное
значение = 2,04 при числе степеней свободы = 31), значимость =
= 0,17 больше 0,05. Разница между средними арифметическими не
достоверна (рис. 15).
— 55 —
Для оценки достоверности разности между средними арифметическими независимых выборок (пример 3) необходимо определить: T-test, independent, by groups (Т-критерий для независимых
выборок с группирующей переменной). Метод используется при
сравнении групп, полученных из одной выборки при помощи группирующей переменной (рис. 16).
Рис. 16. Сравнение групп, сформированных с помощью
группирующей переменной
Пример 3. Оценены показатели плотности птиц в двух лесопарках г. Тюмени парке им. Ю. А. Гагарина и «Затюменский».
Показатели плотности птиц (особей/км²) в лесопарке им. Ю. А. Гагарина (рекреационная нагрузка 16 чел./ч).
1,3
45,2
82,7
112,0 136,0 34,0 112,1
96,3 50,3 91,5 56,6
64,3 80,5 665 78,3
35,0 101,5 35,5 106,9 40,1 101,7
86,6 60,5 86,7 55,4 84,1 62,7
68,7 76,1 70,1 86,4 72,3
— 56 —
Показатели плотности птиц (особей/км²) в лесопарке «Затюменский» (рекреационная нагрузка 21 чел./ч).
72,5
59,3
44,0
75,0
57,6
42,3
77,5
55,9
39,6
80,0 101,0 102,7 70,0
54,2 52,5 50,8 49,1
37,1 34,6 32,1 29,6
67,5
2,0
27,1
65,0
1,9
24,6
62,5
47,4
22,1
61,0
45,7
Оценка параметров выборок:
X 1  S X1  73,05  4,96, S12  787,75.
X 2  S X 2  51,38  4,19, S 22  562,97.
По 1-й выборке t = 14,72 > 3; Р = 0,0 < 0,05. Выборочное среднее
арифметическое достоверно характеризует генеральное среднее.
По 2-й выборке t = 12,25 > 3; Р = 0,0 < 0,05. Выборочное среднее
арифметическое достоверно характеризует генеральное среднее.
Рис. 17. Определение Т-критерия для независимых выборок
с группирующей переменной (T-test, independent, by groups)
Для оценки достоверности разности между средними арифметическими выборок (пример 3) необходимо оценить T-test, independent, by groups (Т-критерий для независимых выборок с группирующей переменной) (рис. 17).
Критерий Фишера = 1,39; Р = 0,35 > 0,05 (стандартное значение
Фишера = 1,84 при числах степеней свободы 31 и 31). Принимается нулевая гипотеза. Нет различий между выборочными дисперсиями. Разница между средними арифметическими не обусловлена
влиянием случайных причин.
— 57 —
Статистика Стьюдента = 3,33; Р = 0,001 < 0,05 (стандартное
значение статистики Стьюдента = 2,0 при числе степеней свободы = 62). Разница между средними арифметическими достоверна.
2.3. НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ СРАВНЕНИЯ СРЕДНИХ
Непараметрические методы не базируются на каком-либо предположении о законе распределения данных; используют, как правило, только предположения о случайном характере исходных данных и непрерывности генеральной совокупности, из которой они
извлечены; не используют оценку параметров (среднего арифметического и стандартного отклонения), описывающих распределение
переменной. Эти методы иногда называют свободно распределенными методами или методами, свободными от параметров (не основывающимися на оценке параметров: среднего арифметического
или стандартного отклонения).
Критерии непараметрических методов разделяются на следующие группы:
 критерии различия между группами (независимые выборки):
критерий Вальда–Вольфовица, критерий Манна–Уитни, двухвыборочный критерий Колмогорова–Смирнова; при сравнении нескольких групп: критерий Краскела–Уоллиса и медианный тест;
 критерии различия между переменными (зависимые выборки): критерий знаков, критерий Вилкоксона; хи-квадрат Макнемара
(для категориальных переменных); при сравнении нескольких
групп: критерий Фридмана, критерий Кохрена;
 критерии зависимости между переменными: статистика
Спирмена, Кендалла тау, коэффициент гамма; хи-квадрат, коэффициент фи; при оценке зависимости между несколькими переменными коэффициент конкордации Кендалла; критерии зависимости
между переменными будут приведены в разделе 5 «Методы оценки
связи между признаками».
Непараметрические критерии определяются при работе:
 с совокупностями, распределение которых не соответствует
нормальному типу;
— 58 —
 с признаками, выражающимися не числами, а условными
знаками (рангами);
 с выборками малого объема.
Для запуска непараметрических методов в меню Статистика
нужно выбрать Непараметрические данные (Nonparametrics). Непараметрические критерии объединены в группы (рис. 18): 2 х 2 tables;  2 observed versus exrected; correlations (Spearman, Kendall tau,
gamma); comparing two independent samples (groups); comparing multiple independent samples (groups); comparing two dependent samples
(variables); comparing multiple dependent samples (variables); Cohran
test.
Рис. 18. Непараметрические методы сравнения групп в системе
STATISTICA
2.3.1. Сравнение независимых выборок
При сравнении двух независимых выборок (comparing two independent samples, groups) определяются: критерий Вальда–Вольфовица, критерий Манна–Уитни, двухвыборочный критерий Колмогорова–Смирнова.
— 59 —
Критерий Вальда–Вольфовица представляет собой непараметрическую альтернативу Т-критерия для независимых выборок.
Данные должны содержать группирующую переменную, имеющую
по крайней мере два различных кода. После выбора функции сравнения двух независимых групп в диалоговом окне нужно выбрать
группирующую (кодовую) переменную и список анализируемых
переменных. Критерий Вальда–Вольфовица проверяет гипотезу о
том, что две независимые выборки извлечены из двух совокупностей, которые различаются не только средними, но также формой
распределения (нулевая гипотеза состоит в том, что обе выборки
извлечены из одной и той же генеральной совокупности). Наблюдения 1-й выборки (m) и наблюдения 2-й выборки (n) упорядочивают по возрастанию, исследуют распределение серий (серией называют цепочку значений, соответствующих одной группе и
примыкающих к другой в вариационном ряду) признака, относящихся к одной и той же группе.
Пример 1. Оценена плотность птиц в двух лесопарках «Затюменский» (З) и им. Ю. А. Гагарина (Г).
Плотность
1,1 2,1 26,9 30,1 59,0 61,1 63,2 65,3 70 72,5 75 77,5 80 101 102
птиц
Лесопарки Г Г Г Г Г Г Г Г З З З З З З З
Ранг
1 2 3
4
5
6
7
8 9 10 11 12 13 14 15
Число серий (цепочка значений, соответствующих одной группе и примыкающих в вариационном ряду к другой группе) равно
двум, N = 2 (одна серия элементов З и одна серия элементов Г).
В табл. 12 критические значения сериального критерия Вальда–
Волфовица минимальное число серий N1 = 3; максимальное число
серий N2 = 14 (при m = 7, m — число показателей плотности птиц
лесопарка «Затюменский» — З; и n = 8, n — число показателей
плотности птиц лесопарка им. Ю. А. Гагарина — Г). Число серий
(N = 2) меньше минимального числа серий N1 = 3.
Программа STATISTICA при сравнении распределений выборок рассчитывает Z-статистику по формуле:
— 60 —
 2 m  n 
2 m n(2 m n  m  n)
.
Z = N –
1
 nm

( m  n) 2 (m  n 1)
 278 
278(278  7 8)
Z  2 
1
3, 48.
 7 8

(7 8) 2 (7 8 1)
Для значения Z = –3,48 уровень значимости Р = 0,000498 < 0,05
(рис. 19). Альтернативная гипотеза о неравенстве средних
( X 1  71,4 и X 2 102,5 ) сравниваемых групп подтверждается.
Рис. 19. Сравнение групп на основе критерия Вальда–Волфовица
(Wald–Wolfwitz runs test)
Гипотезу о принадлежности сравниваемых независимых выборок к одной и той же генеральной совокупности можно проверить с
помощью рангового критерия Манна–Уитни (Mann Whitney U Test).
Для этого после ранжирования отдельно для каждой выборки
находится сумма рангов (пример 1): по показателям плотности птиц
лесопарка «Затюменский» сумма рангов R1 = 84; по показателям
плотности птиц лесопарка им. Гагарина сумма рангов R2 = 36.
Таблица 12
Критические значения N1 и N2 сериального критерия
Вальда–Вольфовица
M
N
1
2
2
2
2
3
P > 0,95
N2
N1
3
4
1
5
1
6
M
N
5
3
3
6
17
18
— 61 —
Р > 0,95
N2
N1
7
8
2
8
2
8
Окончание табл. 12
1
2
3
4
5
6
7
8
2
4
1
6
3
19
2
8
2
5
1
6
3
20
2
8
2
6
1
6
4
4
1
9
2
7
1
6
4
5
1
9
2
8
1
6
4
6
2
10
2
9
1
6
4
7
2
10
2
10
1
6
4
8
2
10
2
11
1
6
4
9
2
10
2
12
1
6
4
10
2
10
2
13
1
6
4
11
2
10
2
14
1
6
4
12
3
10
2
15
1
6
4
13
3
10
2
17
1
6
4
14
3
10
2
18
1
6
4
15
3
10
2
19
2
6
4
16
3
10
3
3
1
7
4
17
3
10
3
6
1
8
4
20
3
10
3
7
1
8
5
5
2
10
3
8
1
8
5
6
2
11
3
9
2
8
5
7
2
11
3
10
2
8
5
8
3
12
3
11
2
8
5
9
3
12
3
12
2
8
5
10
3
12
3
13
2
8
5
11
3
12
3
14
2
8
5
12
3
12
3
15
2
8
5
13
3
12
3
16
2
8
7
8
3
14
— 62 —
На основе рангов определяется U-критерий по формулам:
U1 = R1 – (n1(n1 + 1)) : 2 = 84 – 7(7 + 1) : 2 = 56.
U2 = R2 – (n2(n2 + 1)) : 2 = 36 – 8(8 + 1) : 2 = 0.
Для меньшей величины U-критерий программа STATISTICA
рассчитывает Z-статистику и устанавливает уровень значимости.
U-критерий = 0; Z-статистика = –3,18; Р = 0,0014 меньше 0,05
(рис. 20). Альтернативная гипотеза о неравенстве средних
( X 1  82,6 и X 2  38,6 ) сравниваемых групп подтверждается.
Рис. 20. Сравнение групп на основе критерия Манна–Уитни
(Mann Whitney U Test)
Двухвыборочный критерий Колмогорова–Смирнова проверяет
гипотезу о том, что исследуемые выборки извлечены из одной и
той же генеральной совокупности. Он основан на максимуме абсолютного значения разности (положительной и отрицательной) эмпирических функций первой и второй выборки и определении значимости Р. При Р больше 0,05 нулевая гипотеза (отсутствие
различий между выборками) может быть принята. При Р меньше
0,05 нулевая гипотеза (отсутствие различий между выборками) не
может быть принята, следовательно, между выборками разница
достоверна.
Значимость двухвыборочного критерия Колмогорова–Смирнова меньше 0,05 (см. рис. 21). Альтернативная гипотеза о неравенстве средних ( X 1  82,6 и X 2  38,6 ) сравниваемых групп подтверждается.
— 63 —
Рис. 21. Сравнение групп на основе критерия Колмогорова–Смирнова
Сравнение нескольких независимых групп проводится на основе критерия Краскела–Уоллиса и медианного теста. Методика определения критерия Краскела–Уоллиса и медианного теста приведена в разделе 3 «Дисперсионный анализ факторных эффектов».
2.3.2. Сравнение зависимых групп
При сравнении двух зависимых групп (comparing two dependent
samples, variables) определяют: критерий знаков (Sign test), критерий Вилкоксона (Wilcoxon test), которые являются непараметрической альтернативой T-критерия сравнения средних в двух зависимых выборках.
Критерий знаков основан на подсчете количества положительных разностей между значениями переменных до и после повторных измерений; определяет количество положительных разностей.
Критерий Вилкоксона находит отдельно суммы положительных
и отрицательных разностей. Меньшую из сумм разностей без учета
знака программа использует в качестве критерия.
Пример 1. Необходимо оценить по показателю плотности птиц
две зависимые выборки.
Выборка 1
72,5 75,0 77,5 80,0 101,0 102,7 70,0 67,5 65,0 62,5 61,0 59,3 57,6 55,9 54,2
Выборка 2
65,3 1,1 63,2 2,1 61,1 26,9 59,0 30,1 56,9 333 54,8 36,5 52,7 39,7 49,4
Рис. 22. Сравнение зависимых групп на основе критерия знаков (Sign test)
— 64 —
Количество отрицательных разностей равно 15 (или 100%).
Z-статистика = 3,61; Р = 0,000301 < 0,05 (рис. 22).
Величину Z для критерия знаков находят по формуле:
Zs 
S
n
2.
n
4
При n < 36 используется поправка на непрерывность k = 0,5. На
основании Z устанавливается значимость. Если полученный уровень значимости меньше 0,05, гипотеза о различии между выборками принимается.
Сумма положительных разностей равна 0. Сумма отрицательных разностей равна 120. Критерий Вилкоксона Т(W) = 0. Z-статистика = 3,407; Р = 0,00065 < 0,05 (рис. 23).
Рис. 23. Сравнение зависимых групп на основе критерия Викоксона
(Wilcoxon test)
Величину Z для критерия Вилкоксона находят по формуле:
n(n 1)
15(15 1)
0
4
4
Zw 

 3, 4 .
15(15 1)(215 1)
n(n 1)(2n 1)
24
24
W
При сравнении нескольких зависимых групп используется критерий Фридмана (comparing multiple dependent variables). Методика
определения критерия Фридмана приведена в разделе 3 «Дисперсионный анализ факторных эффектов».
— 65 —
2.3.3. Сравнение номинальных (категориальных) переменных
При сравнении номинальных переменных двух выборок используются критерии группы 2 х 2 (Chi-square, V-square, Phi-square,
Fisher exact, Mcnemar — хи-квадрат Макнемара; Chi-square A\D,
Chi-square B\C).
Пример 1. В опытах по радиоактивному мутагенезу дрозофилы
получены следующие данные: в контрольной группе число хромосом без мутации 32140, хромосом с летальной мутацией 63; в
опытной группе соответственно 15281 и 649 (рис. 24).
Результаты сравнения. Критерии группы 2 х 2: Chi-square =
= 1100,07, Р = 0,00; V-square = 1100,04, Р = 0; Vates corrected Chisquare = 1097,4, Р = 0,0; Phi-square = 0,02285; Mcnemar Chi-square
(A\D = 15091,1, Р = 0,0; Chi-square B\C).
Заключение. Все критерия сравнения долей имеют значение
Р < 0,05. Облучение вызывает достоверную долю летальных мутаций у дрозофилы.
Рис. 24. Выбор показателей при сравнении частот двух выборок
При сравнении частот (или долей) нескольких зависимых выборок используют критерий Кохрена (Соchran). Для критерия Кохрена исходные данные должны быть в номинальной шкале либо
искусственно закодированы как единицы и нули. Выбранные переменные имеют значения 0 или 1; при использовании других кодов,
они должны быть заданы в поле ввода программы.
— 66 —
Пример 2. Группа домашних животных (n = 18) получала лекарственное средство в составе корма утром, в обед, вечером. Определить, влияет ли время суток на потребление корма животными.
Номинальные значения для сравнения зависимых групп приведены
в табл. 13.
Таблица 13
Номинальные значения для сравнения зависимых групп
№
п/п
1
2
3
4
5
6
7
8
9
Потребление корма
Утро
Обед
Вечер
нет
да
нет
нет
да
да
да
нет
да
нет
да
да
нет
нет
да
да
да
нет
нет
нет
нет
нет
нет
нет
нет
нет
нет
№
п/п
10
11
12
13
14
15
16
17
18
Потребление корма
Утро
Обед
Вечер
нет
да
да
да
да
да
да
да
да
нет
да
да
да
да
да
да
да
да
нет
да
да
нет
нет
нет
да
нет
нет
Число объектов в зависимых группах = 18; критерий Кохрена
Q = 16,66; Р = 0,00240 < 0,05 (рис. 25). При включении лекарственного средства в корм утром и в обед процент животных, получивших
лекарство, составил 72,2. При вечерней даче лекарственного средства достоверно увеличилось число животных, не съевших корм
(Р < 0,05).
Рис. 25. Сравнение номинальных значений на основе критерия Кохрена
— 67 —
В разделе Другие критерии значимости (Меню Основные статистики/Таблицы) программа проводит сравнение: 2-х коэффициентов корреляции; 2-х средних арифметических (при нормальности
распределения); 2-х пропорций.
Пример 3. Проведите сравнение двух коэффициентов корреляций: r1 = 0,98 (n1 = 10) и r2 = 0,15 (n2 = 10).
Результаты. Уровень значимости разницы между коэффициентами корреляции Р = 0,001 < 0,05. Разница между коэффициентами корреляции достоверна.
Пример 4. Проведите сравнение двух средних арифметических
(нормальное распределение):
X 1  4427, S x1 497; X 2  4433, S x2 499 ; n1 = 30, n2 = 30.
Результаты. Уровень значимости разницы между средними
арифметическими Р = 0,96 > 0,05. Разница между средними арифметическими не достоверна.
Пример 5. Проведите сравнение двух пропорций (долей):
р1 = 0,214 (21,4%) и р2 = 0,639 (63,9%), n1 = 30, n2 = 30.
Результаты. Уровень значимости разницы между долями
Р = 0,0015 < 0,05. Разница между долями достоверна.
ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ
Задание 1. Приведены показатели плотности птиц (особей/км²)
в лесопарках г. Тюмени, с разной плотностью рекреационной нагрузки:
а) лесопарк «Затюменский» (рекреационная нагрузка 21 чел./ч):
102,7
3,7
22,2 57,4
7,4 9,3
5,6
1,9
16,7
3,7
1,9
1,9
4,3
1,9
22,2 24,1
14,8 1,9
7,4
1,9
16,7
1,9
13
1,9
б) лесопарк «Гилевская роща» (рекреационная нагрузка 16 чел./ч):
78,2
67,3
1,8
39,3 30,9 130,2 10,9
7,3
7,3
1,8
1,1
7,3 9,1
7,3
1,8
3,6
3,6
1,8
— 68 —
7,3
1,8
18,2
1,1
1,8
3,6
10,9
1,8
27,3
1,1
Проведите сравнение независимых выборок по следующему
плану: описательная статистика; гистограмма и тесты нормальности; критерий достоверности выборочных средних арифметических; критерии достоверности оценок (критерий Фишера, статистика Стьюдента).
Задание 2. Для контроля развития проведены взвешивания
группы кроликов (кг). Сравните зависимые выборки по следующему плану:
 описательная статистика;
 гистограмма и тесты нормальности;
 критерии достоверности выборочных средних арифметических;
 критерии достоверности оценок (критерий Фишера, критерий
Стьюдента).
Выборка 1
1,9
2,3
1,8
2,4
1,5
3,2
3,0
1,3
2,1
2,7
2,2
2,9
2,1
2,5
3,0
1,6
2,3
1,3
1,2
2,1
2,0
1,6
1,0
2,6
2,2
1,8
2,5
2,1
1,9
1,9
3,7
2,0
2,8
3,4
2,9
3,6
2,8
3,2
3,7
2,3
3,0
2,0
1,9
2,8
2,7
2,3
1,7
3,3
2,9
2,5
3,2
2,8
2,6
2,6
Выборка 2
2,6
3,0
2,5
3,1
2,2
3,9
КОНТРОЛЬНЫЕ ВОПРОСЫ
1. Объясните применение параметрических критериев достоверности оценок.
2. Каковы особенности нормального распределения?
3. При решении каких вопросов используют функции нормального распределения?
4. Объясните применение критериев Фишера и Стьюдента,
статистики Стьюдента.
5. Объясните применение критерия Манна–Уитни, двухвыборочного критерия Колмогорова–Смирнова, критерия Вальда–Вольфовица.
— 69 —
3. ДИСПЕРСИОННЫЙ АНАЛИЗ
ФАКТОРНЫХ ЭФФЕКТОВ
Дисперсионный анализ (Analysis of variance) — метод оценки
влияния одного или нескольких качественных переменных (факторов) на зависимую количественную переменную. При использовании дисперсионного анализа исследуемая совокупность данных
разделяется на группы, отличающиеся по уровню факторов. Достоверность отличий средних арифметических нескольких групп метод дисперсионного анализа оценивает одновременно [12], [13],
[15].
3.1. ПАРАМЕТРИЧЕСКИЕ МЕТОДЫ ОЦЕНКИ ФАКТОРНЫХ ЭФФЕКТОВ
В основе метода дисперсионного анализа (Analysis of variance)
лежит сравнение средних арифметических путем анализа (разложения на компоненты) общей дисперсии.
1. В случае однофакторного дисперсионного анализа общая
дисперсия представляет сумму двух слагаемых:
S y2 общая = S x2 факт. + S z2 случ.,
где S x2 факт. — дисперсия, определяемая влиянием изучаемого фактора; S z2 случ. — дисперсия, определяемая вариацией случайных факторов.
2. В случае двухфакторного дисперсионного анализа общая
дисперсия представляет сумму четырех слагаемых:
S y2 общая = S x2 А + S x2 В + S x2 АВ + S z2 случ.,
где S x2 А и S x2 В — дисперсии, обусловленные вариацией факторов
А и В; S x2 АВ — дисперсия, определяемая совместным действием
факторов А и В.
— 70 —
При проведении дисперсионного анализа формируется дисперсионный комплекс — система выборочных совокупностей, объединенных для совместного изучения. Дисперсионные комплексы
могут быть сформированы как при планировании исследований,
так и на основе эмпирических данных.
При формировании дисперсионных комплексов должны быть
соблюдены следующие условия:
1) выборки, включаемые в дисперсионный комплекс должны
составляться по принципу рандомизации, то есть способом случайного отбора; число выборок соответствует числу факторов или
числу градаций факторов;
2) действующие на признак регулируемые факторы должны
быть независимыми друг от друга.
Если оценивают действие на признак одного регулируемого
фактора, дисперсионный комплекс называют однофакторным. Если
одновременно оценивают действие на признак двух, трех и большего числа регулируемых факторов, комплекс называют многофакторным.
Выборки, включаемые в дисперсионный комплекс, могут быть
одинаковые по объему или равномерные; неодинаковые по объему
или неравномерные.
При отсутствии достоверной разницы между дисперсиями выборок, зависимости между средними арифметическими и стандартными отклонениями выборок, при соответствии распределения в
выборках нормальному типу дисперсионный анализ проводят на
основе параметрических методов.
Проверка однородности дисперсий проводится на основе статистических критериев Левена, Кохрена, Хартли, Бартлетта, М-критерия Бокса. Если уровень значимости критериев больше 0,05,
принимается нулевая гипотеза об отсутствии разницы между дисперсиями групп, измеренных при различных значениях факторов.
Соответствие распределения зависимой переменной нормальному типу оценивается на основе коэффициента асимметрии — As
(при нормальном распределении As = 0), коэффициента эксцесса —
Ex (при нормальном распределении Ex = 0) и критериев нормаль— 71 —
ности (критерий Колмогорова–Смирнова — d, критерий Шапиро–
Уилка — W). Нулевая гипотеза (распределение соответствует нормальному типу) принимается при превышении уровня значимости
критериев значения 0,05.
Оценка достоверности разницы между средними арифметическими определяется на основе F-критерия (критерий Фишера
F
Sx
2
Sz
2
). Нулевая гипотеза (средние арифметические, или по
крайней мере одно из нескольких средних арифметических, отличаются от остальных) отвергается, если уровень значимости F-критерия меньше 0,05.
Для проведения дисперсионного анализа в верхнем меню
STATISTICA нужно выбрать команду Analysis of variance (Анализ
варианс), появится стартовое окно ANOVA/MANOVA.
В левой части стартового окна приведены виды анализа (Type
of analysis), в правой части — задание метода (Specification
method).
Виды анализа представлены различными моделями дисперсионного анализа:
 однофакторный дисперсионный анализ (one-way ANOVA) —
используют для оценки влияния одного фактора на одну или более
зависимых переменных;
 дисперсионный анализ главных эффектов (main effects
ANOVA) — используют для оценки большого числа факторов на
зависимые переменные, при этом программа проводит оценку
главных эффектов;
 многофакторный дисперсионный анализ (factorial ANOVA) —
в отличие от метода main effects ANOVA учитывает взаимодействие факторов, при этом программа проводит оценку эффекта одного фактора в зависимости от уровня других факторов;
 дисперсионный анализ повторных измерений (repeat measuries ANOVA) — используют при наличии повторных измерений
зависимых переменных (рис. 26).
— 72 —
Рис. 26. Виды дисперсионного анализа в системе STATISTICA
Список Specification method позволяет задать три типа интерфейса дисперсионного анализа:
 диалог быстрых спецификаций (quick specs dialog) — позволяет задать зависимые и факториальные переменные;
 мастер анализа (analysis wizard) — предназначен для задания
анализа в рамках выбранной модели;
 редактор анализа (analysis syntax editor) позволяет полностью
настроить параметры плана и вычислительных процедур.
Рассмотрим статистический однофакторный комплекс (система
разнородных групп, объединенных для совместного изучения).
Пример 1. Приведены показатели плотности птиц (особей/км²) в
лесопарках г. Тюмени с разной степенью рекреационной нагрузки:
а) лесопарк «Затюменский» (рекреационная нагрузка 21 чел./ч):
72,5
59,3
44,0
75,0
57,6
42,3
77,5
55,9
39,6
80,0 101,0 102,7 70,0
54,2 52,5 50,8 49,1
37,1 34,6 32,1 29,6
— 73 —
67,5 65,0
2,0
1,9
27,1 24,6
62,5 61,0
47,4 45,7
22,1
б) парк им. Ю. А. Гагарина (рекреационная нагрузка 16 чел./ч):
1,3
45,2
82,7
112,0 136,0 34,0 112,1
96,3 50,3 91,5 56,6
64,3 80,5 66,5 78,3
35,0 101,5 35,5 106,9 40,1 101,7
86,6 60,5 86,7 55,4 84,1 62,7
68,7 76,1 70,1 86,4 72,3
в) лесопарк «Гилевская роща» (рекреационная нагрузка 9 чел./ч):
65,3
36,5
71,6
1,1
52,7
97,0
63,2
39,7
73,7
2,1
49,4
93,8
61,1
43,0
75,8
26,9 59,0 30,1 56,9 33,3 54,8
46,2 106,2 67,4 104,2 69,5 100,1
90,6 78,5 88,1 81,7 84,5
Необходимо провести сравнение плотности птиц (особей/км²) в
лесопарках с разной рекреационной нагрузкой на основе дисперсионного анализа.
Для задания плана в диалоговом окне дисперсионного анализа в
качестве вида анализа нужно выбрать однофакторный дисперсионный анализ (one-way ANOVA) и диалог быстрых спецификаций
(quick specs dialog) в списке Specification method. На вкладке Quick
нужно выбрать переменные (Variables). В появившемся окне нужно
определить независимую (лесопарки) и зависимую (плотность птиц
(особей/км²) в лесопарках) переменные (рис. 27).
Рис. 27. Выбор переменных для однофакторного дисперсионного анализа
— 74 —
После этого программа отображает результаты анализа. В таблице всех эффектов (table of all effects) программа выводит значения: суммы квадратов отклонений выборочных средних от общего
для всех выборок среднего (SS — summ of squares); суммы квадратов отклонений объектов в выборках от их средних (SE — summ of
error); дисперсии, вызванной учтенным фактором (или средний
квадрат эффекта S x2  MS 
SS
, где k — число градаций изуk 1
чаемого фактора); дисперсии, вызванной случайными факторами
SE
, где N — число
N k
2
Sx
изученных объектов); F-критерий (критерий Фишера F  2 );
Sz
(или средний квадрат ошибки S z2  ME 
уровень значимости критерия Фишера (значимые эффекты Р < 0,05
в таблице (table of all effects) помечаются знаком *).
Как видно из табл. 14, нулевая гипотеза о равенстве средней плотности птиц (особей/км²) в лесопарках «Затюменский», им. Ю. А. Гагарина, «Гилевская роща» не принимается.
Таблица 14
Стандартная таблица однофакторного дисперсионного анализа
Изменчивость
Факториальная, х
(межгрупповая
средняя)
Остаточная, z
(варианты внутри
группы)
Число
Варианса Степень Уровень
Сумма
степеней или средний влияния значимоквадратов
свободы
квадрат факторов
сти
(SS, SE)
(MS, ME)
(F)
(P)
(1, 2)
7522,6
2
3761,3
64927,6
93
698,1
— 75 —
5,38
0,0061*
Уровень значимости Р = 0,0061 (критерия Фишера) меньше
0,05. Значение F = 5,38 критерия больше Fα = 3,11 (1 = 2, 2 = 93).
Для проверки предположений, лежащих в основе метода дисперсионного анализа, проведена оценка однородности дисперсий
сравниваемых групп на основе критерия Левена (рис. 28). Для этого использована вкладка Предположения (Assumptions) в окне
ANOVA Results1. Уровень значимости критерия Левена составляет
0,59 (больше 0,05). Принята нулевая гипотеза об отсутствии разницы между дисперсиями плотности птиц (особей/км2) разных лесопарков.
Рис. 28. Оценка однородности дисперсий сравниваемых групп
Значительная корреляция между средними арифметическими
плотности птиц (особей/км2) в лесопарках г. Тюмени с разной плотностью рекреационной нагрузки и стандартными отклонениями не
установлена. Для оценки корреляции между средними арифметическими плотности птиц и стандартными отклонениями использована
вкладка Plot means vs. Std. devations в окне ANOVA Results1.
На основе коэффициента асимметрии — As (0,02; –0,44; –0,21),
коэффициента эксцесса — Ex (Ex = 0,26; –0,15; 0,38) и критериев
нормальности (критерий Колмогорова–Смирнова — d (0,05; 0,05;
0,06), критерий Шапиро–Уилка — W (0,98; 0,97; 0,98)) установлено
соответствие распределения плотности птиц (особей/км2) в лесопарках нормальному типу. Таким образом, на основе разложения
общей дисперсии на составляющие компоненты и их сравнения
установлена достоверная разница при одновременном сравнении
выборочных средних арифметических ( X 1  51,3; X 2  73,0;
X 3  62,6 ) (рис. 29).
— 76 —
Рис. 29. Средние арифметические сравниваемых групп
и дисперсионного комплекса
Многофакторный дисперсионный анализ (main ANOVA) проведен по оценке на показатели плотности птиц (особей/км²) разной
степени рекреационной нагрузки: 21 чел./ч — лесопарк «Затюменский», 16 чел./ч — парк им. Ю. А. Гагарина, 9 чел./ч — лесопарк
«Гилевская роща» и разных методов оценки (1 — стандартный,
2 — интегрированный) (табл. 15).
Пример 2. Показатели плотности птиц (особей/км2) в лесопарках г. Тюмени с разной степенью рекреационной нагрузки и разных методах оценки.
Таблица 15
Показатели плотности птиц в лесопарках
при оценке разными методами
Метод оценки
Затюменский
Лесопарки
им. Ю. А. Гагарина
72,5;77,5;101;
70;65;61;57,6;
Стандарт54,2; 50; 8;2;
ный
47,4;44; 39,6;34,
6;29,6;24,6
1,3;34;112,1;35,5;
86,4;106,9;45,2;
96,3;50,3;56,6;
86,6;60,5;55,4;
84,1;62,7;78,3;68,7
112;136;35;
75;80;102,7;67,5;
101,5;40,1;101,7;
Интегри- 62,5;59,3;55,9;52,5;
91,5;86,7;82,7;
рованный 49,1;1,9;45,7;42,3;
64,3;80,5;66,5;
37,1;32,1;27,1; 22,1
76,1;70,1;72,3
— 77 —
Гилевская роща
2,1;106,2;100,1;93,8;
88,1;81,7;75,8;71,6;
67,4;63,2;56,9;54,8;
49,4;43;36,5;30,1
1,1;104,2;97;90,6;
84,5;78,5;73,5;
69,5;5,3;59;54,8;
56,9;52,7;46,2;39,7;
33,3;26,9
Многофакторный дисперсионный анализ (main effects ANOVA)
проводит оценку эффекта каждого фактора, а также учитывает
влияние неконтролируемых факторов, то есть вариаций значений
внутри отдельного уровня фактора.
Для задания плана в диалоговом окне дисперсионного анализа в
качестве вида анализа нужно выбрать многофакторный дисперсионный анализ (main effects ANOVA) и диалог быстрых спецификаций (quick specs dialog) в списке Specification method. На вкладке
Quick нужно выбрать переменные (Variables). В появившемся окне
нужно определить независимые переменные (степень рекреационной нагрузки и метод оценки) и зависимую переменную (плотность
птиц, особей/км²). После этого программа отображает результаты
анализа. В таблице всех эффектов (table of all effects) программа
выводит значения суммы квадратов отклонений выборочных средних от общего для всех выборок среднего: SS х A — сумма квадратов отклонений, вызванных первым фактором (А), SS х B — сумма
квадратов отклонений, вызванных вторым фактором (В); суммы
квадратов отклонений объектов в выборках от их средних (SE —
summ of error); дисперсии, вызванные учтенными факторами (или
2
средний квадрат эффекта А: S х A  MS х A 
2
S х B  MS х B 
SS х A
, эффекта В:
m 1
SS х B
, где m — число градаций фактора A, n —
n 1
число градаций фактора В); дисперсии, вызванной случайными
факторами (или средний квадрат ошибки S z2  ME 
SE
, где
N k
N — число изученных объектов); F-критерий (критерий Фишера
FA 
Sх A
Sz
2
2
, FB 
Sх B
Sz
2
2
); уровень значимости критерия Фишера
(значимые эффекты Р < 0,05 в таблице (table of all effects) помечаются знаком *).
— 78 —
Как видно из табл. 16 нулевая гипотеза о равенстве плотности
птиц (особей/км²) при разной степени рекреационной нагрузки не
принимается. Уровень значимости Р = 0,0059 (критерия Фишера
FA = 5,41) меньше 0,05. Значение критерия FA = 5,41 больше
Fα = 3,11(1 = 2, 2 = 92). Нулевая гипотеза о равенстве плотности
птиц (особей/км²) при использовании разных способов оценки
принимается. Уровень значимости Р = 0,4846 (критерия Фишера
FВ = 0,4923) больше 0,05.
Таблица 16
Стандартная таблица многофакторного дисперсионного анализа
(main effects ANOVA)
Изменчивость
Факториальная,
лесопарки, А
(межгрупповая
средняя)
Число
Варианса, Степень
Сумма квадстепеней или средний влияния
ратов
свободы квадрат факторов
(SS, SE)
(MS, ME)
(F)
(1, 2)
7599,3
Факториальная,
методы, В (меж345,6
групповая средняя)
Остаточная, z (варианты внутри
64582,1
группы)
Уровень
значимости (P)
2
3799,6
5,41
0,0059*
1
345,6
0,4923
0,4846
92
702,0
Проверка предположений (однородность дисперсий сравниваемых групп, корреляции между средними арифметическими и
стандартными отклонениями, соответствие распределений нормальному типу), лежащих в основе метода дисперсионного анализа, проводится так же, как при однофакторном дисперсионном
анализе.
— 79 —
На основе разложения общей дисперсии на составляющие компоненты и их сравнения установлена достоверная разница при одновременном сравнении средних показателей плотности птиц в лесопарках с разной рекреационной нагрузкой ( X 1  51,3; X 2  73,0
X 3  62,6 ) (рис. 30).
Рис. 30. Средние арифметические сравниваемых групп
и дисперсионного комплекса
Многофакторный дисперсионный анализ (factorial ANOVA)
проведен по оценке разной степени рекреационной нагрузки:
21 чел./ч — лесопарк «Затюменский», 16 чел./ч — парк им.
Ю. А. Гагарина, 9 чел./ч — лесопарк «Гилевская роща» и разных
методов оценки (1 — стандартный, 2 — интегрированный) на показатели плотности птиц (особей/км²). Многофакторный дисперсионный анализ (factorial ANOVA) проводит оценку эффекта каждого
фактора, а также учитывает взаимодействие факторов, при этом
программа проводит оценку эффекта одного фактора в зависимости от уровня других факторов.
Для задания плана в диалоговом окне дисперсионного анализа в
качестве вида анализа нужно выбрать многофакторный дисперсионный анализ (factorial ANOVA) и диалог быстрых спецификаций
(quick specs dialog) в списке Specification method. На вкладке Quick
нужно выбрать переменные (Variables). В появившемся окне нужно
определить независимые переменные (степень рекреационной на— 80 —
грузки и метод оценки) и зависимую переменную (плотность птиц,
особей/км²). После этого программа отображает результаты анализа. В таблице всех эффектов (table of all effects) программа выводит
значения суммы квадратов отклонений выборочных средних от
общего для всех выборок среднего: SS х A — сумма квадратов отклонений, вызванных первым фактором (А), SS х B — сумма квадратов отклонений, вызванных вторым фактором (В), SS х AB —
сумма квадратов отклонений, вызванных взаимодействием факторов А и В; суммы квадратов отклонений объектов в выборках от их
средних (SE — summ of error); дисперсии, вызванные учтенными
2
факторами (или средний квадрат эффекта А: S х A  MS х A 
2
эффекта В: S х B  MS х B 
SS х A
,
m 1
SS х B
, средний квадрат эффекта АВ:
n 1
SS х AB
, где m — число градаций фактора A,
(m 1)(n 1)
n — число градаций фактора В); дисперсии, вызванной случайныS х 2AB  MS х AB 
ми факторами (или средний квадрат ошибки S z2  ME 
SE
,
N k
где N — число изученных объектов); F-критерий (критерий Фишера FA 
Sх A
Sz
2
2
, критерий Фишера FB 
Sх B
Sz
2
2
); уровень значимо-
сти критерия Фишера (значимые эффекты Р < 0,05 в таблице (table
of all effects) помечаются знаком *).
Как видно из табл. 17 нулевая гипотеза о равенстве плотности
птиц (особей/км²) при разной степени рекреационной нагрузки не
принимается. Уровень значимости Р = 0,0051 (критерия Фишера
FA = 5,59) меньше 0,05. Значение критерия FA = 5,59 больше
Fα = 3,1 (1 = 2, 2 = 90). Нулевая гипотеза о равенстве плотности
птиц (особей/км²) при использовании разных способов оценки
— 81 —
принимается. Уровень значимости Р = 0,4824 (критерия Фишера
FВ = 0,49) больше 0,05.
Нулевая гипотеза о равенстве плотности птиц (особей/км²) при
разной степени рекреационной нагрузки и способах оценки принимается. Уровень значимости Р = 0,3227 (критерия Фишера
FAB = 1,11) больше 0,05. Значение критерия Фишера FAB = 1,11
меньше Fα = 3,1 (1 = 2, 2 = 90).
Таблица 17
Стандартная таблица многофакторного дисперсионного анализа
(factorial ANOVA)
Изменчивость
Факториальная
(реакреация, А)
(межгрупповая
средняя)
Факториальная
(метод, В) (межгрупповая средняя)
Межфакторное
взаимодействие
(АВ)
Остаточная, z (варианты внутри
группы)
Число
Варианса,
Степень
Сумма
степеней или средний влияния
квадратов
свободы квадрат
факторов
(SS, SE)
(MS, ME)
(F)
(1, 2)
Уровень
значимости
(P)
7837,5
2
3918,8
5,59
0,0051*
348,3
1
348,3
0,49
0,4824
1560,0
2
780,0
1,11
0,3227
63022,1
90
700,2
Проверка предположений (однородность дисперсий сравниваемых групп, корреляции между средними арифметическими и стандартными отклонениями, соответствие распределений нормальному типу), лежащих в основе метода дисперсионного анализа,
проводится так же, как при однофакторном дисперсионном анализе.
— 82 —
На основе разложения общей дисперсии на составляющие компоненты и их сравнения установлена достоверная разница при одновременном сравнении средней плотности птиц при разных методах оценки ( X1  51,3; X 2  73,0; X 3  62,6) (рис. 31).
Рис. 31. Средние арифметические сравниваемых групп
и дисперсионного комплекса
Рассмотрим дисперсионный анализ с повторными измерениями. В диалоговом окне дисперсионного анализа в качестве вида
анализа нужно выбрать дисперсионный анализ с повторными измерениями (repeat measures ANOVA) и диалог быстрых спецификаций (quick specs dialog) в списке Specification method. На вкладке
Quick нужно выбрать переменные (Variables). В появившемся окне
нужно определить независимые (степень рекреационной нагрузки
и метод оценки) и зависимые переменные начальная оценка плотности птиц (особей/км²) и повторная оценка плотности птиц (особей/км²) (см. рис. 32).
— 83 —
Рис. 32. Выбор переменных для дисперсионного анализа
с повторными измерениями признака
Чтобы зависимые переменные были рассмотрены как двухуровневый фактор повторных измерений, в программу нажатием
кнопки внутригрупповые эффекты (within effects) нужно задать имя
фактору (плотность — R1) и количество измерений (2) (рис. 33).
Рис. 33. Выбор фактора и количества измерений
— 84 —
После этого программа отображает результаты анализа. В таблице всех эффектов (table of all effects) программа выводит значения
(с учетом повторного измерения) суммы квадратов отклонений выборочных средних от общего для всех выборок среднего: SS х A —
сумма квадратов отклонений, вызванных первым фактором
(А), SS х B — сумма квадратов отклонений, вызванных вторым фактором (В), SS х AB — сумма квадратов отклонений, вызванных взаимодействием факторов А и В; суммы квадратов отклонений объектов в выборках от их средних (SE — summ of error); дисперсии,
вызванные учтенными факторами (или средний квадрат эффекта
2
А: S х A  MS х A 
SS х A
SS х B
2
, эффекта В: S х B  MS х B 
, средний
m 1
n 1
SS х AB
, где m — чис(m 1)(n 1)
ло градаций фактора A, n — число градаций фактора В); дисперсии, вызванной случайными факторами (или средний квадрат
квадрат эффекта АВ: S х 2AB  MS х AB 
SE
, где N — число изученных объектов);
N k
2
2
Sх A
Sх B
F-критерий (критерий Фишера FA 
, FB 
); уровень
2
2
Sz
Sz
ошибки S z2  ME 
значимости критерия Фишера (значимые эффекты Р < 0,05 в таблице (table of all effects) помечаются знаком *).
Как видно из табл. 18, гипотеза о неравенстве плотности птиц
(особей/км²) верна для эффектов: степень рекреационной нагрузки
(лесопарки), при сравнении начальной и повторной оценки плотности птиц (R1), степень рекреационной нагрузки при сравнении начального и повторного измерений (R1*Лесопарки). Уровень значимости (Р = 0,003) критерия Фишера F = 5,99 для эффекта
степень рекреационной нагрузки меньше 0,05. Уровень значимости
(Р = 0,000) критерия Фишера F = 118,4 при сравнении начальной
и повторной оценки плотности птиц (R1) меньше 0,05.
— 85 —
Таблица 18
Стандартная таблица многофакторного дисперсионного анализа
с повторными измерениями признаков (repeat measures ANOVA)
Изменчивость
Лесопарки
Число
Варианса, Степень Уровень
Сумма
степеней или средний влияния значимоквадратов свободы
квадрат факторов сти
(SS, SE)
( 1 ,  2 ) (MS, ME)
(F)
(Р)
16674,0
2
8337,0
5,99
0,003*
Методы оценки
726,5
1
726,5
0,52
0,471
Лесопарки*Мет. оц.
3105,0
2
1552,5
1,11
0,331
125142,0
90
1390,5
R1
21,1
1
21,1
118,41
0,000*
R1* Лесопарки
49,0
2
24,5
137,73
0,000*
R1* Методы оц.
0,3
1
0,3
1,77
0,186
R1*Лесоп.*Мет. оц.
0,1
2
0,1
0,40
0,669
Error
160
90
0,2
Error
Уровень значимости (Р = 0,000) критерия Фишера F = 137,7
для эффекта степень рекреационной нагрузки при сравнении начального и повторного измерений (R1*Лесопарки) меньше 0,05.
Проверка предположений (однородность дисперсий сравниваемых групп, корреляции между средними арифметическими и
стандартными отклонениями, соответствие распределений нормальному типу), лежащих в основе метода дисперсионного анализа, проводится так же, как при однофакторном дисперсионном
анализе.
На основе разложения общей дисперсии на составляющие компоненты и их сравнения установлена достоверная разница при одновременном сравнении средних измерений плотности птиц в лесопарках с разной рекреационной нагрузкой.
— 86 —
Параметрический F-критерий (критерий Фишера F 
Sx
2
Sz
2
),
проверяющий нулевую гипотезу об отсутствии различий между
средними значениями групп, измеренных при различных значениях
фактора, достаточно устойчив к неоднородности дисперсий, к отклонениям от нормального распределения. Умеренное отклонение
от нормального распределения и небольшое различие дисперсий
существенно не отражаются на результатах анализа. Асимметрия
распределения также незначительно влияет на величину F-критерия. Значительно влияет на F-критерий эксцесс. Если эксцесс
больше нуля, то значение F-критерия может стать очень маленьким. При этом принимается нулевая гипотеза, хотя она может быть
и неверна. Ситуация меняется на противоположную сторону, когда
эксцесс меньше нуля. Значительно влияют на F-критерий корреляции между средними арифметическими и стандартными отклонениями групп. При наличии корреляции между средними арифметическими и стандартными отклонениями групп F-критерий может
обнаруживать статистически значимый эффект.
В таких случаях для сравнения средних арифметических используются непараметрические критерии факторных эффектов
(критерий Краскела–Уоллиса, медианный тест, критерий Фридмана). Непараметрические критерии факторных эффектов применяются при неизвестных априорных распределениях.
3.2. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ ОЦЕНКИ
ФАКТОРНЫХ ЭФФЕКТОВ
Непараметрические (ранговые) методы однофакторного анализа для нескольких выборок, полученных при различных уровнях
исследуемого фактора, оценивают факторный эффект с помощью
двух критериев: Краскела–Уоллиса (Kruskal–Wallis) и медианный
тест (Median Test).
Для оценки факторных эффектов на основе непараметрических
методов в верхнем меню STATISTICA нужно выбрать команду
— 87 —
Непараметрические критерии (Nonparametrics). Для оценки факторных эффектов применяют: comparing two independent samples
(groups), comparing multiple dependent samples (variables) (рис. 34).
Рис. 34. Выбор метода для сравнения нескольких независимых групп
Пример 1. В течение пяти дней в лесопарках с разной рекреационной нагрузкой проведена оценка плотности птиц (особей/км²).
Плотность птиц (особей/км²) в лесопарках: «Затюменский» —
1,1; 2,1; 26,9; 61,1; 101,0; им. Ю. А. Гагарина — 30,1; 59,0; 63,2; 77,5;
102,7; «Гилевская роща» — (особей/км²): 65,3; 70,0; 72,5; 75,0; 80.
Определить достоверность разницы плотности орнитофауны в
лесопарках за учетный период времени.
Для сравнения нескольких групп (multiple independent samples
(groups) определяются: критерий Краскела–Уоллиса (Kruskal–
Wallis) и медианный тест (Median Test).
Для вычисления критерия Краскела–Уоллиса (Н) определяется:
для каждой варианты ранг (Ri); по каждой выборке: сумма рангов,
средний ранг ( Ri ) (рис. 35).
— 88 —
Рис. 35. Результаты сравнения групп на основе критерия
Краскела–Уоллиса
Средний ранг по лесопаркам: R1  5,2; R2  8,6; R3 10, 2. Определение критерия Краскела–Уоллиса проводится по формуле:
12
N 1 2
 ni ( Ri 
) 
N ( N 1)
2
12

(39, 2 1,8  24, 2)  3, 26.
1516
H
Уровень значимости (Р = 0,1959) критерия Краскела–Уоллиса
Н = 3,26 больше 0,05. Достоверные различия между средними показателями плотности птиц в изученных лесопарках не установлены. Нулевая гипотеза об отсутствии факторного эффекта принимается.
Использование медианного теста основано на сравнении эмпирических и теоретических частот значений, превышающих и не
превышающих медиану. На основе сравнения эмпирических (observed frequency) и теоретических (exрected frequency) частот рассчитывается хи-квадрат (  2 ). Рассчитанное значение  2 = 3,75
меньше стандартного значения  станд.2 = 5,99;  = 2 (см. табл. 19).
Уровень значимости Р = 0,1534 (критерия соответствия  2 = 3,75)
больше 0,05 (см. рис. 36).
— 89 —
Рис. 36. Результаты сравнения групп на основе медианного теста
Верна гипотеза о равенстве показателей средней плотности
птиц сравниваемых лесопарков г. Тюмени.
Таблица 19
Стандартные значения критерия соответствия 
Число
степеней
свободы, ()
Значимость, Р
0,05
0,01
Число
степеней
свободы, ()
2
Значимость, Р
0,05
0,01
1
2
3
4
5
6
1
2
3
4
5
6
7
8
9
10
11
12
3,84
5,99
7,81
9,49
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
6,63
9,21
11,34
13,28
12,83
16,81
18,48
20,09
21,67
23,21
24,72
26,22
20
21
22
23
24
25
23
24
25
26
27
28
31,41
32,67
33,92
35,17
36,42
37,65
35,17
36,42
37,65
38,89
40,11
41,34
37,57
38,93
40,29
41,64
42,98
44,31
41,64
42,98
44,31
45,64
46,96
48,28
— 90 —
Окончание табл. 19
1
2
3
4
5
6
13
14
15
16
17
18
19
22,36
23,68
25,00
26,30
27,59
28,87
30,14
27,69
29,14
30,58
32,00
33,41
34,81
36,19
29
30
32
50
64
80
100
42,56
43,77
46,194
67,50
83,675
101,88
124,34
49,49
50,89
53,486
76,15
93,217
112,33
135,81
Непараметрические (ранговые) методы двухфакторного анализа
оценивают эффект влияния основного фактора (обработки) на фоне
другого второстепенного фактора (блоки). Предположим, что необходимо проверить эффекты m различных способов получения
показателя. Для этого измеряются значения случайных величин
в n блоках, причем каждому способу соответствует одно измерение
в каждом блоке.
Сравнение проводится на основе непараметрического критерия
Фридмана (comparing multiple dependent variables) (рис. 37).
Рис. 37. Выбор метода для сравнения нескольких зависимых групп
— 91 —
Пример 2. Необходимо оценить достоверность разности между
разными способами определения хлорофилла в листьях растений
десяти видов.
Способ 1:
Способ 2:
Способ 3:
2,1 1,8 1,7 1,8 1,9 2,4 1,7 1,6 1,5 1,7
3,2 4,1 2,3 2,4 2,5 1,2 1,9 2,3 2,4 2,9
4,3 2,3 3,4 3,5 3,6 3,7 3,2 2,8 2,9 3,7
Сумма рангов при применении: способа 1 R1 = 11; способа 2
R2 = 20; способа 3 R3 = 29. Рассчитанное значение критерий Фридмана S = 16,2. Уровень значимости Р = 0,0003 (критерия Фридмана
S = 16,2) меньше 0,05. При сравнении способов определения хлорофилла принимается гипотеза о неравенстве средних.
Оценка критерия Фридмана проводится по формуле:
12
 Ri2  3 n(k 1) 
k (k 1) n
12

(112  202  292 )  310 4 16, 2,
3 410
S
где k — число выборок; n — объем выборки; Ri — сумма рангов в
выборке. При сравнении нескольких групп метод comparing multiple dependent variables определяет также коэффициент конкордации
Кендалла (R = 0,81), коэффициент корреляции средних рангов
(r = 0,78) (рис. 38).
Рис. 38. Результаты сравнения нескольких зависимых групп
— 92 —
Критерии метода comparing multiple dependent variables используются не только в двухфакторном анализе, но и в однофакторном,
в котором вторая переменная представляет повторные измерения,
связанные с одним и тем же объектом. При применении метода
comparing multiple dependent variables столбцы данных соответствуют различным уровням обработки, а строки — группам однородных объектов или повторным наблюдениям для одного и того
же объекта.
ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ
Задание 1. У трех видов цитрусовых деревьев было определено
отношение листовой поверхности к сухой массе листьев. Значимы
ли различия по изучаемому признаку между видами цитрусовых?
1-й вид цитрусовых (А):
111
103
107
87
102
108
112
102
103
102
102
103
97
102
97
98
102
97
92
108
98
103
108
93
108
107
98
103
107
95
97
107
95
84
95
99
79
84
85
89
95
85
89
84
85
89
80
90
89
117
109
110
116
109
116
116
102
117
117
102
123
109
95
122
110
96
2-й вид цитрусовых (Г):
74
90
89
98
89
95
90
84
94
90
82
94
90
94
94
3-й вид цитрусовых (М):
87
102
103
103
103
110
102
116
103
110
109
110
109
109
117
Задание 2. У трех видов цитрусовых деревьев было определено
при трех условиях затенения отношение листовой поверхности к
сухой массе листьев.
— 93 —
Степень
затенения
Вид 1(А)
Вид 2 (Г)
Вид 3 (М)
На солнце
112
90
123
Частичное затенение
86
73
89
В тени
80
62
81
Значимы ли различия по изучаемому признаку: 1) между видами цитрусовых; 2) при разной степени затенения?
КОНТРОЛЬНЫЕ ВОПРОСЫ
1. Какие условия должны соблюдаться при формировании дисперсионных комплексов?
2. В чем разница между параметрическими и непараметрическими критериями оценки факторных эффектов?
3. Объясните применение в биологии дисперсионного анализа.
4. Объясните применение критерия Фишера в дисперсионном
анализе.
5. Составьте план проведения дисперсионного анализа ваших
экспериментальных данных.
6. Докажите целесообразность проведения дисперсионного
анализа при обработке ваших экспериментальных данных.
— 94 —
4. МЕТОДЫ АНАЛИЗА ВЫЖИВАЕМОСТИ
Особенностью методов анализа выживаемости (Survival Analysis) является возможность использования так называемых цензурированных (неполных) данных, когда у анализируемых объектов нет
полной информации (нет данных о наступлении интересующего
исследователя события, например нет данных о ремиссии заболевания в связи с потерей контакта с больным или его переходом в
другую клинику). Вместо удаления таких объектов из анализа методы анализа выживаемости могут обрабатывать такие цензурированные наблюдения.
Если у анализируемых объектов имеются данные о наступлении интересующего исследователя события, данные считаются
полными.
Методы анализа выживаемости (длительностей до момента прекращения) первоначально были развиты в медицинских, биологических, социологических исследованиях. Эти методы в настоящее
время широко используются в экономике (контроль качества, оценка
надежности и т. д.). Они исследуют интервалы времени (вероятностные характеристики) между последовательным возникновением
критических событий. Такого рода исследования называются анализом длительностей до момента прекращения, которые можно определить как интервалы времени между началом наблюдения за объектом и моментом прекращения (failure), при котором объект
перестает отвечать заданным для наблюдения свойствам [20], [21].
Для запуска Методы анализа выживаемости (Survival Analysis)
в меню STATISTICA в разделе Углубленные методы анализа (Advanced Linear\Nonlinear Models) нужно выбрать Анализ выживаемости (Survival Analysis).
В стартовом окне представлены основные процедуры модуля:
таблицы времен жизни и распределения (Life tables & Distributions);
метод множительных оценок Каплана–Мейера (Kaplan & Meier
product-limit method); сравнение двух выборок (Comparing two samples); сравнение нескольких выборок (Comparing multiple samples);
регрессионные модели (Regression models); зависящие от времени
ковариаты (Time-dependent covariates).
— 95 —
4.1. ОПИСАТЕЛЬНЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ
ЦЕНЗУРИРОВАННЫХ ДАННЫХ
(ТАБЛИЦЫ ВРЕМЕН ЖИЗНИ И РАСПРЕДЕЛЕНИЯ)
Наиболее естественный способ описания функции выживания в
выборке — построение таблиц времен жизни. Техника таблиц времен жизни — один из старейших методов анализа данных о выживаемости (времен отказов). Такую таблицу можно рассматривать
как «расширенную» таблицу частот. Область возможных времен
наступления критических событий (смертей, отказов и др.) разбивается на некоторое число интервалов. Для каждого интервала вычисляется число и доля объектов, которые в начале рассматриваемого интервала были «живы», число и доля объектов, которые
«умерли» в данном интервале.
После выбора таблицы времен жизни и распределения (Life tables & Distributions) открывается диалоговое окно таблицы и распределение времен жизни (Life tables & Distribution of Survival
Times). Диалог имеет две вкладки: исходные данные (Raw data) и
таблицы времен жизни (Table of survival times). Первая вкладка соответствует случаю, когда в качестве исходных данных используются необработанные данные — обычная таблица программы
STATISTICA (строки — наблюдения, столбцы — переменные),
вторая вкладка — случаю, когда в качестве входных данных анализа выбрана ранее вычисленная таблица времен жизни (рис. 39).
Рассмотрим применение методов Анализа выживаемости на
примере данных о выживаемости пациентов после проведения
трансплантации сердца [21]. Первые шесть переменных представляют собой даты: дата трансплантации (месяц, день, год). Дата, когда соответствующий пациент умер или был исключен из наблюдения (не было возможности связаться с ним для получения
информации о здоровье) (рис. 40).
В столбце CENSORED приведена информация о наблюдении за
пациентом: либо конкретное наблюдение (COMPLETE), либо цензурированное наблюдение (CENSORED).
— 96 —
Рис. 39. Выбор типа данных для анализа таблицы времен жизни
и распределения
Рис. 40. Выбор переменных для анализа таблицы времен жизни
и распределения
— 97 —
При использовании необработанных данных модуль Survival
Analysis вычисляет число дней между датами (поступления и завершения). После выбора числа интервалов и длины интервала, кода
полных наблюдений и кода цензурированных наблюдений программа составляет развернутую таблицу результатов (табл. 20), которая
включает: начало интервала (interval start); средняя точка интервала
(mid point); длина интервала (interval width); число в начале (number entering); число изучаемых объектов (number exposed); число
отказов на этом интервале (number dying); процент отказов (proportion dead); доля, выживших (proportion surviving); кумулятивная
доля выживших (cumulative proportion surviving) — оценка функции выживания, определяется умножением долей выживших объектов по всем предыдущим интервалам; плотность вероятности
(probability density) — оценка отказа (смерти) в соответствующем
интервале определяется по формуле fi  ( Pi  Pi1 ) / hi , где fi —
оценка вероятности отказа (смерти) в i -м интервале, Pi и Pi 1 —
доля умерших соответственно к началу i -го и ( i 1 )-го интервалов, hi — ширина i -го интервала; функция интенсивности отказов
или функция мгновенного риска (hazard rate) — оценка вероятности того, что объект, выживший к началу соответствующего интервала, умрет (откажет) в течение этого интервала (определяется делением числа смертей на единицу времени соответствующего
интервала на среднее число объектов доживших до середины интервала); функция мгновенного риска используется для прогностических целей; стандартная ошибка кумулятивной доли выживших
(std. err. cumulative proportion surviving); стандартная ошибка плотности вероятности (std. err. probability density); стандартная ошибка
функции интенсивности (std. err. hazard rate); медиана ожидаемого
времени жизни (median life expected); стандартная ошибка медианы
ожидаемого времени жизни (std. err. Life expected).
Для получения надежных оценок трех основных функций
(функции выживания, плотности вероятности и функции интенсивности) и их стандартных ошибок на каждом временном интервале рекомендуется использовать не менее 30 наблюдений.
— 98 —
— 99 —
Из табл. 20 видно, что через 161 день после операции кумулятивная доля выживших составила 67,2%, а через 322 дня — 58,3%,
далее уменьшение доли выживших продолжается, но замедляется
темп. Резкий спад доли выживших наблюдается через 1129 дней и
составляет 34,96%. К концу рассматриваемого периода (через 1775
дней) доля выживших составляет 9,3%.
Наибольшая вероятность смерти больных в первые 161 день
после операции, затем эта вероятность уменьшается до 322 дня,
незначительно возрастает до 806 дня и резко возрастает до 968 дня.
Затем наблюдается спад вероятности смерти до 1129 дня, после
вероятность смерти вновь резко возрастает.
В модуле реализованы также методы сравнения исходных данных с различными типами теоретических функций времен жизни:
экспоненциальное (Exponential), линейная интенсивность (Linear
Hazard), Гомпертца (Gompertz), Вейбулла (Weibull).
Соответствие эмпирического распределения теоретической
функции оценивается с помощью обычного метода наименьших
квадратов (вес 1) и двух методов взвешенных квадратов (вес 2,
вес 3), оценки критериев соответствия и уровня значимости.
Из табл. 21 видно, лучшее соответствие распределению Вейбулла наблюдается при использовании методов взвешенных квадратов. Уровень значимости Р (0,558814) значительно больше 0,05.
При соответствии эмпирического распределения теоретической
функции времен жизни возможно проведение прогноза функций
риска, выживаемости и плотности вероятности (рис. 41, 42).
Таблица 21
Оценка соответствия распределению Вейбулла
Метод
Лямбда
Стд.
ошибка
лямбда
Гамма
Стд.
ошибка
гамма
Хи-квадрат
Степень Уровень
свозначибоды
мости
Вес 1
0,000311 0,000574
1,142 0,269413 31,32401
9
0,000262
Вес 2
0,016002 0,017952
0,644 0,165137 13,50757
9
0,141007
Вес 3
0,051100 0,072230
0,427 0,192170 7,75703
9
0,558814
— 100 —
МНК Оценки риска
Модель: Вейбулла
Замечание: Веса: 1=1., 2=1./V,3=N(I)*H(I)
0,005
Ф_риска
0,004
0,003
0,002
0,001
0,000
0,0000
322,73
645,45
968,18
1290,9
1613,6
1936,4
161,36
484,09
806,82
1129,5
1452,3
1775,0
2097,7
Интервалы
Наблюд.
Вес 1
Вес 2
Вес 3
Рис. 41. Оценка функции риска
МНК Оценки плотности вероятности
Модель: Вейбулла
Замечание: Веса: 1=1., 2=1./V,3=N(I)*H(I)
0,0025
Плотность вер.
0,0020
0,0015
0,0010
0,0005
0,0000
0,0000 322,73 645,45 968,18 1290,9 1613,6 1936,4
161,36 484,09 806,82 1129,5 1452,3 1775,0 2097,7
Интервалы
Рис. 42. Оценка плотности вероятности
— 101 —
Наблюд.
Вес 1
Вес 2
Вес 3
4.2. МЕТОД МНОЖИТЕЛЬНЫХ ОЦЕНОК
КАПЛАНА–МЕЙЕРА
Оценку функции выживаемости метод множительных оценок
проводит без разделения на интервалы, непосредственно используя
время выживания для цензурированных данных — это число дней
до потери контакта с объектом, для полных данных — это число
дней до отказа (смерти). Каплан и Мейер предложили следующую
оценку функции выживаемости:

S (t )  П tj1 (n  j ) / (n  j 1) j .
В этом выражении S(t) — оценка функции выживаемости, n —
общее число объектов, П — произведение (геометрическая сумма)
по всем наблюдениям, завершившимся к моменту t;  j равно единице, если j — наблюдение нецензурированное (полное), равно 0,
если это наблюдение потеряно (цензурированное). Данная оценка
функции выживаемости называется еще множительной оценкой.
Следует отметить, что j — это не номер наблюдения в исходном
файле данных, а номер наблюдения в новом файле, где проведено
упорядочивание по количеству проведенных под наблюдением
дней. Новый файл создается программой после применения процедуры Kaplan & Meier product-limit method.
Для запуска метода множительных оценок Каплана–Мейера в
стартовом окне Анализ выживаемости (Survival Analysis) нужно
выбрать метод множительных оценок Каплана–Мейера (Kaplan &
Meier product-limit method). Рассмотрим применение методов Анализа выживаемости на примере данных о выживаемости пациентов
после проведения трансплантации сердца.
В диалоговом окне нужно указать имена и коды переменных,
как это было сделано в диалоге Таблицы и распределение времен
жизни (Life tables & Distribution of Survival Times). Результаты
оценки на основе метода Каплана–Мейера даны в табл. 22. Данные
в таблице упорядочены по количеству дней, прожитых в больнице.
— 102 —
В первом столбце указаны номера больных в исходном файле (цензурированные данные помечены знаком «+»), во втором — время,
проведенное пациентами в больнице. Из табл. 22 видно, что меньше всего провел в больнице больной с порядковым номером 23 (в
первый же день после операции, он покинул больницу). Больше
всего дней провел в больнице пациент с номером 15. Через 1775
дней после операции он также покинул больницу. Если в столбце
Cumulative Survival отсутствует значение, значит больной выбыл из
больницы (цензурированное наблюдение), если есть значение —
значит больной умер, прожив количество дней, указанное в столбце Time.
Таблица 22
Оценка выживаемости на основе метода Каплана–Мейера
№
пациента
Время
23+
16+
65+
2+
10
46+
64+
1+
9+
42
58+
49
59+
0,000
1,000
1,000
3,000
10,000
12,000
13,000
15,000
23,000
25,000
26,000
29,000
30,000
Кумулята
выживаемости
Стандартная
ошибка
0,983607
0,016259
0,966042
0,023622
0,948153
0,029183
Значение в столбце кумулята выживаемости (Cumulative Survival) показывает вероятность того, что произвольный больной
проживет больше дней, чем указано в соответствующем столбце
«Время». Эта вероятность рассчитывается по формуле Каплана–
Мейера.
— 103 —
Преимущество метода множительных оценок Каплана–Мейера
по сравнению с методом таблиц жизни состоит в том, что оценки
не зависят от разделения времени наблюдения на интервалы.
4.3. СРАВНЕНИЕ ВЫЖИВАЕМОСТИ В ГРУППАХ
Для сравнения выживаемости в группах в модуле Анализ выживаемости (Survival Analysis) предусмотрены две процедуры:
Comparing two samples — для сравнения выживаемости в двух
группах и Comparing multiple samples — для сравнения выживаемости более чем в двух группах (рис. 43).
Для сравнения выживаемости имеется пять различных (в основном непараметрических) критериев: обобщенный Геханом критерий Вилкоксона, F-критерий Кокса, критерий Кокса–Ментеля,
логарифмический ранговый критерий, критерий Вилкоксона–Пето
(рис. 44). Эти критерии дают надежные результаты при достаточно
больших объемах выборок. При малых объемах выборок числовые
критерии сравнения следует сопровождать визуализацией функций
времени жизни. Не существует твердо установленных рекомендаций по применению определенных критериев. Однако известно,
что F-критерий Кокса обычно более мощный, чем критерий Вилкоксона–Гехана, если объемы выборок малы (то есть объем группы
n меньше 50), выборки извлекаются из экспоненциального распределения или распределения Вейбулла, нет цензурированных наблюдений. Критерий Кокса–Ментеля и логарифмический ранговый
критерий более точно проводят сравнение. Если выборки извлечены из экспоненциального распределения или распределения Вейбулла; при этих условиях между этими критериями почти нет различия. При сравнении групп важно проведение проверки доли
цензурированных наблюдений. Различие в степени цензурирования
может приводить к смещению в статистических оценках [20], [21].
Большинство из критериев вычисляют соответствующие
z-значения стандартного нормального распределения. Эти z-значения могут быть использованы для статистической проверки различий между группами.
— 104 —
Для запуска метода сравнения выживаемости в двух группах
Comparing two samples в стартовом окне Анализ выживаемости
(Survival Analysis) нужно выбрать метод Comparing two samples,
который будет рассмотрен по данным двух больниц Hillview и
St_Andreas s [21] (см. рис. 45).
Рис. 43. Выбор исходных данных для сравнения выживаемости в группах
Рис. 44. Диалоговое окно сравнения выживаемости в двух группах
— 105 —
Рис. 45. Исходные данные для сравнения
Рис. 46. Сравнение на основе критерия Кокса
— 106 —
Рис. 47. Сравнение на основе критерия Гехана–Вилкоксона
Результаты оценки непараметрических критериев:
Критерий Гехана–Вилкоксона WW = –2,0, test statistic =
–0,26573, Р = 0,9788 (рис. 46).
F-критерий Кокса F(20,20) = 1,005, Р = 0,49 (рис. 47).
Критерий Кокса–Ментеля U = 0,137, Т = –0,061, Р = 0,95.
Критерий Вилкоксона–Пето WW = 0,028, Т = 0,017, Р = 0,98.
Логранговый критерий WW = 0,137, Т = 0,062, Р = 0,95 (см. рис. 48).
Из величин уровня значимости (Р) всех пяти критериев следует,
что верна гипотеза о равенстве средних продолжительности жизни
больных в обеих клиниках (так как все величины значимости
больше 0,05). То есть по всем критериям следует, что нет существенной разницы между выживаемостью больных в клиниках Hillview и St_Andreas s. Результаты сравнения числа цензурированных,
числа умерших, процент выживших, кумулятивный процент выживших в начале каждого интервала приведены в табл. 23, рис. 49.
— 107 —
— 108 —
Рис. 48. Результаты сравнения на основе критерия Кокса–Ментеля,
критерия Вилкоксона–Пето, логрангового критерия
Рис. 49. Кумулятивная доля выживших по группам
— 109 —
Для сравнения выживаемости в более чем двух группах в стартовом окне Анализ выживаемости (Survival Analysis) нужно выбрать метод Comparing Survival in Multiple Groups, который будет
рассмотрен по данным больниц Hillview, St_Andreas s., Biner [21].
Программа оценивает для каждой больницы число умерших, процент выживших, кумулятивный процент выживших в начале каждого интервала (рис. 50). Кумулятивная функция выживания в
больнице Biner не резко убывает в первое время по сравнению с
двумя другими больницами, и на протяжении длительного периода
значения функции превосходят значения функции, соответствующие клиникам Hillview, St_Andreas s.
Рис. 50. Кумулятивная доля выживших в группах
— 110 —
Пациенты клиники Biner имеют большие шансы выжить не
только в первые критические дни после трансплантации сердца, но
и в последующие дни (  2 = 5,73, Р = 0,056).
ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ
Задание 1. На основе данных городских больниц (г. Тюмень)
проведите оценку эффективности применяемых методов профилактики и лечения болезней путем использования методов модуля
Анализ выживаемости (Survival Analysis).
Задание 2. Проведите анализ ваших экспериментальных данных на основе использования методов модуля Анализ выживаемости (Survival Analysis).
КОНТРОЛЬНЫЕ ВОПРОСЫ
1. В чем состоит разница между цензурированными и полными
данными?
2. Объясните использование метода наименьших и взвешенных
квадратов при оценке соответствия эмпирического распределения
теоретическим функциям времен жизни.
3. Объясните применение функции выживания, плотности вероятности, функции интенсивности при анализе длительностей.
4. Объясните применение критериев: обобщенный Геханом
критерий Вилкоксона, F-критерий Кокса, критерий Кокса–Ментеля, логарифмический ранговый критерий, критерий Вилкоксона–
Пето при сравнении выживаемости в различных группах.
5. Докажите целесообразность использования метода множительных оценок при обработке ваших экспериментальных данных.
— 111 —
5. МЕТОДЫ ОЦЕНКИ СВЯЗИ
МЕЖДУ ПРИЗНАКАМИ
Наличие связи между варьирующими признаками обнаруживается на всех уровнях организации живого. Выбор метода для оценки величины связи проводят с учетом типа связи (линейная и нелинейная), типа данных (количественные, номинальные, ранговые).
Тип связи устанавливают на основе функционального графика.
При линейной корреляции парные значения, представленные
как х и у координаты, группируются около некоторой прямой. Величина связи оценивается на основе параметрических показателей.
При нелинейной корреляции оценка зависимости производится
на основе непараметрических показателей.
5.1. ПАРАМЕТРИЧЕСКИЕ ПОКАЗАТЕЛИ СВЯЗИ
Для оценки линейной связи между признаками, в совокупностях, имеющих нормальное распределение, определяют коэффициент корреляции (r) Пирсона или параметрическую корреляцию по
формуле:
r=
nx y xy
2
2
(nx  (x) )(ny  (y )
2
.
Достоверность выборочной корреляции Пирсона оценивается
на основе:
 сравнения с критическим значением корреляции (rst.), критические значения коэффициента корреляции приведены в табл. 24;
 расчета статистики Стьюдента (Тфакт.) по формуле:
n2
.
1 r 2
Рассчитанный показатель сравнивается со стандартным показателем для уровня Р < 0,05, с учетом числа степеней свободы
Т=r
— 112 —
 = n – 2; если Тфакт. больше Тst., коэффициент корреляции достоверен (зависимость наблюдается и в генеральной совокупности);
если Тфакт. меньше Тst., коэффициент корреляции недостоверен (зависимость не наблюдается в генеральной совокупности);
 сравнения уровня значимости статистики Стьюдента с уровнем 0,05; если значение уровня значимости статистики Стьюдента
больше 0,05, коэффициент корреляции признается незначимым,
принимается нулевая гипотеза (коэффициент корреляции не отличен от нуля); если уровень значимости статистики Стьюдента
меньше 0,05, принимается гипотеза об отличии коэффициента корреляции от нуля.
Таблица 24
Критические значения коэффициента корреляции
Степени
свободы
 =n–2
Уровни значимости
0,05
0,01
Степени
свободы
 =n–2
Уровни значимости
0,05
0,01
1
2
3
4
5
6
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
0,75
0,71
0,67
0,63
0,60
0,58
0,55
0,53
0,51
0,50
0,48
0,47
0,46
0,44
0,43
0,87
0,83
0,80
0,77
0,74
0,71
0,68
0,66
0,64
0,62
0,61
0,59
0,58
0,56
0,55
27
28
29
30
35
40
45
50
60
70
80
90
100
125
150
0,37
0,36
0,36
0,35
0,33
0,30
0,29
0,27
0,25
0,23
0,22
0,21
0,20
0,17
0,16
0,47
0,46
0,46
0,45
0,42
0,39
0,37
0,35
0,33
0,30
0,28
0,27
0,25
0,23
0,21
— 113 —
Окончание табл. 24
1
2
3
4
5
6
20
21
22
23
24
25
26
0,42
0,41
0,40
0,40
0,39
0,38
0,37
0,54
0,53
0,52
0,51
0,50
0,49
0,48
200
300
400
500
700
900
1000
0,14
0,11
0,10
0,09
0,07
0,06
0,06
0,18
0,15
0,13
0,12
0,10
0,09
0,09
В случае нескольких выбранных переменных выдается диагональная матрица коэффициентов корреляции с указанием критического значения rst. и числа значимых коэффициентов корреляции
(r > rst.). Эта матрица по подтверждению может быть сохранена в
электронной таблице для последующего использования (например,
в многомерной статистике).
Если значение коэффициента корреляции близкое к +1 или к –1,
это говорит о сильной положительной или сильной отрицательной
связи. Если значение коэффициента корреляции близкое к 0, это
указывает на отсутствие линейной связи, но не исключает возможность нелинейной связи между признаками. Поэтому коэффициент
корреляции оценивают совместно с функциональным графиком.
Пример 1.
Переменные LC1, LC2 содержат данные о количестве аистов и
потомков.
LC1: 8 10 6 15 19 13 12 13 8 5 9 5 9 9 8
LC2: 6 7 5 13 17 15 13 11 7 3 7 4 6 8 6
Определите степень и достоверность корреляции оцениваемых
признаков.
Порядок выполнения. После выбора значений Таблицы данных
на основе графика рассеяния определяют тип связи (рис. 51).
— 114 —
Рис. 51. Зависимость между числом аистов и числом их потомков
Между численностью аистов и их потомков установлена линейная связь. Величина связи определяется на основе параметрической корреляции (корреляции Пирсона). Метод определения параметрической корреляции Correlation Matrices реализован в разделе
Основные статистики/Таблицы (Basic Statistics/Tables). Между численностью аистов и потомков установлена тесная зависимость
r = 0,94 > rst. (rst. = 0,51,  = 15 – 2 = 13); Р = 0,000 < 0,05. Зависимость между признаками достоверна (см. рис. 52).
— 115 —
Рис. 52. Показатели связи между численностью аистов и потомков
Квадрат коэффициента корреляции, показывающий, какая доля
варьирования одного признака зависит от варьирования другого
признака, называется коэффициентом детерминации (r²). Коэффициент детерминации между численностью взрослых форм и численностью потомков составляет 0,89 (r² = 0,89). Вариация численности потомков зависит от варьирования численности взрослых
форм на 89%. Зависимость между численностью аистов и их потомков оценивается уравнением: У = 2,53 + 0,86  Х.
Наряду с применением двумерных совокупностей в биологии
широкое применение находит статистический анализ многомерных
корреляционных связей. Простейшим случаем множественной
корреляции является связь между тремя признаками: х, у и z. Тесноту связи одного из них (х) с двумя другими признаками (у и z)
оценивают на основе коэффициента множественной корреляции по
формуле:
rx ( yz ) 
rxy2  rxz2  2 rxy2  rxz2  ryz2
1 ryz2
,
где rxy , rxz , ryz — коэффициенты линейной корреляции между парами признаков х и у, х и z, у и z.
Коэффициент множественной корреляции принимает значения
от нуля до единицы (0≤ r ≤1). Значимость этого совокупного показателя корреляции оценивают по величине статистики Стьюдента с
числом степеней свободы k = n – 3 и принятым уровнем значимо— 116 —
сти. На определении коэффициентов множественной корреляции
базируется регрессионный анализ (см. раздел 5.3).
Если известна связь между признаками х, у и z, можно определить частные или парциальные коэффициенты корреляции, показывающие корреляционную зависимость между двумя варьирующими признаками при постоянной величине третьего признака
(то есть при исключении влияния третьего признака). Для определения частного коэффициента корреляции между признаками х и у
при постоянной величине признака z применяют формулу:
rxy ( z ) 
rxy  rxz  ryz
(1 rxz2 )(1 ry2z )
.
Заключение знака z в скобки обозначает, что влияние признака
z на корреляцию между признаками х и у исключено.
Соответственно меняются в формуле значения корреляций при
определении частных коэффициентов корреляции: между признаками х и z при исключении влияния на эту связь признака у; между
признаками у и z при исключении влияния на эту связь признака х.
5.2. ФАКТОРНЫЙ АНАЛИЗ
При проведении исследований число оцениваемых признаков
может быть большим, взаимосвязи между ними могут быть чрезвычайно сложными. Нахождение сокращенной системы или сравнительно небольшого количества значимых факторов в пространстве исследуемых признаков — основная задача факторного
анализа.
На начальном этапе факторного анализа оценивается расположение объектов в многомерном пространстве. В соответствии со
своими координатами объекты в многомерном пространстве группируются в виде эллипсоида рассеяния. Если провести новые оси
координат соответственно осям такого эллипса рассеяния, то можно говорить о выделении так называемых факторов. Число главных
факторов (компонент), обусловливающих большую часть диспер— 117 —
сии (рассеяния) данных, бывает гораздо меньше, чем исходных
признаков. Поэтому факторный анализ рассматривают как метод
сокращения числа анализируемых признаков путем объединения в
один фактор коррелированных признаков [11], [21].
В программе STATISTICA реализованы различные методы
выделения факторов: главных компонент (Principal components),
общности (Communalities = multipleR**2), итеративных общностей
(Iterated Communalities), максимального правдоподобия (Maximum
likelihood factors), центроидный метод (Centroid method), метод
главных осей (Principal axis method).
Метод главных компонент (Principal components) имеет преимущества по сравнению с другими методами: отсутствие предположений о характере распределения исходных данных (при работе
с числовыми значениями), возможность анализа ранговых и номинальных значений, сравнительная понятность механизма выделения главных факторов (компонент).
С целью получения более интерпретируемой системы факторов
(или простой системы), при которой каждая переменная имеет
большие нагрузки на малое число факторов и малые нагрузки на
остальные факторы, в программе STATISTICA реализовано несколько способов вращения избранных факторных векторов в определенном этими факторами подпространстве: варимакс исходных, варимакс нормализованных, биквартимакс исходных,
биквартимакс нормализованных, квартимакс исходных, квартимакс
нормализованных, эквимакс исходных, эквимакс нормализованных. Метод варимакс улучшает разделение факторов за счет
уменьшения числа переменных, связанных с каждым фактором.
Метод квартимакс выделяет генеральный фактор, что упрощает
интерпретацию за счет уменьшения числа факторов, связанных с
каждой переменной. Методы эквимакс и биквартимакс дают промежуточный эффект. Операция вращения факторов является достаточно полезной только в случае исходных данных опросного типа
(преимущественно номинальные и ранговые данные), которые
субъективны, вариативны, неточны. В результате вращения иссле-
— 118 —
дователь мало теряет в обоснованности выводов, но может получить более простую интерпретацию факторов.
Применение методов вращения при работе с биологическими
данными может привести к получению несопоставимых результатов, принципиально исказить характеристики и свойства изучаемых явлений.
Метод факторного анализа (Factor Analysis) для оценки величины взаимосвязи переменной (признака) с фактором определяет показатель факторной нагрузки (lij). Математически факторная нагрузка равна векторному коэффициенту аij перехода от переменной
к фактору, умноженному на корень квадратный из собственного
значения фактора:
lij = аij
ij ,
где i — номер фактора; j — номер переменной (признака); lij —
собственное значение — дисперсия исходных данных по данному
фактору (объясненная им часть общей дисперсии).
Сумма (по всем строкам j) квадратов нагрузок для конкретного
m
фактора i равна собственному значению фактора: ij   lij2 .
j1
Тем самым факторная нагрузка показывает, насколько геометрически близка переменная к фактору и насколько велика с учетом
этой близости выражаемая ею часть общей дисперсии объектов.
Сумма произведений нагрузок двух переменных (строки i, j по
всем столбцам k) равна коэффициенту корреляции между ними:
m
rij  lki lkj . При суммировании по строкам квадратов нагрузок одk1
ной переменной получается 1, что соответствует коэффициенту
корреляции переменной между собой.
Полученные показатели (собственные значения, векторные коэффициенты, факторные нагрузки) используются для интерпретации новых факторов в предметных терминах, что является творче-
— 119 —
ской задачей исследователя, выходящей за рамки метода факторного анализа (использование переменных, наиболее чувствительных
к факторам, как индикаторов состояния системы; определение нормы отношений и прогноз допустимых, равновесных соотношений
состояния всех переменных).
Для проведения факторного анализа (Factor Analysis) в меню
STATISTICA нужно выбрать многомерные исследовательские методы (Multivariate Exploratory Techniques). После выбора команды факторный анализ (Factor Analysis) открывается стартовое окно факторного анализа (рис. 53), в котором необходимо указать тип исходных
данных: значения m переменных для n объектов (Raw Data); корреляционная матрица между m переменными (Correlation Matrix).
Рис. 53. Выбор исходных данных для факторного анализа
При использовании исходных переменных типа значения m переменных для n объектов (Raw Data) рекомендуется, чтобы число
объектов (измерений) было не меньше числа переменных (предпочтительнее, чтобы число объектов было в 2-3 раза больше числа
— 120 —
переменных). Невыполнение этого условия может привести к неадекватному завышению числа главных факторов, к искажениям
факторных нагрузок исходных переменных и распределения объектов в факторном подпространстве. В исследованиях опросного
характера число объектов должно быть более 200. При малом числе объектов факторный анализ проводится повторно с удалением
из анализа тех исходных переменных, которые близки по векторам
факторных нагрузок, оставляя по одной переменной из каждой такой группы. Перед выделением главных факторов: желательно
удаление из данных выбросов (более трех стандартных сигм), поскольку они могут существенно повлиять на перераспределение
дисперсии между переменными; выявление пар переменных, связанных между собой функциональными зависимостями (корреляция более 0,9-0,95) и выбор для дальнейшего анализа одной переменой из каждой такой пары. В противном случае такие зависимые
переменные будут существенно смещать дисперсию объектов и
вектор фактора.
После оценки исходных данных проводят выделение главных
факторов на основе метода главных компонент. Рассмотрим факторный анализ на примере 1 — результаты оценки 18 проб из разных водоемов по 10 критериям: число видов планктона (Var1), общая биомасса планктона (Var2), общая численность планктона
(Var3), число видов бентоса (Var4), общая биомасса бентоса (Var5),
общая численность бентоса (Var6), содержание Mg (Var7), содержание Са (Var8), активная кислотность (Var9), соленость воды
(Var10). Каждый критерий оценен по 10-балльной шкале.
Пример 1.
Водоем Var1
1
10
2
10
3
5
4
10
5
4
6
10
Var2 Var3 Var4 Var5 Var6 Var7 Var8
10
9
10
10
10
9
10
10
4
10
5
5
4
5
4
10
5
10
4
10
5
10
9
10
10
10
9
10
3
5
4
3
10
4
10
10
4
10
5
— 121 —
4
3
4
Var9 Var10
10
9
4
3
3
10
10
9
10
5
5
5
Окончание табл.
Водоем Var1
Var2 Var3 Var4 Var5 Var6 Var7 Var8
Var9 Var10
7
4
4
5
5
4
10
5
10
10
6
8
4
5
3
4
5
10
4
10
10
4
9
4
5
10
4
10
5
10
4
3
10
10
10
10
4
10
5
4
4
5
4
4
11
4
5
10
5
10
4
10
4
5
10
12
10
10
9
10
10
9
9
10
10
10
13
6
5
4
3
5
10
5
10
10
5
14
4
5
10
4
10
5
10
3
4
10
15
10
10
9
10
10
9
10
9
10
10
16
6
5
3
4
4
10
4
10
10
5
17
10
10
5
10
4
5
4
3
4
5
18
4
5
10
4
10
4
10
4
4
10
По каждому фактору (максимально возможное число факторов
равно числу переменных) из общей дисперсии экспериментальных
данных устанавливается дисперсия (табл. 25). Дисперсии, соответствующие факторам, называются собственными значениями (или
объясненной дисперсией). В методе главных компонент по умолчанию предполагается, что дисперсия каждой переменной равна 1,
а общая дисперсия равна общему числу переменных. Среди исследованных критериев водоемов выделены три главные компоненты
(их собственные значения значительно превышают единицу). Четвертый и последующие компоненты имеют собственные значения
существенно меньше единицы. В табл. 25 также приведены для каждого фактора: процент от общей дисперсии, процент кумулятивной дисперсии. Главные компоненты определяют 97,7% изменчивости критериев исследованных водоемов.
В диалоговом окне результаты факторного анализа (Factor
Analysis Results) на вкладке факторные нагрузки (Factor Loading)
выводится таблица с факторными нагрузками (факторная нагрузка
— 122 —
равна векторному коэффициенту аij перехода от переменной к фактору, умноженному на корень квадратный из собственного значения фактора: lij  аij ij ).
Таблица 25
Результаты выделения главных компонент
Компо- Собственные
ненты
значения
1
4,246680
% общей
дисперсии
42,46680
Кумулятивн.
Кумулятивн.
собст. значения
%
4,24668
42,4668
2
2,958922
29,58922
7,20560
72,0560
3
2,570252
25,70252
9,77585
97,7585
4
0,079122
0,79122
9,85498
98,5498
5
0,049864
0,49864
9,90484
99,0484
6
0,038465
0,38465
9,94331
99,4331
7
0,034276
0,34276
9,97758
99,7758
8
0,010649
0,10649
9,98823
99,8823
9
0,007594
0,07594
9,99582
99,9582
10
0,004175
0,04175
10,00000
100,0000
В табл. 26 для каждого фактора приведена нагрузка каждой исходной переменной, показывающая относительную величину проекции переменной на факторную координатную ось. Чем больше
нагрузка, тем больше близость фактора к исходной переменной. На
вкладке Scores выводятся векторные коэффициенты (аij), используемые при проведении расчета факторных нагрузок (lij). На основе
векторных коэффициентов производится переход от системы исходных координат к координатной системе факторов (коэффициенты поворота главных компонентов). На фактор 1 имеют максимальные нагрузки общая численность планктона, общая биомасса
бентоса, содержание Mg и соленость воды, на фактор 2 — общая
биомасса планктона, общее число видов бентоса и активная кислотность, на фактор 3 — общая численность бентоса, содержание
Са, активная кислотность.
— 123 —
— 124 —
Фактор 1 не связан с общей численностью вида и биомассой
планктона, с общим числом видов бентоса. Фактор 2 не связан с
общим числом планктона, общей биомассой бентоса, соленостью
воды, содержанием магния.
Активная кислотность, содержание кальция и общая численность бентоса имеют одинаковые нагрузки на фактор 1 и фактор 2.
При повторных исследованиях они могут быть исключены из рассмотрения.
5.3. РЕГРЕССИОННЫЙ АНАЛИЗ
Во многих практических задачах, исследующих зависимость
между переменными величинами, необходимо прогнозировать значения одной переменной при заданных значениях или заданных
изменениях других переменных. Эти задачи решаются на основе
регрессионного анализа. Регрессия — изменение зависимой переменной (у) в зависимости от изменения одной (х) или нескольких
независимых переменных (хn). Независимые переменные называются факторами или предикторами, а зависимые переменные —
результативными признаками или откликами. Если число предикторов равно 1, регрессию называют простой, если число предикторов больше 1 — множественной.
Регрессионный анализ предполагает решение двух задач. Первая заключается в выборе независимых переменных, существенно
влияющих на зависимую переменную, и определении формы уравнения регрессии. Зависимость между переменными может быть
описана: линейным уравнением, уравнением параболы, гиперболы,
степенного типа, логистической кривой. Для подбора вида зависимости между изучаемыми переменными оценивают график. Иногда
примерный вид зависимости между переменными бывает известен
из предыдущих исследований аналогичных данных. Самая простая
форма уравнения регрессии — линейная. Линейная регрессия с несколькими предикторами называется линейной множественной
регрессионной моделью. Для линейной модели предполагается, что
— 125 —
наблюдаемые величины связаны между собой зависимостью вида:
yi = b1 x1i + b2 x2i + …+ bp x1p + b0 + ci , где b1, b2, bp, b0 — коэффициенты уравнения, вычисляемые при помощи систем нормальных уравнений; ci — независимая случайная величина с нулевым математическим ожиданием (иногда ci называют ошибками наблюдения). По
наблюдениям x1i, x2i, x1p и yi оцениваются параметры модели b1, b2,
bp, b0; строятся доверительные интервалы для b1, b2, bp, b0; проверяется гипотеза о значимости уравнения и коэффициентов регрессии;
оценивается степень адекватности полученной зависимости. Вторая задача регрессионного анализа состоит в оценке изменения зависимой переменной на основании известных изменений независимых переменных (прогноз значения независимой переменной
при заданных значениях или заданных изменениях независимых
переменных).
Регрессионный анализ тесно связан с другими статистическими
методами — методами корреляционного и дисперсионного анализа. В отличие от корреляционного анализа, который изучает направление и силу связи между признаками, регрессионный анализ
изучает вид зависимости признаков, то есть параметры функции
зависимости одного признака от одного или нескольких других
признаков. В отличие от дисперсионного анализа, с помощью которого исследуется зависимость количественного признака от одного
или нескольких качественных признаков, в регрессионном анализе
исследуется зависимость (количественного или качественного признака) от одного или нескольких количественных признаков.
Возможности модуля Regression Analysis рассмотрим на примере 1.
Пример 1. Переменные LC1, LC2, LC3 содержат данные о количестве аистов и их потомков и количестве семей.
LC1: 8 10 6 15 19 13 12 13 8 5 9 5 9 9 8
LC2: 6 7 5 13 17 15 13 11 7 3 7 4 6 8 6
LC3: 4 6 3 7 8 7 6 6 4 2 3 2 4 5 4
Для запуска метода Регрессионный анализ надо выбрать переменные для анализа с помощью кнопки Variables. В диалоговом
— 126 —
окне производится выбор зависимой и независимых переменных.
Для задания дополнительных установок во вкладке Advanced производится выбор вида анализа (рис. 54).
Рис. 54. Выбор переменных для регрессионного анализа
После выбора ступенчатой регрессии появляется диалоговое
окно Model definition (построение модели). На вкладке Advanced
этого окна нужно указать метод: стандартный, пошаговый с включением, пошаговый с выключением; проведение оценки свободного члена регрессии (Intercept) и сделать другие установки. После
проведения выбора откроется окно результатов регрессионного
анализа.
Верхняя часть окна результатов — информационная (см. рис. 55).
В первой части содержится основная информация о результатах
оценивания, во второй — значимые стандартизированные регрессионные коэффициенты.
— 127 —
Рис. 55. Информационное окно регрессионного анализа
Внизу окна находятся функциональные кнопки, позволяющие
всесторонне просмотреть результаты анализа. В информационной
части содержатся краткие сведения о результатах анализа, а именно: имя зависимой переменной (Dependent); число наблюдений, по
которым построена регрессионная модель (No. of cases = 15);
коэффициент множественной корреляции R = 0,96; коэффициент
детерминации R² = 0,92; скорректированный коэффициент детерминации R² = 0,91; стандартная ошибка оценки = 1,14 (эта статистика — мера рассеяния наблюдаемых значений относительно регрессионной прямой); Intercept = 1,46 (оценка свободного члена b0
регрессии), если выбрана регрессия, включающая свободный член;
стандартная ошибка оценки свободного члена b0 = 0,87; значение
t-критерия = 1,67 и уровень значимости Р = 0,17 для проверки гипотезы о равенстве нулю свободного члена b0; значение F-критерия = 73,04, число степеней свободы = 2,12 и уровень значимости
Р = 0,000 используются в качестве критериев для проверки гипотезы о зависимости предикторов и отклика.
— 128 —
Из приведенных результатов анализа следует, что зависимость
между откликом и предикторами достоверная (R² = 0,92); построенная линейная регрессия адекватно оценивает взаимосвязь между
откликом и предикторами, свободный член статистически не значим.
Если нажать на кнопку Summary regression results, появится
таблица результатов с подробными статистиками (табл. 27).
Таблица 27
Результаты регрессионного анализа
Признак
Beta
Стд. ошибка
Beta
Свободный
член
B
Стд.
ошибка B
t(17)
Уровень
значимости
1,4621
0,8710
1,67
0,119052
Число семей 0,4173
0,2078
0,8623
0,4295
2,00
0,067726
Число детей 0,5623
0,2078
0,5143
0,1901
2,70
0,019113
Таблица 27 содержит стандартизированные (Beta) и нестандартизированные (В) регрессионные коэффициенты (веса), их стандартные ошибки и уровни значимости. Коэффициенты Beta
оцениваются по стандартным данным, имеющим выборочную
среднюю, равную нулю и стандартное отклонение, равное 1. Поэтому величина Beta позволяет сравнить вклады каждого предиктора в предсказание отклика. Так, переменные Х1 и Х2 вносят
больший вклад в значение зависимой переменной. Коэффиент
уравнения регрессии b2 статистически значим при уровне
значимости Р = 0,019.
В табл. 28 приведены результаты оценки частных корреляций.
Частные коэффициенты корреляции (Partial Cor) показывают
степень влияния независимого признака на зависимую переменную
в предположении, что остальные зависимые переменные закреплены на постоянном уровне.
— 129 —
Таблица 28
Показатели оценки коэффициентов регрессии
Признак
Число
семей
Число
потомков
Beta
ПолуЧастная
частная
корр.
корр.
Толерантность
R-квадрат
t(17)
Уровни
значимости
0,417
0,501
0,159
0,146
0,853
2,00
0,067
0,562
0,615
0,215
0,146
0,853
2,70
0,019
Частные коэффициенты корреляции, так же как и стандартизированные коэффициенты Beta, позволяют провести ранжирование
независимых признаков по степени их влияния на зависимую
переменную. Кроме того, частные коэффициенты корреляции
используются при решении проблемы отбора независимых признаков — целесообразность включения той или иной независимой переменной определяется величиной частного коэффициента корреляции. Из таблицы видно, что независимые признаки ранжируются
в следующем порядке: число детей, число семей.
Получастные коэффициенты корреляции (Semipart Cor) — корреляции независимого признака и зависимой переменной в предположении, что контролируется влияние независимых признаков на
зависимую переменную. Если получастная корреляция мала, в то
время как частная корреляция относительно велика, то соответствующий независимый признак может иметь самостоятельную
«часть» в объяснении изменчивости зависимой переменной, то есть
«часть», которая не объясняется другими независимыми признаками. Из таблицы видно, что число детей и число семей имеют самостоятельную часть в объяснении изменчивости массы детеныша.
R-square (коэффициент детерминации) — квадрат коэффициента множественной корреляции между данной переменой и всеми
остальными переменными, входящими в уравнение регрессии. Из
таблицы следует, что все коэффициенты детерминации высокие.
Толерантность (toleranse) — Т = 1 – R-square; оценивает степень
некоррелированности независимых переменных и связана обрат— 130 —
ной связью с ошибкой регрессионного коэффициента В. Малое
значение толерантности означает высокую степень коррелированности между независимыми переменными и большую стандартную
ошибку в оцениваемом регрессионном коэффициенте.
t (12 = 15 – 3) — значение критерия Стьдента для проверки гипотезы о значимости частного коэффициента с указанным (в скобках) числом степеней свободы.
Р (Р-уровень) — вероятность отклонения гипотезы о значимости частных коэффициентов корреляции.
Важной характеристикой регрессионного анализа являются остатки (Residuals). Распределение остатков для адекватного регрессионного уравнения должно соответствовать нормальному типу.
Оценка устойчивости значений коэффициентов регрессии проводится на основе статистики Дарбина–Уотсона. Эта статистика характеризует наличие или отсутствие сериальной корреляции между
остатками соседних наблюдений. Существование сериальной корреляции может служить доказательством зависимости наблюдений
в файле данных, в то время как критерии значимости в множественной регрессии предполагают, что данные являются случайной
выборкой из независимых наблюдений. В противном случае оценки коэффициентов уравнения регрессии могут быть неустойчивыми. Статистика Дарбина–Уотсона = 2,33, сериальная корреляция
между остатками соседних наблюдений = 0,16. Это свидетельствует о некоторой зависимости наблюдений, следовательно, можно
говорить о недостаточной адекватности некоторых значений коэффициентов регрессии, а значит о невысокой адекватности модели
(yi = 0,86x1i + 0,51х2i + 1,46) изучаемому процессу.
5.4. НЕПАРАМЕТРИЧЕСКИЕ ПОКАЗАТЕЛИ СВЯЗИ
При изучении нелинейной связи между величинами в совокупностях, распределение которых не соответствует нормальному типу, более эффективны непараметрические показатели связи. Они
основаны на замене наблюдаемых величин рангами. Программа
STATISTICA оценивает непараметрические критерии зависимости
между переменными: статистика Спирмена (коэффициент ранговой
— 131 —
корреляции Спирмена ( rs )); коэффициент конкордации Кенделла (t);
коэффициент гамма (γ).
Методика расчета коэффициента ранговой корреляции
Спирмена ( rs )
Пример 1. Переменная NCOR1 содержит значения усвояемости
(оцененных по методу Л. Хантера) 9 различных видов кормов, а переменная NCOR2 — их оценки по 6-балльной шкале. Предполагается, что метод Хантера положительно связан с балльной оценкой.
NCOR1: 44,4 45,9 41,9 53,3 44,7 44,1 50,7 45,2 60,1
NCOR2: 2,6 3,1 2,5
5
3
6
5,2 2,8 3,8
Необходимо подтвердить или опровергнуть это предположение.
Порядок выполнения. После выбора значений из таблицы данных на основе графика рассеяния определяют тип связи. Между
значениями установлена нелинейная связь (рис. 56).
Рис. 56. Зависимость между усвояемостью и балльной оценкой
— 132 —
Величина связи определяется на основе непараметрического
критерия зависимости между переменными коэффициента ранговой корреляции Спирмена ( rs ) (табл. 29).
Таблица 29
Расчет коэффициента корреляции Спирмена ( rs )
Х
У
Rх
Rу
Rx – Ry
(Rx – Ry)²
44,4
2,6
7
8
-1
1
45,9
3,1
4
5
-1
1
41,9
2,5
9
9
0
0
53,3
5
2
3
-1
1
44,7
3
6
6
0
0
44,1
6
8
1
7
49
50,7
5,2
3
2
1
1
45,2
2,8
5
7
-2
4
60,1
3,8
1
4
-3
9
rs  1
6( Rxi  Ryi ) 2
2
n(n 1)
zr  r  n 1 
 1
666
 0,45.
9(811)
z 0,19 2
( z  3)  1,33.
n 1
Результаты. Спирмeн = 0,45, Z = 1,33, значимость = 0,22 > 0,05,
число степеней свободы = 9. Принимается нулевая гипотеза, нет
корреляции между выборками (см. рис. 57).
— 133 —
Рис. 57. Результаты оценки коэффициента корреляции Спирмена
Заключение. Статистическая программа оценивает нелинейную
связь на основе коэффициента корреляции Спирмена. Проверка
производится на основе сравнения фактического значения коэффициента корреляции Спирмена = 0,45 с критическим значением
rкрит. = 0,6 (табл. 30).
Эмпирическое значение меньше критического. Принимается
нулевая гипотеза. В генеральной совокупности связь между оцениваемыми величинами отсутствует. Проверку нулевой гипотезы статистическая программа производит и на основе Z-статистики, установления ее уровня значимости. Z-статистика составляет 1,33; ее
уровень значимости равен 0,224, больше 0,05. Нулевая гипотеза
принимается; нет связи между оцениваемыми величинами в генеральной совокупности. При наличии среди оцениваемых переменных порядковых переменных (или качественных признаков) определяется коэффициент тау Кендалла (t). Если переменные содержат
много повторяющихся значений оценка зависимости производится
на основе коэффициента гамма (γ).
Результаты оценки показывают зависимость между усвояемостью кормов и их балльной оценкой: коэффициент тау Кендалла
t = 0,38; коэффициент гамма γ = 0,38.
Коэффициент тау Кендалла (t) определяется при наличии среди
оцениваемых переменных порядковых переменных (или качественных признаков). При наличии среди переменных повторяющихся значений оценку зависимости целесообразно проводить на основе коэффициента гамма (γ).
— 134 —
Таблица 30
Критические значения коэффициента ранговой корреляции
Спирмена
N
Уровни значимости
Р ≤ 0,10
Р ≤ 0,05
Р ≤ 0,01
1
2
3
4
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
1,000
0,800
0,657
0,571
0,524
0,483
0,455
0,427
0,406
0,385
0,367
0,354
0,341
0,328
0,317
0,309
0,299
0,292
0,284
0,278
0,271
0,265
0,259
0,255
0,250
1,000
0,900
0,829
0,714
0,643
0,600
0,564
0,536
0,503
0,484
0,464
0,443
0,429
0,414
0,401
0,391
0,380
0,370
0,361
0,353
0,344
0,337
0,331
0,324
0,317
1,000
0,943
0,893
0,833
0,783
0,745
0,709
0,671
0,648
0,622
0,604
0,582
0,566
0,550
0,535
0,520
0,508
0,496
0,486
0,475
0,466
0,457
0,448
0,440
— 135 —
Окончание табл. 30
1
2
3
4
29
30
31
32
33
34
35
36
37
38
39
40
41
0,245
0,240
0,236
0,232
0,229
0,225
0,222
0,219
0,216
0,212
0,210
0,207
0,204
0,312
0,306
0,301
0,296
0,291
0,287
0,283
0,279
0,275
0,271
0,267
0,264
0,261
0,433
0,425
0,418
0,412
0,405
0,399
0,394
0,388
0,383
0,378
0,373
0,368
0,364
5.5. ОЦЕНКА СВЯЗИ МЕЖДУ НОМИНАЛЬНЫМИ ВЕЛИЧИНАМИ
При работе с номинальными (нечисловыми) величинами их
взаимозависимость оценивают на основе использования метода
кросстабуляции (cross — скрещивание, пересечение; tabulation —
составление в таблицу). Этот метод проверяет гипотезу о независимости номинальных величин.
При определении связи между двумя качественными признаками, которые имеют по две градации, используются тетрахорические показатели.
Пример 1. При оценке у кур окраски оперения ног и тела установлено: 54 полосатых со светлой окраской оперения ног; 128 полосатых с аспидной окраской оперения ног; 186 со сплошной окраской оперения тела и светлой окраской оперения ног; 24 со
сплошной окраской оперения тела аспидной окраской оперения
ног. Необходимо определить уровень связи между окраской оперения ног и тела у кур.
— 136 —
При сравнении номинальных переменных двух выборок используются критерии группы 2 х 2: Chi-square, V-square, Phi-square,
Fisher exact, Mcnemar — хи-квадрат Макнемара; Chi-square A\D,
Chi-square B\C.
Результаты сравнения. Критерии группы 2 х 2: Chi-square =
142,48, Р = 0,00; V-square = 142,12, Р = 0,0; Vates corrected Chi-square = 140,01, Р = 0,0; Phi-square = 0,36348; Mcnemar Chi-square
(A\D = 10,78, Р = 0,0; Chi-square B\C = 10,35, Р = 0,0013).
Заключение. Все критерии сравнения имеют значение Р < 0,05.
Между окраской оперения ног и тела у кур существует достоверная
связь, равная 0,363. Куры, имеющих светлое оперение ног, чаще
имеют сплошную окраску оперения тела.
Оценка зависимости между качественными признаками, имеющими больше двух градаций, проводится на основе методов раздела Кросстабуляция таблиц (в стартовой панели Basic Statistics/Tables, выбрать процедуру Таблицы сопряженности). При
составлении спецификации таблицы программа запросит для анализа переменные, их коды (рис. 58). Значения сравниваемых переменных должны быть представлены в документе Таблица данных,
программа STATISTICA сама производит преобразование.
Рис. 58. Выбор переменных для оценки связи между переменными
— 137 —
Критерием запуска этого преобразования является наличие в
матрице данных двух переменных (если присутствует больше двух
переменных, то таблица рассматривается как совокупность нескольких двухвходовых таблиц для последних двух переменных).
Исходные парные переменные должны иметь целочисленные положительные значения, максимальное из которых не превосходит
n (где n — число значений), минимальное должно превышать пять,
в противном случае операция по кросстабулированию будет прервана с ошибкой.
Пример 2. При оценке у людей цвета волос и глаз установлено:
черных с карими глазами 23; черных с серыми глазами 75; черных
с голубыми глазами 17; рыжих с карими глазами 8; рыжих с серыми глазами 25; рыжих с голубыми глазами 14; светлых с карими
глазами 12; светлых с серыми глазами 95; светлых с голубыми глазами 177.
Нужно выяснить степень связи между цветом волос и глаз у
людей.
Детали результатов определяются установками полей Statistics
for two-way table и Compute tables на вкладке Options (рис. 59).
Рис. 59. Выбор показателей для оценки связи между признаками
— 138 —
Установки Compute tables (подсчитать таблицы):
Highlight counts > (выделить частоты). Все частоты по строкам,
которые превышают введенное значение (по умолчанию 10) будут
выделены красным цветом.
Expected frequencies (ожидаемые частоты). Для всех двухвходовых таблиц будут вычислены ожидаемые частоты в предположении независимости всех факторов (переменных) в таблице.
Residual frequencies (остаточные частоты). Для всех двухвходовых таблиц и итоговой таблицы будут вычислены остаточные частоты — наблюдаемые частоты минус ожидаемые частоты.
Percentages of total count (проценты от общего числа). Программа вычислит проценты для каждой ячейки (минимальное число в
отдельной ячейке должно не менее 5).
Percentages of row counts (проценты по строке). Программа определит проценты относительно общего количества наблюдений в
соответствующей строке.
Percentages of column counts (проценты по столбцу). Программа
определит проценты относительно общего количества наблюдений
в соответствующем столбце.
Установки статистики для двухвходовых таблиц:
 критерий хи-квадрат Пирсона оценивает отклонения наблюдаемых частот от ожидаемых частот; основан на проверке гипотезы
об отсутствии зависимости между переменными путем сравнения
фактических и ожидаемых частот;
 максимум правдоподобия хи-квадрат — проверка гипотезы
об отсутствии зависимости между переменными путем сравнения
фактических и ожидаемых частот на основе метода максимального
правдоподобия;
 поправка Йетса — уменьшение абсолютного значения разностей между наблюдаемыми и ожидаемыми частотами на 0,5 перед
возведением в квадрат (так называемая поправка Йетса); поправка
Йетса делает оценку более умеренной; применяется, когда таблицы
содержат малые частоты; например, когда некоторые ожидаемые
частоты становятся меньше 10;
 точный критерий Фишера вычисляет точную вероятность появления наблюдаемых частот при нулевой гипотезе;
— 139 —
 коэффициент Фи и Крамера V и C — показывает величину
связи между переменными;
 коэффициент корреляции Спирмена;
 статистика тау Кендалла b и с оценивает связь между переменными; различают два варианта статистики, различающихся
способом обработки совпадающих рангов;
 коэффициент Соммера: d (X|Y) и d (Y|X) оценивает несимметричную меру связи между двумя переменными;
 гамма-статистика применяется при наличии многосовпадающих значений;
 коэффициенты неопределенности S (X|Y) и S (Y|X) — оценивают информационную связь между факторами (строками и столбцами таблицы); измеряют количество информации в переменной У
относительно переменной Х или в переменной Х относительно переменной У;
 критерий хи-квадрат Пирсона = 86,93, Р = 0,00;
 максимум правдоподобия хи-квадрат = 92,7, Р = 0,00;
 коэффициент сопряженности = 0,40;
 коэффициент Фи = 0,44 и Крамера V и C = 0,31;
 коэффициент корреляции Спирмена = 0,44, t = 10,3, Р = 0,00;
 статистика тау Кендалла b = 0,41 и тау Кендалла с = 0,33;
 коэффициент Соммера: d (X|Y) = 0,38 и d (Y|X) = 0,43 — гаммастатистика = 0,66 применяется при наличии многосовпадающих
значений;
 коэффициенты неопределенности S (X|Y) = 0,119 и S (Y|X) =
0,110 (рис. 60).
Рис. 60. Показатели связи между номинальными признаками
— 140 —
Заключение. Связь между цветом волос и глаз у людей достоверная, не сильная.
Пример 3. В табл. 31 дано количество пациентов с ишемической болезнью, которые выжили в течение трех лет и более после
постановки диагноза. Частоты даны отдельно для четырех различных типов проявления внешних симптомов (ММ, СМ, МВ, СМ);
для трех возрастных групп (меньше 50 лет; 50-69 лет; старше
69 лет); отдельно для трех диагностических центров (Т, Б, Г) [21].
Таблица 31
Частота болезни в течение 3-х и более лет после постановки диагноза.
Частоты номинальных признаков
Место
диагностики
Возраст
Исход болезни
(выжившие — да;
не выжившие — нет)
ММ
СМ
МВ
СВ
Т
Т
Т
Т
Т
Т
В
В
В
В
В
В
Г
< 50
< 50
50-69
50-69
> 69
> 69
< 50
< 50
50-69
50-69
> 69
> 69
< 50
нет
да
нет
да
нет
да
нет
да
нет
да
нет
да
нет
9
26
9
20
2
1
6
11
8
18
9
15
16
7
68
9
46
3
6
7
24
20
58
18
26
7
4
25
11
18
1
5
6
4
3
10
3
1
3
3
9
2
5
0
1
0
0
2
3
0
1
1
Симптомы
Для оценки связи между переменными выбирается Регистрационно-линейный анализ (Логлинейный анализ) в меню Дополнительные Линейные/Нелинейные модели. Чтобы программа понимала, как организовать числа в таблице, нужно выполнить
функцию Задать таблицу (см. рис. 61).
— 141 —
Рис. 61. Выбор переменных для логлинейного анализа
В диалоговом окне выбрать Частоты с кодами и в таблице спецификаций задать имя каждого фактора или выбрать Частоты с кодами и выбрать Переменную с частотой и Переменные с кодами.
При учете всех четырех факторов: симптомы (1), место диагностики (2), возраст (3), исход (4) и трехфакторных взаимодействий
связь между переменными не значима (К = 4, макс. Chi-square =
= 9,01, P = 0,7; Пирсон Chi-square = 8,9, Р = 0,7; К = 3, макс. Chi-square = 30,9, P = 0,32; Пирсон Chi-square = 31,2, Р = 0,31) (рис. 62).
Рис. 62. Результаты оценки К-факторных взаимодействий
— 142 —
Двухфакторная модель является приемлемой для оценки взаимодействий между переменными (К = 2, макс. Chi-square = 134,4,
P = 0,0; Пирсон Chi-square = 141,2, Р = 0,0).
Критерий частных связей (Part. Ass., Chi-squ) определяет значимость соответствующих взаимодействий (указываемых цифрами в
колонке Эффект) путем сравнения модели, включающей эти факторы
с моделью без него (рис. 63). Критерий маргинальных связей (Marg.
Ass., Chi-squ) определяет значимость взаимодействий между моделью
без каких-либо двухфакторных взаимодействий и моделью, которая
включает взаимодействие учитываемых факторов (но не содержащих других двухмерных взаимодействий). Например: взаимодействие 14 оценивает связь между симптомами и исходом болезни.
При удалении его из модели со всеми другими двухфакторными взаимодействиями разность в значениях статистики частных и
маргинальных связей значима (Part. Ass., Chi-squ = 10,17, Р = 0,017;
Part. Ass., Chi-squ = 9,4, Р = 0,023).
Значимыми также являются взаимодействия: 12 (симптомы и
место диагностики): Part. Ass., Chi-squ = 34,2, Р = 0,00; Part. Ass.,
Chi-squ = 35,4, Р = 0,00; 24 (место диагностики и исход болезни):
Part. Ass., Chi-squ = 7,78, Р = 0,00; Part. Ass., Chi-squ = 10,8, Р = 0,00;
23 (место диагностики и возраст): Part. Ass., Chi-squ = 66,8,
Р = 0,00; Part. Ass., Chi-squ = 72,2, Р = 0,00.
Рис. 63. Результаты оценки критериев связи между признаками
— 143 —
Программа проводит оценку заданных взаимодействий; автоматический выбор лучшей величины взаимодействий (рис. 64, 65).
Рис. 64. Задание модели (14, 24, 123) для тестирования
Рис. 65. Результаты тестирования модели 14, 24, 123
— 144 —
Хи-квадрат максимального правдоподобия = 31,744, Р = 0,37.
Хи-квадрат Пирсона = 32,077, Р = 0,36. Заданная модель (14, 24,
123) достаточна для объяснения частот в табл. 30.
Рис. 66. Автоматический выбор лучшей модели
Рис. 67. Результаты тестирования модели 21, 42, 32, 41
— 145 —
Лучшая модель 21, 42, 32, 41 (см. рис. 66). Хи-квадрат максимального правдоподобия = 45,61, Р = 0,5713. Хи-квадрат Пирсона = 45,35, Р = 0,5017. Заданная модель (21, 42, 32, 41) эффективна
для объяснения частот в табл. 30, рис. 67.
Хи-квадрат максимального правдоподобия = 45,611, Р = 0,5719.
Заданная модель (21, 42, 32, 41) с более высокой точностью объясняет частоты в табл. 30.
Заключение. Главными факторами, связанными с выздоровлением, были диагноз и положение центра, где была проведена диагностика.
ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ
Задание 1. Результаты зависимости степени антропогенной нагрузки (выраженной в баллах) и индекса видового разнообразия
Шеннона следующие:
Степень антропогенной нагрузки
Индекс видового
разнообразия
1
2
3
4
5
2,506
2,168
2,124
2,114
1,965
Проведите анализ зависимости антропогенная нагрузка — видовое разнообразие птиц.
Задание 2. Результаты оценки уровня рН, содержания хлоридов, фосфатов, показателя перманганатной окисляемости (ПО),
числа таксонов в водоемах следующие:
Водоем
рН
Хлориды
Фосфаты
ПО
Число
таксонов
№1
№2
№3
№4
№5
7,62
7,70
7,82
7,22
7,80
69,44
79,57
102,93
4,17
98,62
6,32
0,173
5,85
0
4,85
4,01
2,54
3,871
1,56
2,65
1
12
2
0
2
— 146 —
Окончание табл.
№6
№7
№8
№9
№ 10
7,60
7,80
7,80
7,80
7,70
67,23
95,68
103,83
81,12
96,65
0,185
5,62
5,83
0,182
4,32
2,11
2,72
3,68
2,21
3,62
11
3
3
12
4
Проведите факторный анализ и определите главные факторы в
использованной системе оценок водоемов.
КОНТРОЛЬНЫЕ ВОПРОСЫ
1. Объясните применение в биологии регрессионного анализа.
2. Объясните разницу между дисперсионным, корреляционным
и регрессионным анализом.
3. При решении каких задач проводят линейный, нелинейный,
множественный регрессионный анализ?
4. Составьте план проведения регрессионного анализа ваших
экспериментальных данных.
5. Докажите целесообразность проведения факторного анализа
при обработке ваших экспериментальных данных.
— 147 —
6. АНАЛИЗ ВРЕМЕННЫХ РЯДОВ
И ПРОГНОЗИРОВАНИЕ
Временной ряд — последовательность измерений признака (х),
произведенных через одинаковые промежутки времени (или пространственной координаты).
Значения временного ряда получают регистрацией показателей
признака (процесса) через определенные промежутки времени
(пространства). Например, если ежесуточно в определенное время
записывать показания термометра, то получится временной ряд со
значениями температуры в том месте, в котором находится термометр.
В тех случаях, когда у объекта производится оценка нескольких
характеристик, принято говорить о многомерных временных рядах.
Анализ временных рядов (Time Series/Forecasting) предполагает, что данные содержат систематическую составляющую (обычно
включающую несколько компонент) и случайную составляющую
(шум или ошибка).
Случайная компонента ( t ) отражает влияние не поддающихся
учету и регистрации случайных факторов, которые затрудняют обнаружение регулярных компонент. Методы исследования временных рядов включают различные способы фильтрации шума, позволяющие увидеть регулярную составляющую более отчетливо.
Большинство регулярных составляющих временных рядов принадлежат к двум классам: они являются либо трендом (ut), либо
сезонной составляющей ( t ). Тренд представляет собой общую
систематическую линейную или нелинейную компоненту, которая
изменяется во времени. Сезонная составляющая — это периодически повторяющаяся компонента. Временные ряды могут включать
циклическую компоненту (сt), отражающую повторяемость процессов в течение длительных периодов времени.
При проведении анализа временных рядов выделяют этапы:
 графическое представление и анализ поведения временного
ряда;
— 148 —
 выделение и анализ регулярных составляющих временного
ряда;
 сглаживание и фильтрация (удаление низко- или высокочастотных составляющих) временного ряда;
 исследование случайной составляющей временного ряда, построение и проверка адекватности математической модели ее описания;
 прогнозирование поведения временного ряда на основе проведенных исследований.
Задача прогнозирования состоит в том, чтобы по значениям наблюдений, собранных к данному моменту, определить значения в
следующие моменты. Чтобы делать правильные прогнозы, необходимы знания и опыт. Прогнозы строят различными методами. Выбирают для прогноза тот метод, который правдоподобно прогнозирует ряд.
В модуле Временные ряды и прогнозирование (Time Series/Forecasting) реализованы различные методы: модель авторегрессии и проинтегрированного скользящего среднего (АРПСС);
анализ прерванных временных рядов или модели АРПСС с интервенцией; сезонная декомпозиция; спектральный (Фурье) анализ;
12-месячная сезонная корректировка; квартальная сезонная корректировка; анализ распределенных лагов.
Временные ряды, возникающие в различных предметных областях, имеют различную природу, поэтому для их изучения используют разные методы.
6.1. МОДЕЛЬ АВТОРЕГРЕССИИ И ПРОИНТЕГРИРОВАННОГО
СКОЛЬЗЯЩЕГО СРЕДНЕГО
Пример 1. По данным ежемесячного производства мяса птицы
с января 1989 г. по декабрь 2000 г. одного из хозяйств Тюменского
региона провести анализ и составить прогноз (см. табл. 32).
При оценке временного ряда видно, что нет резких скачков в
производстве мяса птицы, просматривается тренд ряда, который
выражается в плавном увеличении объемов производства, и некоторая сезонность, проявляемая в периодичности увеличения и
уменьшения объемов производства (см. рис. 68).
— 149 —
Таблица 32
Показатели временного ряда (ежемесячное производство мяса птицы)
Год
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
I
115
118
148
174
199
207
245
287
318
343
363
420
II
121
129
153
183
199
191
236
280
304
321
345
394
III
135
144
181
196
239
238
270
320
359
365
409
422
IY
132
138
165
184
238
230
272
316
351
351
399
464
Y
124
128
175
186
232
237
273
321
358
365
423
475
Месяц
YI YII
138 151
152 173
181 202
221 233
246 267
267 305
318 367
377 416
425 465
438 494
475 551
538 625
YIII
151
173
202
245
275
296
350
408
467
508
562
609
IX
139
161
187
212
240
262
315
358
407
407
466
511
Рис. 68. Изменение объемов производства
— 150 —
X
122
135
165
194
214
232
277
309
350
362
410
464
XI
107
117
149
175
183
206
240
274
308
313
365
393
XII
121
143
169
197
204
232
281
309
339
340
408
435
При проведении спектрального анализа (Spectral Fourier
analysis) во временном ряде выявляется устойчивый сезонный цикл
с периодом 12 месяцев (рис. 69). Анализ начинается с преобразования временного ряда. Возможные преобразования:
 на вкладке x = f(x) — прибавить константу к значениям ряда,
возвести в степень, взять натуральный логарифм, вычитание среднего, стандартизация (из значения ряда вычитается среднее арифметическое и результат делится на стандартное отклонение), вычитание тренда;
 на вкладке сглаживание — сглаживание скользящей медианой, сглаживание скользящим средним, простое экспоненциальное
сглаживание, 4253 Н фильтр;
 на вкладке x = f(x, у) — вычисление нового значения по формуле х = х – у(lag), где lag (запаздывание) задается в поле lag; вычисление нового значения по формуле x = x – (а + bу(lag)), где параметры а и b оцениваются программой из данных; опции этой
вкладки доступны при работе с двумя временными рядами и более;
 на вкладке сдвиг: начальная точка ряда сдвигается вперед
или назад; на вкладке вычитание (суммирование) вычисляются
значения нового ряда по формуле x = x – х(lag) или x = x + х(lag).
Рис. 69. Периодограмма объемов производства
— 151 —
Для данного временного ряда необходимо уменьшение дисперсии (разницы между высокими и низкими частотами) ряда на основе преобразования Natural log на вкладке x = f(x).
После уменьшения дисперсии надо идентифицировать параметры модели. В модели АРПСС имеются следующие типы параметров:
p — порядок авторегрессии, d — порядок разности, q — порядок
скользящего среднего. Идентифицировать модель АРПСС — значит определить эти параметры. Различают идентификацию порядка
разности — d и идентификацию стационарного процесса или порядка смешанной модели — параметров р, q. Идентификация —
довольно грубая процедура, с помощью которой получают приближенные значения порядка модели. Довольно типично получение на этапе идентификации нескольких приемлемых моделей, которые с достаточной степенью точности подходят к наблюдаемым
данным. Перед выбором модель подвергают детальному рассмотрению на основе критериев идентификации — поведение автокорреляционной (частной корреляционной) функции ряда. Ряд считается стационарным при отсутствии тенденции к затуханию у
временного ряда автокорреляционной (частной корреляционной)
функции. Автокорреляционной функцией стационарного ряда х(t)
называют функцию r(k) = corr(x(t)  (t + k)), где k > 0. Величина k
часто называется задержкой, или лагом. Она указывает расстояние
между членами временного ряда, для которых вычисляется коэффициент корреляции.
После уменьшения дисперсии ряда (преобразования Natural log
на вкладке x = f(x)) присутствует тенденция к затуханию у временного ряда автокорреляционной функции, то есть ряд является нестационарным (см. табл. 33, рис. 70). Нужно рассмотреть разность
первого порядка наблюдаемого ряда. Для этого на вкладке вычитание (суммирование) нужно выбрать разность первого порядка
x = x – х(lag), указав значение lag = 1. Если приходят к заключению,
что ряд первых разностей не стационарен, то вновь берут его разности первого порядка и используют критерий стационарности.
— 152 —
Таблица 33
Автокорреляционная функция после преобразования ln(x)
Лаг
Автокорреляция
Стд. ошибка
Бокса–
Льюнга Q
Уровень
значимости
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0,953703
0,898916
0,850802
0,808425
0,778899
0,756442
0,737602
0,727131
0,733649
0,744255
0,758027
0,761943
0,716504
0,663043
0,618363
0,576209
0,543801
0,519456
0,500703
0,490403
0,498182
0,506167
0,516743
0,520490
0,483524
0,437398
0,400407
0,364131
0,336982
0,314723
0,082473
0,082184
0,081894
0,081603
0,081311
0,081018
0,080724
0,080429
0,080133
0,079835
0,079537
0,079237
0,078937
0,078635
0,078332
0,078027
0,077722
0,077415
0,077108
0,076799
0,076488
0,076177
0,075864
0,075550
0,075234
0,074918
0,074599
0,074280
0,073959
0,073637
133,723
253,360
361,293
459,437
551,200
638,374
721,864
803,598
887,420
974,327
1065,158
1157,625
1240,016
1311,114
1373,432
1427,965
1476,920
1521,944
1564,110
1604,886
1647,307
1691,458
1737,854
1785,318
1826,623
1860,710
1889,519
1913,550
1934,310
1952,577
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
— 153 —
Нужно рассмотреть разность первого порядка наблюдаемого
ряда. Для этого на вкладке вычитание (суммирование) нужно выбрать разность первого порядка x = x – х(lag), указав значение
lag = 1. Если приходят к заключению, что ряд первых разностей
нестациоанарен, то вновь берут его разности первого порядка и
используют критерий стационарности.
Рис. 70. Автокорреляционная функция после преобразования ln(x)
Из табл. 34, рис. 71 видно, что есть незначительная корреляция
на lag1. Тенденция к затуханию весьма слабая. Обнаружены пики
устойчивого сезонного цикла с периодом в 12 месяцев (лаг12
r(k) = 0,84; лаг24 r(k) = 0,74). Таким образом, после двух преобразований (ln(x); D(-1)) построена стационарная модель.
— 154 —
Таблица 34
Автокорреляционная функция после преобразований ln(x), D(-1)
Лаг
Автокорреляция
Стд. ошибка
Бокса–
Льюнга Q
Уровень
значимости
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0,199751
-0,120104
-0,150772
-0,322074
-0,083975
0,025778
-0,110961
-0,336721
-0,115586
-0,109267
0,205852
0,841430
0,215087
-0,139554
-0,115996
-0,278943
-0,051706
0,012458
-0,114358
-0,337174
-0,107385
-0,075211
0,199475
0,736921
0,197262
-0,123884
-0,102699
-0,210992
-0,065357
0,015728
0,082755
0,082463
0,082170
0,081876
0,081581
0,081285
0,080987
0,080689
0,080390
0,080089
0,079788
0,079485
0,079181
0,078876
0,078569
0,078262
0,077953
0,077643
0,077332
0,077019
0,076706
0,076391
0,076074
0,075757
0,075438
0,075117
0,074796
0,074473
0,074148
0,073822
5,8263
7,9476
11,3144
26,7884
27,8479
27,9485
29,8257
47,2402
49,3076
51,1689
57,8254
169,8900
177,2689
180,3993
182,5789
195,2826
195,7226
195,7483
197,9351
217,1001
219,0600
220,0293
226,9048
321,5282
328,3659
331,0858
332,9711
340,9978
341,7747
341,8201
0,015794
0,018811
0,010150
0,000022
0,000039
0,000097
0,000103
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
0,000000
— 155 —
Рис. 71. Автокорреляционная функция после преобразований ln(x), D(-1)
Идентификация построенной стационарной модели (после преобразований) будет проведена в классе моделей смешанная авторегрессия — скользящее среднее, которые при определенных ограничениях на параметры более точно описывают стационарные
временные ряды. Как отмечалось ранее, идентификация модели
заключается в определении параметров модели p и q. Для определения параметров p, q рассматривают поведение выборочных автокорреляционной и частной автокорреляционной функций ряда.
Практика показывает, что большинство наблюдаемых рядов,
описываемых смешанной моделью авторегрессии и скользящего
среднего, могут быть с достаточной степенью точности отнесены к
одному из следующих пяти классов: модели авторегрессии с одним параметром (p = 1, q = 0); модели авторегрессии с двумя параметрами (p = 2, q = 0); модели скользящего среднего с одним пара-
— 156 —
метром (p = 0, q = 1); модели скользящего среднего с двумя параметрами (p = 0, q = 2); модели авторегрессии с одним параметром и
скользящего среднего с одним параметром (p = q = 1).
Имеются следующие практические критерии по определению
этих моделей с помощью автокорреляционных и частных автокорреляционных функций ряда:
 один параметр авторегрессии: автокорреляционная функция
экспоненциально затухает; частная автокорреляционная функция
имеет выброс на лаге 1 (нет корреляции для других задержек);
 два параметра авторегрессии: автокорреляционная функция
имеет форму затухающей синусоидальной волны или экспоненциально затухает; частная автокорреляционная функция имеет выброс только для сдвигов 1 и 2 (нет корреляции для других задержек);
 один параметр скользящего среднего: автокорреляционная
функция имеет выброс на лаге 1 (нет корреляции для других задержек); частная автокорреляционная функция экспоненциально
затухает — либо монотонно, либо осциллируя, то есть меняя знак;
 два параметра скользящего среднего: автокорреляционная
функция имеет выбросы на сдвигах 1 и 2 (нет корреляции для других задержек; частная автокорреляционная функция имеет форму
синусоидальной волны или экспоненциально затухает;
 один параметр авторегрессии и один параметр скользящего
среднего: автокорреляционная функция экспоненциально затухает,
начиная с первой задержки (первое значение не нулевое), затухание может быть монотонное и колебательное; в частной автокорреляционной функции преобладает затухающий экспоненциальный
член — либо монотонный, либо осциллирующий (первое значение
не нулевое).
Критерии носят достаточно расплывчатый характер, возможно,
с их помощью будет идентифицирована и не одна модель. Наличие
нескольких подходящих моделей следует рассматривать не как фатальную ошибку, а как нормальный поисковый результат.
Как показывает практика, на этапе идентификации целесообразно определить несколько подходящих моделей и затем, оценив
— 157 —
их параметры и исследовав остатки, оценить адекватность моделей, после чего выбрать наилучшую модель из нескольких возможных.
Программа STATISTICA позволяет легко анализировать модели АРПСС. С точки зрения временных затрат практически нет разницы: иметь дело лишь с одной моделью, оценивать ее параметры
и строить прогноз или искать наилучшую среди нескольких подходящих.
Анализируя поведение автокорреляционной (частной автокорреляционной) функции и учитывая приведенные критерии, можно
сделать вывод, что наиболее подходящей моделью для ряда Производство мяса птицы ln(x), D(-1) будет модель — один параметр
скользящего среднего (р = 0, q = 1). Учитывая, что d = 1, имеем несезонную модель АРПСС (0, 1, 1). Так как ряд имеет выраженную
сезонную составляющую с периодом в 12 месяцев, в модель должна быть внесена сезонная корректировка. Сезонные модели
АРПСС, реализованные в программе STATISTICA, являются
обобщением обычных моделей АРПСС. Полная сезонная модель
может быть представлена в виде АРПСС (p, d, q), (Ps, Ds, Qs), где к
параметрам модели АРПСС p, d, q добавлены сезонные параметры:
сезонный параметр авторегрессии — Ps, сезонная разность — Ds,
сезонный параметр скользящего среднего — Qs. Идентификация
полной модели АРПСС проводится тем же способом, что и идентификация несезонной модели АРПСС. Поведение автокорреляционной (частной корреляционной) функции на лагах, кратных
сезонному лагу, также стандартным образом позволяет идентифицировать сезонную составляющую ряда.
Для того чтобы учесть сезонные колебания с периодом в 12 месяцев, необходимо взять сезонную разность с лагом 12 ряда ln(x),
D(-1) (рис. 72).
В диалоговом окне преобразование переменных на вкладке вычитание (суммирование) нужно выбрать разность первого порядка
x = x – х(lag), указав значение lag = 12.
— 158 —
Рис. 72. Автокорреляционная функция после преобразований ln(x),
D(-1), D(-12)
Из табл. 35 видно, что ряд является стационарным, автокорреляционная функция экспоненциально затухает, а частная автокорреляционная функция также затухает и имеет выброс на лаге 1.
Значит сезонный параметр авторегрессии Ps = 0, сезонная разность
Ds = 1, сезонный параметр скользящей средней Qs = 1. Таким образом, вид полной модели АРПСС (0, 1, 1), (0, 1, 1).
В диалоговом окне Модели авторегрессии и проинтегрированной скользящей средней (АРПСС) нужно установить значения параметров: р = 0, q = 1, d = 1, Ps = 0, Qs = 1, Ds = 1 (см. рис. 73).
— 159 —
Таблица 35
Автокорреляционная функция после преобразований ln(x),
D(-1), D(-12)
Лаг
Автокорреляция
Стд. ошибка
Бокса–Льюнга Q
Уровень
значимости
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
-0,341124
0,105047
-0,202139
0,021359
0,055654
0,030804
-0,055579
-0,000761
0,176369
-0,076358
0,064384
-0,386613
0,151602
-0,057607
0,149565
-0,138942
0,070482
0,015631
-0,010611
-0,116729
0,038554
-0,091365
0,223269
-0,018418
-0,100288
0,048566
-0,030240
0,047134
-0,018030
-0,051070
0,086379
0,086047
0,085712
0,085377
0,085040
0,084702
0,084362
0,084022
0,083679
0,083336
0,082991
0,082644
0,082296
0,081947
0,081596
0,081243
0,080889
0,080534
0,080177
0,079818
0,079457
0,079096
0,078732
0,078366
0,077999
0,077631
0,077260
0,076888
0,076514
0,076138
15,59566
17,08604
22,64779
22,71038
23,13868
23,27094
23,70497
23,70505
28,14733
28,98688
29,58875
51,47284
54,86636
55,36054
58,72044
61,64522
62,40446
62,44213
62,45965
64,59837
64,83381
66,16810
74,20994
74,26518
75,91835
76,30972
76,46292
76,83872
76,89425
77,34416
0,000079
0,000195
0,000048
0,000145
0,000319
0,000713
0,001287
0,002574
0,000904
0,001257
0,001844
0,000001
0,000000
0,000001
0,000000
0,000000
0,000000
0,000001
0,000002
0,000001
0,000002
0,000003
0,000000
0,000000
0,000001
0,000001
0,000001
0,000002
0,000003
0,000005
— 160 —
Рис. 73. Выбор модели авторегрессии
Результаты оценки параметров приведены в табл. 36. Оценки
параметров q(1) и Qs(1) высоко значимы (Р значительно меньше
0,05).
Таблица 36
Результаты оценки параметров модели АРПСС (0, 1, 1), (0, 1, 1)
Асимпт.
ПараЗначение
стд. ошибка
метр
Асимпт.
t (129)
Значимость
Нижняя
95% дов.
Верхняя
95% дов.
q(1) 0,377162 0,089318
4,222697 0,000045 0,200445
0,553880
Qs(1) 0,572379 0,071189
8,040233 0,000000 0,431529
0,713229
По умолчанию программа вычисляет прогнозы для одного полного сезонного цикла, начиная с последнего наблюдения (со 145-го
по 156 наблюдение).
— 161 —
При задании прогноза со значения 133 будет построен прогноз
для имеющихся значений. Как видно из рис. 74, прогнозная кривая
практически повторяет фрагмент кривой исходного ряда. Наблюдаемые значения попадают в доверительный интервал.
Рис. 74. Проверка модели прогноза со 133 по 145 значение
Адекватность модели анализируется на основе исследования
остатков (разность между наблюдаемыми значениями и значениями, предсказанными с помощью модели). В правильно подобранной модели остатки будут похожи на белый шум: в них не будет
периодических колебаний, систематических смещений, между ними не будет сильных корреляций, они будут нормально распределены (рис. 75, 76).
— 162 —
Рис. 75. Оценка остатков на основе автокорреляционной функции
Рис. 76. Оценка остатков на основе частных автокорреляционных функций
— 163 —
Анализ остатков показывает, что при помощи Модели авторегрессии и проинтегрированного скользящего среднего построена
адекватная модель для прогноза изменения исследуемого ряда.
6.2. СЕЗОННАЯ ДЕКОМПОЗИЦИЯ
В модуле Анализ временных рядов и прогнозирование реализовано два вида сезонной декомпозиции: классическая сезонная декомпозиция (Census I) и 12-месячная сезонная декомпозиция
(XII/Y2k (Census I)).
В начале раздела 6 было отмечено, что во временном ряде (хt —
значение временного ряда в момент t) можно выделить четыре различные компоненты: сезонная компонента ( t ), тренд (ut), циклическая компонента (сt) и случайная нерегулярная компонента ( t ).
Разница между циклической и сезонной компонентами состоит в
том, что последняя имеет регулярную (сезонную) периодичность,
тогда как циклические факторы обладают более длительным эффектом, который к тому же меняется от цикла к циклу. В методе
сезонной декомпозиции тренд и циклическую компоненту обычно
объединяют в одну тренд-циклическую компоненту (uсt). Конкретные функциональные взаимосвязи между этими компонентами бывают самого разного вида. Однако можно выделить два основных
способа, с помощью которых они взаимодействуют: аддитивно
(хt = uсt + t +  t) и мультипликативно (хt = uсt t  t ). При аддитивной модели временной ряд будет иметь постоянные сезонные
колебания, величина которых не зависит от общего уровня значений ряда. В мультипликативном случае величина сезонных колебаний будет меняться в зависимости от общего уровня значений ряда.
В прогнозировании с помощью ARIMA сезонность учитывалась
(бралась разность с лагом 12), но невозможно было проанализировать ее вид, понять, какое действие она оказывает на ряд. В методах сезонной декомпозиции можно строить графики сезонной компоненты, тренд-циклической и нерегулярной составляющей.
В диалоге ARIMA требуется минимум 8 полных циклов значений
— 164 —
ряда (8  12 = 96 случаев), а для методов сезонной декомпозиции
достаточно 5 полных сезонных циклов.
При задании модели декомпозиции могут быть включены следующие составляющие (рис. 77): скользящие средние (вычисляется
скользящее среднее для временного ряда, при этом ширина окна
берется равной периоду сезонности); отношения/разности (после
взятия скользящих средних проводится исключение сезонной изменчивости: в случае аддитивной модели ряд скользящих средних
вычитается из наблюдаемого ряда, в случае мультипликативной
модели значения наблюдаемого ряда делятся на значения скользящих средних).
Рис. 77. Выбор компонентов модели декомпозиции
Сезонные факторы (вычисляются как среднее (для аддитивных
моделей) или медианное среднее (для мультипликативных моделей) всех значений ряда, соответствующих данному сезону); ряд
скорректированный на сезонную составляющую (исходный ряд
— 165 —
можно скорректировать, вычитая из него (аддитивная модель) или
деля его значения (мультипликативная модель) на значения сезонной составляющей; полученный таким образом ряд называется
скорректированный на сезонную составляющую (из ряда удалена
сезонная составляющая)); сглаженная тренд-циклическая компонента (для получения тренд-циклической компоненты применена
процедура центрирования взвешенной скользящей с весами 1, 2,
3, 2, 1 (пятиточечное центрирование)); нерегулярная составляющая (выделение случайной компоненты проводится вычитанием
из ряда с сезонной поправкой (аддитивная модель) или делением
этого ряда (мультипликативная модель) на тренд-составляющую
компоненту).
Результаты оценки составляющих временного ряда Производство мяса птицы на основе классической сезонной декомпозиции
(Census I) приведены в табл. 37. Для оценки составляющих ряда
использована аддитивная модель. Ряд имеет постоянные сезонные
колебания, величина которых не зависит от общего уровня значений ряда.
Результатом суммирования составляющих — тренд-цикла, сезонной и нерегулярной — является исходной временной ряд. Сумма скорректированного ряда и сезонной составляющей также равна
исходному временному ряду.
На вкладке Осмотр/Review series имеются опции для визуализации результатов декомпозиции. Для этого исследователю необходимо выбрать исходный ряд и интересующие компоненты ряда,
программа построит соответствующие графики.
12-месячная сезонная декомпозиция (XII/Y2k (Census I) в отличие от классической сезонной декомпозиции (Census I) учитывает
поправку на число дней, преобразовывает перед началом анализа
выбросы (значения, выходящие за определенный диапазон), проводит проверку значимости фактора сезонной изменчивости, числа
дней, проводит оценку ежемесячных (квартальных) изменений
случайной и тренд-циклических компонент.
— 166 —
Таблица 37
Результаты оценки составляющих временного ряда
1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Произ- Скольз.
водство средние
2
3
Разности
4
Сезонные
составл.
5
Скоррек. Сглажен.
Нерег.
ряд
тренд-цикл. компон.
6
7
8
112,0000
-24,7487
136,7487
143,2875
-6,5387
118,0000
-36,1881
154,1881
141,7260
12,4621
132,0000
-2,2412
134,2412
138,6031
-4,3620
129,0000
-8,0366
137,0366
131,5989
5,4377
121,0000
-4,5063
125,5063
118,6886
6,8178
135,0000
35,4028
99,5972
104,4840
-4,8868
148,0000
126,7917
21,2083
63,8308
84,1692
96,3380
-12,168
148,0000
127,2500
20,7500
62,8232
85,1768
100,2298
-15,053
136,0000
127,9583
8,0417
16,5202
119,4798
116,6490
2,8308
119,0000
128,5833
-9,5833
-20,6427
139,6427
133,8746
5,7681
104,0000
129,0000
-25,0000
-53,5934
157,5934
144,9482
12,6452
118,0000
129,7500
-11,7500
-28,6199
146,6199
148,4861
-1,8662
115,0000
131,2500
-16,2500
-24,7487
139,7487
148,6330
-8,8843
126,0000
133,0833
-7,0833
-36,1881
162,1881
149,1334
13,0547
141,0000
134,9167
6,0833
-2,2412
143,2412
145,4920
-2,2508
135,0000
136,4167
-1,4167
-8,0366
143,0366
138,9322
4,1044
125,0000
137,4167
-12,4167
-4,5063
129,5063
127,9108
1,5955
149,0000
138,7500
10,2500
35,4028
113,5972
118,0396
-4,4423
170,0000
140,9167
29,0833
63,8308
106,1692
114,5602
-8,3910
170,0000
143,1667
26,8333
62,8232
107,1768
120,4520
-13,275
158,0000
145,7083
12,2917
16,5202
141,4798
135,5379
5,9419
133,0000
148,4167
-15,4167
-20,6427
153,6427
150,5412
3,1014
114,0000
151,5417
-37,5417
-53,5934
167,5934
162,0593
5,5341
140,0000
154,7083
-14,7083
-28,6199
168,6199
168,9306
-0,3106
145,0000
157,1250
-12,1250
-24,7487
169,7487
174,0774
-4,3287
150,0000
159,5417
-9,5417
-36,1881
186,1881
177,5779
8,6103
— 167 —
Окончание табл. 37
1
2
3
4
5
6
7
8
27
178,0000
161,8333
16,1667
-2,2412
180,2412
177,9364
2,3047
28
163,0000
164,1250
-1,1250
-8,0366
171,0366
172,8211
-1,7845
29
172,0000
166,6667
5,3333
-4,5063
176,5063
163,5774
12,9289
30
178,0000
169,0833
8,9167
35,4028
142,5972
150,9285
-8,3312
31
199,0000
171,2500
27,7500
63,8308
135,1692
145,2269
-10,057
32
199,0000
173,5833
25,4167
62,8232
136,1768
148,7854
-12,608
33
184,0000
175,4583
8,5417
16,5202
167,4798
163,8712
3,6086
34
162,0000
176,8333
-14,8333
-20,6427
182,6427
179,2079
3,4348
35
146,0000
178,0417
-32,0417
-53,5934
199,5934
190,7260
8,8674
36
166,0000
180,1667
-14,1667
-28,6199
194,6199
197,0417
-2,4217
37
171,0000
183,1250
-12,1250
-24,7487
195,7487
200,4108
-4,6620
38
180,0000
186,2083
-6,2083
-36,1881
216,1881
201,5779
14,6103
39
193,0000
189,0417
3,9583
-2,2412
195,2412
197,7142
-2,4731
40
181,0000
191,2917
-10,2917
-8,0366
189,0366
192,3767
-3,3401
41
183,0000
193,5833
-10,5833
-4,5063
187,5063
185,2441
2,2622
42
218,0000
195,8333
22,1667
35,4028
182,5972
180,3729
2,2243
43
230,0000
198,0417
31,9583
63,8308
166,1692
178,0046
-11,835
44
242,0000
199,7500
42,2500
62,8232
179,1768
183,2298
-4,0530
ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ
Задание 1. Проведите оценку временного ряда изменения температуры в зимнее время в Тюменском регионе с 1944 по 2012 г.
Задание 2. Проведите оценку временного ряда изменения
урожайности зерновых культур в Тюменском регионе с 1944 по
2012 г.
— 168 —
КОНТРОЛЬНЫЕ ВОПРОСЫ
1. Объясните применение в биологии анализа временных рядов,
критериев идентификации (автокорреляционной и частной корреляционной функций ряда) модели ряда.
2. Составьте план проведения анализа временного ряда по вашим экспериментальным данным.
3. Докажите целесообразность проведения анализа временного
ряда выбранным вами методом.
— 169 —
7. МЕТОДЫ КЛАССИФИКАЦИОННОГО
АНАЛИЗА
7.1. КЛАСТЕРНЫЙ АНАЛИЗ
Задача кластерного анализа состоит в классификации объектов
исследования. Этот метод позволяет наглядно представить сходство или различие биологических объектов, охарактеризованных по
многим признакам.
Суть кластерного анализа состоит:
 в определении «расстояний» между объектами по всей совокупности признаков;
 группировании сходных объектов в кластеры (от англ. cluster —
гроздь, скопление);
 графическом изображении древа кластеризации.
В качестве меры расстояния выступают статистические показатели:
 Евклидова метрика — применяется, когда в кластерном анализе используются количественные признаки, измеренные в одних
единицах;
 квадрат Евклидова расстояния — применяется при работе с
признаками, измеренными в различных единицах или сильно различающихся по величине;
 манхэттенское расстояние — применяется с целью уменьшения больших разностей;
 расстояние Чебышева — применяется для сравнения объектов, различающихся по какой-либо одной координате;
 степенное расстояние Минковского — применяется для увеличения или уменьшения веса разности по отдельным координатам;
 процент несогласия — применяется при работе с номинальными признаками;
 1 – Pearson r (1 минус коэффициент корреляции Пирсона) —
применяется при проведении классификации в экономике и социологии (когда объекты нельзя представить как точки в k-мерном
пространстве).
— 170 —
В программе STATISTICA реализованы так называемые агломеративные методы минимальной дисперсии: joining (tree clustering) (древовидная кластеризация) и two-way joining (двухвходовая
кластеризация), а также k-means (дивизивный метод k-средних).
В методе древовидной кластеризации предусмотрены различные правила иерархического объединения в кластеры:
 правило single linkage (одиночной связи): на первом шаге
объединяются два наиболее близких объекта, на следующем шаге к
ним присоединяется объект с максимальной мерой сходства с одним из объектов кластера; метод называют еще методом ближайшего соседа, так как расстояние между двумя кластерами определяется как расстояние между двумя наиболее близкими объектами
в различных кластерах;
 правило complete llinkage (полных связей): два объекта, принадлежащих к одной и той же группе (кластеру), имеют коэффициент сходства, который больше некоторого порогового значения;
 правило unweighted pair-group averadge (невзвешенного попарного сравнения): расстояние между двумя кластерами определяется как среднее расстояние между всеми парами объектов в них;
 правило weighted pair-group averadge (взвешенное попарное
сравнение) применяется при неравных размерах кластеров;
 unweighted pair-group centroid (невзвешенный центроидный):
расстояние между двумя кластерами определяется как расстояние
между их центрами;
 weighted pair-group centroid (взвешенный центроидный): при
вычислениях используются веса для учета разности между размерами кластеров;
 метод Уорда (Ward method) направлен на объединение близко расположенных кластеров.
Для запуска метода Кластерный анализ (Cluster Analysis) в меню STATISTICA надо выбрать Multivfriate Exploratory Techniques
(Многомерные исследовательские методы) и далее выбрать Cluster
Analysis. Откроется стартовая панель модуля Кластерный анализ
(см. рис. 78).
— 171 —
Рис. 78. Стартовое окно модуля Кластерный анализ (Cluster Analysis)
На вкладке Quick находится список методов кластерного анализа, реализованных в программе STATISTICA: Joining tree clustering
(древовидная кластеризация); k-means clustering (метод k-средних)
и Two-way joining (двухвходовая кластеризация).
Пример 1. Необходимо оценить сходство биотопов по численности мелких млекопитающих и разделить биотопы на группы.
Численность, экз. на 10 канавко-суток
Сосняки
Ельники
Лист. мелколесье
Бурозубка обыкновенная
3.9
7.2
6
Средняя бурозубка
1.8
1.1
0.5
Малая бурозубка
1.9
2.0
1.6
Равнозубая бурозубка
0.01
0.2
0.1
Крошечная бурозубка
0.04
0.06
0.4
Водяная кутора
0.04
0.06
0.4
Лесная мышовка
0.6
0.3
0.7
Лесной лемминг
0.2
0
0.05
Мышь малютка
0.04
0
0
Рыжая полевка
1.5
0.8
0.8
Красная полевка
0.06
0.6
0.02
Темная полевка
0.2
0
0.7
Полевка-экономка
0
0.2
0.2
Вид
— 172 —
В главной части стартовой панели нужно высветить k-means
clustering и нажать ОК, на экране появится диалоговое k-means
clustering (рис. 79). После выбора объектов для кластеризации в
поле Number of claster (число кластеров) нужно определить число
групп (классов), на которые мы хотим разделить биотопы. В поле
Number of iteration (число повторений) задается максимальное число повторений при построении классов.
Рис. 79. Диалоговое окно k-means clustering
Группа опций Initial claster centers позволяет задать начальные
центры кластеризации:
 Choose observation to maximize initial between-cluster distances
(выбрать наблюдения, максимизирующие начальные расстояния
между кластерами);
 Sort distances and take observations at constant intervals (сортировать расстояния и выбрать наблюдения на постоянных интервалах);
 Choose the first N (Number of cluster) observations (выбрать
первые N (число кластеров) наблюдений.
При выборе опции Sort distances and take observations at constant
intervals (сортировать расстояния и выбрать наблюдения на постоянных интервалах) откроется окно результатов k-means clustering
— 173 —
results. В верхней информационной части окна представлены следующие данные: количество переменных, число наблюдений,
k-means clustering of cases (метод k-средних), обработка пропущенных данных, число кластеров, число повторений при получении
результата. Во вкладке Advanced содержится информация о результатах анализа:
 Cluster means & Euclidean distances;
 Analysis of variance;
 Graph of means;
 Descriptive statistics for each cluster;
 Members of each cluster & distances.
Число кластеров два: в первый кластер входят сосняки; во второй: ельники и лиственное полесье (рис. 80). Среднее значение видов кластеров выбираются в Descriptive statistics for each cluster
(рис. 81). Для первого кластера: обыкновенная бурозубка 3,9; средняя бурозубка 1,8; малая бурозубка 1,9; равнозубая бурозубка 0,01;
крошечная бурозубка 0,04; водяная кутора 0,04; лесная мышовка
0,6; лесной лемминг 0,2; мышь малютка 0,04; рыжая полевка 1,5;
красная полевка 0,06; темная полевка 0,2 полевка-экономка 0.
Рис. 80. Результаты кластеризации биотопов методом Joining tree clustering
(метод древовидной кластеризации)
— 174 —
Для второго кластера: обыкновенная бурозубка 6,6; средняя бурозубка 0,8; малая бурозубка 1,8; равнозубая бурозубка 0,15; крошечная бурозубка 0,02; водяная кутора 0,23; лесная мышовка 0,5;
лесной лемминг 0,02; мышь малютка 0,04; рыжая полевка 0,8;
красная полевка 0,31; темная полевка 0,35 полевка-экономка 0,2.
На основе сравнения средних кластеров находится расстояние
между кластерами (см. рис. 82). Евклидово расстояние между кластерами 1 и 2 составляет 0,83; квадрат Евклидова расстояния равен
0,69 (см. рис. 83).
Диаграмма построена методом single linkage (одиночной связи
или ближайшего соседа). По матрице расстояний отыскиваются
ближайшие соседи для всех объектов.
На диаграмме горизонтальные оси представляют расстояние
объединения. Для каждого узла в графе (там где, формируется новый кластер) можно определить величину расстояния, для которого
соответствующие элементы связываются в новый кластер. Кластеры отражаются в иерархическом дереве различными ветвями.
Рис. 81. Сравнение средних для каждого кластера
— 175 —
Внутригрупповые (Within SS) и межгрупповые различия (Bet
ween SS) определяются на основе дисперсионного анализа (рис. 82).
Чем меньше значение внутригрупповой изменчивости и больше
значение межгрупповой дисперсии, тем лучше характеризует принадлежность объектов к кластеру и тем качественнее кластеризация. Параметры F и Р также характеризуют вклад признака в разделение объектов на группы. Лучшей кластеризации соответствуют
большие значения F и меньшие значения Р. Признаки с большими
значениями Р из процедуры кластеризации можно исключить.
Рис. 82. Выбор признаков для проведения кластеризации
на основе дисперсионного анализа
Рис. 83. Результаты определения расстояния (Евклидово расстояние)
между кластерами
— 176 —
7.2. ДИСКРИМИНАНТНЫЙ АНАЛИЗ
Этот метод многомерной статистики служит для дискриминации, то есть различения (дифференциации) и диагностирования
(распознавания) биологических объектов и явлений, различия между
которыми не очевидны. Как и в кластерном анализе, рассматриваемые объекты могут быть охарактеризованы многими параметрами.
Однако задачи дискриминантного анализа прямо противоположные: не выделить из множества объектов группы близких, а отнести тот или иной объект к определенной, априорно выделенной
группе.
Возможности модуля Discriminant Analysis рассмотрим на примере определения пола у молодых пеночек-весничек. Визуально
самцы и самки этого вида не различаются, а морфологические признаки (длина крыла, хвоста, цевки) у них сильно перекрываются.
Это не позволяет с уверенностью определять пол весничек. Дискриминантный анализ позволяет решить подобную проблему.
Для запуска метода Дискриминантный анализ (Discriminant
Analysis) в меню STATISTICA надо выбрать Multivfriate Exploratory Techniques (Многомерные исследовательские методы) и далее
выбрать Discriminant Analysis. Откроется стартовая панель модуля
Дискриминантный анализ (см. рис. 84). Чтобы выбрать переменные
для анализа, нужно нажать кнопку Variables. Появится окно, в котором необходимо выбрать группирующую переменную и зависимые переменные.
В рассматриваемом примере группирующей переменной будет
пол пеночек-весничек. Группирующая переменная не должна входить в список независимых переменных. Независимые переменные
в рассматриваемом примере: длина крыла и длина хвоста. Далее
нужно задать коды для значений группирующей переменной —
пол. Коды группирующей переменной: самки и самцы (см. табл. 38).
— 177 —
Рис. 84. Стартовая панель дискриминатного анализа
(Discriminant Analysis)
Таблица 38
Показатели для дискриминантного анализа.
Результаты измерения пеночек-весничек
Самцы
Длина крыла,
Длина хвоста,
мм
мм
65
50
61
47
64
48
63.5
51
63
47
62
46
63
48
63.5
48
62
47
64
46
Самки
Длина крыла,
Длина хвоста,
мм
мм
59
44
59
46
54
45
57.5
43
61
46.5
60.5
46
57.5
45
58
44
60.5
45
60
45
Если в диалоговом окне Discriminant Function Analysis была отмечена опция Advanced options, откроется окно диалога Model
Definition (см. рис. 85). Во вкладке Advanced открывшегося окна
нужно выбрать метод дискриминантного анализа:
— 178 —
 Standart (стандартный). При этом методе все выбранные переменные будут одновременно включены в модель (уравнение);
 Forward stepwise (пошаговый вперед), программа на последовательных шагах включает переменные в модель;
 Backward stepwise (пошаговый назад). Программа включает в
модель все выбранные переменные и затем удаляет на каждом шаге
переменные из модели.
Опция Tolerance позволяет задать нижнюю границу толерантности. Значение толерантности определяется как 1 – R² (R² — коэффициент множественной корреляции). Толерантность является
мерой избыточности. Чем меньше значение толерантности, тем избыточнее переменная в модели (так как переменная несет малую
дополнительную информацию). Переменные с толерантностью
меньше заданного значения в модель не включаются.
При пошаговом анализе (Forward stepwise, Backward stepwise)
дискриминантной функции выделяют следующие опции диалога:
 F to enter (F-включить) при анализе дискриминантной функции переменные включаются в модель, если соответствующее им
значение F-критерия больше, чем значение F-критерия-включить.
Если при проведении пошагового анализа с включением необходимо включить все переменные, надо установить в F to enter значение,
равное малому числу (например, 0,0001), а в поле F to remove —
значение 0;
 F to remove (F-исключить) переменные удаляются из модели,
если соответствующее им значение F меньше, чем значение F-исключить;
 Number of steps (числа шагов) определяет максимальное количество шагов, которое будет осуществлено;
 Dysplay results (вывод результатов). Если в предлагаемом программой списке выбрать Summary only (только итог), то программа
выполнит все этапы пошагового анализа и только потом появится
окно результатов. При выборе At each step (на каждом шаге) программа будет выводить результаты анализа на каждом шаге.
После выбора стандартного метода (Standart) дискриминантного анализа откроется окно результатов (см. рис. 85).
— 179 —
Рис. 85. Результаты дискриминантного анализа (стандартный метод)
Информационная часть окна сообщает, что:
 Number of variables in model (число переменных в модели)
равно 2;
 значение лямбда Уилкса (Wilks Lambda) равно 0,31017; Wilks
Lambda вычисляется как отношение детерминанта внутригрупповых дисперсий к детерминанту общей матрицы. Значения Wilks
Lambda около нуля свидетельствуют о хорошей дискриминации,
около 1 — о плохой дискриминации. Уровень значимости F-критерия меньше 0,05.
Результаты по переменным, включенным в модель, даны на
рис. 86. В первом столбце приведены значения Wilks Lambda по
переменным. Чем больше значение Wilks Lambda, тем желательнее
присутствие этой переменной в процедуре дискриминации.
Значение Partial Lambda (частная лямбда) является отношением
лямбда Уилкса после добавления соответствующей переменной к
лямбде Уилкса до добавления этой переменной. Чем меньше частная лямбда, тем больше вклад переменной в общую дискриминацию. Длина крыла дает больший вклад в общую дискриминацию
(частная лямбда = 0,68).
— 180 —
Рис. 86. Переменные, включенные в модель дискриминантного анализа
F to remove (F-исключить) — это значения F-критерия, связанные с соответствующей частной лямбда Уилкса. Значения Р-level —
это уровни значимости критериев F-remove.
Толерантность = 1 – R², чем меньше толерантность, тем меньше дополнительной информации, тем избыточнее переменная в
модели.
Основа дискриминантного анализа — линейные функции (дискриминантные или классификационные функции), которые вычисляются для каждой группы и могут быть использованы для классификации наблюдений. Наблюдение приписывают той группе, для
которой дискриминантная функция имеет наибольшее значение.
Дикриминантная функция для самцов (пример 1):
Самцы (1) = 16,634Длина крыла + 17,188Длина хвоста –
– 927,775.
Дикриминантная функция для самок (пример 1):
Самки (2) = 15,121Длина крыла + 16,298Длина хвоста –
– 810,790.
Коэффициенты при переменных и свободные члены линейных
функций находятся в разделе Функции классификации (Classification functions) во вкладке Классификация (окно результатов Discriminant Function Analysis) (см. рис. 87).
— 181 —
Рис. 87. Классификационные функции дискриминантного анализа
В рамке A priori classification probabilites (априорные вероятности классификации) приведены различные опции для классификации наблюдений по группам: Proportional to group sizes (пропорциональные размерам групп); Same for all groups (одинаковые для
всех групп); User defined (заданные пользователем). Если есть
предварительные сведения о возможном количественном соотношении наблюдений в группах, то желательно выбрать опцию User
defined, если таких сведений нет и число наблюдений в группах
примерно одинаково, то надо выбрать Same for all groups, в противном случае — Same for all groups.
В рамке Score to save for each case (сохранить для каждого наблюдения) приведены опции, при выборе которых можно сохранить тот или иной результат классификации: сохранить результаты
классификации; сохранить расстояния; сохранить апостериорные
вероятности.
Расстояние между группой самцов и самок оценивается на основе квадрата расстояния Махаланобиса (Результаты анализа дискриминантных функций) = 8,006; F-статистика = 18,9; Р = 0,00.
— 182 —
Квадраты расстояний Махаланобиса до центров групп (самцы —
G1; самки — G2) для каждого наблюдения даны на рис. 88. Меньшее из двух значений квадратов отклонений оценивает принадлежность к группе. Для наблюдения № 15 значение квадрата отклонения от центра группы самцов = 1,77; от центра группы самок
= 2,24 (значения длины крыла и длины хвоста отклоняются от
среднего значения самцов на меньшую величину). Апостериорная
вероятность отнесения наблюдения № 15 к группе самцов составляет 0,55; к группе самок — 0,44 (см. рис. 89).
Рис. 88. Квадраты расстояний Махаланобиса до центров групп
Наблюдение приписывается той группе, для которой имеется
наибольшая апостериорная вероятность классификации.
На этом этапе удобно рассмотреть возможность классификации
новых наблюдений. Для этого в таблицу исходных данных нужно
добавить новое наблюдение: длина крыла 59, длина хвоста 47.
— 183 —
Рис. 89. Апостериорная вероятность отнесения наблюдений к классам
Новое наблюдение с вероятностью 0,858 относится к группе
самок (рис. 90). Расстояние нового наблюдения до центров групп
минимально для группы самок = 2,46. Для группы самцов составляет 6,07 (рис. 91).
Рис. 90. Определение апостериорной вероятности для нового наблюдения
— 184 —
Рис. 91. Определение расстояния Махаланобиса для нового наблюдения
Если выделить вкладку Descriptives (раздел Модели дискриминантного анализа) и нажать на кнопку Review Descriptives Statistics,
то программа предоставляет пользователю широкие возможности
анализа описательных статистик исходных данных, которые можно
использовать для проверки выполнения предположений применения параметрической дискриминации. Так, на вкладке Quick можно
посмотреть объединенные внутригрупповые ковариации и корреляции (Pooled within-groups covariationces & correlations) и средние
и число наблюдений (Means & number of cases).
На вкладке Within можно посмотреть:
 внутригрупповые стандартные отклонения (within-groups
standard deviations);
 категоризованные гистограммы по группам (categorized histogram by group);
 диаграммы размаха (box plot of means by group);
 категоризованные диаграммы рассеяния (categorized scatterplot by group);
— 185 —
 категоризованный нормальный график по группам (categorized normal probability plot by group).
Вкладка All cases предоставит следующие данные:
 полные ковариации и корреляции (total covariances & correlations);
 график полной корреляции (plot of total correlations);
 диаграмма размаха средних (box plot of means).
Модуль Дискриминантный анализ (Discriminant Analysis) применяется, если распределение независимых переменных соответствует нормальному типу. При невыполнении условия применимости
модуля Дискриминантный анализ (Discriminant Analysis) необходимо использовать модуль общие модели дискриминантного анализа GDA (General Discriminant Analysis Models).
ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ
Задание 1. Результаты орнитологического учета, проведенного
в природном парке «Кондинские озера» (ХМАО, Советский район)
представлены в таблице. Необходимо оценить сходство биотопов
по численности видов птиц (особей/км²) и разделить биотопы на
группы.
Вид птиц
Пеночка-теньковка
Славка-завирушка
Зеленая пеночка
Глухарь
Черный стриж
Пестрый дятел
Лесной конек
Обыкновенная сорока
Серая ворона
Обыкновенный клест
Местообитания (сосняки-беломошники)
СбБ
СбсП
СбА
СбюП
Смв
9,34
50,77
14,53
1,38
1,05
3,67
19,49
6,75
0,20
0,87
5,98
30,06
13,05
12,16
20,56
5,46
34,65
2,07
18,17
0,37
0,29
16,67
2,07
8,9
1,73
0,29
3,22
0,02
0,29
2,6
6,28
1,11
3,02
1,26
3,33
0,28
0,56
14,84
3,56
27,04
0,57
5,11
9,33
21,29
20,77
2,22
0,15
4,65
30,77
0,74
— 186 —
Задание 2. В исследовании вида уток (чирок-свистунок) фиксировались их метрические данные и половая принадлежность: 1 —
самец, 2 — самка. Последний признак у ряда особей не удалось
определить (значение 0 в столбце пол). Найдите классифицирующую функцию, по которой можно было бы установить пол.
№ п\п
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Крыло
25,6
25,1
24,8
25,9
25,8
24,8
25,6
25,3
25,5
24,2
25
24,7
24,3
25,1
24,7
25,5
25,7
25,9
25,1
24,7
25,3
26,1
26
24,8
25,6
Голова
9,5
9,6
9,4
9,3
9,6
9,4
9,6
9,4
9,9
8,6
9,3
9,3
9,7
9,3
8,9
9,4
9,7
9,7
9,4
8,6
8,8
9,3
9,4
8,4
8,8
Клюв
4,2
3,8
3,8
3,9
4,5
4,4
4,1
4,4
4
3,9
3,9
3,8
4
3,9
3,8
4,1
3,9
4
4,6
3,9
3,9
3,8
3,9
4
4,2
— 187 —
Лапы
14,6
14,5
15
15,5
15,6
14,7
14,5
15,4
15,1
13,6
15,1
14,5
13,9
15,2
15,1
15,2
13,8
15,6
14,9
13,9
14,3
15
14,3
14,4
15
Вес
380
355
355
375
360
355
356
360
330
350
338
335
310
332
340
333
323
325
325
345
340
327
316
336
330
Пол
0
0
1
0
2
1
0
2
2
1
2
0
2
2
2
0
2
2
0
1
1
1
0
1
2
Окончание табл.
№ п\п
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
Крыло
24,6
25,1
25,1
24,9
25,3
24,7
24,7
25,4
25,7
23,8
24,8
25,3
24,9
25,9
25
26
25
25,7
24,8
25,3
Голова
8,4
8,6
8,3
8,9
8,4
9,3
8,2
8,6
8,6
8,4
8,8
8,4
8,6
8,3
8,2
8,5
8,4
8,4
8
8,2
Клюв
4
3,8
3,9
3,8
3,8
4
3,7
4
3,9
3,7
3,9
4,1
3,8
3,8
3,8
3,7
3,8
3,9
3,6
3,6
Лапы
14,8
14,4
14,5
14,6
13,9
15,4
14,3
13,8
13,8
14,1
14,3
14,3
14
13,8
13,3
13,7
13,3
14,8
13,2
13,3
Вес
330
329
338
314
335
285
320
310
315
300
290
305
292
317
305
300
290
300
294
292
Пол
2
0
1
0
1
0
1
1
2
1
0
1
1
0
1
2
1
1
0
1
Задание 3. В исследовании куньих (куница и соболь) фиксировались их метрические данные: количество хвостовых позвонков
(с), ширина барабанной камеры (Ш), длина барабанной камеры (Д),
расстояние между барабанными камерами (Р), отношение ширины
к длине камеры (Ш/Д), отношение расстояния между барабанными
камерами к длине барабанной камеры (Р/Д) и принадлежность к
подвиду: ТК — типичная куница, ТС — типичный соболь, АК —
атипичная куница, АС — атипичный соболь. Последний признак у
ряда особей не удалось определить (значение 0 в столбце подвид).
— 188 —
Найдите классифицирующую функцию, по которой можно было
бы установить подвид.
№ п/п
1
2
3
4
5
6
7
8
9
10
11
с
16
15
16
13
15
16
14
16
14
15
14
Ш
13,2
13,5
12,8
13,8
14
14,3
13,2
13,4
14,4
14
13,5
Д
19,3
19,5
20
18,8
19,9
18,7
19,8
17,8
19,8
18,1
18,7
Р
8,2
8,2
9,5
7,4
9,5
8,6
7,9
8,3
8,3
9,5
9,3
Ш/Д
0,68
0,69
0,64
0,73
0,70
0,76
0,67
0,75
0,73
0,77
0,72
Р/Д
0,42
0,42
0,48
0,39
0,49
0,46
0,40
0,47
0,42
0,52
0,50
Подвид
АК
ТС
АК
АС
ТС
АК
АС
АК
ТС
0
0
КОНТРОЛЬНЫЕ ВОПРОСЫ
1. Объясните применение в биологии кластерного анализа.
2. Объясните разницу между дисперсионным, корреляционным, регрессионным и кластерным анализом.
3. Составьте план проведения кластерного анализа ваших
экспериментальных данных.
4. Докажите целесообразность проведения кластерного анализа при обработке ваших экспериментальных данных.
5. Объясните применение в биологии дискриминантного
анализа.
6. Определите разницу между кластерным и дискриминантным анализом.
7. Составьте план проведения дискриминантного анализа ваших экспериментальных данных.
8. Объясните порядок составления дискриминантных (классификационных) уравнений.
— 189 —
ЗАКЛЮЧЕНИЕ
В связи с широким применением компьютерных технологий в
сборе и обработке данных биологам и экологам необходимо владение современными программами анализа.
Алгоритм анализа данных с помощью пакета STATICTICA 10 в
учебном пособии рассмотрен на основе экспериментальных данных кафедры зоологии и эволюционной экологии и кафедры генетики Института биологии ТюмГУ, а также файлов данных из
встроенной в программу библиотеки Examples.
Изложенный материал позволит корректно применять биологам
и экологам статистические методы при проведении анализа результатов полевых и лабораторных исследований.
Интересных массивов данных, гипотез и открытий вам, уважаемые читатели!
— 190 —
ПЕРЕЧЕНЬ МАТЕМАТИКО-СТАТИСТИЧЕСКИХ
ТАБЛИЦ
№
Страница
1
16
2
16
3
19
4
24
5
29
6
33
7
35
8
38
9
41
10
47
11
49
Наименование
Область применения
Критические значения коэффициента асимметрии
Критические значения коэффициента эксцесса
Критические значения критерия Граббса
Значение интеграла вероятностей для разных значений
нормированного отклонения
2-распределение. Критические точки для разных значений вероятностей и чисел
степеней свободы
Значения первой функции
нормального распределения
Объем выборки и число
классов
Коэффициенты критерия
Шапиро–Уилка
Критические значения критерия Шапиро–Уилка
Стандартные значения критерия Фишера (дисперсионное отношение Фишера)
Определение типа распределения
Определение типа распределения
Робастная оценка
Оценка генеральных параметров
Оценка генеральных параметров
Вычисление теоретических
частот
Определение типа распределения
Определение типа распределения
Определение типа распределения
Проверка гипотезы о равенстве дисперсий двух выборок
Оценка достоверности разСтандартные значения криности между средними вытерия Стьюдента (критерия
борок нормального распредостоверности разности)
деления
— 191 —
Продолжение табл.
№
Страница
Наименование
12
61
Критические значения сериального критерия
Вальда–Вольфовица
13
67
Номинальные значения для
сравнения групп
14
75
Стандартная таблица однофакторного дисперсионного
анализа
15
77
Показатели для сравнения
групп
16
79
17
82
18
86
19
90
20
99
21
100
22
103
23
108
Стандартная таблица многофакторного дисперсионного анализа
Стандартная таблица многофакторного дисперсионного анализа
Стандартная таблица дисперсионного анализа с повторными измерениями
признаков
Стандартные значения критерия соответствия
Оценка времен жизни
Оценка соответствия распределению Вейбулла
Оценка выживаемости на
основе метода Каплана–
Мейера
Результаты сравнения выживаемости в 2-х группах
— 192 —
Область применения
Оценка достоверности различий между выборками, не
отвечающими нормальному
типу
Оценка достоверности разности между зависимыми
группами
Оценка доли влияния фактора на величину изменчивости признака
Оценка доли влияния фактора на величину изменчивости признака
Оценка доли влияния факторов на величину изменчивости признака
Оценка доли влияния факторов на величину изменчивости признака
Оценка доли влияния факторов, взаимодействий факторов на величину изменчивости признака
Оценка эмпирического и
теоретического распределений
Анализ времен отказов
Анализ времен отказов
Анализ времен отказов
Анализ времен отказов
Окончание табл.
№
Страница
24
113
25
123
26
124
27
129
28
130
29
133
30
135
31
141
32
150
33
153
34
155
35
160
36
161
37
167
38
178
Наименование
Критические значения коэффициента корреляции
Результаты выделения
главных компонент
Факторные нагрузки
Результаты регрессионного
анализа
Показатели оценки коэффициентов регрессии
Расчет коэффициента корреляции Спирмена
Критические значения ранговой корреляции Спирмена
Частоты номинальных признаков
Показатели временного ряда
Автокорреляционная функция после преобразования
Автокорреляционная функция после преобразований
Автокорреляционная функция после преобразований
Результаты оценки параметров модели АРПСС
Результаты оценки составляющих временного ряда
Показатели для дискриминантного анализа
— 193 —
Область применения
Оценка достоверности корреляции Пирсона
Оценка объясненной дисперсии
Оценка координатной системы факторов
Оценка регрессионных коэффициентов
Оценка регрессионных коэффициентов
Оценка величины непараметрической связи
Оценка достоверности величины непараметрической
корреляции
Оценка факторных взаимодействий на основе логлинейного анализа
Анализ временных рядов
Анализ временных рядов
Анализ временных рядов
Анализ временных рядов
Анализ временных рядов
Анализ временных рядов
Дискриминантный анализ
СЛОВАРЬ ТЕРМИНОВ
Анализ дискриминантный — метод многомерной статистики
для дифференциации биологических объектов и явлений.
Анализ дисперсионный — метод оценки доли влияния факторов на изменчивость признака.
Анализ регрессионный линейный — метод оценки изменений зависимой переменной в зависимости от изменения одной независимой переменной.
Анализ регрессионный множественный — метод оценки изменения зависимой переменной в зависимости от нескольких линейных переменных.
Анализ регрессионный нелинейный — метод оценки изменения зависимой переменной в зависимости от изменения нескольких
независимых линейных и нелинейных переменных.
Анализ регрессионный пошаговый — метод оценки изменений зависимой переменной с включением и выключением нескольких независимых переменных на каждом шаге вычислительного
процесса.
Аппроксимация — приближенное выражение каких-либо величин через другие более простые величины.
Асимметрия — нарушение нормального распределения, накопление частот в правой или левой части вариационного ряда.
Биномиальное распределение — разделение исследуемой совокупности на несколько субвыборок (бинов, интервалов). Частоты
в каждой субвыборке определяют на основе закона биномиального
распределения.
Биометрия — наука о способах применения математических
методов в биологии.
Варианта — величина признака у отдельной особи.
Вариационный ряд — двойной ряд чисел, состоящий из классов и частот.
Вариация — изменение признака.
Вероятность — мера возможности случайного события.
— 194 —
Выборочная совокупность (выборка) — часть вариант генеральной совокупности.
Выборочные характеристики — числовые показатели, характеризующие выборку.
Генеральная совокупность — совокупность, которая включает значения всех объектов, соответствующих условиям ее формирования.
Генеральные параметры — числовые показатели, характеризующие генеральную совокупность.
Градации — подразделения факторов в дисперсионном комплексе.
Дисперсия — усредненная сумма квадратов отклонений каждой варианты от среднего арифметического.
Доверительная вероятность — вероятность, признанная достаточной для суждения о генеральных параметрах на основании
известных выборочных показателей. В качестве доверительных
вероятностей в биологии используют: Р = 0,95, Р = 0,99, Р = 0,999.
Они означают, что при оценке генеральных параметров по известным выборочным показателям подтверждение будет наблюдаться
в 95 случаях из 100 испытаний, в 99 случаях из 100 испытаний,
в 999 случаях из 1000 испытаний в генеральной совокупности.
Доверительные интервалы — значения, в пределах которых с
заданной доверительной вероятностью находится значение генерального параметра.
Достоверность — уверенность, с которой судят о генеральных
параметрах на основании выборочных показателей.
Измерение — определение степени выраженности признака.
Интерполяция — прогнозирование значений на основе регрессионного анализа.
Квартили — варианты, которые отделяют определенную часть
вариационного ряда.
Корреляция — взаимная связь между варьирующими признаками.
Корреляция Пирсона — связь между варьирующими признаками при линейном типе зависимости.
— 195 —
Корреляция Спирмена — связь между варьирующими признаками при нелинейном типе зависимости.
Критерий:
Достоверности — показатель, характеризующий достоверность выборочных характеристик.
Колмогорова-Смирнова — величина, оценивающая разность между эмпирическим и теоретическим распределениями
в области наибольших частот.
Омега-квадрат — величина, оценивающая разность между
эмпирическим и теоретическим распределениями на всем интервале выборочных значений.
Стьюдента — показатель, используемый при сравнении
средних нормальных парных распределений.
Фишера — отношение выборочных дисперсий.
Хи-квадрат (согласия) — величина, оценивающая разность между эмпирическим и теоретическим распределениями
на всем интервале выборочных значений.
Лимиты — максимальное и минимальное значения изучаемых
совокупностей.
Линейка кнопок — третья линейка инструментальных кнопок
для чтения, записи содержимого активной страницы; операции с
буфером выдачи содержимого активной страницы на печать, изменение шрифта активной страницы.
Линейка подсказки — линейка оперативной подсказки к
пунктам и полям ввода различных меню.
Математическая статистика — раздел математики, разрабатывающий методы систематизации, обработки и использования
статистических данных.
Медиана — варианта, которая делит выборку пополам.
Мода — наиболее часто встречающаяся варианта в совокупности.
Непараметрические тесты — методы вычисления показателей, характеризующих выборки, которые не имеют нормального
распределения, малого объема с ранговыми значениями.
Номинальные величины — нечисловые величины.
— 196 —
Нормированное отклонение — отклонение отдельной варианты от среднего арифметического, выраженное в сигмах.
Нулевая гипотеза — статистическая гипотеза, предполагающая отсутствие разницы между фактическими и ожидаемыми данными.
Описательные статистики — показатели, используемые для
характеристики совокупности.
Ошибки организационные — методические ошибки точности, ошибки внимания.
Параметрические тесты — методы вычисления показателей,
характеризующих выборки; оценки достоверности разности между
средними величинами и дисперсиями выборок, имеющих нормальное распределение.
Переменные величины — числовые показатели, которые могут быть упорядочены, с которыми можно производить различные
вычисления.
Ранг — порядковый номер упорядоченных значений совокупности.
Рандоминизированность — случайный отбор вариант из генеральной совокупности.
Распределение — разделение вариант по классам.
Регрессия — изменение одного признака в зависимости от изменений другого признака.
Репрезентативность — правильная представимость в выборке
пропорций генеральной совокупности.
Среднее арифметическое — величина, характеризующая
средний уровень признака.
Среднее квадратическое отклонение — величина, показывающая, насколько в среднем каждая варианта отклоняется от
средней арифметической.
Статистики Стьюдента — показатель, используемый при
сравнении средних нормально распределяющихся непарных выборок.
— 197 —
Статистическая ошибка (ошибка репрезентативности) —
величина отклонения выборочного показателя от его генерального
параметра.
Статистическая совокупность — множество однородных, но
индивидуально различающихся единиц наблюдения, объединенных для совместного изучения.
Статистический комплекс — система разнородных групп,
объединенных для совместного изучения.
Степени свободы — числа, показывающие количество свободно варьирующих элементов или членов статистической совокупности.
Ранговая корреляция — связь, оцениваемая при нелинейной
зависимости между признаками.
Ранговые величины — величины, имеющие определенный
ранг.
Распределение теоретическое — разделение вариант совокупности по классам на основании проведенных расчетов.
Распределение эмпирическое — разделение вариант совокупности по классам на основании значений, полученных в результате
эксперимента.
Результативный признак — признак, изменяющийся под
влиянием тех или иных причин.
Транспонирование — перевод значений, расположенных в
столбцах, в строки, в строках — в столбцы.
Уровни значимости — вероятности ошибочных заключений,
которыми в данных условиях можно пренебречь: Р = 0,05, Р = 0,01,
Р = 0,001.
Факторы — причины, вызывающие изменение результативного признака.
Функциональная зависимость — зависимость, при которой
изменениям одного признака соответствуют определенные изменения другого признака.
Частоты — число вариант в классах вариационного ряда.
Эксцесс — нарушение нормального распределения, накопление в классах, близких к среднему значению (положительный экс— 198 —
цесс), в классах, близких к крайним значениям (отрицательный
эксцесс).
Электронная таблица — рабочее пространство экрана, предназначенное для ввода, хранения, просмотра, редактирования исходных данных. Столбцы электронной таблицы соответствуют переменным, строки — измерениям.
Эмпирическая кривая — кривая, построенная на основании
вариационного ряда, поставленного по экспериментальным данным.
— 199 —
СПИСОК ЛИТЕРАТУРЫ
1. Бейли Н. Математика в биологии и медицине. М., 1970. 269 с.
2. Бетляева Ф. Х. Биометрическая обработка данных на основе программы STADIA. Самара, 2008. 130 с.
3. Бетляева Ф. Х., Лупинос М. Ю., Гашев С. Н. Биометрическая обработка данных на основе компьютерной программы STATISTICA. Тюмень, 2011. 104 c.
4. Бетляева Ф. Х., Лупинос М. Ю., Гашев С. Н. Прикладные методы анализа в системе STATISTICA. Тюмень, 2012. 80 c.
5. Боровиков В. П. Искусство анализа данных на компьютере. СПб.,
2001. 656 с.
6. Боровиков В. П. Популярное введение в современный анализ в системе STATISTICA. М., 2013. 608 с.
7. Гашев С. Н. Статистический анализ для биологов. Тюмень, 1998. 51 с.
8. Гашев С. Н., Беспоместных Г. Н. Математические и информационные
методы в биологии. Тюмень, 2005. 69 с.
9. Гельман В. Я. Медицинская информатика. СПб., 2002. 480 с.
10. Кобзарь А. И. Современные методы в математике. М., 2006. 816 с.
11. Кулаичев А. П. Методы и средства комплексного анализа данных. М.,
2006. 512 с.
12. Лакин Г. Ф. Биометрия. М., 1990. 352 с.
13. Любищев А. А. Дисперсионный анализ в биологии. М., 1986. 223 с.
14. Петри А., Сэбин К. Наглядная статистика в медицине. М., 2003. 139 с.
15. Плохинский Н. А. Биометрия. М., 1970. 366 с.
16. Пузаченко Ю. Г. Математические методы в экологических и географических исследованиях. М., 2004. 416 с.
17. Селюков А. Г., Селюкова Г. П. Биологическая статистика. Тюмень,
1994. 24 с.
18. Тюрин Ю. Н. Анализ данных на компьютере. М., 2003. 544 с.
19. Фролов Ю. П. Математические методы в биологии. Самара, 1996.
265 с.
20. Халафян А. А. STATISTICA 6. Статистический анализ данных. М.,
2010. 528 с.
21. StatSoft, Inc. (2001). Электронный учебник по статистике. Москва,
StatSoft. WEB: http://www.statsoft.ru/home/textbook/default.htm
— 200 —
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ
А
Анализ
дискриминантный 7, 177, 178, 179, 180-182, 186, 187, 190,
195
дисперсионный 5, 64, 65, 70-80, 82, 83, 86, 94, 126, 147, 176,
177, 193, 195, 201
кластерный 7, 170-172, 177, 178, 190
корреляционный 126, 147, 177
регрессионный линейный простой 125
регрессионный множественный 5, 125, 131, 147, 195
регрессионный нелинейный 195
Аппроксимация 195
Априорная вероятность 182, 183
Асимметрия 15, 31, 195
Б
База данных 10
Буфер обмена 9
В
Варианта 13-15, 75, 79, 82, 88, 195-199
Вариационный ряд 33, 60, 195, 196, 199, 200
Вероятность 6, 21, 23-26, 28, 32, 36, 37, 40, 43-46, 49, 98, 100,
101, 103, 111, 131, 139, 183-185, 192, 195, 196, 199
Взвешенное попарное сравнение 171
Вилкоксон для парных данных 58, 64, 65
Винсоризованное среднее 18, 19
Временные ряды 2, 7, 148, 149, 151, 152, 156, 164-169, 194
Выборки 6, 8, 14-19, 21, 22, 30, 31, 35, 36, 48-61, 63-65, 69, 71,
75, 78, 81, 85, 88, 92, 96, 104, 131, 134, 192, 193, 196-198
Выборочные характеристики 8, 20-22, 31, 192
Выбросы 18-20, 121, 157, 159, 166
— 201 —
Г
Генеральная совокупность 6, 8, 20-22, 46, 50, 52, 53, 58, 60, 61,
63, 113, 134, 196, 198
Генеральные параметры 8, 9, 20-23, 25, 28, 31, 46, 47, 50, 192,
196
Гипотеза
альтернативная 46, 61, 63
нулевая 35, 36, 40, 43, 44, 46, 50, 53, 57, 60, 63, 71, 72, 75, 76,
79, 81, 82, 87, 89, 113, 134, 139, 198
Гистограмма 35, 37, 43, 54, 69, 186
Графики рассеяния 114, 133, 185
Д
Данные
количественные 112
номинальные 112, 118
пропущенные 10, 174
Диалоговое окно 12, 60, 74, 78, 80, 83, 96, 102, 105, 122, 126,
127, 142, 158, 159, 173, 179
Дивизивный метод 171
Дискриминантные функции 180
Дисперсионный анализ
двухфакторный 70, 91, 93
при повторных измерениях 72, 83, 84, 86
однофакторный параметрический 70, 72, 74, 75, 79, 82, 176
Дисперсионный комплекс 71, 77, 80, 83, 94, 196
Дисперсия 14, 20-22, 26-28, 30, 31, 36, 40, 43, 46-48, 50, 51, 53,
55, 57, 75, 76, 78-83, 85-87, 117, 119, 121-123, 152, 171, 176, 181,
192, 194, 196-198
Доверительная вероятность 9, 23, 25-28, 31, 196
Доверительный интервал 21, 23, 25-27, 30, 31, 126, 162, 196
Достоверность 51, 52, 54, 56, 57, 70, 72, 88, 92, 112, 114, 192194, 196-198
— 202 —
З
Значение лямбда Уилкса 181
частная лямбда 181
И
Импорт файлов 9, 10
Интерфейс анализа 73
К
Квадрат Евклидова расстояния 170, 175
Квадрат расстояния Махаланобиса 183, 184
Квартили 17, 18, 30, 31, 196
Корреляция
множественная 116, 117, 128, 130, 180
непараметрическая 194
параметрическая 112, 115
Коэффициент
асимметрии 15, 16, 30, 31, 35, 37, 40, 43-45, 71, 76, 192
вариации 14, 23
гамма 58, 100, 132, 134, 135
детерминации 116, 128, 130
множественной корреляции 116, 117, 128, 130, 180
тау Кендалла 58, 134, 140
уравнения регрессии 125, 129-131
Критерий
Вальда–Вольфовица 58-61, 69, 193
Вилкоксона 58, 64, 65, 104, 107, 109, 111
достоверности 21, 22, 49, 51-54, 69, 192
знаков 58, 64, 65
Колмогорова–Смирнова 36, 37, 40, 43, 44, 51, 54, 58, 59, 63,
64, 69, 72, 76
Кохрена 58, 66, 67, 71
Краскела–Уоллиса 58, 64, 87-89
Манна–Уитни 58, 59, 61, 63, 69
— 203 —
омега-квадрат 45, 197
Пирсона 139, 140, 145, 146
Стьюдента 46, 48-51, 54, 55, 69, 116, 192, 197
Фишера 46, 47, 50, 51, 53-55, 57, 69, 72, 75, 76, 78, 79, 81, 82,
85-87, 94, 139, 192, 197
Фридмана 58, 65, 87, 91, 92
хи-квадрат 27, 45, 58, 89, 139, 140, 145, 146, 192, 197
хи-квадрат Макнемара 58, 66, 137
Шапиро–Уилка 36-38, 40, 41, 43-45, 51, 54, 72, 76, 192
Критическое значение
коэффициента асимметрии 16, 35, 192
коэффициента корреляции 112, 113, 194
хи-квадрат 27
коэффициента эксцесса 16, 35, 192
Кросстабуляция 136, 137
М
Манхэттенское расстояние 170
Медиана 14, 18, 30, 31, 89, 98, 151, 197
Медианный тест 58, 64, 87-90
Метод Уорда 171
Метрика Евклидова 170
Многомерные методы
дискриминантный 7, 177-182, 186, 187, 189, 190, 195
кластерный 7, 170-172, 177, 178, 189, 190
факторный 7, 117-120, 122
Мода 14, 30, 31, 197
Н
Непараметрические критерии 3, 58, 59, 88, 91, 196
Номинальные величины 4, 136, 197
Нормальное распределение 6, 15, 18, 31, 32, 35-37, 40, 41, 43-46,
51, 54, 68, 69, 71, 87, 104, 112, 162, 192, 195, 197-199
Нормированное отклонение 23, 26-28, 33, 192, 198
— 204 —
Нулевая гипотеза 35, 36, 40, 43, 44, 46, 50, 53, 57, 60, 63, 71, 72,
75, 76, 79, 81, 82, 87, 89, 113, 134, 139, 198
О
Описательная статистика 9, 12, 30, 31, 35, 51, 54, 69, 186, 198
Ошибка репрезентативности 15, 21-23, 26, 27, 31, 198
П
Параметрические тесты 198
Переменные
количественные 5, 70, 174
номинальные 5, 66, 137
парные 49, 121, 138
ранговые 5, 6
Показатель точности 21-23
Проверка нормальности 3, 32, 35, 36, 45
Прогнозирование 2, 4, 148, 149, 164, 196
Пропущенное значение 10
Процентиль 17, 18
Р
Рандоминизация 8, 71, 197
Распределение
асимметричное 87
биномиальное 32, 195
нормальное 6, 15, 18, 31, 32, 35-37, 41, 43, 45, 46, 51, 54, 68,
69, 71, 72, 79, 82, 86, 87, 104, 112, 131, 192, 195, 197, 198
теоретическое 193, 197, 199
эксцессивное 104
эмпирическое 3, 32, 35, 37, 100, 111, 193, 197, 199
Расстояние Минковского 170
Расстояние Чебышева 170
Регрессионное уравнение 131
— 205 —
Регрессия
линейная 125, 129
множественная 5, 125, 131
Репрезентативность 8, 15, 21-23, 26, 27, 197
Робастная оценка 3, 18, 19, 192
С
Сервер 9, 10
Среднее арифметическое 13-15, 18, 19, 21-23, 30, 31, 33, 36, 43,
44, 46, 47, 51-58, 68-72, 76, 77, 79, 80, 82, 83, 86, 87, 151, 196, 198
Среднее квадратическое отклонение 13, 14, 18-22, 30, 31, 33, 40,
43, 44, 198
Статистика
Спирмена 58, 132, 196
Стьюдента 48, 53, 58, 69, 112, 113, 199
Степени свободы 46, 100, 113, 199
Т
Таблица данных 5, 112, 114, 133, 137, 184
Точечные оценки параметров 3, 8, 9, 12, 20
У
Уровень значимости 16, 19, 27, 28, 31, 36, 41, 43, 45, 46, 48-50,
61, 63, 65, 68, 71, 72, 75, 76, 78, 79, 81, 82, 85, 86, 89, 92, 100, 107,
113, 116, 128-131, 134, 135, 153, 155, 160, 181, 199
Ф
Файлы данных 7, 102, 131, 190
Фишера критерии 46, 47, 50, 51, 53-55, 57, 69, 72, 75, 76, 78, 79,
81, 82, 85-87, 94, 139, 192, 197
Функциональная зависимость 121, 199
— 206 —
Х
Хи-квадрат
распределение 29, 191
критерий 45, 89, 90, 145, 146, 192, 196
Ч
Частоты
теоретические 32, 33, 35, 45, 89, 192
эмпирические 37, 43, 45
Число степеней свободы 45, 46, 48, 49, 53, 55, 57, 58, 75, 79, 82,
86, 90, 112, 116, 128, 131, 134, 192
Э
Эксцесс 15, 31, 35, 87, 199, 200
Электронная таблица 9-12, 114, 200
Эмпирическое распределение 3, 32, 37, 196, 198
— 207 —
Учебное издание
Сергей Николаевич ГАШЕВ
Фания Халитовна БЕТЛЯЕВА
Мария Юрьевна ЛУПИНОС
МАТЕМАТИЧЕСКИЕ МЕТОДЫ В БИОЛОГИИ:
АНАЛИЗ БИОЛОГИЧЕСКИХ ДАННЫХ
В СИСТЕМЕ STATISTICA
Учебное пособие
Редактор
Технический редактор
Компьютерная верстка
Компьютерный дизайн
обложки
Печать электрографическая
Печать офсетная
Л. А. Шмакова
Н. Г. Яковенко
С. Ф. Обрядова
Е. Г. Шмакова
А. В. Башкиров, С. Г. Выходцева
В. В. Торопов, С. Г. Наумов
Подписано в печать 22.08.2014. Тираж 500 экз.
Объем 13,0 усл. п. л. Формат 6084/16. Заказ 733.
Издательство Тюменского государственного университета
625003, г. Тюмень, ул. Семакова, 10
Тел./факс: (3452) 45-56-60, 46-27-32
E-mail: [email protected]
— 208 —
Скачать