Статистическая обработка результатов исследовательской

advertisement
Статистическая обработка
результатов исследовательской
работы
Семинар для педагогов и обучающихся
Алексанов Виктор Валентинович
ecokonkurs@list.ru
План
• О возможности и необходимости
статистической обработки результатов (на
примере проектов регионального этапа
олимпиады по экологии и конкурсов
исследовательских работ 2015 г.)
• Статистические методы и дизайн
исследования
• Важнейшие методы статистической обработки
результатов
• Компьютерные программы для
статистической обработки
Структура исследовательской работы
Выполнение
исследования
Задача 1
Задача 2
Задача 3
Гипотеза
Цель
Тема
статистическая гипотеза
Вывод 1
Вывод 2
Вывод 3
Оценка
гипотезы
статистический тест
Новая тема
3
Математическая статистика необходима для
оценки вероятности того, что суждение
истинно
Истинные суждения
Вероятностные суждения
• Площадь квадрата равна
квадрату длины его
стороны (функциональная
связь)
• Свинец тяжелее меди
• Численность населения
Калуги больше, чем
численность населения
Обнинска
• В лесу Х растет дерево
вида У
• Число видов птиц связано
степенной зависимостью с
площадью острова
• Растения, выросшие в
загрязненной свинцом
почве, имеют меньшие
размеры
• Дерево вида У более
характерно для лесов типа
Х, чем для лесов типа А
Результат статистической обработки –
оценка статистической значимости
•
•
•
•
•
•
•
Significance
Исследователь работает с выборкой, но желает
распространить результаты на генеральную совокупность
Вероятность события – P (probability)
При статистической обработке вычисляется Р для нулевой
гипотезы
Нулевая гипотеза – утверждение, противоречащее
выдвинутой научной гипотезе. Гипотеза о случайности
события или об отсутствии эффекта.
Чем меньше значение P, тем больше оснований для
отклонения нулевой гипотезы
Уровень значимости – P, Sig.
Общепринятый критический уровень значимости P<0,05
Эксперимент
• Активный
• Контролируемый
• manipulative
• Пассивный
• Измерительный
• mesurative
Метод познания, при помощи которого в
контролируемых или управляемых условиях
исследуются явления действительности с целью
проверки гипотез, выдвинутых до начала
эксперимента
Состав экологических проектов на региональном
этапе олимпиады по экологии 2015-2016 года
по характеру исследования
практический
проект
6%
описание /
мониторинг
50%
активный
эксперимент
22%
измерительный
эксперимент
22%
Распределение проектов на региональном этапе
олимпиады по экологии 2015-2016 года по
применению статистической обрбаотки
применена не в полном объеме
требуется, но не применена
не требуется
2
5
26
Примеры тем работ, требующих
статистической обработки
• Выживаемость и поведенческие реакции ракообразных
Daphnia magna при различных концентрациях солей кадмия
• Закономерности биологического действия ионов кадмия на
выживаемость микроводоросли Chlorella Vulgaris
• Влияние солей меди на выживаемость и физиологические
показатели дафний (Daphnia magna)
• Раздельное и сочетанное действие солей свинца и
стимуляторов роста на морфометрические и биохимические
показатели ячменя посевного
• Исследование относительного загрязнения воздуха в
микрорайоне школы методом лихеноиндикации
• Влияние комнатных растений на окружающую среду
помещения и здоровье человека
Математическая статистика для
биологии
Планирование исследования
• Экспериментальные
единицы (experimental
unit)
• Измеряемые единицы
(Evaluation unit)
• Повторности
• Выборка
• Генеральная совокупность
• Репрезентативность
• Измеряемые признаки
Обработка результатов
• Проверка статистических
гипотез / Оценка
статистической
значимости различий
• Построение моделей
• Поиск смысла в данных
Сколько повторностей?
Шкалы измерений переменных
• Интервальная
• Порядковая
• Номинальная (категориальная)
Методы статистической обработки
Параметрические
Непараметрические
• Измерения в интервальной
• Условия применения
шкале
параметрических методов
не соблюдаются
• Распределение
не отклоняется от нормального
• Тест Стьюдента
• Дисперсионный анализ
Нормальное распределение
Два параметра:
среднее
арифметическое и
дисперсия
(из дисперсии –
стандартное
отклонение,
стандартная ошибка)
2 

( xi x ) 2
n 1
Проверка нормальности распределения
программа Past
Проверка нормальности распределения
В некоторых случаях распределение может быть
приведено к нормальному посредством
логарифмирования
программа STATISTICA
Распределение не может быть приведено к
нормальному
90
80
Frequency
70
60
50
40
30
20
10
0
2
3
4
5
6
7
8
длина клещей, мм
9
10 11
Дисперсионный анализ (ANOVA) – оценивает влияние
градаций фактора на измеряемую переменную.
Сравнивает изменчивость признака внутри групп и между
группами
Дисперсионный анализ в программе Past
Влияние концентрации соли меди на частоту сердцебиения
дафнии (Герасимова В., Средняя школа № 11 г. Обнинск)
Результаты дисперсионного анализа и
множественных сравнений
Влияние фактора будет
значимым, если хотя бы в
одной паре сравниваемых
групп различие значимо.
Множественные
сравнения групп
Результаты непараметрического аналога
дисперсионного анализа
Тест Краскала - Уоллиса
Непараметрические
критерии обладают
меньшей мощностью
Результаты дисперсионного анализа в
программе STATISTICA
Множественные сравнения в STATISTICA
Представление результатов эксперимента
для статистической обработки
Результаты статистической обработки для
помещение=кабинет биологии
Статистическая обработка в MS Excel.
Включаем пакет анализа
Группируем данные по столбцам в
соответствии с градациями фактора
Результаты дисперсионного анализа
Представление результатов и их
статистическая обработка
Дата
измерения
Средняя высота растений, см
2 вариант
3 вариант
4 вариант
1 вариант
6 апреля
2.5
3
3
3
3
20 апреля
2,5
2,8
3
2,5
2,5
5 мая
6,5
7
8
6,5
6,5
13 мая
7
9
9
7
8
25 мая
7,5
11
12
8,5
11
5 вариант
Динамика высоты рассады астры однолетней
12
10
06.апр
8
20.апр
6
05.май
4
13.май
25.май
2
0
вариант 1 вариант 2 вариант 3 вариант 4 вариант 5
30
Визуализация результатов статистической
обработки
Полосу погрешностей следует расшифровать
Дивеев И., средняя школа
№ 11 г. Обнинск
Точечные диаграммы – более экономный
способ визуализации
70
65
60
55
50
45
40
число видов
35
30
25
20
двор
сад
луг
город
лес
бер
шир ольх
вне города
Вертикальные линии – 0,95 доверительный интервал
Boxplot – компактный вариант представления
данных, не имеющих нормального распределения
В программе Past
квартиль
медиана
минимум
Процент выполнения заданий олимпиады по экологии
В программе STATISTICA
В программе R
Корреляция линейная и нелинейная
Коэффициент корреляции Пирсона
Коэффициент корреляции Спирмена более универсален
Вычисления коэффициентов корреляции в
программе Past
http://folk.uio.no/ohammer/past
Регрессионный анализ в пакете STATISTICA
Модель линейной регрессии в программе
Past
Статистические программы с графическим
пользовательским интерфейсом. STATISTICA
R - программная среда со строковым
командным интерфейсом
Пример скрипта для проведения кластерного и
последующего дисперсионного анализа
> setwd("D:/Данные/R analyse/R mezoph")
> data<-read.csv2("data12.csv", row.names=1)
> View(data)
> attach(data)
> library("vegan")
> dis<-vegdist(data, method="jaccard", binary=FALSE)
> hcl1<-hclust (dis, method="complete")
> plot(hcl1)
Нажмите <Ввод>, чтобы увидеть следующий
график:rect.hclust(hcl1, 4)
> ncl<-cutree(hcl1, 4)
> summary(aov(as.matrix(data)~ncl, data))
Response Lumbricidae :
Df Sum Sq Mean Sq F value
Pr(>F)
ncl
1 83.182 83.182 11.653 0.001758 **
Residuals
32 228.428
7.138
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’
0.1 ‘ ’ 1
Стандартные рисунки в среде R для
кластерного анализа
The R Project for Statistical Computing http://www.r-project.org/
Литература
• Гланц С. Медико-биологическая статистика / пер. с англ. – М.:
Практика, 1998. – 459 с. http://statosphere.ru/booksarch/multistat/120-glantz-medbiolstatistics.html
• Ивантэр Э.В., Коросов А.В. Введение в количественную
биологию. Петрозаводск, 2011.
• Козлов М.В. Планирование экологических исследований:
теория и практические рекомендации. М., 2015
• Волкова П.А., Шипунов А.Б. Статистическая обработка данных в
учебно-исследовательских работах. М., 2008.
http://herba.msu.ru/shipunov/software/r/cbook.pdf
• Шитиков В.К., Розенберг Г.С. Рандомизация и бутстреп:
статистический анализ в биологии и экологии с
использованиемR. -Тольятти: «Кассандра», 2013.
Download