Анализ экологических данных с использованием языка

реклама
Третья полевая школа по почвенной
зоологии и экологии
для молодых ученых
«Почвенно-зоологические исследования:
от планирования к публикации»
Анализ экологических данных с
использованием языка
программирования R
Андрей Цыганов
Пензенский государственный
университет
ПО для анализа данных – неотъемлемая
часть экологических исследований
• Экологические данные
– Многомерные (основные объекты экологии, т.е.
сообщества, экосистемы, трудно охарактеризовать
одним показателем)
– Массивные (широкий пространственно-временной
охват, автоматизированные методы сбора данных)
• Сложные алгоритмы анализа (большой объем
вычислений)
• Нетривиальные способы графического
представления данных
Выбор ПО при планировании
исследования
Выбор ПО
Как собирать
данные?
Как
анализировать
данные?
Как
представлять
данные?
Прочие характеристики ПО
• Гибкость, т.е. возможность настройки под
ваши конкретные потребности
• Возможности обновления ПО
• Универсальность
• Лицензионные условия
• Совместимость ПО (в случае если планируется
использование нескольких программ)
ПО для анализа данных
• (см. Comparison of statistical software in Wikipedia)
• Microsoft Excel (плохо приспособлен для работы с
научными данными)
• STATISTICA, SPSS, Origin, MatLab
(лицензионное, отсутствуют специфические
экологические анализы)
• Primer, CANOCO (лицензионное, редкое
обновление)
• Past и др. (редкое обновление, узкая
специализация)
Что такое R?
– это комплексное программное
обеспечение для обработки, анализа и
графического представления данных
Включает в себя:
язык программирования
программную среду
Почему R? Преимущества
• Доступность
– Распространяется бесплатно
– Центральная система хранения и
распространения www.cran.r-project.org
Почему R? Преимущества
• Доступность
• Универсальность
– Стабильная база и множество дополнений
(пакетов или библиотек)
•
•
•
•
•
“vegan” анализ структуры сообществ
“FD” функциональные признаки
“spdep” пространственное распределение
“map” работа с картами
и ~ 1500 вариантов
Почему R? Преимущества
• Доступность
• Универсальность
• Актуальность
– Новые методы анализа доступны практически
сразу после их публикации
Почему R? Преимущества
•
•
•
•
Доступность
Универсальность
Актуальность
Графические возможности
– Практически неограниченный набор вариантов
графического представления данных
Почему R? Преимущества
Notched Boxplots
-2
-2
0
-1
2
0
4
1
2
6
Simple Use of Color In a Plot
0
10
20
30
40
50
1
2
3
4
Just a Whisper of a Label
6
7
8
9
10
Group
A Topographic Map of Maunga Whau
Edgar Anderson's Iris Data
1000 Normal Random Variates
2.0
3.0
4.0
0.5
1.5
2.5
Sepal.Length
7
5
150
Petal.Length
50
140
10
1
0
130
3
200
110
160
Sepal.Width
3.0
0
4.0
150
10
170
2.0
190
160
Frequency
400
110
4.5
120
180
6.0
110
100
600
200
7.5
10 Meter Contour Spacing
200
400
Meters North
600
800
-4
-2
0
x
2
4
Petal.Width
0.5
0
1.5
0
2.5
110
0
Meters West
5
4.5
6.0
7.5
1
3
5
7
Почему R? Преимущества
•
•
•
•
Доступность
Универсальность
Актуальность
Графические возможности
– Практически неограниченный набор вариантов
графического представления данных
– .ps, .pdf, .tif, .png, .jpeg и др.
Почему R? Преимущества
•
•
•
•
•
Доступность
Универсальность
Актуальность
Графические возможности
Гибкость
– возможность написания собственных функций
– только необходимая информация
Почему R? Преимущества
•
•
•
•
•
•
Доступность
Универсальность
Актуальность
Графические возможности
Гибкость
Воспроизводимость анализов
Почему R? «Недостатки»
• Интерфейс командной
строки (графический
интерфейс R
commander, RKWard,
RExcel и до.)
• Недостаточно
литературы на русском
языке
Принципы R
• Объекты
– вектор (x1, x2, x3, .. xn), х = число или текст
– матрица (многомерные, чаще двумерные векторы)
x11, x12, x 1 3, .. x 1 n
x21, x22, x 2 3, .. x 2 n
.
.
.
. .
xm1, xm2, xm3, .. xmn
–
–
–
–
фактор (категориальные данные)
список (несколько объектов разного типа)
таблица данных (список векторов и/или факторов)
и др.
• Команды
– Команда (аргумент1, аргумент2, …, аргументn)
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Литература
• На русском языке
• Шипунов А.Б., Балдин Е.М., Волкова П.А. и др. Наглядная статистика.
Используем R! Москва: ДМК пресс, 2012– 298 с.
• Статистический анализ данных в системе R. Учебное пособие / А.Г. Буховец,
П.В. Москалев, В.П. Богатова, Т.Я. Бирючинская; Под ред. проф. Буховца А.Г. ––
Воронеж: ВГАУ, 2010. –– 124 с.
• Геостатистический анализ данных в экологии и природопользовании (с
применением пакета R): Учебное пособие / А.А. Савельев, С.С. Мухарамова,
А.Г. Пилюгин, Н.А. Чижикова. – Казань: Казанский университет, 2012. – 120 с.
• На английском языке
– Серия “Use R!” издательства Springer
– Для начинающих
• Dalgaard P. (2008) Introductory statistics with R. Second edition. Springer. 363 p.
– Для экологов
• Borcard D., Gillet F., Legendre P. (2012) Numerical Ecology with R. Springer. 319 p.
В качестве заключения
• Выбор ПО важный этап в планировании и
проведении исследований
• При выборе ПО желательно руководствоваться не
только потребностями самого исследования, но и
обращать внимание на прочие характеристики ПО
• Язык программирования R – оптимальный вариант
• Интерфейс программной строки не так страшен
Спасибо за внимание!
Скачать