Статистика – 1.

advertisement
Статистика – 1.
Есть три вида
лжи: ложь,
наглая ложь
и статистика.
Марк Твен
Полозов Г.Ю., к.б.н., МДЭБЦ
Стати́сти сти́стика—
отрасль знаний, в которой излагаются
общие вопросы сбора (1), измерения (2) и анализа (3)
статистических
данных; изучение количественной стороны
явлений в числовой форме.
1. Сбор материала:




Составление схемы того, что, как и когда вы будете измерять;
Какого типа данные и как вы их протоколируете;
Как вы будете формровать базу даных;
Какой результат вы хотите получить от его дальнейшего анализа
Схема сбора включает методику сбора материала:
Время, место, способ отбора и пр. Прописывается в разделе Методики.
Пример: пробы были отобраны по методике Х с 9 до 11 часов 10.01,
20.01, 1.02, 11.02, 22.02. План места отбора проб прилагается.
Объем разовой пробы составил 3л. Данные измерений представлены
дробными числами от 5 до 8 с точностью до 0,00. Данные занесены в
таблицу и включены в базу данных.
Схема сбора предполагает выбор того, будут ли ваши данные
случайными или специально подобранными.
Пример: выбор 10 вариантов с наилучшими/наихудшими показателями
и их рассмотрение.
Варианты / единицы наблюдения. Варьирование случайной величины.
Статистическая совокупность. Статистический комплекс.
Случайная выборка - ?
Выборка
Генеральная совокупность
2. Проведение измерений
Измеряют признаки:
 Способ измерения;
 Точность измерения;
 Фиксирование результата
Непрерывные и дискретные
1. Количественные
Вариабельные
константные
2. Качественные
Дискретные, категориальные
Виды ошибок:
Погрешности наблюдения (действительная величина – измерение)
Величина всегда измеряется с некоторой долей точности;
Систематические (неслучайные) ошибки (методика)
При определении рН по окраске индикаторной полоски;
Статистические ошибки (первого и второго рода)
3. Анализ данных
•
Таблицы распределения
•
Гистограммы и графики
распределения
•
Ко личеств о к оло н и й
Описательная статистика
140
120
100
80
каб.1
60
каб.2
40
20
0
Структура группы
1
2
3
№ чашки
4
5
Пример: Организация и описание данных-1
Тип данных – категорийные
(категория – порода)
Изменчивость - качественная
Вид
О
С
частота встречаемости пород деревьев
80
36
44
69
Е
17
К
32
70
60
количество
Б
N
Б
50
О
40
С
30
Е
К
20
10
0
Б
О
С
Е
порода
Всего 198
Б
О
С
Е
К
К
Пример: Организация и описание данных-1
Вид
N
Б
0,4
0,3
Доля р
0,2
К
О
0,1
0
Б
0,18
36
Е
0,35
О
0,22
44
0,3
0,35
69
С
0,25
0,2
С
Ряд1
Б
О
0,15
С
Е
0,1
К
0,05
Е
17
0,09
К
32
0,16
0
Б
О
С
Е
К
0,4
0,35
Всего 198
1
0,3
Б
0,25
О
0,2
С
Е
0,15
Б
О
К
0,1
С
Е
К
0,05
0
Б
О
С
Е
К
Пример: Организация и описание данных - 2
Класс N
р
100
1
1
2
3
4
5
100
35
23
11
7
Всего 176
Тип данных –
дискретные (по
баллам)
Изменчивость –
количественная,
дискретная
0,57
90
4
5
70
60
0,13
40
50
30
20
10
0
1
0,04
1
3
80
0,20
0,06
2
2
3
4
5
0,6
0,5
0,4
1
2
0,3
3
4
5
0,2
0,1
0
1
2
3
4
5
Пример: Организация и описание данных -3
1
0,8
1
3,5
1
0,9
1
3
1
0,9
1
2,5
1,5
1
1
2
1,6
1
1
1,1
1
1
1
1
1
2
1
1
2
1,1
1
2,3
1,5
1,5
2,8
1,6
1,5
2,6
2
2
2,9
2
2
3
2
2
3,1
2
2
2
2,3
2,5
1,5
1
0,5
N
р
0
1
9
0,43
2
0,10
4
0,19
2
3
4
5
6
7
8
9
10
11
12
13
14
2,6
2,5
1
2,8
3
0,9
2,9
3
0,9
3
3
0,8
3,1
3
16
17
18
19
20
21
Тип данных –
непрарывные
Изменчивость –
количественная,
непрарывная
0,45
0,40
0,35
Ряд1
0,30
2
15
2
0,10
Ряд2
0,25
Ряд3
0,20
Ряд4
0,15
Ряд5
0,10
0,05
4
0,19
0,00
1
Пример: Организация и описание данных -3
0,8
1
0,9
1
0,9
1
1
1
1
1
1
1
1
1
1
1
1,1
1
1,5
1,5
1,6
1,5
2
2
2
2
2
2
2
2
2,3
2,5
Дисперсии
2,6
2,5
2,8
3
Асимметрии
2,9
3
3
3
3,1
3
1,74
1,76
Summary Statistics Col_1
Col_2
-----------------------------------------------------------Count
21
21
Average
1,7381
1,7619
Variance
0,637476
0,640476
Standard deviation 0,798421
0,800298
Minimum
0,8
1,0
Maximum
3,1
3,0
Sum
36,5
37,0
------------------------------------------------------------
Описание параметров
распределения:
Средней (мода, медиана)
Эксцесса
…………
Различие по
характеру
распределения:
Нормальное;
Асимметричное;
С эксцессом;
Прочее…
2=(M-xi)2/(N-1)
sM=/N;
M=xi/N, где xi- сумма значений признака
в выборке, N- объем выборки.
Когда варианты повторяются, среднее
определяется как:
M=xкfi/N, где fi - частота класса, xк среднеклассовое значение и называется
средневзвешенное.
Вообще, формула для степенных средних
имеет вид:
M= k[xik/N]
td=|M1-M2|:
[s12+s22];
=N1+N2 - 2.
Смысл
зависит от
того, что
отложено по
осям
Примеры графического
отображения частот классов
Количественные признаки и экология:
Download