Описательная статистика Часть 1 ЛЕКЦИЯ 2

advertisement
ЛЕКЦИЯ 2
по курсу «Математические методы в инновационной и управленческой
деятельности»
Описательная
статистика
Часть 1
СТАТИСТИЧЕСКИЕ МЕТОДЫ. ВЕРОЯТНОСТЬ И ОСНОВЫ
СТАТИСТИКИ ГОСТ Р 50779.10-2000
Термины и определения
 Единица [объект]
То, что можно рассмотреть и описать индивидуально.
Примечание - Единицей может, например, быть: - изделие; определенное
количество материала; услуга, действие или процесс; организация или
человек; некоторая их комбинация
 Признак
Свойство, которое помогает идентифицировать или различать единицы
данной генеральной совокупности.
Примечание - признак может быть количественным или качественным
(альтернативным)
 (Генеральная) совокупность
Множество всех рассматриваемых единиц.
Примечание - Для случайной величины распределение вероятностей
рассматривают как определение совокупности этой случайной величины
Термины и определения
• Класс
a) Для качественного признака - Определенные группы объектов, каждые из
которых имеют отдельные общие признаки, взаимно исключают друг друга,
исчерпывая все объекты.
b) Для количественного признака - Каждый из последовательных
взаимоисключающих интервалов, на которые разделен весь интервал
варьирования
• Границы класса; пределы класса
Значения, определяющие верхнюю и нижнюю границы класса.
Примечания. 1 Следует уточнить, какую из двух границ считают
принадлежащей классу. 2 Если возможно, надо чтобы граница класса не
совпадала с возможным значением
• Середина класса
Среднее арифметическое верхней и нижней границ класса для
количественного признака
• Интервал класса
Разница между верхней и нижней границами класса для количественного
признака
Термины и определения
 Частота
Число наступлений события данного типа или число наблюдений, попавших в
данный класс
 Накопленная кумулятивная частота
Число наблюдений из множества, имеющих значения, которые меньше
заданного значения или равны ему.
Примечание - Для данных, объединенных в классы, кумулятивную частоту
можно указать только в границах класса
 Относительная частота
Частота, деленная на общее число событий или наблюдений
 Распределение частот
Эмпирическое отношение между значениями признака и его частотами или
его относительными частотами.
Примечание - Это распределение можно представить графически в виде
гистограммы, столбиковой диаграммы, полигона кумулятивных частот или как
таблицу сопряженности двух признаков
Термины и определения
• Гистограмма
Графическое представление распределения частот для количественного
признака, образуемое соприкасающимися прямоугольниками,
основаниями которых служат интервалы классов, а площади
пропорциональны частотам этих классов
Термины и определения
• Полигон частот (не ГОСТ Р 50779.10-2000 )
один из способов графического представления плотности вероятности
случайной величины. Представляет собой ломаную, соединяющую
точки, соответствующие срединным значениям интервалов группировки
и частотам этих интервалов.
Термины и определения
• Столбиковая диаграмма
Графическое представление распределения частот для дискретной
случайной величины, образуемое набором столбцов равной ширины,
высоты которых пропорциональны частотам
Термины и определения
Частота
• Полигон кумулятивных частот
Ломаная линия, получаемая при соединении точек, абсциссы которых
равны верхним границам классов, а ординаты - либо кумулятивным
абсолютным частотам, либо кумулятивным относительным частотам
30
120.00%
25
100.00%
20
80.00%
15
60.00%
10
40.00%
5
20.00%
0
0.00%
9,25
8,75
8,25
9,75
10,25
10,75
Интервал
11,25
Еще
7,75
Термины и определения
• Таблица сопряженности двух признаков
Таблица, используемая для представления распределения двух
признаков, в строках и столбцах которой указывают, соответственно,
значения или классы первого и второго признаков, при этом на
пересечении строки и столбца появляется частота, соответствующая
данной комбинации значений или классов.
Примечание - Это понятие можно распространить на число признаков
более двух
Таблица сопряженности двух признаков
• Результаты контроля продукции производственной компании
позволили выявить дефекты в партии, состоящей из 450 плат.
• В таблице содержатся ответы на два вопроса: «Найдены ли частицы
на матрице?» и «Качественная плата или нет?»
Состояние матрицы
Качество платы
Хорошее
Плохое
Всего
Нет частиц
320
80
400
Есть частицы
14
36
50
Всего
334
116
450
Выборка [проба]
Одна или несколько выборочных единиц, взятых из
генеральной совокупности и предназначенных для получения
информации о ней
Примечание - Выборка [проба] может служить основой для
принятия решения о генеральной совокупности или о
процессе, который ее формирует
Объем выборки
Число выборочных единиц в выборке
Отбор выборки
Процесс извлечения или составления выборки
ИСХОДНЫЕ НАБЛЮДЕНИЯ
ТАБЛИЦА ЧАСТОТ
ЭМПИРИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ
Исходные наблюдения
 Основу статистического исследования составляет
множество данных, полученных по результатам измерения
одного или нескольких признаков
 Путем вычисления или измерения признаков
соответствующими измерительными средствами получают
ряд значений, называемый также рядом измерений
8,1
10,4
8,8
9,7
7,8
9,9
11,7
8
9,3
9
 Ряд измерений может состоять из значений результатов измерений
диаметра валов привода, температуры прокатки и плавки
подшипниковой стали или значений количества телефонных вызовов,
регистрируемых за определенный промежуток времени, например в 1
мин.
Исходные наблюдения
 Исследуемыми измеримыми признаками являются здесь
соответственно диаметр, температура прокатки или плавки или число
вызовов за определенный промежуток времени
 Эти признаки соответствуют определению случайных величин
Обозначим их заглавными латинскими буквами
X, Y, Z, ... .
Область их значений охватывает все возможные значения, которые
может принимать признак или случайная величина.
• Ряд измерений объема n состоит из n значений признака, которые
обозначаются соответствующими малыми латинскими буквами,
снабженными индексом, указывающим порядковый номер измерения;
х1, х2,..., хn
представляют собой значения, которые X принимает в каждом
конкретном случае.
• Наблюдаемые значения х1, х2 ..., хn называются реализациями
случайной величины X.
Термины и определения
• Случайная величина
Переменная, которая может принимать любое значение из заданного
множества значений и с которой связано распределение вероятностей.
Примечание - Случайную величину, которая может принимать только
отдельные значения, называют дискретной.
Количество телефонных вызовов представляет собой дискретную
случайную величину, так как она может принимать лишь
целочисленные значения 0, 1, 2, ... .
Случайную величину, которая может принимать любые значения из
конечного или бесконечного интервала, называют непрерывной.
Например, при определении диаметра валов привода или при измерении
температуры плавки или проката подшипниковой стали получаем
непрерывные случайные величины.
ПРИМЕР 1
• У 20 изготовленных на токарном автомате цапф передней оси
контролировался диаметр; в результате были получены значения
положительных отклонений в мкм (микронах) от номинального
размера 20 мм, приведенные в таблице 1.
Таблица 1. Исходные значения величин (20 измерений диаметра цапф)
Отклонения от номинального размера, мкм
42
40
42
42
46
43
42
41
41
40
41
43
39
41
40
39
42
44
42
40
ПРИМЕР 1
Признак или случайная величина X есть диаметр цапф,
который теоретически может принимать любые значения в
интервале, величина которого определяется заданной
технологией станка и материала, т. е. X есть непрерывная
величина.
Объем ряда измерений составляет n = 20.
Реализации х1, x2, ...,х20 случайной величины X образуют
исходную последовательность.
Она содержит неупорядоченные отклонения от номинального
размера между 39 и 46мк.
• Если упорядочить измерения по величине и указать вертикальными черточками их
повторяемость, получится первичная таблица распределения (табл. 2).
• В столбец (1) таблицы заносятся в порядке возрастания результаты измерений, в
столбец (2) — штриховые отметки повторяемости данного измеренного значения, в
столбец (3) — их количество, т. е. абсолютная частота каждого результата измерения.
• Таблица 2. Первичная таблица распределения
Отклонение
от
номинального
размера, мк
Штриховые
отметки
отклонения
Абсолютная
частота
1
2
3
39
40
41
42
43
44
45
46
II
IIII
IIII
IIII I
II
I
I
2
4
4
6
2
1
0
1
Первичная таблица распределения показывает, что большинство измерений, а именно
14 из 20, лежит между 40 и 42мк, в то время как вне этого интервала располагается
относительно мало величин.
Пример 2
• Объем ряда измерений составляет n = 150.
• Имеют место отклонения от 25 до 52мк.
48
44
42
43
40
36
34
34
39
32
40
48
40
43
39
25
32
30
34
45
36
39
37
34
45
48
49
41
50
51
43
40
30
34
32
48
42
36
35
41
42
34
42
37
41
38
44
45
46
46
34
34
41
39
38
44
39
38
35
31
30
44
52
41
47
39
40
33
45
35
42
42
38
43
36
37
39
52
38
44
39
44
34
44
32
43
37
43
46
32
43
31
42
44
49
35
42
37
43
49
48
48
49
49
32
37
46
48
50
35
43
44
32
39
45
34
40
33
42
30
43
40
50
44
47
39
33
42
48
41
40
42
46
36
51
40
43
50
45
40
37
35
35
34
33
41
43
42
45
47
• Пример 2
• При большом объеме n измерений следует прибегнуть к
классификации (группировке;) измерений, объединяя по нескольку
следующих друг за другом значений в класс, или группу.
Границы
интервала,
мк
Штриховые отметки
Абсолютная
частота
Относительна Относительна
я частота, % я накопленная
частота, ∑, %
1
2
3
4
5
24,5 … 27,5
27,5 … 30,5
30,5 … 33,5
33,5 … 36,5
36,5 … 39,5
39,5 … 42,5
42,5 … 45,5
45,5 … 48,5
48,5 … 51,5
51,5 … 54,5
I
IIII
IIII IIII III
IIII IIII IIII IIII III
IIII IIII IIII IIII II
IIII IIII IIII IIII IIII
IIII
IIII IIII IIII IIII IIII IIII
IIII IIII IIII I
IIII IIII I
II
1
4
13
23
22
29
29
16
11
2
0,67
2,67
8,67
15,33
14,67
19,33
19,33
10,67
7,33
1,33
0,67
3,34
12,01
27,34
42,01
61,34
80,67
91,34
98,67
100,00
Эмпирическое распределение частот
Гистограмма
•Первое указание на вид распределения частот нам дают штриховые
отметки таблицы частот.
•Количество штрихов в отдельных интервалах дает наглядную картину
эмпирического распределения случайной величины X.
•Если для примера 2 в прямоугольных координатах отложить по оси
абсцисс границы интервала из табл.: 24,5... 27,5мк; 27,5... 30,5мк; а по
оси ординат — соответствующие абсолютные или же относительные
частоты и построить для каждого интервала прямоугольник шириной
•d = 3мк и высотой hm или (hm/n)*100%
•получится ступенчатый многоугольник, называемый также
гистограммой.
•Совокупность штриховых отметок по существу представляет собой
такую гистограмму, повернутую на 90°.
Гистограмма
35
30
Частота
25
20
15
10
5
0
24.5 27.5 30.5 33.5 36.5 39.5 42.5 45.5 48.5 51.5 54.5
Полигон
• Другое представление получается, если в серединах
интервалов на оси абсцисс восстановить перпендикуляры
высотой hm или (hm/n)*100% и соединить между собой
их вершины.
• В результате получаем полигон частот, или многоугольник
распределения (эмпирическую кривую распределения).
Полигон частот
35
30
Частота
25
20
15
10
5
0
26.0
29.0
32
35.0
38.0
41.0
44.0
47.0
50.0
53.0
Диаграмма «ствол и листья»
• Инструмент для организации набора данных и
анализа их распределения
• Данные в диаграмме «ствол и листья»
распределены в соответствии с первыми
цифрами, или стволами, и замыкающими
цифрами, или листьями
• Анализируя диаграмму можно сделать выводы
относительно формы и параметров распределения
Диаграмма «ствол и листья»
пример
• Ниже приведены суммы, которые 15
студентов тратят на завтрак в столовой ($)
5,35 4,75 4,30 5,47 4,85 6,62 3,54 4,87 6,26
5,48 7,27 8,45 6,05 4,76 5,91
• Постройте диаграмму «ствол и листья»
• РЕШЕНИЕ. Сначала следует упорядочить
значения по возрастанию, а затем
использовать в качестве ствола единицы, а
в качестве листьев — десятичные части,
округленные до десятых долей.
Ящик с усами
• Ящик с усами - график, компактно
изображающий одномерное распределение
вероятностей
• Такой вид диаграммы в удобной форме
14
показывает медиану, нижний и верхний 12
квартили, минимальное и максимальное
10
значение выборки и выбросы
8
• Позволяет визуально сравнивать одно
6
распределение с другим, их можно
рисовать горизонтально, либо
4
вертикально.
2
• Расстояния между различными частями
0
ящика позволяют определить степень
распространения (дисперсии) и
асимметрии в данных, и выявить выбросы.
Спасибо за внимание!
Download