Введение. Генеральная совокупность и выборка

реклама
Лукьянова Е.А.
Медицинская статистика
Специальность «Фармация»
№1
Основные понятия статистики
Генеральная совокупность и выборка
Типы данных и их представление
2011
Материалы лекции
Презентации размещены в интернет-кабинете Лукьяновой Е.А.
на учебном портале
http://web-local.rudn.ru
Основная литература
Лукьянова Е.А. "Медицинская статистика" РУДН 2003 (библиотека)
Лукьянова Е.А. «Статистические методы анализа» РУДН 2011
Дополнительная литература
Гланц С. Медико-биологическая статистика. Пер. С англ. – М.
Практика, 1998. –459 с.
Петри А., Сэбин К. Наглядная статистика в медицине. Пер. с англ. – М.:
ГЭОТАР-МЕД , 2003. –144с. ил.
Реброва О.Ю Статистический анализ медицинских данных.
Применение пакета прикладных программ STATISTICA. – М.,
МедиаСфера, 2002. –312 с.
Изучение статистики может пригодиться: …
При прочтении научных публикаций
Важно понимать статистические исследования, проводимые в интересуемой области.
Для этого необходимо знать и владеть
• статистической терминологией,
• статистической символикой,
• знать концепцию статистических процедур, используемых в исследовании
В собственной научной работе и клинической практике
Для проведения исследований необходимо уметь:
• планировать эксперимент
• собирать данные
• анализировать данные
• делать статистические выводы и прогнозы
Для понимании основ доказательной медицины
Доказательная медицина
Каждое клиническое решение врача должно базироваться на научных фактах
Научные исследования различаются по качеству и достоверности результатов.
Согласно концепции доказательной медицины, в практике должны использоваться
вмешательства, эффективность и безопасность которых подтверждена в
высококачественных исследованиях, выполненных на основе единых
методологических принципов.
В основе концепции доказательной медицины лежит идея "просвещенного
скептицизма" - тщательное изучение актуальных научных данных, оценка их
достоверности и практической значимости для осмысленного использования лучших
результатов клинических исследований для выбора лечения.
Достоверность результатов определяется выбором адекватного способа построения
(дизайна) исследования, использованием методов минимизации ошибок, а также
грамотным применением статистических методов обработки данных.
Применение статистики …
В исследованиях применяются такие методы, как
•статистический приемочный контроль,
•статистическое регулирование технологических процессов,
•оценка надежности,
•планирование экспериментов.
При использовании статистических методов необходимо понимать следующее:
•какой статистический метод может быть использован;
•почему (для чего) данный метод используется;
•какой тип данных подходит для данного метода;
•как интерпретировать полученные результаты.
Основные понятия
Статистика - это точная наука, изучающая методы сбора, обработки,
систематизации, анализа и интерпретации данных, которые описывают
массовые действия, явления и процессы.
Данные, изучаемые в статистике, затрагивают не отдельные объекты, а их
совокупности.
Statistik (нем.) – государство – знание, от лат. Status – государство
«Изображение состояния государства в числах»
Статистика— (от лат. status — состояние дел) наука, сочетающая учет и анализ,
фиксирующая, систематизирующая и изучающая показатели наиболее типичных,
массовых экономических процессов и их изменение во времени
(Большой экономический словарь. )
Источники статистических данных
Традиционный подход
Сведения о распределении социально-экономических или демографических
объектов по различным признакам:

Распределение граждан по возрасту, полу, уровню дохода

Распределение предприятий по объему производства, численность
персонала
Современный подход
Статистическими данными называют
числовую информацию, извлекаемую из выборочных обследований,
результаты серии измерений.
Классификации исследований
•По времени исследования
•Одномоментное (поперечное – Cross-sectional) – однократное
обследование участников
•Динамическое (продольное – longitudinal) – многократное
обследование участников
•По наличию вмешательств
•Пассивное – наблюдение за естественным течением заболевания
•Активное (эксперимент) – исследование медицинского
вмешательства
•По времени сбора
•Проспективное – изучаемые группы формируют ДО сбора данных
•Ретроспективное – изучаемые группы формируют ПОСЛЕ сбора
данных
Статистическое наблюдение и эксперимент
Источником первичной статистической информации является статистическое
наблюдение или эксперимент.
Статистическое наблюдение.
В этом случае исследователь только наблюдает, что произошло или происходит
с объектом исследования и делает заключения лишь по этим наблюдениям.
Эксперимент.
В этом случае исследователь манипулирует одной переменной и пытается
определить каково влияние этих изменений на остальные переменные.
Статистическое наблюдение и эксперимент.
Статистическое наблюдение или эксперимент должно
проводиться по заранее составленному плану т.е. должны
быть определены:
 цель, объект, единица наблюдения;
 программа (перечень вопросов, на которые надо
получить ответы);
 набор гипотез, которые надо проверить.
Переменные и данные
Переменная – это характеристика (или атрибут) объекта, которая может
принять различные значения .
Данные – это значения (измерения или наблюдения), которые может
принять переменная.
В зависимости от последующего использования собранных данных,
статистику, можно разделить на следующие виды:
• Описательная статистика (Descriptive statistics)
• Статистические выводы (Inferential statistics)
Описательная статистика – состоит из процедур, связанных с накоплением,
организацией (приведением в систему), резюмированием и
представлением данных
Статистические выводы – процедуры, позволяющие оценить параметры,
проверить гипотезы, определить взаимосвязь переменных, а также сделать
прогнозы
Типы данных
Необходимо знать типы собираемых данных. Это нужно для:
•Правильного представления данных
•Правомочности использования тех или иных статистических методов
•Определения объема выборки
Выделяют два основных типа данных количественный и качественный
Количественные данные могт быть: дискретными и непрерывными
Качественные данные могут быть: порядковыми и номинальными
Если признак имеет только два возможных значения, то такие данные
называют дихотомическими
Типы данных
Данные
Качественные
(категориальные)
Номинальные
Порядковые
Количественные
(числовые)
Дискретные
(счетные)
Непрерывные
Дихотомические
Типы данных
Непрерывные данные – числовые данные, которые принимает любые значения
т.е. они могут иметь дробную часть (масса тела)
Дискретные данные - числовые данные, которые принимает значения только
в целых числах (количество детей в семье).
Ординальные (ранговые) данные – категориальные данные, чьи категории
расположены упорядоченным образом (степень заболевания)
Номинальные данные – категориальные данные, чьи категории (уровни,
градации) не имеют естественного упорядочения (код заболевания)
Дихотомические данные – категориальные данные, имеющие только две
категории (пол)
Примеры типов данных (количественные)
Количественный дискретный
•Количество детей в семье
•Число дней болезни за год
Количественный непрерывный
•Температура больного
•Рост
•Масса тела
Примеры типов данных (категориальные)
Категориальный (ординальный)
•Степень заболевания (I, II, III)
•Стадия заболевания (легкая / средняя / тяжелая)
•Выраженность боли (сильная, умеренная, слабая, отсутствие боли)
Категориальный (номинальный)
•Время суток (утро, день, вечер, ночь)
•Номер телефона
•Группа крови (A, B, AB, 0)
Категориальный (дихотомический)
•Пол (мужской, женский)
Производные типы данных
Проценты
Пропорции
Генеральная совокупность

Генеральная совокупность - это
совокупность
всех
мыслимо
возможных
объектов
данного вида, над которыми проводятся наблюдения
с
целью
получения
конкретных
определенной случайной величины
значений
Примеры генеральной совокупности
1) Аспирин произведенный в прошлом, выпускаемый сейчас
и весь, который будет произведен в будущем.
2) Студенты 3 курса, учившиеся в прошлом, учащиеся в этом
году и которые будут учиться в будущем.
Выборочная совокупность
Часть отобранных объектов генеральной совокупности
называется выборочной совокупностью или выборкой.
Не всякая выборка является действительным представлением о
генеральной совокупности.
Для того, чтобы по выборке можно было сделать правильные
выводы о всей генеральной совокупности, она должна быть
репрезентативной.
Репрезентативность

Репрезентативность означает, что все пропорции
генеральной совокупности должны быть представлены в
выборке.

Репрезентативность
выборки
обеспечивается
случайностью отбора. Это означает, что любой объект
выборки отобран случайно, при этом все объекты имеют
одинаковую вероятность попасть в выборку.
Рандомизация
Процесс создания репрезентативной выборки достигается путем
рандомизации (random - случайный (англ.)), т.е. процессом
случайного отбора элементов генеральной совокупности в выборку.
В процессе отбора следует избегать участия человека.
Следует использовать объективные (механические или электронные)
средства рандомизации.
Существуют различные методы отбора объектов генеральной совокупности
в выборку.
Чаще всего, элементы генеральной совокупности нумеруют, затем
прибегают к одному из нижеперечисленных способов.
Методы случайного отбора объектов
Механический отбор с повтором и без повтора
Отбор с помощью таблиц или генератора случайных чисел.
Многоступенчатая выборка.
Напрмер, опрос студентов: сначала случайным образом выбираем вуз, затем
случайно выбираем факультет, затем студента.
В этом случае результат менее точный, чем при случайном выборе студентов
сразу, без разделения по вузам и факультетам.
Кластерная выборка – похожа на многоступенчатую, отличие состоит в том, что
исследуются все объекты последней ступени (в нашем случае, все студены
данного факультета. Факультет и есть кластер)
Стратифицированная выборка – случайная выборка применяется отдельно
для каждой группы (страты).
Систематическая выборка – например из списка объектов выбирается
каждый 10-тый. Такая выборка наименее случайна.
Резюме
1.
Объем выборки
совокупности.
много
меньше
объема
генеральной
2. Основное свойство выборки - репрезентативность.
3.
Суть репрезентативности - все
совокупности отражены в выборке.
пропорции
генеральной
4. Репрезентативность достигается случайностью отбора элементов
генеральной совокупности в выборку.
5. Случайность отбора: все и каждый элемент генеральной
совокупности имеет одинаковые шансы попасть в выборку.
6. Нарушение правил отбора приводит к созданию смещенных
(нерепрезентативных) выборок.
Основные этапы научного исследования:
Формулировка целей
Планирование
Выполнение (сбор данных)
Подготовка данных
Анализ данных
Интерпретация результатов
Формулировка выводов
ПЕРЕРЫВ
5 минут
Визуальное представление
До запланированного статистического анализа данные представляют в
графическом виде.
Графический вид используют для обнаружения выбросов, а также для
выявления тренда и, может быть, различных зависимостей
Выброс (outlier) – резко выделяющееся наблюдение
Тренд (trend) – долговременная тенденция изменения (увеличения или уменьшения)
значений со временем
Графическое представление должно быть простым и понятным.
Не следует использовать без необходимости трехмерные изображения или
различные специальные эффекты так как это затрудняет понимание.
Также к неправильной интерпретации может привести отсутствие подписей
осей координат, начала координат на графике или легенды.
Визуальное представление
Существуют различные виды графического представления данных.
Наиболее используемые это
•Столбчатые диаграммы
•Круговые диаграммы
•Сегментированные столбчатые диаграммы
•Точечные графики
•График «стебель и листья» (stem and leafs)
•График «усатый ящик» - (Box and whiskers plot)
•Гистограммы
•Функции распределения
•Двумерные диаграммы рассеяния
Столбчатая диаграмма
Диаграмма, имеющая для каждой категории горизонтальный или
вертикальный столбик, длина которого пропорциональна частоте для
данной категории
Пример: Употребление лекарства A, B, C или D среди 100 опрошенных
Частота (%)
D
40
C
20
B
35
A
15
0
10
20
30
40
50
В сумме 40+20+35+15=110. Это означает, что некоторые опрошенные
употребляют несколько лекарств одновременно.
Круговая (секторная) диаграмма
Этот вид графиков удобно использовать, когда нужно показать долю каждой
величины в общем объёме.
Круг представляет всю совокупность. Относительная величина каждого значения
изображается в виде сектора круга, площадь которого соответствует вкладу этого
значения в сумму значений.
Круговая диаграмма сохраняет наглядность только в том случае, если количество
частей совокупности диаграммы небольшое. Если частей диаграммы слишком много,
её применение неэффективно по причине несущественного различия сравниваемых
структур.
10%
Пример: Распределение 100 опрошенных по
группам крови (A, B, AB, O)
Группа A
40%
30%
Группа B
Группа AB
Группа O
20%
В сумме 40+20+30+10=100(%) у каждого опрошенного своя группа крови.
Сегментированная столбчатая диаграмма
Это сочетание столбчатой и круговой диаграмм
Пример: Распределение опрошенных по группам крови (A, B, AB, O) внутри
групп, употребляющих то или иное лекарство.
Лекарство
D
C
A
B
AB
B
O
A
0%
20%
40%
60%
80%
100%
В каждой группе за 100% принимают количество человек употребляющих
лекарство A, B, C или D
График «стебель и листья» (stem and leafs)
0
1
2
2
5
5
6
7
11
12
12
13
15
15
15
16
16
16
20
20
21
22
22
22
22
25
25
26
27
27
28
28
29
32
32
33
35
36
38
40
40
44
45
49
49
50
51
51
52
53
53
55
56
58
58
59
60
61
63
65
65
65
68
68
69
72
77
79
79
79
80
81
81
81
84
86
88
89
90
90
91
91
91
91
93
93
93
94
94
94
95
95
95
96
96
97
98
98
99
99
Иллюстрирует распределение данных
Стебель изображен в виде нескольких первых цифр
данных, приведенных по порядку.
Листья – это конечные цифры всех данных, которые
расположены в порядке возрастания
Двумерная диаграмма рассеяния
Пример: Распределение опрошенных по росту и весу.
140
120
100
80
60
40
20
0
130
150
170
190
210
Гистограмма
Гистограмма является одним из способов непараметрического
оценивания плотности распределения непрерывных случайных
величин
Для дискретной случайной величины понятие гистограммы не имеет смысла
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
График «усатый ящик» - (Box and whiskers plot)
C1
B1
A
B2
C2
График «усатый ящик» - (Box and whiskers plot)
0.25
0.20
0.15
0.10
0.05
0.00
111-120 121-130 131-140 141-150 151-160 161-170 171-180 181-190 191-200
График «усатый ящик» - (Box and whiskers plot)
0.30
0.25
0.20
0.15
0.10
0.05
0.00
111-120
121-130
131-140
141-150
151-160
161-170
171-180
181-190
191-200
201-210
211-220
221-230
График «усатый ящик» - (Box and whiskers plot)
Функции распределения
•Биномиальное
•Пуассона
•Равномерное
•Нормальное
•Хи-квадрат
•Стьюдента
•Фишера
Биномиальное распределение
Распределение описывает ситуации, где "испытание" имеет результат
"успех" либо "неуспех", например, при бросании монеты, или при
моделировании удачной или неудачной хирургической операции.
Дискретная случайная величина Х, которая может принимать только целые
неотрицательные значения с вероятностью:
называется распределенной по биномиальному закону, а р параметром
биномиального распределения.
Биномиальная случайная величина В(n,p) – число успехов в n
независимых испытаниях Бернулли с вероятностью успеха в каждом
испытании, равной p
Схема независимых испытаний Бернулли
1. Испытания независимые (друг от друга).
2. Каждое отдельное испытание имеет только два возможных исхода
(например, “Успех”= 1, “Неудача”=0).
3. Вероятности исходов остаются неизменными для всех испытаний.
Биномиальное распределение
Возникает в тех случаях, когда ставится вопрос: сколько раз происходит
некоторое событие в серии из определенного числа независимых
наблюдений (опытов), выполняемых в одинаковых условиях.
Например, нам известна величина p – вероятность того, что вошедший в
магазин посетитель окажется покупателем и (1– p) = q – вероятность
того, что вошедший в магазин посетитель не окажется покупателем.
Если X – число покупателей из общего числа n посетителей, то
вероятность того, что среди n посетителей оказалось k покупателей равна
Биномиальное распределение
При большом числе испытаний биномиальное распределение стремиться к
нормальному
Распределение Пуассона
(Симеон Дени Пуассон (1781 – 1840) – французский математик)
Частный случай биномиального закона распределения для редких событий
Пусть производится n независимых испытаний, в которых появление события А
имеет вероятность р. Если число испытаний n достаточно велико, а вероятность
появления события А в каждом испытании мало (p<0,1), то для нахождения
вероятности появления события А k раз находится следующим образом.
Математическое ожидание
Распределение Пуассона
Распределение Пуассона используется:
•при анализе результатов выборочных маркетинговых обследований
потребителей,
•при расчете оперативных характеристик планов статистического
приемочного контроля в случае малых значений приемочного уровня
дефектности,
•для описания числа разладок управляемого технологического процесса в
единицу времени,
•числа «требований на обслуживание», поступающих в единицу времени в
систему массового обслуживания,
•статистических закономерностей несчастных случаев и редких заболеваний
Распределение Пуассона
Распределение Пуассона можно аппроксимировать нормальным
распределением со средним и дисперсией, равным
Равномерное распределение
Непрерывная случайная величина имеет равномерное распределение на
отрезке [a, b], если на этом отрезке плотность распределения случайной
величины постоянна, а вне его равна нулю.
Если а=0 и b=1, то непрерывное равномерное распределение называют
стандартным.
Стандартное равномерное распределение используют для генерации
случайных чисел
Нормальное распределение
Нормальный закон распределения (закон Гаусса).
Главная особенность, выделяющая нормальный закон среди других
законов, состоит в том, что он является предельным законом, к которому
приближаются другие законы распределения при увеличении объема
выборки.
Непрерывная случайная величина Х имеет нормальное распределение,
если плотность распределения вероятности имеет вид
Нормальное распределение
 - математическое ожидание
 - среднее квадратическое отклонение
Функция определена на всей числовой оси
Принимает только положительные значения
Симметрична относительно математического ожидания
Нормальное распределение
 - математическое ожидание
 - среднее квадратическое отклонение
Нормальное распределение
Стандартное нормальное распределение
x2
1 2
N(0,1) 
e
2

 - математическое ожидание = 0
 - среднее квадратическое отклонение = 1
Правило трех сигм
Вероятность того, что случайная величина отклонится от своего
математического ожидание на величину, большую чем утроенное
среднее квадратичное отклонение, практически равна нулю.
Правило трёх сигм практически все значения нормально распределённой
случайной величины лежат в интервале .
( 3;  3 )
Не менее чем с 99,7 % достоверностью, значение нормально
распределенной
 случайной величины лежит в указанном интервале.
Нормальное распределение
Хи-квадрат распределение
Хи-квадрат распределение с n степенями свободы может быть выведено как
распределение суммы квадратов n независимых случайных величин x1, x2, ..., xn, имеющих
стандартное нормальное распределение с параметрами 0 и 1. Сумма независимых случайных
величин
с n1, n2, ..., nk степенями свободы, соответственно, подчиняется хи-квадрат распределению
с n = n1 + n2 + ... + nk степенями свободы.
Хи-квадрат распределение
Имеются подробные таблицы χ2-распределения, удобные для статистических
расчетов.
При n ≥ 2 χ2-распределение имеет моду в точке x = n - 2.
F-распределение Фишера
d2
1
F(d1,d2 ) 
d1
d2
2
d2

t-распределение Стьюдента
Это распределение получило свое название от псевдонима Student,
которым английский ученый Госсет подписывал свои работы по
статистике.
tk 
U
k2
k

U=N(0,1),
Скачать