proc glm

advertisement
SAS/STAT LECTURE 1
ВВЕДЕНИЕ. ДИСПЕРСИОННЫЙ АНАЛИЗ
Павел Гребенников pgrebennikov@ibs.ru
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
SAS/STAT ОБЗОР КУРСА
•
•
•
•
ANOVA – дисперсионный анализ
LINEAR REGRESSION – линейная регрессия
LOGISTIC REGRESSION – логистическая регрессия
Generalized LM – обобщенные линейные модели
• POISSON REGRESSION & ZERO-INFLATED POISSON
• NEGATIVE BINOMIAL REGRESSION
• GAMMA REGRESSION
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ПОМОЩЬ
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
SAS/STAT ГДЕ ИСКАТЬ ПОМОЩИ….
•
HTTP://SUPPORT.SAS.COM/DOCUMENTATION/ONLINEDOC/STAT/INDEX.HTML
•
HTTP://WWW.MACHINELEARNING.RU
•
HTTP://STANFORD.EDU/
•
HTTPS://WWW.GOOGLE.RU/
•
HTTP://EN.WIKIPEDIA.ORG/WIKI/ANALYSIS_OF_VARIANCE
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ АНАЛИЗ
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ПРИМЕРЫ ЗАДАЧ
АНАЛИЗ
•
Действительно ли учителя в среднем зарабатывают меньше бухгалтеров?
•
Правда ли у людей получающих новое лекарство уровень лимфоцитов больше чем у
людей получающих плацебо?
•
Рыбы живущие в реках около вулканов больше чем рыбы живущие далеко от вулканов?
•
Влияет ли осведомленность потребителей о магазинах сети «Перекресток» (высокая,
средняя, низкая) на предпочтение магазинов именно этой сети?
•
Как уровень рекламы и/или уровень цен (высокий, средний, низкий) одновременно
влияют на объем продаж товаров данной торговой марки?
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ОБЩАЯ ЗАДАЧА
АНАЛИЗ
Есть ли разница между средними характеристики нескольких популяций/выборок/групп?
Predictor
Response
One-Way
ANOVA
Categorical
Continuous
Или по-другому:
«Помогает» ли информация о принадлежности к гр пе предсказать значение
исследуемой характеристики?
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ВВЕДЕНИЕ ПЕРЕМЕННЫЕ
• Variable type
• Continuous: температура, зарплата, возраст, …
• Categorical (= class): образование, пол, тип тарифного плана, регион, …
• Categorical level of measurement
• Nominal – порядок не определен.
• Ordinal – порядок определен [ => числовые].
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ANOVA И ДРУГИЕ МОДЕЛИ
АНАЛИЗ
Type of
Predictors
Categorical
Continuous
Continuous and
Categorical
Continuous
Analysis of
Variance
(ANOVA)
Ordinary Least
Squares (OLS)
Regression
Analysis of
Covariance
(ANCOVA)
Categorical
Contingency
Table Analysis or
Logistic
Regression
Logistic
Regression
Logistic Regression
Type of
Response
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ЧЕСНОК
АНАЛИЗ
4 Fertilizers
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
32 Beds
ДИСПЕРСИОННЫЙ
GARLIC DATASET
АНАЛИЗ
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ГИПОТЕЗА ДИСПЕРСИОННОГО АНАЛИЗА
АНАЛИЗ
H0: F1=F2=F3=F4
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
H1: F1 ≠ F2 or F1 ≠ F3
or F1 ≠ F4 or F2 ≠ F3
or F2 ≠ F4 or F3 ≠ F4
ДИСПЕРСИОННЫЙ
ОСНОВНАЯ ЛОГИКА ДИСПЕРСИОННОГО АНАЛИЗА
АНАЛИЗ
Variability
Variability
between Groups within Groups
Суммы
квадратов
Total Variability
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
SST
=
SSM
+ SSE
ДИСПЕРСИОННЫЙ
СУММЫ КВАДРАТОВ: ПРИМЕР
АНАЛИЗ
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
СУММЫ КВАДРАТОВ: ПРИМЕР [TOTAL SUM OF SQUARES]
АНАЛИЗ
SST =
(7-6)2
(3-6)2
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
(7-6)2 +
(8-6)2 +
(9-6)2 +
(3-6)2 +
(4-6)2 +
(5-6)2 +
= 28
ДИСПЕРСИОННЫЙ
СУММЫ КВАДРАТОВ: ПРИМЕР [ERROR SUM OF SQUARES]
АНАЛИЗ
SSE =
YB  8
(7-8)2
YA  4
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
(5-4)2
(7-8)2 +
(8-8)2 +
(9-8)2 +
(3-4)2 +
(4-4)2 +
(5-4)2
=4
ДИСПЕРСИОННЫЙ
СУММЫ КВАДРАТОВ: ПРИМЕР [MODEL SUM OF SQUARES]
АНАЛИЗ
YB  8
(8-6)2
YA  4
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
(4-6)2
SSM = 3*(4-6)2 +
3*(8-6)2 = 24
ДИСПЕРСИОННЫЙ
F STATISTIC AND CRITICAL VALUES AT =0.05
АНАЛИЗ
𝑭 .,. =
𝑀𝑆𝑀
𝑀𝑆𝐸
=
𝑆𝑆𝑀
𝑀𝑜𝑑𝑒𝑙𝐷𝐹
𝑆𝑆𝐸
𝐸𝑟𝑟𝑜𝑟𝐷𝐹
ModelDF = число групп -1
ErrorDF=Nobs -1 - (ModelDF)
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
F STATISTIC SIMPLE “LOGIC”
АНАЛИЗ
YB  8
YA  4
F >> 1
F~1
R2= SSM / SST
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
СПЕЦИФИКАЦИЯ МОДЕЛИ
АНАЛИЗ
BulbWt =
Yik
Base
+ Fertilizer + Unaccounted
Level
for Variation
=  + i + ik
proc glm data=sasuser.MGGarlic;
class Fertilizer;
model BulbWt=Fertilizer;
title 'Testing for Equality of Means with PROC GLM';
run; quit;
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ПРЕДПОЛОЖЕНИЯ
АНАЛИЗ
• Наблюдения независимы
• Good data collection designs help ensure the independence assumption
• Ошибка нормально распределена
• Diagnostic plots from PROC GLM
• Во всех группах одинаковая дисперсия
• PROC GLM produces a test of equal variances with the HOVTEST option in
the MEANS statement.
H0 for this hypothesis test is that the variances are equal for all
populations
if NO then ask for: MEANS <GROUP-VAR> / HOVTEST WELCH;
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ПРИМЕР
АНАЛИЗ
proc glm data=sasuser.MGGarlic plots(only)=diagnostics;
class Fertilizer;
model BulbWt=Fertilizer;
means Fertilizer / hovtest WELCH;
title 'Testing for Equality of Means with PROC GLM';
run;
quit;
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ПРИМЕР – РЕЗУЛЬТАТЫ
АНАЛИЗ
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ПРИМЕР – РЕЗУЛЬТАТЫ
АНАЛИЗ
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ПРИМЕР – РЕЗУЛЬТАТЫ
АНАЛИЗ
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ПРИМЕР – РЕЗУЛЬТАТЫ
АНАЛИЗ
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
OBSERVATIONAL OR RETROSPECTIVE STUDIES
АНАЛИЗ
•
Часто мы смотрим на то, что уже случилось (retrospective),
вместо планирования будущего результата (prospective).
•
У нас нет возможности контролировать факторы, влияющие
на исследуемый параметр.
Планирование экспериментов?
КОНТРОЛИРУЕМЫЙ ЭКСПЕРИМЕНТ:
RANDOMIZE BLOCK DESIGN
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ФАКТОРЫ-ПОМЕХИ
АНАЛИЗ
?
Bulb
Weight
?
Fertilizer
?
SST
SSM
SSE
F( , )=MSM / MSE
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ДОПОЛНИТЕЛЬНЫЕ ПРЕДПОЛОЖЕНИЯ
АНАЛИЗ
• Внутри каждого блока группы присваиваются каждому
объекту исследования случайно.
• В нашем примере: на грядках внутри каждого сектора
используются случайное удобрение
• Влияние группы должно быть постоянным для всех
блоков.
• Т.е. между переменной Sector и Fertilizer не должно быть стат.
значимого пересечения (interaction).
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
БЛОКИ
АНАЛИЗ
4 Fertilizers
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
32 Beds
8 Sectors
ДИСПЕРСИОННЫЙ
ПРИМЕР
АНАЛИЗ
proc glm data=sasuser.MGGarlic_Block plots(only)=diagnostics;
class Fertilizer Sector;
model BulbWt=Fertilizer Sector;
title 'ANOVA for Randomized Block Design';
run;
quit;
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ПРИМЕР - РЕЗУЛЬТАТЫ
АНАЛИЗ
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
СРЕДНИЕ В ГРУППАХ РАЗЛИЧНЫ, ЧТО ТЕПЕРЬ?
АНАЛИЗ
Tukey
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
Dunnett
ДИСПЕРСИОННЫЙ
МЕТОДЫ МНОЖЕСТВЕННОГО СРАВНЕНИЯ
АНАЛИЗ
Задача1. Бросаем монету. Вероятность выпадения «орла» = 0,5.
Если при первом бросании выпал «орел», то какова
вероятность выпадения «орла» при втором бросании?
0,5
Задача1. Бросаем монету. Вероятность выпадения «орла» = 0,5.
Какова вероятность выпадения хотя бы одного «орла» при двух
бросаниях?
0,75
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
МЕТОДЫ МНОЖЕСТВЕННОГО СРАВНЕНИЯ
АНАЛИЗ
Comparisonwise
Error Rate (=0.05)
Number of
Comparisons
Experimentwise
Error Rate (=0.05)
.05
1
.05
.05
3
.14
.05
6
.26
.05
10
.40
EER  1 – (1 - )nc
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ПРИМЕР
АНАЛИЗ
proc glm data=sasuser.MGGarlic_Block
plots(only)=(controlplot diffplot(center));
class Fertilizer Sector;
model BulbWt=Fertilizer Sector;
lsmeans Fertilizer / pdiff=all adjust=tukey;
lsmeans Fertilizer / pdiff=control('4') adjust=dunnett;
lsmeans Fertilizer / pdiff=all adjust=t;
title 'Garlic Data: Multiple Comparisons';
run;
quit;
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ ДВУХФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ С
АНАЛИЗ ПЕРЕСЕЧЕНИЯМИ
Response
Categorical
Predictor
One-Way
ANOVA
1 Predictor
n-Way
ANOVA
Continuous
More than
1 Predictor
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
DRUG EXAMPLE
АНАЛИЗ
The purpose of the study is to look at the effect of a new
prescription drug on blood pressure.
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
INTERACTIONS
АНАЛИЗ
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
NONSIGNIFICANT INTERACTIONS
АНАЛИЗ
Analyze the main effects with the interaction in the model.
Yijk    i   j   ij   ijk
…or…
Delete the interaction from the model, and then analyze the
main effects.
Yijk    i   j   ijk
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
NONSIGNIFICANT INTERACTIONS: GUIDES
АНАЛИЗ
Guidelines when to delete the interaction from the model:
• < 5 DF for the error
• F-value for the interaction term < 2
Note: when you analyze data from an observational study, it is more
common to delete non-significant interaction and then analyze the
main effects.
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ПРИМЕР: TWO-WAY ANOVA WITH INTERACTIONS
АНАЛИЗ
ods graphics on;
proc glm data=sasuser.drug order=internal;
class DrugDose Disease;
model Bloodp=DrugDose Disease DrugDose*Disease;
lsmeans DrugDose*Disease / slice=Disease;
title 'Analyze the Effects of DrugDose';
title2 'at Each Level of Disease';
format DrugDose dosefmt.;
run;
quit;
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ПРИМЕР: TWO-WAY ANOVA WITH INTERACTIONS
АНАЛИЗ
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ПРИМЕР: TWO-WAY ANOVA WITH INTERACTIONS
АНАЛИЗ
1 – Placebo
2 – 50 mg
3 – 100 mg
4 – 200 mg
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
ДИСПЕРСИОННЫЙ
ПРИМЕР: TWO-WAY ANOVA WITH INTERACTIONS
АНАЛИЗ
1 – Placebo
2 – 50 mg
3 – 100 mg
4 – 200 mg
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
HOME WORK
C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .
Download