Jednorozměrná data (jedna množina dat, jeden výběr z populace, jeden sloupeček v tabulce) Kvalitativní (kategoriální) data Absolutní četnost Relativní četnost (proporce) Poznámky pro EXCEL Tabulka četností Sloupcový a koláčový graf Vložení -> Kontingenční tabulka Tabulka číselných charakteristik Histogram a krabicový graf (boxplot) Doplněk Analýza dat: Popisná statistika (Celkový přehled) funkce PERCENTIL.INC Vložení -> Statistické grafy Výběrový průměr a medián Popisná statistika Míry polohy Kvantitativní (numerická) data Výběrová směrodatná odchylka a rozptyl Míry variability Bodový odhad populační relativní četnosti (proporce) Kvalitativní data Odhad parametrů Kvantitativní data Výběrové minimum a maximum Výběrové kvantily (percentily, kvartily) Výběrové variační rozpětí Výběrový variační koeficient Výběrová relativní četnost Intervalový odhad populační relativní četnosti (Interval spolehlivosti pro proporci) Dostatečný počet dat Bodový odhad populačního průměru (střední hodnoty) Výběrový průměr Intervalový odhad populačního průměru (Interval spolehlivosti pro střední hodnotu) Jednovýběrový test o proporci (test o hodnotě populační relativní četnosti) Normalita dat nebo alespoň jejich velký počet Normalitu ověřujeme graficky pomocí histogramu, boxplotu, QQ grafu nebo testem (např. Shapirův-Wilkův) Dostatečný počet dat: nπ > 5 a n(1-π) > 5 Kvalitativní data Pearsonův chí-kvadrát test dobré Dostatečný počet dat: všechny očekávané shody s multinomickým rozdělením četnosti > 5 Testování hypotéz Jeden číselný údaj pro reprezentativní výběr Interval spolehlivosti Nejčastěji 95%, oboustranný, lze konstruovat i jednostranné s dolní a horní mezí Interpretace: Interval s příslušnou pravděpodobností pokrývá hodnotu populační charakteristiky Jeden číselný údaj pro reprezentativní výběr Interval spolehlivosti Nejčastěji 95%, oboustranný, resp. jednostranný Nulová hypotéza předpokládá rovnost hypotetické hodnotě π, alternativní může být oboustranná i jednostranná) Nulová hypotéza předpokládá rovnost všech hypotetických proporcí, alternativní znamená, že alespoň jedna shoda neplatí. Oboustranný i jednostranné testy. P-hodnota se pro jednostranné testy vypočte z phodnoty pro oboustranný test tak, že v případě podpory alt. hyp. v datech se p-hodnota dělí 2, v opačném případě se počítá 1-p/2. Jednovýběrový Studentův t-test o hodnotě populačního průměru Normalita dat Jednovýběrový Wilcoxonův test o hodnotě populačním mediánu Neparametrická verze Spojité a symetrické rozdělení, nemusí ale jednovýběrového Studentova tbýt normální testu Kvantitativní data Pozor na jednotky (rozptyl druhá mocnina, variační koeficient je bezrozměrný) Interpretace: Interval s příslušnou pravděpodobností pokrývá hodnotu populační charakteristiky Vložení -> Kontingenční tabulka Výpočet dle vzorce, lze využít postup v Excelu pro kvantitativní data překódováním na 0-1 veličiny Výpočet dle vzorce s využitím doplňku Analýza dat: Popisná statistika (Hladina spolehlivosti pro střední hodnotu) V případě malého počtu dat se používá binomický test Překódování kvalitativní veličiny na 0-1 veličinu, poté funkce Z.TEST, kde směrodatnou odchylkou je π(1-π) Pro dichotomickou proměnnou je ekvivalentní s jednovýběrovým testem o proporci. Nutné předpočítat očekávané četnosti, pak funkce CHISQ.TEST Normalitu ověřujeme graficky pomocí histogramu, boxplotu, Q-Q plotu, testem (Shapirův-Wilkův, pozor je zejména pro větší počty dat velmi „přísný“) Nutné vypočítat testovou statistiku, poté funkce T.DIST.2T pro oboustrannou alternativu, resp. T.DIST.RT pro alternativu „>“, resp. T.DIST pro alternativu „<“ Symetrii ověřujeme pomocí boxplotu, pokud není, pak vhodnější znaménkový test Prezentace a popis Dvourozměrná data Vztah mezi kvalitativními veličinami Vztah mezi kvantitativní a kvalitativní veličinou Poznámky pro Excel Podmíněné četnosti, podmíněné koláčové grafy, kontingenční tabulka Podmíněné číselné charakteristiky, podmíněné histogramy, podmíněné boxploty X-Y rozptylový graf (scatterplot) Vztah mezi kvantitativními veličinami Vložení -> Kontingenční tabulka Korelační koeficient Pearsonův – míra lineární závislosti Bodový graf Z grafu lze identifikovat tvar závislosti vyjadřuje míru lineární závislosti Hodnota mezi -1 a 1 (pro veličiny i silně závislé jinak než lineárně může tedy vycházet blízký 0) Vložení -> Bodový grafy Doplněk Analýza dat: Korelace Spearmanův, Kendalův Vztah mezi 2 kvalitativními veličinami (nezávislé výběry) Vztah mezi 2 kvalitativními veličinami (závislé výběry, resp. párová data) Testování hypotéz Vztah mezi kvantitativní a dichotomickou kvalitativní veličinou (nezávislé výběry) Vztah mezi kvantitativní a dichotomickou kvalitativní veličinou (závislé výběry, resp. párová data) Vztah mezi kvantitativní a množnou kvalitativní veličinou (nezávislé výběry) Vztah mezi kvantitativní a množnou kvalitativní veličinou (závislé výběry, resp. bloková data) Vztah mezi 2 kvantitativními veličinami Dvouvýběrový test o proporci pro dichotomické veličiny (tabulka 2x2) Dostatečný počet dat v obou výběrech Testuje shodu, resp. rozdíl populačních proporcí. Test může být oboustranný i jednostranný. Chí kvadrát test nezávislosti (i pro množné veličiny, tabulka r x s) Dostatečný počet dat: všechny očekávané četnosti > 5, jinak Fisherův faktoriálový test Nulová hypotéza je nezávislost. Testuje shodu podmíněných četností v kontingenční tabulce McNemarův test homogenity pro dichotomické veličiny (tabulka 2x2) Stuartův test homogenity (i pro množné veličiny, tabulka r x r) Dostatečný počet dat: n12+n21 > 10 Dostatečný počet dat Odlišnost relativních četností kvantifikujeme pomocí absolutního (rozdíl) nebo relativního rizika (podíl) Pro dichotomické proměnné je ekvivalentní s dvouvýběrovým testem o proporci založeném na abs. riziku. Testuje shodu marginálních (okrajových) četností v kontingenční tabulce Dvouvýběrový Studentův t-test Normální rozdělení obou výběrů (lze obejít velkým počtem dat) Homoskedasticita (shoda rozptylů) Dvouvýběrový Welchův t-test Normální rozdělení obou výběrů (lze obejít velkým počtem dat) Dvouvýběrový Wilcoxonův test (nazývaný i Mannův-Whitneyův test) Spojité rozdělení obou výběrů se stejnou variabilitou (pokud není, je lepší Kolmogorovův-Smirnovův test) Párový t-test Normální rozdělení rozdílu (lze obejít velkým počtem dat) Párový Wilcoxonův test Spojité a symetrické rozdělení rozdílu (pokud není symetrie, je lepší znaménkový test) ANOVA jednoduchého třídění normalita (lze obejí velkým počet dat) + homoskedasticita chyb (reziduí) Welchova modifikace ANOVA Pokud je porušena homoskedasticita Kruskalův-Wallisův test Pokud je porušena normalita a je nižší počet dat (ve skupinách) Neparametrická ANOVA ANOVA s bloky normalita (lze obejí velkým počet dat) + homoskedasticita chyb (reziduí) Speciální případ dvoufaktorové ANOVA metody Friedmanův test Pokud je porušena normalita a je nižší počet dat Neparametrická ANOVA s bloky Jednoduchá lineární regrese Správně zvolená regresní funkce, normalita a homoskedasticita reziduí Pojmy: koeficient determinace, konfidenční a predikční interval Testuje shodu, resp. rozdíl populačních průměrů. Test může být oboustranný i jednostranný. Překódování obou kvalitativních veličin na 0-1 veličiny, pak doplněk Analýza dat: Dvouvýběrový t-test s rovností rozptylů Nutné předpočítat očekávané četnosti, pak funkce CHISQ.TEST Nutné vypočítat testovou statistiku, poté funkce CHISQ.DIST.RT Homoskedasticitu lze případně ověřit douvýběrovým F-testem Jen mírně slabší test. Doplněk Analýza dat: Dvouvýběrový t-test s rovností rozptylů Doplněk Analýza dat: Dvouvýběrový t-test s nerovností rozptylů Testuje shodu spojitých rozdělení, resp. shodu populačních mediánů Testuje shodu populačních průměrů, resp. zda populační průměr rozdílu veličin je nulový. Testuje, zda populační medián rozdílu veličin je nulový Vícevýběrový test populačních průměrů. V případě zamítnutí H0 se provádí mnohonásobné porovnávání (Bonferroni, Scheffé, Tukey). Jednovýběrový Studentův t-test aplikovaný na rozdílová data Jednovýběrový Wilcoxonův test aplikovaný na rozdílová data Normalitu ověřujeme pro rezidua Homoskedasticitu ověřujeme pomocí reziduálního grafu, popř. lze použít Leveneův test Zobecnění dvouvýběrového Welchova t-testu Zobecnění dvouvýběrového Wilcoxonova testu Doplněk Analýza dat: Dvouvýběrový párový t-test na střední hodnotu Doplněk Analýza dat: Anova: jeden faktor Doplněk Analýza dat: Anova: dva faktory bez opakování Adekvátnost regresní funkce a další předpoklady ověřujeme přes reziduální grafy Doplněk Analýza dat: Regrese