Kontingenční tabulka
Z Wikipedie, otevřené encyklopedie
Kontingenční tabulka se užívá k přehledné vizualizaci vzájemného vztahu dvou statistických znaků. Kategorie jednoho znaku určují řádky kontingenční tabulky a kategorie druhého znaku pak sloupce. V příslušné buňce kontingenční tabulky je pak zařazen počet výskytů společného působení obou znaků. Jednotlivé řádky a sloupce vytváří mezisoučty nesoucí informaci o počtu výskytu jevu příslušnému ke znaku uvedenému v daném řádku či sloupci.
Aby mělo smysl uspořádat dva znaky do podoby kontingenční tabulky, je vhodné, aby mezi oběma znaky existoval vzájemný vztah. K tomu lze užít např. test dobré shody. Znaky užité k zobrazení v kontingenční tabulce pak musí představovat diskrétní hodnoty (je možné tedy využít kvalitativní, diskrétně kvantitativní či spojitě kvantitativní znaky, v posledním případě však pouze s rozdělením jednotlivých znaků do skupin – tzv. skupinové třídění).
Obsah |
[editovat] Typ kontingenční tabulky
Typ kontingenční tabulky zaznamenáváme v podobě velikosti tabulky v řádkovém a sloupcovém rozměru jako . Kontingenční tabulka typu se nazývá čtyřpolní tabulka a slouží ke srovnání dvou dichotomických znaků.
Příkladem kontingenční tabulky typu 2×2 může být následující smyšlený průzkum zastoupení leváků a praváků mezi ženami a muži.
praváci | leváci | celkem | |
muži | 43 | 9 | 52 |
ženy | 44 | 4 | 48 |
celkem | 87 | 13 | 100 |
[editovat] Užití kontingenční tabulky
Kontingenční tabulky umožňují testování různých statistických hypotéz, mezi nejobvyklejší testované hypotézy pak patří
- hypotéza o nezávislosti znaků,
- hypotéza o shodnosti struktury a
- hypotéza o symetrii vztahu.
[editovat] Statistické míry a testování
Pro použití testů, založených na chí- kvadrátu ( test nezávislosti, homogenity .) je třeba aby se v tabulce vyskylo méně jak 20% poliček, v nichž by očekávané četnosti byly menší než 5. V případě, že se tak stane, můžeme zvážit transformaci- sloučení některých měně obsazených kategorií (např. "ano" a "spíše ano"). Tímto testem posuzujeme celou tabulku. Staistika chí nevypovídá nic o síle vztahu - pouze zamítá/ nezamítá nulovou hypotézu o závislosti nebo homogenitě na dané hladině spolehlivosti alfa. Pro zjištění síly vztahu používáme upravené koeficienty, případně testování založené na podílu šancí, event. u ordinálních veličin na pořadí.
Odlišně testujeme nominální a ordinální veličiny. Míry asociace nominálních veličin
- Poměr šancí - anglicky odds ratio;
výsledek pokusu | 1.populace | 2.populace | celkem |
zdar | a | b | a + b |
nezdar | c | d | c + d |
celkem | a + c | b + d | n |
Poměr počtu zdarů k počtu nezdarů je za jedněch podmínek a/c a za druhých b/d. Podíl těchto výrazů je roven OR. Střední chyba výrazu log(OR) se dá vyjádřit jako :
Při dostatečně velkých četnostech je přibližný interval spolehlivosti (log (OR)- S.E.(log(OR))z(alfa/2); (log (OR)+ S.E.(log(OR))z(alfa/2)
Test hypotézy o rovnosti šancí OR a OR2
Tuto statistiku můžeme použít např. při fiktivním testování hypotézy souvislosti pohlaví a přijetí k zaměstnavatelům A a B.
zaměstnavatel A | muž | žena | celkem | B | muž | žena | celkem |
přijat/a | 18 | 12 | 30 | * | 19 | 3 | 22 |
nepřijat/a | 40 | 59 | 99 | * | 18 | 19 | 37 |
celkem | 58 | 71 | 129 | * | 37 | 22 | 59 |
- Spočítáme OR = 18.59/(40.12)= 2,2125 ; zjistíme log(OR) = 0,344; spočítáme střední chybu = cca 0,425; pak (0,344 - 1,96 . 0,425; 0,344 + 1,96 . 0,425) což vychází jako 95% interval spolehlivosti pro populační protějšek log(OR) (-0,489; 1,1177), odlogaritmováním získáme 95% interval spolehlivosti pro podíl šancí. Stejně budeme postupovat pro zaměstnavatele B.
- fí měří na rozdíl od OR také sílu míry asociace, nachází se v intervalu (0;1) pro 4 polní tabulku
- Cramerovo Získáme jej úpravou koeficientu φ.
- koeficient kontingence podle Pearsona - funguje podobně jako korelační koeficient Je založen na statistice chí.
Míry asociace ordinálních veličin
Je důležité odlišit případy, kdy je ordinálního charakteru pouze jedna proměnná a kdy obě. V případech, kdy jsou obě sledované proměnné ordinálního charkteru, můžeme použít testování, založené na pořadí.
- Wilcoxonův test
- Mann- Whitney test
- Kendallův korelační koeficient τk - tau k, založený na počtu konkordancí a diskordancí
- Goodman- Kruskalův koeficient γ je variantou kendallova τk
Pokud je ordinální jen jedna, pak:
- Kruskal-Wallisův test
[editovat] Literatura
- Přehled statistických metod - zpracování dat : Jan Hendl; Praha 2004 Portál
- Biostatistika : Karel Zvára; Praha 2003 Karolinum