Medián
Z Wikipedie, otevřené encyklopedie
Medián (označován Me nebo ) je hodnota, jež dělí řadu podle velikosti seřazených výsledků na dvě stejně početné poloviny. Ve statistice patří mezi míry centrální tendence. Platí, že nejméně 50 % hodnot je menších nebo rovných a nejméně 50 % hodnot je větších nebo rovných mediánu.
Pro nalezení mediánu daného souboru stačí hodnoty seřadit podle velikosti a vzít hodnotu, která se nalézá uprostřed seznamu. Pokud má soubor sudý počet prvků, obvykle se za medián označuje aritmetický průměr hodnot na místech n/2 a n/2+1.
Obecně se za medián dá označit více čísel. V už zmíněném případě sudého počtu prvků neexistuje jedinečná střední hodnota. Platí však, že polovina hodnot je menší nebo rovna a polovina prvků je větší nebo rovna, ať už se za medián zvolí libovolné z obou prostředních čísel. Totéž dokonce platí i pro libovolné číslo, jehož velikost leží mezi těmito dvěma čísly. Proto se jako medián takového souboru může vzít libovolné z obou prostředních čísel i libovolné z čísel mezi nimi.
Obsah |
[editovat] Výhody a nevýhody mediánu
Základní výhodou mediánu jako statistického ukazatele je fakt, že není ovlivněný extrémními hodnotami. Proto se často používá v případě šikmých rozdělení, u kterých aritmetický průměr dává obvykle nevhodné výsledky. Např. u souboru { 1, 2, 2, 3, 9 } je medián (stejně jako modus) roven dvěma, což je zřetelně vhodnější ukazatel převažující tendence než aritmetický průměr, který je zde roven 3,4.
Další výhodou je, že medián lze definovat na každém souboru uspořádaném relací „menší nebo rovno“, i když se nejedná o soubor čísel. Například medián souboru {absolvent ZŠ, vyučen, vyučen s maturitou, vysokoškolák} je roven hodnotě „vyučen“, pokud kategorie vzdělání považujeme za seřazené podle náročnosti školy.
Nevýhodné je obvykle použití mediánu u souborů, ve kterých sledovaný znak nabývá jen dvou možných hodnot. Tam se medián chová stejně jako modus: je hrubým měřítkem vlastností rozdělení a v případě, že obě kategorie jsou zastoupeny zhruba stejně, je velmi nestabilní.
[editovat] Teoretické vlastnosti
V případě rozdělení pravděpodobnosti je mediánem číslo m, které splňuje rovnost P(X ≤ m) ≥ 0,5 a P(X ≥ m) ≥ 0,5. V případě spojitého rozdělení zadaného hustotou pravděpodobnosti f pro medián platí:
- .
Medián nemusí vyjít jednoznačně.
Medián je také odhad střední hodnoty, který minimalizuje absolutní chybu. U předchozího příkladu je tato chyba při použití mediánu rovna 1 + 0 + 0 + 1 + 7 = 9, zatímco při použití aritmetického průměru by byla rovna 2,4 + 1,4 + 1,4 + 0,4 + 5,6 = 11,2. To znamená, že číslo m, které minimalizuje výraz E(|X − m|), je mediánem rozdělení náhodné veličiny X.
Pro rozdělení mající definovánu střední hodnotu a medián platí, že rozdíl mezi mediánem a aritmetickým průměrem daného rozdělení je menší nebo roven jedné směrodatné odchylce.
[editovat] Medián jako kvantil
Medián je nejpoužívanější kvantil (konkrétně kvantil dělící soubor na dvě části). Kromě mediánu se velmi často používají kvartily (soubor se dělí na čtyři části), decily (na deset částí) a percentily (na sto částí).