Odhad (statistika)
Z Wikipedie, otevřené encyklopedie
Parametry statistického souboru jsou obvykle neznámé. Jejich hodnoty se snažíme určit pomocí tzv. odhadů.
Máme-li náhodný výběr X1,X2,...,Xn z určitého rozdělení, které závisí na neznámém parametru θ, pak parametr θ může nabývat pouze určitých hodnot z tzv. parametrického prostoru Ω. Prostřednictvím teorie odhadu se snažíme vytvořit statistiku T(X1,X2,...,Xn), jejíž rozdělení pravděpodobnosti se nejvíce blíží danému parametru .
Odhady, v nichž jde o nalezení určitého parametru, označujeme jako parametrické. Existují také neparametrické odhady, při nichž není požadována parametrická specifikace typu pravděpodobnostního rozdělení.
Obsah |
[editovat] Bodový odhad
Bodový odhad spočívá v nahrazení neznámé hodnoty parametru základního souboru nebo jeho funkce hodnotou výběrové charakteristiky. Místo pojmu bodový odhad se také říká estimátor.
Konzistentním (nesporným) bodovým odhadem parametru θ základního souboru nazýváme takovou statistiku Tn, která pro dostatečně velké hodnoty indexu n splňuje podmínku
pro libovolná .
Jako nestranný (nevychýlený) bodový odhad parametru θ základního souboru nazýváme statistiku Tn, pro jejíž střední hodnotu platí . V opačném případě hovoříme o odhadu zkresleném (vychýleném). Rozdíl
se nazývá vychýlením odhadu statistiky Tn. Pokud se s rostoucím rozsahem n náhodného výběru zkreslení zmenšuje, pak říkáme, že daná statistika je asymptoticky nestranným odhadem parametru θ.
Sledujeme-li u některých statistik, které jsou nestranným odhadem parametru θ, jak se jejich hodnoty soustřeďují v blízkosti hodnoty θ, pak za lepší považujeme takovou statistiku, která má menší rozptyl D(T).
[editovat] Metoda maximální věrohodnosti
Pravděpodobně nejpoužívanější metodou určování bodových odhadů je metoda maximální věrohodnosti.
Tato metoda používá k nalezení nejlepšího nestranného odhadu tzv. věrohodnostní funkci L(x1,x2,...,xn,θ), kde x1,x2,...,xn jsou pozorování náhodné veličiny a θ je parametr rozdělení. Nejlepší odhad pak získáme pro takovou hodnotu , pro kterou dosahuje věrohodnostní funkce svého maxima.
[editovat] Přesnost odhadu
Bodové odhady se od skutečných hodnot μ,σ základního souboru odchylují. Přesnost bodového odhadu můžeme vyjádřit tak, že výsledek bodového odhadu doplníme uvedením určité velikosti této odchylky. Běžně používanou mírou je směrodatná chyba
. Jinou možností je použití intervalového odhadu.
[editovat] Intervalový odhad
Bodový odhad neurčuje odhadovaný parametr dostatečně, neboť v sobě neobsahuje informaci o tom, nakolik se odhad od skutečné hodnoty parametru odchyluje. Pomocí intervalového odhadu vymezujeme pro parametr interval, v můžeme hodnotu tohoto parametru se zvolenou pravděpodobností očekávat.
Interval mezi hodnotami T1 a T2 nazveme 100(1 − α)% intervalem spolehlivosti (konfidenčním intervalem) parametru θ, pokud platí
- P(T1 < θ < T2) = 1 − α
Číslo 1 − α pro 0 < α < 1 je tzv. koeficient spolehlivosti (konfidenční koeficient). Koeficient spolehlivosti 1 − α obvykle volíme s hodnotami 0.95 nebo 0.99, což zajišťuje vysokou pravděpodobnost, že interval (T1,T2) obsahuje hodnotu θ.
[editovat] Určení intervalu spolehlivosti
K určení intervalu spolehlivosti můžeme vyjít ze statistiky T, která je vhodným bodovým odhadem parametru θ. Najdeme funkci V této statistiky, která je monotónní a závislá na θ, a jejíž rozdělení na θ nezávisí a je snadné určit kvantily tohoto rozdělení. Poté určíme hodnoty t1 a t2 takové, že z rovnice P(t1 < V < t2) = 1 − α přejdeme úpravami na tvar P(t1 < θ < t2) = 1 − α.