New Immissions/Updates:
boundless - educate - edutalab - empatico - es-ebooks - es16 - fr16 - fsfiles - hesperian - solidaria - wikipediaforschools
- wikipediaforschoolses - wikipediaforschoolsfr - wikipediaforschoolspt - worldmap -

See also: Liber Liber - Libro Parlato - Liber Musica  - Manuzio -  Liber Liber ISO Files - Alphabetical Order - Multivolume ZIP Complete Archive - PDF Files - OGG Music Files -

PROJECT GUTENBERG HTML: Volume I - Volume II - Volume III - Volume IV - Volume V - Volume VI - Volume VII - Volume VIII - Volume IX

Ascolta ""Volevo solo fare un audiolibro"" su Spreaker.
CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
Estymator - Wikipedia, wolna encyklopedia

Estymator

Z Wikipedii

Estymator jest podstawowym narzędziem estymacji punktowej.


Spis treści

[edytuj] Wstęp

Estymator jest wartością oszacowaną parametru.

Celem zastosowania estymatora jest znalezienie parametru rozkładu cechy w populacji.

Przykładowo badamy rozkład wzrostu ludności w Polsce. Zakładamy, że rozkład tej cechy X w populacji jest rozkładem normalnym, zaś szukaną wielkością jest wartość oczekiwana m. Wartość m jest zatem szukanym parametrem rozkładu cechy X. W celu oszacowania tych wielkości zbieramy dane z próby losowej o liczebności n. Następnym krokiem będzie znalezienie wygodnej statystyki (funkcji) Tn z próby, która posłuży do oszacowania parametru m. Rolę takiej statystyki może spełniać wartość średnia z próby. Mówimy zatem, że wartość średnia z próby jest estymatorem wartości oczekiwanej rozkładu normalnego. Obliczoną przez nas na podstawie konkretnej próby wartość średnią nazywamy oceną parametru.

[edytuj] Definicje

Zakładamy, że (podobnie jak w poprzednim przykładzie) badamy rozkład cechy X w populacji, rozkład ten jest zależny od parametru θ. Wartość parametru zostanie oszacowana na podstawie n-elementowej próby losowej.

Estymator Tn parametru θ to dowolna statystyka z próby T_n\ =\ t\ (X_1, X_2, ..., X_n), pozwalająca wyznaczyć wartości parametru θ.

Ponieważ każda ze zmiennych losowych Xi ma rozkład identyczny z rozkładem cechy X w populacji generalnej, a rozkład ten zależy od parametru θ, zatem Tn jest zmienną losową, mającą rozkład również zależny od parametru θ.

Oceną parametru nazwiemy każdą realizację tn zmiennej losowej Tn.

Oczywiście ocena parametru będzie prawie zawsze różnić się od oryginalnej wartości parametru θ. Wprowadza się zatem miarę błędu estymacji:

Błąd szacunku d = Tn - θ

[edytuj] Własności estymatorów

Definicja estymatora pozostawia dużą dowolność w wybraniu danej statystyki do szacowania parametru, nie pozwalając jednocześnie na ocenę która ze statystyk jest "dobrym" estymatorem. Aby sprawdzić, czy dana statystyka jest dobrym kandydatem na estymator parametru, powinniśmy sprawdzić, czy spełnia ona zestaw własności charakteryzujących estymator.

[edytuj] Nieobciążoność

Estymator jest nieobciążony, jeśli wartość oczekiwana rozkładu estymatora jest równa wartości szacowanego parametru:

E\ (Z_n)\ =\ \theta

Jeśli różnica pomiędzy wartością oczekiwaną rozkładu estymatora a wartością szacowanego parametru jest zależna funkcyjnie od estymatora:

E\ (Z_n)\ - \ \theta \ =\ b\ (Z_n)

to estymator nazywamy obciążonym, zaś samą różnicę nazywamy obciążeniem estymatora.

[edytuj] Asymptotyczna nieobciążoność

Estymator nazywamy asymptotycznie nieobciążonym, jeśli obciążenie estymatora dąży do zera przy rosnącej liczebności próby:

\lim_{n \to \infty} b\ (Z_n)\ =\ 0

Każdy estymator nieobciążony jest oczywiście estymatorem asymptotycznie nieobciążonym.

[edytuj] Zgodność

Estymator nazywamy zgodnym, jeśli jest stochastycznie zbieżny do szacowanego parametru:

\lim_{n \to \infty} P \ \{|Z_n-\theta| < \epsilon\} = 1

Oznacza to, że jeśli rośnie liczebność próby, rośnie też prawdopodobieństwo, że oszacowanie przy pomocy estymatora będzie przyjmować wartości coraz bliższe wartości szacowanego parametru. Inaczej: zwiększając liczebność próby, zmniejszamy ryzyko popełnienia błędu.

[edytuj] Efektywność

Spośród zbioru wszystkich nieobciążonych estymatorów Z^1_n, Z^2_n, ..., Z^r_n najefektywniejszym nazywamy estymator o najmniejszej wariancji.

Definicja ta jest bardzo niewygodna, ponieważ do wyznaczenia najefektywniejszego estymatora potrzebna jest znajomość wariancji wszystkich estymatorów nieobciążonych danego parametru rozkładu. W praktyce o wiele łatwiej jest skorzystać z nierówności Rao-Cramera.

[edytuj] Asymptotyczna efektywność

Estymator\ Z_n jest asymptotycznie najefektywniejszy, jeśli przy wzrastającej liczebności próby wariancja estymatora\ Z_n dąży do wariancji estymatora najefektywniejszego Z^*_n:

\lim_{n \to \infty} \frac{D^2(Z_n)}{D^2(Z^*_n)} = 1

gdzie D2(Zn) oznacza wariancję estymatora.

[edytuj] Dostateczność

Estymator\ Z_n jest dostateczny, jeśli można, ze względu na niego dokonać faktoryzacji (rozłożenia na iloczyn) łącznej funkcji gęstości f(x) wektora wyników próby x=(x1,x2,...,xn)

f\ (x,\theta)\ =\ f(Z_n,\theta) g(x,Z_n)

,

gdzie g(x,Zn) jest fukcją niezależną od parametru θ

[edytuj] Metody wyznaczania estymatorów

Jeśli nie jest oczywiste jaką statystykę należy wybrać jako kandydata na estymator, z pomocą przychodzą różnorodne metody ich wyznaczania.

[edytuj] Metoda momentów

Etap 1.

Przedstawiamy momenty (zwykłe lub centralne) jako funkcje parametrów rozkładu:

η1 = f112,...,θr),
η2 = f212,...,θr)
\ . \ . \ .
ηr = fr12,...,θr)
Momenty wybieramy w taki sposób, aby powstały w ten sposób układ równań miał jednoznaczne rozwiązanie.

Etap 2.

Rozwiązujemy układ równań względem parametrów θi i w miejsce momentów z populacji ηi wstawiamy momenty z próby Mi

[edytuj] Metoda największej wiarogodności

Etap 1.

Wyznaczamy funkcję wiarygodności próby zgodnie ze wzorami:

L(x_1, ..., x_n; \theta_1, ..., \theta_r) = \prod_{i=1}^{n} f(x_i; \theta_1, ..., \theta_r) dla rozkładów ciągłych

L(x_1, ..., x_n; \theta_1, ..., \theta_r) = \prod_{i=1}^{n} p(x_i; \theta_1, ..., \theta_r) dla rozkładów skokowych

gdzie f oznacza funkcję gęstości rozkładu, zaś p funkcję prawdopodobieństwa.

Etap 2.

Wyznaczamy lnL (funkcja lnL(θ) i L(θ) osiągają maksimum dla tej samej wartości, a często zamiast lnL(θ) wygodniej jest używać logarytmu funkcji wiarygodności).

Etap 3.

Wyznaczamy pochodne cząstkowe \frac {\partial \ln L} {\partial \theta_i} dla i = 1,...,r. Gdy L(θ) jest dyskretna nie możemy różniczkować, wyliczamy \frac {L(n+1)} {L(n)}. Wiarygodność wtedy jest jest maksymalizowana przez najmniejsze n przy którym ten stosunek jest \le 1.

Etap 4.

Rozwiązujemy układ równań \frac {\partial \ln L} {\partial \theta_i} = 0 względem θi

Rozwiązanie układu stanowią estymatory szukanych parametrów.

[edytuj] Wady

Alternatywne podejście do statystyki, tzn. statystyka subiektywna lub bayesowska, odrzuca stosowanie estymatorów. Wskazuje się, że estymatory tak naprawdę dobierane są ad-hoc, a wszystkie ważne kryteria takie jak nieobciążoność i minimalna wariancja zależą od wyboru układu odniesienia, a kryteria doboru estymatora przy danym rozkładzie zależą od "kosztów" błędnego oszacowania – jeśli np. przeszacowane o 1 kosztuje nas tyle co niedoszacowanie o 5, nieobciążony estymator będzie złym wyborem.

Na przykład jeśli badamy rozmiary baniek mydlanych (idealnie kulistych) i wyniki pomiarów to:

Numer pomiaru Średnica [cm] Pole przekroju [cm2] Objętość [cm3]
1 2 1 \frac 1 3 \cdot \pi
2 4 10 \frac 2 3 \cdot \pi
3 6 36 \cdot \pi
4 8 16π 85 \frac 1 3 \cdot \pi

Mamy teraz kilka możliwości:

  • możemy przyjąć za wymiar podstawowy średnicę, wybrać estymator dla średnicy, i obliczyć pozostałe wymiary na podstawie średnicy,
  • możemy zrobić to samo z polem przekroju,
  • lub objętością,
  • lub estymować każdy wymiar osobno

Wyniki to:

Metoda Średnica Pole przekroju Objętość
Średnica 5 6,25 π 20,83 π
Pole przekroju 5,48 7,5 π 27,29 π
Objętość 5,84 8,55 π 33,33 π
Niezależnie 5 7,5 π 33,33 π

Czyli estymator nieobciążony dla każdego z wymiarów daje "obciążone" wyniki dla pozostałych, a estymowanie każdego wymiaru z osobna prowadzi do niezachowania zależności między wymiarami.

Metoda stosowana w statystyce subiektywistycznej wymusza na nas:

  • Przyjęcie explicite założeń co do rozkładu, czyli rozkładu a priori (co w przeciwnym wypadku musimy zrobić niejawnie, np. w powyższym przykładzie wybierając jeden z wymiarów). Na tej podstawie z reguły Bayesa wyprowadzamy wzór na rozkład a posteriori parametrów modelu (w statystyce klasycznej żaden z tych dwóch rozkładów nie jest dopuszczalny, choć są czasem stosowane niejawnie).
  • Przyjęcie explicite funkcji kosztu. Na podstawie funkcji kosztu oraz rozkładu a posteriori wyliczamy jedyny możliwy w tym przypadku estymator.

[edytuj] Ucięty rozkład normalny

Istnieją też relatywnie proste rozkłady w których lepiej jest przyjąć rozkład obciążony od nieobciążonego. Przyjmijmy, że zmienna X ma rozkład normalny o znanej wariancji i nieznanej (ale należącej do znanego przedziału) wartości oczekiwanej, ale odczyty Y z naszych urządzeń pomiarowych wszystkie wartości ujemne przedstawiają jako 0. Przyjmijmy że dla danych zawierających tylko liczby dodatnie estymator zwraca dodatnie oszacowanie parametru. Jest to bardzo pożądana cecha. Estymator musiałby jednak zwracać coś również dla odczytów zawierających wyłącznie zera – przyjmijmy że dla k odczytów będących samymi zerami zwraca zk.

Załóżmy że wartość oczekiwana wynosi φ. Chcemy jednak żeby estymator był nieobciążony – w tym celu, jeśli zk < φ, niedoszacowania w wyniku wylosowania samych zer mogą być równoważone przez przeszacowania w wyniku wylosowania jakiegoś niezerowego wyniku. Jeśli jednak z_k \ge \phi to nie istnieje żaden estymator nieobciążony, gdyż niezależnie od wyniku pomiarów estymator zwróci oszacowanie wyższe od φ. A zatem żeby estymator był nieobciążony, to dla każdego k oszacowanie zk musi być nie większe od najmniejszej możliwej wartości parametru, a ponieważ w rozkładzie normalnym szansa na odczyt innej wartości niż zero jest niezerowa (choć może być bardzo mała), to żeby równoważyć estymację zk musi być ostro mniejsze od najmniejszej możliwej wartości parametru. Szacowanie odczytu serii kolejnych zer na wartość mniejszą od najmniejszej dopuszczalnej zdecydowanie nie jest pożądaną własnością estymatora.

Lepiej jest więc przyjąć jakiś estymator obciążony – np. estymator Bayesowski powstały przez przyjęcie wszystkich wartości parametru za równie prawdopodobne oraz funkcji kosztu za kwadrat różnicy między parametrem a jego estymacją. Taki estymator będzie bardzo bliski średniej arytmetycznej dla wyników dodatnich (nie będzie ściśle równy średniej ze względu na istnienie górnej granicy możliwych wartości parametru), a dla serii zer przyjmie rozsądniejsze wartości, zaczynając powyżej połowy ujemnego przedziału (być może w przedziale dodatnim) dla niskich k i obniżając się powoli asymptotycznie do najmniejszej dopuszczalnej wartości dla przedziału ujemnego.

[edytuj] Elementy odstające

Estymatory z zasady wyznaczają jeden z parametrów rozkładu, a zatem zakładają pewną określony rozkład lub klasę rozkładów, do których ma należeć rozkład danej zmiennej losowej. Na ogół jest to rozkład normalny, lub (w przypadku wielowymiarowych zmiennych losowych) wielowymiarowy rozkład normalny.

W praktyce jednak dane na ogół zawierają tzw. elementy odstające (ang. outliers), czyli wartości, które dostały się do zbioru przypadkowo i nie odzwierciedlają rzeczywistości. Mogą to być efekty błędnego zrozumienia pytania przez osobę ankietowaną, zaburzeń w procesie pomiaru, itp.. Statystycy milcząco zakładają, że dobrze przeprowadzony eksperyment nigdy nie wyprodukuje elementów odstających, jednak w praktyce zbiory bez elementów odstających zdarzają się bardzo rzadko.

Elementy odstające zaburzają w sposób nieprzewidywalny rozkład z próby danej zmiennej losowej. Nawet jeden element odstający może sprawić, że niektóre estymatory i inne statystyki mogą dać całkowicie błędne wartości.

Przykładowo szczególnym przypadkiem estymacji jest znajdowanie parametrów regresji liniowej za pomocą metody najmniejszych kwadratów. Metoda ta w przypadku dodania do zbioru danych nawet jednego elementu znacznie oddalonego od prostej regresji może całkowicie zmienić wynik. Tendencja rosnąca może nagle stać się malejącą, korelacja dodatnia, ujemną, itp.

Niektóre metody obejścia tego problemu:

[edytuj] Zobacz też

Static Wikipedia (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2006 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia February 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu