Test dla wariancji
Z Wikipedii
Testy dla wariancji - są to testy parametryczne służące do weryfikacji hipotez statystycznych dotyczących wartości wariancji w populacji generalnej lub też do porównania wartości wariancji w dwóch lub kilku populacjach – na podstawie znajomości wartości badanej cechy w losowej próbie (lub w kilku próbach). Rozstrzygnięcie pytań dotyczących wariancji jest ważne m. in. dlatego, że wiele testów służących do porównania wartości średnich w dwóch lub kilku populacjach wymaga przyjęcia założenia o równości wariancji w tych populacjach (tak zwane założenie o jednorodności wariancji). Ponadto wariancja może być miernikiem dokładności w procesie pomiarowym lub produkcyjnym (zbyt duża wariancja wyników pomiaru może na przykład świadczyć o uszkodzeniu lub rozregulowaniu aparatury lub urządzeń).
Spis treści |
[edytuj] Struktura i podział testów
Hipotezy dotyczące wariancji testuje się zgodnie z ogólnymi zasadami testowania hipotez statystycznych: formułujemy hipotezy, zakładamy poziom istotności – dopuszczalną wartość błędu pierwszego rodzaju (tj. prawdopodobieństwo odrzucenia prawdziwej hipotezy H0) i na podstawie danych z próby wyznaczamy wartość statystyki testowej, po czym porównujemy ją z wartościami krytycznymi odczytanymi z tablic odpowiedniego rozkładu teoretycznego. Przy konstrukcji wszystkich omawianych niżej testów przyjmowane jest założenie, że badane cechy maja w populacjach generalnych rozkład normalny.
- Postać stosowanej statystyki testowej zależy od kilku czynników:
- czy badamy hipotezę dotyczącą jednej, dwóch czy wielu wariancji?
- czy porównujemy próby niezależne, czy zależne ( skorelowane, powiązane)?
- jaka jest liczebność próby (prób)?. Przyjmuje się na ogół (dość arbitralnie), że próba jest duża, gdy jej liczebność n>30 (można wtedy zakładać, że statystyki mają rozkład normalny - patrz centralne twierdzenie graniczne). W przypadku przeciwnym - mamy do czynienia z próbami małymi.
Poniżej przedstawiono w skrócie kilka testów najczęściej stosowanych w poszczególnych sytuacjach.
[edytuj] Testy dla jednej wariancji
Porównujemy wariancję w populacji z „wzorcową” wartością .
Hipotezy mają postać: H0: ,
H1: postać hipotezy alternatywnej zależy od sformułowania zagadnienia: (a) albo (b) albo też (c) .
Postać statystyki i dalszy przebieg testu zależy od rozmiaru próby.
[edytuj] Próby małe
Wyznaczamy wartość statystyki
-
- - s2 jest tutaj wariancją z próby a n – liczebnością próby. Statystyka ta ma rozkład chi-kwadrat - zatem wartość krytyczną odczytujemy z tablic rozkładu chi-kwadrat dla v = n − 1 stopni swobody i dla poziomu istotności – gdy hipoteza alternatywna H1 ma postać (a), w przypadku (b) – odczytujemy z tablic wartość , a w przypadku (c)- odczytujemy dwie wartości: oraz .
Przedział krytyczny – w przypadku (a) jest prawostronny, czyli gdy – odrzucamy H0, w przypadku przeciwnym – nie ma podstaw do jej odrzucenia. W przypadku (b) – przedział krytyczny jest lewostronny (dla odrzucamy H0), a w przypadku (c) – przedział krytyczny jest obustronny.
[edytuj] Próby duże
Dla liczebności próby n > 30 możemy przekształcić wyznaczoną w poprzednim punkcie statystykę chi-kwadrat w statystykę z o rozkładzie normalnym obliczając:
W powyższym wzorze χ2 oraz v = n − 1 oznaczają statystykę chi-kwadrat i jej liczbę stopni swobody wyznaczone tak, jak w poprzednim paragrafie (dla prób małych).
Wartości krytyczne znajdujemy z tablic dystrybuanty rozkładu normalnego.Jeżeli Fn(z) jest dystrybuantą standardowego rozkładu normalnego, a - funkcją odwrotną do dystrybuanty, natomiast α - założonym poziomem istotności – to odczytujemy: dla przypadku (a) , w przypadku (b) , zaś w przypadku (c) mamy 2 wartości graniczne: oraz zkryt2 = − zkryt1.Dalszy przebieg testu i wnioski – jak poprzednio.
[edytuj] Testy dla dwóch wariancji
Mamy tu do czynienia z dwiema próbami o liczebnościach n1 i n2,znamy też „wariancje z próby” (estymatory wariancji) i - testujemy hipotezę, że próby te pochodzą z populacji o jednakowych wariancjach. Postać hipotez:
H0: ,
H1: postać hipotezy alternatywnej zależy od sformułowania zagadnienia:
(a) albo (b) albo też (c) .
[edytuj] Testy dla dwóch prób niezależnych
[edytuj] Próby małe
–można tu wykorzystać kilka testów:
[edytuj] Test Fishera
Przyjmujemy i wyznaczamy statystykę z próby o postaci:
Statystyka ta ma rozkład Fishera –Snedeccora o liczbie stopni swobody v1 = n1 − 1 i v2 = n2 − 1. Z tablic tego rozkładu – dla testu prawostronnego - odczytujemy wartość krytyczną Fkryt1 = F(α,v1,v2). Jeżeli mamy stosować test lewostronny – najprościej jest zamienić miejscami próby 1 i 2, zaś w przypadku testu obustronnego wyznaczamy oraz drugą wartość graniczną ze wzoru:.
[edytuj] Test t-Studenta
(dwie małe próby o równych liczebnościach)
Stosujemy statystykę
(n jest tutaj wspólną liczebnością obu prób). Statystyka ta ma rozkład Studenta o v = n − 1 stopniach swobody.
[edytuj] Test Linka
Gdy znane są jedynie rozstępy R1 i R2 obu prób, wtedy wyznaczamy statystykę
przy czym w liczniku powinna być większa wartość (hipoteza H1 ma postać (a)). Statystykę tę porównujemy z wartością krytyczną odczytaną ze specjalnych tablic dla testu Linka - patrz np.(Zieliński, 1972).
[edytuj] Próby duże
(n1 > 30 i n2 > 30) W tym przypadku można wykorzystać statystykę z o rozkładzie normalnym:
i porównać jej wartość z wartościami granicznymi wyznaczonymi z tablicy standaryzowanego rozkładu normalnego w dokładnie taki sam sposób, jak opisano to dla testu dla jednej wariancji i dużej próby.
[edytuj] Testy dla dwóch prób zależnych
Przypadek taki zachodzi np. gdy badamy ten sam zbiór obiektów w dwóch różnych sytuacjach ( w różnych warunkach) - wtedy na ogół liczebności prób są jednakowe (n1=n2=n).
[edytuj] Test Morgana dla prób małych
Wyznaczamy statystykę o rozkładzie t-Studenta:
gdzie n jest wspólną liczebnością prób, a r – współczynnikiem korelacji Pearsona, który jest miarą korelacji pomiędzy wynikami w próbie 1 i próbie 2. Tę wartość statystyki t porównujemy z wartością krytyczną ( lub 2 wartościami krytycznymi) odczytanymi z tablic rozkładu t-Studenta dla v = n − 2 stopni swobody.
[edytuj] Test Morgana dla prób dużych
- test przebiega podobnie, z tą różnicą, że wartości graniczne można odczytać z tablicy rozkładu normalnego ( bo dla dużych wartości stopni swobody rozkład t-Studenta zmierza asymptotycznie do rozkładu normalnego).
[edytuj] Testy dla wielu wariancji:
Mamy k prób. Hipotezy mają postać: H0:
H1: „nie H0” ( nie wszystkie wariancje są równe)
[edytuj] Próby niezależne
[edytuj] Test Bartletta
- Gdy liczebności prób są różne – stosujemy test Bartletta, oparty na statystyce chi-kwadrat:
przy czym we wzorze tym ni są liczebnościami poszczególnych prób,
– wariancjami z próby,
vi = ni − 1
natomiast wielkości v, s i c wyznaczamy ze wzorów:
-
- - wielkość ta jest liczbą stopni swobody testu,
Ta wartość χ2 jest porównywana z wartością krytyczną wyznaczoną z tablic rozkładu chi-kwadrat dla v stopni swobody. Obszar krytyczny jest zawsze prawostronny (zbyt duże wartości statystyki świadczą o niejednorodności wariancji).
Aby można było stosować test Bartletta – musi być spełnione założenie, że liczebności prób nie są skrajnie małe, tzn. że dla każdego i.
Gdy mamy k prób równolicznych, każda o liczebności k – możemy stosować też inne testy (prostsze rachunkowo):
[edytuj] Test Hartleya
Wyznaczamy statystykę Fh:
gdzie - nieobciążone estymatory wariancji dla każdej z prób ) a oraz są największą i najmniejszą spośród wariancji . Wartość statystyki Fh musi być porównywana z wartościami krytycznymi odczytywanymi z tablic specjalnie skonstruowanych dla tego testu (p.np. Zieliński 1972).Test Hartleya ma zawsze prawostronny obszar krytyczny.
[edytuj] Test Cadwella
Jest to test do badania hipotezy o jednorodności wariancji dla k prób niezależnych i równolicznych ( o liczebności n każda). Test ten jest oparty na wartości rozstępów, wyznaczamy mianowicie wartość statystyki:
(stosunek największego do najmniejszego rozstępu w badanych próbach) i porównujemy tę wartość z wartością krytyczną odczytaną z tablic specjalnie dostosowanych do tego testu, która zależy od poziomu istotności , liczby prób k i ich liczebności n. Test ten, tak jak poprzednie, jest zawsze prawostronny.
[edytuj] Próby zależne
[edytuj] Test Patnaika
Mamy k prób zależnych o liczebności n każda. Liczebności powinny spełniać warunek . Test oparty jest na wartościach rozstępów poszczególnych prób. Wyznaczamy dwie wartości:
-
- - średni rozstęp oraz
- - „rozstęp rozstępów”
po czym porównujemy wartość stosunku z odpowiednią wartością krytyczną . Zarówno ta wartość krytyczna jak i stała musi być odczytana z tablic specjalnie przygotowanych dla tego testu . Obszar krytyczny testu jest prawostronny, tj. gdy - wnioskujemy, że wariancje w porównywanych populacjach nie są jednorodne. W takim przypadku – można stosować ten test sekwencyjnie ( w kolejnych podgrupach).
[edytuj] Bibliografia
Tablice statystyczne
- Zieliński R.,’’Tablice statystyczne’’, PWN, Warszawa 1972
- Barańska Z.,’’Podstawy metod statystycznych dla psychologów’’, Wyd. Uniw. Gdańskiego, Gdańsk 2000, ISBN 83-7017-839-1 (m.in. cytowane są tablice dla testów Patnaika i Cadwella’’)
Linki zewnętrzne
- Distribution Calculator Kalkulator obliczający prawdopodobieństwa i wartości krytyczne dla rozkładów: normalnego, Studenta, chi-kwadrat oraz F (Fishera-Snedeccora)