Tilastotiede
Wikipedia
Tilastotiede on erityisesti todennäköisyyslaskentaa hyödyntävä tiede, joka keskittyy kehittämään menetelmiä, joilla rajallisesta määrästä havaintoja voidaan tehdä luotettavia päätelmiä. Aineiston eli havaintojen perusteella lasketaan tilastollisia tunnuslukuja ja niiden luotettavuudelle voidaan antaa arvio. Tilastollisten mallien avulla kuvataan ja tutkitaan monimutkaisempia riippuvuussuhteita, joiden kuvaamiseen yksittäiset tunnusluvut eivät riitä. Regressioanalyysi on yleisimmin käytetty tilastollinen mallinnusmenetelmä. Tilastoja voidaan esittää mm. graafisesti tai numeerisesti, tilastojen esittämisessä on kyse lähinnä kuvailevasta tilastotieteestä. Tilastotieteen metodit ovat eksakteja matemaattisia malleja.
Tilastotiedettä sovelletaan muun muassa biologiassa, lääketieteessä ja yhteiskuntatieteissä.
Sisällysluettelo |
[muokkaa] Tutkimusalueita ja menetelmiä
- aikasarja-analyysi
- bayesilainen tilastotiede
- biometria (biotieteiden sovelluksia)
- data-analyysi
- ekonometria (taloustieteen sovelluksia)
- epidemiologia (terveyteen vaikuttavien tekijöiden tutkimus)
- otantateoria
- spatiaalinen tilastotiede
[muokkaa] Käsitteitä
Aineisto kerätään kiinnostuksen kohteena olevasta populaatiosta otantamenetelmän avulla. Satunnaisotannassa kullakin populaation jäsenellä on sama todennäköisyys tulla poimituksi. Ennen aineiston käsittelyä on tiedettävä, millä mitta-asteikolla kukin havainto on mitattu. Havaintojen perusteella pyritään tekemään päätelmiä kiinnostuksen kohteena olevan muuttujan jakaumasta .
Frekvenssi kertoo kuinka monta havaintoa on annetussa havaintoluokassa.
[muokkaa] Aineistoa kuvailevia tunnuslukuja
Sijainnin tunnuslukuja eli keskilukuja:
- Moodi
- minimi, maksimi
- mediaani
- kvantiilit: kvartiilit, desiilit ja persentiilit
- keskiarvo (aritmeettinen)
- geometrinen keskiarvo
- harmoninen keskiarvo
Vaihtelun tunnuslukuja:
Riippuvuuden tunnuslukuja:
- kovarianssi
- Pearsonin korrelaatiokerroin
- Kendallin järjestyskorrelaatiokerroin
- Spearsonin järjestyskorrelaatiokerroin
[muokkaa] Tilastollisia testejä
Tilastollisilla testeillä testataan tunnusluvuille tai parametreille asetettuja hypoteeseja. Testisuure lasketaan olettaen nollahypoteesin olevan totta. Jos aineiston perusteella laskettu tunnusluku poikkeaa nollahypoteesista ja aineiston vaihtelu on riittävän pientä suhteessa otoksen kokoon, nollahypoteesi voidaan hylätä valitulla merkisevyystasolla. Vaihtoehtoisesti nollahypoteesi jää voimaan. Merkitsevyystaso kuvaa testin todennäköisyyttä hylätä nollahypoteesi virheellisesti. Testin voima on todennäköisyys millä nollahypoteesi hylätän kun vaihtoehtoinen hypotessi on tosi.
[muokkaa] Otantamenetelmiä
- yksinkertainen satunnaisotanta
- systemaattinen otanta
- ositettu otanta
- PPS -otanta
[muokkaa] Ohjelmia
Vapaita tilasto-ohjelmistoja:
- R
- GNU Octave
Kaupallisia tilasto-ohjelmistoja: