Boxplot
Van Wikipedia
In de beschrijvende statistiek is een boxplot (of snorredoos, of doosdiagram) een grafische weergave van de vijf-getallensamenvatting. Deze vijf-getallensamenvatting bestaat uit het minimum, het eerste kwartiel, de mediaan (of 2e kwartiel), het derde kwartiel en het maximum van de waargenomen data. Een boxplot is daarmee een weliswaar sterk vereenvoudigde, maar zeer bruikbare, voorstelling van de verdeling van de data. De boxplot is in 1977 geïntroduceerd door de wiskundige John Tukey.
Schema van een boxplot:
mediaan ────────────────┐ ┌──────────────────── 3e kwartiel 1e kwartiel ────────────┐ │ │ ┌─── grootste niet-uitschieter minimum ─┐ │ │ │ │ ┌─── uitschieters │ │ │ │ │ │┌── maximum 1.5 interkwartielafstand 1.5 interkwartielafstand ├──────────────────┤ ├──────────────────┤ ┌─────────────────────────────────────────────────────────────────────────────┐ │ ┌───┬──────┐ │ │ ├──────────┤ │ ├────────────────┤ x x │ │ └───┴──────┘ │ │ │ │ │ │ ──┼─────┼─────┼─────┼─────┼─────┼─────┼─────┼─────┼─────┼─────┼─────┼── │ │ 0 │ └─────────────────────────────────────────────────────────────────────────────┘
Een boxplot kan daarnaast ook uitschieters en het rekenkundig gemiddelde gemiddelde weergeven.
Voor deze dataset (waarden zijn gebaseerd op de figuur en dus slechts bij benadering):
- kleinste waarneming (minimum of min) = .5
- eerste kwartiel (Q1) = 7
- mediaan (tweede kwartiel) (Med) = 8.5
- derde kwartiel (Q3) = 9
- grootste waarneming (maximum of max) = 10
- gemiddelde = 8
- interkwartielafstand, IQR = Q3-Q1 = 2
- de waarde 3.5 is een "zwakke" uitschieter omdat hij tussen 1.5*(IQR) and 3*(IQR) onder Q1 ligt
- de waarde 0.5 is een "extreme" uitschieter omdat hij meer dan 3*(IQR) onder Q1 ligt
- de kleinste waarde die geen uitschieter is 5
- de data zijn scheef naar links (negatief scheef) verdeeld
De horizontale lijnen (de "whiskers") strekken zich uit van de onder/boven grens van de box tot maximaal 1,5 keer de box breedte (de interkwartiel afstand)(IQR). De whiskers moeten eindigen in een waargenomen waarde, dus ze bevatten alle waarden buiten de box die niet meer dat 1,5 de boxbreedte van de onder/boven grens van de box liggen. Twee keer de boxbreedte (of 2*IQR) is de grens tussen zwakke en extreme uitschieters.
Er zijn echter alternatieve implementaties van dit laatste detail van een boxplot. Zo kiezen verschillende softwarepakketten ervoor om de wiskers te verlengen tot het 5e en 95ste percentiel. Deze benaderingen stroken niet met John Tukey's definitie die de nadruk legt op de mediaan. Ervoor kiezen om de lengte vast te leggen op het 5e en 95ste percentiel, brengt met zich mee dat er in iedere dataset met meer dan 10 waarden uitschieters zullen voorkomen, ongeacht de vorm van de verdeling. Daarom wordt meestal standaard John Tukey's methode, zoals hier boven beschreven, gebruikt.
Onderwerpen uit de beschrijvende statistiek |
Gemiddelden: Rekenkundig gemiddelde | Meetkundig gemiddelde | Harmonisch gemiddelde | Kwadratisch gemiddelde | Gewogen gemiddelde | Getrunceerd gemiddelde |