Boxplot
aus Wikipedia, der freien Enzyklopädie
Der Boxplot (auch Box-Whisker-Plot) ist ein Diagramm, das zur graphischen Darstellung einer Reihe numerischer Daten verwendet wird. Er fasst verschiedene Maße der zentralen Tendenz, Streuung und Schiefe in einem Diagramm zusammen. Alle Werte der Fünf-Punkte-Zusammenfassung, also der Median, die zwei Quartile und die beiden Extremwerte, sind dargestellt.
Inhaltsverzeichnis |
[Bearbeiten] Box
Als „Box“ wird das durch die Quartile bestimmte Rechteck bezeichnet. Sie umfasst 50 % der Daten. Durch die Länge der Box ist der Interquartilsabstand (interquartile range, IQR) abzulesen. Dies ist ein Maß der Streuung, welches durch die Differenz des oberen und unteren Quartils bestimmt ist. Als weiteres Quantil ist der Median in der Box eingezeichnet, welcher durch seine Lage innerhalb der Box einen Eindruck von der Schiefe der den Daten zugrunde liegenden Verteilung vermittelt.
[Bearbeiten] Whisker
Als „Whisker“ werden die horizontalen Linien bezeichnet. In der Literatur finden sich drei verschiedene Definitionen über die Länge der Whisker:
[Bearbeiten] Variante 1
Die Länge der Whisker beträgt maximal das 1,5-fache des Interquartilsabstands (1,5×IQR) und wird immer durch einen Wert aus den Daten bestimmt. Werte, die über dieser Grenze liegen, werden separat in das Diagramm eingetragen und als Ausreißer bezeichnet. Gibt es keine Werte außerhalb der Whisker, so wird die Länge des Whiskers durch den maximalen bzw. minimalen Wert festgelegt.
Häufig werden Ausreißer, die zwischen 1,5×IQR und 3×IQR liegen als „milde“ Ausreißer bezeichnet und Werte, die über 3×IQR liegen als „extreme“ Ausreißer. Diese werden dann auch unterschiedlich im Diagramm gekennzeichnet.
Grundlage ist die Definition von John W. Tukey.
[Bearbeiten] Variante 2
Die Länge der Whisker entspricht der Differenz zwischen dem Minimum und dem unteren Quartil bzw. zwischen dem oberen Quartil und dem Maximum. Ausreißer werden in dieser Variante nicht dargestellt; Minimum und Maximum sind sofort erkennbar.
[Bearbeiten] Variante 3
Berechnung des unteren Whisker als 2,5 % Quantil. Berechnung des oberen als 97,5 % Quantil. Innerhalb der Whiskergrenzen liegen somit 95% aller beobachteten Werte.
Die Behandlung von Ausreißern erfolgt wie in Variante 1.
[Bearbeiten] Abwandlungen
Abwandlungen des Boxplots verwenden weitere Quantile für die Whiskerlänge, was jedoch bei Datenbeständen ab einer gewissen Größe immer zu Ausreißern führt.
Eine weitere Abwandlung besteht darin, das arithmetische Mittel einzutragen.
[Bearbeiten] Literatur
- Tukey, John W.: Exploratory data analysis. Addison-Wesley 1977 ISBN 0-201-07616-0