Standardabweichung

aus Wikipedia, der freien Enzyklopädie

Du hast neue Nachrichten auf deiner Diskussionsseite.

Dieser Artikel befasst sich mit der Standardabweichung der Grundgesamtheit (

σ

Für die Standardabweichung der Stichprobe (s) siehe Stichprobenvarianz.
Für die Standardabweichung der Stichproben-Mittelwerte siehe Standardfehler ( $\sigma_{\bar{x}}$ ).

Die Standardabweichung ist in der Stochastik ein Maß für die Streuung der Werte einer Zufallsvariablen um ihren Mittelwert. Sie ist für eine Zufallsvariable $X$ definiert als die positive Quadratwurzel aus deren Varianz und wird als $\sigma_x = \sqrt{\operatorname{Var}(X)}$ notiert. Die Varianz einer Zufallsvariable ist das zentrierte Moment zweiter Ordnung der zugehörigen Verteilung, der Erwartungswert das erste Moment.

Liegt eine Beobachtungsreihe $(x_1, x_2, \dots, x_N)$ der Länge $N$ vor, so sind empirischer Mittelwert und empirische Standardabweichung die zwei wichtigsten Maßzahlen in der Statistik zur Beschreibung der Eigenschaften der Beobachtungsreihe.

Als Abkürzung findet man neben $σ$ in Anwendungen insbesondere für die empirische Standardabweichung oft s oder SD (für standard deviation), sowie m.F. für mittlerer Fehler. In der angewandten Statistik findet man häufig die Kurzschreibweise der Art „Ø 21 ± 4“, was als „Mittelwert 21 und Standardabweichung 4“ zu lesen ist.

Inhaltsverzeichnis

1 Mathematische Definition der Standardabweichung
2 Beispiele
3 Schätzung der Standardabweichung aus einer Stichprobe
- 3.1 Allgemeiner Fall
  - 3.1.1 Beispiel
- 3.2 Normalverteilte Zufallsgrößen
  - 3.2.1 Beispiel
4 Maximum-Likelihood-Schätzung für die Standardabweichung einer Normalverteilung
5 Berechnung für auflaufende Messwerte
6 Siehe auch
7 Weblinks
8 Einzelnachweise

[Bearbeiten] Mathematische Definition der Standardabweichung

Die Standardabweichung einer Zufallsvariablen $X$ ist mathematisch definiert als die Quadratwurzel einer anderen Streuungsmaßzahl, der Varianz:

$\sigma_X := \sqrt{E\left((X-E\left(X\right))^2\right)}$

Die Standardabweichung hat gegenüber der Varianz den Vorteil, dass sie die gleiche Einheit hat wie die ursprünglichen Messwerte.

Wenn die Zahl der Kinder in einem Haushalt untersucht wird, so ist die Einheit der Varianz ein Quadratkind, die Einheit der Standardabweichung aber wieder ein Kind.

[Bearbeiten] Beispiele

[Bearbeiten] Normalverteilung und Faustformeln

Normalverteilte Zufallsgrößen werden durch Angabe von Mittelwert $μ$ und Standardabweichung $σ$ vollständig beschrieben. Für normalverteile Zufallsgrößen gilt, dass 68% der Realisierungen im Intervall $\mu\pm\sigma$ , 95% im Intervall $\mu\pm 2\sigma$ und 99,8% im Intervall $\mu\pm 3\sigma$ liegen. Da in der Praxis viele Zufallsgrößen annähernd normalverteilt sind, werden diese Werte aus der Normalverteilung oft als Faustformel benutzt.

Für normalverteilete Zufallsgrößen lässt sich aus diesen Werten $σ$ schnell schätzen, indem man jenes Sechstel der Werte sucht, die am kleinsten beziehungsweise am größten sind. Die Standardabweichung ist dann die halbe Differenz der beiden Grenzwerte.

Werte außerhalb der zwei- bis dreifachen Standardabweichung werden oft als Ausreißer behandelt. Ausreißer können ein Hinweis auf grobe Fehler der Datenerfassung sein. Es kann den Daten aber auch eine stark schiefe Verteilung zu Grunde liegen. Andererseits muss bei einer Normalverteilung ca. jeder 20. Messwert außerhalb der zweifachen Standardabweichung und ca. jeder 500. Messwert außerhalb der dreifachen Standardabweichung liegen.

[Bearbeiten] Ein Beispiel (mit Schwankungsbreite)

Die Körpergröße des Menschen ist näherungsweise normalverteilt. Bei einer Stichprobe von 1.284 Mädchen und 1.063 Jungen zwischen 14 und 18 Jahren wurde bei den Mädchen eine durchschnittliche Körpergröße von 166,3cm (Standardabweichung 6,39cm) und bei den Jungen eine durchschnittliche Körpergröße von 176,8cm (Standardabweichung 7,46cm) gemessen^[1]

Demnach lässt obige Schwankungsbreite erwarten, dass 68% der Mädchen eine Körpergröße im Bereich 166,3cm ± 6,39cm und 95% im Bereich 166,3cm ± 12,78cm haben,

16 % der Mädchen kleiner als 160cm (und 2,5 % kleiner als 154cm) und
16 % der Mädchen größer als 173cm (und 2,5 % größer als 179cm) sind.

Für die Jungen lässt sich erwarten, dass 68% eine Körpergröße im Bereich 176,8cm ± 7,46cm und 95% im Bereich 176,8cm ± 14,92cm haben,

16 % der Jungen kleiner als 169cm (und 2,5 % kleiner als 162cm) und
16 % der Jungen größer als 184cm (und 2,5 % größer als 192cm) sind.

[Bearbeiten] Diskrete Gleichverteilung, Würfel

Die diskrete Gleichverteilung auf den Zahlen $1,\dots,n$ hat Mittelwert $\frac{n+1}{2}$ und Standardabweichung $\sqrt{\frac{n^2-1}{12}}$ . Das Ergebnis des Wurfes eines fairen Würfels hat also Mittelwert $3,5$ und Standardabweichung ca $1,7$ .

Obige Faustformeln lassen erwarten, dass 68% der Würfelergebnisse im Intervall 3,5±1,7, also zwischen 1,8 und 5,2 sind und ca. 16% kleiner als 1,8 und ca. 16% größer als 5,2 sind. Die tatsächlichen Werte sind die Fälle, eine 1 bzw. 6 zu würfeln, mit jeweils Wahrscheinlichkeit 1/6; die Faustformel für $\mu\pm \sigma$ liefert hier also eine gute Näherung. Die Faustformel für $\mu\pm 2\sigma$ passt hingegen nicht, da nicht 95%, sondern 100% der Würfelergebnisse im Intervall 3,5±3,4 liegen.

[Bearbeiten] Binomialverteilung

Würfelt man 500 Mal mit einem fairen Würfel, so ist die Anzahl der Einser binomialverteilt mit $n = 500$ und $p = 1 / 6$ ; der Erwartungswert beträgt

$\mu=np=\frac{500}{6}\approx 83,3$

und die Standardabweichung

$\sqrt{np(1-p)}= \sqrt{ 500 \cdot {1 \over 6} \cdot {5 \over 6}}\approx 8,3$ ,

obige Faustformeln lassen also erwarten, dass in 68% der Fälle die Anzahl der Einser zwischen 75 und 92 und in 95% zwischen 67 und 100 liegt.

[Bearbeiten] Schätzung der Standardabweichung aus einer Stichprobe

[Bearbeiten] Allgemeiner Fall

Sind die $x i$ unabhängig identisch verteilte Zufallsvariablen, also beispielsweise eine Stichprobe, so wird die Standardabweichung der Grundgesamtheit häufig mit der Formel

$s_X := \sqrt{\frac{1}{N-1} \sum_{i=1}^N{(x_i-\bar{x})^2}}$

geschätzt.

Dabei ist

$s X$ der Schätzer für die Standardabweichung $σ X$ der Grundgesamtheit
$N$ der Stichprobenumfang (Anzahl der Werte bzw. Anzahl der Freiheitsgrade)
$x i$ die Merkmalsausprägungen am $i$ -ten Element der Stichprobe
$\bar{x}= \frac{1}{N} \sum_{i=1}^N{x_i}$ der empirische Mittelwert, also das arithmetische Mittel der Stichprobe.

Diese Formel erklärt sich daraus, dass die Stichprobenvarianz

$s_X^2 := \frac{1}{N-1} \sum_{i=1}^N{(x_i-\bar{x})^2}$

ein erwartungstreuer Schätzer für die Varianz $\sigma_X^2$ der Grundgesamtheit ist. Im Gegensatz dazu ist aber $s X$ kein erwartungstreuer Schätzer für die Standardabweichung. Da die Quadratwurzel eine konkave Funktion ist, folgt aus der Jensenschen Ungleichung

$Es_X = E\sqrt {s^2_X} \leq \sqrt{E\left(s^2_x\right)} = \sigma_X$ .

Dieser Schätzer unterschätzt also in den meisten Fällen die Standardabweichung der Grundgesamtheit.

[Bearbeiten] Beispiel

Wählt man eine der Zahlen $- 1$ oder $+ 1$ durch Wurf einer fairen Münze, also beide mit Wahrscheinlichkeit jeweils $\frac{1}{2}$ , so ist das eine Zufallsgröße mit Mittelwert 0, Varianz $σ 2 = 1$ und Standardabweichung $σ = 1$ .

Berechnet man aus $N = 2$ unabhängigen Würfen die Stichprobenvarianz

$s^2_X=\frac{1}{2-1}\left(\left(x_1-\bar{x}\right)^2+\left(x_2-\bar{x}\right)^2\right)$

wobei $\bar{x}$ den Stichprobenmittelwert

$\bar{x}=\frac{x_1+x_2}{2}$

bezeichnet, so gibt es vier mögliche Versuchsausgänge, die alle jeweils Wahrscheinlichkeit $1 / 4$ haben:

$x 1$	$x 2$	$\bar{x}$	$s_X^2$	$s X$
$- 1$	$- 1$	$- 1$	$0$	$0$
$- 1$	$+ 1$	$0$	$2$	$\sqrt{2}$
$+ 1$	$- 1$	$0$	$2$	$\sqrt{2}$
$+ 1$	$+ 1$	$+ 1$	$0$	$0$

Der Erwartungswert der Stichprobenvarianz beträgt daher

$Es^2_X=\frac{0+2+2+0}{4}=1=\sigma^2$ ,

die Stichprobenvarianz ist also tatsächlich erwartungstreu; der Erwartungswert der Stichprobenstandardabweichung beträgt hingegen

$Es_X=\frac{0+\sqrt{2}+\sqrt{2}+0}{4}=\frac{\sqrt{2}}{2}<1=\sigma$ ,

die Stichprobenstandardabweichung unterschätzt also die Standardabweichung der Grundgesamtheit.

[Bearbeiten] Normalverteilte Zufallsgrößen

Für den Fall normalverteilter Zufallsgrößen lässt sich allerdings ein erwartungstreuer Schätzer angeben:^[2]

$\hat{\sigma} = \sqrt{\frac{N-1}{2}} \ \frac{\Gamma\left(\frac{N-1}{2}\right)} {\Gamma\left(\frac{N}{2}\right)} \ s_X$

Dabei ist

$\hat{\sigma}$ die erwartungstreue Schätzung der Standardabweichung und
$Γ(x)$ die Gammafunktion.

Korrekturfaktoren für die erwartungstreue Schätzung der Standardabweichung
Stichprobenumfang	Korrekturfaktor
2	1,253314
5	1,063846
10	1,028109
15	1,018002

[Bearbeiten] Beispiel

Es wurden bei einer Stichprobe aus einer normalverteilten Zufallsgröße die fünf Werte 3, 4, 5, 6, 7 gemessen. Man soll nun die Schätzung für die Standardabweichung errechnen.

Der Korrekturfaktor ist in diesem Fall

$\sqrt{2} \ \frac{\Gamma\left(2\right)}{\Gamma\left(2{,}5\right)} \approx 1{,}063846$

und die erwartungstreue Schätzung für die Standardabweichung ist damit näherungsweise 1,064.

[Bearbeiten] Maximum-Likelihood-Schätzung für die Standardabweichung einer Normalverteilung

Die eindimensionale Normalverteilung kann unter anderem so dargestellt werden, dass die Standardabweichung ein Parameter der Verteilung ist. Bei dieser Schätzung kann die Eigenschaft der Maximum-Likelihood-Schätzung genutzt werden, dass eine monotone Transformation einer Maximum-Likelihood-Schätzung eine Maximum-Likelihood-Schätzung für die monotone Transformation des geschätzten Parameters ist. Das bedeutet, dass die Quadratwurzel einer Maximum-Likelihood-Schätzung eines Parameters, der nur positiv sein kann, eine Maximum-Likelihood-Schätzung für die Quadratwurzel dieses Parameters ist.

$\hat{\sigma}_{\rm ML} = \sqrt {\frac{1}{n} \sum_{i=1}^n{(X_i-\bar{X})^2}}$

Diese Schätzung ist eine Maximum-Likelihood-Schätzung für einen Parameter der Normalverteilung oder für eine Transformation dieses Parameters. Sie ist nicht auf die Schätzung der Standardabweichung einer beliebigen Verteilung zu übertragen.

Die Maximum-Likelihood-Schätzung für die Standardabweichung einer Poisson-Verteilung ist beispielsweise die Quadratwurzel aus dem arithmetischen Mittel.

Als Maximum-Likelihood-Schätzung für die Standardabweichung aus der Stichprobe {3, 4, 5, 6, 7} erhält man also

$\hat{\sigma}_{\rm ML} = \sqrt {\frac{1}{5} \cdot 10} = \sqrt{2} \approx 1{,}414$

unter der Voraussetzung, dass wir $\bar{X}$ schätzen mit

$\bar{X}=\frac{1}{n}\sum_{i=1}^n{X_i}$

[Bearbeiten] Berechnung für auflaufende Messwerte

In Systemen, die kontinuierlich große Mengen an Messwerten erfassen, ist es oft unpraktisch, alle Messwerte zwischenzuspeichern, um die Standardabweichung zu berechnen.

In diesem Zusammenhang ist es günstiger, eine modifizierte Formel zu verwenden, die den kritischen Term $\sum_{i=1}^N{(x_i-\bar{x})^2}$ umgeht. Dieser kann nicht für jeden Messwert sofort berechnet werden, da der Mittelwert $\bar{x}$ nicht konstant ist.

Durch Anwendung des Verschiebungssatzes und der Definition des Mittelwerts $\bar{x} = \sum_{i=1}^N \frac{x_i}{N}$ gelangt man zur Darstellung

$s_X = \sqrt{\frac{N \cdot \sum_{i=1}^N{x_i{}^2}-\left(\sum_{i=1}^N{x_i}\right)^2}{N \cdot (N-1)}},$

die sich für jeden eintreffenden Messwert sofort aktualisieren lässt, wenn die Summe der Messwerte $\sum_{i=1}^N{x_i}$ sowie die Summe ihrer Quadrate $\sum_{i=1}^N{x_i{}^2}$ mitgeführt und fortlaufend aktualisiert werden.