New Immissions/Updates:
boundless - educate - edutalab - empatico - es-ebooks - es16 - fr16 - fsfiles - hesperian - solidaria - wikipediaforschools
- wikipediaforschoolses - wikipediaforschoolsfr - wikipediaforschoolspt - worldmap -

See also: Liber Liber - Libro Parlato - Liber Musica  - Manuzio -  Liber Liber ISO Files - Alphabetical Order - Multivolume ZIP Complete Archive - PDF Files - OGG Music Files -

PROJECT GUTENBERG HTML: Volume I - Volume II - Volume III - Volume IV - Volume V - Volume VI - Volume VII - Volume VIII - Volume IX

Ascolta ""Volevo solo fare un audiolibro"" su Spreaker.
CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
Diskussion:Standardabweichung - Wikipedia

Diskussion:Standardabweichung

aus Wikipedia, der freien Enzyklopädie

Inhaltsverzeichnis

[Bearbeiten] Der Artikel enthält grobe Fehler

[Bearbeiten] Das Problem 1/n oder 1/(n-1)

Es gibt zwei Schätzer für die Standardabweichung - einer mit 1/n, der andere mit 1/(n-1).

Diese unterscheiden sich je nachdem, ob man

a) den Erwartungswert der Verteilung exakt kennt, oder

b) einen Schätzwert für den Erwartungswert verwendet (arithmetischer Mittelwert)


Für a) verwendet man die Formel 1/n zur Schätzung der Standardabweichung.

Für b) verwendet man die Formel 1/(n-1) zur Schätzung der Standardabweichung.

Soweit die Aussage für große n. Man sollte wissen, daß eigentlich eine Student-t-Verteilung vorliegt. Praktisch bedeutet das, daß zur Konfidenzberechnung (1-sigma-Grenze, 2-sigma-Grenze) Korrekturfaktoren berücksichtigt werden müssen. Das weiß ich sicher für den Fall, daß sowohl Erwartungswert als auch Standardabweichung geschätzt werden müssen.

=== Was sonst noch fehlt ===Eventuell sollte noch ein Hinweis auf die Ergodizität der Fehlerquelle herein. Ergodizität der Fehlerquelle bedeutet meiner Erinnerung nach, daß Scharmittelwert und zeitlicher Mittelwert des Fehlers übereinstimmen.

[Bearbeiten] Grobe Fehler

Ein grober Fehler ist es, irgendeine der Formeln mit dem Titel "Standardabweichung" oder gar "Definition der Standardabweichung" zu versehen, die Formeln, die darauf folgen, sind Schätzwerte.


[Bearbeiten] 1/n oder 1/(n-1)


Nachtrag zum Nachtrag: Man kann's aber auch leicht ausrechnen, indem man von 1/n ausgeht als Abweichung der Gesamtheit, mit (n-1)/n erweitert und einen einzelnen Fehler aus der Summe herauszieht. Anschließend muss man nur noch nach der Einzelabweichung auflösen und erhält somit die Abweichung der Einzelmessung entsprechend mit Faktor 1/(n-1). Durch eine Mittelung über alle n Messungen erhält man direkt folgend dann auch noch die mittlere Abweichung der Einzelmessung vom Mittelwert entsprechend dem Artikel.

(Nachtrag zur Diskussion: siehe Artikel bzw:
1/n, wenn Gesamtheit vorliegt, 1/(n-1), wenn nur eine Teilmenge der Gesamtheit (Stichprobe) vorliegt. Grund: Verlust eines Freiheitsgrades, wenn der Mittelwert abgeschätzt werden muss. Anton 12:21, 13. Feb 2005 (CET))

---

Bei der Berechnung der Standardabweichung gibt es zwei Methoden, einmal wird mit 1/n multipliziert und an anderer Stelle wird 1/(n-1) verwendet. Wann ist welche Form anzuwenden? Und was ist der Unterschied? Mfg rho.

Falls n groß ist , macht es kaum einen Unterschied .

Die (n-1)-Fassung ist die erwartungstreue Form für die Schätzung der Varianz. Die verwendet man bei Schätzen und Testen. Würde man hier n verwenden, würde die Varianz systematisch unterschätzt. Allerdings stimmt es, dass das bei Standardabweichung nicht gilt. Wenn man nur Daten beschreibt, kann man die empirische Varianz mit n nehmen. --Philipendula 10:23, 15. Dez 2004 (CET)

Ich möchte die Diskussion nicht verkomplizieren, meines Erachtens ist die Version der Standardabweichung 1/(n-1) die Schätzung aus einer Stichprobe heraus, ich befinde mich hier im Bereich des des sogenannten Vertrauensbereichs.

Anm.: Bei Excel ist dies die Funktion "STABW" Im anderen Fall, der 1/n-Version kenne ich die Grundgesamtheit und betrachte den sogenanten Zufallsstreubereich.

Anm.: Bei Excel ist dies die Funktion "STABN"

Die Erklärung warum ich für die "scheinbar" gleiche Größe einmal n-1 und einmal n benutze erkläre ich mir damit, daß ich Differenzen bilde. Bei dieser Differenzbildung ist ja jedesmal auch der jeweilige Meßwertanteil im Mittelwert vorhanden, d. h. ich habe auch nur n-1 unabhängige Meßwerte die zu dieser Mittelwertbildung geführt haben. (Diese n-1 unabhängigen Meßwerte sind bei weiteren Analysen die sogenannten Freihaitsgrade, die sich insbesondere im F-Test weiter reduzieren können.) Beim Übergang von n ins Unendliche gibt es auch keinen Unterschied mehr zwischen n-1 und n, also gilt bei Wissen der Grundgesamtheit eben n.

Beispiel: Würfel

Bin ich mir im klaren darüber, das der Würfel nur die 6 Zustände hat und berechene die Standardabweichung die alle Würfelergbenisse nach unendlich mal würfeln ergeben, dann müßten die Zustände beim idealen Würfel auch ideal gleichverteilt sein, erhalte dann etwa s=1,7 und kann mit 1/n rechnen.

Wenn ich nur "Stichprobenwerte" sehe, aber nicht weiß, daß es ein Würfel ist, nehme ich die Formel mit n-1, liege damit bei den Streuungen höher, aber nähere mich bei unendlichen Würfen an die 1,7.

Als Praxisrelevanz kann man mit diesem Wissen z. B. Würfel überprüfen, ob sie auch wirklich gleichverteilt sind oder mit einem gewissen Vertrauensniveau oder Irrtumswahrscheinlichkeit die Hypothese verwerfen, daß ein Würfel wirklich zufällige Ergebniise gibt. Ebenso kann man mit solchen Systemen/Modellen auch beliebige Prozesse analysieren.

Bei einer "reinen"Datenbeschreibung 1/n-1 zu nehmen ist meines Erachtens mathematisch nur zulässig, wenn es sich um eben alle Daten handelt, d. h. auch die Grundgesamtheit vollständig abbildet.

Es ist vielleicht nicht so mathematisch schön ausgedrückt, aber den Anspruch habe ich nicht. --Kokomiko 11:03, 16. Dez 2004 (CET)

Du hast natürlich recht, die Grundgesamtheit mitreinzubringen. Ich bin bei der Frage automatisch von der Stichprobe ausgegangen, weil sich mir sonst die Frage bezüg. 1/n und 1/(n-1) gar nicht gestellt hätte.
Ob man bei einer reinen Datenbeschreibung, also ohne den Anspruch, die Varianz schätzen zu wollen, n oder n-1 verwendet, ist vermutlich wurscht, denn es sollen ja keine Rückschlüsse auf die Grundgesamtheit getroffen werden.
--Philipendula 11:50, 16. Dez 2004 (CET)

Ich habe eben immer nur die Fragestellungen die GG zu schätzen, bei grossen Messungen = "Stichproben" ist es praktisch egal. Wir haben bei der DGQ (Deutsche Gesellschaft für Qualität) bzw. den Qualitätsdiskussionen eben immer diese Unterscheidung. Ich denke im Rahmen einer Enzyklopädie haben wir eine genügend präzise Darstellung :-).--Kokomiko 12:54, 17. Dez 2004 (CET)

Ja, im Allgemeinen will man Rückschlüsse auf die Grundgesamtheit ziehen, aber eben nicht immer. Ich persönlich verwende immer n-1 in der Vorlesung, da kann ich mir die Verrenkungen ersparen. Von Hand rechnet das eh heutzutage niemand mehr und dem Computer ist es egal. --Philipendula 14:22, 17. Dez 2004 (CET)
Bitte entschuldigt, wenn ich nach dieser Diskussion immer noch nicht verstanden habe, wie das 1/(n-1) in die Gleichung kommt. Kann man anhand eines einleuchtenden Beispiels vielleicht die 1/(n-1)-Verwendung deutlich machen? Danke, --Abdull 11:09, 13. Jul 2005 (CEST)
(n-1) hat einen ganz einfachen Grund. Stell Dir vor, du hat nur eine Messreihe mit lediglich einem Wert. Dann würde der Wert gleich dem Mittelwert sein und die Standardabweichung wäre 0. Das macht aber keinen Sinn (Man würfelt einmal und behauptet der Würfel zeigt immer das selbe an). Besser wäre es einen unendlich großen Fehler anzunehen, da man keine Aussagen über den Fehler machen kann. Man muss mindestens zwei mal messen, um eine Aussage über den Fehler zu bekommen. Nun gibt es den Fall (siehe Ausgleichsrechnung) dass man nicht nur den Mittelwert einer Größe bestimmen möchte, sondern eine Gerade beschreiben möchte. Diese ist gegeben durch zwei Werte (Steigung und Achsenabschnitt). Bei solchen Rechnungen würde man erst ab 3 Messwerten ein echtes Mass für den Fehler bekommen, denn durch zwei Messwerte kann man immer fehlerfrei eine Gerade legen. Bei diesen Rechnungen tritt folgerichtig 1/(n-2) als Vorfaktor auf. Fazit: das (n-1) ist die Anzahl der Messwerte (also hier = n) MINUS Anzahl der Informationen die man erhalten möchte (also hier = 1; den Mittelwert). Boehm 17:18, 14. Jul 2005 (CEST)
Ich bin von der Erklärung von Boehm überzeugt, aber gleichzeitig verwirrt: wenn das von ihm genannte Fazit gilt, dann ist "1/n" immer falsch gewesen. Aber auf vielen Lehrbüchen und Formelsammlungen steht "1/n", sind alle auch falsch? deathyoghurt
Es gibt noch die deskriptive Varianz, bei der auf Rückschlüsse auf die Grundgesamtheit verzichtet wird. Hier ist 1/n gebräuchlich. Und wenn man den Erwartungswert der Grundgesamtheit kennt, ist auch 1/n der richtige Faktor. Allerdings ist das selten der Fall. --Philipendula 17:29, 12. Jan 2006 (CET)

Im englischen Artikel en:Standard_deviation ist es besser erläutert. Es gibt jedenfalls keinen allgemein "richtigen" Schätzwert. 1/n ist bei Normalverteilung der MLE , 1/(n-1) ist unbiased (genauer: das Quadrat ist ein unverzerrter Schätzer für die Varianz), je nach Anwendung kann der eine oder der andere zweckmäßig sein. Meiner Meinung nach sollten beide Werte angegeben werden (NPOV), der englische Artikel zeigt, wie es aussehen könnte. --NeoUrfahraner 07:18, 6. Mär 2006 (CET)

[Bearbeiten]  ??? standardabweichung / rms ???

dass die standardabweichung gleichbedeutend mit rms ist, wie am anfang des artikels dargestellt, halte ich fuer ein geruecht! vgl. z.b.: http://mathworld.wolfram.com/Root-Mean-Square.html

http://mathworld.wolfram.com/StandardDeviation.html

zitat: "Physical scientists often use the term root-mean-square as a synonym for standard deviation when they refer to the square root of the mean squared deviation of a quantity from a given baseline." --JN

Der Meinung stimme ich voll zu, da der Verweis von rms es ja auch zeigt, daß damit nicht die standardabweichung oder standard deviation gemeint ist. Wir sollten den Artikel im oberen Bereich ändern, ich bin weg bin zum 5.1.05 Tschüß FF --Kokomiko 16:22, 23. Dez 2004 (CET)


wie bekommt man einen Querstrich ueber einen Buchstaben? Einige einzelne (A..) sind als Zeichen vorgesehen, aber...aVe

AB
<div style="text-decoration:overline">AB</div> --Hinrich 13:35, 15. Sep 2004 (CEST)

Ich hätte das Beispiel so gelassen, wie es ist: Schritt für Schritt eine Sache zu erklären. Man sollte immer an den Leser denken. Jeder der sich mit der Standardabweichung nicht auskennt, wird erst einmal von den Formeln erschlagen. Dann hat er Probleme mit den griechischen Bezeichnungen und den Buchstaben die alle X heißen, aber etwas ganz anderes bedeuten, wenn sie zb eine Querbalken darüber haben. Einfache, verständliche Erklärungen sind angesagt. MfG rho

Ich habe sogar ein schlechtes Gefühl dabei, überhaupt ein Rechenbeispiel anzugeben. Wer sind denn die Leser eines Artikels über die Standardabweichung? Ein vernünftiger Ansatz wäre in meinen Augen, die ganze Rechnerei in ein getrenntes Kochbuch auszulagern und im eigentlichen Artikel zuerst einmal anzugeben, dass die Summe der quadrierten Abweichungen vom arithmetischen Mittel 10 beträgt. Das wesentliche an der Standardabweichung ist in meinen Augen nicht, wie die mechanische Berechnung vonstatten geht. Das wesentliche an einem Artikel über die Standardabweichung ist meiner Meinung nach, dass es verschiedene Größen gibt, die aus verschiedenen Gründen berechnet werden, die aber alle Standardabweichung genannt werden. -- kw

(Konstruktive) Anregung:

Wäre es okay, wenn ich im Laufe der Zeit einige (imho) Interpunktionsnachlässigkeiten korrigiere (oder zumindest zur Diskussion stellte)?

Der Inhalt des Artikels liesse sich (nach meinem persönlichen Empfinden) schneller und prägnanter erfassen, wenn das lernwillige Bewußtsein nicht so stark mit der logischen Zuordnung von Haupt- und Nebensätzen beschäftigt wäre.

jaabdaaj 03:33, 2. Apr 2003 (CEST)

Hi jaabdaaj, willkommen in der Wikipedia! Bei uns heißt es erst schießen, dann Fragen stellen ;-) - Also ruhig drauflos editieren, wenn jemand Deine Änderungen nicht gefallen wird er oder sie sich schon melden. Insbesondere Verbesserungen der Interpunktion bedürfen wohl kaum einer vorausgehenden Diskussion. Also nur zu, und viel Spaß ... --Kurt Jansson 05:31, 2. Apr 2003 (CEST)

Ich habe mir die Ursprungsfassung angeschaut. Da steht ganz einfach drin, was Standardabweichung ist. Jetzt scheint es mir deutlich komplizierter. Vielleicht hilft ein Hinweis zu Statistischen Momenten. RaiNa 17:04, 30. Jan 2004 (CET)


verschoben aus dem zum löschenden Artikel ZuStandardabweichung:

"zu dem Beitrag Standardabweichung:

Ich denke, man sollte wirklich ganz einfach erklären, dass es eine sehr einfache Verteilung gibt, die sich ergibt, wenn man die Münze wirft und dass diese Verteilung eine Fläche, einen Schwerpunkt und ein Standardabweichung hat

Wenn ich eine Münze werfe ist das Ergebnis Bernoulli-verteilt. Um etwas so einfaches wie eine Maßzahl für die Streuung einzuführen würde ich ungern den zentralen Grenzwertsatz herleiten oder veranschaulichen müssen.
Die Verteilung bei vielen Münzwürfen ist eine Binomialverteilung, und die Konvergenz in Verteilung der diskreten Binomialverteilung gegen die stetige Normalverteilung ist ebenfalls etwas, was ich nicht unbedingt mit einer einfachen Streuungsmaßzahl in Verbindung bringen würde.
Wenn die Streuungsmaßzahlen gegenübergestellt werden, dann ist die Logik
  • der Spannweite und
  • der durchschnittlichen absoluten Abweichung von dem Wert, von dem die durchschnittliche absolute Abweichung am kleinsten ist
etwas, was ganz gut hinführt zur durchschnittlichen quadratischen Abweichung von dem Wert, für den die durchschnittliche quadradische Abweichung am kleinsten ist. Für den Übergang von der Varianz zur Standardabweichung als Streuungsmaßzahl finde ich das Argument mit den Quadratkindern (oder zu gegebener Zeit den Quadradmaßkrügen) recht einsichtig. Eine Streuungsmaßzahl, die in der Einheit des betrachteten Untersuchungsmerkmals gemessen wird, ist einfach verlockender.

und dass man einfach eine beliebige Verteilung dahingehend überprüft, ob sie eine Gaußverteilung ist oder ihr zumindest ähnlich ist.

Warum tut man das? Vor allem, warum tut man das, wenn man eine Maßzahl für die Streuung eines Untersuchungsmerkmals sucht?

Die meisten Leute haben ja schon Probleme damit, dass in einer Klasse die mittlere Note 3 ist, aber keine mittleren Schüler existieren, sondern nur die Einserschüler und die Fünferkandidaten.

Also sollte der Aufbau meiner Meinung nach so sein:

Standardabweichung: siehe Gaußverteilung

und danach folgende Beispiele, Erläuterungen, ...


Im Artikel Gaußverteilung steht dann:

Gaußverteilung als Grenzfall der binären Verteilung,
hat Kennwerte Fläche -->Link
              Schwerpunkt --> Link
              Standardabweichung --
              ....
Dass die Fläche ein Kennwert der Gaußverteilung ist und wo bei der Bernoulli-Verteilung für Nicht-Maßtheoretiker anschaulich eine Fläche vorkommt ist für mich nicht einsichtig.


Und dann ein paar schöne Geschichten zur Gaußverteilung. Da gibt es unendlich viele, da meiner Meinung nach nichts wichtiger ist.

Diese Meinung teile ich nicht, aber niemand hindert Dich daran, die Normalverteiung mit schönen Geschichten anzureichern. Auch der Hinweis, daß eine Normalverteilung durch die Angabe von Erwartungswert und Standardabweichung vollständig beschrieben ist, ist sicher nett.

Ich würde schon ganz gerne an einem solchen Projekt mitmachen. RaiNa 12:51, 20. Feb 2004 (CET)"

--AndreasE


Bei meiner aktuellen Browser-Einstellung (Mozilla, bestimmte Breite, bestimmter Font, ...) bekomme ich folgenden Umbruch:

"Die eindimensionale Normalverteilung kann unter anderem so dargestellt werden, dass die

Standardabweichung ein Parameter der Verteilung ist. Bei dieser Schätzung kann die Eigenschaft der

Maximum-Likelihood-Schätzung genutzt werden, dass eine monotone Transformation einer Maximum-Likelihood-Schätzung eine

Maximum-Likelihood-Schätzung für die monotone Transformation des geschätzten Parameters ist. Das bedeutet, dass die Quadratwurzel einer

Maximum-Likelihood-Schätzung eines Parameters, der nur positiv sein kann, eine

Maximum-Likelihood-Schätzung für die Quadratwurzel dieses Parameters ist."

Das sieht doch sehr hässlich aus. Gibt es eine geeignete Abkürzung für "Maximum-Likelihood-Schätzung"?


Im allgemeinen wird "ML-Schätzung" oder "MLS" verwandt.

Der Troll 18:08, 10. Aug 2005 (CEST)

[Bearbeiten] Zum Schwankungsbreiten-Beispiel

Ich finde das Beispiel nicht sonderlich gelungen. Zuerst einmal bekommt man den Begriff Schwankungsbreite ohne Erläuterung zugeworfen, dann werden die Variablen MW und s nicht deklariert, und schließlich kann man nicht erkennen, was denn im Beispiel nun die Standardabweichung ist. Hoffentlich kann das jemand verbessern... --Head Diskussion 11:55, 28. Jul 2004 (CEST)

[Bearbeiten] Zum Abschnitt 'Erwartungstreue Schätzung der Standardabweichung aus einer Stichprobe'

Bezeichnungen wie oben ist leicht dämlich, weil oben weder ein sigma-Dach noch ein Gamma auftaucht. Ein bisschen Text, worum es überhaupt geht, wäre auch nicht schlecht. --Head Diskussion 12:00, 28. Jul 2004 (CEST)

[Bearbeiten] das i-te Element

Vielleicht kann jemand in dem Abschnitt "Berechnung" noch erklären, was genau unter dem i-ten Element zu verstehen ist. Ansonsten kann ich die Gleichung nicht anwenden, da nicht klar ist, welcher Wert hierfür einzusetzten ist.

Wenn beispielsweise die Grundgesamtheit eine Urne mit 5 Kugeln ist, die jeweils mit einer Zahl beschriftet sind, dann ist beispielsweise die Zahl auf der 2. Kugel das zweite Element. --Philipendula 15:12, 30. Dez 2004 (CET)

[Bearbeiten] Änderung Standardabweichung

RaiNa schreibt: Hallo Anton, ich bin über die Änderung bei Standardabweichung nicht sehr glücklich. Den gelöschten Satz so hinzukriegen war schon recht schwierig. Aber nun ist viel verloren gegangen. Bitte nochmal genau nachlesen! Zum Beispiel kann eine Zufallsvariable doch keinen Fehler haben. Sie ist eben zufällig. So was müsste man korrigieren. Also, bitte noch mal in Dich gehen! RaiNa 18:59, 12. Feb 2005 (CET)

Ich habe kein Problem, die Änderungen zurück zu nehmen. Der ganze Artikel müsste dringend überarbeitet werden, und es nur bei der Einleitung zu belassen, ist wohl nicht ausreichend. Nebenbei: ich hatte geschrieben: Die Standardabweichung ist ein Maß für die Streuung von Zufallswerten um einen Mittelwert. und Die Standardabweichung macht eine Aussage über die Meßgenauigkeit. Sind die Messungen normalverteilt, gibt die Standardabweichung die Fehlerbreite an, in der 68% aller Messergebnisse liegen. Was genau mit Fehlern von Zufallsvariablen gemeint sein soll, weiß ich auch nicht. Anton 00:49, 13. Feb 2005 (CET)

[Bearbeiten] Frage

Hallo

ich habe folgendes problem: ich habe einen Wert gegeben x für den gilt: "x shall correspond to the maximum value anticipated" das heißt x gibt nicht die maximale häufigkeit sondern den maximalen wert der funktion an

die funktion ist normalverteilt, also sollte sie meiner meinung nach gar keinen maximalen wert haben!? aber vermutlich geht man davon aus, dass die häufigkeit irgendwann gegen null geht und das soll dann der maximalwert sein

ich möchte aber eigentlich die standardabweichung wissen gibt es einen zusammenhang zwischen maximum und standardabweichung?

ich hätte jetzt gesagt, dass das maximum ja ungefähr 2*standarddev sein muss (etwas größer, aber 2*standarddev entspricht ja ungefähr 95% der werte) und dass dann der halbe wert des maximums der standardabweichung entspricht was haltet ihr davon?

danke für die hilfe!

Hallo Bar, die Normalverteilung gibt Auskunft über Häufigkeitkeiten, während dein Zitat von einer Meßkurve zu sprechen scheint. Beispiel Messen des Durchmessers von Äpfeln; x-Achse = Nummer (nicht Anzahl!) der Messung, y-Achse= Meßwert. Werden nur endlich viele Äpfel gemessen, gibt es auch einen größten Apfel. Dies sagt aber nichts darüber aus, ob es auch viele große Äpfel gibt.
Anton 21:37, 3. Jun 2005 (CEST)
PS: Fügst du die vier Zeichen ~~~~ an deine Kommentare an, ersetzt das System sie automatisch mit deinem Namen und Datum.
Hallo, gemeint könnte auch der Erwartungswert der Maxima der Stichproben sein. Wenn Du Stichproben â 10 Stück ziehst und jeweils die Maxima der Stichproben erfasst, sind diese nicht mehr normalverteilt. Deren Verteilung resultiert aus der Überlegung, dass die Wahrscheinlichkeit an jedem Punkt gleich der Wahrscheinlichkeit ist, dass keiner der gezogenen Werte den Punkt übersteigt
f_X(x)=n\cdot nv(x) \cdot NV(x)^{n-1}
Wobei nv(x) die Dichtefunktion und NV(x) die Verteilungsfunktion der Standardnormalverteilung ist.
Der Troll 4. Jul 2005 15:34 (CEST)

[Bearbeiten] Schnellere Berechnungs-Formel?

Wäre es nicht nett, die "schnelle" Berechnung direkt auf Summe und Summe d. Quadrate zu erwähnen? In der englischen Version stehen die auch drin.

Du meinst vermutlich den Verschiebungssatz. Der gehört eigentlich zu Varianz, aber da ist die Stichprobenvarianz nicht drin. Überhaupt finde ich die Trennung von Varianz und Standardabweichung nicht so glücklich. --Philipendula 11:25, 29. Jun 2005 (CEST)
In http://en.wikipedia.org/wiki/Standard_deviation heißt die einfach "shortcut calculation". Ich bin kein Mathematiker, deswegen würde ich's auch nicht selbst ändern wollen, aber wenn ich als Programmierer "Standardabweichung" nachschlage, dann meistens weil ich die Formel vergessen hab...
Außerdem ist der Verschiebungssatz nicht automatisch die schnellste Lösung. Wenn die Durchschnitte glatte Zahlen sind, ist die Berechnung mit den zentrierten Werten schneller und eleganter, weil die Zahlen kleiner werden. UNd mit dem Verschiebungssatz rechnet man ohnehin nur per Hand und nicht mit dem Computer. --Philipendula 4. Jul 2005 15:40 (CEST)

Ich habe jetzt mal die "running sums" Variante reingeschrieben. Die ist in manchen Umgebungen (s. Beitrag) echt vorteilhaft. Zu N2 vs. N\times (N-1): Wenn man die Umformung per Hand macht gibt es N\times (N-1). (Ein Professor von mir pflegte zu sagen: "Wenn das einen Unterschied macht, hat man sowieso ein zu kleines N...").

[Bearbeiten] Tutoriallink

Habe den Link

entfernt, die Seite wird momentan überarbeitet. Vielleicht findet jemand die neue Adresse wenn die Seite überarbeitet ist.

Link: http://barolo.ipc.uni-tuebingen.de/

[Bearbeiten] Dank

mein Dank gilt allen, die diese Seite gemacht haben!!! War 'ne riesige Hilfe für einen "outsider"

Val

[Bearbeiten] ? oder auf Grund des Speicherbedarfs auch unmöglich ?

"In Systemen, die kontinuierlich große Mengen an Messwerten erfassen, ist es oft unpraktisch ? oder auf Grund des Speicherbedarfs auch unmöglich ? alle Messwerte zwischenzuspeichern, um die Standardabweichung zu berechnen." - Das Fettgedruckte hab ich rausgenommen, da es definitiv keine Formulierung für den Artikel ist, sondern für die Diskussionsseite. Peritus 23:24, 16. Nov 2005 (CET)

[Bearbeiten] Für Doofe?

Es wäre toll, wenn auf der Seite für Doofe wie mich kurz stünde, was Werte wie "0,8" oder "1,2" als Standardabweichung ungefähr bedeuten.

[Bearbeiten] Für "Doofe" (2)

dem kann ich mich nur anschließen. Ohne ein Mathe-Diplom ist dieser Artikel wirklich etwas schwierig zu begreifen!!! Wenn sich jemand erbarmen könnte, vielleicht irgendwo oben oder unten einfach mal ganz kurz das Wesentliche auf den Punkt zu bringen, das würde mit Sicherheit nicht nur mir, sondern auch sehr vielen anderen weiterhelfen.

MfG Stefan.

Das lässt sich so einfach nicht Beantworten. Die Standardabweichung ist ja ein Mass für die Streuung deiner Beobachtungen. Eine Streuung von 2 kann klein oder groß sein. Je nach dem, wo sich dein arithmetisches Mitell befindet.

[Bearbeiten] Also hier stimmt was nicht!!!

"Möchte man die Varianz ohne vorherige Mittelwertberechnung aus der Stichprobe errechnen, ist folgende Formel nützlich:"

s = \sqrt{\frac{N \sum_{i=1}^N{x_i^2} - (\sum_{i=1}^N{x_i}) ^2}{N (N-1)} }


und weiter unten dann

"Durch Anwendung der 2. binomischen Formel und der Definition des Mittelwerts \bar{x} = \sum_{i=1}^N \frac{x_i}{N} gelangt man zur Darstellung"

\sigma_x = \sqrt{\frac{N \cdot \sum_{i=1}^N{x_i{}^2}-\left(\sum_{i=1}^N{x_i}\right)^2}{N \cdot (N-1)}},

hier steht offensichtlich zweimal dasselbe, aber zugleich soll es sich um zwei verschiedene dinge handeln. wie kann das sein?

gruß unbekannt

Nein, es soll sich beides Mal um das selbe handeln, allerdings stand ein Mal irrtümlicherweise Varianz statt Standardabweichung und es wurde die Notation gewechselt. Ich habe es korrigiert; vielleicht wird es jetzt klarer. --NeoUrfahraner 09:51, 3. Apr 2006 (CEST)

[Bearbeiten] Mathematische Definition

Wieso wird die standardabweichung als \sigma_x := \sqrt{\frac{1}{N-1} \sum_{i=1}^N{(x_i-\bar{x})^2}} definiert und nicht als \sigma_x := \sqrt{\frac{1}{N} \sum_{i=1}^N{(x_i-\bar{x})^2}}? Wofür das "-1" im Nenner? Erscheint mir nicht schlüssig, Stern 23:28, 22. Apr 2006 (CEST)

Das N-1 statt dem N erscheint für die Schätzung der Standardabweichung, falls der Erwartungswert durch den Mittelwert geschätzt werden muß.


[Bearbeiten] Verständnisproblem

Bitte nicht mißverstehen, aber ich verstehe aus dem Artikel so gut wie nichts! Schlägt man unter dem Begriff "Standardabweichung" nach so wird diese durch die Varianz erklärt; schlägt man unter den Begriff "Varianz" nach, so wird die Varianz mit der Standardabweichung erklärt... also dreht man sich im Kreis:( Vergleichbare Aussage wäre: Anisotrop ist der Gegensatz zu Isotrop. Isotrop ist der Gegensatz von Anisotrop

Also ich hoffe ich erzähle jetzt nichts Falsches (ist schon so 4 bis 5 Jahre her, dass ich mich damit rumschlagen musste), aber die Standardabweichung ist doch nur die Wurzel aus der Varianz, d.h. die Varianz ist die quadrierte Standardabweichung. --NickKnatterton - Kommentar? 21:54, 4. Mai 2006 (CEST)

Ja, vom Prinzip schon ,aber wer soll das sich Bildlich vorstellen? Es wäre schon eine große Hilfe, wenn man zum Anfang erwähnen würde, daß die Varianz ein Maß für die Streuung um den Mittelwert ist und die Standardabweichung die durchnittliche mittlere Abweichung der Zufallsvariablen ist. Sehr schön könnte man es z.B. mit einen praktischen Versuch erklären um es verständlich zu machen oder mit einer Zeichnung verdeutlichen usw... da gibt es sicherlich gute Beispiele. Man könnte vielleicht ein Beispiel bringen, in dem man versucht den zurückgelegten Weg eines Teilchens zu ermitteln und an sich feststellen würde daß die Werte jedoch immer etwas unterschiedlich ausfallen und darüber die Standardabweichung erklären und dann die Varianz. Also eine kurze Einführung mit einfachen verständlichen Wörtern für alle und dann kann man es sehr mathematisch machen. Ich denke, daß dann die Erwartungen von jedem erfüllt werden, da der Artikel dann unterschiedliche Schwierigkeitsgrade hätte.

[Bearbeiten] Nicht Doof

Für die Doofen, die wissen wollen, was sich hinter den Zahlen verbirgt: Ist die Standardabweichung (der Wert, der nach all den schlauen Messungen herauskommt) gering, also je näher an Null, desto mehr häufen sich die Messungen um den Mittelwert = homogene Gruppe, wenig Abweichungen. Ist die Standardabweichung hoch, sind die Werte weiter verstreut = heterogene Gruppe, starke Abweichung.

Dies kann man auch etwas anders ausdrücken: Sind die Zufallswerte normalverteilt (für die Doofen: einfach ignorieren, aber sonst sind die Mathematiker beleidigt) so sind etwa 68 Prozent der Werte in dem Bereich Mittelwert +/- Standardabweichung. Etwa 95 Prozent sind im Bereich Mittelwert +/- 2*Standardabweichung. Und etwa 99.7 Prozent der Werte im Bereich Mittelwert +/- 3*Standardabweichung.

Ist also der Mittelwert 42 und die Standardabweichung 5, so sind etwa 95 Prozent der Werte zwischen 32 und 52.

Zur Diskussion: Diese 68-95-99.7 Regel ist auch in der englischen Wikipedia. Das könnte man doch auch in den deutschen Artikel einbauen. --Torsten, 16:13, 6. Juli 2006 (CEST)

[Bearbeiten] Standardabweichung = RMS?

Die Standardabweichung heißt auch mittlerer Fehler oder RMS error (von engl. root mean square). Kann mir jemand bitte erklären, warum bei der englischen Wiki[| Wiki] eine andere Definitionsformel für RMS steht? Bei uns steht: :\sigma_x := \sqrt{\frac{1}{N-1} \sum_{i=1}^N{(x_i-\bar{x})^2}}

und bei den Leuten von en: :x_{\mathrm{rms}} =  \sqrt {{1 \over N} \sum_{i=1}^{N} x_i^2} = \sqrt {{x_1^2 + x_2^2 + \cdots + x_N^2} \over N}

Für große N gehen sie ineinander über. Aber ich bin verwirrt, wegen der unterschiedlichen Formeln. --Stimpson 14:54, 21. Jul 2006 (CEST)

Geht es um N vs. N-1? Siehe dazu auch meine Meinung weiter oben: Im englischen Artikel en:Standard_deviation ist es besser erläutert. Es gibt jedenfalls keinen allgemein "richtigen" Schätzwert. 1/n ist bei Normalverteilung der MLE , 1/(n-1) ist unbiased (genauer: das Quadrat ist ein unverzerrter Schätzer für die Varianz), je nach Anwendung kann der eine oder der andere zweckmäßig sein. Meiner Meinung nach sollten beide Werte angegeben werden (NPOV), der englische Artikel zeigt, wie es aussehen könnte. --NeoUrfahraner 10:35, 27. Jul 2006 (CEST)
Mir geht es auch um die Unterschiede in den Termen der Summe. Einmal wird der Mittelwert abgezogen und das andere mal nicht. --Stimpson 12:53, 21. Aug 2006 (CEST)
Das steht, wie so manches andere auch, ein wenig unklar im Artikel. Gemeint ist wohl The standard deviation is the root mean square (RMS) deviation of the values from their arithmetic mean, vgl. en:Standard deviation. --NeoUrfahraner 15:27, 21. Aug 2006 (CEST)

[Bearbeiten] überarbeiten

Ich habe jetzt den Überarbeiten Baustein heineingesetzt. Verdeutlicht werden sollte meiner Meinung nach die Sache mit N vs. N-1 (siehe z.B. den englischen Artikel fuer die statistischen Eigenschaften) sowie die RMS-Frage (siehe vorigen Abschnitt). --NeoUrfahraner 15:33, 21. Aug 2006 (CEST)

Hallo NeoUrfahraner, trafen wir uns nicht einmal beim Bogenmaß? Dann werde ich diesen Artikel wohl auch aus meiner Beobachtung herausnehmen. Zu deiner Frage: siehe meinen Kommentar oben: (Nachtrag zur Diskussion: siehe Artikel bzw: 1/n, wenn Gesamtheit vorliegt, 1/(n-1), wenn nur eine Teilmenge der Gesamtheit (Stichprobe) vorliegt. Grund: Verlust eines Freiheitsgrades, wenn der Mittelwert abgeschätzt werden muss. Anton 12:21, 13. Feb 2005 (CET)). Gruß, Anton 16:23, 21. Aug 2006 (CEST)
So einfach ist es leider nicht, siehe en:Standard deviation. Bei der Varianz stimmt es, da liefert das Ersetzen von n durch n-1 einen erwartungstreuen Schaetzer. Die Standardabweichung ist aber die Wurzel der Varianz, und die Wurzel eines erwartungstreuen Schaetzers fuer die Varianz ist eben kein erwartungstreuer Schaetzer fuer die Wurzel der Varianz. Dafuer ist die Variante mit 1/n der MLE im Fall normalverteilter Zufallsgroeßen. Mit anderen Worten, werder die Variante mit n noch die Variante mit n-1 ist "richtig", beide sind Schaetzwerte mit gewissen statistischen Eigenschaften, von denen je nach Anwendung der eine oder der andere besser geeignet ist. --NeoUrfahraner 16:42, 21. Aug 2006 (CEST)


[Bearbeiten] 1/n und 1/(n-1): So isses

Also meinem Verständnis nach verhält sich das so: Mathematisch sind Mittelwert und Varianz einer beliebigen Verteilung definiert als

\bar{x} = \frac{1}{N} \sum_{i=1}^N{x_i}

und

V = \frac{1}{N} \sum_{i=1}^N{(x_i-\bar{x})^2}

dabei ist die Varianz einfach der Mittelwert der quadratischen Abweichung der Einzelwerte vom Mittelwert. Quadratisch deshalb, weil sich einfacher Summierung ohne vorheriges Quadrieren positive und negative Abweichungen einfach zu Null wegmitteln könnten. Die Wurzel der Varianz, die Standardabweichung σ, hat wiederum den Vorteil, die gleiche Einheit wie die Messwerte zu haben (s. das schöne Beispiel mit den Quadratkindern weiter oben).

\sigma = \sqrt{V}

In der Physik versucht man nun aus einer endlichen Anzahl von Messwerten, für die man eine Verteilungsfunktion annimmt, bzw. kennt, eine Schätzung für den Mittelwert und für die Breite dieser Verteilung zu erhalten. Dazu benutzt man im allgemeinen die "Maximum Likelihood Methode": Für eine bekannte Verteilungsfunktion wird der beste Schätzwert, jeweils für den Mittelwert und die Breite der Verteilung gesucht. Da in der Physik hauptsächlich poisson- und gaussverteilte Größen vorkommen, werden in den Standardwerken der Literatur auch nur für diese beiden Funktionen Ausdrücke hergeleitet. Für die Gaussverteilung (Normalverteilung) ergibt sich als bester Schätzwert für die Mitte der Verteilung, also der Gausskurve, der o.g. Mittelwert der Messwerte, also wieder

E(\bar{x}) = \frac{1}{N} \sum_{i=1}^N{x_i}

und als Schätzwert für dessen Unsicherheit, oder auch den "Fehler des Mittelwerts"

\sigma(\bar{x})=\frac{\sigma}{\sqrt{N}}. Achtung: Das ist jetzt noch nicht die Breite der Verteilung, die wir mit σ bezeichnen. Die kommt jetzt erst.

Für endliche Anzahlen von Messwerten ergibt sich nun, dass der Schätzwert für die Varianz E(V) den wahren Wert der Verteilungsbreite unterschätzt, und zwar: E(V)=\frac{N-1}{N}\sigma^2

Der Grund hierfür ist, dass bei kleinen Mengen von Messdaten Messwerte mit sehr großen Abweichungen zu selten vorkommen und deshalb die Breite der Gaussverteilung im allgemeinen unterschätzt wird. In der Praxis schätzt man die Breite der zugrundeliegenden Verteilung deshalb besser ab mit:

E(V) = \frac{1}{N-1} \sum_{i=1}^N{(x_i-\bar{x})^2}

Daher das N-1, das eigentlich immer nur für Verwirrung sorgt. Ich hoffe dass die ganze Sache hierdurch ein bischen klarer geworden ist, und dass die Physikassis jetzt ein bischen weniger leiden müssen.

Peter


Das mit dem N-1 sollte eigentlich daran liegen, dass man statt EX den Schätzer xquer verwendet. --Philipendula 17:06, 25. Okt. 2006 (CEST)

Hallo, ich habe die von Peter skizierten Rechnungen frei nach dem englischen Artikel en: Maximum-Likelihood in das Lemma Maximum-Likelihood-Methode übertragen, siehe Maximum-Likelihood-Methode#Beispiel. Man könnte/sollte diese Rechnungen vielleicht aber in den Artikel Erwartungstreue oder hierher oder in das wikibook Statistik verschieben. --OlafsWissen 19:05, 25. Mär. 2007 (CEST)

Die Berechnung des Erwartungswerts der Varianzschätzung passt meines Erachtens am besten in den Artikel Empirische Varianz, der im Nov 2006 von Benutzer:Chrisqwq aus Varianz ausgegliedert wurde. Ich persönlich halte diese Zersplitterung zwar nicht für sinnvoll, aber jedenfalls bietet der bisher kurze Artikel Empirische Varianz genügend Platz für diese Berechnung, sodass man dann von Maximum-Likelihood-Methode#Beispiel dorthin verweisen kann. --NeoUrfahraner 08:48, 26. Mär. 2007 (CEST)
Ich fand die Zersplitterung auch nicht sinnvoll. Wenn du wieder einen großen Artikel draus machen willst, hast du meine volle Unterstützung, zumal der User zwar organisatorisch ausgegliedert hat, aber das dann offensichtlich nicht umsetzen konnte oder wollte. --Philipendula 09:59, 26. Mär. 2007 (CEST)
Also ich selber werde mir nicht die Mühe machen, die Artikel wieder zusammenzuführen. Die organisatorische Ausgliederung an sich kann ich bis zu einem gewissen Grad akzeptieren; das Hauptproblem ist eben, dass die Aufteilung viel zu früh erfolgte und, wie Du schon gesagt hast, mangelhaft umgesetzt wurde. Die Ausgliederung wieder rückgängig machen ist aber wohl auch nicht so einfach. --NeoUrfahraner 11:08, 26. Mär. 2007 (CEST)
Och, sooo schwierig wäre das IMHO gar nicht. Man könnte das als weiteren Unterpunkt in Varianz einfügen. Es ist die Frage, was man will: Die Trennung in Grundgesamtheit und Stichprobe ist nur sinnvoll, wenn bei Stichprobe was Wesentliches bei rumkommt. Tut es aber nicht. Die 5 Zeilen in der Stichprobenvarianz können problemlos wieder bei Varianz eingegliedert werden, zumal ja noch ein eigener Artikel Standardabweichung existiert. Außerdem sollte man überlegen, ob noch die zusätzliche Abspaltung der Varianz des Stichprobenmittels sinnvoll ist, insbesondere hier auch wieder die Trennung in GG und Stichprobe. Aber wie heißt es so nett: Et jibt nischt Jutet, außer man tut et. --Philipendula 11:43, 26. Mär. 2007 (CEST)
Wie schon gesagt, ich werde die Artikel nicht zusammenführen. Wenn es aber jemand anderer machen will, ist es mir durchaus recht. --NeoUrfahraner 08:10, 27. Mär. 2007 (CEST)

[Bearbeiten] Was die Sache bei der Standardabweichung komplizierter macht

Ja. Nimmt man für die Varianz σ2 den Schätzer

\hat{\sigma}^2 = \frac{1}{N-1} \sum_{i=1}^N{(x_i-\bar{x})^2},

so ist das ein erwartungstreuer Schätzer:

E\left(\hat{\sigma}^2\right)=\sigma^2.

Was die Sache verkompliziert, ist allerdings, dass die Wurzel des erwartungstreuen Schätzers für die Varianz kein erwartungstreuer Schätzer für die Standardabweichung ist:

E\left(\sqrt{\hat{\sigma}^2}\right)\neq \sigma

Denn für konkave Funktionen gilt nach der Jensenschen Ungleichung

Ef(X)\leq f(EX),

also

E\left(\sqrt{\hat{\sigma}^2}\right)\leq \sqrt{E\left(\hat{\sigma}^2\right)}=\sigma;

der vorgeschlagene Schätzer unterschätzt also die Standardabweichung. Da man nun leider keinen schönen erwartungstreuen Schätzer angeben kann, wird daher auf en:Standard deviation empfohlen, gleich bei N zu bleiben, weil der MSE gleichmäßig kleiner wäre (letzteres aber ohne Quellenangabe) --NeoUrfahraner 17:36, 25. Okt. 2006 (CEST)

Aso, stimmt, wir sind ja hier bei Standardabweichung. Ich war geistig bei der Varianz. Da laufen immer ähnliche Diskussionen ab. --Philipendula 17:59, 25. Okt. 2006 (CEST)
In dem Artikel herrscht immer noch ein gewisses Durcheinander. Aber irgendwie hat auch niemand Lust, das mal zu systematisieren ... --Philipendula 19:56, 25. Okt. 2006 (CEST)
Bin überhaupt kein Experte auf diesem Gebiet, habe aber beim Suchen nach Orientierung das Internetlexikon für Empirische Sozialforschung gefunden. Ich glaube, dort kann man sehen, wie diese Sachverhalte einfacher und anschaulicher erklärt werden können, ohne mathematisch ungenau zu sein. Die URL: [1]. --Konrad II 17:14, 27. Okt. 2006 (CEST)

Lieber NeoUrfahraner, Deine Rechnung mit der Jensenschen Ungleichung stimmt zwar, nur ist das kein Beweis. Man muss ein konkretes Beispiel dafür angeben, dass die Standardabweichung unterschätzt wird. OlafsWissen

Was meinst Du damit, dass es "kein Beweis" ist? Meinst Du damit, dass in der angegebenen Form die Jensensche Ungleichung nur "kleiner gleich", nicht aber "echt kleiner" liefert? --NeoUrfahraner 11:03, 21. Mär. 2007 (CET)
Ja, so war das gemeint. Schau doch bitte mal, ob Du diesen Punkt im Artikel so jetzt unmissverständlicher findest. Gibt es ein einfaches Beispiel, das die Unterschätzung zeigt?

OlafsWissen 14:05, 21. Mär. 2007 (CET)

Da die Wurzel strikt konkav ist, sollte die Jensensche Ungleichung bis auf den Trivialfall σ2 = 0 immer "echt kleiner" liefern. Du hast aber recht, ein Beispiel ist wohl anschaulicher. Mit Ausnahme des Trivialfalls σ2 = 0 lässt sich da jede jedes Beispiel wählen, das einfachste ist wohl der Wurf einer fairen Münze, wobei die Ergebnisse mit -1 oder +1 bezeichnet werden (Mittelwert 0, σ2 = 1). Kennt man die Ausgangsverteilung nicht und schätzt die Standardabweichung aus zwei Münzwürfen, so erhält man mit jeweils Wahrscheinlichkeit 1/4 die Werte (-1,-1), (-1,+1), (+1,-1) und (+1,+1). s2 ist dann jeweils 0,2,2,0; Es2 = (0 + 2 + 2 + 0) / 4 = 1 = σ2 (also die Varianzschätzung ist erwartungstreu) und Es=(0+\sqrt{2}+\sqrt{2}+0)/4=\sqrt{2}/2<1=\sigma (also die Stichprobenstandardabweichung unterschätzt den Wert). Soll ich das als Beispiel einbauen? --NeoUrfahraner 21:52, 21. Mär. 2007 (CET)
Ja, nun fällt es mir wie Schuppen von den Augen. --OlafsWissen 09:53, 22. Mär. 2007 (CET)
Ich habe das Beispiel eingebaut. Einverstanden? --NeoUrfahraner 10:04, 22. Mär. 2007 (CET)
Sehr schön gemacht. Mein "eventuell" stört mich jetzt noch. Da die einzige Ausnahme der Trivialfall ist, der wohl in der Praxis kaum vorkommt, läßt sich da wohl auch noch eine bessere Formulierung finden. Sollen wir aus dem "eventuell" ein "in der Regel", "in den meisten Fällen" oder "in der Praxis" machen oder hältst Du es für besser, auf die strikte Konvexität hinzuweisen? --OlafsWissen 13:40, 22. Mär. 2007 (CET)
Ich habe mich für "in den meisten Fällen" entschieden. Die strikte Konvexität baue ich lieber nicht in den Artikel ein, dazu müsste man das vorher im Artikel Jensensche Ungleichung behandeln; eine saubere Behandlung erfordert da aber wohl relativ viel Aufwand, der Zusatznutzen ist aber IMHO gering. --NeoUrfahraner 14:21, 22. Mär. 2007 (CET)

[Bearbeiten] Was tun mit den Faustregeln?

Ich habe jetzt den Artikel ein wenig überarbeitet. Unklar ist mir noch, was mit folgenden beiden Faustregeln passieren soll:

Faustregeln für die Praxis sind: Werte außerhalb der zwei- bis dreifachen Standardabweichung nennt man Ausreißer. Ausreißer können ein Hinweis auf grobe Fehler der Datenerfassung sein. Es kann den Daten aber auch eine stark schiefe Verteilung zu Grunde liegen. Andererseits muss ca. jeder 20ste Messwert außerhalb der zweifachen Standardabweichung liegen.

Erstens führt der Abschnitt IMHO vom Thema fort, zweitens ist das mit den Ausreißern sowieso komplizierter.

Zur schnellen Schätzung von σ sucht man jenes Sechstel der Werte, die am kleinsten beziehungsweise am größten sind. Die Standardabweichung ist dann die halbe Differenz der beiden Grenzwerte. Bei unübersichtlichen Verteilungen oder wenn man nur „im Kopf“ rechnen kann, geht auch folgende Abschätzung: (Maximalwert-Minimalwert)/3. Erstaunlicherweise liefert diese Schätzung sowohl bei Normalverteilungen wie Gleichverteilungen oder hohen Variationskoeffizienten gute grobe Schätzungen.

Das mit dem Sechstel ergibt sich klarerweise daraus, dass bei der Normalverteilung ca. 2/3 der Werte in \mu \pm \sigma sind, ist also nicht wirklich erstaunlich; für Gleichverteilungen bezweifle ich, dass es eine gute grobe Schätzung ist. (Maximalwert-Minimalwert)/3 ist eine seltsame Faustformel, da insbesondere bei Normalverteilungen dieser Wert für wachsenden Stichprobengröße immer größer wird. --NeoUrfahraner 22:30, 27. Nov. 2006 (CET)

Ich habe jetzt die Ausreißer-Formulierung entschärft und die von einem anonymen Benutzer ohne Quellen beigsteuerte Faustregel (Maximalwert-Minimalwert)/3 entfernt. --NeoUrfahraner 08:37, 28. Nov. 2006 (CET)

[Bearbeiten] BKL am Anfang

Brauchen wir die BKL am Anfang des Artikels? Die Standardabweichung der Stichprobe wird ja gar nicht in Stichprobenvarianz behandelt, sondern derzeit immer noch in Standardabweichung; verschieben erscheint mir nicht zweckmäßig. Der Verweis auf Standardfehler für die Standardabweichung der Stichproben-Mittelwerte erscheint mir auch nicht zwechkmäßig, die Stichproben-Mittelwerte haben genauso wie jede andere Zufallsvariable mit endlichen zweiten Momenten eine Standardabweichung, darauf braucht IMHO nicht extra verwiesen werden. --NeoUrfahraner 08:51, 28. Nov. 2006 (CET)

  • Stichprobenvarianz will ich noch ausbauen. Standardfehler ist von zentraler Bedeutung für de Statistik und nicht die Standardabweichung irgendeiner Zufallsvariable. Darüber hinaus finde ich es zumindest für Stdabw. der Stichprobe (Stichprobenvarianz) grundsätzlich sinnvoll, bei gleichem Begriff auf den anderen zu Beginn hinzuweisen. Für nicht-statistiker ist das sonst nicht überschaubar. --Chrisqwq 09:30, 28. Nov. 2006 (CET)
"Standardfehler" und "Standardabweichung" klingen tatsächlich ähnlich und können daher verwechselt werden; BKL ist dann wohl passend. Was aber soll in Stichprobenvarianz dazukommen bzw. was soll dann in Standardabweichung übrigbleiben, was nicht zur Standardabweichung der Stichprobe gehört? Dieser Teil nimmt momentan ja weit mehr als die Hälfte des Artikels ein. --NeoUrfahraner 09:42, 28. Nov. 2006 (CET)

[Bearbeiten] Standardabweichung bei laufend aktualisierten Werten (running sums)

Hilfe!

In dem Wikipedia-Artikel zur Standardabweichung wird eine alternative Berechnungsmethode vorgestellt, die sich für die dauernde Aktualisierung bei neu eintreffenden Werten eignet. Dann sollen nicht noch einmal alle Werte aus der Vergangenheit durchgeackert werden, sondern es genügt, drei Kennwerte zu halten und zu aktualisieren: Anzahl der Werte, deren Summe und Summe von deren Quadraten.

Anhand des einfachen Beispiels in dem Artikel (mit 5, 6, 8, 9) habe ich die alternative Formel ausprobiert und komme auf ein anderes Ergebnis: sqrt(10/3) anstatt sqrt(10/4) Intensive Überprüfungen des Rechengangs und Berechnung in Excel erbrachten dasselbe Ergebnis.

Es scheint, als ob die Formel für "running sums" falsch sei. Damit fällt mein Redesign für eine Anwendung mit Millionen von Werten in den Bach. Andere Autoren zitieren zwar auch diese schlaue Formel, aber nirgendwo wird ein Vergleich der Ergebnisse angestellt! Hat hier einer vom anderen abgeschrieben?

Antworten und Hinweise erbitte ich an Horst.vanBremen@db.com je eher, desto besser! (Der vorstehende, nicht signierte Beitrag stammt von 129.35.231.17 (Diskussion • Beiträge) )

Die Formel stimmt. Damit wir über dasselbe sprechen:
s_X := \sqrt{\frac{1}{N-1} \sum_{i=1}^N{(x_i-\bar{x})^2}} = \sqrt{\frac{N \cdot \sum_{i=1}^N{x_i{}^2}-\left(\sum_{i=1}^N{x_i}\right)^2}{N \cdot (N-1)}}
--85 [?!] 19:52, 7. Feb. 2007 (CET)

[Bearbeiten] Korrekte Berechnung der Standardabweichung bei "Running Sums"

Nachdem ich, Horst van Bremen, am 7.2.2007 meinen Kommentar zu der falschen Formel eingestellt hatte, habe ich die richtige Formel hergeleitet. Leider stehen mir hier keine mathematischen Symbole zur Verfügung; daher muss ich mit Textzeichen arbeiten.

Der Kernterm der Standardabweichung ist sum<1,N>(xi-xquer)^2, wobei sum<1,N> das Summensymbol bedeutet, xi einen Einzelwert mit i = 1 ... N und xquer den Mittelwert. Mit ^2 ist das Quadrieren gemeint.

Es gilt nach dem 2. binomischen Satz:

sum<1,N>(xi-xquer)^2 = (x1-xquer)^2 + (x2-xquer)^2 + (x3-xquer)^2 + ... + (xN-xquer)^2 = (x1^2 - 2*x1*xquer + xquer^2) + (x2^2 - 2*x2*xquer + xquer^2) + (x3^2 - 2*x3*xquer + xquer^2) + ... + (xN^2 - 2*xN*xquer + xquer^2)

umgeordnet: = x1^2 + x2^2 + x3^2 + ... + xN^2

 - 2*x1*xquer - 2*x2*xquer - 2*x3*xquer - ... - 2*xN*xquer
 + N*xquer^2 (wegen der N Quadratterme)

Zwischenrechnung: - 2*x1*xquer - 2*x2*xquer - 2*x3*xquer - ... - 2*xN*xquer = -2*xquer*(x1 + x2 + x3 + ... + xN) = -2*xquer*sum<1,N>xi

Die Summe im ersten Teil der umgeordneten Formel ist sum<1,N>xi^2 Damit ergibt sich weiter unter Verwendung von xquer = (sum<1,N>xi)/N:

sum<1,N>(xi-xquer)^2 = sum<1,N>xi^2 -2*xquer*sum<1,N>xi + N*xquer^2 = sum<1,N>xi^2 -2*((sum<1,N>xi)/N)*sum<1,N>xi + N*((sum<1,N>xi)/N)^2 = sum<1,N>xi^2 -2*(1/N)*(sum<1,N>xi)^2 + (1/N)*(sum<1,N>xi)^2 (N gekürzt gegen N^2) = (1/N)*(N*sum<1,N>xi^2 -2*(sum<1,N>xi)^2 + (sum<1,N>xi)^2) = (1/N)*(N*sum<1,N>xi^2 -(sum<1,N>xi)^2)

Mit sigma = sqrt((1/N)*sum<1,N>(xi-xquer)^2) folgt: sigma = sqrt((1/N)*(1/N)*(N*sum<1,N>xi^2 -(sum<1,N>xi)^2))

  • sigma = (1/N)*sqrt(N*sum<1,N>xi^2 -(sum<1,N>xi)^2) für "running sums"

womit der lästige 1/N-Term aus der Wurzel verschwindet. Anhand des Beispiels mit den N=4 Werten xi = 5, 6, 8 und 9 ergibt sich:

sigma(5, 6, 8, 9) = (1/4)*sqrt(4*(5^2+6^2+8^2+9^2)-(5+6+8+9)^2) = (1/4)*sqrt(4*(25+36+64+81)-28^2) = (1/4)*sqrt(4*206-784) = (1/4)*sqrt(824-784) = (1/4)*sqrt(40) = (1/4)*2*sqrt(10) = (1/2)*sqrt(10) = sqrt(10/4) = sqrt(5/2) q.e.d.

Ich bitte darum, nun die falsche Formel aus Wikipedia zu entfernen (auch aus den anderssprachigen Seiten!). Gern dürfen Sie auch einen Mathematiker fragen... (aber die langweilt so etwas nur).

Die Formel mit dem verdächtigen Term N-1 im Nenner stammt möglicherweise aus den Berechnungsmethoden für Schätzwerte bei statistisch ausgewählten Stichproben.

Für negative xi habe ich die neue Formel noch nicht ausprobiert. Vermutlich kann auch der Beweis geführt werden, dass N*sum<1,N>xi^2 >=(sum<1,N>xi)^2 immer gilt, also der Wert unter der Wurzel nie negativ werden kann. Das möge aber bitte jemand anderes machen.

Lieber Horst, sei nicht böse, aber niemand mag diese "Formelsprache" auseinanderklauben. Du kannst mit TeX Formeln erstellen. Siehe Hilfe Tex. Am besten, du kopierst dir eine Formel aus dem Quellcode und setzt dann die entsprechenen Elemente ein. Und unterschreibe bitte hier mit --~~~~. Das wird dann automatisch in deine Unterschrift umgesetzt. Gruß --Philipendula 09:48, 9. Feb. 2007 (CET)

Herleitung
(N-1) s_X^2 = \sum_{i=1}^N{(x_i-\bar{x})^2}  = \sum_{i=1}^N (x_i^2-2\bar{x}x_i+\bar{x}^2)  = \sum x_i^2 - 2\bar{x} \sum x_i + N \bar{x}^2  = \sum x_i^2 - \frac{2}{N} (\sum x_i)^2 + \frac{1}{N} (\sum x_i)^2  = \sum x_i^2 - \frac{1}{N} (\sum x_i)^2
Einverstanden? --85 [?!] 11:54, 9. Feb. 2007 (CET)
Na, geht doch ;) --Philipendula 16:37, 9. Feb. 2007 (CET)

Static Wikipedia (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2006 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia February 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu