Partialkorrelation
aus Wikipedia, der freien Enzyklopädie
[Bearbeiten] Was ist Partialkorrelation?
Korrelation an sich bedeutet, dass es zwischen zwei Variablen einen Zusammenhang gibt, der entweder positiv oder negativ ist. Nehmen wir folgendes Beispiel: Wir beobachten, dass es eine positive Korrelation zwischen Benzinpreis und Alter gibt. Das heißt, der Benzinpreis steigt, je älter man wird.
Wie können wir diese Korrelation deuten?
- Es kann sein, dass x => y, dass x also y mehr oder weniger stark verursacht. Das hieße, dass der steigende Benzinpreis die Ursache für den Anstieg des Alters wäre - also eine ziemlich unsinnige Überlegung.
- Es könnte auch y => x zutreffen, dass also das zunehmende Alter die Ursache für den Benzinpreisanstieg ist. Auch diese Erklärung scheint fragwürdig.
- Schließlich kann es auch sein, dass die beobachtete Korrelation zwischen x und y darauf zurückzuführen ist, dass beide Variablen sehr eng mit einer dritten Variablen z verknüpft sind. Also z => x und z => y und dass vielleicht in Wahrheit zwischen Benzinpreis und Alter überhaupt keine direkte Beziehung besteht und beide nur deshalb gemeinsam variieren, weil sie beide mit einer dritten Variablen zusammenhängen. Diese Annahme scheint in unserem Beispiel die plausibleste zu sein. So könnten Benzinpreis und Alter z.B. mit der über die Jahre steigenden Produktivität der Gesellschaft in Beziehung stehen.
Solche Korrelationen zwischen zwei Variablen, die nicht auf einen direkten Zusammenhang zwischen beiden, sondern auf eine dritte Variable zurückzuführen sind, heißen auch Scheinkorrelationen . Aufgabe der Partialkorrelation ist nun, genau diesen Einfluss einer dritten Variablen aus der beobachteten Korrelation herauszufiltern und somit den "wahren" Zusammenhang zwischen beiden Variablen darzustellen.
[Bearbeiten] Wie geht man rechnerisch vor?
- 1) Korrelation zwischen x und y berechnen
- Nachdem wir zwei Variablen x und y erfasst haben, errechnen wir den Korrelationskoeffizient zwischen den beiden Variablen. Wenn wir eine bedeutsame Korrelation errechnet haben und den Verdacht hegen, dass diese Korrelation durch eine dritte Variable z zustande gekommen sein könnte, wollen wir mit Hilfe der Partialkorrelation untersuchen, wie stark beide Variablen x und y noch miteinander korrelieren, wenn wir den Einfluss von z herausrechnen.
- 2) Regressionsgleichung über z berechnen
- Voraussetzung für den nächsten Schritt ist, dass wir gleichzeitig mit den Messwertpaaren von x und y auch die Ausprägung der Variablen z gemessen haben. Nun errechnen wir die Regressionsgleichung zur Vorhersage der x- bzw. y-Werte ausgehend von z. Die Gleichung dieser Regression ist eine lineare Gleichung, mit der wir bei vorgegebenen z-Werten die x- bzw- y-Werte vorhersagen können.
- Die beiden Gleichungen lauten also x = a×z + b und y = a×z + b.
- 3) Aus z vorhergesagte x-/y-Werte errechnen
- Jetzt nimmt man die gemessenen Werte der Variablen z und errechnet mit Hilfe der beiden obigen Regressionsgleichungen jeweils für x und für y die aus z vorhergesagten Werte.
- Am Besten erstellt man hierfür eine Tabelle, mit einer Spalte für den z-Werte und jeweils Spalten für die vorhergesagten x- und y-Werte. Wichtig ist natürlich, dass x- und y-Werte, die aus demselben z-Werte vorhergesagt werden, ein Paar bilden bzw. zusammengehören (also in der Tabelle nebeneinander stehen sollten).
- 4) Erstellen der Regressionsresiduen
- Nun berechnen wir die sogenannten Regressionsresiduen. Nehmen wir zuerst die x-Werte: Wir bilden jetzt aus dem für jeden z-Wert beobachteten x-Wert und dem aus dem z-Werte vorhergesagten x-Wert die Diffenrenz.
- Angenommen, wir haben in unserer Untersuchung bei einem Messwertpaar für z=200 und für x=3 gemessen. Aufgrund der errechneten Regressionsgleichung sagen wir aus diesem z-Wert einen x-Werte von x=5 vorher. Das Regressionsresiduum bilden wir nun einfach, indem wir 3-5=-2, also den beobachteten minus den vorhergesagten Wert rechnen.
- Die Berechnung der Regressionsresiduen nehmen wir für alle Messwertpaare und sowohl für x als auch für y vor.
- 5) Korrelation der Reggressionsresiduen
- Wenn wir den letzten Punkt tabellarisch aufgezeichnet haben, dann liegt uns nun in der Tabelle u.a. je eine Spalte mit den Regressionsresiduen für x bzw. y vor. Nun errechnen wir aus diesen Wertepaaren den Korrelationskoeffizienten. Dieser entspricht nun dem Ergebnis der Partialkorrelation: der um den Einfluss von z bereinigten Korrelation zwischen den Variablen x und y!