Kontingenztafel
aus Wikipedia, der freien Enzyklopädie
Kontingenztafeln (Kontingenztabellen) sind Kreuztabellen absoluter Häufigkeiten bestimmter Merkmalsausprägungen. Das bedeutet, es werden mehrere Merkmale (in zweidimensionalen Tafeln in der Regel als X und Y bezeichnet) miteinander verknüpft dargestellt. Die statistische Auswertung einer solchen Kontingenztafel erfolgt mit dem Vierfeldertest – oder mit dem Chi-Quadrat-Test, falls die Tafel mehr als 2 x 2 Felder besitzt.
Streng genommen müssen alle Kategorien voneinander völlig unabhängig sein. Zum Beispiel kann eine Person wohl nicht gleichzeitig "weiblich" und "männlich" sein; aber bei "hat Grundschule besucht" und "hat Berufslehre abgeschlossen" kann man die Mitglieder der letzteren Gruppe eigentlich auch in die erste einfügen – da der Besuch der Grundschule für jeden Menschen obligatorisch ist.
Zusätzlich sollte man so selten wie möglich eine Kategorie namens "sonstige" einsetzen; beispielsweise wie in "fährt Opel", "fährt Peugeot", "fährt Toyota", "fährt anderen Personenwagen". Dieser "Sammeltopf" sollte, falls er doch notwendig wird, durch eine durchdachte Konzipierung so klein wie möglich gehalten werden.
Ein weiterer Punkt besteht darin, dass jede noch unbekannte einzelne Stichprobe X prinzipiell die Möglichkeit haben muss, in jeder der Zeilen bzw. Spalten der Kontingenztafel aufzutreten - zum Beispiel darf eine solche Tafel nicht die Kategorien "männlich" und "weiblich" besitzen, wenn man eine ausschließlich männliche oder ausschließlich weibliche Grundgesamtheit untersucht.
Inhaltsverzeichnis |
[Bearbeiten] Beispiel: Zweidimensionale Kontingenztafel ("Vierfeldertafel")
Es werden 2000 Menschen darüber befragt, ob sie Produkt A oder B bevorzugen. Das Ergebnis wird nach Geschlecht des Befragten ausgewertet:
Markenwahl weiblich männlich Summe Produkt A 660 340 1000 Produkt B 340 660 1000 Summe 1000 1000 2000
[Bearbeiten] Der Schein kann trügen
Auf den ersten Blick ist zu ersehen, dass die weiblichen Kunden dem Produkt A, die männlichen Kunden dagegen dem Produkt B zuneigen. Dies kann eine interessante Information sein – es kann aber auch nur ein Trugschluss sein. Die Auswertung der Befragung hinsichtlich des Alters der Kunden ergibt...
Markenwahl bis 40 Jahre über 40 Jahre Summe Produkt A 700 300 1000 Produkt B 300 700 1000 Summe 1000 1000 2000
Offenbar besteht nicht nur eine geschlechtsspezifische, sondern auch eine altersmäßige Abhängigkeit vom Kaufverhalten. Das Bedürfnis, beide Informationen über Abhängigkeiten in einen realistischen Bezug zueinander zu bringen, erzwingt die Erarbeitung einer dreidimensionalen Kontingenztafel.
[Bearbeiten] Dreidimensionale Kontingenztafel
Eine dreidimensionale Tafel lässt sich natürlich weder auf Papier noch auf einem Monitor darstellen. Hilfsweise fügt man zusätzliche Spalten in die Tabelle ein:
Geschlecht weiblich Geschlecht männlich bis 40 Jahre über 40 Jahre bis 40 Jahre über 40 Jahre Markenwahl Summe Produkt A 630 (=70%) 30 (=30%) 70 (=70%) 270 (=30%) 1000 Produkt B 270 (=30%) 70 (=70%) 30 (=30%) 630 (=70%) 1000 Summe 900 (=100%) 100 (=100%) 100 (=100%) 900 (=100%) 2000
Die in Klammern zugesetzten Prozentwerte sollen nur den Blick darauf lenken, dass die Produktneigung keinesfalls vom Geschlecht abhängig war. Sondern dem Produkt A sind gleichermaßen 70% der jüngeren Frauen wie auch der Männer und 30% der älteren Frauen wie auch der Männer zugeneigt; bei Produkt B genau umgekehrt.
Um dieses Phänomen geistig klarer zu machen, lohnt sich wieder eine (diesmal wieder zweidimensionale) Kontingenztafel:
Geschlecht bis 40 Jahre über 40 Jahre Summe Weiblich 900 100 1000 Männlich 100 900 1000 Summe 1000 1000 2000
Hier wird deutlich, dass unter den jüngeren Befragten nunmal eine übergroße Mehrheit von 90% weiblich war. Und die Jüngeren Kunden bevorzugen das Produkt A – nicht etwa die weiblichen! Dagegen bevorzugen die Älteren (in der Befragung vornehmlich Männer) das Produkt B. Es handelt sich bei der Geschlechterrelation aus dem Beispiel um ein rein scheinbares Verhältnis, das aufgrund der unausgewogenen statistischen Menge entstehen konnte.
[Bearbeiten] Statistische Auswertung
Bei komplexer werdenden Kontingenztafeln lassen sich Relationen nicht mehr einfach mit dem Auge ablesen. Die Statistik setzt zur systematischen Analyse eine Reihe von Zusammenhangmaßen ein, z.B. das Instrument des Kontingenzkoeffizienten. Hierzu wird die Kontingenztafel wie folgt abstrakt geformt:
Kontingenztafel für absolute Häufigkeiten, gegeben sei Merkmal X mit Ausprägungen a1, a2... ak sowie Merkmal Y mit Ausprägungen b1, b2... bm
b1 ... bm k = Zeile, m = Spalte a1 h11 h1m h1. h = Häufigkeit, n = Summe der Werte a2 h21 h2m h2. . = Summe: h.1 = Summe Spalte 1 . . . . h1. = Summe Zeile 1 . . . . hij = h(ai, bj) . . . . h1. = Randhäufigkeit von X ak hk1 hkm hk. h.1 = Randhäufigkeit von Y h.1 ... h.m n
[Bearbeiten] χ2-Koeffizient (Chi-Quadrat)
Der χ2-Koeffizient ist abhängig von der Größe der Kontingenztafel und n und gibt ein Maß für die "Stärke" des Zusammenhanges der beiden betrachteten Merkmale an:
Zum Beispiel sei folgende Kontingenztafel gegeben:
Limousine Kombi Arbeiter 19 18 37 Angestellte 43 20 63 62 38 100
Berechnung des χ2-Koeffizienten:
Der Aussagewert des χ2-Koeffizienten ist aber gering; jedoch wird er benötigt, um den Kontingenzkoeffizienten K zu ermitteln.
[Bearbeiten] Mittlere quadratische Kontingenz
Ein weiteres Maß, um die Stärke der Abhängigkeit der Merkmale in einer Kontingenztafel anzugeben, ist die mittlere quadratische Kontingenz, die im Wesentlichen eine Erweiterung des χ2-Koeffizienten darstellt:
Je größer dieses Maß ist, desto stärker ist der Zusammenhang zwischen den zwei analysierten Merkmalen. Sind die beiden Merkmale unabhängig, so wird jeder Summand durch den Nenner des Bruches zu 0, das Maß selbst damit auch. Im Falle einer 2x2 Kontingenztafel ist das Maß normiert, nimmt also Werte im Intervall [0,1] an.
[Bearbeiten] Kontingenzkoeffizient K
Der Kontingenzkoeffizient K relativiert den χ2-Koeffizienten um die Größe von n:
Der Kontingenzkoeffizient K führt schließlich zum korrigierten Kontingenzkoeffizienten.
[Bearbeiten] Korrigierter Kontingenzkoeffizient K*
Der korrigierte Kontingenzkoeffizient K* berechnet sich wie folgt:
wobei M = Mmin(k,m)
im Beispiel:
K* ist ein Zusammenhangmaß zwischen den Merkmalen. Je näher er an 0 liegt, desto geringer ist der Zusammenhang; je weiter er sich 1 nähert desto größer ist der Zusammenhang.