Interrater-Reliabilität

aus Wikipedia, der freien Enzyklopädie

Du hast neue Nachrichten auf deiner Diskussionsseite.

Interrater-Reliabilität bezeichnet in der Psychologie das Ausmaß der Übereinstimmungen (=Konkordanzen) der Einschätzungsergebnisse bei unterschiedlichen Beobachtern ("Ratern"). Hierdurch kann angegeben werden, inwieweit die Ergebnisse vom Beobachter unabhängig sind. Die Interrater-Reliabilität ist ein Maß für die Güte von Skalen, die zur Messung einer bestimmte Variable n eingesetzt werden.

[Bearbeiten] Kappa Statistiken

Es gibt eine Reihe statistischer Verfahren, die zur Bestimmung der Interrater-Reliabilität eingesetzt werden können. Handelt es sich um zwei (oder mehr) unterschiedliche Beobachter, die gleichzeitig mehrere Probanden einschätzen, so lässt sich die Interrater-Reliabilität mittels Cohens Kappa (für zwei Rater) bzw. Fleiss' Kappa (für mehr als zwei Rater) abschätzen. Die Kappa-Statistiken prüfen das Ausmaß an Konkordanz durch Einbezug und Vergleich zu dem durch "zufälliges Einschätzen" typischerweise erreichbaren Ausmaß an Übereinstimmung. Dabei wird davon ausgegangen, dass die einzelnen Einschätzungen eines Raters vollkommen unabhängig voneinander getroffen werden. Kappa kann Werte zwischen +1.0 (bei hoher Konkordanz) und <=0 (bei niedriger Konkordanz) annehmen.

[Bearbeiten] Inter-Rater-Korrelation

Andere Verfahren nutzen den Pearsonscher Maßkorrelationskoeffizienten bzw. den Rangkorrelationskoeffizient zur Bestimmung der Inter-Rater-Korrelation, wobei jeweils miteinander gepaarte Urteilswerte in Beziehung miteinander gesetzt werden. Der Inter-Rater-Korrelationskoeffizient beschreibt dabei allerdings lediglich einen (irgendwie) gearteten Zusammenhang der beiden Messungen, ohne dass Abweichungen zwischen den Urteilern eine Rolle spielen. So spielen z.B. gleichbleibende Milde- oder Strenge-Tendenzen keine Rolle.

Beispiel:

Rater 1 schätzt 4 Objekte auf einer Skala wie folgt ein:  $1,2,1,3$ ;

Rater 2 urteilt auf derselben Skala für gleichen Objekte:  $2,3,2,4$ .

Die Inter-Rater-Korrelation beträgt r=1 und ist vollkommen, obwohl die Urteiler nicht übereinstimmen.

[Bearbeiten] Intra-Klassen-Korrelation

Demgegenüber beschreibt der Intra-Class-Korrelationskoeffizient (ICC, Shrout & Fleiss 1979), dass die beiden Messwerte den gleichen Wert haben sollen. Zur Bestimmung der Inter-Rater-Reliabilität wird die Varianz zwischen verschiedenen Ratings in Bezug auf dasselbe Meßobjekt verglichen mit der über alle Ratings und Meßobjekte entstandenen Varianz. Wie bei anderen Korrelationskoeffizienten kann der ICC Werte zwischen -1.0 und +1.0 annehmen. Bei großer Urteilskonkordanz (also geringer Varianz zwischen den Einschätzungswerten)liegt der ICC hoch. Im Scatterplot für die beiden Messswerte bedeutet der Intra-Class-Korrelationskoeffizient die Abweichung der Werte von der Winkelhalbierenden.

[Bearbeiten] Literatur

Cohen, J. (1960). A coefficient for agreement for nominal scales. Education and Psychological Measurement, 20, 37-46.
Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin, 76 (5), 378-382.
Shrout, P. & Fleiss, J. L. (1979). Intraclass correlation: Uses in assessing rater reliability. Psychological Bulletin, 86, 420-428.