Punt-biseriële correlatiecoëfficiënt
Van Wikipedia
De punt-biseriële correlatiecoëfficiënt is een correlatiecoëfficiënt die gebruikt wordt als een van de stochastische variabelen dichotoom is, d.w.z. slechts twee verschillende waarden kan aannnemen. Het dichotome karakter kan natuurlijk zijn, zoals bij geslacht of al of niet een ziekte hebben, maar kan ook kunstmatig aangebracht zijn, zoals bij de indeling jong of oud.
De punt-biseriële correlatiecoëfficiënt is in feite niets anders dan de gewone Pearsons product-momentcorrelatiecoëfficiënt voor het geval dat een van de variabelen continu is en de andere dichotoom.
We moeten weer onderscheid maken tussen de correlatiecoëfficiënt als parameter in de populatieverdeling en de correlatiecoëfficiënt als schatter uit de sttekprief voor deze parameter.
Inhoud |
[bewerk] Populatie
We gaan uit van een simultane verdeling van de stochastische variabelen X en Y, waarvan Y dichotoom is. Voor het gemak nemen we aan dat Y de waarden 0 en 1 aanneemt. Het resultaat is voor alle andere waarden van Y hetzelfde. We kunnen de populatie opgedeeld denken in twee subpopulaties, een waarvoor Y = 0 en een waarvoor Y = 1. De populatiegemiddelden van X in deze subpopulaties noemen we resp. μ0 en μ1, dus:
- μy = E(X | Y = y).
Verder noemen we
- p = P(Y = 1).
Dan is:
- EX = E(X | Y = 0)(1 − p) + E(X | Y = 1)p = μ0(1 − p) + μ1p,
- EY = Ep,
- var(Y) = p(1 − p)
en
- cov(X,Y) = E(XY) − EXEY = E(XY | Y = 0)(1 − p) + E(XY | Y = 1)p − EXp = μ1p − (μ0(1 − p) + μ1p)p = (μ1 − μ0)p(1 − p).
Dus
.
[bewerk] Steekproef
Voor een (aselecte) steekproef van omvang n van paren waarnemingen (Xi,Yi), waarin Y dichotoom is (voor het gemak nemen we als waarden 0 en 1), berekenen we voor de punt-biseriële correlatiecoëfficiënt rpb:
waarin N1 het aantal paren met Y=1 is en en
respectievelijk de steekproefgemiddelden van de X-waarden bij Y=0 en Y=1 voorstellen. De grootheid SX is de steekproefstandaardafwijking van de X-waarden.
Afleiding:
zodat:
[bewerk] Variantie-analyse
De steekproefvariantie S2X kan als volgt uiteengelegd worden:
zodat:
Daaruit zien we enerzjds nog eens dat de waarde van rpb tussen -1 en 1 ligt, en anderzijds dat de punt-biseriële correlatiecoëfficiënt in feite niets anders doet dan de variantie tussen de beide groepen vergelijken met de variantie binnen de groepen.