Q di Yule
Da Wikipedia, l'enciclopedia libera.
La variabile di test Q di Yule è un indice di associazione, ideato dallo statistico scozzese George Udny Yule, e usato in tabelle statistiche dette di contingenza .
Un indicatore ideato dallo stesso autore è la Y di Yule. Rispetto quest'ultima il valore assoluto è sempre maggiore ( | Q | > | Y | ) a meno che non vi sia indipendenza o completa associazione.
Indice |
[modifica] Storia
L'indice venne presentato da Yule nell'articolo On the association of attributes in statistics[1] e fu al centro di una controversia con il matematico e statistico inglese Karl Pearson. La posizione di Pearson era che alla base di una tabella di contingenza vi fosse un fenomeno continuo e gaussiano, invece che un fenomeno discreto come sostenuto da Yule, che considerava poco scientifico fare ipotesi non desiderate e non verificabili.
Pearson, inoltre, notava che "collassando" una tabella , riducendola a 2x2, si ottengono risultati differenti a seconda di come vengono aggregati i valori. Questa osservazione rimane tutt'ora valida.
[modifica] Metodologia
- Q = (α − 1) / (α + 1)
ove
- α = (P11 / P21) / (P12 / P22) è il cosiddetto odds ratio
- Pij = P(AiBj) ove sia i che j assumono i valori 1 e 2
Tale indice Q varia tra -1 e +1, ove 0 indica l'indipendenza.
Q può essere stimato da
- q = (a − 1) / (a + 1)
dove in questo caso
- a = (f11 / f21) / (f12 / f22) in analogia a α (con il vincolo che fij sia sempre maggiore di zero
mentre la varianza di q viene stimata con
[modifica] Esempio
Valori assoluti +-------------+-------+------+ | \ Abile | Si | No | |Sesso \ | | | +-------------+-------+------+ |Uomini | 20 | 80 | |Donne | 90 | 80 | +-------------+-------+------+ Valori relativi (f) +-------------+-------+------+ | \ Abile | Si | No | |Sesso \ | | | +-------------+-------+------+ |Uomini | 0,074 | 0,296| |Donne | 0,333 | 0,296| +-------------+-------+------+
- a = (0,074 / 0,333) / (0,296 / 0,296) = 0,222
- q = (0,222 − 1) / (0,222 + 1) = − 0,636
[modifica] Valori di q differenti
Collassando una tabella a una
, a causa del criterio di aggregazione dei valori, si possono ottenere valori di q differenti. (cf. osservazione di Karl Pearson)
Se per esempio i dati di partenza fossero stati
+-------------+-------+------+------+ | \ Abile | Si | boh! | No | |Sesso \ | | | | +-------------+-------+------+------+ |Uomini | 20 | 10 | 70 | |Donne | 90 | 0 | 80 | +-------------+-------+------+------+
assegnando il "Boh!" ai "No" si ottiene la tabella e il q = − 0,636 di cui sopra, mentre assegnandolo ai "Si" si ottiene la tabella seguente:
+-------------+-------+------+ | \ Abile | Si | No | |Sesso \ | | | +-------------+-------+------+ |Uomini | 30 | 70 | |Donne | 90 | 80 | +-------------+-------+------+
con l'indicatore q che si attenua diventando q = − 0,448
[modifica] Note
- ↑ Georg Undy Yule. On the association of attributes in statistics in Philosophical Transactions of the Royal Society of London. , 1900.