Test Q
Da Wikipedia, l'enciclopedia libera.
Il Test Q (Q-Test, in inglese) è un semplice test statistico non parametrico per scartare dati ritenuti errati.
Per effettuare il Test Q al fine di individuare i dati errati, si devono disporre i dati in ordine di valore crescente, e quindi per ognuno calcolare il coefficiente Qn, definito come:
dove R è l'ampiezza dell'intervallo (max(x)-min(x)) in cui abbiamo dei valori
Se il Qn è maggiore del Qtabella allora si può scartare il valore, con affidabilità pari alla percentuale riportata.
Importante: al massimo un valore per serie di dati può essere eliminato con il test Q, se si vuole preservare l'integrità statistica dei dati.
[modifica] Tabella di valori
Numero di dati: | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
Q90%: | 0.941 | 0.765 | 0.642 | 0.560 | 0.507 | 0.468 | 0.437 | 0.412 |
Q95%: | 0.970 | 0.829 | 0.710 | 0.625 | 0.568 | 0.526 | 0.493 | 0.466 |
[modifica] Esempio di applicazione
Consideriamo i dati seguenti:
- 0.189, 0.169, 0.187, 0.183, 0.186, 0.182, 0.181, 0.184, 0.181, 0.177
Dopo averli ordinati in ordine crescente, calcoliamo per ognuno la differenza tra i valori successivi:
0.169 | 0.177 | 0.181 | 0.181 | 0.182 | 0.183 | 0.184 | 0.186 | 0.187 | 0.189 |
--- | 0.008 | 0.004 | 0.000 | 0.001 | 0.001 | 0.001 | 0.002 | 0.001 | 0.002 |
Il valore che più si discosta dagli altri è 0.169. Calcoliamone Q:
Con 10 dati, Qn è maggiore del Q90% e minore del Q95% riportati in tabella. Possiamo quindi scartare 0.169 se vogliamo il 90% di affidabilità, mentre al 95% possiamo tenerlo. Esiste dunque una probabilità inferiore al 10%, ma superiore al 5%, che quel dato appartenga alla stessa popolazione degli altri nove numeri.