Régression linéaire
Un article de Wikipédia, l'encyclopédie libre.
En statistiques, il arrive que deux grandeurs X et Y apparaissent liées par relation affine :
- Y = a·X + b.
La régression linéaire consiste à déterminer une estimation des valeurs a et b et à quantifier la validité de cette relation grâce au coefficient de corrélation linéaire. La généralisation à p variables
- Y = a0 + a1·X1 + a2·X2 + … + ap·Xp
s'appelle la régression linéaire multiple.
Sommaire |
[modifier] Situation
À partir de mesures de couples de valeurs (xi , yi ), on a représenté dans un graphe, un ensemble de points Mi (xi , yi ) | i = [1…n] représentant des mesures d'une grandeur y en fonction d'une autre x, par exemple la taille yi des enfants en fonction de leur âge xi.
Les points Mi paraissent alignés. On peut alors tenter une régression linéaire, c'est-à-dire chercher la droite D dont l'équation est y = a x + b et qui passe au plus près des points Mi.
Passer au plus près, selon la méthode des moindres carrés, c'est rendre minimale la somme :
où (yi - axi - b)² représente le carré de la distance verticale du point expérimental Mi à la droite considérée comme la meilleure.
Cela revient donc à déterminer les valeurs des paramètres a et b (respectivement le coefficient directeur de la droite et son ordonnée à l'origine) qui minimisent la somme ci-dessus.
[modifier] Formules à connaître
- La moyenne des xi :
- la moyenne des yi :
- le point moyen G a pour coordonnées
- la variance des xi :
<mnémonique : la moyenne des carrés moins le carré de la moyenne>
- l'écart type des xi :
- la variance des yi :
<mnémonique : la moyenne des carrés moins le carré de la moyenne>
- l'écart type des yi :
- la covariance des xi, yi :
<mnémonique : la moyenne des produits moins le produit des moyennes>
[modifier] Résultat de la régression
La droite rendant minimale la somme précédente passe par le point G et a pour coefficient directeur . Son équation est donc :
soit
[modifier] Erreur commise
Si l'on appelle εi l'écart vertical entre la droite et le point (xi , yi )
alors l'estimateur de la variance résiduelle σ²ε est :
la variance de a, σ²a , est estimée par
.
On est dans le cadre d'un test de Student sur l'espérance avec écart type inconnu. Pour un niveau de confiance α donné, on estime que l'erreur sur a est :
où tn-2(1+α)/2 est le quantile d'ordre α/2 de la loi de Student à n-2 degrés de liberté.
L'erreur commise en remplaçant la valeur mesurée yi par le point de la droite axi - b est :
À titre d'illustration, voici quelques valeurs de quantiles.
n | niveau de confiance | |||
---|---|---|---|---|
90 % | 95 % | 99 % | 99,9 % | |
5 | 2,02 | 2,57 | 4,032 | 6,869 |
10 | 1,812 | 2,228 | 3,169 | 4,587 |
100 | 1,660 | 1,984 | 2,626 | 3,390 |
Lorsque le nombre de points est important (plus de 100), on prend souvent une erreur à 3σ, qui correspond à un niveau de confiance de 99,7 %.
Voir aussi : Erreur (métrologie).
[modifier] Coefficient de corrélation linéaire
On peut aussi chercher la droite D' : x = a'y + b' qui rende minimale la somme :
On trouve alors une droite qui passe aussi par le point moyen G et telle que
.
On souhaite évidemment tomber sur la même droite. Ce sera le cas si et seulement si
- a' = 1/a,
c'est-à-dire si
- aa' = 1.
Les droites sont confondues si et seulement si
c'est-à-dire si et seulement si
On appelle cette quantité le coefficient de corrélation linéaire entre x et y. On peut démontrer que ce nombre est toujours compris entre -1 et 1.
En pratique sa valeur absolue est rarement égale à 1, mais on estime généralement que l'ajustement est valide dès que ce coefficient a une valeur absolue supérieure à
Voir également : Corrélation (mathématiques).
[modifier] Démonstration des formules par étude d'un minimum
Pour tout réel a, on pose . Il suffit de développer et ordonner ce polynôme du second degré en b. On obtient:
Ce polynôme atteint son minimum en
Ce qui signifie que la droite passe par le point moyen G
Il reste à remplacer dans la somme de départ, b par cette valeur.
Pour tout réel a, . Il suffit de développer et ordonner ce polynôme du second degré en a. On obtient
.
Ce polynôme atteint son minimum en
La droite de régression est bien la droite passant par G et de coefficient directeur .
[modifier] Démonstration des formules grâce aux espaces vectoriels de dimension n
Dans l'espace , muni du produit scalaire canonique, on considère le vecteur X de coordonnées (x1,x2,...,xn), le vecteur Y de coordonnées (y1,y2,...,yn), le vecteur U de coordonnées (1, 1, ..., 1).
On peut remarquer que
On note alors le vecteur
et
le vecteur
Le vecteur Z de coordonnées (ax1 + b,ax2 + b,...,axn + b) appartient à l'espace vectoriel engendré par X et U.
La somme représente le carré de la norme du vecteur Y − Z.
Cette norme est minimale si et seulement si Z est le projeté orthogonal de Y dans l'espace vectoriel vect(X,U)
Z est le projeté de Y dans l'espace vectoriel vect(X,U) si et seulement si (Z − Y).U = 0 et .
Or donc (Z-Y).U=0 signifie que
.
En remplaçant dans , on obtient
donc
signifie que
Enfin le coefficient de corrélation linéaire s'écrit alors . Cette quantité représente le cosinus de l'angle formé par les vecteurs
et
.
On retrouve alors les résultats suivants:
- si le coefficient de corrélation linéaire est 1 ou -1, les vecteurs
et
sont colinéaires de coefficient de colinéarité a et
. L'ajustement linéaire est parfait.
- si le coefficient de corrélation linéaire est en valeur absolue supérieur à
alors l'angle formé par les deux vecteurs est compris entre − π / 6 et π / 6 ou entre 5π / 6 et 7π / 6.
[modifier] Voir aussi
- Statistiques
- Statistique (mathématiques élémentaires)
- Régression mathématique
- Corrélation (mathématiques)
- Régression linéaire multiple, la généralisation à p variables explicatives de la régression linéaire
.
[modifier] Liens externes
- http://yves.demur.free.fr/reglin/reglin1105.pdf (utilisation pratique de la régression linéaire, + programmes test en C sur le site http://yves.demur.free.fr/reglin/reglin.htm)
- http://www.unilim.fr/pages_perso/jean.debord/math/reglin/reglin.htm La régression linéaire
- http://www.giacomo.lorenzoni.name/arganprobstat/ Analytical argumentations of probability and statistics.