Régression linéaire multiple
Un article de Wikipédia, l'encyclopédie libre.
Sommaire
|
[modifier] Présentation
La régression linéaire multiple est une généralisation, à p variables explicatives, de la régression linéaire simple.
Nous sommes toujours dans le cadre de la régression mathématique : nous cherchons à prédire, avec le plus de précision possible, les valeurs prises par une variable y, dite endogène, à partir d'une série de variables explicatives x1, x2, …, xp.
Dans le cas de la régression linéaire multiple, la variable endogène et les variables exogènes sont toutes quantitatives (continues) ; et le modèle de prédiction est linéaire.
[modifier] Equation de régression et objectifs
Nous disposons de n observations (i = 1,…, n ). L'équation de régression s'écrit
- y i = a0 + a1×x i, 1 + … + ap × x i, p + ε i
où
- ε i est l'erreur du modèle, elle exprime, ou résume, l'information manquante dans l'explication linéaire des valeurs de y à partir des x j (problème de spécifications, variables non prises en compte, etc.) ;
- a0, a1, …, ap sont les coefficients (paramètres) du modèle à estimer.
La problématique reste la même que pour la régression simple :
- estimer les paramètres a j en exploitant les observations.
- évaluer la précision de ces estimateurs ;
- mesurer le pouvoir explicatif du modèle. ;
- évaluer l'influence des variables dans le modèle :
- globalement (lesp variables en bloc) et,
- individuellement (chaque variable) ;
- évaluer la qualité du modèle lors de la prédiction (intervalle de prédiction) ;
- détecter les observations qui peuvent influencer exagérément les résultats (points atypiques).
[modifier] Notation matricielle
Nous pouvons adopter une écriture condensée qui rend la lecture et la manipulation de l'ensemble plus facile. Les équations suivantes
peuvent être résumées avec la notation matricielle
- Y = Xa + ε
avec
- Y est de dimension (n , 1) ;
- X est de dimension (n, p + 1) ;
- a est de dimension (p+1, 1) ;
- et ε> : (n, 1) ;
- la matrice X est égale à
-
,
- la première colonne sert à indiquer que nous procédons à une régression avec constante.
[modifier] Hypothèses
Comme en régression simple, les hypothèses permettent de déterminer : les propriétés des estimateurs (biais, convergence) ; et leurs lois de distributions (pour les estimations par intervalle et les tests d'hypothèses).
Il existe principalement deux catégories d'hypothèses :
- Hypothèses stochastiques
- H1 : les X j sont non aléatoires, j = 1, …, p ;
- H2 : E(ε i ) = 0, le modèle est bien spécifié en moyenne ;
- H3 : E(ε i²) = σε², homoscédasticité ;
- H4 :
, pour i ≠ i ', absence d'autocorrélation des erreurs ;
- H5 : COV(X i, j, ε i ) = 0, les erreurs sont indépendantes des variables exogènes ;
- H6 :
.
- Hypothèses structurelles
- H7 : absence de colinéarité entre les variables explicatives, i.e. X 'X est régulière, det(X 'X) ≠ 0 et (X 'X)-1 existe (remarque : c'est la même chose, rang(X) = rang(X 'X) = p + 1) ;
- H8 :
tend vers une matrice finie non singulière lorsque n → +∞ ;
- H9 : n > p + 1, le nombre d'observations est supérieur au nombre de variables + 1. Notons que s'il y avait égalité, le nombre d'équations serait égal au nombre d'inconnues aj, la droite de régression passe par tous les points, nous sommes face à un problème d'interpolation linéaire (voir Interpolation numérique).
[modifier] La méthode des moindres carrés ordinaires
[modifier] Estimateur des moindres carrés ordinaires (EMCO)
Le principe des moindres carrés consiste à rechercher les valeurs des paramètres qui minimisent la somme des carrés des erreurs, à savoir
.
En adoptant l'écriture matricielle, nous minimisons donc
- S = ε'ε.
Ce qui revient à rechercher les solutions de . Nous disposons de p + 1 équations, dites équations normales, à résoudre.
La solution obtenue est l'estimateur des moindres carrés ordinaires, il s'écrit :
- â = (X 'X)-1X 'Y
où
- X ' est la transposée de X ;
- si les x j sont centrés, X 'X correspond à la matrice de variance co-variance des exogènes ; s'ils sont centrés et réduits, X 'X correspond à la matrice de corrélation.
[modifier] Propriétés des estimateurs
Si les hypothèses initiales sont respectées, cet estimateur des MCO (Moindres Carrés Ordinaires) possède d'excellentes propriétés :
- il est sans biais, c.-à-d. E(â ) = a ;
- il est convergent, c.-à-d. la variance des estimateurs tend vers zéro lorsque le nombre des observations n tend vers l'infini ;
- on peut même prouver que l'EMCO est le meilleur estimateur linéaire sans biais (en anglais : BLUE, pour best linear unbiased estimator) cà.-d. il n'existe pas d'estimateur sans biais de a qui ait une variance plus petite.
[modifier] Évaluation
[modifier] Écart-type de l'erreur et matrice de variance covariance des coefficients
Pour réaliser les estimations par intervalle et les tests d'hypothèses, la démarche est presque toujours la même en statistique paramétrique :
- définir l'estimateur (â dans notre cas) ;
- calculer son espérance mathématique (ici E(â ) = a) ;
- calculer sa variance (ou sa matrice de variance co-variance) et produire son estimation ;
- et enfin déterminer sa loi de distribution (en général et sous l'hypothèse nulle des tests).
[modifier] Matrice de variance co-variance de â
La matrice de variance co-variance est définie par :
- Ωâ = E[(â - a)(â - a)']
En développant cette expression, nous obtenons :
- Ωâ = σε²·(X 'X)-1
Pour obtenir une estimation de la variance co-variance de â, nous devons donc trouver une estimation de l'écart-type de l'erreur σε.
[modifier] Estimation de l'écart-type de l'erreur σε
Pour étudier l'erreur du modèle, nous nous appuyons sur les résidus observés , où
est la prédiction du modèle.
Les calculs montrent que
.
Nous en déduisons tout naturellement un estimateur sans biais de la variance de l'erreur (et donc de son écart-type) :
où n - p - 1 = n - (p + 1), le nombre d'observations moins le nombre de coefficients à estimer, correspond aux degrés de liberté du modèle.
[modifier] Estimation de la matrice de variance co-variance de â
Nous nous appuyons sur ces calculs pour produire l'estimation de la matrice de variance co-variance des coefficients estimés :
La variance estimée de l'estimation du paramètre â j est lue sur la diagonale principale de cette matrice.
[modifier] Étude des coefficients
Après avoir obtenu l'estimateur, son espérance et une estimation de sa variance, il ne reste plus qu'à calculer sa loi de distribution pour produire une estimation par intervalle et réaliser des tests d'hypothèses.
[modifier] Distribution
En partant de l'hypothèse
,
nous pouvons montrer
Le rapport d'une loi normale et de la racine carrée d'une loi du χ² normalisée par ses degrés de liberté aboutit à une loi de Student. Nous en déduisons donc la statistique :
elle suit une loi de Student à (n - p - 1) degrés de liberté.
[modifier] Intervalle de confiance et tests d'hypothèses
À partir de ces informations, il est possible de calculer les intervalles de confiance des estimations des coefficients.
Il est également possible de procéder à des tests d'hypothèses, notamment les tests d'hypothèses de conformité à un standard. Parmi les différents tests possibles, le test de nullité du coefficient (H0 : a j = 0, contre H1 : a j ≠ 0) tient un rôle particulier : il permet de déterminer si la variable x j joue un rôle significatif dans le modèle. Il faut néanmoins être prudent quant à ce test. L'acceptation de l'hypothèse nulle peut effectivement indiquer une absence de corrélation entre la variable incriminée et la variable endogène ; mais il peut également résulter de la forte corrélation de x j avec une autre variable exogène, son rôle est masqué dans ce cas, laissant à croire une absence d'explication de la part de la variable.
[modifier] Evaluation globale de la régression — Tableau d'analyse de variance
[modifier] Tableau d'analyse de variance et coefficient de détermination
L'évaluation globale de la pertinence du modèle de prédiction s'appuie sur l'équation d'analyse de variance SCT = SCE + SCR, où
- SCT, somme des carrés totaux, traduit la variabilité totale de l'endogène ;
- SCE, somme des carrés expliqués, traduit la variabilité expliquée par le modèle ;
- SCR, somme des carrés résiduels correspond à la variabilité non-expliquée par le modèle.
Toutes ces informations sont résumés dans un tableau, le tableau d'analyse de variance.
Source de variation | Somme des carrés | Degrés de liberté | Carrés moyens |
---|---|---|---|
Expliquée | ![]() |
p | ![]() |
Résiduelle | ![]() |
n - p - 1 | ![]() |
Totale | ![]() |
n - 1 |
Dans le meilleur des cas, SCR = 0, le modèle arrive à prédire exactement toutes les valeurs de y à partir des valeurs des x j. Dans le pire des cas, SCE = 0, le meilleur prédicteur de y est sa moyenne .
Un indicateur spécifique permet de traduire la variance expliquée par le modèle, il s'agit du coefficient de détermination. Sa formule est la suivante :
est le coefficent de corrélation multiple.
Dans une régression avec constante, nous avons forcément
- 0 ≤ R ² ≤ 1.
Enfin, si le R ² est certes un indicateur pertinent, il présente un défaut parfois ennuyeux, il a tendance à mécaniquement augmenter à mesure que l'on ajoute des variables dans le modèle. De fait, il est inopérant si l'on veut comparer des modèle comportant un nombre différent de variables. Il est conseillé dans ce cas d'utiliser le coefficient de détermination ajusté qui est corrigé des degrés de libertés :
[modifier] Significativité globale du modèle
Le R ² est un indicateur simple, on comprend aisément que plus il s'approche de la valeur 1, plus le modèle est intéressant. En revanche, il ne permet pas de savoir si le modèle est statistiquement pertinent pour expliquer les valeurs de y.
Nous devons nous tourner vers les tests d'hypothèses pour vérifier si la liaison mise en évidence avec la régression n'est pas un simple artefact.
La formulation du test d'hypothèse qui permet d'évaluer globalement le modèle est le suivant :
- H0 : a1 = a2 = … = ap = 0 ;
- H1 : un des coefficients au moins est non nul.
La statistique dédiée à ce test s'appuie (parmi les différentes formulations possibles) sur le R ², il s'écrit :
,
et suit une loi de Fisher à (p, n - p - 1) degrés de liberté.
La région critique du test est donc : rejet de H0 si et seulement si Fcalc > F1 - α(p, n - p - 1), où α est le risque de première espèce.
Une autre manière de lire le test est de comparer la p-value (probabilité critique du test) avec α : si elle est inférieure, l'hypothèse nulle est rejetée.
[modifier] Un exemple
Les données CARS disponibles sur le site DASL ont été utilisées pour illustrer la régression linéaire multiple.
L'objectif est de prédire la consommation des véhicules, exprimée en MPG (miles parcouru par gallon de carburant, plus le chiffre est élevé, moins la voiture consomme) à partir de leurs caractéristiques (weight — poids, drive ratio — rapport de pont, horsepower — puissance, …). Conformément à ce qui est indiqué sur le site, l'observation « Buick Estate Wagon », qui est un point atypique, a été supprimée de l'analyse.
Les résultats sont consignés dans les tableaux suivants :
Variable engogène | MPG |
Exemples | 37 |
R ² | 0,933 367 |
R ² ajusté | 0,922 62 |
Erreur σ | 1,809 093 |
Test F(5,31) | 86,847 2 (0,000 000) |
- La variance expliquée par le modèle est de R ² = 0,93, ce qui est elévé ; le modèle semble très bon ;
- le tableau d'analyse de variance et le test F associé indique effectivement que le modèle est globalement très significatif ; Fcalc = 86,84, avec une probabilité critique (p-value) très nettement en-deça du seuil de 5 % couramment utilisé dans la pratique ;
- les variables significatives sont le poids (weight) et le rapport de pont (drive ratio). Les autres semblent sans effet dans l'explication de la consommation.
Cette lecture très simplifiée du rôle des variables doit bien sûr être relativisée. La puissance (horsepower) est vraisemblablement masquée par le poids auquel elle est très fortement corrélée. Ce problème de colinéarité des exogènes est crucial dans la régression. Il faut le détecter, et il faut le traiter. Il existe des méthodes de sélection automatique de variables pour y rémedier, l'expert du domaine joue également un rôle important. C'est pour cette raison par exemple qu'en économie, une analyse de régression doit être accompagnée d'une analyse économique fine des causalités que l'on essaie de déceler.
[modifier] Voir aussi
[modifier] Références
- R. Bourbonnais, Econométrie, Dunod, 1998.
- Y. Dodge, V. Rousson, Analyse de régression appliquée, Dunod, 2004.
- R. Giraud, N. Chaix, Econométrie, Puf, 1994.
- C. Labrousse, Introduction à l'Econométrie -- Maîtrise d'Econométrie, Dunod, 1983.
[modifier] Articles connexes
[modifier] Logiciels
- Regress32, un logiciel dédié à la régression linéaire multiple.
- Tanagra, un logiciel de statistique et d'analyse de données, comportant un module de régression.
- Free Statistics, un portail recensant plusieurs logiciels de statistique libres et gratuits, plusieurs d'entre eux traitent de la régression linéaire multiple.