Méthode des moindres carrés
Un article de Wikipédia, l'encyclopédie libre.
La méthode des moindres carrés, indépendamment élaborée par Gauss et Legendre, permet de comparer des données expérimentales, généralement entachées d’erreurs de mesure à un modèle mathématique censé décrire ces données.
Ce modèle peut prendre diverses formes. Il peut s’agir de lois de conservation que les quantités mesurées doivent respecter. La méthode des moindres carrés permet alors de minimiser l’impact des erreurs expérimentales en « ajoutant de l’information » dans le processus de mesure.
Dans le cas le plus courant, ce modèle est une famille de fonctions ƒ(x,α) d’une ou plusieurs variables muettes x, indexées par un ou plusieurs paramètres α inconnus. La méthode des moindres carrés permet de sélectionner parmi ces fonctions, celle qui reproduit le mieux les données expérimentales. On parle dans ce cas d’ajustement par la méthode des moindres carrés. Si les paramètres α ont un sens physique la procédure d’ajustement donne également une estimation indirecte de la valeur de ces paramètres.
La méthode consiste en une prescription (initialement empirique) qui est que la fonction ƒ(x,α) qui décrit « le mieux » les données est celle qui minimise la somme quadratique des déviations des mesures aux prédictions de ƒ(x,α).
Si par exemple, nous disposons de N mesures
- (yi ) i = 1, N
les paramètres α « optimaux » au sens de la méthode des moindres carrés sont ceux qui minimisent la quantité :
Si, comme c'est généralement le cas, on dispose d'une estimation de l'écart-type σi de chaque mesure yi (l'erreur qui affecte chaque yi ), on l'utilise pour « peser » la contribution de la mesure au χ². Une mesure aura d'autant plus de poids que son erreur sera faible:
La quantité ci-dessus est appelée khi carré ou khi-deux. Son nom vient de la loi statistique qu'elle décrit, si les erreurs de mesure qui entachent les yi sont normalement distribuées (ce qui est très courant).
Dans ce dernier cas, la méthode des moindres carrés permet de plus d’estimer quantitativement l’adéquation du modèle aux mesures, pour peu que l'on dispose d'une estimation fiable des erreurs σi. Si le modèle d’erreur est non gaussien, il faut généralement recourir à la méthode du maximum de vraisemblance, dont la méthode des moindres carrés est un cas particulier.
Son extrême simplicité fait que cette méthode est très couramment utilisée de nos jours en sciences expérimentales. Dans de nombreux cas, la quantité que l’on cherche à mesurer n’est pas observable et n’apparaît qu’indirectement comme paramètre d’un modèle théorique. Dans ce dernier cas de figure, il est possible de montrer que la méthode des moindres carrés est un estimateur de ces paramètres, qui vérifie certaines conditions d’optimalité. En revanche, cet estimateur peut être parfois biaisé. Par ailleurs, il est extrêmement sensible aux points aberrants : on traduit ce fait en disant qu’il est non robuste. Plusieurs techniques permettent cependant de « robustifier » la méthode.
Sommaire |
[modifier] Histoire
Le jour du Nouvel An de 1801, l'astronome italien Giuseppe Piazzi a découvert l'astéroïde Cérès. Il a alors pu suivre sa trajectoire durant 40 jours. Durant cette année, plusieurs scientifiques ont tenté de prédire sa trajectoire sur la base des observations de Piazzi (noter que la résolution des équations non linéaires de Kepler de la cinématique est un problème très difficile). La plupart des prédictions furent erronées; et le seul calcul suffisamment précis pour permettre à Zach, un astronome allemand, de localiser à nouveau Cérès à la fin de l'année, fut celui de Carl Friedrich Gauss, alors âgé de 24 ans (il avait déjà réalisé l'élaboration des concepts fondamentaux en 1795, lorsqu'il était alors âgé de 18 ans). Mais sa méthode des moindres carrés ne fut publiée qu'en 1809, lorsqu'elle parut dans le tome 2 de ses travaux sur la Mécanique céleste , Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium. Le mathématicien français Adrien-Marie Legendre a développé indépendamment la même méthode en 1805.
En 1829, Gauss a pu donner les raisons de l'efficacité de cette méthode ; en effet, la méthode des moindres carrés est justement optimale à l'égard de bien des critères. Cet argument est maintenant connu sous le nom du théorème de Gauss-Markov.
[modifier] Formalisme
[modifier] Deux exemples simples
[modifier] Moyenne d'une série de mesures indépendantes
L'exemple le plus simple d'ajustement par la méthode des moindres carrés est probablement le calcul de la moyenne m d'un ensemble de mesures indépendantes (yi)i = 1..N entachées d'erreurs gaussiennes. La prescription des moindres carrés revient à minimiser la quantité :
Cette quantité est une forme quadratique définie positive. Son minimum se calcule par différenciation : gradχ2(m) = 0. Ce qui donne la formule usuelle :
[modifier] Régression linéaire
Un autre exemple est l'ajustement d'une loi linéaire du type y = αx + β sur des mesures indépendantes, fonction d'un paramètre connu x. Ce type de situation se rencontre par exemple lorsque l'on veut calibrer un appareil de mesure simple (ampèremètre, thermomètre) dont le fonctionnement est linéaire. y est alors la mesure instrumentale (déviation d'une aiguille, nombre de pas d'un ADC, ...) et x la grandeur physique qu'est censé mesurer l'appareil, généralement mieux connue, si l'on utilise une source de calibration fiable. La méthode des moindres carrés permet alors de mesurer la loi de calibration de l'appareil, d'estimer l'adéquation de cette loi aux mesures de calibration (i.e. dans le cas présent, la linéarité de l'appareil) et de propager les erreurs de calibration aux futures mesures effectuées avec l'appareil calibré. À noter qu'en général, les erreurs (et corrélations) portant sur les mesures yi et les mesures xi doivent être prises en compte. Nous traiterons ce cas général dans la section consacrée aux ajustements de modèles implicites.
La prescription des moindres carrés s'écrit pour ce type de modèle:
Le minimum de cette expression est atteint pour gradχ2 = 0, ce qui donne:
La détermination des paramètres "optimaux" (au sens des moindres carrés) α et β se ramène donc à la résolution d'un système d'équations linéaires. Il s'agit là d'une propriété très intéressante, liée au fait que le modèle lui-même est linéaire. On parle d'ajustement ou de régression linéaire. Dans le cas général, la détermination du minimum du χ2 est un problème plus compliqué, et généralement coûteux en temps de calcul.
La valeur des paramètres αmin et βmin dépend des mesures yi réalisées. Comme ces mesures sont entachées d'erreur, on conçoit bien que si l'on répète M fois les N mesures de calibration, et que l'on réalise à l'issue de chaque série l'ajustement décrit plus haut, on obtiendra M valeurs numériquement différentes de αmin et βmin. Les paramètres de l'ajustement peuvent donc être considérés comme des variables aléatoires, dont la loi est fonction du modèle ajusté et de la loi des yi.
On montre que la dispersion qui affecte les valeurs de αmin et βmin dépend du nombre de points de mesure, N, et de la dispersion qui affecte les mesures (moins les mesures sont précises, plus αmin et βmin fluctueront). Par ailleurs, αmin et βmin ne sont généralement pas des variables indépendantes. Elles sont généralement corrélées, et leur corrélation dépend du modèle ajusté (nous avons supposé les yi indépendants).
[modifier] Ajustement de modèles non-linéaires
[modifier] Ajustement sous contraintes
[modifier] Formalisme général : ajustement de modèles implicites
[modifier] Interprétation statistique
[modifier] Le critère du χ²
[modifier] Optimalité de la méthode des moindres carrés
Il faut se garder de penser que cette méthode est la méthode optimale quels que soient les cas de figure. Ainsi par exemple appliquer une méthode des moindres carrés sur une courbe en log-log (chaque axe porte le logarithme de la valeur représentée) peut ne pas présenter grand sens. De même, selon que l'on a à sa disposition un ampèremètre ou un wattmètre, la mesure de grandeur de ce qui passe dans un réseau de résistance sera soit :
- L'intensité (i)
- La puissance (Ri²)
Il va de soi qu'une méthode des moindres carrés sur la première de ces valeurs n'a pas de raison de donner le même résultat sur la seconde. Il faut donc bien s'interroger sur la signification de ce « carré d'erreur » que l'on cherche à minimiser, et si besoin effectuer au préalable les changements de variable adéquats.
Ce serait également une erreur que d'appliquer une méthode de moindres carrés à une classification par rang (voir Loi de Zipf).
En revanche, là où une distribution gaussienne est présumée (ou choisie pour des raisons d'entropie maximale en cas de méthode bayésienne), son choix peut souvent se justifier, et on le démontre même optimal si la relation entre les deux variables est bien linéaire.
[modifier] Robustesse
[modifier] Sensibilité aux points aberrants
[modifier] Techniques de robustification
[modifier] Articles connexes
Portail des mathématiques – Accédez aux articles de Wikipédia concernant les mathématiques. |