マハラノビス距離
出典: フリー百科事典『ウィキペディア(Wikipedia)』
マハラノビス距離(-きょり)とは、統計学で用いられる一種の距離である。「普通の距離を一般化したもの」という意味でマハラノビス汎距離(-はんきょり)ともいう。P.C.マハラノビスにより1936年導入された。多変数間の相関に基づくものであり、多変量解析に用いられる。新たな標本につき、類似性 によって既知の標本との関係を明らかにするのに有用である。データの相関を考慮し、また尺度水準によらないという点で、ユークリッド空間で定義される普通のユークリッド距離とは異なる。
形式的には、平均が で、共分散行列(各変数間の共分散を配列した行列)が Σ であるような多変数ベクトル
で表される一群の値に対するマハラノビス距離は、次のように定義される:
マハラノビス距離はまた、共分散行列が Σ で同じ確率分布に従う2つの確率変数ベクトル、 と
の間の非類似性の指標としても定義できる:
共分散行列が対角行列ならば(異なる変数の間に相関がないということ)、マハラノビス距離は「正規化ユークリッド距離」と呼ばれる:
ここで σi は、 xi の集合における標準偏差である。さらに共分散行列が単位行列ならば、マハラノビス距離はユークリッド距離に一致する。
[編集] 直感的解釈
データをN-次元ユークリッド空間の点で表し、これがある集合(与えられた複数の標本点がこれに属すことがすでにわかっている)に属す確率を求めることを考えよう。まずは標本点の平均あるいは重心を求める。直感的には、目的とし ている点がその重心に近いほど、その集合に属す見込みが高い。しかし集合の大きさも知る必要がある。単純な方法としては、重心から各標本点への距離の標準偏差を求める方法がある。標本点と重心との距離が1標準偏差よりも小さいならば、標本点がその集合に属す可能性が高いといえる。距離が遠く離れるほど、点がその集合に分類されない可能性が高くなる。この直感的な考え方は、点と集合との間の正規化距離を と定義することで定量化することができる。これを正規分布に当てはめれば、点が集合に属す確率が求められる。この方法の欠点は、標本が重心のまわりに球状に分布していると仮定していることである。分布が球状でないとしたら、確率は重心からの距離だけでなく方向にも依存するだろう。
[編集] てこ比との関係
マハラノビス距離はてこ比(leverage)h という統計量と密接な関係がある。多変数データ集合の重心から目的とする点までのマハラノビス距離は、その点のてこ比に (N − 1) をかけたものとなる(ここでN はデータ集合の点の数)。
[編集] 応用
マハラノビス距離はクラスタリングなどの統計学的分類に幅広く使われる。ある点をNクラスの1つに分類するのにマハラノビス距離を利用するには、まず各クラスの共分散行列を(普通はそれに属すことがすでにわかっている標本に基 づいて)求める。次に、試験標本が与えられたら、各クラスへのマハラノビス距離を計算する。そしてマハラノビス距離が最小となるようなクラスに属すとして分類を決定する。これは上記の確率的解釈によれば、確率の最高となるクラスを選ぶことに等しい。またマハラノビス距離とてこ比は、線形回帰モデルを作る際、外れ値を決定するのによく使われる。他の標本集団からのマハラノビス距離が大きな点は、てこ比が高いという。これは、回帰曲線の勾配などの係数に対する影響が大きいということである。