赤池情報量規準

出典: フリー百科事典『ウィキペディア（Wikipedia）』

赤池情報量規準(あかいけじょうほうりょうきじゅん; 元々は An Information Criterion, のちに Akaike's Information Criterionと呼ばれるようになる)は、統計モデルの良さを評価するための指標である。単にAICとも呼ばれ、この呼び方の方が一般的である。統計学の世界では、非常に有名な指標であり多くの統計ソフトに備わっている。元統計数理研究所所長の赤池弘次が1971年に考案し1974年に発表した。

AICは、「モデルの複雑さと、データとの適合度とのバランスを取る」ために使用される。例えば、ある測定データを統計的に説明するモデルを作成することを考える。この場合、パラメータの数や次数を増やせば増やすほど、その測定データとの適合度を高めることができる。しかし、その反面、ノイズなどの偶発的な（測定対象の構造と無関係な）変動にも無理にあわせてしまうため、同種のデータには合わなくなる（過適合問題、Overfitting）。この問題を避けるには、モデル化のパラメータ数を抑える必要があるが、実際にどの数に抑えるかは難しい問題である。AICは、この問題に一つの解を与える。具体的にはAIC最小のモデルを選択すれば、多くの場合、良いモデルが選択できる。

公式は次の通りである。

$\mathrm{AIC} = - 2 \ln{}(L) + 2 k\,$

ここで $L$ は最大尤度、 $k$ は自由パラメータの数である。

AICにはいくつかのバージョンがある。例えば、サンプル数が少ない場合の補正を加えたAICcの公式は、次の通りである。

$\mathrm{AICc} = - 2 \ln{}(L) + 2 k \left( {n \over n - k - 1} \right)$

ここで $n$ はサンプル数である。 $n$ が大きくなるにつれてAICcは、AICへと収束してゆく。

しかしながら、AIC最小のものを選択すれば常に最良であるかと言うと一概にはそう言えない。そのため、AICの後、モデル選択基準として、BIC、CIC、EIC、GIC、PIC、TICなど多くの基準が提案されている。xICという名称のモデル以外では、MDLがある。このうち、BIC(ベイズ情報量規準)、MDL(Minimum Description Length)が特に有名である。これらの中でGICは一般化情報量規準(Generalized Information Criterion)で，統計的汎関数に基づいて提案された情報量規準である．