十分統計量
出典: フリー百科事典『ウィキペディア(Wikipedia)』
十分性(じゅうぶんせい)は、統計学用語。
ある統計データに対し、それが従う確率分布を示す母数 θ に対応する統計量の値が決められた条件下で、データが出現する条件付き確率分布が、もはやθ にはよらない場合に、この統計量は十分である(あるいは統計量の十分性、十分統計量)という。
直感的にいうと、「母数θ(直接は求められず、推定しかできない)に対する十分統計量は、θ についてデータから得られる最大限の情報を含んでおり、現在得られる最良のものである」ということになる。十分統計量はロナルド・フィッシャーによって導入された、統計学的推定において基本的な概念である。
目次 |
[編集] 定義
確率変数X に対する統計量T(X) の値が与えられた条件下で、データx の従う条件付き確率分布が母数 θ と独立である場合、かつその場合に限り、「T(X)はθ に対して十分である」という。すなわち:
簡単に書けばである。従って
である。
[編集] フィッシャーの因子分解定理
十分統計量を決定する基準として、フィッシャーの因子分解定理がある。これは、
- つまり、密度関数 f が分解できて、1つの因子 h が θ に依存せず、またもう1つの因子が T(x) を通してのみ x に依存するようにできる
というものである。これは次のように考えるとわかりやすい。T(X) の値を一定に保ちながらデータ x の値を変え、このような変化が θ に関する推定に影響するかどうかを考えてみよう。上の基準が成り立つならば、尤度関数 f のθ に対する依存性は変化しないから、影響はないのだ。
[編集] 例
[編集] ベルヌーイ分布
X1, ...., Xn をベルヌーイ分布に従う独立な確率変数、その期待値をp とすると、和T(X) = X1 + ... + Xn が、p に対する十分統計量となる(ここで「成功」は Xi = 1 に、「失敗」はXi = 0 に当たる。従って T は総成功回数である)。
これは次の同時確率分布をみればわかる:
各観察は独立だから、次のように書き換えられる:
そしてp と 1 − p の累乗を集めて、
つまりh(x) は恒等関数となり、これは因子分解基準に合致する。
特に注目すべきは、不明の母数p が、統計量 T(x) = Σ xi を通じてのみ、観察値 x に関係することである。
[編集] 一様分布
X1, ...., Xn を、一様分布に従う独立な確率変数([0,θ]の値をとる)とすると、T(X) = max(X1, ...., Xn )が、θ に対する十分統計量である。
これは次の同時確率分布をみればわかる:
観察値は互いに独立だから、次のように書き換えられる:
ここで H(x) はヘヴィサイドの階段関数である。さらに書き換えて:
これはθ だけの関数と見なすことができ、maxi(Xi) = T(X) となる。これから因子分解条件が成り立ち、今度もh(x) は恒等関数である。
[編集] ポアソン分布
X1, ...., Xn を、母数λ のポアソン分布に従う独立な確率変数とする。和 T(X) = X1 + ... + Xn が λ に対する十分統計量である。同時確率は:
観察は独立であるから、次のように書き換えられる:
さらに
これから因子分解条件が成り立ち、h(x) は全変数の積の逆数である。
[編集] ラオ・ブラックウェルの定理
十分統計量 T(X) が与えられればX の条件付き分布はθ によらないので、T(X) が与えられた条件での任意の関数(ただし条件付き期待値が定義できるとする)g(X) の条件付き期待値も母数θ にはよらない。従ってこのような条件付き期待値も統計量であり、推定に用いることができる。
十分性に関して重要な定理に、ラオ・ブラックウェルの定理がある。この定理は、「g(X) をθ の推定量(どんな種類の推定量でもよい)とすれば、十分統計量T(X) のもとでのg(X) の条件付き期待値はθ のよい推定量(他の推定量より悪くなることはない)である」というものである。
これを利用して、大雑把な推定量 g(X) が得られたら、これから条件付き期待値を求めることで、最適な推定量が得られる。