ベイズの定理
出典: フリー百科事典『ウィキペディア(Wikipedia)』
ベイズの定理(ベイズのていり, Bayes' theorem )とは、1763年に発表された確率論の定理である。今日では、いくつかの未観測要素を含むコンピュータによる推論等に応用され、迷惑メールの発見・分類といった作業の自動化(フィルタリング)といった情報工学上の情報ふるい分けに利用されている。
[編集] 概要
- P(B) = 事象Bが発生する確率(事前確率, prior probability)
- P(B|A) = 事象Aが起きた後での、事象Bの確率(事後確率, posterior probability)
とする。 ベイズの定理によれば、P(A) > 0 ならば、
- P(B|A)=P(A|B) * P(B) / P(A)
が成り立つ。
ベイズの定理は、ある結果(データ)が得られた時、その結果を反映した下での事後確率を求めるのに使われている。定理はイギリスの牧師トーマス・ベイズ(1702年(?) - 1761年)によって発見され、のちにピエール=シモン・ラプラスによってその存在が広く認識されるようになった。
なお、ベイズの定理を本格的に使う理論体系がベイズ統計学やベイズ決定理論と呼ばれる分野である。
[編集] 実際の応用
ベイズの定理は事前確率および尤度を仮定した下で事後確率を与える、というあくまで相対的なメカニズムを表わした定理にすぎない。したがって事後確率の計算結果の信憑性や有用性は、事前分布と尤度の設定にかかっており、慎重を期すことが必要である。これはベイズの定理を含むベイズ統計学が、不確実性を含む問題を人によって異なる確率を用いて定式化することを許容する主観確率 (subjective probability) という立場をとっていることによる。この立場はまだ解析対象となっていない新たな問題へのアプローチを可能にするという利点がある一方で、確率の決め方について客観性に欠けるという批判もある(客観確率)。
いずれにしても、ベイズの定理は通信や機械学習などの情報工学の基礎研究分野からスパムフィルタなどの実用分野まで、我々の社会のために非常に大きな役割を果たしていることに変わりはない。ベイズの定理を逆に見て、事象Aが発生したときに、Bが発生していた確率 P(B|A) を知りたい場合に使われることもある。
たとえば、ある年齢で癌である確率 P(B1) と癌でない確率 P(B2) 、癌である人が検査で陽性と出る確率 P(A|B1)、 癌でない人が検査で陽性と出る確率 P(A|B2) を統計調査を元に求めておけば、この検査を行って陽性と出た人が癌である確率は P(B1|A) によって求められるのである。癌であるかどうかが陽性かどうかという検査結果の確率を決めているものの、ベイズの定理は検査結果から癌であるかどうかの確率を求めていることになる。
ベイズの定理は社会科学の分野にも応用されている。たとえば生活環境的に兄弟の多い人Aで思想が共産主義になるB確率を求める。一般的にはそのような因果関係はないかもしれないと思われている場合にそのような因果関係があるのか、ないのかをベイズの定理は調べることができる。
行動における認知と、認知科学はこの点を明確にして社会心理学の領域におけるベイズの定理の応用の実例がある。
行動科学においては危険の認知において、不確実な状態を想定する。従って何度も飛行機に乗ってみて、危険性の確率を毎回変えていくことになる。一方認知心理学は認知において危険であるとの認識が正しいと考えれば行動を中止する。この場合の認識は最初から与えられた事前的に確定した危険の確率を想定していることになる。従って飛行機に乗ることをやめる確率は、自動車で行った場合の方がより危険性の確率が低いと考えられる場合である。
ところが行動心理学においては何度も飛行機にのることを経験するごとに、 自動車に乗ることよりも危険の確率が低いことを知ることによって飛行機を利用するという選択を行うことになる。
社会科学において行動科学の発達によって、特に意思決定がどのように行われるのか、リスクの管理がどのように行われるのかについての研究が進んできた。
経営科学や、政治学の科学化は行動科学の領域を拡大させたがその際にベイズの定理が応用されることになった。
一例として統計学者森田優三が挙げる例は、融資の実行において融資先の調査が精緻になされた場合には危険性が除去されることによって実際的に倒産の危険性が少なくなったという証明にベイズの定理を使うことができるという証明の問題を挙げて説明している。この場合には融資先調査によって事前確率は事後確率をより少なくするのに効果があったという証明になっているとしている。倒産の危険性は限定された融資先に投資することによって確かに少なくなったという証明が有意に行うことができるであろう。しかしそれを数字的に何%少なくなった、その他の方法がよかったかもしれないということに応用的に科学的に証明するために統計学は使われることが可能である。その際にこのベイズの定理は唯一有意に証明するものである。
これを伝統的統計学では一社会における倒産の確率を求めることができるが、事前確率は事後確率を大きく上回っていたが、それは融資先の調査を行わなかったからであるという結論を出すことはできない。その原因としての融資先の調査が直接に倒産の確率を下回らせたということはまた経験的なものであるが、しかしその有意さが大きければ大きいほどそれが原因で倒産の確率は少なくなったということはできる。経済が好転したという原因も差し挟むことができるが、これまでの伝統的統計的経営経済学がそのようなものを一切把握できなかったのに比べれば、統計学の飛躍的発展とみなさざるをえないであろう。
たとえば経済全体が非常に悪化している時に、経営計画によって経営を改善することが何%できるのかという判定を行う場合、その経営改善率が1%の社会では経済は恐慌の状態であるが、80%であればアメリカンドリームが有効な社会であるというような判定に使用することができる。
その場合に家族の状態がどのように政治思想や、政党の選択態度に影響を与えているのかについても、そのような様々な環境の変化や、その他の状況の変化など「原因」がどの程度有意に思想の形成に影響を与えているのかは、経験的に 貧乏の中で育ったから共産主義を応援するのだ、あるいは、労働者であるから共産主義を応援するのだ、あるいはーーーというような原因を様々に経験的に考察した上で、かっての生育歴という非常に古い事前的な確率と、実際にそうなっているという事後的な確率から求めることによって、原因の特定を行うことができるようになる。
ベイズの定理の社会科学上の有意性はこのように結果からその原因がどこにあったのかを判定できる点にあり、結果の原因を、尤度のような事前の感覚的なものではなくて科学的な数字によって判定できるという点にある。これは社会科学の大きな進歩に通じうるといえる。
これは法学的には証拠論について応用の範囲が大きく、また労働者の絶対的貧窮化を本当に証明できるのかというときなどの原因の追求に使用できる。黒人であっても、貧乏な生活環境にあっても努力によって、あるいは倒産しそうな企業が、よくできたビジネス上の計画によって、事態を解決できる状態にあるのかどうかなどの判定にも使うことができる。ビジネススクールの教育の有用性を増すためになどの教育学上の判定にも使うことができる。このような多くの学際的な利用が可能であるのはガンの判定や、迷惑メールの判定などの自然科学の分野にも実際に使用されていることによっても理解できる。
このような経営科学の側面を政治学にも応用しようとするのが政治学の行動科学化を主張しているアメリカの政治学である。内田満は「日本政治学の一源流」の中で「ローウェルは、1920年代の「新しい政治学」の先行者として、また今日の行動科学運動の知的発達として、メリアムと同列におかれる」(ソミット、ターネンハウス)のことばによって、ローウェルとメリアムとをもって行動科学運動が1920年代に始まったことを紹介している。メリアムは諸科学と政治学との「異花受精”cross-fertilization”」と「共同的作業」を主張したのである。
今日のコンピューター化が発達した時代においては旧来からの行動心理学と、認知心理学の境界があいまいになってきている。ベイズの定理が事前的に、あるいは、事後的にという概念を使ってコンピューター化の時代においてフローチャートの中で危険(リスク)を認知した場合に人間がどのように動くのかというときの科学的な確率の計算、およびその証明に一役買っている。
たとえば毒の認知は毒である限り100%の危険性の認知であるので、行動をやめるであろうが、社会的な認知においては何度も事前的に、あるいは、事後的に危険性の確率の認知と行動を繰り返して試験的に、かつ、実験的に行動によって科学的に研究を行う存在が人間であると考えられるからである。
特に行動科学としての経営科学および政治学の場合にはこの有用性はきわめて大きい。
経済学においても、ケインズからの現代経済学まで脈々と続いているが不確実性に関する予測と、投資の危険性の認知と、行動、再認知、再投資の問題はあらゆる経済行動に当てはまるのであって重要な視点となっている。
社会科学の領域ではベイズの定理を紹介した鈴木雪夫によれば、日本の統計学とは違い、アメリカではベイズの定理の研究者が伝統統計学の研究者よりもずっと多いが、日本ではまったく逆になっているとしている。
なおカイ二乗検定などの伝統的な統計学はベイズの定理によって置き換える場合には、事前の確率と、事後の確率とをもとめるために時間的な概念が必要であり、さらに両時間における環境の変化が尤度にどの程度の影響を与えるのかまで検討してはじめて適用が可能であるのであるから、両者がまったく異なったものではなくて、ベイズの定理はピアソンの伝統的統計学の発展した形であるということができる。
コンピューターの分野においてはMozilla Thunderbirdは迷惑メールの判定にベイズの定理を使用している。
以上のように、ベイズの定理を中心として構築されたベイズ統計学は自然科学・社会科学の両分野で広く用いられており、応用は多岐に渡る。しかし、用いられる際の指針は常に以下のように一貫している事がわかるであろう。まず時間軸上で事前・事後の境界を設定し、事前確率を用いて事後事象を引き起こした原因を特定する。次いで、原因となった事前事象にかりに修正を加えた場合、事後に有意な改善が見られるかどうかを判定する。最後に、問題となっている現場で実際にその原因を除去して、特定の事後事象が発生する危険性を少なくしようとする。これらの手順は、迷惑メール処理の場合であれ、不確実性の強い経営・経済・政治の場合であれいつも共通している。ベイズ統計は、行動を将来につなげ、またその行動が妥当かつ有意である事を確率によって証明するという、応用性に満ちた学問なのである。