囚人のジレンマ
出典: フリー百科事典『ウィキペディア(Wikipedia)』
囚人のジレンマ(しゅうじん - 、Prisoners' Dilemma)は、ゲーム理論や経済学において、個々の最適な選択が全体として最適な選択とはならない状況の例としてよく挙げられる問題。非ゼロ和ゲームの代表例でもある。この問題自体はモデル的であるが、実社会でもこれと似たような状況(値下げ競争、環境保護など)は頻繁に出現する。
1950年、アメリカ合衆国ランド研究所のメリル・フラッド (Merrill Flood) とメルビン・ドレシャー (Melvin Dresher) が考案し、顧問のアルバート・W・タッカー (A.W.Tucker) が定式化した。
目次 |
[編集] 囚人のジレンマ
[編集] 問題
ある事件において、共犯と思われる二人の被疑者が別件逮捕で捕らえられた。決定的な証拠がない二人の被疑者は、完全に隔離された上で双方に同じく以下の条件が与えられた。
- もし、あなたがこのまま黙秘を続け、もう一人も黙秘を続けた場合(別件の罪にしか問えないため)二人とも懲役2年だ。
- もし、あなたが自白し、もう一人が黙秘を続けた場合、あなたを司法取引によって刑を1年にしよう。ただし、もう一人は懲役15年だ。
- もし、あなたが自白し、もう一人も自白した場合、双方とも懲役10年だ。
- もう一人の方にも、全く同一の条件を伝えてある。
二人の容疑者を囚人A、囚人Bとおいて表にまとめると、以下のようになる。表内の左側が囚人Aの懲役、右側が囚人Bの懲役を表す。
囚人B 黙秘(協調) | 囚人B 自白(裏切り) | |
---|---|---|
囚人A 黙秘(協調) | (2年, 2年) | (15年, 1年) |
囚人A 自白(裏切り) | (1年, 15年) | (10年, 10年) |
このとき、囚人がどちらを選択するのがよい戦略かというのが問題である。
[編集] 解説
囚人Aにとっては、囚人Bが自白しようが黙秘しようが、いずれも自白を選択する方が囚人Aにとって「最適な選択」(支配戦略)である。これは囚人Bにとっても同様であるから、二人は共に自白を選択することになる(ナッシュ均衡)。この場合、二人の懲役は共に10年になる。ところが、二人が協調して黙秘することを選択すれば、二人の懲役は共に2年ですむ。つまり、双方とも自白するという行動の組合せはパレート効率的にはなり得ない。パレート改善的である。実際、この場合のパレート効率的な組合せは、(2,2)、(15,1)、(1,15)の3点であり、(10,10)はナッシュ均衡ではあってもパレート効率的ではない。
合理的な各個人が自分にとって「最適な選択」(裏切り)をすることと、全体として「最適な選択」をすることが同時に達成できないことがジレンマと言われる所以である。
[編集] 繰り返し型の囚人のジレンマ
上述のように、選択が一回きりの「囚人のジレンマ」では、個々の利得を最大化するため、両者が「裏切り」を選択するのがナッシュ均衡戦略となる。選択回数を複数にしても有限回数、すなわち、最終回がいつかをプレーヤーが知っている場合、最終回の選択で両者が「裏切り」を選択し、最終回で裏切られることがわかっている両者は、その前の回の選択も「裏切り」の選択をすることになり、結果的に、両者とも最初から「裏切り」を選択し続けてしまう。
ところが、何度繰り返すかあらかじめわかっていない場合、最終回で相手が「協調」を選択する可能性が残されるため、相手から協調を引き出すために、その前の選択でも「協調」を選択する戦略が有効となりうる。
1980年にロバート・アクセルロッドは、繰り返し型の囚人のジレンマで利得の多くなる戦略を調べるため、様々な分野の研究者から戦略を集めて実験を行った。実験には14種類の戦略が集まり、アクセルロッドはこれらを総当りで対戦させた。その結果、全対戦の利得の合計が最も高かったのは、「しっぺ返し戦略(tit for tat)」であった。「しっぺ返し戦略」とは、最初は「協調」し、以降は、前回相手の出した手をそのまま出す戦略である。
アクセルロッドは、続いて2回目の実験を行った。この実験には、62種類の戦略が集まった。前回の勝者が「しっぺ返し戦略」であることは伝えられていたため、集まった戦略はこれよりも高い利得を得ようと工夫されたものだった。それにもかかわらず、最大の利得を得たのは、またしても「しっぺ返し戦略」であった。
なお、実験の結果は、実験の具体的方法や他の戦略の種類、数にも影響されるため、「しっぺ返し戦略」が常に最強とは限らない。しかし、ある条件下では「しっぺ返し」戦略が「常に裏切り」戦略よりも有効であることを以下のように示すことができる。
例えば、二人のプレーヤーPaとPbが「協調」か「裏切り」かの戦略を選べるときの、それぞれの利得を示す。並んだ数字の左側はPaの利得、右側はPbの利得である。
Pa/Pb | 協調 | 裏切り |
協調 | 2, 2 | 0, 3 |
裏切り | 3, 0 | 1, 1 |
ゲームが1回きりの場合、前に述べたとおり、ナッシュ均衡は(裏切り, 裏切り)のみである。しかし、ゲームを複数回行う場合、ゲームが次回も続く確率をpとすると、利得は以下のようになる。
Pa/Pb | しっぺ返し | 常に裏切り |
しっぺ返し | 2/(1-p), 2/(1-p) | -1+1/(1-p), 2+1/(1-p) |
常に裏切り | 2+1/(1-p), -1+1/(1-p) | 1/(1-p), 1/(1-p) |
この場合、p>0.5において2+1/(1-p)<2/(1-p)となる。すなわち、相手が「しっぺ返し」戦略をとっている時に自分が「常に裏切り」戦略を取る利得がなくなり、(しっぺ返し,しっぺ返し)がナッシュ均衡となる。
[編集] 繰り返し型の囚人のジレンマゲーム(ノイズあり)
また、ノイズあり「繰り返し型の囚人のジレンマゲーム」というものが、考えられる。ここでノイズとは、「相手が協調しているにも関わらず、なんらかの理由で、裏切ったと解釈されてしまう」(あるいは逆に、裏切っているにも関わらず協調していると思い込む)というものである。
ノイズあり「繰り返し囚人のジレンマゲーム」では、しっぺ返し戦略はもはや最強ではなく、パブロフ戦略が強くなる。これは、前回うまくいったら今回も同じ行動を、前回失敗したら今回はその反対の行動をとるという戦略である。ノイズはどんなに微小であっても、しっぺ返しよりパブロフの方が強いことが理論的に示せる。また、ノイズがあってもなくても社会全体が、突然変異を除き1つの戦略で一様に覆われてしまうことは変わらない。
[編集] その他
しっぺ返し戦略とパブロフ戦略は、前回の行動のみから今回の行動を決定するというタイプの戦略であるが、これをもっと以前の情報をもとに今回の行動を決められるように、戦略空間を拡大することを考える。
すると、社会全体がある戦略に収束するのではなく、さまざまな戦略が誕生しては滅んでゆくような終わりなき進化がおこりうることがリンドグレーンによって示された。
[編集] 現実における囚人のジレンマ
法学者が批判として指摘するのは、容疑者の無罪有罪に関わらず自白のペイオフが沈黙よりも高いことである。よってこのシステムを実際に法制度に採用すると膨大な数の冤罪が生まれる可能性が指摘されている。司法取引がごく少数の国以外では禁止されている理由がここにある。
さらに、そもそも上記のような事態が起こりうるか?という問題がある。実際に取調官が行うのであれば、わざわざジレンマを発生させる必要性は、あまりない。単純に「自白による減刑」を薦めるのが、もっともシンプルで効果的であろう。
また、取調官がジレンマを発生させるにしても、適度なジレンマでないと、「自殺」・「脱獄」・「反発・反抗」などの逆効果になる事態になりかねない。さらに、容疑者側の知能も、ある程度以上のレベルでなければ、こうしたジレンマは発生しない。
日本の司法においては、「司法取引」というものが存在しない。そのため、「囚人のジレンマ」が成立しにくいと言える。しかし、確実に死刑と思われる容疑者には、それが無期懲役になる可能性があれば、囚人のジレンマが発生することもあり得る。
ただし、「囚人」という言葉にこだわらなければ、現実での例はいくらでもある。「価格破壊競争」など、例えばA社とB社があり、A社が販売価格を下げれば、B社のシェアを奪う事が出来るが、B社も販売価格を下げた場合、A社のシェアは変わらず、利益のみが下がる事になる。恐怖の均衡にも似たところがある。
[編集] 関連項目
[編集] 外部リンク
日本語
英語
- 「Prisoner's Dilemma」 - スタンフォード哲学百科事典にある囚人のジレンマについての項目
ゲーム理論のトピックス | |
定義 | 協力ゲーム - 非協力ゲーム |
均衡 | ナッシュ均衡 - 部分ゲーム完全均衡 - ベイジアン・ナッシュ均衡 - 逐次均衡 - 完全均衡 - 合理化可能性 - 進化的に安定な戦略 - パレート最適- 戦略的補完性 |
ゲームのクラス | 標準型ゲーム - 展開型ゲーム - 提携型ゲーム - 完全情報ゲーム - 不完全情報 - 繰り返しゲーム - ゼロ和 - 非ゼロ和 - 二人零和有限確定完全情報ゲーム |
ゲーム | 囚人のジレンマ - チキンゲーム - スタグハントゲーム |
理論 | ミニマックス法 - フォーク定理 - コアの極限定理 |
関連項目 | 数学 - 経済学 - 進化論 - 集団遺伝学 - オペレーションズリサーチ - 社会生物学- 環境社会学 |