Dilema prizonierului
De la Wikipedia, enciclopedia liberă
Dilema prizonierului este un paradox, componentă centrală a teoriei jocurilor. În cazul dilemei este vorba despre un joc de tip sumă non-zero care a fost formulat de către angajaţi ai companiei RAND Corporation. Merrill Flood şi Melvin Drescher descriu o dilemă socială ca pe un joc între două persoane, care arată cum pot conduce hotărârile raţionale individuale la rezultate colective neoptime. Termenul dilema prizonierului a fost formulat de Albert Tucker de la Universitatea Princeton.
Cuprins |
[modifică] Descrierea situaţiei
Doi prizonieri sunt bănuiţi că au săvârşit o infracţiune. Pedeapsa maximă pentru această infracţiune este de cinci ani. Celor doi prizonieri li se face o propunere pe care cei doi o cunosc. Dacă unul dintre ei mărturiseşte şi astfel îşi împovărează partenerul, atunci scapă nepedepsit – celălalt trebuie să ispăşească o pedeapsă de cinci ani. Dacă cei doi decid să nu mărturisească, rămân doar dovezi prezumptive care nu sunt suficiente pentru a-i trimite după gratii. Dacă amândoi mărturisesc, pe fiecare îl aşteaptă o pedeapsă de patru ani. Prizonierii sunt chestionaţi separat unul de celălalt, astfel încât nici unul dintre ei nu va cunoaşte nici înainte şi nici după chestionare intenţia celuilalt.
Această dilemă poate fi numită paradox, deoarece decizia prizonierilor luată individual şi conştient (aceea de a mărturisi) şi decizia colectivă (aceea de a tăinui) sunt divergente.
Marticea recompenselor arată în felul următor:
B tăinuieşte | B mărturiseşte | |
A tăinuieşte | A:−2 / B:−2 | A:−5 / B:0 |
A mărturiseşte | A:0 / B:−5 | A:−4 / B:−4 |
Semnificaţia rezultatelor:
- 0...„temptation” – Recompensă pentru trădare unilaterală (libertate)
- −2...„reward” – Recompensă pentru cooperarea lui A cu B (doar pedeapsă de doi ani)
- −4...„punishment” – Pedeapsă pentru trădare bilaterală (patru ani de pedeapsă)
- −5...„sucker's payoff” – Pedeapsă pentru înşelarea încrederii
Cele patru modalităţi de combinare existente nu depind numai de propria decizie, ci şi de deciziile complicilor (interdependenţă comportamentală).
În mod individual, pare să fie pentru fiecare avantajos să coopereze. Prizonierul se gândeşte astfel: Dacă celălalt cooperează, îmi pot reduce pedeapsa la patru ani, dacă cooperez şi eu; însă dacă celălalt tăinuieşte faptele săvârşite: pot să-mi reduc pedeapsa de la doi ani la zero prin declaraţia mea! Deci trebuie să mărturisesc faptele orice s-ar întâmpla!. Decizia de a mărturisi faptele săvârşite nu depinde de comportamentul celuilalt şi pare să fie întotdeauna avantajos să mărturisească. O astfel de strategie care este aleasă fără a ţine cont de decizia oponentului este denumită strategie dominantă.
Cum arată şi matricea, cei doi prizonieri ar fi totuşi mai avantajaţi dacă amândoi s-ar decide să tăinuiască faptele. Atunci ar primi fiecare doar câte doi ani de detenţie. Locul de desfăşurare a jocului împiedică înţelegerea dintre cei doi prizonieri şi provoacă astfel o trădare unilaterală prin care trădătorul speră să obţină pentru sine cel mai bun rezultat achitarea (dacă celălalt prizonier tăinuieşte faptele) sau să primească o pedeapsă de patru ani în loc de cinci (dacă celălalt prizonier mărturiseşte). Dacă amândoi fac acest lucru, îşi înrăutăţesc astfel şi individual situaţia, deoarece acum fiecare primeşte câte patru ani în loc de câte doi ani.
Dilema prizonierului constă din această divergenţă a strategiilor posibile. Presupusa analiză progresivă, raţională a situaţiei induce pe cei doi prizonieri la mărturisire, ceea ce conduce la un rezultat prost (alocare care nu este optimă). Rezultatul mai bun ar fi atins prin cooperare, însă acesta este susceptibil de trădarea încrederii. Jucătorii raţionali se întâlnesc într-un punct care în acest caz este denumit echilibru Nash pareto-ineficient.
[modifică] Jocuri şi strategii
[modifică] Jocul unic
Conform analizei clasice a jocului, în dilema prizonierului jucată o singură dată, singura strategie raţională pentru individul interesat de binele propriu este aceea de a nu coopera cu celălalt prizonier, ci să mărturisească şi astfel să-l trădeze pe celălalt. Prin decizia sa prizonierul nu poate influenţa comportamentul celuilalt prizonier şi independent de decizia luată de celălalt se plasează într-o poziţie mai bună dacă nu cooperează (mărturiseşte). Această analiză condiţionează faptul că jucătorii se întâlnesc o singură dată, iar hotărârile lor nu pot influenţa interacţiunile de mai târziu. Deoarece este vorba despre o dilemă autentică, din această analiză nu reiese nici o instrucţiune clară (concluzie prescriptivă) pentru interacţiuni reale corespunzătoare unei dileme a prizonierului.
Într-un joc unic trebuie precizat că este indiferent dacă cele două părţi s-au înţeles între ele. Situaţia rămâne la fel după o eventuală discuţie!
[modifică] Jocul repetat (finit)
Situaţia se schimbă, dacă jocul este jucat în mai multe runde (aşa numitele turnee iterate). În acest caz o înşelare a încrederii este răzbunată în jocul următor sau într-un joc de mai târziu, iar cooperarea este răsplătită.
Numărul rundelor nu trebuie să fie cunoscut dinainte, ci trebuie să fie necunoscut. În caz contrar s-ar putea ca pentru strategii de fapt cooperante să fie profitabil ca în ultima rundă să intervină trădarea, deoarece pentru aceasta nu mai este posibilă o recompensă. Astfel, penultima rundă devine ultima, pentru care rezultă din nou aceeaşi situaţie. Din aceasta reiese o soluţe neoptimă. Problema ultimei runde se aplanează dacă jocul este jucat ca un - presupus sau actual - turneu nesfârşit.
Cât de benefică este o anumită strategie într-un astfel de turneu, depinde întotdeauna de strategiile concurente pe care aceasta le influenţează şi nu poate fi declarată în mod absolut.
[modifică] Jocul infinit
Jocul se repetă, fără ca jucătorii să ştie când va avea loc ultima rundă. Dacă jucătorii se află în această dilemă, atunci poate exista o lipsă de cooperare în jocul următor. Faptul de a nu coopera nu este răsplătit (în mod inevitabil), deoarece pentru trădare (în mod direct) se va primi pedeapsă în jocul următor, în timp ce cooperarea este răsplătită (în mod constant). Tit-for-tat (Ochi pentru ochi) înseamnă pedeapsă pentru trădare în perioada următoare. În acest caz se vorbeşte despre încredere calculată.
Politologul american Robert Axelrod a organizat la începutul anilor '80 un concurs pe calculator, pe tema dilemei prizonierului repetată. El făcea ca programele de calculator să concureze între ele pe baza a diferite strategii. Cea mai de succes strategie şi în acelaşi timp una dintre cele mai uşoare a fost Strategia ochi pentru ochi, dezvoltată de Anatol Rapoport. Aceasta însemna cooperare (renunţare la trădare), atâta timp cât şi celălalt coopera. Dacă celălalt încerca să-şi creeze un avantaj (trădare), atunci şi cealaltă parte trăda.
[modifică] Competiţii dinamico-evolutive
O dezvoltare a jocului pe mai multe runde este jocul pe mai multe generaţii. Dacă toate strategiile apar în mai multe runde unele împotriva celorlalte şi una împotriva celeilalte, rezultatele obţinute vor fi numărate împreună, pentru fiecare strategie. Pentru o rundă următoare, strategiile de succes le înlocuiesc pe cele cu mai puţin succes. Strategia cea mai de succes apare cu o densitate mai mare în generaţia următoare. Şi această variantă a competiţiei a fost implementată de Axelrod.
Strategiile care au tendinţa de a înşela, au obţinut aici la început rezultate relativ bune – atâta timp cât au venit în contact cu alte strategii care aveau tendinţa de a coopera lăsându-se exploatate. Dacă strategiile înşelătoare sunt de succes, atunci strategiile cooperative se vor rări de la o generaţie la alta – strategiile înşelătoare reuşind să anuleze chiar şi fundamentul succesului. Dacă două strategii înşelătoare se întâlnesc, se obţin rezultate mai proaste decât în cazul în care s-ar întâlni două strategii cooperante. Strategiile înşelătoare se pot dezvolta doar prin exploatarea partenerilor de joc. Pe de altă parte, strategiile cooperante se dezvoltă cel mai bine, dacă vin în contact unele cu altele. O minoritate de strategii cooperante, cum ar fi Tit-for-tat (ochi pentru ochi) poate pretinde astfel a se afla chiar într-o majoritate de strategii înşelătoare. Astfel de strategii care se pot stabili prin generaţii şi care sunt rezistente invaziilor altor strategii se numesc strategii evolutive stabile.
Strategia Tit-for-tat a putut fi întrecută în anul 2004 de o strategie nouă, propusă de Universitatea Southampton şi care în cazul unei întâlniri faţă în faţă şi după un schimb iniţial recurge la două roluri de exploatator şi respectiv de victimă, pentru a permite exploatatorului o poziţie de conducere (master-and-servant). În acest caz este necesară o anumită marime critică, şi anume strategia master-and-servant nu poate fi stabilită dintr-o populaţie incipientă. Deoarece partenerii de joc comunică codat despre comportamenul lor de început, există obiecţia că strategia master-and-servant încalcă regulile jocului, despre care partenerii de joc sunt chestionaţi izolati unii de ceilalţi. Strategia aminteşte de populaţiile de insecte unde insectele lucrătoare renunţă total la reproducţie şi îşi dedică forţa de muncă pentru bunăstarea reginei prolifice.
Condiţiile necesare răspândirii strategiilor cooperative sunt: a) se joacă în mai multe runde; b) jucătorii se pot recunoaşte între ei de la o rundă la alta, pentru ca în caz de nevoie să poată fi recompensaţi; c) nu se ştie când se vor întâlni jucătorii pentru ultima oară.
[modifică] Câteva strategii selectate
Pentru dilema prizonierului jucată în mai multe runde există mai multe strategii diferite. Pentru anumite strategii s-au încetăţenit anumite nume (traducerea din paranteză):
- tit-for-tat (ochi pentru ochi): Cooperează în prima rundă şi copiază în runda următoare mutarea anterioară a partenerului de joc. Această strategie este în principiu deschisă înspre cooperare, practicând însă despăgubire în caz de trădare. Pentru încă o cooperare a partenerului de joc nu este neiertătoare, ci reacţionează cooperând.
- mistrust (neîncredere): Trădează în prima rundă şi copiază în rundele următoare (ca şi ochi pentru ochi) mutarea anterioară a partenerului de joc. Nu este deschisă înspre cooperare.
- spite (ciudă): Cooperează până când partenerul de joc trădează primul. Mai apoi trădează tot timpul. Cooperează până la primul semn de înşelare a încrederii. Este foarte răzbunătoare.
- pavlov: Cooperează în prima rundă şi trădează, dacă mutarea partenerului de joc a fost diferită de propria mutare. Cooperează, dacă în runda precedentă ambii jucători au cooperat sau ambii au trădat. Aceasta conduce la o schimbare a comportamentului, dacă câştigul din runda precedentă a fost mic, însă conduce la menţinerea comportamentului, dacă câştigul a fost mare.
- gradual (gradual): Cooperează până când partenerul de joc trădează primul. Trădează o singură dată şi cooperează de două ori. Dacă partenerul de joc trădează încă o dată după această secvenţă, atunci el trădează strategia graduală de două ori şi cooperează de două ori. Dacă partenerul de joc trădează încă o dată, atunci el trădează strategia de trei ori şi cooperează de două ori. Această strategie cooperează strict, pedepseşte însă orice încercare de exploatare cu mai multă intransigenţă.
- prober (probant): joacă primele trei mutări cooperare, trădare, trădare şi trădează mai departe, dacă oponentul a cooperat la a doua şi la a treia mutare, joacă de altfel tit-for-tat. Testează dacă partenerul de joc este exclus fără răzbunare. Exclude partenerii de joc nerăzbunători. Se adaptează însă la răzbunare.
- master-and-servant („Domn şi servitor” sau şi „Strategie Southampton”): Joacă în timpul primelor cinci până la zece runde un comportament codat, servind recunoaşterii. Strategia se asigură dacă partenerii de joc acţionează după modelul Master-and-servant. Dacă este cazul, partenerul de joc devine exploatator, cel care trădează întotdeauna, celălalt devine excepţie, cel care cooperează necondiţionat. Dacă partenerul de joc nu se conformează strategiei master-and-servant, atunci se trădează, în dauna combatanţilor ce iau parte la competiţie. Această strategie conduce la faptul că o parte dintre jucătorii ce iau parte la ea fac un lucru bun, deoarece ei primesc în mod neobişnuit numărul maxim posibil de puncte pentru o trădare unilaterală. Partea exploatată a jucătorilor strategiei Master-and-servant „dispare“, ceea ce se compensează prin succesiunea părţii de suces.
- always defect (trădează întotdeauna): Trădează întotdeauna, indiferent de ce face partenerul de joc.
- always cooperate (cooperează întotdeauna): Cooperează întotdeauna, indiferent de ce face partenerul de joc.
- random (aleator): Trădează sau cooperează pe baza unei hotărâri aleatorii 50:50.
- per kind (periodic sau amical): Joacă periodic seria cooperează/cooperează/trădează. Această strategie încearcă să-l pună pe jucător în siguranţă printr-o dublă cooperare, pentru a-l exclude o singură dată.
- per nasty (periodic şi neamical): Joacă periodic seria trădează/trădează/cooperează.
- go by majority (decide conform majorităţii): Cooperează în prima rundă şi joacă apoi mutarea cea mai utilizată de către partenerul de joc. În caz de egalitate se cooperează.
[modifică] Strategia optimă
Singura strategie tit-for-tat simplă, însă foarte eficientă şi de succes pe termen lung prezintă totuşi desfigurări, deoarece amândoi jucătorii se pot bloca într-o confruntare de durată, dacă după o anumită perioadă amândoi jucătorii aleg pe termen lung această strategie denumită Vendetta (ital.: răzbunare).
[modifică] Bibliografie
- Anatol Rapoport, Albert M. Chammah: Prisoner's dilemma: a study in conflict and cooperation. University of Michigan Press, 1965
- Robert Axelrod: Die Evolution der Kooperation. Oldenbourg Verlag, 2000, ISBN 3-48-653995-7
- Eggebrecht, Winfried; Manhart, Klaus: Fatale Logik: Egoismus oder Kooperation in der Computersimulation, c't 6/1991
[modifică] Vezi şi