
囚徒困境是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇并非團體最佳選擇。
雖然困境本身只屬模型性質,但現實中的價格競爭、環(huán)境保護等方面,也會頻繁出現類似情
況。(單次發(fā)生的囚徒困境,和多次重復的囚徒困境結果不會一樣)
1950年,由就職于蘭德公司的梅里爾·弗拉德(Merrill Flood)和梅爾文·德雷希爾(Melvin
Dresher)擬定出相關困境的理論,后來由顧問阿爾伯特·塔克(Albert Tucker)以囚徒方式
闡述,并命名為“囚徒困境”。經典的囚徒困境如下:
警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人入罪。于是警方分開囚禁嫌疑犯,
分別和二人見面,并向雙方提供以下相同的選擇:
?若一人認罪并作證檢舉對方(相關術語稱“背叛”對方),而對方保持沉默,此人將即時獲
釋,沉默者將判監(jiān)10年。
?若二人都保持沉默(相關術語稱互相“合作”),則二人同樣判監(jiān)半年。
?若二人都互相檢舉(互相“背叛”),則二人同樣判監(jiān)2年。
用表格概述如下:
甲沉默(合作) 甲認罪(背叛)
乙沉默(合作) 二人同服刑半年 甲即時獲釋; 乙服刑10年
乙認罪(背叛) 甲服刑10年; 乙即時獲釋 二人同服刑2年
如同博弈論的其他例證,囚徒困境假定每個參與者(即“囚徒”)都是利己的,即都尋
求最大自身利益,而不關心另一參與者的利益。參與者某一策略所得利益,如果在任何情況
下都比其他策略要低的話,此策略稱為“嚴格劣勢策略”,理性的參與者絕不會選擇。另外,
沒有任何其他力量干預個人決策,參與者可完全按照自己意愿選擇策略。
囚徒甲和乙該怎么辦呢?他們作為本博弈中的兩個博弈方,他們都有兩個選擇——坦白
或抵賴。很顯然,最好的策略是雙方都抵賴,結果是大家都只被判一年。但是由于兩人處于
隔離的情況下無法串供。所以,根據個體理性原則,兩個博弈方的目標都是要實現自身利益
最大化。
對于囚徒甲來說,囚徒乙有坦白和抵賴的兩種可能的選擇,如果囚徒乙選的是抵賴,則對于
囚徒甲來說,他應該選擇坦白,因為抵賴的得益為-1,坦白的得益為-1/2;,如果囚徒乙選的
是坦白,則對于囚徒甲來說,他應該選擇坦白,因為抵賴的得益-10,坦白的得益為-5。因
此,在本博弈中,無論囚徒乙選擇何種策略,囚徒甲選擇坦白給自己帶來的收益是最大的;
同樣的,囚徒乙和囚徒甲的情況一樣,因此囚徒乙的選擇和囚徒甲一樣。因此,該博弈的最
終結果是博弈雙方同選擇坦白策略,同時獲益-5,都判五年刑。
二人面對的情況一樣,所以二人的理性思考都會得出相同的結論——選擇背叛。背叛是
兩種策略之中的支配性策略。因此,這場博弈中唯一可能達到的納什均衡,就是雙方參與者
都背叛對方,結果二人同樣服刑2年。
這場博弈的納什均衡,顯然不是顧及團體利益的帕累托最優(yōu)解決方案。以全體利益而言,
如果兩個參與者都合作保持沉默,兩人都只會被判刑半年,總體利益更高,結果也比兩人背
叛對方、判刑2年的情況較佳。但根據以上假設,二人均為理性的個人,且只追求自己個人
利益。均衡狀況會是兩個囚徒都選擇背叛,結果二人判決均比合作為高,總體利益較合作為
低。這就是“困境”所在。例子漂亮地證明了:非零和博弈中,帕累托最優(yōu)和納什均衡是相
沖突的。
在重復的囚徒困境中,博弈被反復地進行。因而每個參與者都有機會去“懲罰”另一個參與
者前一回合的不合作行為。這時,合作可能會作為均衡的結果出現。欺騙的動機這時可能被
受到懲罰的威脅所克服,從而可能導向一個較好的、合作的結果。作為反復接近無限的數量,
納什均衡趨向于帕累托最優(yōu)。
現實的例子
上述例子可能顯得不甚自然,但現實中,無論是人類社會或大自然都可以找到類似囚徒
困境的例子,將結果劃成同樣的支付矩陣。社會科學中的經濟學、政治學和社會學,以及自
然科學的動物行動學、進化生物學等學科,都可以用囚徒困境分析,模擬生物面對無止境的
囚徒困境博弈。囚徒困境可以廣為使用,說明這種博弈的重要性。以下為各界例子:
一名經理,數名員工; 前提,經理比較苛刻;
如果所有員工都聽從經理吩咐,則獎金等待遇一樣,不過所有人都超負荷工作
如果某人不聽從吩咐,其他人聽從吩咐,則此人下崗。其他人繼續(xù)工作
如果所有人都不聽從經理吩咐,則經理下崗
但是,由于員工之間信息是不透明的,而且,都擔心別人聽話自己不聽話而下崗,所以,大
家只能繼續(xù)繁重的工作
房地產市場的例子:不可重復的出賣
著名作家三盅在他的《雜文也瘋狂》中有這樣一個單篇——《泡沫中的“囚徒困境” 》。
記述了2008年房地產領域的囚徒困境。 在所有市場博弈模型中,“囚徒困境”是最為接
近心理學的一個,也是最能揭示善惡的一個,更是最能體現集體智慧的一個,選擇背叛還是
合作,始終是它不變的主題?? 我們把眼光聚焦到當前的房地產市場中來吧,一個不
小的“囚徒困境”已經展現在我們眼前,首先放棄帕累托最優(yōu)解決方案的是萬科,可想而知,
在當前的市場環(huán)境下,它預期到的博弈的納什均衡,顯然是未來困境下的房地產商之間的普
遍相互背叛,也就是說,萬科在這場“囚徒困境”中,之所以選擇首先動手,出賣所有除它
之外的房地產商,是因為它預計在這種困境中,如果不盡早出賣所有同伴,自己將面臨被出
賣的結局,畢竟,這是一個非零和博弈游戲,出賣行為是可以換取非常大的利益的??
在這里,我為何要刻薄地使用“出賣”二字?我們回顧一下房地產商們過去N年中所締造
出來的“攻守同盟”便可理解,我曾經因為“房地產行業(yè)是否存在暴利”及“房地產開發(fā)成
本是否應該公開”的問題在第一財經頻道與反方爭得面紅耳赤,我從來就認定房地產開發(fā)企
業(yè)存在著的暴利現象,而當時幾乎所有的開發(fā)商都是眾口一辭地否認暴利的存在,更有甚者,
潘先生羞答答地把成本比喻為自家老婆的奶子,充分論證了成本不可示人是理所當然的,當
然,其中也有萬科的聲音??如今的萬科,則踐踏了自己曾經參與的“同盟”,跳出來用實
際行動來證明了暴利的存在,它不僅想證明自己存在暴利,也試圖揭發(fā)所有同伴的暴利,所
以,我說他的行為是“出賣”?? 通過出賣同伴,萬科真的能夠獲得個體的最大利益
嗎?理論上說它能夠獲得,但在實踐中,也許它最終是打錯了算盤,因為在所有的實踐中,
“囚徒困境”式的博弈必須是在一個信息極不對稱的封閉環(huán)境中產生結果,所有囚徒式的自
身恐懼與“理性決策”都是被相互隔絕的,而且這種博弈是不可被重復的,而當前的市場環(huán)
境已經被不止一次重演過了(海南、05全國、08深圳),這種重復博弈最終將令所有參與者
脫離困境,“囚徒困境”至此被徹底打破?? 另外,最關鍵的一條是,在這場博弈中,
政府也參與其中了,他直接參與的環(huán)節(jié)在于源頭,即土地的供應(租借),這將加速打破“囚
徒困境”,因為與所有參與博弈者有著本質不同的是,政府是整個游戲的設計者,是囚禁規(guī)
則的設計者,也是蓋牢房、拆牢房的人,你很難想象一個有著政府參與其中的“囚徒困境”
可以被稱之為真正意義上的“困境”,再回頭看萬科,在所有被他出賣的所謂同伴中,正有
政府的身影??我這么說也許是不嚴謹的,畢竟這不是一個理想狀態(tài)下的“囚徒困境”,囚
徒之間并沒有相互隔絕,信息最起碼在業(yè)內并非極度不對稱,萬科是否背負著某種使命,至
今還不得而知?? 最后,需求方同樣面臨“囚徒困境”,從鄒濤的“不買房運動”到“萬
人大團購”中便可管窺一二?? 我認為,房地產商乃至房地產市場若想最終走出“囚
徒困境”,只有兩種可能,一是前文提到的那位最為尊貴的囚徒如何作為,囚禁自己還是大
赦天下,二是所有囚徒在重復博弈的過程中明智地選擇停止博弈、創(chuàng)建合作,在過去的幾年
里,他們曾經做到過,如今,也許又到了這樣做的時候了,他們需要的僅僅是集體智慧,而
那些已經被出賣者竊走的蛋糕,恐怕也只能暫時性地延續(xù)出賣者的生命,卻最終導致其今后
連做囚徒的資格也不會有了??只為兩個字,“信任”! 而在此之后,也許“囚徒困境”
將演變成另一種新的模型,我姑且稱之為“重復博弈結果下的囚徒報復”??
軍事或政治學例子:軍備競賽
在政治學中,兩國之間的軍備競賽可以用囚徒困境來描述。兩國都可以聲稱有兩種選擇:
增加軍備(背叛)、或是達成削減武器協議(合作)。兩國都無法肯定對方會遵守協議,因此
兩國最終會傾向增加軍備。似乎自相矛盾的是,雖然增加軍備會是兩國的“理性”行為,但
結果卻顯得“非理性”(例如會對經濟造成損壞等)。這可視作遏制理論的推論,就是以強大
的軍事力量來遏制對方的進攻,以達到和平。
經濟學例子:關稅戰(zhàn)
兩個國家,在關稅上可以有以兩個選擇: 提高關稅,以保護自己的商品。(背叛)
與對方達成關稅協定,降低關稅以利各自商品流通。(合作) 當一國因某些因素不遵守
關稅協定,獨自提高關稅(背叛),另一國也會作出同樣反應(亦背叛),這就引發(fā)了關稅戰(zhàn),
兩國的商品失去了對方的市場,對本身經濟也造成損害(共同背叛的結果)。然后二國又重
新達成關稅協定。(重復博弈的結果是將發(fā)現共同合作利益最大。)
商業(yè)例子:廣告戰(zhàn)
商業(yè)活動中亦會出現各種囚徒困境例子。以廣告競爭為例。 兩個公司互相競爭,
二公司的廣告互相影響,即一公司的廣告較被顧客接受則會奪取對方的部分收入。但若二者
同時期發(fā)出質量類似的廣告,收入增加很少但成本增加。但若不提高廣告質量,生意又會被
對方奪走。 此二公司可以有二選擇: 互相達成協議,減少廣告的開支。(合作)
增加廣告開支,設法提升廣告的質量,壓倒對方。(背叛) 若二公司不信任對方,無法
合作,背叛成為支配性策略時,二公司將陷入廣告戰(zhàn),而廣告成本的增加損害了二公司的收
益,這就是陷入囚徒困境。在現實中,要二互相競爭的公司達成合作協議是較為困難的,多
數都會陷入囚徒困境中。
自行車賽例子
自行車賽事的比賽策略也是一種博弈,而其結果可用囚徒困境的研究成果解釋。例如每
年都舉辦的環(huán)法自由車賽中有以下情況:選手們在到終點前的路程常以大隊伍(英文:Peloton)
方式前進,他們采取這策略是為了令自己不至于太落后,又出力適中。而最前方的選手在迎
風時是最費力的,所以選擇在前方是最差的策略。通常會發(fā)生這樣的情況,大家起先都不愿
意向前(共同背叛),這使得全體速度很慢,而后通常會有二或多位選手騎到前面,然后一
段時間內互相交換最前方位置,以分擔風的阻力(共同合作),使得全體的速度有所提升,
而這時如果前方的其中一人試圖一直保持前方位置(背叛),其他選手以及大隊伍就會趕上
(共同背叛)。而通常的情況是,在最前面次數最多的選手(合作)通常會到最后被落后的
選手趕上(背叛),因為后面的選手騎在前面選手的沖流之中,比較不費力。
與囚徒困境相關的各事件
[編輯]異想
威廉·龐德斯通(William Poundstone)在他的著作中,以一新西蘭的例子來說明囚徒
困境。在新西蘭,報亭既無管理員也不上鎖,買報紙的人自行放下錢后拿走報紙。當然某些
人可能取走報紙卻不付錢(背叛),但由于大家認識到如果每個人都偷竊報紙(共同背叛)
會造成以后不方便的有害結果,這種情形很少發(fā)生。這例子特別之處是新西蘭人并沒有被任
何其他因素影響而能脫離囚徒困境。并沒有任何人特別去注意報亭,人們守規(guī)則是為了避免
共同背叛帶來的惡果。這種避免囚徒困境的大家共同的推理或想法被稱為“異想(magical
thinking)”。
“認罪減刑”不可行
囚徒困境的結論是許多國家中認罪減刑(英文:plea bargain)被禁止的原因之一。囚徒
困境帶來的結論是:如果有二個罪犯,其中一人犯罪而另外一人是無辜的,犯罪者會為了減
刑坦白一切甚至冤枉清白者(單獨背叛)。最糟糕的情況是,如果他們二人都被判入獄,坦
白的犯罪者刑期少,堅持無罪的冤枉者刑期反而更多。
公用品悲劇
現實的博弈參與者不只一方,會有多方參與的囚徒困境。 加勒特·詹姆斯·哈丁(Garrett
James Hardin)的公用品悲劇就是一例:“公用品悲劇是指凡是屬于最多數人的公共財產常常
是最少受人照顧的事物”,例如漁業(yè),公海中的魚是屬于公共的,而在本身不濫捕其他人也
濫捕的思想下,漁民會沒有節(jié)制的大撈特撈,結果海洋生態(tài)破壞,漁民的生計也受影響(共
同背叛的結果)。但是,多方囚徒困境的提法有待商榷,因為其總是可以被分解為一組組經
典的二方囚徒困境。就是說只有二方的囚徒困境,沒有多方的。所謂多方的囚徒困境只是由
多個二方囚徒困境混雜在一起而形成的錯覺。
重復的囚徒困境
羅伯特·阿克塞爾羅德在其著作《合作的進化》中,探索了經典囚徒困境情景的一
個擴展,并把它稱作“重復的囚徒困境”(IPD)。在這個博弈中,參與者必須反復地選擇他
們彼此相關的策略,并且記住他們以前的對抗。阿克塞爾羅德邀請全世界的學術同行來設計
計算機策略,并在一個重復囚徒困境競賽中互相競爭。參賽的程序的差異廣泛地存在于這些
方面:算法的復雜性、最初的對抗、寬恕的能力等等。
阿克塞爾羅德發(fā)現,當這些對抗被每個選擇不同策略的參與者一再重復了很長時間
之后,從利己的角度來判斷,最終“貪婪”策略趨向于減少,而比較“利他主義”策略更多
地被采用。他用這個博弈來說明,通過自然選擇,一種利他行為的機制可能從最初純粹的自
私機制進化而來。
最佳確定性策略被認為是“以牙還牙”,這是阿納托爾·拉波波特(Anatol Rapoport)
開發(fā)并運用到錦標賽中的方法。它是所有參賽程序中最簡單的,只包含了四行BASIC語言,
并且贏得了比賽。這個策略只不過是在重復博弈的開頭合作,然后,采取你的對手前一回合
的策略。更好些的策略是“寬恕地以牙還牙”。當你的對手背叛,在下一回合中你無論如何
要以小概率(大約是1%-5%)時而合作一下。這是考慮到偶爾要從循環(huán)背叛的受騙中復原。
當錯誤傳達被引入博弈時,“寬恕地以牙還牙”是最佳的。這意味著有時你的動作被錯誤地
傳達給你的對手:你合作但是你的對手聽說你背叛了。
通過分析高分策略,阿克塞爾羅德指定了策略獲得成功的幾個必要條件。
;友善:最重要的條件是策略必須“友善”,這就是說,不要在對手背叛之前先背叛。
幾乎所有的高分策略都是友善的。因此,完全自私的策略僅僅出于自私的原因,也永遠不會
首先打擊其對手。
報復
但是,阿克斯洛德主張,成功的策略必須不是一個盲目樂觀者。要始終報復。一個非報
復策略的例子是始終合作。這是一個非常糟糕的選擇,因為“下流”策略將殘酷地剝削這樣
的傻瓜。
寬恕
成功策略的另一個品質是必須要寬恕。雖然它們不報復,但是如果對手不繼續(xù)背叛,它
們會一再退卻到合作。這停止了報復和反報復的長期進行,最大化了得分點數。
不嫉妒
最后一個品質是不嫉妒,就是說不去爭取得到高于對手的分數(對于“友善”的策略來
說這也是不可能的,也就是說“友善”的策略永遠無法得到高于對手的分數)。
因此,阿克塞爾羅德得到一種給人以烏托邦印象的結論,認為自私的個人為了其自
私的利益會趨向友善、寬恕和不嫉妒。阿克塞爾羅德關于重復囚徒困境的研究的重要結論之
一,是友善的家伙能先完成交易。
對一次性囚徒困境博弈來說,最佳(點數最大化的)策略是簡單地背叛;正如前面解釋
的,無論對手的行動可能是什么,這都是真實的。但是,在重復的囚徒困境博弈中,最佳策
略依賴于可能的對手的策略,和他們怎樣對背叛和合作作出反應。例如,考慮這樣一個人群,
那里每個人每次都背叛,除了一個人是遵循以牙還牙策略。這個人處于一種輕微的不利地位,
因為第一回合的損失。在這樣的人群中,對這個人來說最佳策略就是每次都背叛。在一個有
一定的百分比的總背叛者而剩下的則是以牙還牙者的人群中,對個人來說的最佳策略依賴于
這個百分比和博弈的長度。
一般有兩種方法得到最佳策略:
1.貝葉斯納什均衡:如果對抗策略的統(tǒng)計分布能被確定(例如,50%以牙還牙,50%一
直合作),就能從數學上獲得最佳的相對策略。
2.已經有了人群的蒙特卡羅模擬,在這里低分個人消失了,高分個人一再被生產出來(一
種獲得最佳策略的天才算法)。決賽人群中的算法合成通常依賴于初賽人群中的算法合成。
盡管以牙還牙始終被認為是最可靠的基本策略,但是在重復囚徒困境的20周年紀
念賽中,來英國南安普敦大學的一個小組(由尼古拉斯·詹寧斯(Nicholas Jennings)領導,
包括了拉蒂普·達什(Rajdeep Dash)、薩瓦帕里·拉姆瓊(Sarvapali Ramchurn)、亞歷克斯·羅
杰斯( Alex Rogers)和皮魯克里士南·維特林根(Perukrishnen Vytelingum))介紹了一個新
的策略,這個策略證明了它比以牙還牙更成功。這個策略依賴于程序之間的合作,為單一程
序中獲得了最高的點數。南安普敦大學提交了60個程序參與競賽,這些程序的開頭被設計
成通過一組5到10個的動作去彼此識別。一旦這些識別被作出,一個程序將總是合作,其
他程序則總是背叛,保證背叛者得到最大的點數。如果程序識別出它在操作一個非南安普敦
參與者,這程序將持續(xù)地背叛,企圖去最小化競爭程序的得分。結果,這個策略以獲得前3
位結束了競賽,也得到了大量接近底部的位置。雖然這個策略顯著地證明了比以牙還牙有效,
但是這是因為利用了下述事實:在這個特殊的競賽中,多重通道是被允許的。在一方只能控
制單一參與者的競賽中,以牙還牙確實是更好的策略。
如果重復囚徒困境將被精確地重復N次,已知N是一個常數,那么會產生另一個有趣
的事實。 納什均衡就是每次都背叛。這很容易用歸納法證明。你也可以在最后的回合背叛,
既然你的對手將沒有機會懲罰你。因此,你們都將在最后的回合背叛。這時,你可以在倒數
第二回合中背叛,既然最后一回無論你做什么,你的對手都將背叛。依此類推。為了合作以
保持請求,這時未來必須對兩個參與者來說是不確定的。一個解決方案是讓博弈總次數N
變成隨機的。對未來的預期必須是無法確定的長度。

本文發(fā)布于:2023-11-10 08:55:06,感謝您對本站的認可!
本文鏈接:http://www.newhan.cn/zhishi/a/1699577706211452.html
版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業(yè)和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。
本文word下載地址:囚徒困境.doc
本文 PDF 下載地址:囚徒困境.pdf
| 留言與評論(共有 0 條評論) |