首頁 > 實用范文

囚徒困境

更新時間:2023-11-10 08:55:06 閱讀：評論：0

小鷹學飛-垂頭喪氣是什么意思

2023年11月10日發(fā)(作者：智e購)

囚徒困境是博弈論的非零和博弈中具代表性的例子，反映個人最佳選擇并非團體最佳選擇。

雖然困境本身只屬模型性質，但現實中的價格競爭、環(huán)境保護等方面，也會頻繁出現類似情

況。(單次發(fā)生的囚徒困境，和多次重復的囚徒困境結果不會一樣)

1950年，由就職于蘭德公司的梅里爾·弗拉德（Merrill Flood）和梅爾文·德雷希爾（Melvin

Dresher）擬定出相關困境的理論，后來由顧問阿爾伯特·塔克（Albert Tucker）以囚徒方式

闡述，并命名為“囚徒困境”。經典的囚徒困境如下：

警方逮捕甲、乙兩名嫌疑犯，但沒有足夠證據指控二人入罪。于是警方分開囚禁嫌疑犯，

分別和二人見面，并向雙方提供以下相同的選擇：

?若一人認罪并作證檢舉對方（相關術語稱“背叛”對方），而對方保持沉默，此人將即時獲

釋，沉默者將判監(jiān)10年。

?若二人都保持沉默（相關術語稱互相“合作”），則二人同樣判監(jiān)半年。

?若二人都互相檢舉（互相“背叛”），則二人同樣判監(jiān)2年。

用表格概述如下：

甲沉默（合作）甲認罪（背叛）

乙沉默（合作）二人同服刑半年甲即時獲釋；乙服刑10年

乙認罪（背叛）甲服刑10年；乙即時獲釋二人同服刑2年

如同博弈論的其他例證，囚徒困境假定每個參與者（即“囚徒”）都是利己的，即都尋

求最大自身利益，而不關心另一參與者的利益。參與者某一策略所得利益，如果在任何情況

下都比其他策略要低的話，此策略稱為“嚴格劣勢策略”，理性的參與者絕不會選擇。另外，

沒有任何其他力量干預個人決策，參與者可完全按照自己意愿選擇策略。

囚徒甲和乙該怎么辦呢？他們作為本博弈中的兩個博弈方，他們都有兩個選擇——坦白

或抵賴。很顯然，最好的策略是雙方都抵賴，結果是大家都只被判一年。但是由于兩人處于

隔離的情況下無法串供。所以，根據個體理性原則，兩個博弈方的目標都是要實現自身利益

最大化。

對于囚徒甲來說，囚徒乙有坦白和抵賴的兩種可能的選擇，如果囚徒乙選的是抵賴，則對于

囚徒甲來說，他應該選擇坦白，因為抵賴的得益為-1，坦白的得益為-1/2；，如果囚徒乙選的

是坦白，則對于囚徒甲來說，他應該選擇坦白，因為抵賴的得益-10，坦白的得益為-5。因

此，在本博弈中，無論囚徒乙選擇何種策略，囚徒甲選擇坦白給自己帶來的收益是最大的；

同樣的，囚徒乙和囚徒甲的情況一樣，因此囚徒乙的選擇和囚徒甲一樣。因此，該博弈的最

終結果是博弈雙方同選擇坦白策略，同時獲益-5，都判五年刑。

二人面對的情況一樣，所以二人的理性思考都會得出相同的結論——選擇背叛。背叛是

兩種策略之中的支配性策略。因此，這場博弈中唯一可能達到的納什均衡，就是雙方參與者

都背叛對方，結果二人同樣服刑2年。

這場博弈的納什均衡，顯然不是顧及團體利益的帕累托最優(yōu)解決方案。以全體利益而言，

如果兩個參與者都合作保持沉默，兩人都只會被判刑半年，總體利益更高，結果也比兩人背

叛對方、判刑2年的情況較佳。但根據以上假設，二人均為理性的個人，且只追求自己個人

利益。均衡狀況會是兩個囚徒都選擇背叛，結果二人判決均比合作為高，總體利益較合作為

低。這就是“困境”所在。例子漂亮地證明了：非零和博弈中，帕累托最優(yōu)和納什均衡是相

沖突的。

在重復的囚徒困境中，博弈被反復地進行。因而每個參與者都有機會去“懲罰”另一個參與

者前一回合的不合作行為。這時，合作可能會作為均衡的結果出現。欺騙的動機這時可能被

受到懲罰的威脅所克服，從而可能導向一個較好的、合作的結果。作為反復接近無限的數量，

納什均衡趨向于帕累托最優(yōu)。

現實的例子

上述例子可能顯得不甚自然，但現實中，無論是人類社會或大自然都可以找到類似囚徒

困境的例子，將結果劃成同樣的支付矩陣。社會科學中的經濟學、政治學和社會學，以及自

然科學的動物行動學、進化生物學等學科，都可以用囚徒困境分析，模擬生物面對無止境的

囚徒困境博弈。囚徒困境可以廣為使用，說明這種博弈的重要性。以下為各界例子：

一名經理，數名員工; 前提，經理比較苛刻;

如果所有員工都聽從經理吩咐，則獎金等待遇一樣，不過所有人都超負荷工作

如果某人不聽從吩咐，其他人聽從吩咐，則此人下崗。其他人繼續(xù)工作

如果所有人都不聽從經理吩咐，則經理下崗

但是，由于員工之間信息是不透明的，而且，都擔心別人聽話自己不聽話而下崗，所以，大

家只能繼續(xù)繁重的工作

房地產市場的例子：不可重復的出賣

著名作家三盅在他的《雜文也瘋狂》中有這樣一個單篇——《泡沫中的“囚徒困境” 》。

記述了2008年房地產領域的囚徒困境。在所有市場博弈模型中，“囚徒困境”是最為接

近心理學的一個，也是最能揭示善惡的一個，更是最能體現集體智慧的一個，選擇背叛還是

合作，始終是它不變的主題?? 我們把眼光聚焦到當前的房地產市場中來吧，一個不

小的“囚徒困境”已經展現在我們眼前，首先放棄帕累托最優(yōu)解決方案的是萬科，可想而知，

在當前的市場環(huán)境下，它預期到的博弈的納什均衡，顯然是未來困境下的房地產商之間的普

遍相互背叛，也就是說，萬科在這場“囚徒困境”中，之所以選擇首先動手，出賣所有除它

之外的房地產商，是因為它預計在這種困境中，如果不盡早出賣所有同伴，自己將面臨被出

賣的結局，畢竟，這是一個非零和博弈游戲，出賣行為是可以換取非常大的利益的??

在這里，我為何要刻薄地使用“出賣”二字？我們回顧一下房地產商們過去N年中所締造

出來的“攻守同盟”便可理解，我曾經因為“房地產行業(yè)是否存在暴利”及“房地產開發(fā)成

本是否應該公開”的問題在第一財經頻道與反方爭得面紅耳赤，我從來就認定房地產開發(fā)企

業(yè)存在著的暴利現象,而當時幾乎所有的開發(fā)商都是眾口一辭地否認暴利的存在，更有甚者，

潘先生羞答答地把成本比喻為自家老婆的奶子，充分論證了成本不可示人是理所當然的，當

然，其中也有萬科的聲音??如今的萬科，則踐踏了自己曾經參與的“同盟”，跳出來用實

際行動來證明了暴利的存在，它不僅想證明自己存在暴利，也試圖揭發(fā)所有同伴的暴利，所

以，我說他的行為是“出賣”?? 通過出賣同伴，萬科真的能夠獲得個體的最大利益

嗎？理論上說它能夠獲得，但在實踐中，也許它最終是打錯了算盤，因為在所有的實踐中，

“囚徒困境”式的博弈必須是在一個信息極不對稱的封閉環(huán)境中產生結果，所有囚徒式的自

身恐懼與“理性決策”都是被相互隔絕的，而且這種博弈是不可被重復的，而當前的市場環(huán)

境已經被不止一次重演過了（海南、05全國、08深圳），這種重復博弈最終將令所有參與者

脫離困境，“囚徒困境”至此被徹底打破?? 另外，最關鍵的一條是，在這場博弈中，

政府也參與其中了，他直接參與的環(huán)節(jié)在于源頭，即土地的供應（租借），這將加速打破“囚

徒困境”，因為與所有參與博弈者有著本質不同的是，政府是整個游戲的設計者，是囚禁規(guī)

則的設計者，也是蓋牢房、拆牢房的人，你很難想象一個有著政府參與其中的“囚徒困境”

可以被稱之為真正意義上的“困境”，再回頭看萬科，在所有被他出賣的所謂同伴中，正有

政府的身影??我這么說也許是不嚴謹的，畢竟這不是一個理想狀態(tài)下的“囚徒困境”，囚

徒之間并沒有相互隔絕，信息最起碼在業(yè)內并非極度不對稱，萬科是否背負著某種使命，至

今還不得而知?? 最后，需求方同樣面臨“囚徒困境”，從鄒濤的“不買房運動”到“萬

人大團購”中便可管窺一二?? 我認為，房地產商乃至房地產市場若想最終走出“囚

徒困境”，只有兩種可能，一是前文提到的那位最為尊貴的囚徒如何作為，囚禁自己還是大

赦天下，二是所有囚徒在重復博弈的過程中明智地選擇停止博弈、創(chuàng)建合作，在過去的幾年

里，他們曾經做到過，如今，也許又到了這樣做的時候了，他們需要的僅僅是集體智慧，而

那些已經被出賣者竊走的蛋糕，恐怕也只能暫時性地延續(xù)出賣者的生命，卻最終導致其今后

連做囚徒的資格也不會有了??只為兩個字，“信任”！而在此之后，也許“囚徒困境”

將演變成另一種新的模型，我姑且稱之為“重復博弈結果下的囚徒報復”??

軍事或政治學例子：軍備競賽

在政治學中，兩國之間的軍備競賽可以用囚徒困境來描述。兩國都可以聲稱有兩種選擇：

增加軍備（背叛）、或是達成削減武器協議（合作）。兩國都無法肯定對方會遵守協議，因此

兩國最終會傾向增加軍備。似乎自相矛盾的是，雖然增加軍備會是兩國的“理性”行為，但

結果卻顯得“非理性”（例如會對經濟造成損壞等）。這可視作遏制理論的推論，就是以強大

的軍事力量來遏制對方的進攻，以達到和平。

經濟學例子：關稅戰(zhàn)

兩個國家，在關稅上可以有以兩個選擇: 提高關稅，以保護自己的商品。（背叛）

與對方達成關稅協定，降低關稅以利各自商品流通。（合作）當一國因某些因素不遵守

關稅協定，獨自提高關稅（背叛），另一國也會作出同樣反應（亦背叛），這就引發(fā)了關稅戰(zhàn)，

兩國的商品失去了對方的市場，對本身經濟也造成損害（共同背叛的結果）。然后二國又重

新達成關稅協定。（重復博弈的結果是將發(fā)現共同合作利益最大。）

商業(yè)例子：廣告戰(zhàn)

商業(yè)活動中亦會出現各種囚徒困境例子。以廣告競爭為例。兩個公司互相競爭，

二公司的廣告互相影響，即一公司的廣告較被顧客接受則會奪取對方的部分收入。但若二者

同時期發(fā)出質量類似的廣告，收入增加很少但成本增加。但若不提高廣告質量，生意又會被

對方奪走。此二公司可以有二選擇：互相達成協議，減少廣告的開支。（合作）

增加廣告開支，設法提升廣告的質量，壓倒對方。（背叛）若二公司不信任對方，無法

合作，背叛成為支配性策略時，二公司將陷入廣告戰(zhàn)，而廣告成本的增加損害了二公司的收

益，這就是陷入囚徒困境。在現實中，要二互相競爭的公司達成合作協議是較為困難的，多

數都會陷入囚徒困境中。

自行車賽例子

自行車賽事的比賽策略也是一種博弈，而其結果可用囚徒困境的研究成果解釋。例如每

年都舉辦的環(huán)法自由車賽中有以下情況：選手們在到終點前的路程常以大隊伍（英文:Peloton）

方式前進，他們采取這策略是為了令自己不至于太落后，又出力適中。而最前方的選手在迎

風時是最費力的，所以選擇在前方是最差的策略。通常會發(fā)生這樣的情況，大家起先都不愿

意向前（共同背叛），這使得全體速度很慢，而后通常會有二或多位選手騎到前面，然后一

段時間內互相交換最前方位置，以分擔風的阻力（共同合作），使得全體的速度有所提升，

而這時如果前方的其中一人試圖一直保持前方位置（背叛），其他選手以及大隊伍就會趕上

（共同背叛）。而通常的情況是，在最前面次數最多的選手（合作）通常會到最后被落后的

選手趕上（背叛），因為后面的選手騎在前面選手的沖流之中，比較不費力。

與囚徒困境相關的各事件

[編輯]異想

威廉·龐德斯通（William Poundstone）在他的著作中，以一新西蘭的例子來說明囚徒

困境。在新西蘭，報亭既無管理員也不上鎖，買報紙的人自行放下錢后拿走報紙。當然某些

人可能取走報紙卻不付錢（背叛），但由于大家認識到如果每個人都偷竊報紙（共同背叛）

會造成以后不方便的有害結果，這種情形很少發(fā)生。這例子特別之處是新西蘭人并沒有被任

何其他因素影響而能脫離囚徒困境。并沒有任何人特別去注意報亭，人們守規(guī)則是為了避免

共同背叛帶來的惡果。這種避免囚徒困境的大家共同的推理或想法被稱為“異想（magical

thinking）”。

“認罪減刑”不可行

囚徒困境的結論是許多國家中認罪減刑（英文：plea bargain）被禁止的原因之一。囚徒

困境帶來的結論是：如果有二個罪犯，其中一人犯罪而另外一人是無辜的，犯罪者會為了減

刑坦白一切甚至冤枉清白者（單獨背叛）。最糟糕的情況是，如果他們二人都被判入獄，坦

白的犯罪者刑期少，堅持無罪的冤枉者刑期反而更多。

公用品悲劇

現實的博弈參與者不只一方，會有多方參與的囚徒困境。加勒特·詹姆斯·哈丁（Garrett

James Hardin）的公用品悲劇就是一例：“公用品悲劇是指凡是屬于最多數人的公共財產常常

是最少受人照顧的事物”，例如漁業(yè)，公海中的魚是屬于公共的，而在本身不濫捕其他人也

濫捕的思想下，漁民會沒有節(jié)制的大撈特撈，結果海洋生態(tài)破壞，漁民的生計也受影響（共

同背叛的結果）。但是，多方囚徒困境的提法有待商榷，因為其總是可以被分解為一組組經

典的二方囚徒困境。就是說只有二方的囚徒困境，沒有多方的。所謂多方的囚徒困境只是由

多個二方囚徒困境混雜在一起而形成的錯覺。

重復的囚徒困境

羅伯特·阿克塞爾羅德在其著作《合作的進化》中，探索了經典囚徒困境情景的一

個擴展，并把它稱作“重復的囚徒困境”（IPD）。在這個博弈中，參與者必須反復地選擇他

們彼此相關的策略，并且記住他們以前的對抗。阿克塞爾羅德邀請全世界的學術同行來設計

計算機策略，并在一個重復囚徒困境競賽中互相競爭。參賽的程序的差異廣泛地存在于這些

方面：算法的復雜性、最初的對抗、寬恕的能力等等。

阿克塞爾羅德發(fā)現，當這些對抗被每個選擇不同策略的參與者一再重復了很長時間

之后，從利己的角度來判斷，最終“貪婪”策略趨向于減少，而比較“利他主義”策略更多

地被采用。他用這個博弈來說明，通過自然選擇，一種利他行為的機制可能從最初純粹的自

私機制進化而來。

最佳確定性策略被認為是“以牙還牙”，這是阿納托爾·拉波波特（Anatol Rapoport）

開發(fā)并運用到錦標賽中的方法。它是所有參賽程序中最簡單的，只包含了四行BASIC語言，

并且贏得了比賽。這個策略只不過是在重復博弈的開頭合作，然后，采取你的對手前一回合

的策略。更好些的策略是“寬恕地以牙還牙”。當你的對手背叛，在下一回合中你無論如何

要以小概率（大約是1%-5%）時而合作一下。這是考慮到偶爾要從循環(huán)背叛的受騙中復原。

當錯誤傳達被引入博弈時，“寬恕地以牙還牙”是最佳的。這意味著有時你的動作被錯誤地

傳達給你的對手：你合作但是你的對手聽說你背叛了。

通過分析高分策略，阿克塞爾羅德指定了策略獲得成功的幾個必要條件。

;友善:最重要的條件是策略必須“友善”，這就是說，不要在對手背叛之前先背叛。

幾乎所有的高分策略都是友善的。因此，完全自私的策略僅僅出于自私的原因，也永遠不會

首先打擊其對手。

報復

但是，阿克斯洛德主張，成功的策略必須不是一個盲目樂觀者。要始終報復。一個非報

復策略的例子是始終合作。這是一個非常糟糕的選擇，因為“下流”策略將殘酷地剝削這樣

的傻瓜。

寬恕

成功策略的另一個品質是必須要寬恕。雖然它們不報復，但是如果對手不繼續(xù)背叛，它

們會一再退卻到合作。這停止了報復和反報復的長期進行，最大化了得分點數。

不嫉妒

最后一個品質是不嫉妒，就是說不去爭取得到高于對手的分數（對于“友善”的策略來

說這也是不可能的，也就是說“友善”的策略永遠無法得到高于對手的分數）。

因此，阿克塞爾羅德得到一種給人以烏托邦印象的結論，認為自私的個人為了其自

私的利益會趨向友善、寬恕和不嫉妒。阿克塞爾羅德關于重復囚徒困境的研究的重要結論之

一，是友善的家伙能先完成交易。

對一次性囚徒困境博弈來說，最佳（點數最大化的）策略是簡單地背叛；正如前面解釋

的，無論對手的行動可能是什么，這都是真實的。但是，在重復的囚徒困境博弈中，最佳策

略依賴于可能的對手的策略，和他們怎樣對背叛和合作作出反應。例如，考慮這樣一個人群，

那里每個人每次都背叛，除了一個人是遵循以牙還牙策略。這個人處于一種輕微的不利地位，

因為第一回合的損失。在這樣的人群中，對這個人來說最佳策略就是每次都背叛。在一個有

一定的百分比的總背叛者而剩下的則是以牙還牙者的人群中，對個人來說的最佳策略依賴于

這個百分比和博弈的長度。

一般有兩種方法得到最佳策略：

1.貝葉斯納什均衡：如果對抗策略的統(tǒng)計分布能被確定（例如，50％以牙還牙，50％一

直合作），就能從數學上獲得最佳的相對策略。

2.已經有了人群的蒙特卡羅模擬，在這里低分個人消失了，高分個人一再被生產出來（一

種獲得最佳策略的天才算法）。決賽人群中的算法合成通常依賴于初賽人群中的算法合成。

盡管以牙還牙始終被認為是最可靠的基本策略，但是在重復囚徒困境的20周年紀

念賽中，來英國南安普敦大學的一個小組（由尼古拉斯·詹寧斯（Nicholas Jennings）領導，

包括了拉蒂普·達什（Rajdeep Dash）、薩瓦帕里·拉姆瓊（Sarvapali Ramchurn）、亞歷克斯·羅

杰斯（ Alex Rogers）和皮魯克里士南·維特林根（Perukrishnen Vytelingum））介紹了一個新

的策略，這個策略證明了它比以牙還牙更成功。這個策略依賴于程序之間的合作，為單一程

序中獲得了最高的點數。南安普敦大學提交了60個程序參與競賽，這些程序的開頭被設計

成通過一組5到10個的動作去彼此識別。一旦這些識別被作出，一個程序將總是合作，其

他程序則總是背叛，保證背叛者得到最大的點數。如果程序識別出它在操作一個非南安普敦

參與者，這程序將持續(xù)地背叛，企圖去最小化競爭程序的得分。結果，這個策略以獲得前3

位結束了競賽，也得到了大量接近底部的位置。雖然這個策略顯著地證明了比以牙還牙有效，

但是這是因為利用了下述事實：在這個特殊的競賽中，多重通道是被允許的。在一方只能控

制單一參與者的競賽中，以牙還牙確實是更好的策略。

如果重復囚徒困境將被精確地重復N次，已知N是一個常數，那么會產生另一個有趣

的事實。納什均衡就是每次都背叛。這很容易用歸納法證明。你也可以在最后的回合背叛，

既然你的對手將沒有機會懲罰你。因此，你們都將在最后的回合背叛。這時，你可以在倒數

第二回合中背叛，既然最后一回無論你做什么，你的對手都將背叛。依此類推。為了合作以

保持請求，這時未來必須對兩個參與者來說是不確定的。一個解決方案是讓博弈總次數N

變成隨機的。對未來的預期必須是無法確定的長度。

同位語從句和定語從句的區(qū)別-模糊評價法

本文發(fā)布于:2023-11-10 08:55:06，感謝您對本站的認可！

本文鏈接：http://www.newhan.cn/zhishi/a/1699577706211452.html

本文word下載地址：囚徒困境.doc

本文 PDF 下載地址：囚徒困境.pdf

上一篇：南開大學2021年8月《初級博弈論》作業(yè)考核試題及答案參考11

下一篇：返回列表

標簽：零和競爭

2023-11-10非零和博弈人類命運的邏輯
2023-11-10國際間貿易的戰(zhàn)略與博弈
2023-11-10南開大學2021年8月《初級博弈論》作業(yè)考核試題及答案參考11
2023-11-10高考作文主題訓練:莫孤軍獨進,求整體共贏
2023-11-10從經濟學的視角看和合理念
2023-11-10主觀客觀相符合的例子
2023-11-10競合合作模型
2023-11-10什么是組隊面試,組面有什么要求
2023-11-10精編《創(chuàng)新中國》期末完整版考核復習題(含參考答案)
2023-11-10博弈行為中的演繹與歸納推理及其問題(最終)

留言與評論（共有 0 條評論）