• <em id="6vhwh"><rt id="6vhwh"></rt></em>

    <style id="6vhwh"></style>

    <style id="6vhwh"></style>
    1. <style id="6vhwh"></style>
        <sub id="6vhwh"><p id="6vhwh"></p></sub>
        <p id="6vhwh"></p>
          1. 国产亚洲欧洲av综合一区二区三区 ,色爱综合另类图片av,亚洲av免费成人在线,久久热在线视频精品视频,成在人线av无码免费,国产精品一区二区久久毛片,亚洲精品成人片在线观看精品字幕 ,久久亚洲精品成人av秋霞

            囚徒困境

            更新時間:2023-11-10 08:55:06 閱讀: 評論:0

            小鷹學飛-垂頭喪氣是什么意思

            囚徒困境
            2023年11月10日發(fā)(作者:智e購)

            囚徒困境是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇并非團體最佳選擇。

            雖然困境本身只屬模型性質,但現實中的價格競爭、環(huán)境保護等方面,也會頻繁出現類似情

            況。(單次發(fā)生的囚徒困境,和多次重復的囚徒困境結果不會一樣)

            1950年,由就職于蘭德公司的梅里爾·弗拉德Merrill Flood和梅爾文·德雷希爾Melvin

            Dresher)擬定出相關困境的理論,后來由顧問阿爾伯特·塔克(Albert Tucker)以囚徒方式

            闡述,并命名為“囚徒困境”。經典的囚徒困境如下:

            警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人入罪。于是警方分開囚禁嫌疑犯,

            分別和二人見面,并向雙方提供以下相同的選擇:

            ?若一人認罪并作證檢舉對方(相關術語稱“背叛”對方),而對方保持沉默,此人將即時獲

            釋,沉默者將判監(jiān)10年。

            ?若二人都保持沉默(相關術語稱互相“合作”,則二人同樣判監(jiān)半年。

            ?若二人都互相檢舉(互相“背叛”,則二人同樣判監(jiān)2年。

            用表格概述如下:

            甲沉默(合作) 甲認罪(背叛)

            乙沉默(合作) 二人同服刑半年 甲即時獲釋; 乙服刑10

            乙認罪(背叛) 甲服刑10年; 乙即時獲釋 二人同服刑2

            如同博弈論的其他例證,囚徒困境假定每個參與者(即“囚徒”)都是利己的,即都尋

            求最大自身利益,而不關心另一參與者的利益。參與者某一策略所得利益,如果在任何情況

            下都比其他策略要低的話,此策略稱為“嚴格劣勢策略”理性的參與者絕不會選擇。另外,

            沒有任何其他力量干預個人決策,參與者可完全按照自己意愿選擇策略。

            囚徒甲和乙該怎么辦呢?他們作為本博弈中的兩個博弈方,他們都有兩個選擇——坦白

            或抵賴。很顯然,最好的策略是雙方都抵賴,結果是大家都只被判一年。但是由于兩人處于

            隔離的情況下無法串供。所以,根據個體理性原則,兩個博弈方的目標都是要實現自身利益

            最大化。

            對于囚徒甲來說,囚徒乙有坦白和抵賴的兩種可能的選擇,如果囚徒乙選的是抵賴,則對于

            囚徒甲來說,他應該選擇坦白,因為抵賴的得益為-1坦白的得益為-1/2,如果囚徒乙選的

            是坦白,則對于囚徒甲來說,他應該選擇坦白,因為抵賴的得益-10,坦白的得益為-5。因

            此,在本博弈中,無論囚徒乙選擇何種策略,囚徒甲選擇坦白給自己帶來的收益是最大的;

            同樣的,囚徒乙和囚徒甲的情況一樣,因此囚徒乙的選擇和囚徒甲一樣。因此,該博弈的最

            終結果是博弈雙方同選擇坦白策略,同時獲益-5,都判五年刑。

            二人面對的情況一樣,所以二人的理性思考都會得出相同的結論——選擇背叛。背叛是

            兩種策略之中的支配性策略。因此,這場博弈中唯一可能達到的納什均衡,就是雙方參與者

            都背叛對方,結果二人同樣服刑2年。

            這場博弈的納什均衡,顯然不是顧及團體利益的帕累托最優(yōu)解決方案。以全體利益而言,

            如果兩個參與者都合作保持沉默,兩人都只會被判刑半年,總體利益更高,結果也比兩人背

            叛對方、判刑2年的情況較佳。但根據以上假設,二人均為理性的個人,且只追求自己個人

            利益。均衡狀況會是兩個囚徒都選擇背叛,結果二人判決均比合作為高,總體利益較合作為

            低。這就是“困境”所在。例子漂亮地證明了:非零和博弈中,帕累托最優(yōu)和納什均衡是相

            沖突的。

            在重復的囚徒困境中,博弈被反復地進行。因而每個參與者都有機會去“懲罰”另一個參與

            者前一回合的不合作行為。這時,合作可能會作為均衡的結果出現。欺騙的動機這時可能被

            受到懲罰的威脅所克服,從而可能導向一個較好的、合作的結果。作為反復接近無限的數量,

            納什均衡趨向于帕累托最優(yōu)。

            現實的例子

            上述例子可能顯得不甚自然,但現實中,無論是人類社會或大自然都可以找到類似囚徒

            困境的例子,將結果劃成同樣的支付矩陣。社會科學中的經濟學、政治學和社會學,以及自

            然科學的動物行動學、進化生物學等學科,都可以用囚徒困境分析,模擬生物面對無止境的

            囚徒困境博弈。囚徒困境可以廣為使用,說明這種博弈的重要性。以下為各界例子:

            一名經理,數名員工; 前提,經理比較苛刻;

            如果所有員工都聽從經理吩咐,則獎金等待遇一樣,不過所有人都超負荷工作

            如果某人不聽從吩咐,其他人聽從吩咐,則此人下崗。其他人繼續(xù)工作

            如果所有人都不聽從經理吩咐,則經理下崗

            但是,由于員工之間信息是不透明的,而且,都擔心別人聽話自己不聽話而下崗,所以,大

            家只能繼續(xù)繁重的工作

            房地產市場的例子:不可重復的出賣

            著名作家三盅在他的《雜文也瘋狂》中有這樣一個單篇——《泡沫中的“囚徒困境”

            記述了2008年房地產領域的囚徒困境。 在所有市場博弈模型中,“囚徒困境”是最為接

            近心理學的一個,也是最能揭示善惡的一個,更是最能體現集體智慧的一個,選擇背叛還是

            合作,始終是它不變的主題?? 我們把眼光聚焦到當前的房地產市場中來吧,一個不

            小的“囚徒困境”已經展現在我們眼前,首先放棄帕累托最優(yōu)解決方案的是萬科,可想而知,

            在當前的市場環(huán)境下,它預期到的博弈的納什均衡,顯然是未來困境下的房地產商之間的普

            遍相互背叛,也就是說,萬科在這場“囚徒困境”中,之所以選擇首先動手,出賣所有除它

            之外的房地產商,是因為它預計在這種困境中,如果不盡早出賣所有同伴,自己將面臨被出

            賣的結局,畢竟,這是一個非零和博弈游戲,出賣行為是可以換取非常大的利益的??

            在這里,我為何要刻薄地使用“出賣”二字?我們回顧一下房地產商們過去N年中所締造

            出來的“攻守同盟”便可理解,我曾經因為“房地產行業(yè)是否存在暴利”及“房地產開發(fā)成

            本是否應該公開”的問題在第一財經頻道與反方爭得面紅耳赤,我從來就認定房地產開發(fā)企

            業(yè)存在著的暴利現象,而當時幾乎所有的開發(fā)商都是眾口一辭地否認暴利的存在,更有甚者,

            潘先生羞答答地把成本比喻為自家老婆的奶子,充分論證了成本不可示人是理所當然的,

            然,其中也有萬科的聲音??如今的萬科,則踐踏了自己曾經參與的“同盟”,跳出來用實

            際行動來證明了暴利的存在,它不僅想證明自己存在暴利,也試圖揭發(fā)所有同伴的暴利,

            以,我說他的行為是“出賣”?? 通過出賣同伴,萬科真的能夠獲得個體的最大利益

            嗎?理論上說它能夠獲得,但在實踐中,也許它最終是打錯了算盤,因為在所有的實踐中,

            “囚徒困境”式的博弈必須是在一個信息極不對稱的封閉環(huán)境中產生結果,所有囚徒式的自

            身恐懼與“理性決策”都是被相互隔絕的,而且這種博弈是不可被重復的,而當前的市場環(huán)

            境已經被不止一次重演過了(海南、05全國、08深圳),這種重復博弈最終將令所有參與者

            脫離困境,“囚徒困境”至此被徹底打破?? 另外,最關鍵的一條是,在這場博弈中,

            政府也參與其中了,他直接參與的環(huán)節(jié)在于源頭,即土地的供應(租借)這將加速打破“囚

            徒困境”,因為與所有參與博弈者有著本質不同的是,政府是整個游戲的設計者,是囚禁規(guī)

            則的設計者,也是蓋牢房、拆牢房的人,你很難想象一個有著政府參與其中的“囚徒困境”

            可以被稱之為真正意義上的“困境”,再回頭看萬科,在所有被他出賣的所謂同伴中,正有

            政府的身影??我這么說也許是不嚴謹的,畢竟這不是一個理想狀態(tài)下的“囚徒困境”,囚

            徒之間并沒有相互隔絕,信息最起碼在業(yè)內并非極度不對稱,萬科是否背負著某種使命,

            今還不得而知?? 最后,需求方同樣面臨“囚徒困境”從鄒濤的“不買房運動”“萬

            人大團購”中便可管窺一二?? 我認為,房地產商乃至房地產市場若想最終走出“囚

            徒困境”,只有兩種可能,一是前文提到的那位最為尊貴的囚徒如何作為,囚禁自己還是大

            赦天下,二是所有囚徒在重復博弈的過程中明智地選擇停止博弈、創(chuàng)建合作,在過去的幾年

            里,他們曾經做到過,如今,也許又到了這樣做的時候了,他們需要的僅僅是集體智慧,而

            那些已經被出賣者竊走的蛋糕,恐怕也只能暫時性地延續(xù)出賣者的生命,卻最終導致其今后

            連做囚徒的資格也不會有了??只為兩個字,“信任” 而在此之后,也許“囚徒困境”

            將演變成另一種新的模型,我姑且稱之為“重復博弈結果下的囚徒報復”??

            軍事或政治學例子:軍備競賽

            在政治學中,兩國之間的軍備競賽可以用囚徒困境來描述。兩國都可以聲稱有兩種選擇:

            增加軍備(背叛)、或是達成削減武器協議(合作)。兩國都無法肯定對方會遵守協議,因此

            兩國最終會傾向增加軍備。似乎自相矛盾的是,雖然增加軍備會是兩國的“理性”行為,但

            結果卻顯得“非理性”(例如會對經濟造成損壞等)這可視作遏制理論的推論,就是以強大

            的軍事力量來遏制對方的進攻,以達到和平。

            經濟學例子:關稅戰(zhàn)

            兩個國家,在關稅上可以有以兩個選擇: 提高關稅,以保護自己的商品。(背叛)

            與對方達成關稅協定,降低關稅以利各自商品流通。(合作) 當一國因某些因素不遵守

            關稅協定,獨自提高關稅(背叛)另一國也會作出同樣反應(亦背叛)這就引發(fā)了關稅戰(zhàn),

            兩國的商品失去了對方的市場,對本身經濟也造成損害(共同背叛的結果)。然后二國又重

            新達成關稅協定。(重復博弈的結果是將發(fā)現共同合作利益最大。

            商業(yè)例子:廣告戰(zhàn)

            商業(yè)活動中亦會出現各種囚徒困境例子。以廣告競爭為例。 兩個公司互相競爭,

            二公司的廣告互相影響,即一公司的廣告較被顧客接受則會奪取對方的部分收入。但若二者

            同時期發(fā)出質量類似的廣告,收入增加很少但成本增加。但若不提高廣告質量,生意又會被

            對方奪走。 此二公司可以有二選擇: 互相達成協議,減少廣告的開支。(合作)

            增加廣告開支,設法提升廣告的質量,壓倒對方。(背叛) 若二公司不信任對方,無法

            合作,背叛成為支配性策略時,二公司將陷入廣告戰(zhàn),而廣告成本的增加損害了二公司的收

            益,這就是陷入囚徒困境。在現實中,要二互相競爭的公司達成合作協議是較為困難的,多

            數都會陷入囚徒困境中。

            自行車賽例子

            自行車賽事的比賽策略也是一種博弈,而其結果可用囚徒困境的研究成果解釋。例如每

            年都舉辦的環(huán)法自由車賽中有以下情況:選手們在到終點前的路程常以大隊伍(英文:Peloton

            方式前進,他們采取這策略是為了令自己不至于太落后,又出力適中。而最前方的選手在迎

            風時是最費力的,所以選擇在前方是最差的策略。通常會發(fā)生這樣的情況,大家起先都不愿

            意向前(共同背叛),這使得全體速度很慢,而后通常會有二或多位選手騎到前面,然后一

            段時間內互相交換最前方位置,以分擔風的阻力(共同合作),使得全體的速度有所提升,

            而這時如果前方的其中一人試圖一直保持前方位置(背叛),其他選手以及大隊伍就會趕上

            (共同背叛)。而通常的情況是,在最前面次數最多的選手(合作)通常會到最后被落后的

            選手趕上(背叛),因為后面的選手騎在前面選手的沖流之中,比較不費力。

            與囚徒困境相關的各事件

            [編輯]異想

            威廉·龐德斯通(William Poundstone)在他的著作中,以一新西蘭的例子來說明囚徒

            困境。在新西蘭,報亭既無管理員也不上鎖,買報紙的人自行放下錢后拿走報紙。當然某些

            人可能取走報紙卻不付錢(背叛),但由于大家認識到如果每個人都偷竊報紙(共同背叛)

            會造成以后不方便的有害結果,這種情形很少發(fā)生。這例子特別之處是新西蘭人并沒有被任

            何其他因素影響而能脫離囚徒困境。并沒有任何人特別去注意報亭,人們守規(guī)則是為了避免

            共同背叛帶來的惡果。這種避免囚徒困境的大家共同的推理或想法被稱為“異想(magical

            thinking

            “認罪減刑”不可行

            囚徒困境的結論是許多國家中認罪減刑(英文:plea bargain)被禁止的原因之一。囚徒

            困境帶來的結論是:如果有二個罪犯,其中一人犯罪而另外一人是無辜的,犯罪者會為了減

            刑坦白一切甚至冤枉清白者(單獨背叛)。最糟糕的情況是,如果他們二人都被判入獄,坦

            白的犯罪者刑期少,堅持無罪的冤枉者刑期反而更多。

            公用品悲劇

            現實的博弈參與者不只一方,會有多方參與的囚徒困境。 加勒特·詹姆斯·哈丁Garrett

            James Hardin的公用品悲劇就是一例:“公用品悲劇是指凡是屬于最多數人的公共財產常常

            是最少受人照顧的事物”,例如漁業(yè),公海中的魚是屬于公共的,而在本身不濫捕其他人也

            濫捕的思想下,漁民會沒有節(jié)制的大撈特撈,結果海洋生態(tài)破壞,漁民的生計也受影響(共

            同背叛的結果)。但是,多方囚徒困境的提法有待商榷,因為其總是可以被分解為一組組經

            典的二方囚徒困境。就是說只有二方的囚徒困境,沒有多方的。所謂多方的囚徒困境只是由

            多個二方囚徒困境混雜在一起而形成的錯覺。

            重復的囚徒困境

            羅伯特·阿克塞爾羅德在其著作《合作的進化》中,探索了經典囚徒困境情景的一

            個擴展,并把它稱作“重復的囚徒困境”IPD。在這個博弈中,參與者必須反復地選擇他

            們彼此相關的策略,并且記住他們以前的對抗。阿克塞爾羅德邀請全世界的學術同行來設計

            計算機策略,并在一個重復囚徒困境競賽中互相競爭。參賽的程序的差異廣泛地存在于這些

            方面:算法的復雜性、最初的對抗、寬恕的能力等等。

            阿克塞爾羅德發(fā)現,當這些對抗被每個選擇不同策略的參與者一再重復了很長時間

            之后,從利己的角度來判斷,最終“貪婪”策略趨向于減少,而比較“利他主義”策略更多

            地被采用。他用這個博弈來說明,通過自然選擇,一種利他行為的機制可能從最初純粹的自

            私機制進化而來。

            最佳確定性策略被認為是“以牙還牙”這是阿納托爾·拉波波特Anatol Rapoport

            開發(fā)并運用到錦標賽中的方法。它是所有參賽程序中最簡單的,只包含了四行BASIC語言,

            并且贏得了比賽。這個策略只不過是在重復博弈的開頭合作,然后,采取你的對手前一回合

            的策略。更好些的策略是“寬恕地以牙還牙”。當你的對手背叛,在下一回合中你無論如何

            要以小概率(大約是1%-5%)時而合作一下。這是考慮到偶爾要從循環(huán)背叛的受騙中復原。

            當錯誤傳達被引入博弈時,“寬恕地以牙還牙”是最佳的。這意味著有時你的動作被錯誤地

            傳達給你的對手:你合作但是你的對手聽說你背叛了。

            通過分析高分策略,阿克塞爾羅德指定了策略獲得成功的幾個必要條件。

            ;友善:最重要的條件是策略必須“友善”,這就是說,不要在對手背叛之前先背叛。

            幾乎所有的高分策略都是友善的。因此,完全自私的策略僅僅出于自私的原因,也永遠不會

            首先打擊其對手。

            報復

            但是,阿克斯洛德主張,成功的策略必須不是一個盲目樂觀者。要始終報復。一個非報

            復策略的例子是始終合作。這是一個非常糟糕的選擇,因為“下流”策略將殘酷地剝削這樣

            的傻瓜。

            寬恕

            成功策略的另一個品質是必須要寬恕。雖然它們不報復,但是如果對手不繼續(xù)背叛,

            們會一再退卻到合作。這停止了報復和反報復的長期進行,最大化了得分點數。

            不嫉妒

            最后一個品質是不嫉妒,就是說不去爭取得到高于對手的分數(對于“友善”的策略來

            說這也是不可能的,也就是說“友善”的策略永遠無法得到高于對手的分數)

            因此,阿克塞爾羅德得到一種給人以烏托邦印象的結論,認為自私的個人為了其自

            私的利益會趨向友善、寬恕和不嫉妒。阿克塞爾羅德關于重復囚徒困境的研究的重要結論之

            一,是友善的家伙能先完成交易。

            對一次性囚徒困境博弈來說,最佳(點數最大化的)策略是簡單地背叛;正如前面解釋

            的,無論對手的行動可能是什么,這都是真實的。但是,在重復的囚徒困境博弈中,最佳策

            略依賴于可能的對手的策略,和他們怎樣對背叛和合作作出反應。例如,考慮這樣一個人群,

            那里每個人每次都背叛,除了一個人是遵循以牙還牙策略。這個人處于一種輕微的不利地位,

            因為第一回合的損失。在這樣的人群中,對這個人來說最佳策略就是每次都背叛。在一個有

            一定的百分比的總背叛者而剩下的則是以牙還牙者的人群中,對個人來說的最佳策略依賴于

            這個百分比和博弈的長度。

            一般有兩種方法得到最佳策略:

            1.貝葉斯納什均衡:如果對抗策略的統(tǒng)計分布能被確定(例如,50%以牙還牙,50%一

            直合作),就能從數學上獲得最佳的相對策略。

            2.已經有了人群的蒙特卡羅模擬,在這里低分個人消失了,高分個人一再被生產出來(一

            種獲得最佳策略的天才算法)。決賽人群中的算法合成通常依賴于初賽人群中的算法合成。

            盡管以牙還牙始終被認為是最可靠的基本策略,但是在重復囚徒困境的20周年紀

            念賽中,來英國南安普敦大學的一個小組(由尼古拉斯·詹寧斯Nicholas Jennings領導,

            包括了拉蒂普·達什Rajdeep Dash薩瓦帕里·拉姆瓊Sarvapali Ramchurn亞歷克斯·

            杰斯( Alex Rogers)和皮魯克里士南·維特林根(Perukrishnen Vytelingum)介紹了一個新

            的策略,這個策略證明了它比以牙還牙更成功。這個策略依賴于程序之間的合作,為單一程

            序中獲得了最高的點數。南安普敦大學提交了60個程序參與競賽,這些程序的開頭被設計

            成通過一組510個的動作去彼此識別。一旦這些識別被作出,一個程序將總是合作,其

            他程序則總是背叛,保證背叛者得到最大的點數。如果程序識別出它在操作一個非南安普敦

            參與者,這程序將持續(xù)地背叛,企圖去最小化競爭程序的得分。結果,這個策略以獲得前3

            位結束了競賽,也得到了大量接近底部的位置。雖然這個策略顯著地證明了比以牙還牙有效,

            但是這是因為利用了下述事實:在這個特殊的競賽中,多重通道是被允許的。在一方只能控

            制單一參與者的競賽中,以牙還牙確實是更好的策略。

            如果重復囚徒困境將被精確地重復N次,已知N是一個常數,那么會產生另一個有趣

            的事實。 納什均衡就是每次都背叛。這很容易用歸納法證明。你也可以在最后的回合背叛,

            既然你的對手將沒有機會懲罰你。因此,你們都將在最后的回合背叛。這時,你可以在倒數

            第二回合中背叛,既然最后一回無論你做什么,你的對手都將背叛。依此類推。為了合作以

            保持請求,這時未來必須對兩個參與者來說是不確定的。一個解決方案是讓博弈總次數N

            變成隨機的。對未來的預期必須是無法確定的長度。

            同位語從句和定語從句的區(qū)別-模糊評價法

            囚徒困境

            本文發(fā)布于:2023-11-10 08:55:06,感謝您對本站的認可!

            本文鏈接:http://www.newhan.cn/zhishi/a/1699577706211452.html

            版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業(yè)和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。

            本文word下載地址:囚徒困境.doc

            本文 PDF 下載地址:囚徒困境.pdf

            標簽:零和競爭
            留言與評論(共有 0 條評論)
               
            驗證碼:
            推薦文章
            排行榜
            Copyright ?2019-2022 Comsenz Inc.Powered by ? 實用文體寫作網旗下知識大全大全欄目是一個全百科類寶庫! 優(yōu)秀范文|法律文書|專利查詢|
            主站蜘蛛池模板: AV免费网址在线观看| 福利一区二区在线播放| 国产网友愉拍精品视频| 亚洲狠狠色丁香婷婷综合| 亚洲精品一区二区三区大| 日韩无套无码精品| 亚洲嫩模一区二区三区视频| 午夜福利院一区二区三区| 亚洲最大有声小说AV网| 免费视频一区二区三区亚洲激情| 国产成人久久精品流白浆| 国产精品自在在线午夜区app| AV无码免费不卡在线观看| 亚洲の无码国产の无码步美| 国产成人免费| 国产欧美在线观看一区| 亚洲高清乱码午夜电影网| 成人无码区免费视频网站| 国产精品不卡一区二区久久| 亚洲高清aⅴ日本欧美视频| 在线观看精品自拍视频| 国产成人亚洲精品自产在线| 粉嫩小泬无遮挡久久久久久| julia中文字幕久久亚洲| 国产睡熟迷奷系列网站| 国产91麻豆精品成人区| 亚洲天堂成人一区二区三区| 中文字幕有码免费视频| 国产肥白大熟妇bbbb视频| 国内熟女中文字幕第一页| 又黄又硬又湿又刺激视频免费| 国产精品国色综合久久| 18禁极品一区二区三区| 无码专区视频精品老司机| 17岁日本免费bd完整版观看| 在线看免费无码av天堂| 国产午夜福利精品久久不卡| 免费a级毛片无码av| 亚洲狠狠婷婷综合久久久| 久久天堂综合亚洲伊人HD妓女| 国产特级毛片aaaaaa毛片|