
盤點博弈論&納什均衡&囚徒困境&零和博弈&智豬博弈
1.博弈論是什么
博弈論(game theory),又譯為對策論,或者賽局理論,經
濟學的一個分支,1944年馮·諾伊曼與奧斯卡·摩根斯特恩合著《博
弈論與經濟行為》,標志著現代系統博弈理論的的初步形成,因
此他被稱為“博弈論之父”。博弈論被認為是20世紀經濟學最偉
大的成果之一。目前在生物學、經濟學、國際關系、計算機科學、
政治學、軍事戰略和其他很多學科都有廣泛的應用。主要研究公
式化了的激勵結構(游戲或者博弈)間的相互作用。是研究具有
斗爭或競爭性質現象的數學理論和方法。也是運籌學的一個重要
學科。
具有競爭或對抗性質的行為稱為博弈行為。在這類行為中,參
加斗爭或競爭的各方各自具有不同的目標或利益。為了達到各自
的目標和利益,各方必須考慮對手的各種可能的行動方案,并力
圖選取對自己最為有利或最為合理的方案。比如日常生活中的下
棋,打牌等。博弈論就是研究博弈行為中斗爭各方是否存在著最
合理的行為方案,以及如何找到這個合理的行為方案的數學理論
和方法。
2.納什均衡(Nash equilibrium)
選擇卻往往導致集體的非理性。雖然困境本身只屬模型性質,但
現實中的價格競爭、環境保護等方面,也會頻繁出現類似情況。
1950年,由就職于蘭德公司的梅里爾·弗勒德和梅爾文·德雷
希爾擬定出相關困境的理論,后來由顧問艾伯特·塔克以囚徒方式
闡述,并命名為“囚徒困境”。經典的囚徒困境如下:
警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人有罪。
于是警方分開囚禁嫌疑犯,分別和二人見面,并向雙方提供以下
相同的選擇:
若一人認罪并作證檢控對方(相關術語稱“背叛”對方),而
對方保持沉默,此人將即時獲釋,沉默者將判監10年。
若二人都保持沉默(相關術語稱互相“合作”),則二人同樣
判監半年。
若二人都互相檢舉(互相“背叛”),則二人同樣判監5年。
用表格概述如下:
如同博弈論的其他例證,囚徒困境假定每個參與者(即“囚徒”)
都是利己的,即都尋求最大自身利益,而不關心另一參與者的利
益。參與者某一策略所得利益,如果在任何情況下都比其他策略
要低的話,此策略稱為“嚴格劣勢”,理性的參與者絕不會選擇。
另外,沒有任何其他力量干預個人決策,參與者可完全按照自己
意愿選擇策略。
囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最
短?兩名囚徒由于隔絕監禁,并不知道對方選擇;而即使他們能
交談,還是未必能夠盡信對方不會反口。就個人的理性選擇而言,
檢舉背叛對方所得刑期,總比沉默要來得低。試設想困境中兩名
理性囚徒會如何作出選擇:
若對方沉默、我背叛會讓我獲釋,所以會選擇背叛。
若對方背叛指控我,我也要指控對方才能得到較低的刑期,所
以也是會選擇背叛。
二人面對的情況一樣,所以二人的理性思考都會得出相同的結
論——選擇背叛。背叛是兩種策略之中的支配性策略。因此,這
場博弈中唯一可能達到的納什均衡,就是雙方參與者都背叛對方,
結果二人同樣服刑5年。
亞當·斯密的理論(“看不見的手”原理),在市場經濟中,
每一個人都從利己的目的出發,而最終全社會達到利他的效果。
但是我們可以從“納什均衡”中引出“看不見的手”原理的一個
悖論:從利己目的出發,結果損人不利己,既不利己也不利他。
政治學例子:軍備競賽
在政治學中,兩國之間的軍備競賽可以用囚徒困境來描述。兩
國都可以聲稱有兩種選擇:增加軍備(背叛)、或是達成削減武
器協議(合作)。兩國都無法肯定對方會遵守協議,因此兩國最
終會傾向增加軍備。似乎自相矛盾的是,雖然增加軍備會是兩國
的“理性”行為,但結果卻顯得“非理性”(例如會對經濟造成
損壞等)。這可視作遏制理論的推論,就是以強大的軍事力量來
遏制對方的進攻,以達到和平。
經濟學例子:關稅戰
兩個國家,在關稅上可以有以下兩個選擇:
提高關稅,以保護自己的商品。(背叛)
與對方達成關稅協定,降低關稅以利各自商品流通。(合作)
當一國因某些因素不遵守關稅協定,而獨自提高關稅(背叛)
兩國的商品失去了對方的市場,對本身經濟也造成損害(共同背
叛的結果)。然后二國又重新達成關稅協定。(重復博弈的結果
是將發現共同合作利益最大。)
商業例子:廣告戰
商業活動中亦會出現各種囚徒困境例子。以廣告競爭為例。
兩個公司互相競爭,二公司的廣告互相影響,即一公司的廣告
就是陷入囚徒困境。在現實中,要二互相競爭的公司達成合作協
議是較為困難的,多數都會陷入囚徒困境中。
4. 零和博弈
零和博弈(zero-sum game),又稱零和游戲或零和賽局,與非
零和博弈相對,是博弈論的一個概念,屬非合作博弈。零和博弈
也可以說:自己的幸福是建立在他人的痛苦之上的,二者的大
小完全相等,因而雙方都想盡一切辦法以實現“損人利己”。零
和博弈的例子有賭博、期貨和選舉等。
5.智豬博弈
在長條形的豬圈中關著大小兩頭豬。豬圈一端有一個豬食槽,
另一端有一個按鈕,可以控制豬食槽中的食物,按下按鈕后就有10
單位的豬食進入食槽。大豬進食的速度快,如果大豬先到達食槽
處,可以吃到9個單位的豬食(小豬吃到剩余的食物,下同);
如果同時到達,大豬吃到7個單位豬食;如果小豬先到,大豬吃
到6個單位。另外,按下按鈕者跑到豬食槽處需要付出2單位豬
食的代價。假設兩頭豬從按鈕處跑到豬食槽處所需時間相同。
兩頭豬都有兩種選擇:按按鈕后跑到豬食槽,或者在豬食槽處
等待。因此,可以列出下列支付矩陣(行表示大豬,列表示小豬):
容易看出,無論大豬如何選擇,小豬選擇等待獲得的收益總是比
按按鈕更高。換言之,小豬選擇等待是一個優勢策略。給定小豬
選擇等待,大豬會選擇按按鈕去獲得更大的收益。因此,整個博

本文發布于:2023-11-10 09:25:37,感謝您對本站的認可!
本文鏈接:http://www.newhan.cn/zhishi/a/1699579538211469.html
版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。
本文word下載地址:盤點博弈論納什均衡囚徒困境零和博弈智豬博弈.doc
本文 PDF 下載地址:盤點博弈論納什均衡囚徒困境零和博弈智豬博弈.pdf
| 留言與評論(共有 0 條評論) |