重度選擇困難癥患者？博弈論讓你不再做后悔的決定

2020-01-11 08:59

來源：澎湃新聞·澎湃號·湃客

原創羅數君羅博深數學

導語

博弈論和我們日常的生活也有不小的關系，我們在做決定的時候，對博弈論的了解能夠幫助我們更好地了解對方的狀況、分析身邊的處境，從而作出更優決定。那么到底什么是博弈論？如何應用博弈論？相信這篇文章中一定有你想要的答案。

作者 | Jason

全文字數 | 3562 閱讀時間 | 9分鐘

博弈論(Game Theory)，又被稱為對策論或賽局理論，是經濟學中一個非常重要的分支。博弈論通過數學模型來分析理性決策者(rational decision-makers)的策略互動行為(strategic interaction)，并幫助人作出最優決定。

1944年，約翰諾伊曼與摩根斯特恩合著《博弈論與經濟行為》一書，標志著現代系統博弈理論的初步形成。自此博弈論被廣泛認為是20世紀經濟學最偉大的成果之一。博弈論不僅在經濟學的發展中起到舉足輕重的作用，還在生物學、經濟學、國際關系、計算機科學、政治學、軍事戰略和其他學科有著廣泛的應用。

博弈論和我們日常的生活也有不小的關系，我們在做決定的時候，對博弈論的了解能夠幫助我們更好地分析身邊的處境，從而作出更優決定。在博弈論的分析中，我們不僅要依靠數學邏輯思維，很多時候，對于人性的了解也極其關鍵。接下來，讓我們通過一些經典的博弈游戲，來更好的了解博弈論的神奇。

1. 最后通牒賽局(Ultimatum Game)

最后通牒賽局的規則十分簡單，參加比賽的兩個人分別是提議者和響應者。提議者和響應者兩人會一起分配一些固定的資源(10元)，提議者將提出一種分配方法，例如提議者5元，響應者5元；或提議者8元，響應者2元。面對提議者提出的分配方法，如果響應者同意，這兩個人就會按照提議者提出的分配方法來分配這10元。但是，如果響應者不同意提出的分配方法，兩個人則什么都得不到。

通過簡單的思考，我們可以了解到，對于完全理性的響應者來說，不同意提出的分配方法對自己沒有任何好處。也就是說，提議者提出的分配方法里所給予響應者的任何資源(1元)，響應者都應該接受。這樣，對于完全理性的提議者來說，如果知道響應者會接受任何分配，那么為了利益的最大化，他就應該提出給予響應者最少資源的分配方法，也就是給予響應者1元。這樣，賽局的結果即是提議者給予自己9元，給響應者1元，而且響應者同意這樣的分配方法。

然而，大多數人都不是完全理性的。最后通牒賽局在不同的國家與不同的時期被研究者反復試驗，而賽局的結果也遠遠不同于上述完全理性者得到的理想結果。平均下來，提議者提出的分配方式給予響應者4-5元，且大多數的參賽者給予了響應者5元。而在那些少于2元的分配方式中，有一半的響應者拒絕了分配方式，并放棄了自己可以得到的資源。

有趣的是，最后通牒賽局在世界不同的地區都被實驗過，所得到的結果也大不相同。在美國，提議者的分配方法往往都比較公平，而響應者的拒絕率也相對較高。而在蒙古國，提議者平均只分配給響應者2元，令人驚奇的是，響應者的拒絕率卻非常低，甚至少于百分之5。由此可見，在不同的文化背景下，人們對公平的理解也多少有些不同。

2. 獨裁者賽局(Dictator Game)

在最后通牒賽局中，通過人們的真實表現，我們看出了他們對公平的向往，人們雖然有機會得到更多的資源，卻在很多時候無私地給予他人資源。而在獨裁者賽局中，研究者想了解的是，人到底是不是真正的無私。

獨裁者賽局的規則相比于最后通牒賽局更加簡單。參加比賽的兩個人分別是獨裁者和接受者。獨裁者可以隨意分配所有的資源（10元）。而接受者只能接受獨裁者的分配方法。

我們可以清楚的看到，獨裁者在這里享有絕對的權力，若獨裁者完全理性并追求利益最大化，他大可全盤收下所有資源，完全不顧及接受者的利益。然而，在這個實驗中，獨裁者平均給予接受者資源的20%。實驗的結果讓人感到些許欣慰，獨裁者的分配讓我們看到大多數參賽者還是懷有一顆無私的心，愿意與接受者分配資源。

然而，人真的都是無私的嗎？很多社會學家認為人們的無私很多時候建立在對未來回報的期望之上。同時，很多人也認為人們無私的行為是為了讓他們看起來不那么自私。社會學家在獨裁者賽局的條件上增加了一個“悄悄離開(quit exit)”的選項。如果獨裁者在游戲中選擇了這個選項，他們所做的選擇則不會被人知道。而“悄悄離開”的選項只需要獨裁者花費1元。在擁有“悄悄離開(quit exit)”選項的獨裁者賽局中，有28%的參與者選擇了“悄悄離開”，而這些選擇“悄悄離開”的參與者則不出所料地將所有的資源都收入囊中。由此看來人們所表現出來的無私行為的動機也許不總是那么純粹。

3. 信任游戲(The Trust Game)

參加信任游戲的兩個人分別為投資者與受托人。投資人會先得到10元的資產，它可以選擇將這些資產的一部分交給受托人，受托人則將會得到這部分資產的三倍，然后受托人可以選擇將得到資產的任何一部分還給投資人。

這個游戲相比前兩個游戲稍微復雜一些，但是如果我們仔細分析，仍不難得理解。若想讓兩人受益最大化，投資人與受托人必須互相信任，投資人應該將所有的資產(10元)交給受托人，當受托人得到3倍資產的時候(3*10 = 30元)，他將其中一半的資產還給投資人。這樣兩人各拿15元，皆大歡喜。然而，若參加游戲的兩人都是完全理性的，投資人若將所有的資產都交給受托人，得到三倍資產的受托人則不會需要將這些資產還給投資人。這樣，無論投資人給予了受托人多少資產，這些資產都是無法被收回的，完全理性的投資人則不會給予受托人一分錢。

在真實的實驗中，我們可以看到投資人與受托人給予對方的資產大不相同，一些參與者攬下全部的資產，一些參與者則非常相信對方，將大部分資產給予給了對方。值得注意的是，投資者從受托人所得到的資產往往都小于他們所給予的。

4. 囚徒困境(Prisoner’s Dilemma)

囚徒困境是博弈論中非常著名的問題。游戲的規則是這樣的，兩個囚徒同時被逮捕了，在被審訊的時候，兩個囚徒被關在了不同的房間里且不知道對方的回答是什么。囚徒可以選擇坦白自己的罪行，也可以選擇死不承認。若兩個囚徒同時坦白，兩個歹徒將同時獲得六年的牢獄之災。若兩個都選擇死不承認，兩人將被同時關押一年。若兩人中一個人坦白，一個人死不承認，那么坦白的囚徒將被釋放，而沒有坦白的囚徒則需要在牢房中度過10年。通過下面的圖可以我們可以更直觀的了解游戲的規則：

乍一看，我們似乎不能直接找到最優的解決辦法，因為最后的結果與另一個囚徒的決定息息相關。那我們應該怎么思考這個問題呢？既然我們無法決定另一個囚徒的選擇，我們只能通過自己的決定來分析。我們只有兩種選擇：坦白或不坦白。若我們坦白，且另外一個囚徒也坦白了，我們將坐牢6年，若另一個囚徒不坦白，我們將被釋放。讓我們再來看看若我們不坦白的情況，如果另外一個囚徒坦白，我們將坐牢10年，若另一個囚徒不坦白，我們將坐牢1年。這樣，我們發現了一個非常有趣的現象，無論對方的選擇是什么，我們若選擇坦白，自己得到的牢房的時間都是更少的。

“我”在牢房的時間

這樣，若你是一個完全理性的囚徒，你就應該毫不猶豫的坦白。

但是，在現實的游戲中，坦白真的能夠給你帶來最少的坐牢時間嗎？若兩人都不坦白，得到的結果對兩人來說不是更好么？在1980年的時候，來自密歇根大學的政治學教授羅伯特阿克賽爾羅德舉辦了阿克賽爾羅德比賽，在比賽中，兩個玩家不斷的進行囚徒困境游戲，但是玩家的策略可以不斷的變化，以更了解對手。阿克賽爾羅德想知道怎樣的策略能夠換來最少的牢房的總時間。這個比賽吸引了來自世界各地知名的策略學家。比賽中的策略不僅包括了坦白或不坦白策略之外，也囊括了馬科夫過程，貝葉斯推理等復雜的策略。經過多輪的比賽，阿克賽爾羅德發現針鋒相對策略(tic for tat)是最成功的，針鋒相對的策略即是重復對手上一輪的策略。這個策略有四大優點：

友好：不在對手坦白之前坦白

有一定報復性：當對手開始占便宜的時候需要適當報復對手

寬恕性：當對手愿意繼續合作時，不會記仇，愿意重新合作

不嫉妒：只在乎最后的結果，而不在乎是否戰勝對方

這四大優點似乎也在很大的程度上告訴了我們在博弈游戲中所要選擇怎么樣的策略。