落霞小說

第十二章 好人終有好報 · 2

[英]理查德·道金斯2018年11月27日Ctrl+D 收藏本站

關燈 直達底部

這里,我們不關心某一個策略是否優于另一個策略。我們只關心哪個策略在與15個對手博弈后,最終贏得最多的“錢”。在這里,“錢”指的是贏得的分數。相互合作的獎賞為3分,背叛的誘惑為5分,互相背叛的懲罰為1分(相當于我們早先例子中的輕判),失敗的代價為0分(等同于之前例子中的重罰)。

zsdjy3

無論是哪一種策略,理論上它們能得到的最高分都是15 000分(每一回合5分,15個對手共有200回合),最低分則是0分。不用說,這兩個極端都沒有實現。實際上,一個策略如果能超過15個對手中的平均水平,最多也只能獲得比600分高出一些的分數。因為如果對手雙方決定他們持續合作,每人在200場博弈中都能得到3分,總共便是600分。我們可以將600分作為基準分,將所有分數表達為600分的百分比。這么算來,理論上的最高分將是166%(1 000分)。但事實上,沒有任何一個策略的平均分超過600分。

要知道,競賽中的博弈者并不是人類,而是計算機事先設定好的程序。而基因則在這些程序的作者里事先設定了“程序”,使得它們身體力行地扮演同樣的角色(想想第四章中的計算機對弈與“仙女座”超級計算機)。你可以將這些策略想象成這些作者的微型代理。雖然一個作者原本可以提交一個以上的策略,但這其實是作弊,這表示作者將在競爭本身中加入策略,使得其中一個角色從另一個角色的犧牲中得到合作的好處。阿克塞爾羅德應該不會接受這一點。

交上來的有一些很聰明的策略,當然它們遠沒有其作者聰明。然而,最后勝出的策略卻是一個最簡單的、而且看起來最不聰明的一個。這個策略稱為“針鋒相對”(Tit for Tat),它來自多倫多一位著名心理學家和博弈學家阿納托爾(Anatol Papoport)教授。這個策略在第一回合時采取合作行動,然后在接下來的所有步驟里,只是簡單復制對手上一步的行動。有了“針鋒相對”策略的博弈將如何進行呢?一如尋常,下一步的出牌完全取決于對手。假設另一對手也選擇了“針鋒相對”的策略(每一個策略不止與其他14個對手競爭,也與自己本身博弈),雙方都選擇以“合作”而開場。第二步中,雙方都復制對方上一步的策略,仍然采取“合作”。這樣,博弈雙方持續合作,直到游戲結束,雙方都能獲得100%的600分基準分。

那么,假設“針鋒相對”與另一個策略“老實人探測器”(Native Prober)開始博弈。事實上,“老實人探測器”并沒有出現在阿克塞爾羅德的博弈競賽中,但它依然是一個富有指導性的策略。這個策略基本等同于“針鋒相對”,但每隔一會兒,比如在每十步中任意選擇一步,這個策略會打出惡意的“背叛”牌,而獲得最高的分數“背叛的誘惑”。如果“老實人探測器”不打出其試探的“背叛”牌,博弈雙方便是兩個“針鋒相對”,打出一場漫長且互利的合作牌,彼此安穩地獲得100%的基準分。但突然間(假設在第8回合),“老實人探測器”出其不意地“背叛”了。“針鋒相對”卻依然不知情地堅持“合作”,也便只能付出“失敗者的代價”,得到0分。而“老實人探測器”則能得到最高成績5分。但在下一步里,“針鋒相對”開始報復,復制了對手上一步的行動,打出了“背叛”牌。而“老實人探測器”則盲目地繼續原本設定的程序,復制對手上一步的“合作”牌。于是它只能獲得0分,而“針鋒相對”則得到5分。再下一步,“老實人探測器”極其不公正地又開始了報復,“背叛”了“針鋒相對”。反之亦然。在每一輪交替報復的回合里,雙方各自平均獲得2.5分(5分與0分的平均值)。這依然低于雙方持續雙向合作所能輕而易舉獲得的3分(這也是本章前文中尚未解釋的“特殊情況”的原因)。于是,當“老實人探測器”與“針鋒相對”開始博弈,雙方都未能獲得兩個“針鋒相對”博弈時所得的分數。而如果“老實人探測器”互相對弈,其結果只可能更壞,因為這種以牙還牙的冤冤相報可能開始得更早。

讓我們再來考慮另一個叫“愧疚探測器”(Renwrseful Prober)的策略。這個策略有點類似于“老實人探測器”,但它還加以主動終止循環于雙方間的交互背叛。這便需要一種比“針鋒相對”或“老實人探測器”更長的記憶。“愧疚探測器”能記住自己是否剛剛主動“背叛”,或者只是為了報復。如果是后者,它便“愧疚地”讓對手得到一次反擊的機會,而不加以報復。這便將此循環報復行為終結在萌芽狀態。如果你在想象中旁觀“愧疚探測器”與“針鋒相對”的博弈,你會發現可能的循環報復行動不攻自破。博弈中大部分時間都采取互相合作,使得雙方都能獲得相應的高分。在與“針鋒相對”的博弈中,“愧疚探測器”能獲得比“老實人探測器”更高的分數,但依然沒有“針鋒相對”與自己對弈的分數高。

阿克塞爾羅德的競賽里還有一些比“老實人探測器”與“愧疚探測器”更為復雜的策略,但它們平均分都比“針鋒相對”低。事實上最失敗的策略(除了隨機)是最復雜的那一個,作者為“匿名”。這個作者引發了一些饒有興趣的猜測:五角大樓的高層?中央情報局的首腦?國務卿基辛格?阿克塞爾羅德自己?我們也許永遠也不會知道。

不是每個策略的細節都值得研究,這本書也不談計算機程序員的創造力。但我們可以給這些策略歸類,并檢驗這些類別的成功率。阿克塞爾羅德認為,最重要的類別是“善良”。“善良”類別指的是那些從不率先背叛的策略。“針鋒相對”便是其中一個例子。它雖然也采取“背叛”的行動,但它只在報復中這么做。“老實人探測器”與“愧疚探測器”也偶爾采取“背叛”,但這種行為是主動起意挑釁的,屬于惡意的策略。這場競賽中的15個策略中,有8個屬于“善良”策略。令人吃驚的是,策略中的前8名也是這8個善意的策略。“針鋒相對”的平均分504.5分,是我們600分基準分中的84%,一個很好的分數。其他“善良”策略所得分數要比“針鋒相對”少一些,從83.4%到78.6%不等。排名中接下來的分數則是由格雷斯卡普(Graaskamp)所獲得的66.8%,與高分們有很大差距,而這已經是所有惡意策略中的最高分了。令人信服的結果表明,好人在這個博弈中可以勝出。

阿克塞爾羅德的另一個術語則是“寬容”。一個寬容的策略只有短期記憶。雖然它也采取報復行為,但它會很快遺忘對手的劣跡。“針鋒相對”便是一個寬容的策略,面對背叛時它毫不手軟,但之后則“過去的讓它過去”。第十章中的“斤斤計較者”則是一個完全相反的例子。它的記憶持續了整個博弈,永不寬恕曾經背叛過它的對手。在阿克塞爾羅德的競賽中,有一個策略與“斤斤計較者”完全相同,由一位名叫弗里德曼(Friedman)的選手提供。這一個“善良”而絕不寬恕的策略結果并不算佳,成績在所有“善良”策略里排倒數第二。即便對手已經有悔改之意,它不愿意打破相互背叛的惡性循環,因此無法取得很高的分數。

“針鋒相對”并不是最寬容的策略。我們還可以設計一個“兩報還一報”(Tit for Two Tats)的策略,允許對手連續兩次背叛后才開始報復,這似乎顯得過分大度坦蕩了。阿克塞爾羅德算出,只要在競賽中有“兩報還一報”策略的存在,它便一定會獲得冠軍,因為它可以有效避免長期的互相傷害。

落`霞-小`說 Ww w # l u ox ia # c o m

于是,我們算出了贏家策略的兩個特點:善良與寬容。這幾乎是一個烏托邦式的結論:善良與寬容能得到好報。許多專家曾試圖在惡意策略里耍點兒花招,認為這可能得到高分。即使那些提交“善良”策略的專家,也未曾敢如“針鋒相對”一般寬容。所有人都對這個結論十分驚訝。

阿克塞爾羅德又舉辦了第二次競賽。這次他收到了62個策略,再加上隨機策略,總共便有了63個策略。這一次,博弈中的回合數不再固定為200,而改為開放式的不定數(我之后會解釋這么做的理由)。我們依然將得分評判為基準分“永遠合作”分數的百分比,不過現在基準分需要更為復雜的計算,并不再是固定的600分。

第二次競賽的程序員們都得到了第一次競賽的結果,還收到了阿克塞爾羅德對“針鋒相對”與善良與寬容策略獲勝的分析。這么做是為了讓參賽者們能從某種方向上了解比賽的背景信息,來權衡自己的判斷。事實上,這些參賽者分成兩種思路。第一種參賽者認為,已經有足夠證據證明善良與寬容確實是獲勝因素,他們便隨即提交了善良與寬容的策略。一位參賽者約翰·梅納德·史密斯(John Maynard Smith)提交了一個最為寬容的“三報還一報”(Tit for Three Tats)的策略。另一組參賽者則認為,既然對手們已經讀過了阿克塞爾羅德的分析,估計都會提交善良寬容的策略。他們于是便提交了惡意的策略,以期在善意對手中占到便宜。

然而,惡意再一次沒有得到好報。阿納托爾提交的“針鋒相對”策略再一次成為贏家,獲得了滿分的96%。而善意策略又再一次贏了惡意策略。前15名中只有一個策略是惡意策略,而倒數15名中只有一個是善意策略。然而,最為寬容的、可以在第一次競賽中勝出的“兩報還一報”策略,這次卻沒有成功。這是因為本次競賽中有了一些更為狡猾的惡意策略,它們善于偽裝自己,無情地拋棄那些善良的人們。這揭曉了這些競賽中非常重要的一點:成功的策略取決于你的對手的策略。這是唯一能解釋兩次競賽中的不同結果的理由。然而,就像我之前說過的那樣。這本書并不是關于計算機程序員的創造力的,那么,是否有一個廣泛客觀的標準來讓我們判斷,哪些是真正好的策略?前幾章的讀者們估計已經開始準備從生物進化穩定策略理論中尋找答案了。

當時的我也是阿克塞爾羅德傳播早期結果的小圈子中的一員,我也被邀請在第二次競賽中提交策略。我并沒有參賽,但我給阿克塞爾羅德提了一個建議。阿克塞爾羅德已經開始考慮“進化穩定策略”(EES)這個理論了。但我覺得這個想法太重要了,于是寫信給他建議,讓他與漢密爾頓(W.D.Hamilton)聯系一下。雖然當時阿克塞爾羅德并不認識漢密爾頓,但漢密爾頓正與阿克塞爾羅德在同一所大學——密歇根大學的另一個系里。阿克塞爾羅德迅速聯系了漢密爾頓。最終,他們合作的結果是一篇卓越的論文,發表在1981年的《科學》雜志上,也獲得了美國科學促進會(AAAS)的紐科姆·克里夫蘭獎(Newcomb Cleveland Prize)。阿克塞爾羅德和漢密爾頓除了討論重復“囚徒困境”在生物學上有趣的例子外,我還覺得他們給予了進化穩定策略方法應有的認可。

讓我們來比較一下進化穩定策略與阿克塞爾羅德兩次競賽中的“循環賽”機制。循環賽好比足球聯盟中的比賽。每一個策略都與其他策略對戰同等次數。策略的最后得分則是它與所有其他策略對弈后的所得總分。如果一個策略想要在競爭中成功,它必須在所有提交的策略中都富有競爭力。阿克塞爾羅德給勝出其他對手的策略定義為“強勁”。“針鋒相對”便是一個強勁的策略。但參與競賽的策略對手們則相當主觀,只取決于參賽者所提交的策略水平。這一點使我們相當頭疼。阿克塞爾羅德的第一個競賽里,剛好參賽的策略基本都是善意策略,所以“針鋒相對”贏得了競賽,而如果“兩報還一報”參賽了,則會贏了“針鋒相對”。但如果幾乎所有參賽策略都為惡意策略,情況就不同了。這個假設發生的概率還是很大的,畢竟所提交的14個策略中有6個是惡意策略。假如13個策略全為惡意策略,“針鋒相對”則不可能成功,因為“環境”太差了。提交策略的不同,決定了策略所贏得的金錢和它們的排名位置。也就是說,競賽結果將取決于參賽者的心血來潮。那么,我們如何減少競賽的主觀性呢?答案是:進化穩定策略。

 

發表評論

山东快乐扑克3开奖结果