博弈论的诡计(1)-第6章

小说：博弈论的诡计(1) 字数：每页3500字

按键盘上方向键 ← 或 → 可快速上下翻页，按键盘上的 Enter 键可回到本书目录页，按键盘上方向键 ↑ 可回到本页顶部！
————未阅读完？加入书签已便下次继续阅读！

数猴子都被淋湿。于是，每当有猴子去取香蕉，就有其他的猴子主动地去撕
咬那个猴子。久而久之，猴子们产生了默契，再也没有猴子敢去取香蕉了。
　　　　在这个故事里，猴子问产生了“道德”。猴子们认为取香蕉的后果对其
他猴子不利，因而取香蕉是“不道德的”，它们便会主动地惩罚“不道德的”
猴子。
　　　　与法律一样，道德也是对某些不合作行动的惩罚机制。这种机制的出现
使得人类从囚徒困境中走出来。道德感自然地使得人们对不道德的或不正义
的行为谴责或者对不道德的人采取不合作，从而使得不道德的人遭受损失。
这样，社会上不道德的行为就会受到抑制。因此只要社会形成了道德或不道
德、正义或非正义的观念，就自动对行为产生了调节作用。
　　　　但是在日常生活的交际中，单纯依靠对手的道德自律来达成合作是不
保险的。针对这个问题．我们可以通过对道德因素的考虑，对博弈策略进
行相应的调整．把交际变成长期的、多边的，从而形成诚实守信的动力与
压力。
l　5。
假装不知道有尽头
　　　　《笑林广记》中记载这样一则笑话。
　　　　有一个人去理发铺剃头，剃头匠给他剃得撮草率。剃完后，这人却付给
剃头匠双倍的钱，什么也没说就走了。一个多月后的一天，这人又来理发铺
剃头。剃头匠还记得他上次多付了钱，觉得此人阔绰大方，为讨其欢心，多
赚点钱，便竭力上心，周到细致．多用了一倍的工夫。剃完后．这人便起身
付钱，反而少给了许多钱。剃头匠不愿意，说：“上次我为您剃头，剃得很草
率．您尚且给了我很多钱；今天我格外用心，为何反而少付钱呢？”这人不
慌不忙地解释道：“今天的剃头钱，上次我已经付给体了；今天给你的钱，正
是上次的剃头费。”说着大笑而去。
　　　　这个故事说明，有限次的囚徒困境．情况不同于无限次的囚徒困境的重
复博彝。当临近博弈的终点时，采取不合作策略的可能性加大。即使参与人
以前的所有策略均为合作策略，如果被告知下一次博奔是最后一次，那么肯
定采取不合作的策略。
　　　　当合作关系存在某种自然而然的缚点时，博弈反复进行的次数是一定的。
运用向前展望、倒后推理的原则，我们可以看到，一旦再也没有机会可以进
行惩罚，合作就会告终。但是，谁也不愿意落在后面，在别人作弊的时候继
续合作。假如真的有人仍然保持合作，最后他就只能自认倒霉。
　　　　既然没人想倒霉。合作也就无从开始。实际上，无论一个博弈将会持续
多长时间。只要大家知道终点在哪里，结果就一定是这样。因为从一开始，
两位参与者就应该向前展望，预计最后一步会是什么。在这最后一步，再也
没有什么“以后”需要考虑，优势策略就是作弊。这最后一步的结果是一个
不可避免的结论：既然没有办法影响这个博弈的最后一步，那么，在考虑对
策的时候，倒数第二步实际上就会成为最后一步。而在这一步．作弊再次成
为优势策略。理由是，位于倒数第二的这一步对最后阶段的策略选择毫无影
响。因此．倒数第二步可以视为孤立阶段，单独进行考虑。对于任何孤立阶
段，作弊都是一种优势策略。
I　52
重复博奔：一夜情与地老天荒
　　　　深诸策略思维者懂得瞻前顾后，避免失足于最后一步。假如他预计自己
会在最后一轮遭到欺骗，他就会提前一轮中止这一关系。不过．这么一来，
倒数第二轮就会变成最后一轮．还是没法摆脱上当受骗的问题。
　　　　现在，最后两个阶段的情形已经确定。早期进行合作根本无从实现．因
为两个参与者已经决心在最后两个阶段作弊。这么一来，在考虑对策的时候，
倒数第三步实际上就会成为最后一步。遵循同样的推理，作弊仍是一种优势
策略。这一论证一路倒推回去．不难发现，从一开始就不存在什么合作了。
　　　　但是在上面的故事中，剃头匠为什么会上当呢？在现实世界里．所有真
实的博弈只会反复进行有限次．但正如剃头匠不知道客人下一次是否还会光
顾一样，没有人知道博弈的具体次数。既然不存在一个确定的结束时间．那
么这种合作关系就有机会继续下去，实现阶段性的成功合作。要想避免信任
瓦解．千万不能让任何确定无疑的最后一轮出现在视野所及的地方。只要仍
然存在继续合作的机会，背叛就会被抑制。
　　　　不可否认，这个世界存在一些“善良的”人．不管作弊可能带来什么样
的物质利益，他们仍然选择合作。但是多数人都没有那么善良，而是按照自
己的理性行事，在一个反复进行有限次的囚徒困境博弈里，他们会从一开始
就作弊。这会使其他参与者很快看清楚其本质．并对之加以提防。于是，为
了掩盖真相，或者是至少掩盖一会儿真相，他们不得不装出“善良”的样子。
剃头的客人一开始为质量低劣的服务付很多的钱，就出于这种考虑。
　　　　在博弈中．假设他一开始就按照善良人的方式行事，其他参与者就会认
为他大约属于周围少有的几个善良人之一。合作一段时闯将会带来实实在在
的好处。而且其他参与者也会打算仿效他的善良做法，换取这些好处，从而
带来合作的收益。当然，他和其他参与者一样，仍然打算在博弈接近尾声
的时候偷偷作弊。但这并不妨碍在最初一个阶段进行互利互惠的合作。因
此．在各人假装善良等待占别人便宜的时候．大家已经从这种共同欺骗中得
到好处。
　　　　能在一个反复进行的囚徒困境中使信任出现的条件，就是作弊所得晚于
合作破裂的代价之前出现。这么一来，作弊与合作相比哪一个更划算．就取
决于现在与将来相比哪一个更重要。
藏
越譬型
　　　　在商界，比较现在与将来的利润的时候，会用一个合适的利率进行折算。
而在政界，现在与将来的重要性的比较更加带有主观色彩。不过，一般而盲，
如果下一次竞选之后的时间看起来无关大局．政治人物间的合作更容易破裂。
即便是在商界．若是遇到不景气的年份，整个产业处于崩溃边缘，管理层觉
得已经走到山穷水尽，没有明天了，那么，竞争就有可能变得比正常年份更
加激烈。同样地，由于战争迫在眉睫，伊朗和伊拉克会认为现在的利润比将
来的利澜更重要，由此加深了协调限制石油产量以保持长期稳定利润的难度。
　　　　但是隐瞒终点或者说假装没有终点的博弈策略，仍然是以背叛为基础的．
其目的无非是在相互背叛之前得到更多的收益。当然也有例外，比如说在多
数恋人之间的博弈，其目的并非是为了在分手时得到更多的“好处”，而是希
望能更好地维持合作的稳定性，从而缔结连理，自首偕老。
第4章
一报还一报：出来混迟早要还的
出来混迟早耍还的
不是不还只分早晚
是你的递也选不摔的
出采混迟早妻还的
熙熙攘攘利柬利往
到头来还不是尘归尘土归土
——《出来混．迟早是要还的》歌词
以牙还牙，以眼还眼
　　　　一天半夜，某教授正在熟睡之际，电话铃突然响了起来。他睡跟惺忪拿
起电话，听筒里传来女邻居怒气冲冲的声音：“麻烦你管一下你的狗，不要再
让它叫了。”说完，电话就挂了。这位教授十分生气。第二天他定好闹钟，半
夜两点钟准时起床．拿起电话拨通了这位女邻居家。过了半天，对方才章起
听筒，带着睡意恼怒地同：“哪一位？”这位教授彬彬有礼地告诉她：“夫人，
昨天我忘记告诉你了。我们家没有养狗。”
　　　　在这个反映现实人际关系的小笑话中，我们可以发现在没有法规和道德
的约束，也没有其他力量从外部对双方进行强制时，对自己最有利的一种策略：
一报还一报。这一策略的提出，应归功于美国密西根大学的学者罗伯特·爱
克斯罗德。他是一个政治科学家．研究方向是人与人之间的合作关系。
赢材譬鲨型
　　　　在开始研究合作之前，爱克斯罗德设定了两个前提：一．每个人都是自
私的；二，没有权威干预个人决策。也就是说，个人可以完全按照自己利益
最大化的目标进行决策。在此前提下，要研究的问题是：第一，人为什么要
合作；第二，人什么时候是合作的，什么时候又是不合作的；第三．如何使
别人与你合作。
　　　　在研究的过程中，爱克斯罗德组织了一场计算机模拟竞赛。思路非常简
单：任何参加这个竞赛的人都扮演囚徒困境案例中一个囚犯的角色．把自己
的策略编成计算机程序，进行捉对博弈，在合作与背叛之间做出选择。但与
囚徒困境案例有个不同之处：他们不止玩一次这个游戏，而是以单循环赛的
方式玩上200次。这就是博弈论专家所谓的“重复的囚徒困境”．它更逼真地
反映了具有经常而长期性的人际关系。
　　　　这个游戏还允许程序在做出合作或背叛的抉择时，参考对手程序前几次
的选择。如果两个程序只玩过一个回合，则背叛显然就是唯一理性的选择。
但如果两个程序已经交手过多次，则双方就建立了各自的历史档案．用以
记录与对手的交往情况。同时，它们也通过多次的交手树立了或好或差的
声誉。
　　　　虽然如此，下一步将会如何行动却仍然极难确定。实际上，这也是该竞
赛的组织者爱克斯罗德希望从这个竞赛中了解的事情之一：一个程序能够总
是不管对手做何种举动都采取合作的态度吗9或者，它能总是采取背叛行动
吗，它是否应该对对手的举动报之以更为复杂的举动7如果是．那会是怎么
样的举动呢？
　　　　第一轮游戏有14个程序参加，其中包含了各种复杂的策略。再加上爱克斯
罗德自己的一个随机程序（即以50％的概率选取合作或背叛）。使爱克斯罗德和
其他人深为吃惊的是．竞赛的桂冠属于一个被称为“一报还一报（Trr　FOR
TAT）”的策略．它是由多伦多大学的数学教授阿纳托·拉波波特提交上来的。
　　　　有意思的是，在科学家们上交的14个程序中有8个是“善意的”，但正是
这些永远不会首先背叛的善意程序．轻易地赢了6个非善意的程序。
　　　　因为参与竞赛的程序为数不多，一报还一报策略的胜利也许只是一种侥幸。
为了进一步验证上述结论．爱克斯罗德决定举行第二轮竞赛．邀请更多的人
I　M
一报还一报：出来混迟早要还的
再做一次游戏，并把第一次的结果公开发表。这一次有62位科学家递交了改
进的程序，其中包括多个以上一次的策略为基础的改良品种。加上爱克斯罗
德自己的随机程序．63个程序又进行了一次竞赛。竞赛结果表明．在63个程
序的前15名里．只有第8名的哈灵顿程序是“非善意的”；在最后15名中，
只有1个总是合作的程序是“善意的”。而且，夺魁的仍然是一报还一报策略。
　　　　这种让几十位科学家的智慧相形见绌的神奇策略到底是怎样的呢？
　　　　说起来很简单，简单到有些不可思议：第一步合作，此后每一步都重复
对方上一步的行动：合作或背叛。如此简单的程序之所以反复获胜，是因为
它奉行了以其人之道还治其人之身的原则，并且用如下特征最有效地鼓励其
他程序同它长期合作：善良、可激怒、宽容、简单、不妒忌别人的成功。
　　　　·善良，是指它第一步总是向对方表达善意。它坚持永远不首先背叛对
　　　　方，开始总是选择合作，而不是一开始就选择背叛或主动作弊。
　　　　·可激怒，是指对方出现背叛行动时，它能够及时识别并一定要采取背
　　　　叛的行动来报复。不会让背叛者遣遥法外，
　　　　·宽容．是指它不会因为别人一次背叛。长时间怀恨在心或者没完没了
　　　　地报复．而是在对方改过自新、重新回到合作轨道时，能既往不咎地
　　　　恢复合作；
　　　　·简单．是指它的逻辑清晰．易于识别．能让对方在鞍短时间内辨识出
　　　　来其策略所在：
　　　　·不妒忌，是指它不耍小聪明，不占对方便宜，不在任何双边关系中争
　　　　强好胜。
　　　　其他各种策略输就输在上述五个方面做得不够好。在比赛结果中，所有
恶意程序（第一步背叛）都未进前10名；而某些程序太过好脾气。被对方背
叛之后不立即反应，结果鼓励菜些狡猾的程序反复占它的便宜；某些程序对
于过往关系的“好坏”太过执著，一旦被别人欺骗就很难宽容，结果使得很
多本来可能恢复的合作关系永久性断绝；还有一些程序把自己搞得太复杂，
总是试图通过某种机巧来占人便宜．尽管在与某些“傻”程序接触中得了高
分，但一旦碰到个性“刚烈”的程序就会搬起石头砸了自己的脚。而从最后
的总分来看，它们的小聪明得不偿失。
〃I
一报还一报：出来混迟早要还的
再做一次游戏，并把第一次的结果公开发表。这一次有62位科学家递交了改
进的程序，其中包括多个以上一次的策略为基础的改良品种。加上爱克斯罗
德自己的随机程序．63个程序又进行了一次竞赛。竞赛结果表明．在63个程
序的前15名里．只有第8名的哈灵顿程序是“非善意的”；在最后15名中，
只有1个总是合作的程序是“善意的”。而且，夺魁的仍然是一报还一报策略。
　　　　这种让几十位科学家的智慧相形见绌的神奇策略到底是怎样的呢？
　　　　说起来很简单，简单到有些不可思议：第一步合作，此后每一步都重复
对方上一步的行动：合作或背叛。如此简单的程序之所以反复获胜，是因为
它奉行了以其人之道还治其人之身的原则，并且用如下特征最有效地鼓励其
他程序同它长期合作：善良、可激怒、宽容、简单、不妒忌别人的成功。
　　　　·善良，是指它第一步总是向对方表达善意。它坚持永远不首先背叛对
　　　　方，开始总是选择合作，而不是一开始就选择背叛或主动作弊。
　　　　·可激怒，是指对方出现背叛行动时，它能够及时识别并一定要采取背
　　　　叛的行动来报复。不会让背叛者遣遥法外，
　　　　·宽容．是指它不会因为别人一次背叛。长时间怀恨在心或者没完没了
　　　　地报复．而是在对方改过自新、重新回到合作轨道时，能既往不咎地
　　　　恢复合作；
　　　　·简单．是指它的逻辑清晰．易于识别．能让对方在鞍短时间内辨识出
　　　　来其策略所在：
　　　　·不妒忌，是指它不耍小聪明，不占对方便宜，不在任何双边关系中争
　　　　强好胜。
　　　　其他各种策略输就输在上述五个方面做得不够好。在比赛结果中，所有
恶意程序（第一步背叛）都未进前10名；而某些程序太过好脾气。被对方背
叛之后不立即反应，结果鼓励菜些狡猾的程序反复占它的便宜；某些程序对
于过往关系的“好坏”太过执著，一旦被别人欺骗就很难宽容，结果使得很
多本来可能恢复的合作关系永久性断绝；还有一些程序把自己搞得太复杂，
总是试图通过某种机巧来占人便宜．尽管在与某些“傻”程序接触中得了高
分，但一旦碰到个性“刚烈”的程序就会搬起石头砸了自己的脚。而从最后
的总分来看，它们的小聪明得不偿失。
〃I
报还一报：出来混迟早要还的
　　　　在香港电影《无间道》有一句广为流传的

返回目录上一页下一页回到顶部赞（0）踩（0）

第6章

博弈论的诡计(1)-第6章

你可能喜欢的