博弈论的诡计(1)-第7章
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
〃I
报还一报:出来混迟早要还的
在香港电影《无间道》有一句广为流传的台词:出来混.迟早要还的。
就是这句台词决定了剧中不少人物的命运,无论是黑道还是白道.警还是匪,
很多人物在以为自己胜券在握或进出生天时,猝不及防地死去.用一条命来
还了。
在博弈论中,“还”也是早晚的事,不过这不是什么宿命,而是“一报还
一报”策略的出发点和立足点,也是它的胜利基点。
地老天荒的胜利者
在博弈论中,我们可以得到很多有趣而富于哲理的启示,一报还一报策
略就是其中之一。它那种善意、宽容、强硬、简单明了的合作策略无论对个
人还是对组织的行为方式来说,都有十分重要的指导意义。
人们通过接受及回报.形成了社会生活的秩序。这种秩序即使在最无指
望的环境中,例如相互隔绝、语言不通的人群之间也是最易理解的东西。哥
伦布登上美洲大陆时.与印第安人最初的交往就开始于互赠礼物。有些看似
纯粹的利他行为,比如无偿馈赠,也通过某些间接方式,比如社会声誉的获
得,得到了回报。研究这种行为,对我们理解社会生活有很重要的意义。
爱克斯罗德通过进一步研究,发现合作的必要条件是:第一。关系要持
续,一次性的或有限次的博弈中,对局者是没有合作动机的;第二,对对方
的行为要做出回报,一个永远背叛的对局者是不会有人跟他合作的。
那么,如何提高合作性呢?
(1)要建立持久的关系。即使是爱情,也需要建立婚姻契约以维持双方
的合作。
(2)要增强识别对方行动的能力。如果不清楚对方是合作还是不合作。
就没法回报他了。
(3)要维持声誉。说要报复就一定要做到,人家才知道你是不好欺负的,
才不敢不与你合作。
(4)能够分步完成的对局不要一次完成.以维持长久关系。比如,贸易、
谈判都要分步进行,以促使对方采取合作态度。
∞I
飘譬鲨型
(5)不要嫉妒人家的成功。一报还一报正是这样的典范。
(6)不要首先背叛,以免担上罪魁祸首的道德压力。
(7)不仅对背叛要回报,对合作也要做出回报。
(8)不要耍小聪明,占人家便宜。
友善、有原则、宽容、简单、不妒忌朋友的成功,其实这些信条本来就
是我们生活中应有的为人处世之道。只是很少人会用博弈论模型的科学结论
作指导.将这些信条连接起来作为一种策略组合行事。
一报还一报的策略的目标,就是要同尽可能多的人形成井巩固互惠关系.
而且发展为信任和友谊。说得通俗点,就是尽可能多交朋友,并且鼓励这些
朋友向你提供帮助。为了达到这个目标,它的手段归结为一个词就是“回报”,
就是要对别人的各种行为进行相称的反应。有意思的是,这一策略不怕曝光.
而且恰恰需要别人知道你的基本原则,这样才能更好地实现台作双赢。
根据上述结论,我们可以回答很多交际方法问题.比如恋人如何博弈才
能走上红地毡。
每对恋人都要承受未来不确定性的折磨:如果双方都不变心,那是最好
的结局.在天成为比翼鸟,在地成为连理枝;如果都变了心.效果也不坏,
你走你的阳关道。我过我的独木桥;如果一方变了心,另外找到了更好的情
侣,另一方却还傻乎乎地忠贞不贰,那么,另觅新欢的一方是最幸福的.比
两人都不变心的结果还幸福.因为他找见了更好的情人;而被抛弃的一方是
最不幸的,比两人都变心的结果更为不幸,因为他承担的压力既来自于自己
的太不幸福,也来自于对方的太幸福。
人生发誓最多的时期大概就是恋爱时期。发什么誓呢?无非是什么非你
不娶非你不嫁一类誓言罢了.日的只有一个,就是让对方相信自己海枯石烂
此情不渝。他们希望彼此忠诚.从而换来一个好的博奔结果。但一对恋人相
互之间的忠诚,靠的不是这种情深爱笃的誓言,而是需要一定的博弈策略。
在恋爱这场不太好玩的“游戏”中,谁能熟练地驾驭博奔规则,谁就是爱情
的赢家。
很明显,胜利将总是属于那些采取善意、宽容、强硬和简单明了策略的
恋人们。反之,恶意的、尖刻的、软弱的、复杂的恋人们往往会两败俱伤。
I们
报还一报:出来混迟早要还的
所以,对于正在恋爱中的人们来说,获得幸福爱情的博弈原则应该是:
(I'善意而不是恶意地对待恋人。这个道理很简单了.无须多说。
(2)宽容而不是尖刻地对待恋人。幸福的恋人可能并不是忠贞不贰的,
当然也肯定不是见异思迁的,他们能够生活得愉快,关键是能够彼此宽容.
既宽容对力的缺点,甚至也宽容对方偶尔的不忠贞。而尖刻地对待彼此的恋
人.往往都不会幸福。
(3)强硬而不是软弱地对待恋人。就是要在我永远爱你的前提下.做到
有爱必报,有恨也必报;以眼还眼,以牙还牙;以其人之道。还治其人之身。
比如对恋人与其他异性的亲热行为,要有极其强烈的敏感与斩钉截铁的回报。
当然,每次发脾气都是有限度的,而且还要能宽容对方。
(4)简单明了丽不是山环水绕地对待恋人。爱克斯罗德的实验证明.在
博弈过程中,过分复杂的策略使得对手难于理解,无所适从,因而难以建立
稳定的台作关系。
事实上.在一个非零和的环境里,“城府深沉”、“兵不厌诈”、“揣着明白
装糊涂”往往并非上策。相反,明晰的个性、简练的作风和坦诚的态度倒是
制胜的要诀。要让恋人明白你说的是什么.切忌让对方猜来猜去的,造成误
会。至于剩下的时间嘛,还是有更多更快乐的事情可以做!
本来应该提防恋人背叛才能在恋爱中获胜的博弈,因为有了不绝于耳的
爱情誓言,更因为有了对善意的、宽容的、强硬的、简单明了的原则的把握
和利用.人世间才有了很多地老天荒的爱情和自首偕老的婚姻。
向合作进化的棘轮
一报还一报的策略在静态的群体中得到了很好的表现,那么,在一个动
态的进化的群体中,这种合作能否产生、发展和生存下去呢?群体是会向合
作的方向进化,还是向不合作的方向进化?如果大家开始都不合作,能否在
进化过程中产生合作呢,
为了回答这些疑问,爱克斯罗德用生态学的原理来分析合作的进化过程。
他假设对局者所组成的策略群体是一代一代进化下去的.进化的规则包括:
博彝论的靖铲
(1)试错。人们在对待周围环境时,起初不知道该怎么做,于是就试试
这个,试试那个,哪个结果好就照哪个去做。
(2)遗传。一个人如果合作性好.他的后代的合作基因就多。
(3)学习。比赛过程就是对手相互学习的过程,一报还一报的策略好,
有人愿意学。
按这样的思路,爱克斯罗德设计了一个实验,假设63个参与者中.谁在
第一轮中的得分高,他在第二轮的群体中所占比例就相应增加。这样.群体
的结构就会在进化过程中改变,由此可以看出群体是向什么方向进化的。
实验结果很有趣。一报还一报原来在群体中占1,63,经过1000代的进化,
结构稳定下来时,它占了24%。因此,以合作系数来测量,群体是越来越合
作的。这个结论还可以引申为:共同演化会使一报还一报的合作风格在这个
充满背信弃义的世界上蔚然成风。
另外,有一些程序在进化过程中消失了。其中有一个值得研究的程序,
即原来前15名中唯一的不善良的哈灵顿程序,它的对策方案是:首先合作,
当发现对方一直在合作,它就突然来个不合作;如果对方立刻报复它,它就
恢复合作.如果对方仍然合作.它就继续背叛。这个程序一开始发展很快,
但等到与一报还一报不同的程序开始消失时.它就开始下降了。
由此,爱克斯罗德的试验除了表明群体是越来越合作的之外,还揭示了
一个哲理:一个策略的成功应该以对方的成功为基础。
一报还一报在两个人对局时.得分不可能超过对方,最多打个平手,但
它的总分最高。它赖以生存的基础是很牢固的,因为它让对方得到了高分。
哈灵顿程序就不是这样.它得到高分时.对方必然得到低分。它的成功是建
立在别人失败的基础上的,而失败者总是要被淘汰的.当失败者被淘汰之后.
这个从失败者身上占便宜的成功者也被淘汰。
即使在一个极端自私者所组成的不台作者的群体中,一报还一报也能够
生存。
实际上.我们从逻辑上也可以理解这一点。假设少数采取一报还一报策
略的个人在这个世界上通过突变而产生了。那么,只要这些个体能互相遇见,
足够在今后的相逢中形成利害关系,他们就会开始形成小型的合作关系。
I艟
报还一报:出来混迟早要还的
一旦发生了这种情况,他们就能远胜于周围的那些准备主动背叛的类型。
这样,参与合作的人数就会增多。很快,一报还一报式的合作就会最终占上
风。而一旦建立了这种机制,相互合作的个体就能生存下去。如果不太合作
的类型想侵犯和利用他们的善意,一报还一报策略强硬的一面就会狠狠地惩
罚他们,让他们无法扩散影响。
爱克斯罗德发现,只要群体的5%或更多成员是一报还一报的,这些合作
者就能生存;而且。只要他们的得分超过群体的总平均分,这个合作的群体
就会越来越大,最后蔓延到整个群体。相反,不合作者无论在一个合作者占
多数的群体中有多大比例,都是不可能越来越多的。
这就说明.社会向合作进化的棘轮是不可逆转的,群体的合作性会越来
越大。爱克斯罗德正是以这样一个鼓舞人心的结论.为人类突破囚徒困境指
出了一条道路。
在一在二不在三
公元前512年,吴王闽阃执政,为了称霸诸侯,他四处网罗人才,先后
把伍子胥和孙武收到自己的麾下。不久。吴国和楚国之间爆发了一场大规模
的战争。
说起这场战争的起因却非常简单,吴国边境有一个小镇叫卑粱,这里与
楚国的边境小镇钟离接壤。虽然分属于两个不同的国家,但是两个小镇的人
之间相处得一直十分和睦。有一日,吴国的一个小筏子采桑叶.与楚国的小
孩子吵了起来,双方的边民因此发生争斗。楚平王得知以后,派大兵去平了
卑粱。吴王以牙还牙。也派公子光带兵去攻打楚国。吴国大军浩浩荡荡开赴
边境,不费吹灰之力就把楚国防守的钟离和居巢荡平了,乘势直追楚国的腹
地,逼得楚国急忙撤军。
公元前506年,楚国为了报复。出兵攻打已经归附吴国的小国——蔡国。
吴国派大将孙武率领兰万精兵.乘船逆淮河而上教援。楚军赶忙遇兵.在汉
水设防。没想到孙武却突然弃船登岸,从陆路奔袭楚国腹地。吴军五战五胜,
占领了楚的国都郢城。然而,这时越国乘吴军伐楚之机进攻吴国,秦国叉出
硒I
博彝论的确}舻
兵帮助楚国对付吴军,这样.阖闯不得不引兵返吴。此后,吴又继续伐楚.
孙武率领大军挥师直下,一直打到郢都,迫使楚昭王仓皇出逃。
因为两个小孩的争吵而导致楚国几乎被灭亡的这一连串战争,·在其演进
过程中,我们可以清晰地看到一报还一报策略的作用机制。
一报还一报的策略解释了一个纯粹自利的人何以会选择合作,只因为合
作是自我利益最大化的一种必要手段。如果对方知道你的镶略是一报还一报.
那么对方将不敢采取不合作策略.因为一旦他采取了不舍作策略,双方便永
远进入不合作的困境。因此,只要有人采取一报还一报策略,那么双方均愿
意采取合作策略。
但是这个策略面lI占着这样一个问题:如果双方存在误解,或者由于一方
发生选择性的错误,这个错误是无意的,那么结果将是双方均采取不合作的
策略,
在这里,一报还一报箫略反映出了自己的局限性。两个以牙还牙者会从
合作开始.然后.由于各方反应一致,合作似乎注定可以永久地持续下去,
从而彻底避免囚徒困境问题。但是,不管出现误会的几率怎样微乎其微(即
便是小到万亿分之一),只要有可能出现误会,长期而言,一报还一报策略会
有一半时间合作,一半时间背叛。理由是,一旦出现谋会.双方将问题复杂
化与澄清误会的可能性一样大。这么一来,一报还一报策略其实就跟扔硬币
决定合作还是背叛的随机策略差不多,因为后者选择合作和背叛的几率也是
相同的。即使出现误会的几率很小,也只是将出现麻烦的时间推迟了。而且,
反过来,一旦出现误会.就要花更长时间才能澄清。
由于资源的约束。在现实中没有人支出足够的时间、精力来辨识和维持
对别人的各种回报,尤其是当他拥有很多博弈对手的时候。由于各种偶然的
因素,误解随时随地都有可能发生。比如.两个小孩于之间的争吵可能被看
敌对行为的开始而引发战争。
如何做到回报的“相称”又是一个问题:对手偶然背叛了你,你通过行
动或者不行动来显示你对此介意,你自己觉得是相称的“警告”,但对手很可
能认为你反应过度,小题大做。因而会出现这样一种情况:哪怕是微不足道
的误解一旦发生,一报还一报策略的双赢就会土崩瓦解。
这个缺陷在人工设计的电脑锦标赛中并不明显,因为电脑根本不会出现
报还一报:出来混迟早要还的
误解。但是,一旦将一报还一报策略用于解决现实世界的问题,误解就难以
避免,结局就可能是灾难性的。一方对另一方的背叛行为进行惩罚。对手受
到惩罚之后.不甘示弱,进行反击。这一反击叉招致第二次惩罚。无论什么
时候.这一策略都不会只接受惩罚而不做任何反击。由此将形成一个循环+
惩罚与报复就这样自动持续下去。
从这个角度来说.一报还一报策略在现实世界中会出现两种缺陷:第一,
实在太容易激发背叛;第二,它缺少一个宣布“判此为止”的机制。
当博弈中考虑到这种随机干扰——即由于误会而开始互相背叛的情形时.
吴坚忠博士经研究发现,以修正的一报还一报策略对双方会更有利。这种修
正包括两个方面:一是“宽大的一报还一报”,即以一定的概率不报复对方的
背叛;二是“悔过的一报还一报”,即以一定的概率主动停止背叛。
当某一背叛行为看上去像是一个错误而非常态举止的时候,你应该保持
宽容之心。必须记住的一个重要原则是,假如有可能出现误会.不要对你看
见的每一次背叛都进行惩罚,而要采取“在一在二不在三”的策略。你必须
猜测一下是不是出现了误会,不管这个误会来自你还是你的对手。这种额外
的宽容固然可能使别人对休稍加背叛,不过,假如他们真的背叛.他们的善
意也就不会再被相信了。误会一再出现时.你也不会再听之任之。所以,如
果你的对手有投机倾向,他终将自食其果。
如果对手的这一背叛是故意的.你当然也不想太轻易地宽恕对方而被对
方占了便宜。但