博弈论-第7章
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
然而生活中的大多数情况都是非零和的。双方可以都做得很好,也可以都做得很差。双方的合作是可能的,但并不是总能实现。这就是为什么〃囚徒困境〃是各种各样的日常情形的有用模型。
人们倾向于采用相对的标准,这个标准经常把对方的成功与自己的成功对立起来。这种标准导致了嫉妒,嫉妒导致企图抵消对方已经得到的优势。在〃囚徒困境〃的形式下,抵消对方优势只能通过背叛来实现。但是背叛导致更多的背叛和对双方的惩罚。因此嫉妒是自我毁灭。
要求自己比对方做得好不是一个很好的标准,除非你的目的是消灭对方。在大多数情况下,这个目的是不可能实现的。
〃一报还一报〃由于与其他多种多样策略相处得很好而赢得了竞赛。平均来说,它比竞赛中的其他任何策略都做得更好。但是〃一报还一报〃从来没有一次在游戏中比对方得更多的分!事实上,它不可能比对方多得分。它总是让对方先背叛,并且它的背叛次数决不比对方背叛的多。因此〃一报还一报〃不是得到和对方一样多的分,就是比对方略少。〃一报还一报〃赢得竞赛不是靠打击对方,而是靠从对方引出使双方有好处的行为。〃一报还一报〃如此坚持引出双方有利的结果,从而使它获得比其他任何策略更高的总分。
因此在一个非零和的世界里,你没有必要非得比对方做得更好。特别当你要和许多不同的对手打交道时更是这样。只要你自己能做得好就没有理由去嫉妒对方的成功。因为在长时间的〃重复囚徒困境〃中,其他人的成功是你自己成功的前提。
在生意场中也是这样,一个从供应商那儿买来东西的公司期望供方和买方都有好处的成功的关系。妒忌供方的利润是完全没有意义的。任何通过不合作行为(如不按时付账)来减少这种利润的企图,都将激起供方的报复行动,报复行为可以采用多种形式,经常以不明显惩罚形式,诸如拖延发货,较低的质量保证,不愿意打折扣,或者不交换市场条件变化的信息。这种报复使得嫉妒代价很大。买者不要担心卖方的相对的利润,而可以考虑是否有其他更好的购买策略。
2。不要首先背叛
竞赛和理论分析的结果都表明,只要对方合作你也合作就会有好处。竞赛结果是很令人吃惊的。决定一个规则表现如何的惟一最好的特征是这个规则是否善良。也就是说这个规则是否不首先背叛。在第一轮竞赛中,前8名规则中都是善良的,在后7名规则中没有一个是善良的。在第二轮竞赛中,前15名规则中只有一个是非善良的(它名列第8),而后15名规则中只有一个是善良的。
有些不善良的规则,使用相当复杂的方法来试探它是否能逃脱惩罚。例如尝试在第一步背叛,如果对方报复的话,它就马上撤回。在另一个例子中,它在背叛前等待十几步,看看对方是否能被哄骗和被偶尔占便宜。如果是的话,就更频繁地增加背叛,直到对方反击而被迫撤回。但是这些尝试道德背叛的策略都表现得不怎么好。因为存在许多由于愿意报复而不被占便宜的策略,所以导致冲突的代价有时是很高的。
甚至许多专家也没有意识到善良性对避免不必要的冲突的价值。在第一轮竞赛中,由对策论专家送来的规则中几乎有一半是不善良的。参考了第一轮的明显结果,第二轮比赛中大约有1/3规则用不善良的策略,但是,它们都没有占到便宜。
前面的竞赛结果提供了另一个方式来说明为什么善良的规则能表现得如此好,由于善良的规则相互之间相处得很好,因而善良规则的群体是很难被侵入的。而且能够阻止单个变异个体侵入的善良规则的群体也能阻止这个变异规则的任何小群体的侵入。
当然,你可以尝试更保险的方式,即先背叛直到对方合作,才开始合作。然而,竞赛的结果表明,这实际上是一个很有风险的策略,因为你的最初的背叛就可能引起对方的报复,并使你处于要么被占便宜要么双方背叛的两难境地。如果你惩罚对方的报复,这种反应就会一直延续下去。如果你宽恕了对方,你就得冒被欺负的风险。即使你能避免这些长远问题,对你的最初背叛的当下报复会使你希望自己从一开始就应该是善良的。
对竞赛的生态分析揭示了另一个为什么首先背叛是很冒险的道理。第二轮竞赛中前15名规则中惟一的非善良策略是名列第8的〃哈林顿〃。因为它与竞赛中的名次较低的规则相遇的得分都很高。在假想的未来生态竞赛中,名次较低的规则在群体中的比例越来越小,最终能被这个最初挺成功的非善良策略占便宜的策略就越来越少,接着它自己也消亡了。因此,只会占〃傻瓜〃的便宜是没有用的,它只不过是一个自我毁灭的过程。这个教训说明,虽然不善良在最初看来似乎是很有希望的,但长期下去它将毁坏使自己成功所必需的环境。
3。对合作与背叛都要给以回报
〃一报还一报〃超常的成功给出了一个简单的但又是很有力量的建议:要回报。在第一步合作之后,〃一报还一报〃只是简单地回报对方在上一步的所为。这个简单的规则惊人地有效。它赢得了第一轮〃囚徒困境〃计算机竞赛,并取得比任何其他由对策论专家们送来的规则更高的平均得分。每一个第二轮竞赛的参加者知道这个结果,但〃一报还一报〃又赢了第二轮竞赛。这个胜利显然是令人惊讶的。因为每一个参赛者都是在考虑了〃一报还一报〃在第一轮竞赛中的胜利结果之后,才提交参赛规则的。显然人们都希望能干得更好,但是他们错了。
〃一报还一报〃不仅赢得竞赛本身,而且在假设的继续比赛中比其他任何规则表现得都好。这表明〃一报还一报〃不仅与最初的各种规则相处得很好,而且能与那些可能在未来群体中占较大份额的成功的规则相处得很好,它不毁坏自己成功的基础,相反它在与其他成功的规则相互交往中繁荣起来。
〃一报还一报〃所体现的回报在理论上也是很重要的。当未来相对于现在是足够重要的时候,〃一报还一报〃是稳定的。这就意味着,如果每个人都使用〃一报还一报〃策略,那么对一个特定的个体的最好建议就是也采用〃一报还一报〃策略。或者这么说,如果你能肯定对方是采用〃一报还一报〃,并且这种交道将持续足够长,那么,你最好也采用相同的策略。
事实上,〃一报还一报〃很善于区分哪些规则会回报它的最初合作,哪些不会。这就使得它能够以小群体形式侵入〃小人〃的世界。并且,它回报背叛也回报合作。这使得它是可激怒的。而善良的策略要阻止被侵入,就必须是可激怒的。
在反应对方的背叛时,〃一报还一报〃保持了惩罚和宽恕的平衡。〃一报还一报〃总是在对方每次背叛之后只背叛一次。那么,是否总是严格的一对一回报才是最有效的平衡?这就很难说了,但有一点是清楚的,即用多于一次背叛来回报对方的背叛将有可能使冲突升级。另一方面,少于一对一的回报将有被占便宜的危险。
以上分析的启示是,最优的宽恕水平与环境有关。特别是如果主要的危险是来自那些善于占〃好说话〃的规则的便宜的策略,那么,太多的宽恕就要付出代价。对一个给定的环境,准确的平衡是很难确定的,但是,竞赛的结果证明对背叛类似一对一的反应可能在大多数情况下都是相当有效的。因此,对参与者的一个很好的建议是对合作和背叛都要给予回报。
4。不要耍小聪明
竞赛结果表明在〃囚徒困境〃的情况下人们容易耍小聪明,然而复杂的规则并不比简单的规则做得更好。事实上,这些规则的共同问题是,使用一些复杂的方法来推断对方。而这些推断常常是错误的。一部分问题是对方经常用试探性的背叛来表明它不会被引诱而合作,但是问题的关键是这些规则没有考虑到它自己的行为会引起对方的变化。对方对你的行为是有反应的,对方将把你的行为看作你是否回报合作的信号。因此,你自己的行为将会反射到你的身上。
试图使得分最大化的规则把对方看作环境的一个不变的部分而忽略了相互的作用,不管他们在有限的假设下所做的计算是多么的聪明。如果你离开双方相互适应的简单原则,那么你的聪明是不会有好结果的。这是一条艰难的路,显然在两次竞赛中没有一个复杂的规则精于此道。
另一个过分聪明的方式是使用〃永久报复〃的策略。这个策略只要对方合作它就合作,但是一旦对方背叛一次,它就决不合作。由于这个策略是善良的,它与其他善良的策略相处得很好。并且它与那些完全随机的规则相遇时干得也不错。但它与许多其他规则相遇就干得很差,因为对于那些偶尔背叛但准备一旦受惩罚就撤回的规则来说,它太快放弃合作了。〃永久报复〃看起来似乎很聪明,因为它为避免背叛提供了最大的激励,但是它为了自己的利益显得太严厉了。
参加竞赛的规则中还有第三种太聪明的形式是,它们采用的策略是如此复杂,以至于其他策略不能把它们与纯粹的随机选择区分开来。用另一方式来说,就是太多的复杂性就显得是完全杂乱无章。如果你采用一个看起来是随机的策略,那么你也就显得对对方不反应,如果你是不反应的,对方就受不到与你合作的激励。因此复杂到不可理解是非常危险的。
当然,在许多人类事务中,一个使用复杂规则的人可以向对方解释每一个选择的理由。然而,问题出现了:对方可能怀疑所提供的这些理由,在这个情况下对方将认为不值得有任何反应,对方会把一个显得不可预测的规则看作不可改造的,结果自然是导致背叛。
〃一报还一报〃在竞赛中得到巨大成功的原因之一是它具有很大的清晰性,即它非常容易被对方理解。当你使用〃一报还一报〃策略时,对方有很好的机会去理解你在干什么。你对任何背叛的一对一的反应是一个很容易被意识到的模式。而且你的未来行为是能被预测的。一旦这些情况发生了,对方能容易地发现应付〃一报还一报〃的最好方式就是与他合作。假设这个游戏有足够的可能继续下去,至少还有下一步相遇。那么当你遇到〃一报还一报〃策略时只有马上和他合作是最好的,这样你将可以在下一步得到合作。
另外,在零和对策(如下棋)和非零和对策(如〃重复囚徒困境〃)之间有一个重要的不同。在下棋时,让你的对手猜疑你的企图是很有用的,你的对手越是怀疑,他(或她)的策略就越没效果。但是在非零和情况下,如此聪明不总是有好处的。在〃重复囚徒困境〃中,你要从对方的合作中得到好处。诀窍在于鼓励合作,一个好的方式就是清楚地表明你愿意回报,这就是〃一报还一报〃之所以如此有效的原因。
启示1:重复囚徒困境的几个建议:
(1)不要嫉妒;
(2)不要首先背叛;
(3)对合作与背叛都要给以回报;
(4)不要耍小聪明。
启示2:联翩而来的好运总是可疑的,只会占〃傻瓜〃的便宜是没有用的。
启示3:一报还一报从来没有一次在游戏中比对方得到更多的分!
未来影响现在
对未来的预期,是影响我们行为的重要因素。一种是预期收益:我这样做,将来有什么好处;一种是预期风险:这样做可能面临的问题。这些将影响个人的策略,如学生读书,为了将来考上好学校取得文凭,获得更高的地位和收入。如果文凭一钱不值,就会影响学生的热情。也影响与他人、社会的关系。
地摊、车站、旅游点,这些人群流动性大的地方,不但商品和服务质量最差,而且假货横行,因为在商家和顾客之间〃没有明天〃一个旅客不大可能因为你的饭菜可口而再次光临,一锤子买卖,不赚白不赚。
在公共汽车上,两个陌生人会为一个坐位争吵,可如果他们认识,就会相互谦让。在相互社会联系紧密的人际关系中,人们普遍比较注意礼节、道德,因为都需要这个环境。
道德、法律、权力利益的划分,都与〃还要见面〃有关。从消极的层面看,我们互不侵犯,是为了避免没完没了、两败俱伤的循环报应。例子:两个原始人见面,一个拿着兽皮,一个拿着野果,他们都想把对方的东西据为己有。如果他们的见面是偶然的,可能相互抢劫;可是如果他们都生活在附近,考虑到对方家族的报复,抢劫的风险就大了。所以他们不去打对方的主意所有权就这样产生了。如果他们确实想得到对方的东西,他们可以选择合作以物易物,交易就这样产生了。
两个相邻的国家,如果相互敌对,是一件非常不幸的事。它们不可能〃搬家〃,又不可能消灭对方(这是现代国际关系准则所不允许的),这个死结就可能缠绕它们许多年。遗憾的是,这样关系的邻国还不少,如巴以、印巴、两伊以及伊拉克和科威特。希腊和土耳其也曾经是这样的世仇,现在关系虽已缓和,但是它们之间的不信任感还是长久不能消除。
长期敌对对双方来说,都是损失巨大的。不但随时有爆发战争的危险,经济建设也受到拖累。谁也不可能把钱花在朝不保夕的危险地区,一来风险太大,二来,如果在边界有许多建设,也更容易被对方讹诈那无异于是把人质交给对方。一个例子就是韩朝关系,韩国比朝鲜更害怕发生战争,因为首都汉城就在对方的炮火射程之内。一个包袱更重的国家,维护和平的代价要比对方更大。
中苏交恶的年代,双方都在边境地区陈兵百万,巨大的军费开支和潜在的战争风险对两国都是重负。现在两国关系改善,互信增加,边境军事力量大大减弱,可以说是一个双赢。从这个意义上说,〃面向未来〃不仅仅是一句外交辞令。
〃笼中猪〃博弈
简单的例子如果能够说明方法,能够启迪思维,就有它的价值。今天再讲博弈论著作中常见的另一个简单的例子〃笼中猪〃博弈。
笼子里面有两只猪,一只比较大,一只比较小。笼子很长,一头有一个按钮,另一头是饲料的出口和食槽。按一下按钮,将有相当于10份的猪食进槽,但是按按钮以后跑到食槽所需要付出的〃劳动〃,加起来要消耗相当于2份的猪食。问题是按钮和食槽分置笼子的两端,按按钮的猪付出劳动跑到食槽的时候,坐享其成的另一头猪早已吃了不少。如果大猪先到,大猪呼啦啦吃到9份,小猪只能吃到1份;如果同时到达,大猪吃到7份,小猪吃到3份;如果小猪先到,小猪可以吃到4份,而大猪吃到6份。
〃笼中猪〃博弈的具体情况如下:
如果两只猪同时按钮,同时跑向食槽,大猪吃进7份,得益5份,小猪吃进3份,实得1份;如果大猪按按钮后跑向食槽,这时小猪抢先,吃进4份,实得4份,大猪吃进6份,付出2份,得益4份;如果大猪等待,小猪按按钮,大猪先吃,吃进9份,得益9份,小猪吃进1份,但是付出了2份,实得…1份;如果双方都懒得动,所得都是0。
比较以上数字,我们知道〃等待〃是小猪的优势策略,〃按按钮〃是小猪的劣势策略。先把小猪的劣势策略消去。现在来看大猪。由于小猪有〃等待〃这个优势策略,大猪只剩下了两个选择:等待一份不得;按按钮得到4份。所以〃等待〃就变成了大猪的劣势策略(注意,是现在才