博弈论的诡计(1)-第6章
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
数猴子都被淋湿。于是,每当有猴子去取香蕉,就有其他的猴子主动地去撕
咬那个猴子。久而久之,猴子们产生了默契,再也没有猴子敢去取香蕉了。
在这个故事里,猴子问产生了“道德”。猴子们认为取香蕉的后果对其
他猴子不利,因而取香蕉是“不道德的”,它们便会主动地惩罚“不道德的”
猴子。
与法律一样,道德也是对某些不合作行动的惩罚机制。这种机制的出现
使得人类从囚徒困境中走出来。道德感自然地使得人们对不道德的或不正义
的行为谴责或者对不道德的人采取不合作,从而使得不道德的人遭受损失。
这样,社会上不道德的行为就会受到抑制。因此只要社会形成了道德或不道
德、正义或非正义的观念,就自动对行为产生了调节作用。
但是在日常生活的交际中,单纯依靠对手的道德自律来达成合作是不
保险的。针对这个问题.我们可以通过对道德因素的考虑,对博弈策略进
行相应的调整.把交际变成长期的、多边的,从而形成诚实守信的动力与
压力。
l 5。
假装不知道有尽头
《笑林广记》中记载这样一则笑话。
有一个人去理发铺剃头,剃头匠给他剃得撮草率。剃完后,这人却付给
剃头匠双倍的钱,什么也没说就走了。一个多月后的一天,这人又来理发铺
剃头。剃头匠还记得他上次多付了钱,觉得此人阔绰大方,为讨其欢心,多
赚点钱,便竭力上心,周到细致.多用了一倍的工夫。剃完后.这人便起身
付钱,反而少给了许多钱。剃头匠不愿意,说:“上次我为您剃头,剃得很草
率.您尚且给了我很多钱;今天我格外用心,为何反而少付钱呢?”这人不
慌不忙地解释道:“今天的剃头钱,上次我已经付给体了;今天给你的钱,正
是上次的剃头费。”说着大笑而去。
这个故事说明,有限次的囚徒困境.情况不同于无限次的囚徒困境的重
复博彝。当临近博弈的终点时,采取不合作策略的可能性加大。即使参与人
以前的所有策略均为合作策略,如果被告知下一次博奔是最后一次,那么肯
定采取不合作的策略。
当合作关系存在某种自然而然的缚点时,博弈反复进行的次数是一定的。
运用向前展望、倒后推理的原则,我们可以看到,一旦再也没有机会可以进
行惩罚,合作就会告终。但是,谁也不愿意落在后面,在别人作弊的时候继
续合作。假如真的有人仍然保持合作,最后他就只能自认倒霉。
既然没人想倒霉。合作也就无从开始。实际上,无论一个博弈将会持续
多长时间。只要大家知道终点在哪里,结果就一定是这样。因为从一开始,
两位参与者就应该向前展望,预计最后一步会是什么。在这最后一步,再也
没有什么“以后”需要考虑,优势策略就是作弊。这最后一步的结果是一个
不可避免的结论:既然没有办法影响这个博弈的最后一步,那么,在考虑对
策的时候,倒数第二步实际上就会成为最后一步。而在这一步.作弊再次成
为优势策略。理由是,位于倒数第二的这一步对最后阶段的策略选择毫无影
响。因此.倒数第二步可以视为孤立阶段,单独进行考虑。对于任何孤立阶
段,作弊都是一种优势策略。
I 52
重复博奔:一夜情与地老天荒
深诸策略思维者懂得瞻前顾后,避免失足于最后一步。假如他预计自己
会在最后一轮遭到欺骗,他就会提前一轮中止这一关系。不过.这么一来,
倒数第二轮就会变成最后一轮.还是没法摆脱上当受骗的问题。
现在,最后两个阶段的情形已经确定。早期进行合作根本无从实现.因
为两个参与者已经决心在最后两个阶段作弊。这么一来,在考虑对策的时候,
倒数第三步实际上就会成为最后一步。遵循同样的推理,作弊仍是一种优势
策略。这一论证一路倒推回去.不难发现,从一开始就不存在什么合作了。
但是在上面的故事中,剃头匠为什么会上当呢?在现实世界里.所有真
实的博弈只会反复进行有限次.但正如剃头匠不知道客人下一次是否还会光
顾一样,没有人知道博弈的具体次数。既然不存在一个确定的结束时间.那
么这种合作关系就有机会继续下去,实现阶段性的成功合作。要想避免信任
瓦解.千万不能让任何确定无疑的最后一轮出现在视野所及的地方。只要仍
然存在继续合作的机会,背叛就会被抑制。
不可否认,这个世界存在一些“善良的”人.不管作弊可能带来什么样
的物质利益,他们仍然选择合作。但是多数人都没有那么善良,而是按照自
己的理性行事,在一个反复进行有限次的囚徒困境博弈里,他们会从一开始
就作弊。这会使其他参与者很快看清楚其本质.并对之加以提防。于是,为
了掩盖真相,或者是至少掩盖一会儿真相,他们不得不装出“善良”的样子。
剃头的客人一开始为质量低劣的服务付很多的钱,就出于这种考虑。
在博弈中.假设他一开始就按照善良人的方式行事,其他参与者就会认
为他大约属于周围少有的几个善良人之一。合作一段时闯将会带来实实在在
的好处。而且其他参与者也会打算仿效他的善良做法,换取这些好处,从而
带来合作的收益。当然,他和其他参与者一样,仍然打算在博弈接近尾声
的时候偷偷作弊。但这并不妨碍在最初一个阶段进行互利互惠的合作。因
此.在各人假装善良等待占别人便宜的时候.大家已经从这种共同欺骗中得
到好处。
能在一个反复进行的囚徒困境中使信任出现的条件,就是作弊所得晚于
合作破裂的代价之前出现。这么一来,作弊与合作相比哪一个更划算.就取
决于现在与将来相比哪一个更重要。
藏
越譬型
在商界,比较现在与将来的利润的时候,会用一个合适的利率进行折算。
而在政界,现在与将来的重要性的比较更加带有主观色彩。不过,一般而盲,
如果下一次竞选之后的时间看起来无关大局.政治人物间的合作更容易破裂。
即便是在商界.若是遇到不景气的年份,整个产业处于崩溃边缘,管理层觉
得已经走到山穷水尽,没有明天了,那么,竞争就有可能变得比正常年份更
加激烈。同样地,由于战争迫在眉睫,伊朗和伊拉克会认为现在的利润比将
来的利澜更重要,由此加深了协调限制石油产量以保持长期稳定利润的难度。
但是隐瞒终点或者说假装没有终点的博弈策略,仍然是以背叛为基础的.
其目的无非是在相互背叛之前得到更多的收益。当然也有例外,比如说在多
数恋人之间的博弈,其目的并非是为了在分手时得到更多的“好处”,而是希
望能更好地维持合作的稳定性,从而缔结连理,自首偕老。
第4章
一报还一报:出来混迟早要还的
出来混迟早耍还的
不是不还只分早晚
是你的递也选不摔的
出采混迟早妻还的
熙熙攘攘利柬利往
到头来还不是尘归尘土归土
——《出来混.迟早是要还的》歌词
以牙还牙,以眼还眼
一天半夜,某教授正在熟睡之际,电话铃突然响了起来。他睡跟惺忪拿
起电话,听筒里传来女邻居怒气冲冲的声音:“麻烦你管一下你的狗,不要再
让它叫了。”说完,电话就挂了。这位教授十分生气。第二天他定好闹钟,半
夜两点钟准时起床.拿起电话拨通了这位女邻居家。过了半天,对方才章起
听筒,带着睡意恼怒地同:“哪一位?”这位教授彬彬有礼地告诉她:“夫人,
昨天我忘记告诉你了。我们家没有养狗。”
在这个反映现实人际关系的小笑话中,我们可以发现在没有法规和道德
的约束,也没有其他力量从外部对双方进行强制时,对自己最有利的一种策略:
一报还一报。这一策略的提出,应归功于美国密西根大学的学者罗伯特·爱
克斯罗德。他是一个政治科学家.研究方向是人与人之间的合作关系。
赢材譬鲨型
在开始研究合作之前,爱克斯罗德设定了两个前提:一.每个人都是自
私的;二,没有权威干预个人决策。也就是说,个人可以完全按照自己利益
最大化的目标进行决策。在此前提下,要研究的问题是:第一,人为什么要
合作;第二,人什么时候是合作的,什么时候又是不合作的;第三.如何使
别人与你合作。
在研究的过程中,爱克斯罗德组织了一场计算机模拟竞赛。思路非常简
单:任何参加这个竞赛的人都扮演囚徒困境案例中一个囚犯的角色.把自己
的策略编成计算机程序,进行捉对博弈,在合作与背叛之间做出选择。但与
囚徒困境案例有个不同之处:他们不止玩一次这个游戏,而是以单循环赛的
方式玩上200次。这就是博弈论专家所谓的“重复的囚徒困境”.它更逼真地
反映了具有经常而长期性的人际关系。
这个游戏还允许程序在做出合作或背叛的抉择时,参考对手程序前几次
的选择。如果两个程序只玩过一个回合,则背叛显然就是唯一理性的选择。
但如果两个程序已经交手过多次,则双方就建立了各自的历史档案.用以
记录与对手的交往情况。同时,它们也通过多次的交手树立了或好或差的
声誉。
虽然如此,下一步将会如何行动却仍然极难确定。实际上,这也是该竞
赛的组织者爱克斯罗德希望从这个竞赛中了解的事情之一:一个程序能够总
是不管对手做何种举动都采取合作的态度吗9或者,它能总是采取背叛行动
吗,它是否应该对对手的举动报之以更为复杂的举动7如果是.那会是怎么
样的举动呢?
第一轮游戏有14个程序参加,其中包含了各种复杂的策略。再加上爱克斯
罗德自己的一个随机程序(即以50%的概率选取合作或背叛)。使爱克斯罗德和
其他人深为吃惊的是.竞赛的桂冠属于一个被称为“一报还一报(Trr FOR
TAT)”的策略.它是由多伦多大学的数学教授阿纳托·拉波波特提交上来的。
有意思的是,在科学家们上交的14个程序中有8个是“善意的”,但正是
这些永远不会首先背叛的善意程序.轻易地赢了6个非善意的程序。
因为参与竞赛的程序为数不多,一报还一报策略的胜利也许只是一种侥幸。
为了进一步验证上述结论.爱克斯罗德决定举行第二轮竞赛.邀请更多的人
I M
一报还一报:出来混迟早要还的
再做一次游戏,并把第一次的结果公开发表。这一次有62位科学家递交了改
进的程序,其中包括多个以上一次的策略为基础的改良品种。加上爱克斯罗
德自己的随机程序.63个程序又进行了一次竞赛。竞赛结果表明.在63个程
序的前15名里.只有第8名的哈灵顿程序是“非善意的”;在最后15名中,
只有1个总是合作的程序是“善意的”。而且,夺魁的仍然是一报还一报策略。
这种让几十位科学家的智慧相形见绌的神奇策略到底是怎样的呢?
说起来很简单,简单到有些不可思议:第一步合作,此后每一步都重复
对方上一步的行动:合作或背叛。如此简单的程序之所以反复获胜,是因为
它奉行了以其人之道还治其人之身的原则,并且用如下特征最有效地鼓励其
他程序同它长期合作:善良、可激怒、宽容、简单、不妒忌别人的成功。
·善良,是指它第一步总是向对方表达善意。它坚持永远不首先背叛对
方,开始总是选择合作,而不是一开始就选择背叛或主动作弊。
·可激怒,是指对方出现背叛行动时,它能够及时识别并一定要采取背
叛的行动来报复。不会让背叛者遣遥法外,
·宽容.是指它不会因为别人一次背叛。长时间怀恨在心或者没完没了
地报复.而是在对方改过自新、重新回到合作轨道时,能既往不咎地
恢复合作;
·简单.是指它的逻辑清晰.易于识别.能让对方在鞍短时间内辨识出
来其策略所在:
·不妒忌,是指它不耍小聪明,不占对方便宜,不在任何双边关系中争
强好胜。
其他各种策略输就输在上述五个方面做得不够好。在比赛结果中,所有
恶意程序(第一步背叛)都未进前10名;而某些程序太过好脾气。被对方背
叛之后不立即反应,结果鼓励菜些狡猾的程序反复占它的便宜;某些程序对
于过往关系的“好坏”太过执著,一旦被别人欺骗就很难宽容,结果使得很
多本来可能恢复的合作关系永久性断绝;还有一些程序把自己搞得太复杂,
总是试图通过某种机巧来占人便宜.尽管在与某些“傻”程序接触中得了高
分,但一旦碰到个性“刚烈”的程序就会搬起石头砸了自己的脚。而从最后
的总分来看,它们的小聪明得不偿失。
〃I
一报还一报:出来混迟早要还的
再做一次游戏,并把第一次的结果公开发表。这一次有62位科学家递交了改
进的程序,其中包括多个以上一次的策略为基础的改良品种。加上爱克斯罗
德自己的随机程序.63个程序又进行了一次竞赛。竞赛结果表明.在63个程
序的前15名里.只有第8名的哈灵顿程序是“非善意的”;在最后15名中,
只有1个总是合作的程序是“善意的”。而且,夺魁的仍然是一报还一报策略。
这种让几十位科学家的智慧相形见绌的神奇策略到底是怎样的呢?
说起来很简单,简单到有些不可思议:第一步合作,此后每一步都重复
对方上一步的行动:合作或背叛。如此简单的程序之所以反复获胜,是因为
它奉行了以其人之道还治其人之身的原则,并且用如下特征最有效地鼓励其
他程序同它长期合作:善良、可激怒、宽容、简单、不妒忌别人的成功。
·善良,是指它第一步总是向对方表达善意。它坚持永远不首先背叛对
方,开始总是选择合作,而不是一开始就选择背叛或主动作弊。
·可激怒,是指对方出现背叛行动时,它能够及时识别并一定要采取背
叛的行动来报复。不会让背叛者遣遥法外,
·宽容.是指它不会因为别人一次背叛。长时间怀恨在心或者没完没了
地报复.而是在对方改过自新、重新回到合作轨道时,能既往不咎地
恢复合作;
·简单.是指它的逻辑清晰.易于识别.能让对方在鞍短时间内辨识出
来其策略所在:
·不妒忌,是指它不耍小聪明,不占对方便宜,不在任何双边关系中争
强好胜。
其他各种策略输就输在上述五个方面做得不够好。在比赛结果中,所有
恶意程序(第一步背叛)都未进前10名;而某些程序太过好脾气。被对方背
叛之后不立即反应,结果鼓励菜些狡猾的程序反复占它的便宜;某些程序对
于过往关系的“好坏”太过执著,一旦被别人欺骗就很难宽容,结果使得很
多本来可能恢复的合作关系永久性断绝;还有一些程序把自己搞得太复杂,
总是试图通过某种机巧来占人便宜.尽管在与某些“傻”程序接触中得了高
分,但一旦碰到个性“刚烈”的程序就会搬起石头砸了自己的脚。而从最后
的总分来看,它们的小聪明得不偿失。
〃I
报还一报:出来混迟早要还的
在香港电影《无间道》有一句广为流传的