5608-生活中的博弈论-第3章
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
这可不是微软公司的别出心裁,据说许多跻身世界500强的公司在招收新员工时,都要出类似的智力题。
智力游戏可以锻炼人的思维能力,培养人的思维方法。良好的思维方法能使我们从错综复杂的现象中找到事物的本质,从纷繁的因素中找到事物变化的主要原因,使事物呈现出条理性。
思维方法是抽象的,它不像1+1=2那么简单,只有通过自己的想象,亲自动手操作,经历失败,才能逐步形成。思维科学化程度越高的人,工作中发现问题、解决问题的能力就越强。这一点已成为人们的共识。
在许多智力游戏中,都存在这么一个共同的特点:就是参与者所选择的策略对于胜负有着举足轻重的影响。一个游戏的规则一旦定好之后,策略选择的好坏就成了游戏参加者所能自由运用的左右游戏结果的最关键因素。特别是在围棋、象棋之类参与者的初始条件完全相同的游戏中,策略选择就成了游戏结果的唯一决定因素。
至于从围棋初段到九段之间的差别,从博弈论的角度去看,不过是他们策略选择技巧的高低不同而已。博弈论的策略思维是一种技巧。策略思维从一些基本技巧出发,考虑的是怎样将这些基本技巧最大限度地发挥出来。
任何游戏都有自己的规则(Rule of the game)。实际现实中的人类社会自然也是如此,这就是法律、道德和各种成文或不成文的规章制度和惯例等。当然,这些规则也不是一成不变的,它会随着情况的改变和人们的要求不断修正,但是只要规则存在,这个规则就确定了人们行为的前提条件。
因此博弈与游戏都有一个重要的共同特征:那就是这些规则规定游戏参加者可以做什么,不可以做什么,按照什么次序去做,什么时候结束游戏,一旦参与者犯规将受到怎样的处罚等。
游戏者的策略有相互依存的关系。每一个游戏者从游戏所得结果的好坏不仅取决于自身的策略选择,同时也取决于其它参加者的策略选择。有时甚至一个坏的策略会给选它的一方带来并不坏的结果,原因是其它方选择了更坏的利他而不利己的策略。这一点也是游戏与博弈重要的相似之处。
《生活中的博弈论》第一部分从围棋定式谈纳什均衡
我们已经知道,博弈论的基本前提是,某人或某物的行为效果如何,有赖于他人或他物的行为。由于世间的事物很少有不依赖于其他事物而存在的。非合作博弈强调利益的冲突,即非合作甚至对抗状态。
比如,“零和博弈”就是典型的非合作博弈,它是指博弈各方的所得之和为零,在特殊情况下如两人博弈时,一方所得与另一方所失相等。从严格的数学角度来看,围棋19×19的361个交叉点就是围棋对弈者所得的总和,因此围棋棋手非输即赢,可见围棋明显是数学意义上的严格的零和博弈。
世事如棋局,而棋局是可以用博弈思维加以概括的。比如过分的“骗着”,“本手”与“缓着”之间,一般都会选择本手,着法过分如不遇反击,可能占到便宜,如遇反击则可能亏损,因此如果棋力相当,则应考虑到对手的反击手段。对手也同样考虑到在追求利益中不可能占尽便宜。这就导致双方都能接受方案。
围棋定式从策略层面看,如一方的策略是抢占实地,另一方是获得外势,而结果相当,互有所得,双方就愿意那样下。抢占实地考虑现实利益,获得外势考虑将来发展,这便形成一个双方的“均衡”;另一方面,可以从具体行棋效果来看,如果一步棋能考虑到对手各种应手而依然成立,对手也运用同样法则找到应对,则可以说双方达成了“均衡”。
在经济学中,均衡(equilibrium)意即相关量处于稳定值。均衡是在分析均衡价格与数量的决定与变动的状况。供需均衡时会达到供需相等,市场出清,也就是在其他条件不变下,会维持不变的状况。
一物的供给量等于需求量的价格,就是其均衡价格,对应的数量就是均衡数量。这就是在供给线与需求线相交之处,也称为均衡点。比如在供需分析中,若某一商品的市场价格使得欲购买该商品的人均能买到,同时想卖的人均能将商品卖出去,此时该商品的供求达到了均衡。这个市场价格可称之为均衡价格,产量可称之为均衡产量。均衡分析是经济学中的重要方法。
在谈纳什均衡之前,我们先来看这样一个例子。这个例子对大家所熟知的“囚徒困境”做了一些微小的修改,结果却是发生根本的变化。
A和B是两个因盗窃而被抓的惯犯。警察局局长C正在调查该局管辖区域内的一宗悬而未决的银行抢劫案,并且他根据一系列的线索判定A和B是这桩案子的凶犯。
因为该局管辖地区治安一向混乱不堪,C的上级对C非常恼火,直接威胁C,如果银行案破不了,就要撤销C局长的职位,给予降级惩罚。C在上级的压力下不得不耗费大量时间、精力提审A和B。为了能够让两个囚犯认罪,C想让A和B明白,假如只有他们其中的一人坦白认罪则这个人可能受到的最严厉的惩罚是什么,但向他们遵守承诺,若两个人都坦白,则会从轻发落。
于是,这个警察局长C分别与A、B立下许诺:如果只有一个人坦白认罪,则认罪的一方会收到所有指控,会因抢劫银行而判无期徒刑,另一个人则不会再加刑罚。如果无人认罪,两个人都会因盗窃罪而判刑2年。如果两个人都坦白,则两个人都被判处有期徒刑5年。
这样,警察局长C给A和B构造了一个博弈。不妨假设,A和B都是极其精明的会打小算盘的自私自利不讲“江湖义气”的人,同时A和B被分别审查不能够进行沟通。
在这种情况下,A会在心里打起小算盘,他会想:如果选择坦白,那么B选择坦白时将判刑5年,B选择不坦白时将被判无期徒刑,因此选择坦白时最坏的打算就把牢底坐穿;若是选择不坦白,那么B选择坦白时将无罪释放获得自由,B选择不坦白时将判有期徒刑2年,因此选择不坦白时最坏的可能就是被囚禁5年。
两害相权,取其轻。因此在这种情况下,A必然会选择不坦白,同样的道理,B也会选择不坦白。这个时候,博弈达到了这样一种局面,这种局面就是纳什均衡(Nash Equilibrium)。
纳什均衡的思想其实并不复杂,在博弈达到纳什均衡时,局中的每一个博弈者都不可能因为单方面改变自己的策略而增加获益,于是各方为了自己利益的最大化而选择了某中最优策略,并与其他对手达成了某种暂时的平衡。
这种平衡在外界环境没有变化的情况下,倘若有关各方坚持原有的利益最大化原则并理性面对现实,那么这种平衡状况就能够长期保持稳定。
再简单一点说,一个策略组合中,所有的参与者面临这样的一种情况:当其他人不改变策略时,他此时的策略是最好的。也就是说,此时如果他改变策略,他的收益将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。
由此可见,纳什均衡是一稳定的博弈结果。打一个比方,如果把一个乒乓球,放到一个光滑的铁锅里,不论其初始位置在何处,最终乒乓球都会稳定地停留在锅底,这时的锅底就可称为是一个纳什均衡点。
相反,如果锅是扣在地上的,那么一个乒乓球很难在锅底部位保持稳定,因为往任何方向的一点点移动,都会使球立刻离开锅底。这时的锅底部位就不是一个纳什均衡点了。
博弈的结果并不都能成为均衡。博弈的均衡是稳定的,则必然可以预测。纳什均衡的另一层含义是:在对方策略确定的情况下,每个参与者的策略是最好的,此时没有人愿意先改变或主动改变自己的策略。
在上面的“囚徒困境”变形的博弈中,A和B都不坦白就是一个纳什均衡,这对双方来说都是最优选择。同时在这个博弈中,其均衡对双方来说是全局最优的。当然博弈达到纳什均衡,并不一定是对参与者最有利的结果,更不意味着对整体而言是最有利的结果,比如“囚徒困境”的例子导致了整体的不利。
围棋与这个博弈的例子是有所不同的。上面的这个例子是A和B双方没有信息交换下的博弈,这就是博弈论中的静态博弈概念。
围棋则是对弈双方相继按照一先一后次序行动的博弈。对于一人一步的相继行动的博弈,每个参与者都必须向前展望或预期,估计对手的意图,从而倒后推理,决定自己这一步应该怎么走。
这是一条线性的推理链:“假如我这么做,他就会那么做———若是那样,我会这么反击”,后面的步骤依此类推。也就是说,你怎么走棋,完全取决于对手的上一招。这在博弈论上叫做“倒推法”。
在动态博弈中,存在明显的马太效应,也就是说凡是拥有较少的,连他仅有的那一点点也夺过来;凡是多的,就加给他,让他更多。比如在围棋上,就有“一招不慎,满盘皆输”的谚语,当然我们也要应用马太效应原理,在获得优势的情况能够保持优势,扩大优势,直至最后成功。
而在同时行动的静态博弈里,没有一个博弈者可以在自己行动之前得知另一个博弈者的整个计划。在这种情况下,互动推理不是通过观察对方的策略进行,而是必须通过看穿对手的策略才能展开。
要想做到这一点,单单假设自己处于对手的位置会怎么做还不够。即便你那样做了,你只会发现,你的对手也在做同样的事情,即他也在假设自己处于你的位置会怎么做。
因此,每一个人不得不同时担任两个角色,一个是自己,一个是对手,从而找出双方的最佳行动方式。与一条线性的推理链不同,这是一个循环,即“假如我认为对方认为我认为……”。
这样来看,定式是一系列纳什均衡的累计直至局部达到稳定的一种变化,直到一方认为可以根据形势选择任何变化或脱先而无局部受损之虞。由于定式是在大量实战基础上不断被验证并长期积累而成。
因此在动态博弈中,纳什均衡的要义在于:即使在对抗条件下,双方可以通过向对方提出威胁和要求,找到双方能够接受的解决方案而不至于因为各自追求自我利益而无法达到妥协,甚至两败俱伤。稳定的均衡点建立在找到各自的“占优策略”(dominant strategy),即无论对方作何选择,这一策略始终应优于其它策略。
《生活中的博弈论》第一部分从爱情故事谈起:优势策略
“原地高天,堪叹古今情难尽;痴男怨女,可怜风月债难偿。”
我们来先看欧•;亨利的小说《麦吉的礼物》描述的这样一个爱情故事。新婚不久的妻子和丈夫,很是穷困潦倒。除了妻子那一头美丽的金色长发,丈夫那一只祖传的金怀表,便再也没有什么东西可以让他们引以为傲了。虽然生活很累很苦,他们却彼此相爱至深。每个人关心对方都胜过关心自己。为了促进对方的利益,他们愿意奉献和牺牲自己的一切。
话说明天就是圣诞节了,小两口都是身无余钱。为了让爱人过得好一点,每个人还是想悄悄准备一份礼物给对方。丈夫卖掉了心爱的怀表,买了一套漂亮发卡,去配妻子那一头金色长发。妻子剪掉心爱的长发,拿去卖钱,为丈夫的怀表买了表链和表袋。
最后,到了交换礼物的时刻,他们无可奈何地发现,自己如此珍视的东西,对方已作为礼物的代价而出卖了。花了惨痛代价换回的东西,竟成了无用之物。出于无私爱心的利他主义行为,结果却使得双方的利益同时受损。
欧•;亨利在小说中写道:“聪明的人,送礼自然也很聪明。大约都是用自己有余的物事,来交换送礼的好处。然而,我讲的这个平平淡淡的故事里,两个住公寓的傻孩子,却是笨到极点,彼此为了对方,白白牺牲了他们屋檐下最珍贵的财富。”
从这段文字看,欧•;亨利似乎并不认为这小两口是理性的。且让我们暂时抛开爱情的温馨,单从利益的角度来解读。我们假定,他们每个人,有一个“毫不利己,专门利人”的偏好系统,毫不考虑自身利益,专门谋求别人的幸福。
这样,个人选择付出还是不付出,只看对方能不能得益,与自己是否受损无关。以这样的偏好来衡量,最好的结果自然是自己付出而对方不付出,对方收益增大;次好的结果是大家都不付出,对方不得益也不牺牲;再次的结果是大家都付出;最坏的结果是别人付出而自己不付出,靠牺牲别人来使自己得益。我们不妨可用数字来代表个人对这四种结果的评价:第一种结果给3分,第二种结果给2分,第三种结果给1分,最后那种给0分。
不难看出,无论对方选择付出,还是选择不付出,个人自己的最佳选择都是付出。然而这并不是对大家都有利的选择。事实上,大家都选择不付出,明显优于大家都选择付出的境况,这就达到了上文提到的纳什均衡。
实际上,这里的例子有一个占优策略均衡。通俗地说,在占优策略均衡中,不论所有其他参与人选择什么策略,一个参与人的占优策略都是他的最优策略。显然,这一策略一定是所有其他参与人选择某一特定策略时该参与人的占优策略。
因此,占优策略均衡一定是纳什均衡。在这个例子中,妻子选择不付出,也就是不剪掉金发对于妻子来说是一个优势策略,也就是说妻子不付出,丈夫不管选择什么策略,妻子所得的结果都好于丈夫。同理,丈夫不卖掉怀表对于丈夫来说也是一个优势策略。
再举个常见的例子:一名篮球前锋和队友在篮下面对着对方的一个后卫时,形成了二打一的局面,该前锋可以选择直接投篮,也可以选择传球给队友,根据经验,传球过人的成功率更大,那么传球就是该前锋的优势策略。即某些时候它胜于其他策略,且任何时候都不会比其他策略差。
如果一个球员具有这样一种策略,无论其他球员怎么做,这个策略都会高出一筹,那么这个球员就有一个优势策略。当然如果一个球员有这么一个优势策略,他的决策就会变得非常简单,只要直接采用该策略而完全不必考虑对手的应对策略。
还有一个要注意的问题是,采用优势策略得到的最坏结果并不一定比采用另外一个策略得到的最佳结果要好,这是很多博弈论普及书中容易出错的一个问题。应该说,对局者采用优势策略在对方采取任何策略时,总能够显示出优势。
比如就这个例子来说,就妻子来说,她采用不付出的策略,无论丈夫付出或不付出,妻子的不付出策略总是占有优势。丈夫的优势策略也是一样。但是,妻子选择不付出的最坏结果是1,选择付出的最好结果是3,很明显,妻子的优势策略得到的最坏结果并不比采用另外一个策略得到的最佳结果要高出一筹。
反之,劣势策略则是指在博弈中,不论其他参与人采取什么策略,某一参与人可能采取的策略中,对自己严格不利的策略,劣势策略是我们在日常生活中不