策略思维-第10章
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
寸步不让。举个例子:当比赛只剩下很少时间,攻方可能希望尽力推进,使自己更容易得到一个射门得分的机会。
假如攻方只有两个策略,即带球跑动或者传球,而守方则有三个策略——拦截带球跑动,拦截传球以及闪击四分卫(blitz the quarterback)。我们可以计算出全部六种策略组合分别能使攻方向前推进多少码的距离。以守方选择闪击四分卫而攻方打算传球为例。假设四分卫被撞得倒退10码的概率是10% ,迅速传球传出10码的概率是70% ,而传球传出更远达到20码的概率是20%。那么,平均值就是
0。1l*(…10)+0。7*10+0。2*20 =…1+7+4 =10
显而易见,这些数字本应该以两队拥有或者缺少的特殊技能为基础;我们只不过为了描述方便而选择了一些非常独特的技巧。①
① 在这个例子里,攻方善于传球,不善于带球跑动。因此,即便是在对方集中防御传球的时候,选择传球还是会比带球跑动更好。带球之所以比闪击四分卫更好,是因为防守后卫不在他们的位置上。
我们用图3…6 显示所有六种策略组合将会得出怎样的计算结果。
图3…6攻方期望得到的码数
如图3…6所示,攻方竭力要得到最大数目,守方则尽量压低这个数目,因此,我们没有必要分开列表确定他们的行动。①
① 所有零和博弈都会出现这样的情况,而零和博弈是指一方所得等于另一方所失。
双方都没有一个优势策略:没有一行的数字完全高于另一行,也没有一列的数字完全低于另一列。不过,守方倒是有一个劣势策略,就是闪击四分卫。闪击四分卫的结果是无论如何都会拱手让出较大的码数,因此,这一策略对于守方而言会比它采用其他可能的策略都更糟糕。因此,守方不应该闪击四分卫,攻方也可以非常自信地认定对手不会那么做。
至此,这场推导尚未结束。闪击策略可能从守方教练的笔记本中删除了,整个比赛可以被视为双方各有两个策略。在这场经过简化的比赛中,攻方有一个优势策略,就是传球。其数字分别是9和8,都大于带球跑动策略的数字,分别是3和 。传球之所以不是原来的比赛的优势策略,原因在于,带球跑动的结果在守方采取闪击策略的时候会有一个比较理想的结果(因为带球者可能趁守方闪击四分卫而分身无术时,顺利突人开阔地带),而现在闪击策略已经不予考虑。因此,攻方将会选择传球。反过来,守方也会想到这一点,选择自己的最佳策略,即防守传球。
这里涉及的普遍适用的概念可以归纳为一个指导相继移动的博弈的行动法则。
法则3 :剔除所有劣势策略,不予考虑,如此一步一步做下去。
假如在这么做的过程当中,在较小的博弈里出现了优势策略,应该一步一步挑选出来。假如这个过程以一个独一无二的结果告终,那就意味着你找到了参与者的行动指南以及这个博弈的结果。即便这个过程不会以一个独一无二的结果告终,它也会缩刁整个博弈的规模,降低博弈的复杂程度。
我们以一个虚构的波斯湾海军对峙局势具体描述逐步剔除劣势策略的做法。② 图3…7 所示的格栅代表战斗舰艇的方位以及可能的选择。I点的一艘伊拉克舰艇准备发射一枚导弹,企图击毁A点的一艘美国舰艇。这枚导弹的路径已经由电脑程序在发射的时候确定,可以直线前进,也可以每隔20秒大幅转动一个直角。假如这枚伊拉克导弹笔直从I点飞向A点,美国导弹防御系统可以非常轻易地进行拦截。因此,伊拉克一定会尝试带点拐弯的路径。所有能从I点通向A点的路径已经由下面的格栅显示出来。每条边的长度,比如IF的长度,等于这枚导
②这个故事是J。D。威廉斯(J。D。Williams)在《完全策略大师》(The pleat Strategyst)一书中描绘的猫捉老鼠游戏的一个更新版本。猫可能指的就是波斯人。弹20 秒之内可以走过的距离。
那艘美国舰艇的雷达会监测到伊拉克舰艇发射的这枚导弹,因此电脑会马上发射一枚反导弹。反导弹的速度和伊拉克导弹相同,也可以做同样的90度拐弯。于是,这枚反导弹的路径也可以用同样的格栅表示,只不过这次是由A点出发。但是,为了填装足够撞毁一枚导弹的爆炸物,反导弹不得不少装燃料,装的燃料只够它飞行1分钟,因此,它只能走过三个节点(比如,从A 到B点,B点到C点,然后再从C点到F点,这一路径我们用ABCF表示)。
图3…7
假如在这1分钟开始之前或者结束之际,我们的反导弹将与来犯的导弹相遇,那么,反导弹就会爆炸,消除伊拉克导弹的威胁,否则伊拉克导弹就会击中我们的舰艇。问题是,应该怎样选择两枚导弹的路径?在这个博弈里,值得关注的只有第1分钟的路径。各方必须事先想好三个20秒时间段应该怎么走。将每个时间段的可能选择加起来,双方各有8条可能的路径,共有64种组合方式。我们现在就来考察全部64种组合方式,计算哪些方式下反导弹和导弹会迎头相撞,哪些方式下不会相撞。
举个例子:假设伊拉克选择IFCB,即头两个时间段直线从I点经F点到C点,然后转90度到B。对照美国的ABCF策略,可见,反导弹和导弹将在两个时间段(即40秒)之后在C点相遇,因此这一组合的结果是相撞。假如伊拉克还是采取IFCB策略,而美国却选择ABEF迎击,反导弹和导弹就不会相撞。表面上看来,上述弹道都经过B点和F点,但反导弹和导弹是在不同时间达到这些点;比如美国反导弹20秒后到达B点,而伊拉克导弹则要在60秒后到达。
图3…8显示了所有这样的组合。伊拉克的8个策略分别标为I1到I8,同时标出具体路径,比如I1表示IFCB。同样地,美国的策略用A1到A8表示。相撞的结果记做H,不会相撞的结果记做O。
图3…8 击中与错过图
图3…8看起来好像很复杂,但只要借助消除劣势策略的法则,就能将其大大简化。美国反导弹的目标在于得到相撞的结果,因此在美国人看来,H强于O。不难看出,对于美国人,A2策略与A4策略相比处于劣势:假如你将A4行举起,盖在A2行上面,你会发现,只要是A2 得到H的地方,A4也会得到H,而且A4还多一个H,即对应伊拉克巧策略的地方。对全部可能性进行这样的分析,可以知道A2、A3、A6和A7策略与A4和A8策略相比处于劣势,A1不及A8; A8又不及A4。因此,伊拉克人可以确信美国人只会采取A4或者A8策略。伊拉克人把注意力集中在这两行,一心想避免反导弹和导弹相撞,因此在他们看来,I2、I3、I4、I6、I7和I8策略与I1或者I5策略相比处于劣势。划掉劣势策略所在的行和列之后,整个博弈就简化为图3…10 。*
*简化过程详见图3…9。——译者注
我们的两个法则不可能将图3…10进一步简化了,因为这里已经没有任何优势策略或者劣势策略可言。不过,我们已经做得很不错了。看一看表格里剩下的策略,我们发现,伊拉克导弹应该沿着格栅外围前进,而美国反导弹则应该小步曲折前进。这样,我们很快就能看到双方应该怎样从各自拥有的两个方案中进行抉择了。
图3…9,击中与错过图
图3…10,简化的击中与错过图
4 .均衡策略
利用优势策略方法与劣势策略方法进行简化之后,整个博弈的复杂程度已经降到最低限度,不能继续简化,而我们也不得不面对循环推理的问题。你的最佳策略要以对手的最佳策略为基础,反过来从你的对手的角度分析也是一样。接下来我们将会介绍解开这个循环的技巧,最终走出这个循环。
为了说明这一点,我们首先回到《时代》与《新闻周刊》的价格战,不过这次不会假设备选价格只有2美元和3美元两种,而是一系列价格。现在,《时代》的管理层必须针对《新闻周刊》可能选择的每一个价格确定最佳对策。假设每种杂志都有一群忠实读者,也有一群可能受到价格竞争影响的流动读者。如果出于某种原因,《新闻周刊》的管理层把价格定在1美元的水平,也就是制作成本的水平,那么,《时代》的管理层一定不会跟随这个毫无盈利的价格策略,而会定出一个较高的价格,杂志仍然可以卖给忠实读者而获得一定利润。如果《新闻周刊》提价,那么《时代》也会提价,只不过幅度较小,从而为自己赢得一定的竞争优势。假定《新闻周刊》每提价1美元,《时代》的最佳对策是提价50美分,于是,我们可以用图3…11表示《时代》针对《新闻周刊》可能选择的每一个定价而确定的最佳对策。
我们假定两本杂志的成本一样,具有同等大小的忠实读者群以及同样的吸引流动读者群的能力。那么,《新闻周刊》针对《时代》可能选择的每一个定价而确定的最佳对策将与图3…11完全一致。
现在我们可以想像两种杂志的经理正各自埋头琢磨。《时代》的经理说:“如果他卖1美元,我就卖2美元。不过,他因为知道我这么想,所以不会真的卖1美元,而是执行他在我卖2美元时的最佳对策,即2。50 美元。那样的话我就不能卖2美元,而是采用我在他卖2。50 美元时的最佳对策,卖2。75 美元。不过,他因为知道我这么想…… ”这样一层一层分析下去,究竟有完没完呢?
有的,结局是3美元。假如这位《时代》经理认为《新闻周刊》会卖3美元,那么他自己的最佳对策就是也卖3美元,反过来,从《新闻周刊》的角度分析也是一样。整个循环推理最后将聚成一点。
我们可以用图3…12 来显示这个结果,该图同时反映了两者的对策。可以看到,两条线在两家都卖3美元的一点相交。
图3…ll
图3…12
我们已经找到了一个策略组合,其中,各方的行动就是针对对方行动而确定的最佳对策。一旦知道对方在做什么,就没人愿意改变自己的做法。博弈论学者把这么一个结果称为“均衡”。这个概念是由普林斯顿大学数学家约翰·纳什(John Nash)提出的。纳什的想法成为我们指导同时行动博弈的最后一个法则的基础。这个法则如下。
法则4:走完寻找优势策略和剔除劣势策略的捷径之后,下一步就是寻找这个博弈的均衡。
这一定就是夏洛克·福尔摩斯和莫里亚蒂教授曾经用来看穿对方心思的秘诀。
我们还要解释一下这个法则。为什么一个博弈的参与者非得达到这么一个结局呢?我们可以说出好几个理由。没有一个理由本身就有足够的说服力,不过,只要把几个理由结合起来,就能形成一个有力的答案。
首先,存在避免循环推理的必要,因为循环推理帮不上忙。均衡在没完没了的“我知道他知道我知道…… ”的循环里是稳定不变的,这使参与者对其他人的行动的估计能保持连贯性。各方正确预计别人的行动,并且确定自己的最佳对策。
均衡策略的第二个好处出现在零和博弈中。在这种博弈里,参与者的利益严格相悖。你的对手不能通过引诱你采取一个均衡策略而得到任何好处。你已经充分考虑到他们对你正在做的事情会有什么样的最佳对策。
第三个理由是,均衡方法注重实效。要想证明一个东西是布丁,就要吃一吃。综观全书,我们将会利用均衡方法讨论许多博弈。我们希望读者来检验它对博弈结果的预测以及这种思维方式产生的行为指导方针。我们相信,这么做会使我们提供的案例更有意思,比抽象地讨论均衡方法的优点更有意义。'3'
最后,可能存在一个对均衡概念的误解,我们希望各位可以避免。当我们说博弈的结果是均衡,并不自动意味着这就是对博弈的全体参与者最有利的结果,更不意味着是对整个社会作为一个整体而言最有利的结果。有利或者不利的评价永远属于另外一个问题,答案视各个案例的具体情况而各有不同。在第4章和第9章,我们会谈到这两种例子。
5 .盛宴还是饥荒
盛宴
均衡的概念是不是同时行动的博弈中循环推理问题的一个完全解?老天爷,不是的。有些博弈存在好几个均衡,有些博弈却一个均衡也没有,而在另外一些博弈里,均衡的概念还会由于接纳新型策略而变得更加微妙。我们现在就来描述和解释这几点。
开车的时候你应该走哪一边?这个问题不能通过运用优势策略或者劣势策略理论予以回答。不过,即便如此,答案却显得很简单。假如别人都靠右行驶,你也会留在右边。套用“假如我认为他认为”的框架进行分析,假如每个人都认为其他人认为每个人都会靠右行驶,那么每个人都会靠右行驶,而他们的预计也全都确切无误。靠右行驶将成为一个均衡。
不过,靠左行驶也是一个均衡,正如在英国、澳大利亚和日本出现的情况。这个博弈有两个均衡。均衡的概念没有告诉我们哪一个更好或者哪一个应该更好。假如一个博弈具有多个均衡,所有参与者必须就应该选择哪一个达成共识,否则就会导致困惑。
在开车行驶的例子里,一条早已制定的规则给了你答案。不过,若是遇到彼得和波拉打电话打到一半突然断了的事,你该怎么办?假如彼得马上再给波拉打电话,那么波拉应该留在电话旁(且不要给彼得打电话),好把自家电话的线路空出来。另一方面,假如波拉等待彼得给她打电话,而彼得也在等待,那么他们的聊天就永远没有机会继续下去。一方的最佳策略取决于另一方会采取什么行动。这里又有两个均衡,一个是彼得打电话而波拉等在一边,另一个则是恰好相反。
这两个人需要进行一次谈话,以帮助他们确定彼此一致的策略,也就是就应该选择哪一个均衡达成共识。一个解决方案是,原来打电话的一方再次负责打电话,而原来接电话的一方则继续等待电话铃响。这么做的好处是原来打电话的一方知道另一方的电话号码,反过来却未必是这样。另一种可能性是,假如一方可以免费打电话,而另一方不可以(比如彼得是在办公室而波拉用的是收费电话),那么,解决方案是拥有免费电话的一方应该负责第二次打电话。
为了检验读者协调达成一个均衡的能力,请思考下面的问题:明天某个时候你要在纽约市会见某人。他已被告知要与你会面。不过,双方都没有更多信息,不知道究竟何时或者在哪里会面。那么,你应该于何时去何地?
托马斯·谢林(Thomas Schelling)在他的《冲突策略》一书里使这个问题家喻户晓。这个问题只有通常最常见的答案,除此之外没有任何预先确定的正确答案。在我们的学生当中,正午时分在中央车站一直是最常见的答案。即便是普林斯顿的学生,虽然他们乘坐的到纽约的火车是在宾州车站而非中央车站停,他们的答案也是一样。①
① 也许最具创意的另一个答案来自加州大学圣迭戈分校教授塔妮亚·鲁尔曼(Tanya Luhrmann)。她的回答是:“纽约公立图书馆阅览室。”我们告诉她,这假如不是空前绝后的答案,也是相当少见的答案。她立即为她的选择进行了辩解。她说,这是因为,虽然她的成功机会可能很低,可她还是更有兴趣跟愿意选择纽约公立图书馆阅览室而非选择纽约中央车站的人见面!
饥荒
另一个复杂因素在于,并非所有博弈都有我们前面描述的那种均衡,哪怕是一个,在导弹截击的故事里,余下4个结果没有一个是均衡。举个例子,我们看看伊拉克I1策略遇到美国A4策略的情况。这一策略组合的结果是反导弹没能拦截导弹,假如美