博弈论的诡计(1)-第21章
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
这样小偷有v3的机会去银行,2,3的机会去酒馆。
警察与小偷之间的博弈,提供了混合策略的思路,但更形象的样板是“剪
刀、石头、布”的游戏。在这样一个游戏中,不存在纯策略均衡。对每个小
孩来说,出“剪刀”、“布”还是“石头”的策略应当是随机的.不能让对方
知道自己的策略,甚至是策略的倾向性。一旦对方知道自己出某个策略的可
能性增大,那么在游戏中输的可能性也就增大了。因此,每个小孩的堆优策
略是采取每个策略的可能性是¨。在这样的博弈中.每个小孩各取三个策略
的l,'是纳什均衡。
有想到设计一个防偷图呢々
实际上,问题并没有这么简单。《时代商报》的评论就指出,警方如果公
布类似的“小偷地图”.很可能打草惊蛇。当小偷也看到地图的时候,肯定会
转移战场。这个回答指出了问题的另一个侧面,但是并不足够。要想真正把
这个问题说清楚,我们需要用到博弈论中的一个模型——警察与小偷博弈。
某个小镇上只有一名警察,他负责整个镇舶治安。瑰在我们假定,小镇
的一头有一家酒馆,另一头有一家银行。再假定该地只有一个小偷。因为分
身乏术,警察一次只能在一个地方巡逻;而小偷也只能去一个地方。若警察
选择了小偷偷盗的地方巡逻,就能把小偷抓住;而如果小偷选择了没有警察
巡逻的地方偷盗,就能够偷窃成功。假定银行需要保护的财产价格为2万元.
酒馆的财产价格为l万元。警察怎么巡逻才能使效果最好?
一种最容易被警察采用而且确实也更为常见的做法是.警察对银行进行
巡逻。这样,警察可以保住2万元的财产不被偷窃。但是假如小偷去了酒馆,
偷窃一定成功。这种做法是警察的最好做法吗?答案是否定的.因为我们完
全可以通过博弈论的知识,对这种策略加以改进。
警察的一个最好的策略是,抽签决定去银行还是酒馆。因为银行的价值
是酒馆的两倍,所以用两个签代表,比如抽到l、2号签去银行,抽到3号签
去酒馆。这样警察有2,3的机会去银行进行巡逻,l,3的机会去酒馆。
而在这种情况下,小偷的最优策略是:以同样抽签的办法决定去银行还
是去酒馆偷盗.与警察不同的是抽到1、2号签去酒馆,抽到3号签去银行。
这样小偷有v3的机会去银行,2,3的机会去酒馆。
警察与小偷之间的博弈,提供了混合策略的思路,但更形象的样板是“剪
刀、石头、布”的游戏。在这样一个游戏中,不存在纯策略均衡。对每个小
孩来说,出“剪刀”、“布”还是“石头”的策略应当是随机的.不能让对方
知道自己的策略,甚至是策略的倾向性。一旦对方知道自己出某个策略的可
能性增大,那么在游戏中输的可能性也就增大了。因此,每个小孩的堆优策
略是采取每个策略的可能性是¨。在这样的博弈中.每个小孩各取三个策略
的l,'是纳什均衡。
障弈论的雄计
还有一种常见的混合策略样板就是猜硬币游戏。比如在足球比赛开场.
裁判将手中的硬币抛掷到空中,让双方队长猜硬币落下后朝上的是正面还是
反面。由于硬币落下地的正反是随机的,概率都是1,2。那么.猜硬币游戏的
参与者选择正反的概率都是1,2,这时博弈达到混合策略纳什均衡。
这一类博弈与囚徒困境博弈辜例有一个很大的差别.就是投有纯策略纳
什均衡点,只有混合策略均衡点。这个均衡点下的策略选择是每个参与者的
最优(混台)策略选择。
所谓纯策略是指参与者在他的策略空间中选取唯一确定的策略,是参与
者一次性选取并且一直坚持的策略;而混合策略是指参与者在各种备选策略
中采取随机方式选取并且可以改变,而使之满足一定的概率的策略。
在每个参与者都有优势策略的情况下,纯策略均衡是非常合乎逻辑的。
一个优势策略优于其他任何箫略,同样。一个劣势策略则劣于其他任何策略。
假如你有一个优势策略.你可以选择采用,并且知道你的对手若是有一个优
势策略他也会照办;同样,假如休有一个劣势策略,你应该避免采用,并且
知道你的对手若是有一个劣势策略他也会规避。
但通过警察与小偷博弈我们看到,并非所有博奔都有这样优势策略.哪
怕这个博弈只有两个参与者。实际上,纯策略只是博弈论的一种特例。特别
是当博奔是零和博弈,即一方所得是另一方的所失时,只有混合策略均衡。
对于任何一方来说,都不可能有纯粹的占优策略。
看到这里,我们就可以明白,“警方版”的肪小偷地图.从博弈策略的角
度来考察并不是一个很好的方案。
当电话打到一半时
在警察与小偷的博弈中,双方采取混合策略的目的是为了战胜对方。是
一种对立者之间的斗智斗勇。实际上,即便在双方打算合作的时候.往往也
会会出现混合策略博奔。
小汪和小花是大学校园里的一对恋人,有一次电话打到一半突然断了,
两人该怎么办,假如小汪马上再给小花打电话.那么小花应该留在电话旁等
r
艇‰
警察与小偷博弈:猜猜猜与换换换
待,好把自家电话的线路空出来。可是,假如这时小汪也在等待,那么他们
的甜言蜜语就没有机会继续下去。
一方的最佳策略取决于另一方会罘取什么行动。这里又有两个均衡,一
个是小汪打电话而小花等在一边,另一个则是小花打电话而小汪等在一边。
这两个人需要进行一次沟通,以帮助他们确定彼此一致的策略.就应该
选择哪一个均衡达成共识。一个解决方案是,原来打电话的一方再次打电话,
而原来接电话的一方则等待电话铃响。这么做的好处是原来打电话的一方知
道另一方的电话号码,反过来却未必如此。
另一种可能性是,假如一方可以免费打电话或者电话费用比另一方低廉,
比如小汪的电话是包月的,而小花用的是计时收费电话.那么.解决方案是
由前者负责第二次拨打电话。
但是在更多的情况下,双方并没有上面的约定或条件,那就只有依靠投
硬币决定是不是应该拨打电话。这种随机行动的组合成为第三个均衡:假如
我打算给你打电话,我有一半机会可以打通,还有一半机会发现电话占线,
因为这时你也在给我打电话;假如我等你打电话.那么.我同样会有一半机
会接到休的电话,还有一半机会接不到你的电话,因为你也在等我的电话。
在这些例子中,选择怎样的协定并不重要,只要大家同意遵守同一协定
即可。不过,有些时候一个协定会比另一个协定好得多。但这并不表示更好
的协定一定会被采纳。如果一个协定已经存在了很长时间,现在环境的变化
使得另一个协定更可取,这时要想改革仍然并不容易。
对混合策略的传统解释是,局中人应用一种随机方法来决定所选择的策
略。这种解释在理论与实践中均不能令人满意。约翰…查里斯·哈萨尼(John
c Harsanyi)对此提出了更确切的解释方法。
他认为.每一种真实的博弈形势都受到一些微小的随机波动因素影响。
在标准的博弈模型中,这些影响表现为微小的独立连续随机变量.每个局中
人的每一策略均对应一个。这些随机变量的具体数值仅为相关局中人所知,
这种知识即成为私有信息;而联合分布则是博弈者的共有信息。哈萨尼把这
称为“变动收益博弈”。
变动收益博弈适用于不完全信息博弈理论,各随机变量的数值影响着每
博彝论的崩}舻
一个博弈者的收益。在适当的技术条件下,变动收益博弈所形成的纯策略组
合与对应无随机影响的标准博弈的混合策略组合恰好一致。实验证明.当随
机变量趋于零时,变动收益博弈的纯第略均衡点转化为对应无随机影响的标
准型博弈的混合策略均衡点。
变动收益博弈理论提供了对混合策略均衡点具有说服力的解释:局中人
只是表面上以混合策略进行博弈,但实际上仍是在各种略为不同的博奔情形
中以纯策略进行博弈。这种解释是一个具有重大意义的概念创新,是哈萨尼
对博弈论奠定的一块基石。
举例来说,小汪接到小花的电话,说十分钟以后在校园见面.但是不巧.
尚未说到见面地点小花的手机就没电了。任何一个地方.图书馆、餐厅、自
习室或者小树林边,只要两个人来到同一地点就行.否则男孩就等着心情糟
糕的女朋友训责吧。
这个典型的混合策略博彝有多个纳什均衡,那么该筛选出哪一个呢?
如果有一些均衡由于两人所共知而格外显眼,那么它是个答案:如果今
天是他们定情两周年的日子,那就到女孩子答应他求爱的小树林吧;如果役
有其他特殊情况,现在快到午饭的时候,餐厅就是不错的选择。
乱拳打死老师傅
一位学艺归来的拳师,与老婆发生了争执。老婆摩拳擦掌.跃跃欲试。
拳师心想:“我学武已成,难道还怕你不成,”投曾想尚未摆好架势,老婆已
经张牙舞爪地冲上来.三下五除二,竞将他打得鼻青脸肿,没有还手之力。
事后别人问他:“既然学武已成.为何还败在老婆手下?”拳师说:”她不按
招式出拳.我怎么招架?”
民间早就有“乱拳打死老师傅”的说法,意思是如果一切都授有章法,连
老师傅都无法招架呢。这里的“乱拳”,可以看做是随机混合策略的一种形象叫
法。
有一个游戏叫做“一、二、三射击”或称“手指配对”。在这个游戏中。
其中一个选手选择“偶数”,另外一个选手则得到“奇数”。敷到三的时候,
r
警察与小偷博弈;猜猜猜与换换换
两个选手必须同时伸出一个或者两个手指。假如手指的总数是偶数.就算“偶
数”选手赢;假如手指的总数是奇数.就算“奇数”选手赢。
那么怎样才能保证自己不被对手所赢呢’
有人的回答是闭着眼“瞎出”。这话说对了一半,因为从博弈论的角度来
看,“瞎出”也存在着一种均衡模式.必须加以计算。
因为只有奇、偶两种结果,整个局面是如此对称.以至于各个选手的均
衡混合策略应该都是50:50。我们这就验证一下:假如“奇数”选手出一个
指头和两个指头的机会是各一半,那么,“偶数”选手无论选择出一个还是两
个指头,平均每场游戏将会赢得O.50~1+0 50x(一1)=0元。
因此,假如他的策略也是50:50,那么他的平均所得就是0元。同样的
证明反过来也适用。因此,50:50混合策略对彼此都是最佳选择,它们合起
来就是一个均衡。
这一解决方案就是混合策略均衡,它反映了个人随机混合自己的策略的
必要性。
与手指配对游戏不同,很多情况下我们不应该将不可预测性等同为输赢
机会相等,而是应该通过有计划地偏向一边而改善自己的表现.只不过这样
傲的时候应该确保对方不能预见。在警察与小偷博弈中,警察系统地偏向银
行,就是一种十分合理而且很容易理解的改善方式。但是同时,警察必须打
乱自己的巡逻目标才能降低小偷盗窃成功的概率。这么一来,他会让小偷永
远处于迷茫之中.也就没有办法获得准确预测的优势了。
从警察和小偷的不同角度计算最佳混合策略,会得到一个有趣的共同点:
同样的成功概辜。也就是说,警察若采用自己的最佳混合策略,就能将小偷
的成功概率拉到他采用自己的最佳混合策略所能达到的成功概率。
这并非巧合.而是两个选手的利益严格对立的所有博弈的一个共同点。
这个结果称为“最小最大定理”.由数学家约翰·冯·诺伊曼(John Von
Neumann)刨立。这一定理指出,在二人零和博弈中。参与者的利益严格相反
(一人所得等于另一人所失),每个参与者尽量使对手的最大收益最小化,而
他的对手则努力使自己的最小收益最大化。
他们这样做的时候.会出现一个令人惊讶的结果.即最大收益的最小值
“I
潦‰翟邕型
(最小最大收益)等于最小收益的最大值(最大最小收益)。双方都没办法改
善自己的收益,因此这些策略形成这个博奔的一个均衡。
最小最大定理的证明相当复杂,不过,其结论却很实用。假如你想知道
的只不过是一个选手之得或者另一个选手之失。你只要计算其中一个选手的
最佳混合策略并得出结果就行了。
所有混合策略的均衡具有一个共同点:每个参与者并不在意自己的任何
具体策略。一旦有必要采取混合策略,找出你自己的策略的方法,就是让对
手觉得他们的任何策略对你的下一步都没有影响。
这听上去像是朝向混沌无为的一种倒退.其实不然。因为它正好符合零
和博弈的随机化动机:一方面要发现对手任何有规则的行为,并相应采取行
动。假如他们确实倾向于采取某一种特别的行动,这只能表示他们选择了最
糟糕的策略。反过来,也要避免一切会被对方占便宜的模式,坚持自己的最
佳混合策略。
因此.采取混合或者随机策略,并不等同于毫无策略地“瞎出”,这里面
仍然有很强的策略性。其基本要点在于,运用偶然性防止别人发现你的有规
则行为井占你的便宜。
不可预测的算计
在传统政治中,有所谓“君臣一日而百战”的说法.来形容国君与大臣
之间博弈的激烈程度。因为激烈,所以其层出不穷的招式,给博弈论的研究
提供了丰富的案例。
《吕氏春秋》中记载了这样一个故事。战国时,宋康王极端变态,整天
喝酒,异常暴虐。凡群臣中有来劝谏的,都被他找理由撤职或者关押起来。
臣下也因此对他更加反感,经常非议他。他十分苦恼地对宰相唐鞅说:“我处
罚的人很多了.但是大臣们越发不畏惧我,这是什么原因呢7”唐鞅说:“您
所治罪的,都是一些犯了法的人。惩罚他们,没有犯法的好人当然不会害怕。
如果您要让您的臣子们害怕,就必须不区分好人坏人,也不管他犯法没有犯
法.髓便抓住就治罪。这样的话,大臣们就知道害怕了。”
警察与小偷博弈:猜猜猜与换换换
唐鞅提出的这个建议.虽然缺德了一些,但却不能不说是深刻地把握住
了混合策略博弈的精髓之处。能够预测的惩罚,大臣总会想方设法地加以规
避,而无法预测的惩罚,却是防不胜防的,因而也是更令人心惊胆战的。
宋康王也是个聪明人,听了这个主意以后恍然大悟,深深地点了点头。
不久,他就下令把唐鞅杀了,大臣们果然十分害怕,每天上朝时都战战兢兢
不敢多说一句话。
策略的随机性是博弈论早期提出的一个深谋远虑的观点。
众所周知.一个国家每年都需要源源不断地征召到年龄的青年人伍。如
果普通平民百姓大规模拒绝应征.因为法不责众,对违法者进行处罚成了不
可能的任务。这样,如何激励到了法定年龄的青少年去登记,等待政府征召
入伍.就成为一个很需要博弈智慧的工作。
不过,政府掌握着一个有利的条件:规矩制定权。我们不妨想像政府有
权力惩