博弈论的诡计(1)-第21章

小说：博弈论的诡计(1) 字数：每页3500字

按键盘上方向键 ← 或 → 可快速上下翻页，按键盘上的 Enter 键可回到本书目录页，按键盘上方向键 ↑ 可回到本页顶部！
————未阅读完？加入书签已便下次继续阅读！

这样小偷有v3的机会去银行，2，3的机会去酒馆。
　　　　警察与小偷之间的博弈，提供了混合策略的思路，但更形象的样板是“剪
刀、石头、布”的游戏。在这样一个游戏中，不存在纯策略均衡。对每个小
孩来说，出“剪刀”、“布”还是“石头”的策略应当是随机的．不能让对方
知道自己的策略，甚至是策略的倾向性。一旦对方知道自己出某个策略的可
能性增大，那么在游戏中输的可能性也就增大了。因此，每个小孩的堆优策
略是采取每个策略的可能性是¨。在这样的博弈中．每个小孩各取三个策略
的l，＇是纳什均衡。
有想到设计一个防偷图呢々
　　　　实际上，问题并没有这么简单。《时代商报》的评论就指出，警方如果公
布类似的“小偷地图”．很可能打草惊蛇。当小偷也看到地图的时候，肯定会
转移战场。这个回答指出了问题的另一个侧面，但是并不足够。要想真正把
这个问题说清楚，我们需要用到博弈论中的一个模型——警察与小偷博弈。
　　　　某个小镇上只有一名警察，他负责整个镇舶治安。瑰在我们假定，小镇
的一头有一家酒馆，另一头有一家银行。再假定该地只有一个小偷。因为分
身乏术，警察一次只能在一个地方巡逻；而小偷也只能去一个地方。若警察
选择了小偷偷盗的地方巡逻，就能把小偷抓住；而如果小偷选择了没有警察
巡逻的地方偷盗，就能够偷窃成功。假定银行需要保护的财产价格为2万元．
酒馆的财产价格为l万元。警察怎么巡逻才能使效果最好？
　　　　一种最容易被警察采用而且确实也更为常见的做法是．警察对银行进行
巡逻。这样，警察可以保住2万元的财产不被偷窃。但是假如小偷去了酒馆，
偷窃一定成功。这种做法是警察的最好做法吗？答案是否定的．因为我们完
全可以通过博弈论的知识，对这种策略加以改进。
　　　　警察的一个最好的策略是，抽签决定去银行还是酒馆。因为银行的价值
是酒馆的两倍，所以用两个签代表，比如抽到l、2号签去银行，抽到3号签
去酒馆。这样警察有2，3的机会去银行进行巡逻，l，3的机会去酒馆。
　　　　而在这种情况下，小偷的最优策略是：以同样抽签的办法决定去银行还
是去酒馆偷盗．与警察不同的是抽到1、2号签去酒馆，抽到3号签去银行。
这样小偷有v3的机会去银行，2，3的机会去酒馆。
　　　　警察与小偷之间的博弈，提供了混合策略的思路，但更形象的样板是“剪
刀、石头、布”的游戏。在这样一个游戏中，不存在纯策略均衡。对每个小
孩来说，出“剪刀”、“布”还是“石头”的策略应当是随机的．不能让对方
知道自己的策略，甚至是策略的倾向性。一旦对方知道自己出某个策略的可
能性增大，那么在游戏中输的可能性也就增大了。因此，每个小孩的堆优策
略是采取每个策略的可能性是¨。在这样的博弈中．每个小孩各取三个策略
的l，＇是纳什均衡。
障弈论的雄计
　　　　还有一种常见的混合策略样板就是猜硬币游戏。比如在足球比赛开场．
裁判将手中的硬币抛掷到空中，让双方队长猜硬币落下后朝上的是正面还是
反面。由于硬币落下地的正反是随机的，概率都是1，2。那么．猜硬币游戏的
参与者选择正反的概率都是1，2，这时博弈达到混合策略纳什均衡。
　　　　这一类博弈与囚徒困境博弈辜例有一个很大的差别．就是投有纯策略纳
什均衡点，只有混合策略均衡点。这个均衡点下的策略选择是每个参与者的
最优（混台）策略选择。
　　　　所谓纯策略是指参与者在他的策略空间中选取唯一确定的策略，是参与
者一次性选取并且一直坚持的策略；而混合策略是指参与者在各种备选策略
中采取随机方式选取并且可以改变，而使之满足一定的概率的策略。
　　　　在每个参与者都有优势策略的情况下，纯策略均衡是非常合乎逻辑的。
一个优势策略优于其他任何箫略，同样。一个劣势策略则劣于其他任何策略。
假如你有一个优势策略．你可以选择采用，并且知道你的对手若是有一个优
势策略他也会照办；同样，假如休有一个劣势策略，你应该避免采用，并且
知道你的对手若是有一个劣势策略他也会规避。
　　　　但通过警察与小偷博弈我们看到，并非所有博奔都有这样优势策略．哪
怕这个博弈只有两个参与者。实际上，纯策略只是博弈论的一种特例。特别
是当博奔是零和博弈，即一方所得是另一方的所失时，只有混合策略均衡。
对于任何一方来说，都不可能有纯粹的占优策略。
　　　　看到这里，我们就可以明白，“警方版”的肪小偷地图．从博弈策略的角
度来考察并不是一个很好的方案。
当电话打到一半时
　　　　在警察与小偷的博弈中，双方采取混合策略的目的是为了战胜对方。是
一种对立者之间的斗智斗勇。实际上，即便在双方打算合作的时候．往往也
会会出现混合策略博奔。
　　　　小汪和小花是大学校园里的一对恋人，有一次电话打到一半突然断了，
两人该怎么办，假如小汪马上再给小花打电话．那么小花应该留在电话旁等
r
艇‰
警察与小偷博弈：猜猜猜与换换换
待，好把自家电话的线路空出来。可是，假如这时小汪也在等待，那么他们
的甜言蜜语就没有机会继续下去。
　　　　一方的最佳策略取决于另一方会罘取什么行动。这里又有两个均衡，一
个是小汪打电话而小花等在一边，另一个则是小花打电话而小汪等在一边。
　　　　这两个人需要进行一次沟通，以帮助他们确定彼此一致的策略．就应该
选择哪一个均衡达成共识。一个解决方案是，原来打电话的一方再次打电话，
而原来接电话的一方则等待电话铃响。这么做的好处是原来打电话的一方知
道另一方的电话号码，反过来却未必如此。
　　　　另一种可能性是，假如一方可以免费打电话或者电话费用比另一方低廉，
比如小汪的电话是包月的，而小花用的是计时收费电话．那么．解决方案是
由前者负责第二次拨打电话。
　　　　但是在更多的情况下，双方并没有上面的约定或条件，那就只有依靠投
硬币决定是不是应该拨打电话。这种随机行动的组合成为第三个均衡：假如
我打算给你打电话，我有一半机会可以打通，还有一半机会发现电话占线，
因为这时你也在给我打电话；假如我等你打电话．那么．我同样会有一半机
会接到休的电话，还有一半机会接不到你的电话，因为你也在等我的电话。
　　　　在这些例子中，选择怎样的协定并不重要，只要大家同意遵守同一协定
即可。不过，有些时候一个协定会比另一个协定好得多。但这并不表示更好
的协定一定会被采纳。如果一个协定已经存在了很长时间，现在环境的变化
使得另一个协定更可取，这时要想改革仍然并不容易。
　　　　对混合策略的传统解释是，局中人应用一种随机方法来决定所选择的策
略。这种解释在理论与实践中均不能令人满意。约翰…查里斯·哈萨尼（John
c　Harsanyi）对此提出了更确切的解释方法。
　　　　他认为．每一种真实的博弈形势都受到一些微小的随机波动因素影响。
在标准的博弈模型中，这些影响表现为微小的独立连续随机变量．每个局中
人的每一策略均对应一个。这些随机变量的具体数值仅为相关局中人所知，
这种知识即成为私有信息；而联合分布则是博弈者的共有信息。哈萨尼把这
称为“变动收益博弈”。
　　　　变动收益博弈适用于不完全信息博弈理论，各随机变量的数值影响着每
博彝论的崩｝舻
一个博弈者的收益。在适当的技术条件下，变动收益博弈所形成的纯策略组
合与对应无随机影响的标准博弈的混合策略组合恰好一致。实验证明．当随
机变量趋于零时，变动收益博弈的纯第略均衡点转化为对应无随机影响的标
准型博弈的混合策略均衡点。
　　　　变动收益博弈理论提供了对混合策略均衡点具有说服力的解释：局中人
只是表面上以混合策略进行博弈，但实际上仍是在各种略为不同的博奔情形
中以纯策略进行博弈。这种解释是一个具有重大意义的概念创新，是哈萨尼
对博弈论奠定的一块基石。
　　　　举例来说，小汪接到小花的电话，说十分钟以后在校园见面．但是不巧．
尚未说到见面地点小花的手机就没电了。任何一个地方．图书馆、餐厅、自
习室或者小树林边，只要两个人来到同一地点就行．否则男孩就等着心情糟
糕的女朋友训责吧。
　　　　这个典型的混合策略博彝有多个纳什均衡，那么该筛选出哪一个呢？
　　　　如果有一些均衡由于两人所共知而格外显眼，那么它是个答案：如果今
天是他们定情两周年的日子，那就到女孩子答应他求爱的小树林吧；如果役
有其他特殊情况，现在快到午饭的时候，餐厅就是不错的选择。
乱拳打死老师傅
　　　　一位学艺归来的拳师，与老婆发生了争执。老婆摩拳擦掌．跃跃欲试。
拳师心想：“我学武已成，难道还怕你不成，”投曾想尚未摆好架势，老婆已
经张牙舞爪地冲上来．三下五除二，竞将他打得鼻青脸肿，没有还手之力。
事后别人问他：“既然学武已成．为何还败在老婆手下？”拳师说：”她不按
招式出拳．我怎么招架？”
　　　　民间早就有“乱拳打死老师傅”的说法，意思是如果一切都授有章法，连
老师傅都无法招架呢。这里的“乱拳”，可以看做是随机混合策略的一种形象叫
法。
　　　　有一个游戏叫做“一、二、三射击”或称“手指配对”。在这个游戏中。
其中一个选手选择“偶数”，另外一个选手则得到“奇数”。敷到三的时候，
r
警察与小偷博弈；猜猜猜与换换换
两个选手必须同时伸出一个或者两个手指。假如手指的总数是偶数．就算“偶
数”选手赢；假如手指的总数是奇数．就算“奇数”选手赢。
　　　　那么怎样才能保证自己不被对手所赢呢’
　　　　有人的回答是闭着眼“瞎出”。这话说对了一半，因为从博弈论的角度来
看，“瞎出”也存在着一种均衡模式．必须加以计算。
　　　　因为只有奇、偶两种结果，整个局面是如此对称．以至于各个选手的均
衡混合策略应该都是50：50。我们这就验证一下：假如“奇数”选手出一个
指头和两个指头的机会是各一半，那么，“偶数”选手无论选择出一个还是两
个指头，平均每场游戏将会赢得O．50~1＋0　50x（一1）=0元。
　　　　因此，假如他的策略也是50：50，那么他的平均所得就是0元。同样的
证明反过来也适用。因此，50：50混合策略对彼此都是最佳选择，它们合起
来就是一个均衡。
　　　　这一解决方案就是混合策略均衡，它反映了个人随机混合自己的策略的
必要性。
　　　　与手指配对游戏不同，很多情况下我们不应该将不可预测性等同为输赢
机会相等，而是应该通过有计划地偏向一边而改善自己的表现．只不过这样
傲的时候应该确保对方不能预见。在警察与小偷博弈中，警察系统地偏向银
行，就是一种十分合理而且很容易理解的改善方式。但是同时，警察必须打
乱自己的巡逻目标才能降低小偷盗窃成功的概率。这么一来，他会让小偷永
远处于迷茫之中．也就没有办法获得准确预测的优势了。
　　　　从警察和小偷的不同角度计算最佳混合策略，会得到一个有趣的共同点：
同样的成功概辜。也就是说，警察若采用自己的最佳混合策略，就能将小偷
的成功概率拉到他采用自己的最佳混合策略所能达到的成功概率。
　　　　这并非巧合．而是两个选手的利益严格对立的所有博弈的一个共同点。
　　　　这个结果称为“最小最大定理”．由数学家约翰·冯·诺伊曼（John　Von
Neumann）刨立。这一定理指出，在二人零和博弈中。参与者的利益严格相反
（一人所得等于另一人所失），每个参与者尽量使对手的最大收益最小化，而
他的对手则努力使自己的最小收益最大化。
　　　　他们这样做的时候．会出现一个令人惊讶的结果．即最大收益的最小值
“I
潦‰翟邕型
（最小最大收益）等于最小收益的最大值（最大最小收益）。双方都没办法改
善自己的收益，因此这些策略形成这个博奔的一个均衡。
　　　　最小最大定理的证明相当复杂，不过，其结论却很实用。假如你想知道
的只不过是一个选手之得或者另一个选手之失。你只要计算其中一个选手的
最佳混合策略并得出结果就行了。
　　　　所有混合策略的均衡具有一个共同点：每个参与者并不在意自己的任何
具体策略。一旦有必要采取混合策略，找出你自己的策略的方法，就是让对
手觉得他们的任何策略对你的下一步都没有影响。
　　　　这听上去像是朝向混沌无为的一种倒退．其实不然。因为它正好符合零
和博弈的随机化动机：一方面要发现对手任何有规则的行为，并相应采取行
动。假如他们确实倾向于采取某一种特别的行动，这只能表示他们选择了最
糟糕的策略。反过来，也要避免一切会被对方占便宜的模式，坚持自己的最
佳混合策略。
　　　　因此．采取混合或者随机策略，并不等同于毫无策略地“瞎出”，这里面
仍然有很强的策略性。其基本要点在于，运用偶然性防止别人发现你的有规
则行为井占你的便宜。
不可预测的算计
　　　　在传统政治中，有所谓“君臣一日而百战”的说法．来形容国君与大臣
之间博弈的激烈程度。因为激烈，所以其层出不穷的招式，给博弈论的研究
提供了丰富的案例。
　　　　《吕氏春秋》中记载了这样一个故事。战国时，宋康王极端变态，整天
喝酒，异常暴虐。凡群臣中有来劝谏的，都被他找理由撤职或者关押起来。
臣下也因此对他更加反感，经常非议他。他十分苦恼地对宰相唐鞅说：“我处
罚的人很多了．但是大臣们越发不畏惧我，这是什么原因呢7”唐鞅说：“您
所治罪的，都是一些犯了法的人。惩罚他们，没有犯法的好人当然不会害怕。
如果您要让您的臣子们害怕，就必须不区分好人坏人，也不管他犯法没有犯
法．髓便抓住就治罪。这样的话，大臣们就知道害怕了。”
警察与小偷博弈：猜猜猜与换换换
　　　　唐鞅提出的这个建议．虽然缺德了一些，但却不能不说是深刻地把握住
了混合策略博弈的精髓之处。能够预测的惩罚，大臣总会想方设法地加以规
避，而无法预测的惩罚，却是防不胜防的，因而也是更令人心惊胆战的。
　　　　宋康王也是个聪明人，听了这个主意以后恍然大悟，深深地点了点头。
不久，他就下令把唐鞅杀了，大臣们果然十分害怕，每天上朝时都战战兢兢
不敢多说一句话。
　　　　策略的随机性是博弈论早期提出的一个深谋远虑的观点。
　　　　众所周知．一个国家每年都需要源源不断地征召到年龄的青年人伍。如
果普通平民百姓大规模拒绝应征．因为法不责众，对违法者进行处罚成了不
可能的任务。这样，如何激励到了法定年龄的青少年去登记，等待政府征召
入伍．就成为一个很需要博弈智慧的工作。
　　　　不过，政府掌握着一个有利的条件：规矩制定权。我们不妨想像政府有
权力惩

返回目录上一页下一页回到顶部赞（0）踩（0）

第21章

博弈论的诡计(1)-第21章

你可能喜欢的