博弈论-第6章

小说：博弈论字数：每页3500字

按键盘上方向键 ← 或 → 可快速上下翻页，按键盘上的 Enter 键可回到本书目录页，按键盘上方向键 ↑ 可回到本页顶部！
————未阅读完？加入书签已便下次继续阅读！

l的支付，输掉了面子，但没有两者均〃前进〃受到的损失大；两者均〃后退〃，两者均输掉了面子获得…1的支付。当然这些数字只是相对的值。
　　这个博弈有两个纳什均衡：一方前进，另一方后退。但关键是谁进、谁退？一个博弈，如果有惟一的纳什均衡点，那么这个博弈是可预测的，即这个纳什均衡点就是一事先知道的惟一的博弈结果。但是如果一博弈有两个或两个以上的纳什均衡点，则无法预测出一个结果来。因此，我们无法预测斗鸡博弈的结果，即不能知道谁进谁退，谁输谁赢。
　　用这个博弈来解释美苏两个超级大国之间的古巴导弹危机，是最合适不过的了。
　　面对美国的反应，苏联面临着是将导弹撤回国还是坚持部署在古巴的选择？而对于美国，则面临着是挑起战争还是容忍苏联的挑衅行为的选择？也就是说，这两只大公鸡均在考虑采取进的策略还是退的策略？
　　战争的结果当然是两败俱伤，而任何一方退下来（而对方不退）则是不光彩的事。结果是苏联将导弹从古巴撤了下来，做了丢面子的〃撤退的鸡〃。美国坚持了自己的策略，做了〃不退的鸡〃。当然，为了给苏联一点面子，同时也担心苏联坚持不退而发生美苏战争这是美国不愿意看到的，美国象征性地从土耳其撤离了一些导弹。古巴导弹危机是冷战期间美苏两霸之间发生的最严重的一次危机。
　　这就是美国与苏联在古巴导弹上的博弈结果。对于苏联来说，退下来的结果是丢了面子，但总比战争要好；对美国而言，既保全了面子，又没有发生战争。这就是这两只〃大公鸡〃博弈的结果。
　　启示：任何事情都看似很难，实质不难；任何事情都比你预期的更令人满意；任何事情都能办好，而且是在最佳的时刻办好麦可斯韦尔定律有助你走出阴霾。
　　左边还是右边
　　前面我们已知，在博弈中纳什均衡点如果有两个或两个以上，结果就难以预料。这对每个博弈方都是麻烦事，因为后果难料，行动也往往进退两难。一个小例子就是两个骑自行车的人对面碰头，很容易互相〃向住〃：因为不知道对方会不会躲、往哪边躲，自己也不知该如何反应，于是撞到一起。
　　自行车相撞一般不会造成什么大麻烦，可是如果换成马车、汽车，就可能出现伤亡。所以，应该有一个强制性的规定，来告诉人们该怎么做。
　　开车的时候你应该走哪一边？假如别人都靠右行驶，你也会留在右边。套用〃假如我认为他认为〃的框架进行分析，假如每个人都认为其他人认为每个人都会靠右行驶，那么每个人都会靠右行驶，而他们的预计也全都确切无误。靠右行驶将成为一个均衡。
　　不过，靠左行驶也是一个均衡，正如在英国、澳大利亚和日本出现的情况。这个博弈有两个均衡。均衡的概念没有告诉我们哪一个更好或者哪一个应该更好。假如一个博弈具有多个均衡，所有参与者必须就应选择哪一个达成共识，否则就会导致困惑。
　　海上航行也要面临同样的问题，尽管大海辽阔，但是航线却是比较固定的，因此船只交会的机会很多，这些船只属于不同的国家，如何调节谁进谁退的问题呢？先来看一个小笑话：
　　一艘军舰在夜航中，舰长发现前方航线上出现了灯光。
　　舰长马上呼叫：〃对面船只，右转30度。〃
　　对方回答：〃请对面船只左转30度。〃
　　〃我是美国海军上校，右转30度。〃
　　〃我是加拿大海军二等兵，请左转30度。〃
　　舰长生气了：〃听着，我是'列克星顿'号战列舰舰长，这是美国海军最强大的武装力量，右转30度！〃
　　〃我是灯塔管理员，请左转30度。〃
　　即使你官阶、舰船再大，灯塔也不会给你让路。那么，如果是两条船相遇，又如何决定呢？
　　谁先让不能等待临时谈判，也不是由官阶说了算。海上避碰也有像许多国家规定车辆在马路上靠右走那样不容谈判的规矩。人们规定，迎面交会的船舶，各向右偏一点儿，问题就解决了。十字交叉交会的船舶，则规定看见对方左舷的那艘船要让，慢下来或者偏右一点儿都可以。这就从制度上规定了避让的方式。
　　这十字交叉交会时如何避免碰撞的规矩，就是上述博弈的两个纳什均衡中的一个。究竟哪一个纳什均衡真正发生，现在就看两船航行的相互位置。如果甲看见乙的左舷，甲要让乙原速直走，就是右上角那个纳什均衡；如果乙看见甲的左舷，乙要让甲原速直走。
　　谁打电话
　　上面的例子是通过规定解决了问题，不过，若是遇到电话打到一半突然断了的事，你该怎么办？
　　假如你正在和女友通话，电话断了，而话还没说完。这时有两个选择，马上打给对方，或等待对方打来。注意：如果你打过去，她就应该等在电话旁，好把自家电话的线路空出来，如果她也在打给你，你们只能听到忙音；另一方面，假如你等待对方打电话，而她也在等待，那么你们的聊天就没有机会继续下去。
　　一方的最佳策略取决于另一方会采取什么行动。这里又有两个均衡：一个是你打电话而她等在一边，另一个则是恰好相反。
　　一个解决方案是，原来打电话的一方再次负责打电话，而原来接电话的一方则继续等待电话铃响。这么做的好处是原来打电话的一方知道另一方的电话号码，反过来却未必是这样。
　　另一种可能性是，假如一方可以免费打电话，而另一方不可以（比如你是在办公室而她用的是住宅电话），那么，解决方案是拥有免费电话的一方应该负责第二次打电话。还有一种比较通常的解决方法是，由较热切的一方来打电话，如一个煲电话粥成瘾的家庭主妇对谈话的热情很高，而她的同伴就未必这样，这种情况下通常是她打过去。再如恋爱中的男女遇到这种情况，通常也是由主动追求者打电话。
　　假如不考虑以上因素，那么打这个电话又得用到这种〃混合策略〃了：设想双方都投硬币决定自己是不是应该给对方打电话，根据前面给出的条件，两人这种随机行动的组合成为第三个均衡。
　　假如我打算给你打电话，我有一半机会可以打通（因为这时你恰巧在等我打电话），还有一半机会发现电话占线；假如我等你打电话，那么，我同样会有一半机会接到你的电话，因为你有一半机会主动给我打电话。
　　每一个回合双方完全不知道对方将会采取什么行动，他们的做法实际上对彼此都最理想。因为我们只有一半机会重新开始被打断的电话聊天，我们知道我们（平均来说）要尝试两次才能成功接通。
　　需要再次强调的是：均衡不一定是博弈的最优结果。在〃囚徒困境〃中，惟一的均衡是一起招认，站在群体的角度，这是最坏的结果。均衡只是博弈的最〃稳定〃结果，或者说是最可能出现的结果。那么，这就需要我们思考一个问题：如果这个〃稳定〃结果效果不佳，我们能否找到合理的策略打破这个〃均衡〃？
　　启示：在同时行动的博弈中，有三个行动法则：一是寻找和运用优势策略；二是寻找和避免劣势策略，同时假定你的对手也在这么做；三是寻找和运用均衡。

　　第3章　打破〃囚徒困境〃
在〃囚徒困境〃中表现最好的策略直接取决于对方采用的策略，特别是取决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步相对于当前一步的权重足够大，即未来是重要的。
　　囚犯的救赎
　　为了验证面对〃囚徒困境〃时人们可选择的策略以及这些策略的有效程度，美国的学者组织了一次以此为主题的计算机竞赛。竞赛要求参加者根据这一困境设计程序，并将程序输入计算机，通过各种程序的相互对局的最后得分评判优劣。
　　竞赛的游戏方法是：游戏双方都在不知对方将如何选择的情况下，选择合作或背叛。这些选择放在一起就产生了四个可能的结果，即：合作，合作；合作，背叛；背叛，合作；背叛，背叛。在这个游戏中，如果双方选择合作，双方都能得到较好的结果R，即〃对双方合作的奖励〃。在这个例子中R为3分，3也可以代表参赛者得到的奖金数。如果一方合作而另一方背叛，那么，背叛者得到〃对背叛的诱惑〃T＝5。而合作者则得到〃给笨蛋的报酬〃S＝0。如果双方都背叛那么双方都得到P＝1，即〃对双方背叛的惩罚〃。
　　参赛者提出了各种程序，但是大致可分为〃善良的〃、〃邪恶的〃和〃随意的〃三类，竞赛的结果也许有些出人意料：〃善良〃即〃以合作为主〃的策略大获全胜，而〃邪恶〃即〃以占便宜为主〃的策略成绩不佳。
　　现在考虑一个双方对局的例子。一个对策者采用的策略是每一步都背叛，即〃总是背叛〃，另一个对策者采用的策略是〃一报还一报〃，即在第一步合作，然后就采用对方上一步的选择。〃一报还一报〃意味着在对方每一次背叛之后就背叛一次。当对方采用〃一报还一报〃时，采用〃总是背叛〃的对策者，将在第一局得到收益，在而后的对局中都得到相应的回击。这样，这个背叛者只是在第一局得到5分，而在以后的每局都只能得到1分，最终他可能会〃战胜〃对手，但由于总分仍然很低，而被淘汰出局。
　　你可能忍不住要问：〃什么是最好的策略？〃换句话说，什么策略能使对策者得到可能的最高分？这个问题问得很好。但是就像以后要说明的一样，独立于对方所用策略之外的最好决策规则是不存在的。从这个意义上说，〃囚徒困境〃完全不同于一般游戏，如国际象棋。一个象棋大师可以有把握地假定对手将走让他最头疼的一步，这种假定是这类游戏的基础。然而在这里，游戏者的利益并不是完全冲突的。双方可以通过合作而得到〃对合作的奖励〃R，也可以通过背叛而得到〃对背叛的惩罚〃P。如果你假定对方总是走你最担忧的一步，那么，你就会认为其他人总是不合作，这就会使你也不合作，最后招来无休止的惩罚。所以与下棋不同，在〃囚徒困境〃中假定对方一心要赢你是不可靠的。
　　事实上，在〃囚徒困境〃中表现最好的策略直接取决于对方采用的策略，特别是取决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步相对于当前一步的权重足够大，即未来是重要的。总的来说，如果你认为今后将难以与对方相遇，如果你不太关心自己未来的利益，那么，你现在最好是背叛，而不用担心未来的后果。
　　这样，我们得到了第一个正式的结论，但却是一个令人伤心的结论，即：如果未来是重要的，就不存在最优策略。
　　启示：好莱坞大片《肖申克的救赎》是一部很好看的电影，主要内容是一个被冤屈的囚犯如何凭着坚定的信念和聪明才智逃出牢房。我们的〃囚犯〃也可以通过好的策略合作，摆脱〃困境〃的诅咒。
　　〃一报还一报〃的伟大胜利
　　区分善良规则好坏的一个特征是，看它们如何迅速地和可靠地对来自对方的挑战作出反应。一个规则可以被称为〃报复性的〃，如果它在对方的背叛之后立即以背叛报复。除非一个策略能迅速反应来自对方的挑战，否则，对方将简单地从这样一个好说话的策略身上获得越来越多的好处。
　　在比赛中，有好几个规则故意使用若干次背叛，试试看它们能否讨到便宜。因此，很大程度上决定善良规则的最后名次的是它们能否很好地应付这些挑战。
　　对付这类挑战性规则的最好办法是时刻准备报复来自对方〃无缘无故〃的背叛。因此，善良能得到好处，报复也能得到好处。〃一报还一报〃综合了这些优点，它是善良的、宽容的和具报复性的。它从不首先背叛，但是不管过去相处的关系如何好，它总能被一个背叛所激怒，而迅速作出反应。
　　生态分析的结果说明了〃一报还一报〃的又一个胜利。在最初的竞赛中〃一报还一报〃领先一点点，而且在整个生态模拟过程中一直保持领先。到了第1000代，它是最成功的规则，并且比任何一个其他规则都增长得快。
　　〃一报还一报〃的所有记录是令人难忘的。概括地说，〃一报还一报〃是62个参赛者中平均得分最高的规则。在竞赛的生态模拟中它一直保持领先。加上它在实验室的对策实验中的良好表现，〃一报还一报〃显然是一个非常成功的策略。
　　〃一报还一报〃的成功可以说明的是它是一个很具适应性的规则：即它在很大范围的环境中表现极佳。它的成功部分是由于其他规则预料到它的存在并且被设计得与它很好相处。要和〃一报还一报〃很好相处就要和它合作，这反过来就帮助了〃一报还一报〃。即使那些被设计成伺机占便宜而不被惩罚的规则，也很快向〃一报还一报〃道歉。任何想占〃一报还一报〃便宜的规则最终将伤害自己。〃一报还一报〃从自己的不可欺负性得到好处，是因为以下三个条件得到了满足：1。遇到〃一报还一报〃的可能性是显著的；2。一旦相遇，〃一报还一报〃很容易被识别出来；3。一旦被识别出来，其不可欺负性就显示出来。因此，〃一报还一报〃从它自己的清晰性中得到好处。
　　另一方面，〃一报还一报〃放弃了占他人便宜的可能性。这种机会有时是很有利可图的，但是试图占便宜而引来的问题也多种多样。首先，如果一个规则用背叛试探是否可以占便宜，它就得冒被那些可激怒的规则报复的风险。第二，双方的反击一旦开始，就很难自己解脱。
　　〃一报还一报〃的稳定成功的原因是它综合了善良性、报复性、宽容性和清晰性。它的善良性防止它陷入不必要的麻烦，它的报复性使对方试着背叛一次后就不敢再背叛，它的宽容性有助于重新恢复合作。它的清晰性使它容易被对方理解，从而引出长期的合作。
　　启示：一报还一报能够赢得竞赛不是靠打击对方，而是靠从对方引出使双方都有好处的行为。
　　你不必每次都赢
　　虽然预见对于合作的进化不是必要的，但它却对我们很有帮助。因此在这里将分别对参与者和改革者提供建议。
　　下面为那些处于〃囚徒困境〃的人提供建议。从个体的眼光看，目标是在与对手的一系列对局中尽可能地得高分。由于这个游戏是〃囚徒困境〃，参与者会受到背叛的短期诱惑，但是通过与对方建立双方合作的模式可以得到更多的长期好处。对计算机竞赛的分析和理论研究的结果，为我们提供了一些有用的信息，即在不同的条件下什么样的策略会起作用和为什么这些策略能表现得好。这一章就是把这些发现转化成对参与者的建议。
　　在持续的〃重复囚徒困境〃中应如何表现，下面是四个简单的建议：
　　1。不要嫉妒
　　人们习惯于考虑零和对局，在这种情况下，一个人赢，另一个就输。一个很好的例子就是下棋比赛。为了能赢，一个参赛者必须在大部分时间里比对手做得更好。白棋赢黑棋就输。
　　然而生活中的大多数情况都是非零和的。双方可以都做得很好，也可以都做得很差。双方的合作是可能的，但并不是总能实现。这就是为什么〃囚徒困境〃是各种各样的日常情形的有用模型。
　　人们倾向于采用相对的标准，这个标准经常把对方的成功与自己的成功对立起来。这种标准导致了嫉妒，嫉妒导致企图抵消对方已经得到的优势。在〃囚徒困境〃的形式下，抵消对方优势只能通过背叛来实现。但是背

返回目录上一页下一页回到顶部赞（2）踩（1）

第6章

博弈论-第6章

你可能喜欢的