生活中的博弈论-第7章

小说：生活中的博弈论字数：每页3500字

按键盘上方向键 ← 或 → 可快速上下翻页，按键盘上的 Enter 键可回到本书目录页，按键盘上方向键 ↑ 可回到本页顶部！
————未阅读完？加入书签已便下次继续阅读！

　　如果对方知道你的策略是触发策略，那么对方将不敢采取不合作策略，因为一旦他采取了不合作策略，双方便永远进入不合作的困境。因此，只要有人采取触发策略，那么双方均愿意采取合作策略。
　　但是这个策略面临着这样一个问题：如果双方存在误解，或者由于一方发生选择性的错误，这个错误是无意的，那么结果将是双方均采取不合作的策略。也就是说，这种策略不给对方一个改正错误或解释错误的机会。
　　美国密西根大学罗伯特爱克斯罗德教授那个著名试验，给出了这个问题更好的答案。爱克斯罗德邀的这些人都是政治学家、数学家、经济学家、社会学家。获胜者是加拿大多伦多大学的拉波波特写出的针锋相对（tit…for…tat）策略。说穿了，所谓针锋相对策略，就是胡萝卜加大棒的原则。
　　爱克斯罗德在开始研究合作之前，设定了两个前提：一、每个人都是自私的；二、没有任何权威干预每个人的决策。也就是说，个人可以完全按照自己利益最大化的企图进行决策。在此前提下，合作要研究的问题是：第一、人为什么要合作；第二、人什么时候是合作的，什么时候又是不合作的；第三、如何使别人与你合作。
　　这个游戏共进行了两轮。在第一轮游戏中，共有14个程序参加竞赛，并附加上爱克斯罗德自己的一个随机程序（即以50％的概率选取合作或不合作），总共运转了200次。结果得分最高的程序是加拿大学者罗伯布编写的针锋相对策略程序。
　　这个程序的特点是：第一次对局采用合作的策略，以后每一步都紧紧跟随对方上一步的策略，你上一次合作，我这一次就合作，你上一次不合作，我这一次就不合作。爱克斯罗德还发现，得分排在前面的程序有三个特点：第一，从不首先背叛，即“善良的”；第二，对于对方的背叛行为一定要报复，不能总是合作，即“可激怒的”；第三，不能人家一次背叛，你就没完没了地报复，以后人家只要改为合作，你也要合作，即“宽容性”。
　　为了进一步验证第一轮游戏得到的结论，爱克斯罗德邀请了更多的人再做一次游戏。这时游戏进入了第二轮。第二次爱克斯罗德征集到了62个程序，同样也附加上他自己的随机程序，又进行了一次竞赛。结果，第一名的仍是针锋相对策略。
　　爱克斯罗德总结这次游戏的结论是：第一，针锋相对方法仍是最优策略。第二，前面提到的三个特点仍然有效，因为63人中的前15名里，只有第8名的哈灵顿程序是“不善良的”，后15名中，只有1个总是合作的是“善良的”。可激怒性和宽容性也得到了证明。此外，好的策略还必须具有的一个特点是“清晰性”，能让对方在三、五步对局内辨识出来，太复杂的对策不见得好。针锋相对策略就有很好的清晰性，让对方很快发现规律，从而不得不采取合作的态度。
　　针锋相对策略的优越性向我们充分展示了一个纯粹自利的人何以会选择“善行”，只因为合作是自我利益最大化的一种必要手段。
　　比如在爱情中的博弈原则应该是：善意而不是恶意地对待恋人；宽容而不是尖刻地对待恋人，关键是能够彼此宽容，既宽容对方的缺点；强硬而不是软弱地对待恋人，就是要在我永远爱你的善意的前提下，做到有爱必报，有恨也必报，以眼还眼，以牙还牙，以其人之道，还治其人之身。
　　比如对于恋人与其他异性的亲热行为，要有极其强烈的敏感与斩钉截铁的回报。简单明了而不是山环水绕地对待恋人，在博弈中过分复杂的策略使得对手难于理解，无所适从，因而难以建立稳定的合作关系，明晰的个性、简练的作风和坦诚的态度倒是制胜的要诀。
　　在生活中一样可以运用这种方法。当一个人伤害了你的时候，你知道即便报复了他也并不能消除已对你形成的伤害。如果你还希望两个人的关系能够继续，那么最好是宽恕他。但是，若他知道即便伤害了你也会获得宽恕的时候，他就可能一直有意无意地不停伤害你。
　　就像我们在一些影片中看到某些心地善良却遇人不淑的女子。那些女子一次又一次原谅胡作非为的丈夫，希望用真情感动他回心转意；但结果丈夫反而得寸进尺，因为他知道无论如何只要一些花言巧语扮可怜就会获得宽恕。
　　所以有时候，人们会对伤害选择报复。当别人打你一拳，你若打回一拳，这本身并不能减轻你已挨那一拳的疼痛，而且用力打回一拳通常也得不到快感。那为什么还会回击呢？原因在于，你知道打不还手只会让对手更加猖狂，而选择回击是遏制对方进一步侵犯的方式。
　　所以，有些时候宽大为怀不一定好，有些时候毫无回旋余地也不见佳。这就是奇妙的人类互动世界。

利他主义与爱克斯罗德试验的局限

　　在爱克斯罗德试验中，选手策略有一定的演化趋向。就像物种遗传一样，对策者所组成的策略群体也是一代一代进化下去的。这种进化的规则包括：
　　1．试错。人们在对待周围环境时，起初不知道该怎么做，于是就试试这个，试试那个，哪个结果好就照哪个去做。这就是试错法；
　　2．遗传。一个人如果合作性好，他的后代的合作基因就多；
　　3．学习。比赛过程就是对策者相互学习的过程，针锋相对策略好，有的人就愿意学。
　　在爱克斯罗德的试验中，第一轮比赛中的63个对策者，谁在第一轮中的得分高，他在第二轮的群体中所占比例就越高。这样，群体的结构就会在进化过程中改变，由此可以看出群体是向什么方向进化的。
　　试验结果很有趣。针锋相对策略原来在群体中占1/63，经过1000代的进化，结构稳定下来时，它占了24％。另外，有一些程序在进化过程中消失了。其中有一个值得研究的程序，即原来前15名中唯一的那个不善良的“哈灵顿”程序，它的对策方案是：首先合作，当发现对方一直在合作，它就突然来个不合作，如果对方立刻报复它，它就恢复合作，如果对方仍然合作，它就继续背叛。
　　这个程序一开始发展很快，但等到除了针锋相对之外的其它程序开始消失时，它就开始下降了。因此，以合作系数来测量，群体是越来越合作的。
　　进化试验揭示了一个哲理：一个策略的成功应该以对方的成功为基础。针锋相对在两个人对策时，得分不可能超过对方，最多打个平手，但它的总分最高。它赖以生存的基础是很牢固的。因为它让对方得到了高分。
　　哈灵顿程序就不是这样，它得到高分时，对方必然得到低分。它的成功是建立在别人失败的基础上的，而失败者总是要被淘汰的，当失败者被淘汰之后，这个好占别人便宜的成功者也要被淘汰。
　　那么，在一个极端自私者所组成的不合作者的群体中，针锋相对策略能否生存呢？爱克斯罗德发现，在得分矩阵和未来的折现系数一定的情况下，可以算出，只要群体的5％或更多成员是针锋相对策略的，这些合作者就能生存。
　　而且，只要他们的得分超过群体的总平均分，这个合作的群体就会越来越大，最后蔓延到整个群体。反之，无论不合作者在一个合作者占多数的群体中有多大比例，不合作者都是不可能自下而上的。这就说明，社会向合作进化的趋势是不可逆转的，群体的合作性越来越大。
　　在研究中发现，合作的必要条件是：第一、关系要持续，一次性的或有限次的博弈中，对策者是没有合作动机的；第二、对对方的行为要作出回报，否则不会有人跟他长期合作的。
　　那么，提高团队合作性必须要做到以下8点：
　　1．要建立持久的关系，即使是爱情也需要建立婚姻契约以维持双方的合作；
　　2．要增强识别对方行动的能力，如果不清楚对方是合作还是不合作，就没法回报他了；
　　3．要维持声誉，说要报复就一定要做到，人家才知道你是不好欺负的，才不敢不与你合作；
　　4．能够分步完成的对局不要一次完成，以维持长久关系，比如，贸易、谈判都要分步进行，以促使对方采取合作态度；
　　5．不要嫉妒人家的成功，针锋相对策略正是这样的典范；
　　6．不要首先背叛，以免担上罪魁祸首的道德压力；
　　7．不仅对背叛要回报，对合作也要作出回报；
　　8．不要耍小聪明，占人家便宜。
　　爱克斯罗德在《合作的进化》一书结尾提出这么几个结论：
　　1。友谊不是合作的必要条件，即使是敌人，只要满足了关系持续，互相回报的条件，也有可能合作。比如，第一次世界大战期间，德英两军在战壕战中遇上了三个月的雨季，双方在这三个月中达成了默契，互相不攻击对方的粮车给养，到大反攻时再你死我活地打。这个例子说明，友谊不是合作的前提。
　　2。预见性也不是合作的前提，爱克斯罗德举出生物界低等动物、植物之间合作的例子来说明这一点。但是，当有预见性的人类了解了合作的规律之后，合作进化的过程就会加快。这时，预见性是有用的，学习也是有用的。
　　当游戏中考虑到随机干扰，即对策者由于误会而开始互相背叛时，以修正的针锋相对策略，即以一定的概率不报复对方的背叛，和“悔过的针锋相对策略”，即以一定的概率主动停止背叛。群体所有成员处理随机环境的能力越强，悔过的针锋相对策略效果越好，宽大的针锋相对策略效果越差。
　　爱克斯罗德所发现的针锋相对策略，从社会学的角度可以看做是一种利他主义。这种行为的动机是个人私利，但它的结果是双方获利，并通过互惠式利他有可能覆盖了范围最广的社会生活，人们通过送礼及回报，形成了一种社会生活的秩序。
　　这种秩序即使在多年隔绝、语言不通的人群之间也是最易理解的东西。比如，哥伦布登上美洲大陆时，与印第安人最初的交往就开始于互赠礼物。有些看似纯粹的利他行为，比如无偿损赠，也通过某些间接方式，比如社会声誉的获得，得到了回报。
　　但是，爱克斯罗德博弈试验的假设使其研究不可避免地与现实情况相脱节。
　　首先，《合作的进化》一书暗含着一个重要的假定，即个体之间的博弈是完全无差异的。一方面，在现实的博弈中，对策者之间绝对的平等是不可能达到的。另一方面，对策者在实际的实力上有差异，双方互相背叛时，可能不是各得1分，而是强者得5分，弱者得0分，这样，弱者的报复就毫无意义。
　　其次，即使对局双方确实旗鼓相当，但某一方可能怀有赌徒心理，认定自己更强大，采取背叛的策略能占便宜。爱克斯罗德的得分矩阵忽视了这种情形，而这种赌徒心理恰恰在社会上大量引发了零和博弈。

“智猪博弈”的故事

　　博弈论里面有个十分卡通化的博弈模型，叫做“智猪博弈”（Pigs'　payoffs）。
　　整个故事是这样的：笼子里面有两只猪，一只大，一只小。笼子很长，一头有一个踏板，另一头是饲料的出口和食槽。每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。
　　如果定量地来看，踩一下踏板，将有相当于10个单位的猪食流进食槽，但是踩完踏板之后跑到食槽所需要付出的“劳动”，要消耗相当于2个单位的猪食。
　　如果两只猪同时踩踏板，再一起跑到食槽吃，大猪吃到7个单位，小猪吃到3个单位，减去劳动耗费各自2个单位，大猪净得益5个单位，小猪净得益1个单位。
　　如果大猪踩踏板，小猪等着先吃，大猪再赶过去吃，大猪吃到6个单位，去掉踩踏板的劳动耗费2个单位净得4个单位，小猪也吃到4个单位。
　　如果小猪踩踏板，大猪等着先吃，大猪吃到9个单位，小猪吃到1个单位，再减去踩踏板的劳动耗费，小猪是净亏损1个单位。
　　如果大家都等待，结果是谁都吃不到。可以得出结论，唯一解是大猪踩踏板，小猪等待。　　　　　　　　　　　
　　我们把这个博弈用矩阵的形式表达，见上图：
　　1．在矩阵的左上角，大猪踩踏板，小猪也踩踏板，大猪、小猪各得到5个单位食物和1个单位食物；
　　2．在矩阵的左下角，大猪等待，小猪踩踏板，大猪、小猪各得到9个单位食物和…1个单位食物；
　　3．在矩阵的右上角，大猪踩踏板，小猪等待，大猪、小猪都各得到4个单位食物；
　　4．在矩阵的右下角，大猪、小猪等待，大猪、小猪都得不到食物。
　　那么，两只猪各会采取什么策略？令人出乎意料的是，答案居然是：小猪将选择“搭便车”策略，也就是舒舒服服地等在食槽边；而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。　
　　原因何在呢？
　　因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。反观大猪，已明知小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，所以只好亲力亲为了。
　　如果采用定量分析的方法，根据矩阵，“等待”是小猪的优势策略，“踩踏板”是小猪的劣势策略。先把小猪的劣势策略消去，再来看大猪的策略。由于小猪有“等待”这个优势策略，大猪只剩下了两个选择：等待一份不得；踩踏板得到4份。所以“等待”就变成了大猪的劣势策略。把它也删去，就分析出相同的结局：大猪来回在猪槽的两端奔波，小猪则坐享其成。
　　“智猪博弈”的结论似乎是，在一个双方公平、公正、合理和共享竞争环境中，有时占优势的一方最终得到的结果却有悖于他的初始理性。
　　这种情况在现实中比比皆是。
　　比如，在某种新产品刚上市，其性能和功用还不为人所熟识的情况下，如果进行新产品生产的不仅是一家小企业，还有其他生产能力和销售能力更强的企业。那么，小企业完全没有必要作出头鸟，自己去投入大量广告做产品宣传，只要采用跟随战略即可。
　　“智猪博弈”告诉我们，谁先去踩这个踏板，就会造福全体，但多劳却并不一定多得。
　　在现实生活中，很多人都只想付出最小的代价，得到最大的回报，争着做那只坐享其成的小猪。“一个和尚挑水喝，两个和尚抬水喝，三个和尚没水喝”说的正是这样一个道理。这三个和尚都想做“小猪”，却不想付出劳动，不愿承担起“大猪”的义务，最后导致每个人都无法获得利益。
　　在日常的人际关系中，有一些人会成为不劳而获的“小猪”，而又另一些人充当了费力不讨好的“大猪”。
　　有一个笔者亲见的真实故事。某大学公开招聘两名教授，一个是教经济学的，一个是教会计学的。经过层层选拔，最终有两人获得机会，姑且称之为A教授和B教授。
　　接下来就是一个让所有人想不通的选择过程，但这个事情却是现实得不能再现实了。
　　会计学教授的工资是5000元/月，而经济学教授的工资是3500元/月。A、B两教授具有相同的学历背景——

返回目录上一页下一页回到顶部赞（3）踩（5）

第7章

生活中的博弈论-第7章

你可能喜欢的