书城自然科学非读不可的博弈论
3897300000011

第11章 重复博弈

)第一节 博弈故事 买菜与卖菜

下班回家的路上,小王像往常一样去菜场买菜。

在买菜的时候,小王对某种菜的质量、口味等有所疑虑,然后就在心里开始想:“到底是买还是不买呢?买了,要是菜不好,那我不是亏了么?”

就在小王怀疑的这个时候,卖菜的阿姨突然看出了小王心里的疑虑,于是赶忙对小王讲:“你放心,我一直在这儿卖呢!”

小王一听,觉得阿姨说的话很对,他想:“要是我这次买的菜不好,阿姨骗了我的话,那我下次一定不会再来阿姨这家买。如果她的菜质量、口味都没问题的话,那我下次还会来这里买,既然这样,那阿姨何必要骗我呢?”

于是小王在听了阿姨上述的一句话后,打消了自己的疑虑,高高兴兴地买菜回家了。

其实阿姨这句朴实的话中包含了华丽的博弈论思想:我卖与你们买是一个次数无限的博弈,我今天骗了你,你们今后就不会再来我这儿买了,所以我不会骗你的,菜的质量、口味肯定没问题。

这个简单的日常生活故事中,其实包含了一种非常智慧的博弈—重复博弈。

)第二节 博弈解析 多个阶段的博弈

重复博弈的定义如下:

所谓重复博弈,是指将一个博弈重复进行下去,其中每一次博弈都被称为“阶段博弈”。

我们知道,在单个的囚徒困境博弈中,双方采取对抗的策略可使个人收益最大化。假设甲乙二人进行博弈,甲乙均采取合作态度,双方的收益均为50元;甲合作乙对抗,则甲的收益为0元,乙的收益为100元;乙合作甲对抗,则甲的收益为100元,乙的收益为0元;甲乙二人均对抗,则双方收益均为10元。由此我们可以看到,如果双方都合作,每个人都将得到50元,而如果双方都对抗,则各自只能得到10元。那么人们为什么还会选择对抗而不是合作呢?原因就在于这是一个一次性博弈的囚徒困境—既然无论对方选择什么,选择对抗总是我的最优策略,那么作为一个“理性经济人”,参与者自然就会选择对抗了。

的确,如果就一次性博弈来看,(对抗,对抗)是必然的结果。但是,如果甲、乙具有长期关系(比如他们是生意上的长期合作者),那么情况则有所改观。因为我们可以作如下推理:如果双方一直对抗,那么大家每次都只能获得10元的收益;而如果合作,则每次都可得到50元。最重要的是,假定甲选择合作而乙选择对抗,那么乙虽然在这一次可以多得到50元(100-50=50),但从此甲不再与他合作,乙就将损失以后所有的得到50元的机会。因此从长远利益来看,选择对抗对双方而言并不聪明,合作反而是二人最好的选择。

重复博弈

)第三节 博弈活用 目光长远,遵守规则

学会灵活选择

在重复博弈中,因为知道博弈会一次又一次地进行,所以参与者在博弈当中都会进行充分合理的考虑,不会轻举妄动。但是,如果遇到了重复博弈当中的最后一次,那么这最后一场的博弈其实就转变成了“一次性博弈”,人们往往会结束在以往博弈中“欺骗式”的互相合作,而采取果断的对抗。

在生活中,我们要学会判断面临的情况,要学会面对不同的博弈情况作出不同的选择,一条路走到底的方法不再是一种最佳策略。

《鹿鼎记》中韦小宝被太监海大富抓进皇宫之中,却伺机毒瞎了海大富,并杀死了海大富身边的小太监小桂子,从此在宫中冒充小桂子。在顺治帝出家前,海大富受命留在宫中调查杀死端敬皇后的凶手,他自始就从口音中辨出此小桂子非彼小桂子,却一直没有说破,不动声色地查探这个“小桂子”的幕后指使是谁,后来却意外地从韦小宝身上得知原来杀死端敬皇后的凶手竟然是现在的皇太后。此时韦小宝已无利用价值,于是海大富最终向韦小宝摊牌。而此时韦小宝才得知原来海大富早已知道他其实不是小桂子,但此时也只能在肚中暗骂海大富“死老乌龟,臭老乌龟!”了。(事见《鹿鼎记》第六回)

书中还记载过康熙向韦小宝“摊牌”的情节:康熙早已知道韦小宝是反清组织天地会的香主,却一直隐忍不发。直到韦小宝把天地会众兄弟聚集在自己的伯爵府,康熙决定将其一网打尽之时,才对韦小宝亮出底牌:“天父地母,反清复明!韦香主,你好大的胆子哪!”(事见《鹿鼎记》第四十三回)康熙的这张底牌一亮,就意味着胜负已分,他与韦小宝的这一回合的“斗心眼儿”也宣告结束。

但是假如海大富没有查出皇太后会“化骨绵掌”且是杀死端敬皇后的凶手,或者假如康熙没有机会把天地会一网打尽,那么他们势必还会把糊涂装到底。装到什么时候是终点呢?恐怕没有人知道。也就是说,只要海大富一天没有查出杀害端敬皇后的凶手,或者康熙一直没有机会把天地会一网打尽,他们就将装作不知韦小宝真实身份的样子,一直与韦小宝“玩儿”下去。

如果我们把韦小宝与海大富及康熙的“斗心眼儿”视为一场博弈,那么书中所写的最后“摊牌”的情形则被称为“有最后一次重复的博弈”,而我们假设的“一直玩下去”的情形则被视为“无限重复的博弈”。所谓有限重复博弈,是指重复次数是有限的,且有确定终点的博弈。而无限重复博弈,则是指重复次数是无限的,或者对双方而言不知道哪一次是尽头的博弈。

通过前面的分析我们知道,在一次性博弈中,“对抗”对双方而言是最优策略;在重复博弈中,“合作”对双方而言是最优策略。而在有限重复博弈中,由于最后一次博弈是确定会出现的,这个“最后一次博弈”可以被视为一个“一次性博弈”,也就是说,在双方的最后一次博弈中,“对抗”是最优策略。因为人们在重复博弈中之所以选择合作,主要是考虑到日后还要进行博弈,而在最后一次博弈中则没有以后,因此显然不必考虑后面的行动。所以在现实生活中,我们要分析不同的博弈情况,作出灵活的选择,找到最佳决策。

交互的利益

重复博弈研究的是人与人之间的合作关系。在重复博弈的过程当中,参与者之间渐渐变得熟悉,也更利于参与者对整个博弈策略的分析。

对于整个人类社会而言,构建一个“熟人社会”,是促进人与人之间合作的一种有效策略,但这并不意味着只需构建一个“熟人社会”便万事皆休,人与人之间便不会有背叛发生。

人生的复杂决定了我们在重复博弈的情况下还需采取其他的策略来保证合作,“一报还一报”策略就是其中一种,为了理解该策略,我们可以先看一个小故事。

某天深夜一教授正在熟睡之际,电话铃突然响了起来。他睡眼惺忪地拿起电话,听筒里传来女邻居怒气冲冲的声音:“麻烦你管一下你的狗,不要再让它叫了。”说完,电话就挂了。这位教授十分生气。第二天他定好闹钟,半夜两点钟准时起床,拿起电话拨通了这位女邻居家。过了半天,对方才拿起听筒,带着睡意恼怒地问:“哪一位?”这位教授彬彬有礼地告诉她:“夫人,昨天我忘记告诉你了,我们家没有养狗。”

从上面这个小笑话当中,我们可以发现在没有法规和道德的约束,也没有其他力量从外部对双方进行强制时,对自己最有利的一种策略就是一报还一报。

“一报还一报”策略的提出,应归功于美国密歇根大学的学者罗伯特·爱克斯罗德,他通过研究发现,在与他人发生的重复博弈中,要想他人与自己合作,必须做到以下几个方面:

1.善良

是指在与他人第一次接触时总是向对方表达善意。要坚持永远不首先背叛对方,开始总是选择合作,而不是一开始就选择背叛或主动作弊。

2.可激怒

是指当对方出现背叛行动时,要能够及时识别,并一定要采取背叛的行动来报复,不让背叛者逍遥法外。

3.宽容

是指不要因为别人一次背叛,自己长时间怀恨在心或者没完没了地报复,而是在对方改过自新、重新回到合作轨道时,能既往不咎地恢复合作。

4.简单

是指做事风格要简单、易于识别,能让对方在较短时间内辨识出来其策略所在。

5.不妒忌

是指不要耍小聪明,不占对方便宜,不在任何双边关系中争强好胜。

这五个方面结合起来,就是“一报还一报”策略,其实,友善、有原则、宽容、简单、不妒忌朋友的成功,这些信条本来就是我们生活中应有的为人处世之道。只是很少有人会用博弈论模型的科学结论作指导,将这些信条连接起来,作为一种策略组合来行事。

这一策略可以用来指导我们在重复博弈中作出最佳选择,比如怎样在与恋人的重复博弈中获得幸福的爱情。

世界上的每对恋人都要承受未来不确定性的折磨:如果双方都不变心,那是最好的结局—在天成为比翼鸟,在地成为连理枝;如果都变了心,效果也不坏—你走你的阳关道,我过我的独木桥;如果一方变了心,另外找到了更好的情侣,另一方却还傻乎乎地忠贞不贰,那么,另觅新欢的一方是最幸福的,比两人都不变心的结果还幸福,因为他找到了更好的情人,而被抛弃的一方是最不幸的,比两人都变心的结果更为不幸,因为他承担的压力既来自于自己的太不幸福,也来自于对方的太幸福。那么有没有一种方法能够消除这种不确定性的折磨,让两人都对彼此忠贞不贰,从而换来一个好的结果呢?

人在恋爱的时候都爱发誓,他们希望通过“非你不嫁”、“非你不娶”之类的誓言让对方相信自己此情不渝,但事实上,一对恋人相互间的忠诚,靠的不是这种情深爱笃的誓言,而是需要一定的博弈策略。在恋爱这场不太好玩的“游戏”中,谁能熟练地驾驭博弈规则,谁就是爱情的赢家。

很明显,胜利将总是属于那些采取善意、强硬、宽容和简单明了的一报还一报策略的恋人们。反之,恶意的、软弱的、尖刻的、复杂的恋人们往往会两败俱伤。所以,对于正在恋爱中的人们来说,获得幸福爱情的博弈原则应该是:

1.善意而不是恶意地对待恋人。

2.强硬有原则而不是软弱无原则地对待恋人。就是要在我永远爱你的前提下,做到有爱必报,有恨也必报;以眼还眼,以牙还牙;以其人之道,还治其人之身。比如对恋人与其他异性的亲热行为,要有极其强烈的敏感与斩钉截铁的回报。当然,每次发脾气都是有限度的,而且还要在对方知错的情况下宽容他。

3.宽容而不是尖刻地对待恋人。幸福的恋人可能并不是忠贞不贰的,当然也肯定不是见异思迁的,他们能够生活得愉快,关键是能够彼此宽容,既宽容对方的缺点,甚至也宽容对方偶尔的不忠贞。

4.简单明了而不是山环水绕地对待恋人。爱克斯罗德的实验证明,在博弈过程中,过分复杂的策略使得对手难于理解、无所适从,因而难以建立稳定的合作关系。事实上,在一个重复博弈的环境里,“城府深沉”、“兵不厌诈”、“揣着明白装糊涂”,往往并非上策。相反,明晰的个性、简练的作风和坦诚的态度倒是制胜的要诀。要让恋人明白你说的是什么,切忌让对方猜来猜去的,造成误会。至于剩下的时间嘛,还是有更多更快乐的事情可以做!

本来应该提防恋人背叛才能在恋爱中获胜的博弈,因为有了不绝于耳的爱情誓言,更因为有了对善意的、宽容的、强硬的、简单明了的一报还一报策略的把握和利用,人世间才有了很多地老天荒的爱情和白首偕老的婚姻。

可以看出,一报还一报策略可以促进行为人之间的合作,从而形成基于个体理性(利己动机)的集体理性结局(正的外部性或者利他行为),形成社会的道德共识。简单说就是:你对我好,我就对你好;你对我不好,我也对你不好。我对你好,是为了你能继续对我好;我对你不好,不是睚眦必报地互相损害,而是要将你重新拉回到合作的轨道。所以,一报还一报的交互策略最终能够带来伟大的合作。

聪明的技巧

前面我们一直探讨的是如何利用重复博弈来减少人与人之间的欺骗,促进合作。但是在现实生活当中,人们信守诺言无非是为了减少交易成本或下次打交道时能获得更大的预期收益。如果背离了重复博弈的这个因素,盲目讲究诚信是不可取的。

北宋年间,朝廷遣能征惯战的将军狄青领兵南征。当时朝廷中主和派、妥协派势力颇强,狄青所部亦有些将领怯战,有的甚至散播谣言,说什么“梦见神人指示,宋兵南征必败”。军中不少有迷信思想的官兵尽皆惶然,笃信此次南征“凶多吉少,难操胜券”,一时军心涣散。狄青一再训斥说:“我军乃正义之师,战必胜,攻必克。”无奈官兵迷信思想极重,收效甚微。

对此,狄青和几员心腹大将苦无良策。大军途经桂林,恰逢大雨滂沱,一连数天,乌云蔽日,无法行军。此时军中谣言更甚,都说出师不利,天降凶雨,旨在回师……

这天黄昏,狄青带领几员偏将冒雨巡视,路经一座古庙,见冒雨进香占卜者不少,便进庙询问。庙中和尚说,都说这座庙神佛灵验,有求必应,所以终年拜佛占卜者络绎不绝。

狄青听罢,心中顿生妙计。次日清晨,他全身披挂,领将士入庙拜佛,虔诚地供香跪拜后,便对将士们说:“本帅当众占卜一卦,欲知南征凶吉。”说毕,他请庙祝捧出百枚铜钱,说明一面涂红,一面涂黑,然后当众合掌祈祷:“狄青此次出兵南征,如能大获全胜,百枚铜钱当红面向上!”只见他将铜钱一掷,落地有声,果然全都是红色。将士们惊异万分,兴高采烈,奔走相告,一时士气大振。

狄青当即下令不准再动铜钱,以免冒犯神灵,同时令心腹将士取来百枚长钉,把铜钱牢钉在地,然后对全军说道:“此战必胜,这是上天助我!等到班师之日,再来感谢神灵取钱吧!”第二天雨过天晴,宋军士气高昂,直压边境。两军对阵,宋军将士无不奋勇当先,所向披靡,直把安南入侵者杀得丢盔弃甲,溃不成军,乖乖地立下降书,自称永不敢再犯大宋边境。

宋军班师回朝,狄青高兴地带领一班将校到古庙谢神还愿,拔钉取钱时,一位偏将忽然惊呼:“奇怪,奇怪!这百枚铜钱怎么两面都是红色?!”

狄青哈哈大笑道:“此战绝非神灵保佑,其实是本将军借神佛之灵,鼓舞士气罢了!”此时大家才恍然大悟,原来狄将军私下和几位心腹将士暗将铜钱两面都涂成红色,故弄玄虚,利用将士们的迷信心理,化厌战情绪为勇战情绪,一鼓作气战胜敌军。

欺骗,连3岁小孩子都知道这是一个坏习惯,可是,在背离重复博弈的减少交易成本、获得更大的预期收益的因素的情况下,盲目恪守诚信反而会吃大亏。因此,在背离重复博弈的情况下,我们应当放弃对“绝对诚实”的固执,用适当的“欺骗”去获取成功。故事中狄青能带领部将战胜敌军,靠的也就是适当欺骗策略。

也许会有人说:欺骗是一种不道德的行为,只有诚实的人才是道德的。事实果真如此吗?关于道德与欺骗的辩证关系,古希腊大哲学家苏格拉底曾有过精彩的论述:

一天,苏格拉底像往常一样,赤脚敞衫,来到市场上。突然,他一把拉住一个过路人问道:“我有一个问题不明白,向您请教。人人都说做一个有道德的人,但究竟什么是道德?”

“忠诚老实,不欺骗人,这就是公认的道德。”那人回答道。

苏格拉底问:“您说道德是不能欺骗人的,但在和敌人交战的时候,我军将士千方百计地去欺骗敌人,这能说不道德吗?”

那人答:“欺骗敌人是符合道德的,但欺骗自己人就不道德了。”

苏格拉底问:“那如果和敌人作战时,我军被包围了,处境险恶,为了鼓舞士气,将领欺骗士兵说:‘我们的援军就要到了,大家奋力突围。’结果成功了。这种欺骗能说不道德吗?”

那人答:“那是出于无奈,我们在日常生活中就不能这样。”

苏格拉底又问:“我们常常会遇到这样的问题:儿子生病了,又不肯吃药,父亲骗儿子说:‘这不是药,是一种十分好吃的东西。’难道这也是不道德吗?”

那人只好承认:“这种善意的欺骗行为是道德的。”

苏格拉底于是问:“不骗人是道德的,骗人也可以是道德的。也就是说,道德不能用骗不骗人来说明。究竟用什么来说明呢?你告诉我吧!”

那人只好说:“不知道道德就不能做到道德,知道了道德就是道德。”

苏格拉底高兴地说:“您真是一位伟大的哲学家,您告诉了我道德就是关于道德的知识,使我解决了一个长期以来的困惑,我衷心地谢谢您。”

这里我们也明白了另外一个道理:欺骗作为一种策略,本来就与道德无关。

当然,我们这里所说的欺骗是以背离重复博弈为原则的,可是视为一种聪明的技巧。如果没有背离重复博弈,我们还是应该讲究诚信,以求减少交易成本和获取更大的预期收益。

道德规则的力量

我们知道,博弈论的基本假定就是“人是绝对理性的”。既然“绝对理性”,则可以不考虑道德力量的因素。那么能够因此断定道德在重复博弈中无所作为吗?答案是否定的。

在现实生活中,我们需要借助道德规则的力量来保证一个合理公平并且健康的社会。

我们先来看一下广为人知的例子,故事出自于2007年的电影大片《投名状》。

什么是投名状?《水浒传》有云:凡好汉们入伙,须要纳投名状。其意思是指一个人在进入黑道绿林时必须签订一份生死契约,或者杀一个人,将头献纳:一来以表忠诚;二来互相掌握对方的犯罪证据,便不用害怕背叛;三来也是这种黑帮一种共同犯罪体的默认契约。这个便谓之“投名状”。有了“投名状”方可落草为寇。投名状是绿林英雄的生死盟约。

大哥庞青云、二哥赵二虎、三弟姜午阳,三个兄弟情投意合,在“外人乱我兄弟者,视投名状,必杀之;兄弟乱我兄弟者,视投名状,必杀之”的生死盟誓中签定了“投名状”。

庞青云名为和众兄弟共创前程、解脱苦难,实则想借助众兄弟的鲜血青云直上,成就大业;甚至不顾及兄弟情义,私下与赵二虎的妻子幽会,而被三弟姜午阳发现。单纯耿直的姜午阳认为只要杀死二嫂就能救二哥,在“外人乱我兄弟者,必杀之”的誓言中杀死了二嫂;而在发现二哥最终被害后与庞青云愤怒拼杀,最终眼睁睁的看着大哥被朝廷鹰犬的阴枪杀害,在“兄弟乱我兄弟者必杀”的狂乱颠语中自刎身亡。

为什么出身草莽的赵二虎、姜午阳会自始至终恪守兄弟间的“投名状”?而这“投名状”说穿了只不过是白纸一张,没有任何法律约束力。因为这是江湖中人的一种“道德”,也是一种江湖信仰。谁背信弃义,谁就将无法在江湖之中立足。影片中的庞青云之所以敢于打破“投名状”,是因为他已决定脱离江湖步入庙堂,从此不再受江湖规则的约束;而姜午阳虽然明知不是庞青云的对手,也要向庞青云寻仇,则是因为他所信奉的江湖规则在他心中形成了一种道德规律,这种“道德规律”使他自觉地维护规则,并对敢于打破规则的人予以惩罚。

这个故事告诉我们,在现实生活中,的确存在一些可以化解囚徒困境的道德因素,从而在一定程度上维系着某个集团甚至是整个社会的和谐与稳定。我们经常提到的“企业文化”,其实恰恰是道德力量在长期博弈中发挥作用的典范。下面我们再来看看另一个故事。

科学家把六只猴子关在一个猪圈里,并在显要的位置放了一串香蕉。猴子看见了香蕉,理所应当地要去吃。可就在猴子快要拿到香蕉的时候,科学家立刻用高压水枪冲它,迫使它后退。第二只、第三四五六只猴子快要拿到香蕉时,遇到了同样的情形。几个回合下来,再也没有猴子敢接近香蕉了。

这时,科学家放走了一只猴子,又放进来一只新猴子。新猴子没吃过水枪的苦头,看见了香蕉,很自然地去拿。令人吃惊的事情发生了:另外五只猴子一起跳过去,对这只新猴子一顿暴打,阻止它去拿香蕉。可怜的新猴子不明所以地就被痛扁一顿,却也不敢再去碰那个香蕉了。

科学家继续试验,从最先的五只猴子中放出一只,再放一只新猴子进来。相同的情况出现了,新猴子去拿香蕉,其他五只猴子又是对它一顿暴打。所以,这只新换进的猴子也不碰香蕉了。

科学家又拿出去一只老猴子,放进一只新的……

最后试验的结果是:猪圈里的六只猴子都不再是原先的六只,也没有被水枪击过,但是都不吃香蕉了。

故事中,之所以没有猴子再企图去碰香蕉,是因为在所有的猴子中产生了一种默契或者说是一个潜规则:香蕉是不能碰的,谁碰香蕉谁就会挨揍。

这是一个被视为阐释企业文化作用的经典故事,它乍一看很有意思,但在现实的工作当中,确实有这样的故事在上演着。

A君新到一家公司,从入门的第一天起就下定决心好好干。进门的第一天,九点过后,同事们陆陆续续进来,一般的是迟到十几分钟,有的迟到近半个小时。中午吃饭一小时,一点二十分才有同事陆续从外面吃饭归来。以电话行销为主的部门几乎听不到打电话的声音,每个人都坐在电脑前,MSN、QQ聊得兴致正浓;还有的看股票的走势图、网络小说。进公司第四天的下班后,好心的同事把公司的历史、来龙去脉、人际关系等细枝末节给描绘了一番,令这位本来准备好好干的朋友“一下子掉到了井底”,新人冲天的干劲消失了大半,只好随大流混吧。就这样,一个踌躇满志的职场新人在“不上进”的工作环境中很快退化成了一个得过且过的职场“混子”。

我们再来做相反的假设:这家公司人人上进,不上进者成了人人喊打的“异类”,无法在这家公司立足,那么会出现什么样的情况呢?可以预见的结果就是:要么这个不上进者被淘汰掉,要么他也与其他同事一样上进。

这就是“道德”的约束力量。“道德”一旦形成规则,它即有了约束力,同时会对“不合作者”给予惩罚。只要社会形成了被普遍认可的道德观念,人们自然会对不道德的行为进行谴责或给予惩罚,这样,社会上不道德的行为就会受到有效的遏制。所谓“国有国法,家有家规”,在这里,国法与家规说到底其实都是一种道德。本来法律就是最低的道德底线,越过了这道底线,就会受到相应的惩罚。因此我们说,道德与法律一样有助于人们打破相互背叛、相互不合作的重复博弈困境。