第15章警察与小偷博弈：没有纯策略均衡下的混合策略

(第一节警察抓小偷的故事

在我们儿时玩的“剪刀、石头、布”的游戏中，每个小孩选择出剪刀、布还是石头应该是随机的，不能让对方知道自己的策略，甚至是策略的倾向性。因为在这种警察与小偷的博弈中，并没有一种纯策略均衡，只有混合策略均衡，而混合策略是参与者在各种备选策略中采取随机方式选取的。

在西部片里，我们常能看到这样的故事：

某个村庄只有一名警察，他要负责整个村的治安。村子的两头住着全村最富有的村民A和B，A和B需要保护的财产分别为2万元、1万元。某一天村子来了个小偷，要在村中偷盗A和B的财产，这个消息被警察得知了。

因为分身乏术，警察一次只能在一个地方巡逻；而小偷也只能偷盗其中一家。若警察在A家看守财产，而小偷也选择了去A家，小偷就会被警察抓住；若小偷去了警察没有看守财产的B家，则小偷偷盗成功。

一种最容易被警察采用而且也更为常见的做法是，警察选择看守富户A家，因为A有2万元的财产，而B只有1万元的财产。

这种做法是警察的最好策略吗？答案是否定的，因为我们完全可以通过博弈论的知识，对这种策略加以改进。

实际上，警察的一个最好的策略是抽签决定去A家还是B家。因为A家的财产是B家的2倍，小偷光顾A家的概率自然要高于B家，不妨用两个签代表A家，抽到1号签或2号签去A家，抽到3号签去B家。这样警察有2/3的机会去A家做看守，1/3的机会去B家做看守。

而小偷的最优选择是：以同样抽签的办法决定去A家还是去B家实施偷盗，即抽到1号签或2号签去A家，抽到3号签去B家。那么，小偷有2/3的机会去A家，1/3的机会去B家。这些数值可以通过联立方程准确计算出。

此时警察和小偷所采取的便是混合策略。所谓混合策略，是指参与者采取的不是唯一的策略，而是其策略空间上的概率分布。最常见的混合策略就是猜硬币游戏。比如足球比赛开场时，裁判将手中的硬币抛掷到空中，让双方队长猜硬币落下时朝上的一面是正面还是反面。由于硬币落下是正是反是随机的，概率都是1/2，因此猜硬币游戏的参与者选择正和反的概率都是1/2，这时博弈达到混合策略纳什均衡。

再比如我们儿时玩的“剪刀、布、石头”游戏，对每个小孩来说，自己采取出“剪刀”“布”“石头”的策略应当是随机的，不能让对方知道自己的策略，甚至是策略的倾向性。一旦对方知道你出其中某个策略的可能性增大，你在游戏中输的可能性就增大。因此，每个小孩的最优混合策略是采取每个策略的可能性是l/3。在这样的博弈中，每个小孩各取三个策略的1/3是纳什均衡。

明显可以看出，这类博弈与我们之前谈到的囚徒困境博弈有一个很大的差别，就是没有纯策略均衡，只有混合策略均衡。所谓纯策略，是参与者一次性选取的，并且坚持他选取的策略。而混合策略是参与者在各种备选策略中采取随机方式选取的。

当每个博弈参与者都有优势策略时，纯策略均衡是非常合乎逻辑的。你有一个优势策略，你可以采用；假如你有一个劣势策略，你应该避免采用。同样，你的对手也会采取这样的措施。但是通过上面警察抓小偷博弈我们看到，并非所有的博弈都有这样的优势策略，哪怕这个博弈只有两个参与者。在博弈中，参与者可以改变他的策略，而使得他的策略选取满足一定的概率。当博弈是零和博弈时，即一方所得是另外一方的所失时，只能采取混合策略加以均衡。对于任何一方来说，此时不可能有纯策略的占优策略。

这就是纳什于1950年证明了的纳什定理。而零和博弈中没有纯策略纳什均衡点，而只有混合策略均衡点，混合策略均衡点下的策略选择是每个参与者的混合策略选择。

博弈大智慧

当每个博弈参与者都有优势策略时，纯策略均衡是非常合乎逻辑的。你有一个优势策略，你可以采用；假如你有一个劣势策略，你应该避免采用。

(第二节谁来打电话

通常情况下，遭遇“警察与小偷”博弈时，双方采取混合策略的目的是为了战胜对方，是一种对立者之间的斗智斗勇。但实际上，你与别人合作的时候，也会发生混合性策略博弈。

如果甲正在和乙通话，突然电话断了，而话还没说完。这时每个人都有两个选择，马上打给对方，或等待对方打来。注意：如果甲打过去，乙就应该等在电话旁，好把自家电话的线路空出来，如果乙也在打给甲，双方都只能听到忙音；假如甲等待对方打电话，而乙也在等待，他们的聊天就没有机会继续下去了。

一方的最佳策略取决于另一方会采取什么行动。这里又有两个均衡：一个是甲打电话，而乙等在一边；另一个则是乙打电话，而甲等在一边。

博弈论中有一个结论：纳什均衡点如果有两个或两个以上，则结果难以预料。对于这个出现了两个纳什均衡点的打电话博弈，我们该如何从博弈论中求解呢？

事实上，博弈论在这个打电话问题上的解决办法看起来很笨，即用投硬币的方式来决定自己是不是应该给对方打电话。根据前面给出的条件，两人这种随机行动的组合成为第三个均衡：如甲打算给乙打电话，有一半机会可以打通（因为这时乙恰巧在等甲打电话），还有一半机会发现电话占线；假如甲等乙打来电话，那么，同样会有一半机会接到电话，因为乙有一半机会主动给甲打电话。

由于双方主动拨打电话的可能性为50%，所以平均来说要尝试两次才能成功接通。当然，这个“笨办法”并不是博弈论的错，而是就策略而言只好如此。

博弈论对这种混合策略的传统解释是，局中人应用一种随机方法来决定所选择的策略。这种解释在理论与实践中均不能令人满意。约翰·查里斯·哈萨尼对此提出了更确切的解释方法。

哈萨尼认为，在现实博弈中，每一种博弈的形势都受到一些微小的随机波动因素的影响。在标准的博弈模型中，这些影响表现为微小的、独立连续随机变量，每个局中人的每一个策略均对应一个随机变量。这些随机变量的具体数值仅为相关局中人所知，这种知识即成为私有信息；而联合分布的则是博弈者的共有信息。哈萨尼把这称为“变动收益博弈”。

在变动收益博弈中，各随机变量的数值影响着每一个博弈者的收益。在适当的技术条件下，变动收益博弈所形成的纯策略组合与对应无随机影响的标准博弈的混合策略组合恰好一致。实验证明，当随机变量趋于零时，变动收益博弈的纯策略均衡点转化为对应无随机影响的标准型博弈的混合策略均衡点。

变动收益博弈理论对混合策略均衡点提供了具有说服力的解释：局中人只是表面上以混合策略进行博弈，但实际上仍是在各种略微不同的博弈情形中以纯策略进行博弈。

所以，在生活中遇到这类问题时，我们只能按照惯例或者随机应变。一种解决方案是，原来打电话的一方再次负责打电话，而原来接电话的一方则继续等待电话铃响。这么做有个显而易见的理由：原来打电话的一方知道另一方的电话号码，反过来却未必是这样。另一种可能性是，一方可以免费打电话，而另一方不可以（比如你是在办公室，而他用的是住宅电话）。

通常情况下还有另一种解决方案，即由较热切的一方主动再打电话，如一个“煲电话粥”成瘾的家庭主妇对谈话的热情很高，而她的同伴就未必如此，这种情况下通常是前者再打过去。再如恋爱中的男女遇到这种情况，通常也是由主动追求者再打电话。

由此看来，基于变动收益博弈理论，在生活中遭遇由谁来打电话这类无法用理性得出最佳策略的问题时，按照惯例或随机应变不失为比较稳妥的选择。

博弈大智慧

基于变动收益博弈理论，在生活中遭遇由谁来打电话这类无法用理性得出最佳策略的问题时，按照惯例或随机应变不失为比较稳妥的选择。

(第三节随机策略不是章法，胜似章法

天宝十四年底（755年），安禄山假托承旨征讨杨国忠，起兵15万造反，派遣叛将令狐潮率重兵包围了雍丘（今河南杞县）。为了保卫雍丘，守将张巡留1000人守城，自己带领1000精兵，打开城门冲出。张巡身先士卒，冲进敌阵猛砍，而兵士也个个奋勇。叛军做梦也没想到张巡敢冲出城，被杀得措手不及、人仰马翻。

为了尽早攻下雍丘，令狐潮于第二天指挥士兵架起云梯攻城。张巡率领士兵把用油浸过的草捆点着后抛下城去，登城的叛军被烧得焦头烂额，非死即伤。此后的60多天里，只要一有机会，张巡就突然率兵出城攻击，打得叛军不知如何应对。

在与叛军作战的过程中，张巡用计夺取了叛军的大量粮食和盐，但粮盐虽足，城中箭矢却已消耗得差不多了。于是张巡让兵士扎了许多草人，给它们穿上黑衣。一天晚上夜色朦胧，张巡命令兵士用绳子把草人陆陆续续地缒下城去。城外叛军见这么多人缒城而下，纷纷射箭，一时间箭如飞蝗。射了半天，叛军发觉不对劲，因为他们始终没听到一声喊叫声，而且又发现一批刚拉上城去，另一批又缒下来。派人前去探查以后，他们方知所射的都是草人。在叛军大呼上当之时，张巡已收获1万多支箭矢。

为了储备足够的箭矢，第二天深夜，张巡又把外罩黑衣的草人从城上放下去。叛军发现后，又乱射了一阵，结果发现又是草人。以后每天夜里，张巡都是如此，城外叛军渐渐知道是计，也不再拿箭去射。于是，张巡决定发起总攻。

一日，张巡把500名勇士趁夜色缒下城去，勇士们奋勇突进敌营。叛军一点儿准备也没有，立刻大乱。接着，叛军的营房四处起火，混乱中也不知死了多少士兵。最后，张巡率军直追杀出10余里，大获全胜。

上面这个故事中，叛军刚开始发现用箭射的都是草人，以后当城墙上缒下东西，仍用箭去射是对的，但后来上当的次数多了，他们就乐观地以为再次缒下来的东西肯定还是草人，结果张巡就缒下真人将他们杀得落花流水。故事中张巡采用的这种方法就是警察捉小偷博弈中的随机策略。

在与对手博弈时，随机策略看似不是章法，但却胜似章法。因为在博弈中，大家都是理性的人，一方采取某种策略，另一方都会进行理性推测，进而作出相应的回应。此时，如果采取随机策略，让他摸不清你的行动规律，便可巧妙战胜对手。

采取随机策略的关键就是要让你的策略具有不可预测性。《吕氏春秋·淫辞》中记载了这样一个故事：

战国时期，宋康王异常暴虐。凡群臣中有来劝谏的，都被他找理由撤职或者关押起来。臣下也因此对他更加反感，经常非议他。宋康王十分苦恼地对宰相唐鞅说：“我处罚的人已经不少了，为什么他们还是不畏惧我呢？”唐鞅于是献计说：“您所处罚的都是一些犯了法的人。惩罚他们，没有犯法的好人当然不会害怕。如果您要让您的臣子们害怕，就必须不区分好人坏人，也不管他犯法还是没有犯法，随便抓住就治罪。这样的话，大臣们就知道害怕了。”

唐鞅的建议虽然缺德，但却不能不说是把握了随机策略的精髓——不可预测性。能够预测的惩罚，大臣总会想方设法地加以规避，而无法预测的惩罚，却是防不胜防的，因而也是更令人心惊胆战的。要记住，实施不是章法、胜似章法的随机策略，诀窍就在于不可预测性。

博弈大智慧

在博弈中，大家都是理性的人，一方采取某种策略，另一方都会进行理性推测，进而作出相应的回应。此时，如果采取随机策略，让他摸不清你的行动规律，便可巧妙战胜对手。

第15章 警察与小偷博弈：没有纯策略均衡下的混合策略

第15章警察与小偷博弈：没有纯策略均衡下的混合策略