书城经济信号与噪声
5081500000011

第11章 棒球比赛预测:球探和数据怪才,谁更胜一筹?(1)

刚从纽约回来的红袜队士气非常低落,连输3场对阵劲敌洋基队的周末赛,使得红袜队与2009年美国棒球联盟东区冠军彻底无缘了。常规赛只剩7场了,红袜队似乎就要成为美国棒球大联盟季后赛的外卡队,而这样的季后赛绝不是主办方所期待的。有统计研究表明,球队常规赛的表现并不影响其季后赛的发挥,但2009年红袜队似乎已经放弃希望了。

在芬威球场,我准备采访红袜队的明星二垒手达斯汀·佩德罗亚。佩德罗亚是2006年以来我最喜爱的球员之一,2006年我为年刊《棒球规程》创建的预测系统PECOTA也预测他将成为最佳棒球运动员之一。但这一预测结果却与球探的观点截然相反,他们认为佩德罗亚天资不足,身高欠缺,挥棒姿势怪异,只能当个替补球员。然而,在2006年最具发展前景的棒球运动员名单中, PECOTA预测系统却将佩德罗亚排在第4位,而向来注重球探观点的出版物《美国棒球》则将他排在第77位。其实,关于佩德罗亚的报道中,这种褒少贬多的说法屡见不鲜。娱乐与体育节目电视网的基斯·劳早在佩德罗亚的新秀赛时就说过他没什么发展前途了。

“达斯汀·佩德罗亚毫无实力可言,击球欠缺速度和力量,在顶级联赛中,也不能连续击投球。如果他的击球率能达到0.260,还是有些价值的。但他总是连滚带爬地跑到三垒或游击手那里,如果能改掉这个缺点,成为一名内场替补球员还是有希望的。”

2007年5月12日,基斯·劳发表了上述评论。那天,佩德罗亚的击球率只有0.247,只完成了一次本垒打。说真的,当时我对他也开始失去信心了,我看了他大部分“安打”的比赛,佩德罗亚表现出一脸败相。

但是,佩德罗亚仿佛想证明那些怀疑他的人是错的,他开始发狠地击球,期盼迎来逆转。接下来的15场比赛中,他的击球率达到惊人的0.472,使他的平均击球率从4月低谷时的0.158一路升至0.336。

2007年7月,也就是基斯·劳做出那番评论的两个月之后,佩德罗亚入选美国联盟全明星队。10月,他帮助红袜队赢得有史以来第二个世界职业棒球大赛冠军(上一次是在1918年)。11月,他被评为“年度最佳新秀”。在随后的一个赛季,24岁的佩德罗亚获选“最有价值球员”,一举成为美国棒球联盟中表现最全面的球员。佩德罗亚告别内场替补,成为今日巨星,而那些球探当日却严重地低估了这位棒球天才。

之所以到芬威球场来,是因为我想了解究竟是什么让佩德罗亚实现了逆转。我准备了一堆问题,也获得了红袜队的采访许可,可以进行场地采访。但我知道这并非易事,因为联盟球场是球员心中的圣地,在此地采访并不适合,且红袜队又刚输了周末赛,队内气氛乖戾紧张。

我在那里看着佩德罗亚进行场内练习,他接住大块头三垒手凯文·尤基里斯的投球,转投给新的一垒手凯西·柯奇曼。他显得与众不同,动作认真到位,而尤基里斯则略显笨拙,柯奇曼似乎还在走神。佩德罗亚与队友的主要不同之处在于态度,队友走神时,佩德罗亚会愤怒地将球摔出场地,恼怒地看着他们。

15分钟训练过后,红袜队出发到当晚的对手多伦多蓝鸟队的主场。我站在离红袜队的休息棚一两米远的一垒位置旁边,佩德罗亚从我身边走过,正如那些球探所说,他的确不算高,按照官方公布的数据,他身高为1.75米(5英尺9英寸),相当于把我的身高四舍五入之后的高度,但我好歹还比他高出两英寸。球探们说他不像一个运动员也没错,刚刚25岁就秃顶,头顶的头发和下巴上的胡须一样多,腰间赘肉堆积,还有小肚腩。如果你在街上遇见他,很可能会把他当作音像店的店员。

佩德罗亚转身走进休息棚,独自坐在那儿。这似乎是一个采访的好时机,我鼓起勇气走上前去。

“嘿,佩德罗亚,有空吗?”

他狐疑地盯着我看了几秒钟,然后用一种极尽优越的口吻,一字一句强调道:“不,我没空。我正在努力备战棒–球–大–联–盟–比–赛!”

于是,尴尬的我只能在球场边转悠,努力在前往记者席看比赛之前重拾自己的尊严。

第二天,采访许可到期之后,我回到纽约,委派从前的同事(《棒球规程》的资深记者)戴维·劳里拉前去打探,希望他能获得一些有价值的信息。但是,这次佩德罗亚的话仍不多,回答也是尽可能地平淡无奇。他告诉劳里拉:“你知道吗,我根本不在乎数字和统计数据,我只在乎输赢,其他的东西对我来说都无所谓。”

佩德罗亚曾经偏离政党路线,因此惹了一身麻烦,之后他就学会了用这种说话方式来应对各种提问。比如那次,他称自己的家乡加利福尼亚伍德兰是一个垃圾场,还告诉《波士顿杂志》,“你可以说这句话出自我,事实上也是如此,我从不撒谎。”

佩德罗亚确实从不说谎。我想,也许正是因为持有这种态度,他才能够承受得起“球探”的质疑,最终成为大联盟中的一员。

构建棒球比赛的预测系统

从记事起,我就是一个棒球迷,也是一个棒球数据迷。6岁时,我家乡底特律的老虎队赢得了1984年的世界棒球联赛,作为一个数学小神童,当时我对比赛的各种数字特别着迷。7岁时我第一次买棒球卡片,10岁时第一次读《埃利亚斯棒球分析师》,12岁时有了自己的统计数据。(令人难以置信的是,那个数据竟然预测到默默无闻的红袜队场内球员提姆·尼尔林将成为最佳球员之一。)

直到2002年,我对棒球和棒球数据的兴趣才达到最高点。迈克尔·刘易斯当时正忙着写《点球成金》,书中记录了奥克兰竞技队及其总经理、统计奇才比利·比恩崛起的故事,该书很快畅销全美。25年前,比尔·詹姆斯出版了《比尔·詹姆斯棒球摘要》(下文简称为《摘要》),开创了棒球数据统计分析时代,随后他被聘为红袜队的顾问。所有这些都让我发现,沉迷棒球数据似乎不再只是一个小小的爱好,它为我寻觅新工作提供了一个新思路。

大学毕业之后两年,我一直在芝加哥的毕马威会计师事务所担任转让定价顾问。工作不错,薪水不薄,老板和同事做事专业、待人友善,生活还算安逸。

平时,我要么指导某公司的马来西亚移动电话分部如何定价,以便降低税金,要么赶早上6点的飞机到圣路易斯为一家煤矿公司的合同估价,但这份工作并不是我想要的充满刺激的工作。当时我24岁,不愿意安于现状,对我而言,这份工作平淡无奇、按部就班、了无生趣,让我觉得生活乏味至极。但这份工作有一个好处,那就是我有很多空闲的时间可用。于是,闲来无事,我就开始创建各式各样的电子表格以记录庞大的棒球统计数据,这后来便成了PECOTA预测系统的雏形。

读大学时,我就开始看年刊《棒球规程》。这本刊物是加里·赫卡贝于1996年创办的。一头红发的赫卡贝热情奔放,嘴不饶人。他先是从早期互联网新闻组中招募了一批写手,后来成了体育运动数据分析行业的领军人物。加里·赫卡贝很早就嗅出了商机:1988年比尔·詹姆斯停止了《摘要》的出版,而那些试图取代《摘要》的出版物不是品质不好,就是在1994~1995年棒球罢赛期间停刊了。于是,他在1996年创办了《棒球规程》刊物。第一本刊物问世时,是由激光打印机一次一本印出来的,还意外漏掉了圣路易斯红雀队的内容,最终《棒球规程》只售出了75本。但之后这本刊物销量逐年倍增,成了热门刊物。

《棒球规程》是统计怪才的快乐源泉。数据海洋里不仅有大联盟球员的数据,还有小联盟中表现出顶级水平的球员的数据。刊物虽然有时只适合圈内人士传看,但文风犀利,常引用《辛普森一家》或是20世纪80年代情色电影里的隐晦笑话,还常对不受欢迎的联盟经理冷嘲热讽,读来颇为有趣。

当然,刊物中最重要的内容还是对每位球员下个赛季表现的预测,预测依据的是赫卡贝创建的“弗拉迪米尔”预测系统。这一系统似乎是继詹姆斯开创的棒球预测革命之后的又一个里程碑。

一个好的棒球预测系统必须可以完成3项基本任务:

1. 考虑影响球员表现的外在因素。

2. 区别看待技术和运气因素。

3. 熟知老化曲线,了解球员的表现是如何随着年龄增长而发生变化的。

任务1相对简单。在美国主要的运动项目中,棒球很独特,比赛场地没有标准尺寸。道奇体育场如血管般错综复杂,外围是壕沟般的停车场,相比之下,芬威球场则如缩略版的新英格兰网格街道,整齐、舒适,球员在此更容易获得较高的击球率。通过观察球员在主客场的表现,我们就可以用“球场因素”来解释球员所面临的困难的程度。(比如说,在弗莱德·林恩——20世纪70年代红袜队的“最有价值球员”——的职业生涯中,他在芬威球场时击球率达0.374,但在其他体育场击球率只有0.264。)同样的,通过观察从国家联盟转会到美国联盟的那些球员的表现,就能分辨出哪个联盟更好,也能看出一个球员的竞争实力。

全世界最丰富的统计数据库

任务2——区别看待技术和运气因素——就不是那么轻松了。在短期内,运气常会主导棒球比赛:即使最好的球队也会输掉1/3的比赛,即使最好的击球手安全上垒的概率也只有2/5。有时候,运气因素甚至会掩盖一个队员的真实技术水平长达一年之久。某一个赛季中,一个击球手的真实击球率为0.275,受运气因素影响,这个球手的击球率有10%的概率出现浮动,时而升至0.300,时而降到0.250。

设计完善的预测系统能够辨识出那些容易受运气影响的数据,比如,平均击球数就比本垒打数善变。投手的表现也是出了名的不稳定,所以数据整理对预测投手的表现至关重要。若想预测一位投手的输赢,参考他取得的三振出局数以及保送数目,要比翻阅他前一赛季的输赢纪录更有价值,因为从每年的情况来看,前一类数据要更稳定些。

像所有预测一样,对棒球比赛进行预测是为找出决定输赢的根本原因:将击球手三振出局就能阻止对手安全上垒,从而阻止对手得分,进而阻止他们赢得比赛,所以三振出局数更为关键。然而,预测这回事,越往下探究,就会遇到越多的噪声干扰:投手的输赢纪录受自己发挥的影响,也受制于对手得分的多少,而后者是他无法左右的。西雅图水手队的明星投手菲利克斯·埃尔南德斯在2009年和2010年的投球表现都很不错,但输赢纪录却有很大差距,分别是19∶5和13∶12,因为2010年水手队的击球手水平极差,给了对手很多机会。

此类事例的出现绝非偶然,只要用心整理数据,就会发现端倪。棒球比赛为我们提供的数据也许是全世界最丰富的:过去的140年里,在大联盟球场上发生的每一件事都被忠实、准确地记录下来,而且每年还有数百位棒球手在很多较大的联盟中打球。另外,尽管棒球是团队运动,却是以高度有序的方式进行的:投球手轮流投球,击球手按序击球,这样每人都有各自的统计数据。复杂的、非线性的统计问题很少出现,因果关系很容易理顺。

这使得棒球预测者的工作变得十分轻松。(在这项运动中,)一个假设通常可以根据经验进行检验,利用精确度比较高的统计数据来证实或者证伪。而对于经济预测或政治预测来说,可用的数据就少很多——美国总统大选每4年才举行一次,不是每年都能产生几百个数据点——缺少数据,预测往往更易误入歧途。

老化曲线与相似分数

前述观点都是建立在一项假设的基础上的,即球员的技术水平一直保持稳定,年复一年,不会改变。其实不然。只要能将信号与噪声区分开来,我们就能获得所需的任何信息。事实上,每位棒球队员的技术水平都处于一种不断变化的状态,预测的挑战也正在于此。

研究过数千名球员的统计数据之后,詹姆斯发现,在二十八九岁之前,大多数球员的技术水平都会持续提高,但之后通常会开始走下坡路,三十五六岁时尤其严重 。詹姆斯由此得出他最重大的发现:老化曲线。

奥运会体操运动员的运动巅峰期是十几岁,诗人的黄金时代是二十几岁,国际象棋选手的最佳比赛年龄是三十几岁,应用经济学家在四十几岁时成就辉煌,财富500强首席执行官的平均年龄为55岁。詹姆斯发现,一个棒球运动员状态最好的年龄是27岁。1985~2009年间,获得“最有价值球员”称号的运动员共有50位,其中30人获此殊荣的年龄是在25~29岁,更有10人的年龄刚好是27岁。这个年龄是体能和脑力完美结合的最佳阶段,可以让棒球运动员发挥出最高水平。

读过詹姆斯的著作的球队都能从“老化曲线”中受益良多。棒球合同规定,球员必须打满6个大联盟赛季方可成为自由球员,到那时已处于其职业生涯的后期了。(在此之前,所在俱乐部享有对他们的绝对支配权,而且他们的要价要低于市场价格。)通常,一个新晋球员会在二十三四岁时加入大联盟,直到30岁时他才可能成为自由球员——那时他的巅峰表现期已过,运动生涯开始黯然失色。球队为这些自由球员支付大量的保险费用,指望他们可以在30岁时复制二十几岁时的辉煌,而事实上球员的技术水平已不复当年,但大棒球联盟合约规定必须支付这笔费用,球队也没有办法。

詹姆斯的“老化曲线”并非没有缺陷,表现为其走势过于平缓。诚然,一般球员会在27岁达到巅峰状态。但只要是付过会费的人盯着棒球卡背面研究一会儿都会发现,不同球员的老化速度是不一样的。比如,20世纪80年代亚特兰大勇士队的三垒手鲍勃·霍纳获得年度最佳新秀奖时只有20岁,24岁时就入选全明星队了。如果根据当时通用的假设预测,鲍勃进入名人堂就是板上钉钉的事。但30岁时他却因伤停赛了,之后又草率地加入日本大联盟的“养乐多燕子棒球队”,彻底结束了他的顶级职业棒球生涯。再如,来自西雅图水手队的伟大球员埃德加·马丁内斯直到27岁才在大联盟中有了一份稳定的工作,大器晚成的他在30多岁时才迎来了职业生涯的巅峰时期,40岁时击球数还排在联盟的领先位置。