在最具发展前景的棒球球员名单中,佩德罗亚排在第4位,这是PECOTA系统的成功案例之一。当然,PECOTA的成功案例可不止这一桩,该系统当年对伊恩·金德尔的职业前景也很看好,而《美国棒球》并没有把他列入名单。事实上,金德尔自2006年以来两次入选全明星队,还成了得克萨斯流浪者队的主攻手之一。PECOTA系统还看准了麦特·坎普,道奇队的超级明星,2011年麦特·坎普曾十分遗憾地与棒球“三冠王”失之交臂。PECOTA系统当年的这个判断也比《美国棒球》高明。
上面几位也许你还有所耳闻,但你听说过乔尔·古兹曼、唐纳德·莫菲,还有约塞米蒂·佩蒂特这些人吗?若非资深棒球迷,很可能根本不知道这些人。但PECOTA系统也将他们列入了那份名单。
《美国棒球》难免会看走眼:球探们对布兰登·伍德、拉斯汀·米利奇以及马克·罗杰斯的职业前景十分看好,但他们此后的表现不尽如人意。球探们还认定红袜队的明星投手乔恩·李斯特、洛杉矶道奇队的游击手特洛伊·图洛维茨基以及巴尔的摩金莺队的外野手尼克·马卡提斯会有不俗表现,但他们在小联盟时一直表现平平,PECOTA系统并未将其列入名单。
现在,我们有充足的数据可以对两个预测系统进行统计学分析。具体来说,我们可以查看每份名单上的球员为自己所在的大联盟球队带来的胜场数,这些胜场数以WARP(超过替补球员的胜场数)的数据形式呈现,这就意味着要收集每一位球员为整场棒球比赛贡献的价值,包括击球、投球及防守。
PECOTA系统所列名单里的球员在2011年大联盟赛季贡献的胜场数总计为546场(见图3–3),而《美国棒球》所选球员的贡献更大,胜场数总计为630场。尽管球探们的判断有时会出现失误,但他们的工作还是具有非常大的价值的:他们预测的准确度比单纯靠数据分析进行的预测高出15%。这个差距听起来也许不算大,但带来的收益可不小。每赢得一场胜利,棒球队都愿意向球探支付400万美元。这样算来,在过去的6个赛季中,那些球探预测名单上多出来的84次正确预测,会为他们带来总计达3.36亿美元的收益。
球探和数据怪才的偏见
如果PECOTA系统的预测结果能比球探们的预测结果更准确,那自然很好,可我并不期待出现这样的结果。就像我在PECOTA预测名单公布后不久所写的那样 :
这次球探对战数据怪才的戏码引发诸多趣闻,但我并不期待PECOTA系统给出的排名能与《美国棒球》的排名同样准确。
预测系统的工作原料是信息。能够同时将球探的推断和统计信息收入囊中,就意味着你拥有更多原料。单纯依靠数据的预测想要打败依靠综合分析的预测,只有一个途径,那就是综合分析的过程中掺杂了过多偏见,若偏见太强,就会削减掉这种分析手段的优势。
换句话说,那些球探用的是综合分析的方法,他们得到的信息并不局限于统计数据。球探和PECOTA系统都会观察球员的平均击球率和防御率,PECOTA系统毫无主观偏好,也善于从数据中排除部分噪声,并将这些数据排列好。而球探则可以了解到很多信息,这是PECOTA系统做不到的。比如说,球探并非只能依据投手三振出局数推断球员的表现,他们还能够拿出雷达测速仪测定投手投出的快速球的速度,或者用秒表测定他的跑垒时间。
这一类型的信息更接近我们进行棒球比赛结果预测的根本目标。在美国棒球小联盟中,投手即使投出一个无力快速球也可得分,只要投到好球区,或几种投球混合使用,都可以让不少击球手三振出局,因为大多数击球手实力平平,很容易被战胜。但是在美国棒球大联盟中,击球手甚至能将时速将近158公里(98英里)的快速球击出场外,此时投手只能依靠软抛球谋得胜算。结果是,PECOTA系统很容易被这些伪正数欺骗,但是球探却能够辨别哪些球员具有大联盟水平,哪些球员还需要修炼。
当然,任何的人为判断都有可能掺杂个人偏见。就像本书前文中提到的那样,对预测持错误态度的人,常以信息过多为借口提出一个不公正的理论,用来描绘世界应该是什么样的,而不是体现客观事实,故而他们获得的信息越多,情况就越糟。
也许在前“点球成金”时代,球探们带有更多偏见。他们倾向于从美学的角度评判球员,比如球员的球衣合不合身,而不是看这个球员是否具有天赋。若说近些年来位列《美国棒球》预测名单中的那些球员都有不俗表现,那么20世纪90年代,该刊力荐的那些球员的表现就平平了,像托德·范·波佩尔、鲁本·里维拉和奥布莱恩·泰勒等球员的职业前景明显被夸大了。
数据怪才们也有自己的偏见,其中最致命的一个偏见:若某项因素很难量化,那它就被视为无关紧要。例如,在棒球运动中,很长时期内防守质量要比击球率或投球质量更难测量。20世纪90年代中期,比恩率领的奥克兰竞技队忽视防守,常让马特·斯特尔这类庞大笨拙的球员防守外野,而马特·斯特尔是一个天生的击球好手,却总被安排去防守外野。随着防守技术研究的不断推进,奥克兰竞技队无可避免地为其薄弱的防线付出了巨大代价,每个赛季奥克兰竞技队得多输8~10场比赛。在这种情况下,不管球队的安打表现多好,都不可能跻身热门球队之列了。比恩从中吸取了教训,最近由他带领的球队防守得都不错。
在预测美国棒球小联盟球员的表现时,这些盲点带来的失误会造成更大的损失。对于一个颇有成就的美国棒球大联盟球员来说,关键是预测他能否续写辉煌。一个聪明的系统可能会预测,球员的发展走势会上下浮动几个百分点。但如果只是简单地假设这个球员下个赛季的表现与前几个赛季相仿,你也不会错得太离谱。通常情况下,球员日后的实力与现在的表现不会有天壤之别。
然而,在主要的职业运动中,棒球属于比较特殊的,因为这项运动中包含着极其复杂的小联盟系统。美国橄榄球联盟很少批准小联盟赛事,美国第一大职业篮球赛事的小联盟数量也不多,但在棒球界,每个大联盟下附有8个小联盟,共有240个小联盟。另外,足球和篮球队员可以从大学甚至高中直接进入职业联赛,变身为球星,这种情况在棒球界却很少见,即使是最有天赋的新秀,也必须在比利斯特、贝克斯菲尔德或宾厄姆顿苦苦地等待进入美国棒球大联盟的机会。
对这些棒球手的表现进行预测是非常具有挑战性的,因为我们一直在期待这些球员最终能做到他们现在无法做到的事情:参与高水平的赛事,成为大联盟球星。美国棒球大联盟选秀赛非常残酷,就连全美高中时期表现最棒的击球手布莱斯·哈珀,在面对大联盟(选秀)投球时都可能惨遭淘汰。要知道大联盟是勤奋和运气结合的地方,新秀们必须变得更强、更壮、更聪明、更守纪律,才能在大联盟打比赛。假设你来到一所普通高中的课堂上,你应该对那些学生留心地观察几天,然后预测他们当中谁将来会是医生、谁会是律师、谁会是企业家、谁又只能勉强度日。我猜你一定会参考这些学生的成绩和学术能力评估测试分数,再看看谁的人缘更好,但你还必须进行一些大胆的猜测才行。
很多业余球探(以及所有模仿球探的做法设计出来的数据预测系统)都是这么预测的。尽管一些棒球球员是从大学中选出的,还有很多球员是直接从高中选出的,但球探的“侦察”活动在这些球员十几岁时就开始了。和同龄人一样,这些球员荷尔蒙爆发,经历着青春期的焦虑,身体正在发育,并且需要与酒色的诱惑抗争。如果你把你企业的未来交给这样一群19岁的年轻人,你能放心吗?
生理指标与心理指标
正如刘易斯在《点球成金》中提到的那样,有些球员拥有惊人的天赋却不自知,比利·比恩就属于这样的球员。1980年第一轮选秀后,比恩在大联盟只打了148场比赛,职业生涯的平均击球率仅为0.219。但与约翰·桑德斯相比,比恩的球员生涯还算辉煌,至少他还入选过一次名人堂。
桑德斯现为洛杉矶道奇队的球探,也曾参加过大联盟比赛,确切地说,他只打过一场比赛,就像《梦幻成真》里的“月光先生”葛兰曼博士一样。1965年4月13日,在堪萨斯城竞技队对阵底特律老虎队的比赛中,19岁的桑德斯作为替补跑垒员,在第七局时上场。但桑德斯当时毫无上垒准备:两个击球手突袭成功,他在下一局开始前就被换下场。从那之后,他再也没有参加过美国棒球大联盟比赛。
桑德斯并非缺乏天赋,他在内布拉斯加州格兰德岛高中读书时一直是位全能体育明星:1963年在州足球队踢四分卫,1964年效力于州篮球队,还曾经得过州田径运动会铁饼金牌。棒球可能并不是桑德斯最擅长的运动项目,但是他真的极具天赋,1964年夏天高中毕业时,他就拿到了奥克兰运动家队职业球员的合约。
但新秀津贴规则阻碍了桑德斯的发展,断送了他的大好前程。1965年,当时还没有采用大联盟合约,所有业余选手都是自由球员,球队可以根据球员意愿支付薪酬。为防止经济条件较好的球队笼络天资好的球员,新秀津贴规则提出了一项惩罚措施:每个得到大笔签约津贴的球员必须在大联盟球队打满两个职业赛季。但事实上,他们的实力根本就打不了这样的高水平比赛。
这项规则实际上是让像桑德斯这样前途光明的球员吃了“杀威棒”。大多数得到大笔新秀津贴的球员只能坐冷板凳,几乎没有机会去打任何大联盟的比赛。在最需要每天都打比赛积累经验的时候,这些年轻的球员却和比赛无缘。球队的支持者和队友也在纳闷,球队为什么花重金雇这些乳臭未干的19岁“娃娃”来当球童?所以,这些人也不可能理解和同情那些新的年轻球员的困境。在这种情况下,除了桑迪·考法克斯和哈蒙·吉尔布鲁这样的得到签约津贴的球员能咬牙挺下去并最终入选名人堂,当时很多具有潜力的优秀球员在这样困境中都撑不下去。
从内布拉斯加州最佳运动员到《棒球百科全书》的一个小脚注,这样高低起伏的人生经历让桑德斯对年轻运动员的心智有着独到见解。一天上午,我通过电话联系到桑德斯,当时他正从北卡罗来纳州开车前往芝加哥观看勇士队的最佳附属队的比赛。
早在2003年新奥尔良冬季会议之际,我就觉得桑德斯会孜孜不倦地为棒球付出一生。(短暂的)运动生涯结束之后,桑德斯还在为棒球运动贡献力量。但桑德斯从未从“球探对战数据怪才”的角度看待棒球运动。
桑德斯告诉我说:“我喜欢估算,喜欢统计学证据,就连从前使用计算器或其他计算仪器处理数据时都觉得很享受。”他接着还说了一件逸事:“一个球探曾说过,‘伙计们,面对现实吧,每天我们到球场后做的第一件事是什么?是到记者席拿最新的数据’。我们拿的是数据啊!那样做有什么不对吗?可你们就是那样做的。”
的确,自棒球运动诞生之日起,统计数据就一直是其中的一部分。第一份新闻技术统计数据——其中包括得分、安打数、出局数、助杀数及失误次数——是由亨利·查德威克于1859年发表的,而第一个职业联盟直到12年后的1871年才成立。到了“点球成金”时代,许多争论的焦点不是该不该使用数据,而是该使用哪些数据。比如詹姆斯等分析家多年前就提出,和安打率相比,上垒率和得分的关联更大,但这一观点一直不被业界的传统主义者所认可 。
这样的争论通常涉及那些数据怪才的专业领域,可谓投其所好了。上垒率比平均击球率更有用,投手防御率比他的输赢纪录更能客观体现其水平,这些都是科学事实,就像“地球围绕太阳旋转”一样不容反驳,数据怪才的这些看法自然没有错。对此类争论,数据怪才们只赢不输,这也使得他们有些自鸣得意,忘了自己在别的问题上其实很含糊。
离美国棒球大联盟越远,统计数据的用处就越小,因为此时你需要做得更多的是对球员的表现进行预测,而不是测量。对于那些级别比较高的小联盟,比如2A等级或3A等级小联盟,统计数据的预测作用和大联盟的几乎无异。但是级别较低的小联盟数据就没有那么可靠,大学或高中球员的数据的预测力则更弱。
球探们(预测时)经常会用另外“五大指标”来替代统计数据:击球效力、击球平均数、速度、手臂力量以及防守范围。但这些指标饱受诟病,也确有缺陷。这5项指标并未包括送出保送球和避免三振出局这样的垒上规则。虽然这5项指标会让人觉得它们同等重要,但实际上,除了游击手和捕手之外,对其余所有位置上的球员而言,击球效力要比手臂力量重要得多。
“五大指标”之所以饱受批评,还有另外一个原因,那就是仅凭这几个指标获得的信息并不全面。随着一名小联盟球员的球技日渐成熟,他的统计数据应当越来越多地体现出这几项指标——当然,很可能这位球员的水平并没有多少提高。实际上,其中有些指标就是统计数据:“击球平均数”表现为平均击球率,“击球效力”表现为二垒安打数和本垒打数。如果球探告诉你某位球员击球效力得了70分(满分80分),但这位球员在阿尔图纳弧线棒球队效力时,每年却只贡献10个本垒打,那么你觉得球探给出的这份报告可信度高吗?
作为业界资深人士,桑德斯对过分强调“五大指标”的做法持怀疑态度。他告诉我说:“这些指标也没有多么玄妙,无非是快速奔跑、用力投球之类的技术,其实人人都懂,只是球探可以在第一时间看到这些数据。问题是,这些技术真的可以有效地塑造得分球员吗?那些指标真能转变为可用的技术吗?以击球速度为例,若一个球员击球的速度很快,但他却不相信自己,总是想去做投手,那他的击球速度就成了不可用的技术,也就是说他的击球效力没有转变为可用的技术。”