搜索
当前位置: 秒秒彩平台 > 读噪声 >

信号与噪声全文目录_百度阅读

gecimao 发表于 2019-08-18 13:58 | 查看: | 回复:

  内容,没有明确说明什么是噪音,什么是信号。只是通过不同社会事件来对预测的可能性作出解释。具体的说就是没有什么特别的东西。

  小小:有数据和利用数据是重要的,但是如何有效利用数据,如何分辨数据的有效性?在信息泛滥的时代,大数据盛行的时代,这本书又带给我们冷静的思考。值得读。

  刚从纽约回来的红袜队士气非常低落,连输3场对阵劲敌洋基队的周末赛,使得红袜队与2009年美国棒球联盟东区冠军彻底无缘了。常规赛只剩7场了,红袜队似乎就要成为美国棒球大联盟季后赛的外卡队,而这样的季后赛绝不是主办方所期待的。有统计研究表明,球队常规赛的表现并不影响其季后赛的发挥,但2009年红袜队似乎已经放弃希望了。

  在芬威球场,我准备采访红袜队的明星二垒手达斯汀·佩德罗亚。佩德罗亚是2006年以来我最喜爱的球员之一,2006年我为年刊《棒球规程》创建的预测系统PECOTA也预测他将成为最佳棒球运动员之一。但这一预测结果却与球探的观点截然相反,他们认为佩德罗亚天资不足,身高欠缺,挥棒姿势怪异,只能当个替补球员。然而,在2006年最具发展前景的棒球运动员名单中, PECOTA预测系统却将佩德罗亚排在第4位,而向来注重球探观点的出版物《美国棒球》则将他排在第77位。其实,关于佩德罗亚的报道中,这种褒少贬多的说法屡见不鲜。娱乐与体育节目电视网的基斯·劳早在佩德罗亚的新秀赛时就说过他没什么发展前途了。

  也不能连续击投球。如果他的击球率能达到0.260,还是有些价值的。但他总

  2007年5月12日,基斯·劳发表了上述评论。那天,佩德罗亚的击球率只有0.247,只完成了一次本垒打。说真的,当时我对他也开始失去信心了,我看了他大部分“安打”的比赛,佩德罗亚表现出一脸败相。

  但是,佩德罗亚仿佛想证明那些怀疑他的人是错的,他开始发狠地击球,期盼迎来逆转。接下来的15场比赛中,他的击球率达到惊人的0.472,使他的平均击球率从4月低谷时的0.158一路升至0.336。

  2007年7月,也就是基斯·劳做出那番评论的两个月之后,佩德罗亚入选美国联盟全明星队。10月,他帮助红袜队赢得有史以来第二个世界职业棒球大赛冠军(上一次是在1918年)。11月,他被评为“年度最佳新秀”。在随后的一个赛季,24岁的佩德罗亚获选“最有价值球员”,一举成为美国棒球联盟中表现最全面的球员。佩德罗亚告别内场替补,成为今日巨星,而那些球探当日却严重地低估了这位棒球天才。

  之所以到芬威球场来,是因为我想了解究竟是什么让佩德罗亚实现了逆转。我准备了一堆问题,也获得了红袜队的采访许可,可以进行场地采访。但我知道这并非易事,因为联盟球场是球员心中的圣地,在此地采访并不适合,且红袜队又刚输了周末赛,队内气氛乖戾紧张。

  我在那里看着佩德罗亚进行场内练习,他接住大块头三垒手凯文·尤基里斯的投球,转投给新的一垒手凯西·柯奇曼。他显得与众不同,动作认真到位,而尤基里斯则略显笨拙,柯奇曼似乎还在走神。佩德罗亚与队友的主要不同之处在于态度,队友走神时,佩德罗亚会愤怒地将球摔出场地,恼怒地看着他们。

  15分钟训练过后,红袜队出发到当晚的对手多伦多蓝鸟队的主场。我站在离红袜队的休息棚一两米远的一垒位置旁边,佩德罗亚从我身边走过,正如那些球探所说,他的确不算高,按照官方公布的数据,他身高为1.75米(5英尺9英寸),相当于把我的身高四舍五入之后的高度,但我好歹还比他高出两英寸。球探们说他不像一个运动员也没错,刚刚25岁就秃顶,头顶的头发和下巴上的胡须一样多,腰间赘肉堆积,还有小肚腩。如果你在街上遇见他,很可能会把他当作音像店的店员。

  佩德罗亚转身走进休息棚,独自坐在那儿。这似乎是一个采访的好时机,我鼓起勇气走上前去。

  他狐疑地盯着我看了几秒钟,然后用一种极尽优越的口吻,一字一句强调道:“不,我没空。我正在努力备战棒–球–大–联–盟–比–赛!”

  于是,尴尬的我只能在球场边转悠,努力在前往记者席看比赛之前重拾自己的尊严。

  第二天,采访许可到期之后,我回到纽约,委派从前的同事(《棒球规程》的资深记者)戴维·劳里拉前去打探,希望他能获得一些有价值的信息。但是,这次佩德罗亚的话仍不多,回答也是尽可能地平淡无奇。他告诉劳里拉:“你知道吗,我根本不在乎数字和统计数据,我只在乎输赢,其他的东西对我来说都无所谓。”

  佩德罗亚曾经偏离政党路线,因此惹了一身麻烦,之后他就学会了用这种说话方式来应对各种提问。比如那次,他称自己的家乡加利福尼亚伍德兰是一个垃圾场,还告诉《波士顿杂志》,“你可以说这句话出自我,事实上也是如此,我从不撒谎。”

  佩德罗亚确实从不说谎。我想,也许正是因为持有这种态度,他才能够承受得起“球探”的质疑,最终成为大联盟中的一员。

  从记事起,我就是一个棒球迷,也是一个棒球数据迷。6岁时,我家乡底特律的老虎队赢得了1984年的世界棒球联赛,作为一个数学小神童,当时我对比赛的各种数字特别着迷。7岁时我第一次买棒球卡片,10岁时第一次读《埃利亚斯棒球分析师》,12岁时有了自己的统计数据。(令人难以置信的是,那个数据竟然预测到默默无闻的红袜队场内球员提姆·尼尔林将成为最佳球员之一。)

  直到2002年,我对棒球和棒球数据的兴趣才达到最高点。迈克尔·刘易斯当时正忙着写《点球成金》,书中记录了奥克兰竞技队及其总经理、统计奇才比利·比恩崛起的故事,该书很快畅销全美。25年前,比尔·詹姆斯出版了《比尔·詹姆斯棒球摘要》(下文简称为《摘要》),开创了棒球数据统计分析时代,随后他被聘为红袜队的顾问。所有这些都让我发现,沉迷棒球数据似乎不再只是一个小小的爱好,它为我寻觅新工作提供了一个新思路。

  大学毕业之后两年,我一直在芝加哥的毕马威会计师事务所担任转让定价顾问。工作不错,薪水不薄,老板和同事做事专业、待人友善,生活还算安逸。

  平时,我要么指导某公司的马来西亚移动电话分部如何定价,以便降低税金,要么赶早上6点的飞机到圣路易斯为一家煤矿公司的合同估价,但这份工作并不是我想要的充满刺激的工作。当时我24岁,不愿意安于现状,对我而言,这份工作平淡无奇、按部就班、了无生趣,让我觉得生活乏味至极。但这份工作有一个好处,那就是我有很多空闲的时间可用。于是,闲来无事,我就开始创建各式各样的电子表格以记录庞大的棒球统计数据,这后来便成了PECOTA预测系统的雏形。

  读大学时,我就开始看年刊《棒球规程》。这本刊物是加里·赫卡贝于1996年创办的。一头红发的赫卡贝热情奔放,嘴不饶人。他先是从早期互联网新闻组中招募了一批写手,后来成了体育运动数据分析行业的领军人物。加里·赫卡贝很早就嗅出了商机:1988年比尔·詹姆斯停止了《摘要》的出版,而那些试图取代《摘要》的出版物不是品质不好,就是在1994~1995年棒球罢赛期间停刊了。于是,他在1996年创办了《棒球规程》刊物。第一本刊物问世时,是由激光打印机一次一本印出来的,还意外漏掉了圣路易斯红雀队的内容,最终《棒球规程》只售出了75本。但之后这本刊物销量逐年倍增,成了热门刊物。

  《棒球规程》是统计怪才的快乐源泉。数据海洋里不仅有大联盟球员的数据,还有小联盟中表现出顶级水平的球员的数据。刊物虽然有时只适合圈内人士传看,但文风犀利,常引用《辛普森一家》或是20世纪80年代情色电影里的隐晦笑话,还常对不受欢迎的联盟经理冷嘲热讽,读来颇为有趣。

  当然,刊物中最重要的内容还是对每位球员下个赛季表现的预测,预测依据的是赫卡贝创建的“弗拉迪米尔”预测系统。这一系统似乎是继詹姆斯开创的棒球预测革命之后的又一个里程碑。

  任务1相对简单。在美国主要的运动项目中,棒球很独特,比赛场地没有标准尺寸。道奇体育场如血管般错综复杂,外围是壕沟般的停车场,相比之下,芬威球场则如缩略版的新英格兰网格街道,整齐、舒适,球员在此更容易获得较高的击球率。通过观察球员在主客场的表现,我们就可以用“球场因素”来解释球员所面临的困难的程度。(比如说,在弗莱德·林恩——20世纪70年代红袜队的“最有价值球员”——的职业生涯中,他在芬威球场时击球率达0.374,但在其他体育场击球率只有0.264。)同样的,通过观察从国家联盟转会到美国联盟的那些球员的表现,就能分辨出哪个联盟更好,也能看出一个球员的竞争实力。

  全世界最丰富的统计数据库 任务2——区别看待技术和运气因素——就不是那么轻松了。在短期内,运气常会主导棒球比赛:即使最好的球队也会输掉1/3的比赛,即使最好的击球手安全上垒的概率也只有2/5。有时候,运气因素甚至会掩盖一个队员的真实技术水平长达一年之久。某一个赛季中,一个击球手的线,受运气因素影响,这个球手的击球率有10%的概率出现浮动,时而升至0.300,时而降到0.250。

  设计完善的预测系统能够辨识出那些容易受运气影响的数据,比如,平均击球数就比本垒打数善变。投手的表现也是出了名的不稳定,所以数据整理对预测投手的表现至关重要。若想预测一位投手的输赢,参考他取得的三振出局数以及保送数目,要比翻阅他前一赛季的输赢纪录更有价值,因为从每年的情况来看,前一类数据要更稳定些。

  像所有预测一样,对棒球比赛进行预测是为找出决定输赢的根本原因:将击球手三振出局就能阻止对手安全上垒,从而阻止对手得分,进而阻止他们赢得比赛,所以三振出局数更为关键。然而,预测这回事,越往下探究,就会遇到越多的噪声干扰:投手的输赢纪录受自己发挥的影响,也受制于对手得分的多少,而后者是他无法左右的。西雅图水手队的明星投手菲利克斯·埃尔南德斯在2009年和2010年的投球表现都很不错,但输赢纪录却有很大差距,分别是19∶5和13∶12,因为2010年水手队的击球手水平极差,给了对手很多机会。

  此类事例的出现绝非偶然,只要用心整理数据,就会发现端倪。棒球比赛为我们提供的数据也许是全世界最丰富的:过去的140年里,在大联盟球场上发生的每一件事都被忠实、准确地记录下来,而且每年还有数百位棒球手在很多较大的联盟中打球。另外,尽管棒球是团队运动,却是以高度有序的方式进行的:投球手轮流投球,击球手按序击球,这样每人都有各自的统计数据。复杂的、非线性的统计问题很少出现,因果关系很容易理顺。

  这使得棒球预测者的工作变得十分轻松。(在这项运动中,)一个假设通常可以根据经验进行检验,利用精确度比较高的统计数据来证实或者证伪。而对于经济预测或政治预测来说,可用的数据就少很多——美国总统大选每4年才举行一次,不是每年都能产生几百个数据点——缺少数据,预测往往更易误入歧途。

  老化曲线与相似分数 前述观点都是建立在一项假设的基础上的,即球员的技术水平一直保持稳定,年复一年,不会改变。其实不然。只要能将信号与噪声区分开来,我们就能获得所需的任何信息。事实上,每位棒球队员的技术水平都处于一种不断变化的状态,预测的挑战也正在于此。

  研究过数千名球员的统计数据之后,詹姆斯发现,在二十八九岁之前,大多数球员的技术水平都会持续提高,但之后通常会开始走下坡路,三十五六岁时尤其严重 。詹姆斯由此得出他最重大的发现:老化曲线。

  奥运会体操运动员的运动巅峰期是十几岁,诗人的黄金时代是二十几岁,国际象棋选手的最佳比赛年龄是三十几岁,应用经济学家在四十几岁时成就辉煌,财富500强首席执行官的平均年龄为55岁。詹姆斯发现,一个棒球运动员状态最好的年龄是27岁。1985~2009年间,获得“最有价值球员”称号的运动员共有50位,其中30人获此殊荣的年龄是在25~29岁,更有10人的年龄刚好是27岁。这个年龄是体能和脑力完美结合的最佳阶段,可以让棒球运动员发挥出最高水平。

  读过詹姆斯的著作的球队都能从“老化曲线”中受益良多。棒球合同规定,球员必须打满6个大联盟赛季方可成为自由球员,到那时已处于其职业生涯的后期了。(在此之前,所在俱乐部享有对他们的绝对支配权,而且他们的要价要低于市场价格。)通常,一个新晋球员会在二十三四岁时加入大联盟,直到30岁时他才可能成为自由球员——那时他的巅峰表现期已过,运动生涯开始黯然失色。球队为这些自由球员支付大量的保险费用,指望他们可以在30岁时复制二十几岁时的辉煌,而事实上球员的技术水平已不复当年,但大棒球联盟合约规定必须支付这笔费用,球队也没有办法。

  詹姆斯的“老化曲线”并非没有缺陷,表现为其走势过于平缓。诚然,一般球员会在27岁达到巅峰状态。但只要是付过会费的人盯着棒球卡背面研究一会儿都会发现,不同球员的老化速度是不一样的。比如,20世纪80年代亚特兰大勇士队的三垒手鲍勃·霍纳获得年度最佳新秀奖时只有20岁,24岁时就入选全明星队了。如果根据当时通用的假设预测,鲍勃进入名人堂就是板上钉钉的事。但30岁时他却因伤停赛了,之后又草率地加入日本大联盟的“养乐多燕子棒球队”,彻底结束了他的顶级职业棒球生涯。再如,来自西雅图水手队的伟大球员埃德加·马丁内斯直到27岁才在大联盟中有了一份稳定的工作,大器晚成的他在30多岁时才迎来了职业生涯的巅峰时期,40岁时击球数还排在联盟的领先位置。

  尽管鲍勃和马丁内斯的例子有些不合常规,但确实很少有球员如那条老化曲线般平缓发展,高峰低谷间断交错的形式反而更为常见。也就是说,真实的老化曲线充满噪声,而且噪声非常大(见图3–2),不会那样平缓。平均值就像“每个家庭拥有1.7个孩子”这样的说法,不过是一个统计学的抽象概念。按加里·赫卡贝的推论来看,也许詹姆斯的老化曲线没能传递出噪声中的某些信号。也许像游击手这样处于对体能要求比较高的位置的球员,其技术水平的衰退速度要比打右外场的球员快。也许那些颇具运动天赋的全能型球员的职业生涯会比那些只有一两个强项的球员要长。

  赫卡贝的系统则假定存在26条明显的老化曲线,每一条都适用于不同类型的球员。如果他的假设是正确的,你就能评判出哪条曲线适合哪个球员,并以此预测出该球员职业生涯的走势。如果一个球员符合鲍勃·霍纳的老化曲线,那就预示着他会少年得志,但衰退期也会早早到来;如果一个球员符合马丁内斯的老化曲线,那就预示着他将大器晚成。

  在赫卡贝的“弗拉迪米尔”预测系统中,每个球员对应着不同的曲线;而在詹姆斯创建的平缓的预测系统中,所有球员都对应着同一条曲线。尽管如此,从赫卡贝发布的一些预测结果看,“弗拉迪米尔”系统的预测准确度比詹姆斯的老化曲线高不了多少。预测准确率不高,在一定程度上是因为赫卡贝设定的26条曲线没有科学依据,只是随意选定了这个数目。这样一来,为球员匹配曲线就成了一个科学和艺术并重的技术活。

  然而,要将棒球队员的技术水平发挥到较高的程度,一个人一定要对自己的身体技巧和精神技能进行多种多样的排列组合才行:肌肉记忆、体能耐力、手眼协调性、击球速度、投球识别力以及失利时强大的意志力,这些因素都要科学合理地运用。如此看来,“弗拉迪米尔”预测系统关于不同老化曲线的概念貌似更符合人类行为固有的复杂性。在创立PECOTA预测系统时,我尽量从詹姆斯和赫卡贝的系统中借鉴了一些元素来完善自己的预测系统。

  1986年的《摘要》中,詹姆斯介绍了“相似分数”的概念。顾名思义,设计者设计了这些分数,用来对任意两名大联盟球员的职业数据的相似性进行评定。这个概念比较简单。评定人员首先将两名球员分为一组,每组赋值1 000分,每发现两人之间的一次不同则扣若干分。结果,高相似度的组可得到950分甚至975分,但低相似度组的组员间的差异会迅速增大。 略懂棒球历史的人都会发现相似分数的方法很得人心,评定人员并没有一门心思地只顾研究球员的统计数据,而是提供了一定的历史背景。例如,佩德罗亚在25岁时的数据与历史上的很多球员相似,比如20世纪70年代统帅明尼苏达双城队的队长、一个伟大的巴拿马人罗德·卡鲁,以及大萧条时期老虎队的明星查利·格林格。 詹姆斯主要是想用相似分数进行反向检测,比如分析一个球员是否有资格入选名人堂。如果想论证你最喜爱的球员是否够资格入选库佰斯顿球员名册,就可以借用相似分数。若通过观察你会发现已经入选的球员中有9/10的人的数据和他的相似,你就得到了一个非常有力的论据。

  相似分数也可以用于预测吗?假设我们能够确定有100名球员某一个年龄段的数据与佩德罗亚相同年龄段的数据极为相似,那么根据这100名球员的职业生涯的整体表现难道不能预示佩德罗亚的职业生涯走势吗?

  为了验证这个想法,2002年我还在毕马威工作时就开始利用闲暇时间慢慢地推进自己的计划——创立PECOTA预测系统的雏形。这一系统是由五花八门、内容丰富的Excel电子数据表格构成,而表格正好也是我在毕马威工作时使用的主要工具(所以每次那些老板经过我的座位时,都以为我正在努力为客户建立细致的表格呢)。

  就这样,上班时忙里偷闲每天抽出一两个小时,晚上到家再奋斗几个小时,我最终建成了一个数据库,其中包含10 000多个赛季(包含了自第二次世界大战开始后的所有大联盟赛季)以及所有球员的对比演算数据。这一方法充分利用了棒球比赛无与伦比的丰富数据,从某种程度上讲,它比詹姆斯的方法更细致。在对比一组球员时,此法采用最近邻体分析法,另外,考虑的因素外延更广,甚至包括球探经常关心的球员的身高、体重等因素。

  PECOTA预测系统为不同类型的球员提供了不同的老化曲线,这一点与赫卡贝的系统相似,但PECOTA并不局限于26种曲线,相反的,它从棒球庞大的数据库中识别出一组数据相似的球员,综合分析后自然生成了这组老化曲线。如果与佩德罗亚数据相似的球员最后都成了大联盟中的优秀队员,这就预示着他成功的概率也比较高。

  但通常,那些拥有相似数据的球员各自又是一个复杂的混合体,其老化曲线也会在某个时间点开始相互偏离。之前提到,依据詹姆斯的相似分数方法,佩德罗亚的数据先是与格林格和卡鲁相似,后两位球员在其漫长的职业生涯中战绩显赫,入选了名人堂。但此后佩德罗亚的数据又与蒙特利尔博览会队实力平平的二垒手乔斯·维德罗极为相似了。

  对小联盟中的球员而言,这种差异更为明显。2009年,PECOTA预测系统为亚特兰大勇士队19岁的“明日之星”杰森·海沃德识别出的最相似球员,竟包括从名人堂球星到谋杀犯球员。奇珀·琼斯与海沃德的相似度排名第一,这位名人堂球星、前亚特兰大最伟大的球员之一为俱乐部效力17个赛季,职业生涯里的平局击球率为0.304,外加450次本垒打。而达奈尔·斯坦森是第二个与海沃德相似的球员,他的结局并不好,本来颇具潜力,却在2003年结束了在发展联盟亚利桑那队的球员生涯后,因屡次犯罪而被追捕,后来开着一辆运动型多用途汽车逃亡。

  所有与海沃德相似的球员都是高大的运动全才,在小联盟比赛中展现出高超的技术水平,在选秀中脱颖而出,但是他们的命运却截然不同。而PECOTA预测系统的创新点就在于此,它能够告知球员他们可能遇到的各种命运结局,这些结局参考了数据相似的前辈球员,尤其是那些结局最好与最坏的球员,或结局最有可能再次上演的球员。由此可见,若预测对象是人类行为,那结局更是不胜枚举了。

  看到现在,海沃德的命运真可谓跌宕起伏啊。而线年海沃德荣获年度小联盟“最佳球员”称号,2010年他在自己前30场大联盟比赛中贡献了8个本垒打,完成了自己在勇士队的首秀,还入选了全明星队,这一切都超过了人们的预期。但是,2011年海沃德在大联盟的第二个赛季却不是那么顺利,击球率只有0.227。面对海沃德在2011年赛季的糟糕表现,完善的预测系统仍会找出一个保持乐观的理由:他还是有潜力的,除了平均击球率之外,主要数据仍然保持了先前的水平,而平均击球率本身就比其他数据更容易受到运气因素的影响。

  但是,你想要了解的关于一个球员的一切,这些数据都能够告诉你吗?10年前,这个问题可是棒球界最热的话题。

  只要对《点球成金》稍有了解你就会知道,书中讲述了“统计专员”与“球探”这两个敌对阵营之间的冲突与斗争,他们注重不同的范例,采取不同的方法评估球员的表现。(“统计专员”当然是用数据说话,而球探也有自己的“工具”。)

  2003年,《点球成金》一书出版后,迈克尔·刘易斯的读者们一定不会忽略书中对两个阵营敌对状态的描绘(而这本书本身很可能也加重了两者间的敌意)。同年,我参加了在新奥尔良万豪酒店举行的棒球冬季会议,当时的情形一下把我带回了高中时代。一方是老牌球探,他们就像草地上的老水牛一样悠闲自在,偶尔会坐在酒店吧台旁一边喝着威士忌,一边聊着老掉牙的战时故事,更多的时候是把自己关在宾馆的房间里谈生意。这些人从前都是专业从事棒球运动的,而今多半都已届不惑之年甚至是知天命之年了。他们中很多人以前都是运动员,在球场上为棒球运动奋力打拼,后来逐渐进入领导层负责幕后工作,一路平步青云。另一方则是一群数据怪才:二三十岁的模样,背着电脑包,拿着彩色打印的建议书,不停地在大厅的人群中穿梭,希望可以说服某个投资者为自己提供一个工作岗位。平时这两个阵营的交流并不多,他们都觉得对方自大无知且闭目塞听。

  两方矛盾的根源也许就在于,球探觉得数据怪才威胁到了他们的饭碗。他们认为球探预算正在缩减,不管这是客观事实还是主观感受,他们通常都会以此为依据,说自己的饭碗难保。在一次围绕《点球成金》展开的激烈讨论的圆桌会议上,洛杉矶安那罕天使棒球队的球探总监埃迪·贝克告诉《美国棒球》杂志的记者:“此刻真是剑拔弩张啊。我们的一些老伙计本不该丢掉工作,现在却失业了。也许有财政或是其他因素的影响,但我们都认为其实是一些懂电脑的人抢走了他们的饭碗,对此我感到十分愤怒。”

  我们并不清楚具体有多少支球队削减了球探预算。多伦多蓝鸟队就是其中一支,他们也为此付出了代价,球队在2002~2005年球员选秀的结果都不尽如人意。但缩减预算绝不是当时的球队总经理、比恩的弟子J·P·里恰尔迪一时兴起的冲动做法,而是由于多伦多蓝鸟队的母公司罗杰斯通信公司正受加元贬值的困扰,不得已而为之。

  《点球成金》已经出版10年了,球探和数据怪才之间的争斗使他们耗尽了力气。2004年,红袜队在时隔86年之后再次捧得世界联赛冠军,成功的原因在于球队既充分尊重了球探的意见,也对已有数据进行了细致分析,两相结合成为两个阵营和平共处的关键所在。2003年时还被界定为“球探”阵营的许多球队,如圣路易斯红雀队,此后也越来越多地运用数据分析的方法,这些球队现已成为最具创新精神的棒球队伍。而那些原本就偏好数据的“怪才”队,如奥克兰竞技队,非但没有削减球探预算,反而增加了相关投入。

  2007~2009年的经济衰退促使球队更频繁地采用数据分析的方法。尽管棒球界算是平稳地度过了经济危机,但仿佛每支球队都突然间变成了“点球成金”的球队,都需要将有限预算的价值发挥到极致。廉价的数据怪才一直都供大于求:从哈佛大学和耶鲁大学毕业的经济与计算机专业的高材生,本可以在投资银行谋一份年薪达40万美元的工作,但他们却更愿意搬到坦帕或克利夫兰,日夜不停地工作,拿到的薪水却只有银行薪酬的1/10。对于球队而言,花4万美元聘用一个数据怪才远比投入4 000万美元引进一个自由球员更值得,毕竟这位自由球员的技术水平注定会下滑,很快就会表现平平。

  但这并不意味着数据怪才已经大获全胜了,如果说他们已经证明了自己的价值,那么球探同样做到了这一点。

  PECOTA 是“投手经验比对与优化测试算法”(Pitcher Empirical Comparison and Optimization Test Algorithm)英语单词首字母的缩写,这个冗长名称的缩略词正好是20世纪80年代堪萨斯城皇家队的内野手比尔·裴克达(Bill Pecota)的名字,那时的他对我钟爱的底特律老虎队而言一直是一个威胁。

  PECOTA预测系统最初是为预测投手——而非击球手——的表现而设计的。投手的表现极难预测,因此在用WFG系统进行过数年实验之后——你肯定能猜出来这个缩略词代表的含义

  ——《棒球规程》最终还是放弃使用它,于是年刊中的预测栏曾一度空白。意识到这是一个商机后,我向赫卡贝推荐了PECOTA系统。让我感到有些意外的是,他和《棒球规程》的同事们对这一系统一致认可,他们愿意以股权交换的方式购买PECOTA系统,条件是我得再开发一个相似的系统,用于预测击球手的表现。我欣然地接受了这笔交易。于是,第一组PECOTA预测结果便发表在2003年冬季的《棒球规程》上。

  2003年赛季结束时我们发现,PECOTA系统确实比其他商业预测系统的效果要好一些。事实上,2003~2008年这几年,无论在我们自己还是别人的测试中,PECOTA系统的预测准确度总是与其他系统相当或高于其他系统,同时还推翻了拉斯韦加斯赌场惯用的台词。一些意外的成功使PECOTA名声大振,比如,芝加哥白袜队在2005年加冕世界联赛冠军,但2007年赛季PECOTA却预测该队只能获得72场胜利,惨淡结束赛程。这一预测必然招致芝加哥媒体和白袜队决策人员的一片骂声。但是,这个预测结果却惊人地准确:白袜队最终以72场胜利、90场失利的成绩结束该赛季。 然而,在2009年前后,PECOTA预测系统却被其他系统追上甚至赶超了。正如当年我借鉴詹姆斯和赫卡贝系统的优点一样,其他系统的研发人员也汲取了PECOTA系统的长处,并创建出自己的预测系统,而且有些系统非常棒。各个系统都会对大联盟球员的表现进行预测,如果每年都对这些系统的最佳预测结果做个排序,你会发现,那些最棒的预测系统彼此之间的差距不过一两个百分点。

  但我当时之所以创立PECOTA,还有另外一个目的:对那些像佩德罗亚一样的小联盟球员的表现进行预测,这项任务可能要困难许多。因为当时鲜有预测系统对小联盟进行预测,直到最近才出现类似的系统,所以当时PECOTA系统唯一的竞争对手就是球探。

  2006年,我首次公布了PECOTA系统预测出的100名最具前景的球员名单,和同时期《美国棒球》刊登的球探所列的名单形成对比。PECOTA系统依据这些球员入选大联盟后的前6个赛季中为球队做出的贡献对他们进行排名。

  2011年赛季,也是预测结果发布的第6个年头,此时的我终于可以打开“时间胶囊”,看看这些预测是否准确。虽然名单中的球员如今都还相当年轻,但他们中谁是明星球员,谁是替补球员,谁已江郎才尽,已经一目了然。

  在最具发展前景的棒球球员名单中,佩德罗亚排在第4位,这是PECOTA系统的成功案例之一。当然,PECOTA的成功案例可不止这一桩,该系统当年对伊恩·金德尔的职业前景也很看好,而《美国棒球》并没有把他列入名单。事实上,金德尔自2006年以来两次入选全明星队,还成了得克萨斯流浪者队的主攻手之一。PECOTA系统还看准了麦特·坎普,道奇队的超级明星,2011年麦特·坎普曾十分遗憾地与棒球“三冠王”失之交臂。PECOTA系统当年的这个判断也比《美国棒球》高明。 上面几位也许你还有所耳闻,但你听说过乔尔·古兹曼、唐纳德·莫菲,还有约塞米蒂·佩蒂特这些人吗?若非资深棒球迷,很可能根本不知道这些人。但PECOTA系统也将他们列入了那份名单。

  《美国棒球》难免会看走眼:球探们对布兰登·伍德、拉斯汀·米利奇以及马克·罗杰斯的职业前景十分看好,但他们此后的表现不尽如人意。球探们还认定红袜队的明星投手乔恩·李斯特、洛杉矶道奇队的游击手特洛伊·图洛维茨基以及巴尔的摩金莺队的外野手尼克·马卡提斯会有不俗表现,但他们在小联盟时一直表现平平,PECOTA系统并未将其列入名单。

  现在,我们有充足的数据可以对两个预测系统进行统计学分析。具体来说,我们可以查看每份名单上的球员为自己所在的大联盟球队带来的胜场数,这些胜场数以WARP(超过替补球员的胜场数)的数据形式呈现,这就意味着要收集每一位球员为整场棒球比赛贡献的价值,包括击球、投球及防守。

  PECOTA系统所列名单里的球员在2011年大联盟赛季贡献的胜场数总计为546场(见图3–3),而《美国棒球》所选球员的贡献更大,胜场数总计为630场。尽管球探们的判断有时会出现失误,但他们的工作还是具有非常大的价值的:他们预测的准确度比单纯靠数据分析进行的预测高出15%。这个差距听起来也许不算大,但带来的收益可不小。每赢得一场胜利,棒球队都愿意向球探支付400万美元。这样算来,在过去的6个赛季中,那些球探预测名单上多出来的84次正确预测,会为他们带来总计达3.36亿美元的收益。

  图3–3 2006年PECOTA系统和《美国棒球》列出的100位最具前景球员2011年赛季贡献的胜场数

  球探和数据怪才的偏见 如果PECOTA系统的预测结果能比球探们的预测结果更准确,那自然很好,可我并不期待出现这样的结果。就像我在PECOTA预测名单公布后不久所写的那样 :

  这次球探对战数据怪才的戏码引发诸多趣闻,但我并不期待PECOTA系统给出的排名能与《美国棒球》的排名同样准确。

  预测系统的工作原料是信息。能够同时将球探的推断和统计信息收入囊中,就意味着你拥有更多原料。单纯依靠数据的预测想要打败依靠综合分析的预测,只有一个途径,那就是综合分析的过程中掺杂了过多偏见,若偏见太强,就会削减掉这种分析手段的优势。

  换句话说,那些球探用的是综合分析的方法,他们得到的信息并不局限于统计数据。球探和PECOTA系统都会观察球员的平均击球率和防御率,PECOTA系统毫无主观偏好,也善于从数据中排除部分噪声,并将这些数据排列好。而球探则可以了解到很多信息,这是PECOTA系统做不到的。比如说,球探并非只能依据投手三振出局数推断球员的表现,他们还能够拿出雷达测速仪测定投手投出的快速球的速度,或者用秒表测定他的跑垒时间。

  这一类型的信息更接近我们进行棒球比赛结果预测的根本目标。在美国棒球小联盟中,投手即使投出一个无力快速球也可得分,只要投到好球区,或几种投球混合使用,都可以让不少击球手三振出局,因为大多数击球手实力平平,很容易被战胜。但是在美国棒球大联盟中,击球手甚至能将时速将近158公里(98英里)的快速球击出场外,此时投手只能依靠软抛球谋得胜算。结果是,PECOTA系统很容易被这些伪正数欺骗,但是球探却能够辨别哪些球员具有大联盟水平,哪些球员还需要修炼。

  当然,任何的人为判断都有可能掺杂个人偏见。就像本书前文中提到的那样,对预测持错误态度的人,常以信息过多为借口提出一个不公正的理论,用来描绘世界应该是什么样的,而不是体现客观事实,故而他们获得的信息越多,情况就越糟。

  也许在前“点球成金”时代,球探们带有更多偏见。他们倾向于从美学的角度评判球员,比如球员的球衣合不合身,而不是看这个球员是否具有天赋。若说近些年来位列《美国棒球》预测名单中的那些球员都有不俗表现,那么20世纪90年代,该刊力荐的那些球员的表现就平平了,像托德·范·波佩尔、鲁本·里维拉和奥布莱恩·泰勒等球员的职业前景明显被夸大了。

  数据怪才们也有自己的偏见,其中最致命的一个偏见:若某项因素很难量化,那它就被视为无关紧要。例如,在棒球运动中,很长时期内防守质量要比击球率或投球质量更难测量。20世纪90年代中期,比恩率领的奥克兰竞技队忽视防守,常让马特·斯特尔这类庞大笨拙的球员防守外野,而马特·斯特尔是一个天生的击球好手,却总被安排去防守外野。随着防守技术研究的不断推进,奥克兰竞技队无可避免地为其薄弱的防线付出了巨大代价,每个赛季奥克兰竞技队得多输8~10场比赛。在这种情况下,不管球队的安打表现多好,都不可能跻身热门球队之列了。比恩从中吸取了教训,最近由他带领的球队防守得都不错。

  在预测美国棒球小联盟球员的表现时,这些盲点带来的失误会造成更大的损失。对于一个颇有成就的美国棒球大联盟球员来说,关键是预测他能否续写辉煌。一个聪明的系统可能会预测,球员的发展走势会上下浮动几个百分点。但如果只是简单地假设这个球员下个赛季的表现与前几个赛季相仿,你也不会错得太离谱。通常情况下,球员日后的实力与现在的表现不会有天壤之别。 然而,在主要的职业运动中,棒球属于比较特殊的,因为这项运动中包含着极其复杂的小联盟系统。美国橄榄球联盟很少批准小联盟赛事,美国第一大职业篮球赛事的小联盟数量也不多,但在棒球界,每个大联盟下附有8个小联盟,共有240个小联盟。另外,足球和篮球队员可以从大学甚至高中直接进入职业联赛,变身为球星,这种情况在棒球界却很少见,即使是最有天赋的新秀,也必须在比利斯特、贝克斯菲尔德或宾厄姆顿苦苦地等待进入美国棒球大联盟的机会。

  对这些棒球手的表现进行预测是非常具有挑战性的,因为我们一直在期待这些球员最终能做到他们现在无法做到的事情:参与高水平的赛事,成为大联盟球星。美国棒球大联盟选秀赛非常残酷,就连全美高中时期表现最棒的击球手布莱斯·哈珀,在面对大联盟(选秀)投球时都可能惨遭淘汰。要知道大联盟是勤奋和运气结合的地方,新秀们必须变得更强、更壮、更聪明、更守纪律,才能在大联盟打比赛。假设你来到一所普通高中的课堂上,你应该对那些学生留心地观察几天,然后预测他们当中谁将来会是医生、谁会是律师、谁会是企业家、谁又只能勉强度日。我猜你一定会参考这些学生的成绩和学术能力评估测试分数,再看看谁的人缘更好,但你还必须进行一些大胆的猜测才行。

  很多业余球探(以及所有模仿球探的做法设计出来的数据预测系统)都是这么预测的。尽管一些棒球球员是从大学中选出的,还有很多球员是直接从高中选出的,但球探的“侦察”活动在这些球员十几岁时就开始了。和同龄人一样,这些球员荷尔蒙爆发,经历着青春期的焦虑,身体正在发育,并且需要与酒色的诱惑抗争。如果你把你企业的未来交给这样一群19岁的年轻人,你能放心吗? 生理指标与心理指标 正如刘易斯在《点球成金》中提到的那样,有些球员拥有惊人的天赋却不自知,比利·比恩就属于这样的球员。1980年第一轮选秀后,比恩在大联盟只打了148场比赛,职业生涯的平均击球率仅为0.219。但与约翰·桑德斯相比,比恩的球员生涯还算辉煌,至少他还入选过一次名人堂。

  桑德斯现为洛杉矶道奇队的球探,也曾参加过大联盟比赛,确切地说,他只打过一场比赛,就像《梦幻成真》里的“月光先生”葛兰曼博士一样。1965年4月13日,在堪萨斯城竞技队对阵底特律老虎队的比赛中,19岁的桑德斯作为替补跑垒员,在第七局时上场。但桑德斯当时毫无上垒准备:两个击球手突袭成功,他在下一局开始前就被换下场。从那之后,他再也没有参加过美国棒球大联盟比赛。 桑德斯并非缺乏天赋,他在内布拉斯加州格兰德岛高中读书时一直是位全能体育明星:1963年在州足球队踢四分卫,1964年效力于州篮球队,还曾经得过州田径运动会铁饼金牌。棒球可能并不是桑德斯最擅长的运动项目,但是他线年夏天高中毕业时,他就拿到了奥克兰运动家队职业球员的合约。

  但新秀津贴规则阻碍了桑德斯的发展,断送了他的大好前程。1965年,当时还没有采用大联盟合约,所有业余选手都是自由球员,球队可以根据球员意愿支付薪酬。为防止经济条件较好的球队笼络天资好的球员,新秀津贴规则提出了一项惩罚措施:每个得到大笔签约津贴的球员必须在大联盟球队打满两个职业赛季。但事实上,他们的实力根本就打不了这样的高水平比赛。 这项规则实际上是让像桑德斯这样前途光明的球员吃了“杀威棒”。大多数得到大笔新秀津贴的球员只能坐冷板凳,几乎没有机会去打任何大联盟的比赛。在最需要每天都打比赛积累经验的时候,这些年轻的球员却和比赛无缘。球队的支持者和队友也在纳闷,球队为什么花重金雇这些乳臭未干的19岁“娃娃”来当球童?所以,这些人也不可能理解和同情那些新的年轻球员的困境。在这种情况下,除了桑迪·考法克斯和哈蒙·吉尔布鲁这样的得到签约津贴的球员能咬牙挺下去并最终入选名人堂,当时很多具有潜力的优秀球员在这样困境中都撑不下去。

  从内布拉斯加州最佳运动员到《棒球百科全书》的一个小脚注,这样高低起伏的人生经历让桑德斯对年轻运动员的心智有着独到见解。一天上午,我通过电话联系到桑德斯,当时他正从北卡罗来纳州开车前往芝加哥观看勇士队的最佳附属队的比赛。 早在2003年新奥尔良冬季会议之际,我就觉得桑德斯会孜孜不倦地为棒球付出一生。(短暂的)运动生涯结束之后,桑德斯还在为棒球运动贡献力量。但桑德斯从未从“球探对战数据怪才”的角度看待棒球运动。

  桑德斯告诉我说:“我喜欢估算,喜欢统计学证据,就连从前使用计算器或其他计算仪器处理数据时都觉得很享受。”他接着还说了一件逸事:“一个球探曾说过,‘伙计们,面对现实吧,每天我们到球场后做的第一件事是什么?是到记者席拿最新的数据’。我们拿的是数据啊!那样做有什么不对吗?可你们就是那样做的。”

  的确,自棒球运动诞生之日起,统计数据就一直是其中的一部分。第一份新闻技术统计数据——其中包括得分、安打数、出局数、助杀数及失误次数——是由亨利·查德威克于1859年发表的,而第一个职业联盟直到12年后的1871年才成立。到了“点球成金”时代,许多争论的焦点不是该不该使用数据,而是该使用哪些数据。比如詹姆斯等分析家多年前就提出,和安打率相比,上垒率和得分的关联更大,但这一观点一直不被业界的传统主义者所认可 。

  这样的争论通常涉及那些数据怪才的专业领域,可谓投其所好了。上垒率比平均击球率更有用,投手防御率比他的输赢纪录更能客观体现其水平,这些都是科学事实,就像“地球围绕太阳旋转”一样不容反驳,数据怪才的这些看法自然没有错。对此类争论,数据怪才们只赢不输,这也使得他们有些自鸣得意,忘了自己在别的问题上其实很含糊。 离美国棒球大联盟越远,统计数据的用处就越小,因为此时你需要做得更多的是对球员的表现进行预测,而不是测量。对于那些级别比较高的小联盟,比如2A等级或3A等级小联盟,统计数据的预测作用和大联盟的几乎无异。但是级别较低的小联盟数据就没有那么可靠,大学或高中球员的数据的预测力则更弱。 球探们(预测时)经常会用另外“五大指标”来替代统计数据:击球效力、击球平均数、速度、手臂力量以及防守范围。但这些指标饱受诟病,也确有缺陷。这5项指标并未包括送出保送球和避免三振出局这样的垒上规则。虽然这5项指标会让人觉得它们同等重要,但实际上,除了游击手和捕手之外,对其余所有位置上的球员而言,击球效力要比手臂力量重要得多。

  “五大指标”之所以饱受批评,还有另外一个原因,那就是仅凭这几个指标获得的信息并不全面。随着一名小联盟球员的球技日渐成熟,他的统计数据应当越来越多地体现出这几项指标——当然,很可能这位球员的水平并没有多少提高。实际上,其中有些指标就是统计数据:“击球平均数”表现为平均击球率,“击球效力”表现为二垒安打数和本垒打数。如果球探告诉你某位球员击球效力得了70分(满分80分),但这位球员在阿尔图纳弧线棒球队效力时,每年却只贡献10个本垒打,那么你觉得球探给出的这份报告可信度高吗? 作为业界资深人士,桑德斯对过分强调“五大指标”的做法持怀疑态度。他告诉我说:“这些指标也没有多么玄妙,无非是快速奔跑、用力投球之类的技术,其实人人都懂,只是球探可以在第一时间看到这些数据。问题是,这些技术真的可以有效地塑造得分球员吗?那些指标真能转变为可用的技术吗?以击球速度为例,若一个球员击球的速度很快,但他却不相信自己,总是想去做投手,那他的击球速度就成了不可用的技术,也就是说他的击球效力没有转变为可用的技术。”

  桑德斯不太注重这些生理指标,而是更加看重可用的、适用于比赛的技术。桑德斯认为球员的心理指标可以决定其生理转变的程度。心理指标通常比生理指标显露得晚些。桑德斯的妻子是一位特殊教育工作者,在她的指点下,桑德斯作了一项研究。这项研究表明,大多数人在24岁之前都处于心理未成年期。对于那些年龄小于24岁的球员,如果桑德斯发现其各项心理指标正在发育的话,就会暂缓将其从名单中除名;对于那些年龄大于24岁的球员,就要看其球场表现了。有趣的是,24岁正好是球员在2A级小联盟中效力的年龄,此时刚好可以开始根据其统计数据来预测其球场表现。

  桑德斯并没有明确地指出一个球员的心理指标应当包含哪些内容,但是通过我们之间的交流,对于他认为有助于预测大联盟胜率的五大智力和心理能力,我进行了总结。

  赛前准备和职业道德。与其他职业运动不同,棒球队员一周有六七场比赛。足球或篮球队员只要比赛当天进入状态即可,但是棒球队员不行,他们每天都要保持参加职业赛事的状态。这就意味着他们必须进行一定量的科目训练。桑德斯喜欢提前到达球场,因为他总觉得赛前预热(相比比赛过程)更能体现出队员的科目训练效果。例如,前文中提到的那个9月的晚上,在芬威球场进行场内练习时,佩德罗亚显然比队友更专注。他在进行常规训练,无法忍受任何干扰,这干扰当然也包括某个不知名的记者试图对他进行采访。

  全神贯注和集中精神。尽管和赛前准备有关,但这一项特指球员在比赛过程中自我控制的习惯。棒球是条件反射型运动,击球手只有3/10秒的时间决定是否挥棒击球,内野手在地滚球离垒的瞬间就要做出反应。桑德斯说:“球员若精神不集中,我们也拿他们没辙,但我希望游击手和中场内野手能集中精神应对每次投球。”

  竞争力和自信心。所有职业运动员天生就具有竞争力,这种说法似乎成了公认的道理,所以棒球手在职业生涯早期必须克服自我怀疑和其他心理障碍。前一秒还是高中的风云人物,下一刻却在安纳波利斯到格林斯博罗的大巴车上读着网上有关自己比赛失利的报道,心情立刻跌到谷底,这些都得学着自己调节。每当桑德斯看到一个颇有天赋的球员难以打出成绩时,他总在想:有没有一种成功的欲望能与失败的机制抗衡?对成功的渴望能否足以战胜对失败的恐惧?

本文链接:http://latharnaog.com/duzaosheng/719.html
随机为您推荐歌词

联系我们 | 关于我们 | 网友投稿 | 版权声明 | 广告服务 | 站点统计 | 网站地图

版权声明:本站资源均来自互联网,如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

Copyright @ 2012-2013 织梦猫 版权所有  Powered by Dedecms 5.7
渝ICP备10013703号  

回顶部