美国国家橄榄球联盟(NFL)本周举行锦标赛大会,Scott M. Sawyer谈到大量难懂的数据,对获胜球队进行预测。
Sawyer的计算机分析团队来自麻省理工学院,他的研究领域包括大数据和并行算法。最近,他正在开发一项网络应用,解析自2002年至今的NFL赛况数据。那么,他发现了什么呢?
- 2002年以来,4号和1号位冲阵的成功几率为71%,如果把传球也算上的话就是66%。也就是说,球队应该让4号和1号冲阵。
- 2002年以来,新英格兰爱国者队得分率为40%,都在比赛最后5分钟之内攻下了一分。联赛平均得分率为34%。
- 巴尔的摩乌鸦队在第一次与丹佛野马队的配对防守中,传球成功率大大超过冲阵。这个结论很有意思,因为野马队的四分卫是大名鼎鼎的Peyton Manning。
Sawyer的研究方法在概念上相当简单。他提取出从2002年到2012年十年间NFL的赛况数据,这些数据已经由高级NFL统计部门的Brian Burke归档为逗号分隔值(CSV)。在海量的Excel表格文档中,每一行代表着NFL在某一季的一次比赛,信息十分详尽,包括攻守组、每一节的时间记录以及场地位置等。另外,还有关于每一次比赛的描述,如“(13:13) (枪响开始),12号T. Brady把球左传给了34号S. Vereen,推进33码线,达阵。”
接下来,Sawyer会处理这些CSV文档,用数小时来编写Python编码,然后针对每一行进行分析。他会过滤掉那些非进攻型的打法,比如踢球和点球,判断它们是传球还是冲阵,得出攻占与失守的码线,再对每一次打法成功与否进行标注。如果该打法引发了第一档进攻并达阵,或者在第一档或第二档进攻中至少推进4码线,就算成功。
下一步,Sawyer把所有数据传输到MySQL数据库中。
他表示:“我不指望能在这个项目上赚到钱,但也不希望赔损太多。我使用的是便宜的共享主机,MySQL在以最低限度的CPU周期将信息传送给访客方面最为合适。”
Sawyer还提到,MySQL已经安装配置到他的虚拟主机,而且他正在使用广泛索引和查询缓存以降低网络服务器的工作负荷。
虽然数据都是CSV文档,但由于每一次比赛都存在非结构化文本描述,还是会有人把它们归到大数据的范畴中去。Sawyer却认为这有点言过其实。关于比赛的文本语料库总共有64MB,并不大。他经过解析描述以后,把它们降到了30MB,但在导入MySQL并使用索引之后又上升到了100MB。
即便如此,Sawyer也不担心。他预测数据还会变得更大,因为还要不断引入更多的资源,比如比赛时的天气因素或者分析结果。
他指出:“如果你真的想要预测冠军,就需要大量的信息,但短期内还不至于达到TB或PB的级别。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
翻译
相关推荐
-
Spark尚未“成熟” 用户仍需“专业”
虽然Spark的应用对企业而言已经并不陌生,但对于一些企业来说,这项技术可能还是比较“前沿”。
-
【对话Teradata高管】我们很幸运,这是一个“大I小T”的时代
Teradata天睿公司近日在上海举办的“2017 Teradata大数据峰会”上,Teradata天睿公司高管们分享了Teradata在开源技术方面的观点和举措。
-
乘风破浪!拥抱数据洪流
全球产生的数据量达到惊人的地步,2013年生成的数据总量约为3.5 ZB。到2020年,保守估计,全球年数据量将达到44 ZB。企业该如何在大数据的时代取胜?
-
【2017 Teradata大数据峰会直击】Teradata专注提升数据分析能力,致力挖掘客户业务价值
数据分析解决方案供应商Teradata天睿公司今日(2017年5月19日)在上海举办2017 Teradata大数据峰会。