Apache Spark分布式数据处理架构即将进行升级。
2016年在纽约举办的Spark峰会上,Spark 2.0版本的详细信息已透露,其中提到下一版本将包含Spark流处理模块的改进升级和流处理模块的技术方案。
数据流处理技术已经得到业界越来越多青睐,随着更大量的Web数据和移动数据进入组织,越来越多的应用在将关注点转移到了处理动态大数据。
Spark 2.0还包括一些API合并和Spark内核系统的性能提升。另外还更新了SQL查询功能和机器学习API。
不过,其中流处理方面的升级特别重要,因为它采用了基于称为Lambda架构的分布式处理。在Lambda架构中,离线批处理管道可以实时处理管道协作实现数据分析。
Seshu Adunuthula是美国加州eBay公司基础设施分析负责人,他说:“分析师们不想等待24小时或者48小时甚至更久才能得到数据集。你可以看一下人们现在构建的新平台,比如Ubers和Spotifys,它们用的根本不是传统的批量管道处理方式。”
他说,eBay公司的抽取、转换和加载(ETL)任务获益于Spark核心引擎。Adunuthula说他期望研究Spark流处理的新特性,与Google流数据处理(众所周知的Dataflow)比较选择。eBay公司已经利用Apache Storm做了一些数据流处理。Apache Storm是一款Hadoop 2.0组件,Spark出来以后迅速把它超越了。
与Adunuthula想法类似,Synchronoss公司的大数据分析高级总监Suren Nathan表示,他把数据流处理和Lambda架构看作是下一代分析开发的核心。他监管的工作目前关注Spark1.6,他的团队对Spark流处理的应用还在实验室阶段,但是预计在今年晚些时候会进入产品环境。他的团队会密切关注Spark流处理的更新。
Nathan说:“流处理是未来发展的方向,人们希望缩短操作时间。以前获得结果一般需要‘下周’或者‘明天’,现在已经可以‘马上’获取了。”
Spark 2.0亮点有哪些
目前主流Hadoop分布式提供商都已经把Spark加入他们的核心产品组成了,Spark作为针对MapReduce的替代品获得了很多关注。(MapReduce是Hadoop原生大数据分析数据处理引擎)。这种势头在去年底得到了爆发,因为IBM公司表示将在大范围分析产品中使用Spark。
促使Spark流行的因素包括:分析处理的速度,机器学习库,SQL支持和流处理,所有这些方面在下一版升级中都将涉及到。
Matei Zaharia是峰会发起方美国旧金山的Databricks公司CTO,他把Spark作为学术工作的一部分引入了加州大学伯克利分校。他认为,Spark 2.0借鉴了前两年的经验教训。尽管一些新创公司和传统供应商都表示支持Spark,但Databricks开发人员(例如Zaharia)仍然是紧跟开源Apache Spark的主要推动者。
Spark2.0版本预计将于2016年四五月份发布,Zaharia说,其中Spark SQL引擎的高级API将使实时性事件开发更容易。他把整体方法称为“结构化流处理”,这一概念表示它设计之时就考虑同时支持批处理和实时处理两种方式。本次发布是2.0版本的第一次发布,这一版本中流处理将关注使用ETL任务的应用,并将配合Spark目前的机器学习API。
即将支持更多并行处理
Peter Crossley是Webtrends公司的产品架构总监,他非常期待Spark流处理能力的改进。在Webtrends公司,开源Spark软件已经用于Web数据分析,该公司大数据集群中每个季度会增长超过500TB的数据,这正是数据流处理的用武之地。
Crossley指出,Spark流处理架构的内核仍然是面向批量处理的,尽管是微批量模式。现在,数据架构师使用Spark流处理定义了数据窗口概念,所以同一时间只会处理到达数据的一个子集。按数据流子集处理是非常困难的,Crossley期待Spark的版本升级在这方面可以有显著改善。
他说:“我们必须向前看。有了下一代Spark,我们将看到更多并行处理特性。”下一版本Spark流处理将开始提供接入数据的视图,将比现在的配置更直接。
流处理不只是批处理
与其他人看法类似,Crossley表示所谓的Lambda时代可能要给实时处理让路了,实时处理比批处理更普遍。他说:“我们将来会逐渐不再需要批处理了。”
Tony Baer是伦敦Ovum首席分析师,他说:“Spark 2.0有许多有趣的特性。结构化流处理当然是其中之一。即将发布的版本更将确立Spark把批处理与实时处理作为计算引擎的地位。”
Baer说,2.0版本还有一些增强套件也促进了Spark的领先地位。Tungsten是一款分析引擎,重写了代码生成帮助处理CPU瓶颈。同时,其它一些新兴技术也推动了业界选择分析软件向开源分析包的倾向。比如Arrow就提供了内存数据跨不同系统持久化功能,Alluxio(前身是Tachyon)的目标是创建通用内存列数据格式。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
翻译
TechTarget特邀编辑。2003年入软件行业,熟悉软件过程所有环节,对机构信息化的各方面有深入理解和实践经验。现就职于某互联网创业公司,目前关注互联网分布式系统架构和机器学习。喜欢传统文化社科哲学(尤喜《周易》、《老子》),喜健身喜抓举(具备抱人引体向上的能力),喜欢中国象棋(具备盲棋1对2的能力)。
相关推荐
-
Spark尚未“成熟” 用户仍需“专业”
虽然Spark的应用对企业而言已经并不陌生,但对于一些企业来说,这项技术可能还是比较“前沿”。
-
关于如何选择混合云,你不得不知的几件事
近年来,提升云计算能力一直是IT决策者和企业对于未来规划的着重点,随着云计算的不断发展,混合云渐渐成为关键词。
-
【对话Teradata高管】我们很幸运,这是一个“大I小T”的时代
Teradata天睿公司近日在上海举办的“2017 Teradata大数据峰会”上,Teradata天睿公司高管们分享了Teradata在开源技术方面的观点和举措。
-
乘风破浪!拥抱数据洪流
全球产生的数据量达到惊人的地步,2013年生成的数据总量约为3.5 ZB。到2020年,保守估计,全球年数据量将达到44 ZB。企业该如何在大数据的时代取胜?