Apache Spark是一个开源数据处理引擎,2010年产生于加利福尼亚大学伯克利分校的实验室,之后跻身大数据产品之列。去年五月,Apache软件基金会发布了Spark 1.0.0版本。大数据供应商格外看好Spark,认为它更快、更有弹性,可以替代MapReduce处理和分析Hadoop数据。
Spark指出了一些Hadoop最初处理引擎MapReduce的一些缺点,Spark的核心是内存计算,据称运行批处理应用程序可以比MapReduce快100倍。Spark也是更通用的技术,适合加在批处理上的机器学习、流数据、图型处理和SQL查询应用程序。它使用高级API和指令集,和MapReduce相比,Spark让应用程序开发更简单。
不过,目前厂商的炒作仍多于Spark的实际应用,Spark技术还不成熟。比如把它和SQL连接的工具很新。它的内存能力对很多用户来讲价格昂贵。它的API没有MapReduce那么复杂,这往往让企业开发者无所适从。Spark还有很长的路要走。
Spark发展年表:
2009 计算机科学家Matei Zaharia在加利福尼亚大学伯克利分校实验室创建了Spark作为他的博士科研项目
2010 Spark开源,它在代码管理网站GitHub吸引了开发社区
2013 该项目被捐赠给Apache软件基金会,Spark峰会在旧金山举行,有450名参会者
2014 Apache发布了Spark1.0.0,之后又发布了两版。大数据供应商Databricks(Zaharia是联合创始人)使用Spark创建了新的大规模数据处理记录——23分钟处理100TB的数据
2015 Spark东部峰会在纽约举行
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
翻译
相关推荐
-
Spark尚未“成熟” 用户仍需“专业”
虽然Spark的应用对企业而言已经并不陌生,但对于一些企业来说,这项技术可能还是比较“前沿”。
-
关于如何选择混合云,你不得不知的几件事
近年来,提升云计算能力一直是IT决策者和企业对于未来规划的着重点,随着云计算的不断发展,混合云渐渐成为关键词。
-
【对话Teradata高管】我们很幸运,这是一个“大I小T”的时代
Teradata天睿公司近日在上海举办的“2017 Teradata大数据峰会”上,Teradata天睿公司高管们分享了Teradata在开源技术方面的观点和举措。
-
乘风破浪!拥抱数据洪流
全球产生的数据量达到惊人的地步,2013年生成的数据总量约为3.5 ZB。到2020年,保守估计,全球年数据量将达到44 ZB。企业该如何在大数据的时代取胜?