在讨论大数据分析时,我们可能多次提到神话般的DevOps精神。我会引用一个虚构的人物,他在一家著名的互联网公司工作——我们暂且叫它为TwittleBookOhBoy.com。我们将带你进入该公司位于西海岸的实验室。
这个人有能力编写Java机器学习分类器,配置Hadoop集群——修了一下自己的自行车和喝了杯咖啡,然后再回去修改出错的Python查询,生成了一个关于拉脱维亚关键字趋势的报告。这就是他一天的活动。
但是,Hadoop的发展历史告诉我们,虽然与MapReduce编程相关的高级Java技能一定程度上能够帮助组织提高数据处理效率,但是仅仅这些还不足以帮助组织实现全部目标。开发者们一直在忙于开发能从更高抽象层次上解决这个问题的工具,甚至其中有一位开发者还来自于伯克利。
等待SQL
Michael Fabacher是美国亚特兰大Cardlytics公司负责数据架构与数据库开发的副总裁,他的公司通过深入分析销售点数据来生成针对于信用卡和借记卡用户的零售与餐馆推广活动。最近我与他探讨Hadoop之上的SQL话题时,我想到了要等待SQL。
Fabacher指责说:“我们在‘东海岸’,这里有很多精通SQL的人。”或许,他主要是针对于西海岸经常宣传的Hadoop和DevOps精神。他的团队在使用由MapR支持的Hadoop。另外,他们还使用MapR的Drill软件支持Hadoop上使用SQL的应用程序。Drill是一种新型SQL风格工具,它遵循由Facebook最先提出的Hive技术的方式。Fabacher并没有放弃这个讽刺,为了表示对西海岸顶尖开发者的不认同,Facebook的开发人员决定开发一个能够帮助他们和同事使用SQL操作Hadoop数据的软件。
他说:“Facebook的工程师非常优秀,他们的时间不应该浪费在编写MapReduce作业上。”他是对的。或许,DevOps和Hadoop的快速发展需要调整一下。
Dremel、Impala、Drill和Presto
很大程度上看,Hadoop之上的SQL始于Hive。它最早是由Facebook在2007年提出的;当时它成为了一个Apache开源项目。Hive能够将一些SQL命令转换为MapReduce作业,从而去掉了一层复杂的编程。这个软件扩大了Hadoop在Facebook及其他公司的使用,而且现在它已经成为所有Hadoop主流发行版的一部分。与MapReduce类似,它的血统源于Hadoop分布式文件系统(HDFS)的批处理作业。
451 Research分析师Matthew Aslett说:“如果了解Hive的起源就知道,它的目标是让一些有能力编写SQL查询的人能够操作HDFS。它就是将SQL技术集带到Hadoop中。”从那时开始,Hive发展迅速。但是,同时也出现了许多新型工具。
这其中包括Impala、Drill和Presto,它们每一个都有一个企业赞助商(分别是Cloudera、MarR和Teradata),但是也提供了Apache软件基金会开源授权版本。Aslett指出,这些工具在MapReduce发起者谷歌的Dremel计划中占据重要位置,后者是一种在MapReduce上使用的SQL风格语言,关于它的介绍可以参见2010年发布的一篇谷歌技术论文。
要使用正确的工具
这些工具每一个都尽量不去执行完长时间的批处理任务,而是提供高性能大数据分析交互性。有意思的地,Hive发明者Facebook也是Presto的发起者,这家公司于2012年首次在内部使用这个工具,然后它投资了Teradata将它开发成一个产品。
谷歌开发了Dremel,它的目标作为MapReduce的补充而非替代,以实现已抓取网页文档的规模化交互式分析、跟踪Android商店网站应用的安装数据、谷歌产品的崩溃报表、广告邮件分析等。
现在行业正在推进用SQL-on-Hadoop产品来替代原始MapReduce分析,这个举措有一定的争议性。有一些观察人员可能会质疑,是否真有必要开发这些优化工具,或者它们是否有一定的夸大因素。但是,这些工具的出现仍然引起了很大的关注——它们有许多都来自于一些重量级程序员,他们认同一个格言:要用正确的工具去做正确的事情。这些工具来自于真实需求。而且,即使是在TwittleBookOhBoy.com,DevOps也不是唯一的热点;现在已经有一个大团队,其中还有搭配合理的优秀成员。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
翻译
TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。
相关推荐
-
拥抱开源 DevOps引领大数据生态系统
为了继续推进大数据工程,团队需要非常认真地追求DevOps的信条,尤其是要求数据工程师和IT架构师负责将创新思想运用到生产过程中。
-
Spark和Hadoop分析遇障碍?可以试试容器啊
将定制的Spark和Hadoop试点项目转移到生产中是一项艰巨的任务,但容器技术缓解了这种艰难的过渡。
-
Tableau预测:自助式大数据分析时代正在来临
对于大数据而言,2016年是具有里程碑意义的一年,更多企业和机构在该年度存储和处理各种形态和规模的数据,并从中提取有价值的信息。
-
预测分析工具VS情感驱动 谁能左右分析结果?
使用预测分析工具的企业用户有个普遍的共识,那就是数据始终驱动业务决策。 但在政治领域,这种说法并不是那么适用。