在美国举行的2014数据仓库研究所TDWI高峰会议上,有着丰富数据生命周期管理经验的咨询师Richard Winter做了演讲,他指出使用开源Hadoop架构时,要注意计算数据成本。因为很多隐性的成本潜伏在表面免费的架构中,常常被人忽略。硬件成本只是很少的一部分。
Winter表示:“很多Hadoop的成本并非来自系统本身,比如开发和管理系统的成本就不容小觑。”
Winter指出,针对Hadoop集群的应用开发和周边工具集的开发依然是Hadoop发展中最重要的。总体来看,Hadoop还是所有数据架构中比较廉价的。
不过Winter建议,数据管理者在衡量Hadoop可用性的时候,应该看具体的应用类型。
计算IT成本
Hadoop是以Java为基础的,对于如何衡量Hadoop的成本,Winter建议道要兼顾存储、管理、分析、开发和系统成本。在他的研究中,他也引用了一些一般性数据,比如他从一个追踪薪酬的网站了解到一般Java开发者的薪水,而他要为员工增加50%的一般性开销。Winter还在自己的网站上列出了更多资料。
Winter还考虑了Hadoop中开发查询的成本,这是只有高水平的开发者才能胜任的。同时,他还比较了在数据仓库和Hadoop环境下做简单查询和复杂查询需要的代码数和成本有什么不同。他发现,在Hadoop环境下创建查询要复杂的多,Hadoop文件系统、MapReduce、Java和SQL替代品(比如Hive)等都需要更多的代码,这是企业面临的问题。
Winter表示:“只在一小部分公司中,Hadoop应用的很广泛,因为这些公司本身有很强大的Java团队。”而在大多数公司中,Hadoop的应用还很有限。
善用技术优势
在峰会现场,Winter采访了很多与会者,询问数据仓库项目和Hadoop项目的成本问题,不同的用户给出了截然不同的回答。
如果把所有费用都考虑进去,用Hadoop重新创建一个企业级数据仓库系统要比使用传统基于SQL的数据仓库贵得多。但如果你需要数据分级处理系统或数据池风格的应用系统支持数据分析工作,那么Hadoop在还是有成本优势的,虽然它的花费也很多。
Winter指出,Hadoop可以监测大量数据中的异常值,哪怕只有细微变化,工作人员都可以发现。这在物联网领域有很重要的应用。以航空公司的引擎数据分析为例,只有在数据偏离异常值的时候,数据才有被关注的价值。
很多因素,包括用例都会影响技术类型的选择。比如在系统拥有更多数据源、更多用户、需要更多查询的时候,久经考验的数据仓库技术就能表现出卓越的技术优势。但如果情况正相反,你可能就要选择Hadoop了。
进一步讲,Hadoop和传统数据仓库更有可能融合使用。数据管理者要做的不只是为应用挑选正确的平台,还要了解不同的技术,同时采用,分开使用。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
翻译
相关推荐
-
乘风破浪!拥抱数据洪流
全球产生的数据量达到惊人的地步,2013年生成的数据总量约为3.5 ZB。到2020年,保守估计,全球年数据量将达到44 ZB。企业该如何在大数据的时代取胜?
-
Dr. Elephant:Hadoop和Spark的优化“神器”
美国加州软件公司Pepperdata的应用程序分析软件建立在Dr. Elephant开源项目上。主要目的是让更多的Hadoop和Spark应用程序投入生产。
-
供电创新:Enedis如何为法国95%的地方供电?
将分析和数据交到工人手中(字面上)改变了Enedis的文化。最近,他们为员工部署了10000多个现场平板电脑和智能手机,并开发了一个内部应用商店。
-
拥抱开源 DevOps引领大数据生态系统
为了继续推进大数据工程,团队需要非常认真地追求DevOps的信条,尤其是要求数据工程师和IT架构师负责将创新思想运用到生产过程中。