现在,越来越难以定义到底Hadoop是什么,亦或是Hadoop不是什么。几年前,Hadoop基本上等于MapReduce,一个处理海量数据的批处理系统,让人们误认为Hadoop即为大数据(Big Data),大数据就是“很多很多的数据”。但如果市场上不存在这样的困惑,今天只会更糟。因为Hadoop正承担和提供着各种各样的功能,而这在两年前被认为是不可能的。
显然,这对于Hadoop平台来讲是极好的,但可能会让Hadoop用户使用起来倍感困难。 Hadoop:方兴未艾 从2007开始,Hadoop就开始存在了,然而尽管投入使用Hadoop的兴趣很是广泛,但直到如今还比较小众。Gartner的分析……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
现在,越来越难以定义到底Hadoop是什么,亦或是Hadoop不是什么。几年前,Hadoop基本上等于MapReduce,一个处理海量数据的批处理系统,让人们误认为Hadoop即为大数据(Big Data),大数据就是“很多很多的数据”。但如果市场上不存在这样的困惑,今天只会更糟。因为Hadoop正承担和提供着各种各样的功能,而这在两年前被认为是不可能的。
显然,这对于Hadoop平台来讲是极好的,但可能会让Hadoop用户使用起来倍感困难。
Hadoop:方兴未艾
从2007开始,Hadoop就开始存在了,然而尽管投入使用Hadoop的兴趣很是广泛,但直到如今还比较小众。Gartner的分析师Svetlana Sicular在tweeter中提到:
尽管对Hadoop有很强的兴趣,实际将Hadoop投入使用的公司却有限,451 Research的一项调查表明:
对Hadoop有兴趣使用的很多,真正使用起Hadoop的却不多,这样的不一致归结于Hadoop的复杂性,Pepperdata的首席执行官补充道。还有一部分是因为厂商过分吹嘘当前Hadoop的功能,让企业用户倍感混乱。
但是,Hadoop的一个最大的优点在于:它的灵活性。
Hadoop“百变金刚”
苏斯(Suess)博士在《老雷斯的故事》中描述了一个建立在thneeds之上的工业背景,thneeds是一种“能够满足所有人需要的所有东西”。如百变金刚一般,Thneeds可以是任何东西(“它可以是一件T恤,一只袜子,一双手套,一顶帽子。但是他还有其他各种用途,没错,远远超过你能想象的。你可以拿它当毯子!枕头!床单!窗帘!甚至自行车坐垫!”)。
Hadoop也是类似的这样一种“能够满足所有人需要的所有东西”。
记得在2012年的时候,Hadoop的创造者Doug Cutting对我说,“Hadoop是大数据的操作系统”,因为“在Hadoop平台上会有一系列的工具让这个生态圈逐渐壮大”。
到如今,他应该更新一下原来的看法,应该说Hadoop“能够胜任绝大多数的应用场景,虽然对于任何场景都不算是最好的。”
很大程度上,这是由于YARN的诞生。从来没有什么项目像YARN这样,对Hadoop有如此之大的影响。YARN是第二代的MapReduce,一个资源和集群管理的工具,对提高Hadoop的实用性具有深远的意义。
Gartner分析师Merv Adrian是这样说的,在Hadoop初期,一切都很简单,Hadoop就是HDFS加MapReduce以及一些小工具。随着这些工具越来越正式,它们纷纷成为了各自的项目,有了Hadoop发行版的商业支持,比如:Pig,Hive,Hbase以及Zookeeper等。几个月前,我注意到,包括Accumulo,Avro,Cascading,Flume,Mahout,Oozie,Spark,Sqoop以及YARN也加入了这个名单中。
YARN之所以重要,不是仅仅在于一系列的Hadoop组件会随着发生改变,而是在于他唤醒的一系列Hadoop组件将会改变Hadoop的意义。YARN让Hadoop不再只是一个做数据分析和ETL的暴力扫描、批处理工具。Hadoop可以成为交互式分析工具、事件处理器、事务系统、一个用户复杂和混合工作负载的安全自治系统。
YARN,让Hadoop力量倍增。
Hadoop社区的喜与忧
这件事有利有弊,MapR的CEO John Schroeder这样说,“没有哪个企业拥有的Hadoop开发者能够超过全部开发者的15%或20%以上,所以你没法操纵Hadoop社区。”无法操纵,也无法引导和指向。
在Hadoop这个大厨房里有如此众多的厨师,出现如此众多的表现形式和功能就不足为奇了。Adrian提到,“像其他人一样,我也会重新定义Hadoop来满足我自己的需求。”
这是Hadoop仍然复杂的关键原因之一。尽管Hortonworks的CEO Rob Bearden的意见是Hadoop公共开发的目标在于让Hadoop“易用和可靠。”
这的确很难做到,事实证明对所有人来讲都好用是不现实的。
正当黎明破晓时
Hadoop如此复杂——难以定义,也难以实现——不过,事实上也可以轻松驾驭。虽然底层的技术仍然复杂,很多公司正致力于将这种复杂性隐藏起来,不再向用户暴露,正如Adrian在tweeter中提到的:
Cloudera的联合创始人Mike Olson早在2012年就曾这样表述,他确信通过云应用提供商,大多数的企业都能挖掘出Hadoop的价值所在。换句话说,不像Hadoop社区那样复杂,技术在不久的将来将不再如此复杂难以驾驭。
但这也不重要,因为像Facebook和Zoomdata各种不同的公司将Hadoop以服务的形式提供给消费者和企业,从而让Hadoop很容易使用。这是Hadoop的承诺:Hadoop社区包括Cloudera和Hortonworks这样的厂商在内,有不断地提高和扩展其技术,并且会对复杂的Hadoop进行抽象和简化,让Hadoop可以在主流企业中应用开来。
翻译
相关推荐
-
Spark尚未“成熟” 用户仍需“专业”
虽然Spark的应用对企业而言已经并不陌生,但对于一些企业来说,这项技术可能还是比较“前沿”。
-
关于如何选择混合云,你不得不知的几件事
近年来,提升云计算能力一直是IT决策者和企业对于未来规划的着重点,随着云计算的不断发展,混合云渐渐成为关键词。
-
【对话Teradata高管】我们很幸运,这是一个“大I小T”的时代
Teradata天睿公司近日在上海举办的“2017 Teradata大数据峰会”上,Teradata天睿公司高管们分享了Teradata在开源技术方面的观点和举措。
-
乘风破浪!拥抱数据洪流
全球产生的数据量达到惊人的地步,2013年生成的数据总量约为3.5 ZB。到2020年,保守估计,全球年数据量将达到44 ZB。企业该如何在大数据的时代取胜?