Hadoop是日益受人瞩目的分布式处理技术,在大数据环境下表现卓越。但是要向非技术出身的企业领导者解释Hadoop技术,并不容易。于是,供应商就想出了这样一个比喻,假设企业有一个数据池,Hadoop就是能够存储各种各样不同数据流的中央存储器。和传统数据仓库向外“供水”不同,Hadoop更能吸收不同的“水源”。
Hadoop集群使用的是个人电脑,是一种相对廉价的存储方法。更为吸引人的是,它能储存一系列结构化、半结构化和非结构化的数据,包括日志、网页点击流、传感器数据和社交媒体数据。极大地适应了大数据时代对数据存储的要求。存储在Hadoop中的数据无需清洗、也不会形成数据孤岛,你可以随时提取元数据或者系统化的数据。
说到数据池,这个概念来源于英语data lake,在Twitter上还有很多变体,比如数据沼泽、数据湿地、数据水坑等。实际情况是,大多数企业都只是刚刚尝试Hadoop和数据池,还没有完全搭建起成熟的架构。
传统的数据仓库最大的问题就是数据孤岛问题,Hadoop系统克服了这一困难,因此受到越来越多的企业的青睐。但作为一项技术,Hadoop最终的目的是为业务人员所用,怎样从Hadoop存储的数据中提取更大的价值,是目前Hadoop面临的主要问题。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
翻译
相关推荐
-
Spark尚未“成熟” 用户仍需“专业”
虽然Spark的应用对企业而言已经并不陌生,但对于一些企业来说,这项技术可能还是比较“前沿”。
-
关于如何选择混合云,你不得不知的几件事
近年来,提升云计算能力一直是IT决策者和企业对于未来规划的着重点,随着云计算的不断发展,混合云渐渐成为关键词。
-
【对话Teradata高管】我们很幸运,这是一个“大I小T”的时代
Teradata天睿公司近日在上海举办的“2017 Teradata大数据峰会”上,Teradata天睿公司高管们分享了Teradata在开源技术方面的观点和举措。
-
乘风破浪!拥抱数据洪流
全球产生的数据量达到惊人的地步,2013年生成的数据总量约为3.5 ZB。到2020年,保守估计,全球年数据量将达到44 ZB。企业该如何在大数据的时代取胜?