尽管谷歌自己使用的数据基础架构软件不完全是Hadoop,但Hadoop平台却是在谷歌的影响下产生的。而谷歌向来以天才程序员和开发分布式程序闻名。
在波士顿儿童医院举行的数据仓库研究所会议上展示了一些谷歌的数据产品,他们的“技术主管”Jeromy Carriere也出席了这次会议。
Carriere分享了一些有趣的实例。谷歌的大数据程序的确是大。举个例子来说,谷歌在六个多小时内就会生成超过1PB的记录报表。这需要八千台计算机,实验可能要用坏几个磁盘驱动器。
Carriere表示,谷歌要构建基础架构管理工具才能支持大规模的数据通道。编写MapReduce程序还是容易的,“难的是版本、部署和配置”。为了完成这些任务和许多其他任务,公司聘请了一批骨干系统工程师。如果说基础架构就像是管道,那么工程师就可以被称为“未来的管道工人”了。
Carriere认为,谷歌的系统工程师都精通于系统管理。他说:“我们没有这堵墙。”Carriere引用了那句经常用来形容开发者的话——“把软件扔到墙外”,让系统管理员去搞定吧。
谷歌和开源软件的关系很特别。谷歌向来自己打造,绝不购买,它虽然没有正式地支持开源,但广为人知的是,它发表了很多有影响力的技术论文。
Hadoop两个主要组件HDFS和MapReduce都是在谷歌的技术论文的影响下形成的。另外,谷歌的Big Table也为Hadoop HBase做了铺垫。
谷歌诸多努力的背后,是改善现存关系型数据仓库方法和将其应用到分布式环境中的愿望。这是一项了不起的工作。
钻研数据分析
谷歌在数据分析领域发展了很长时间,这家举世闻名的公司如何管理收集来的信息,蕴藏着巨大的利益。谷歌的数据开发文化与众不同,资金充足,它开发分布式数据基础架构的能力也让大多数公司望尘莫及。
美国Athena IT解决方案咨询公司创始人Rick Sherman表示:“谷歌开发自己的软件来处理它们大量的非结构化数据,对于全世界来说都很有意义。”但他也提醒,能够玩转Hadoop基础架构管理的人才很不好找。谷歌的团队做起来尚不容易,普通公司做起来就更难了。
Sherman表示,未来在云端能够解决这一问题。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
翻译
相关推荐
-
Spark尚未“成熟” 用户仍需“专业”
虽然Spark的应用对企业而言已经并不陌生,但对于一些企业来说,这项技术可能还是比较“前沿”。
-
关于如何选择混合云,你不得不知的几件事
近年来,提升云计算能力一直是IT决策者和企业对于未来规划的着重点,随着云计算的不断发展,混合云渐渐成为关键词。
-
【对话Teradata高管】我们很幸运,这是一个“大I小T”的时代
Teradata天睿公司近日在上海举办的“2017 Teradata大数据峰会”上,Teradata天睿公司高管们分享了Teradata在开源技术方面的观点和举措。
-
乘风破浪!拥抱数据洪流
全球产生的数据量达到惊人的地步,2013年生成的数据总量约为3.5 ZB。到2020年,保守估计,全球年数据量将达到44 ZB。企业该如何在大数据的时代取胜?