开源分布式架构Apache Hadoop的最新版本2.0.3于近日更新。在这次版本更新中,主要增加了以下几个特性:
1. 引入一种新的HDFS HA解决方案QJM
之前NameNode HA已经有两种解决方案,分别是基于共享存储区的Backup Node方案和基于Bookeeper的方案,在该版本中引入另外一种方案:QJM(Quorum Journal Manager)。
该方案(HDFS-3077) 采用了quorum commit protocol,引入两个角色:QuorumJournalManager和JournalNode,QuourumJournalManager通过 RPC将edits日志写入N个JournalNode,只要有大多数(大于N/2个)JournalNode成功写入则任务日志写入成功。
2. YARN 多资源调度机制
在该版本中,YARN的资源调度器同时支持内存和CPU两种资源调度,采用的调度算法源自Mesos的DRF(Dominant Resource Fairness),对应论文为:“Dominant Resource Fairness: Fair Allocation of Multiple Resources Types”,具体可参考 YARN-2和 Apache Mesos调度机制。
YARN对内存资源和CPU资源采用了不同的资源隔离方案。对于内存资源,为了能够更灵活的控制内存使用量,YARN采用了进程监控的方案控制内 存使用,即每个NodeManager会启动一个额外监控线程监控每个container内存资源使用量,一旦发现它超过约定的资源量,则会将其杀死。采 用这种机制的另一个原因是Java中创建子进程采用了fork()+exec()的方案,子进程启动瞬间,它使用的内存量与父进程一致,从外面看来,一个 进程使用内存量可能瞬间翻倍,然后又降下来,采用线程监控的方法可防止这种情况下导致swap操作。对于CPU资源,则采用了Cgroups进行资源隔 离。具体可参考 YARN-3。
3. YARN ResourceManager重启机制
该版本引入了一个简单的ResourceManager重启机制,保证RM重启后,各个应用工程序可继续运行而不受影响。需要注意的是,这只是第 一阶段的实现,还很不完整,比如不能向NameNode HA那样做到自动切换,不能恢复所有正在运行的Container,Application和ApplicationMaster而只是重新启动另外一个 而已,具体可参考 YARN-230。
4. YARN稳定性和扩展性得到验证
Yahoo已使用YARN在超过3万个节点上运行了14 million个应用程序,具体可参考: Hadoop at Yahoo!: More Than Ever Before。
详细信息:Announcing Apache Hadoop 2.0.3 Release and Roadmap
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
作者
相关推荐
-
Spark尚未“成熟” 用户仍需“专业”
虽然Spark的应用对企业而言已经并不陌生,但对于一些企业来说,这项技术可能还是比较“前沿”。
-
关于如何选择混合云,你不得不知的几件事
近年来,提升云计算能力一直是IT决策者和企业对于未来规划的着重点,随着云计算的不断发展,混合云渐渐成为关键词。
-
【对话Teradata高管】我们很幸运,这是一个“大I小T”的时代
Teradata天睿公司近日在上海举办的“2017 Teradata大数据峰会”上,Teradata天睿公司高管们分享了Teradata在开源技术方面的观点和举措。
-
Tableau 携手神州数码 推进中国商业分析发展进程
为了帮助商业领域的更多从业者使用数据,在更短的时间内做出更好的决策,可视化分析领域的Tableau Software今天宣布与神州数码集团建立合作伙伴关系,在中国的商业分析进程中展开深度合作。