自从人类基因组计划在2000年获得了人类基因的第一组工作草图,基因排序的成本大幅下降,从每基因1亿美元降到今天的1000美元。同一时期内,我们看到像Hadoop一样的大数据技术,在存储和处理能力上取得了巨大的提升。
“基因排序成本的降低和大数据技术的提升,意味着我们现在有能力对病人基因进行广泛排序并产生之前无法得到的数据集。” Cloudera的生命科学部门负责人Shawn Dolley说。
Cloudera在全球范围内提供基于Apache Hadoop和最新开源科技的快速、便捷以及安全的数据管理及分析平台。近日,Cloudera宣布与隶属于麻省理工大学和哈佛大学的博德研究所合作。该研究所是世界领先的生物医学和基因研究中心。今年两个组织一起致力于推进博德研究所下一代基因分析工具GATK4的发展。
通过向专注于个性化病人体验的临床医生、研究人员和供应商提供实时数据,Cloudera企业版加速生命科学研究和药品研发。在Cloudera企业版上构建的第4代GATK(GATK4),使用Spark分布式计算机网络来加速研究,博德研究所提升了对基因序列的理解,能够对数据加速挖掘,最终获得更佳的临床决定。
“建立基于Spark的下一代工具很大程度上加速了内存计算,并推进了并行性。Cloudera企业版加速了数据探索的访问和计算的回路,大幅降低了研发时间。这是一个科学上具有深远意义的进步,”Dolley说。
目前有超过31000名GATK的注册用户。博德研究所与合作者致力于发展云托管选项,来扩大数据访问,促进基因分析工具的使用,使其产生更强的洞察力和决策能力。用户也可以更容易创建最佳实践途径,避免重复建造基础设施。
“在Cloudera企业版中使用Spark计算框架,给予了我们在GATK3上因其计算复杂程度无法实现的工具”,博德研究所数据科学和数据工程高级总监、GATK软件包创始人Eric Banks博士说,“在Cloudera企业版上,我们可以以快于前代版本GATK二个数量级的速度来运行基因数据分析,加速反复分析,推进基因创新。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
相关推荐
-
乘风破浪!拥抱数据洪流
全球产生的数据量达到惊人的地步,2013年生成的数据总量约为3.5 ZB。到2020年,保守估计,全球年数据量将达到44 ZB。企业该如何在大数据的时代取胜?
-
Dr. Elephant:Hadoop和Spark的优化“神器”
美国加州软件公司Pepperdata的应用程序分析软件建立在Dr. Elephant开源项目上。主要目的是让更多的Hadoop和Spark应用程序投入生产。
-
Spark和Hadoop分析遇障碍?可以试试容器啊
将定制的Spark和Hadoop试点项目转移到生产中是一项艰巨的任务,但容器技术缓解了这种艰难的过渡。
-
Teradata发布开源Kylo软件 实现数据管道快速搭建与管理
企业运用Teradata天睿公司推出的数据湖管理软件平台Kylo,能够更简单、更经济、更迅速地开发数据湖,并专注于实现显著业务成果。