日前,SAP发布新的程序更新包,并将在Hadoop中集成分析和数据库技术,包括倍受追捧的HANA内存数据库平台和Sybase IQ(列式数据库)。
另外,SAP还宣称该程序包将与Hadoop、SAP Data Integrator和SAP BusinessObjects BI套件进行集成。
新的程序包由SAP和Cloudera、Hitachi Data Systems、Hortonworks、HP、IBM等多家合作厂商共同推出,将为客户提供一套高级数据仓库解决方案,以对来自多种数据源的大型数据集进行实时分析。
Hadoop是基于Java的免费编程框架,通过使用多台机器对分布式计算环境中的大型数据集进行处理,属于Apache软件基金会赞助的项目。
该程序包能够使SAP用户运用多种方式将Hadoop集成到现有BI和数据仓库环境中。
企业可以使用数据集成器从Hadoop分布式文档系统(HDFS)或Hive数据库中读取数据,然后将相关数据载入HANA或Sybase IQ中。同时,BI用户仍然可以继续使用他们现有的报表和分析工具。
客户还可以在Sybase IQ和Hadoop环境中运行查询;BusinessObjects BI用户可以查询Hive数据库,直接开发Hadoop环境。
SAP大数据策略负责人David Yonker称,SAP支持Hadoop和HANA的集成。
Hadoop一次性扫描或处理大量数据的能力出色。Yonker说:“如果你想要扫描几PB的数据,它确实很管用。但是是否实时呢?不,但是已经不错了。”
相较而言,HANA这样的内存数据库可读取所有数据,不仅仅限于与特定查询相关的子集。
“正因如此,二者应该有机结合。它们匹配得很好。”
Yonker举例,日本有一家生物信息公司Mitsui Knowledge Industry,目前正在进行整合Hadoop和SAP HANA的POC项目,以开发癌症治疗法,原理在于不同的人由于DNA不同所作出的反应也不一样。
该项目的流程包括使用Hadoop对病人的数据进行分析,然后将它们与正常的数据链进行比对。由于数据量之大,这一流程大概需要两天的时间。
“你必须读取所有的DNA数据,包括健康的和病变的,而无法只读取某个子集。”但在使用了Hadoop之后,两天的时间缩短到了20分钟,而且估计还将减半。
下一步就是使用HANA将其与其他病人的DNA样本进行比对。“这一步,你是在与1000万到2000万的DNA样本比对。这是高级的迭代查询,也就是说你需要在系统中运行1000万到2000万次查询。”
今年SAP可谓在Hadoop系统上大做文章。6月的时候,SAP发布了BusinessObjects 4.0和Feature Pack 3,同时宣布支持HiveQL——一种在Hadoop中使用的简单的SQL式查询语言。
SAP BI市场副总裁Jason Rose说道:“现在,在大家一直使用的同一款信息设计工具中,我们对HiveQL进行支持;这样一来,你就可以将Hadoop中的信息引入并搭配到BI环境中去。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
翻译
相关推荐
-
乘风破浪!拥抱数据洪流
全球产生的数据量达到惊人的地步,2013年生成的数据总量约为3.5 ZB。到2020年,保守估计,全球年数据量将达到44 ZB。企业该如何在大数据的时代取胜?
-
Dr. Elephant:Hadoop和Spark的优化“神器”
美国加州软件公司Pepperdata的应用程序分析软件建立在Dr. Elephant开源项目上。主要目的是让更多的Hadoop和Spark应用程序投入生产。
-
Spark和Hadoop分析遇障碍?可以试试容器啊
将定制的Spark和Hadoop试点项目转移到生产中是一项艰巨的任务,但容器技术缓解了这种艰难的过渡。
-
Teradata发布开源Kylo软件 实现数据管道快速搭建与管理
企业运用Teradata天睿公司推出的数据湖管理软件平台Kylo,能够更简单、更经济、更迅速地开发数据湖,并专注于实现显著业务成果。