企业越来越多地使用数据可视化工具(如Tableau)分析复杂的数据。
Tableau软件通常被认为是一个轻量级的软件,功能简单易用。但是越来越多的用户把它应用到更复杂的大数据环境中,使数据可视化工具的效用达到最大化。
数据科学工程团队产品经理Gaurav Kumar说:“数据本身是很没有意义的,想要挖掘数据中的价值,就需要利用数据可视化工具。
他列举了一些公司面临的大数据挑战,其中包括汇集来自一系列硬件和软件平台的数据。相机公司将日志数据发送回服务器保存,所以公司可以跟踪人们如何使用他们的产品,带有摄像头的视频编辑软件公司也面临着相同的情况。除此之外还有更多的传统的数据源,如CRM系统和其他业务应用程序。
Kumar和他的团队已经把所有的数据到放到一个平台,这些数据可以在指导产品开发和营销计划中扮演重要角色。大数据环境中使用Kafka and Spark Streaming将流数据库日志文件放到HBase数据库。然后把CRM和ERP系统中的数据提取、转换和加载,存入Hive数据存储中。数据经过进一步细化,通过Cloudera Impala传送到数据集市,Cloudera Impala可以通过Tableau使用。
Tableau呈现大数据问题
这样看来,数据进入Tableau可能要经过一个漫长而曲折的过程,这个过程通常用于桌面部署中分析小数据文件或在单服务器中设置。但Kumar说,一旦你“理顺”了后端系统,该软件可以有效地访问和报告数据。
Kumar说,“我们有各种各样的数据,目前的挑战是把来自不同地方的数据进行转换,供分析师使用。”
Tableau用于大数据环境的部分原因基于其底层查询工作结构。它将通过编写SQL查询处理数据。如果数据库中的数据可以用SQL查询,那么它也可以在Tableau中使用。
内容数据的高级分析工程师Jason Flittner表示: “当你在Tableau分析数据时,Tableau会编写SQL语句并将其发送到你的数据库。”
Flittner的团队利用Tableau来分析用户如何使用Netflix上的内容。这有助于决定编程类型,以完成生产或收购。数据主要来自用户会话,包括编程人员观察他们是否完成编程,以及是否存在人们倾向于跳过的编程部分。
拥有约7500万的流媒体客户,这无疑是一个巨大的数据量。所有的数据被加载到Amazon Simple Storage Service服务器。团队使用Hadoop来处理数据,结合Hive, Spark and Presto完成数据接口,这些工具都支持SQL查询。这样数据也可以在Tableau以及其他工具,如MicroStrategy和Python编程语言中使用。
数据可视化带来了大数据
Ebates网站帮助在线购物者找优惠券和折扣,分析团队想要拥有一个快速、灵活、可伸缩的和便宜的平台。他们选择构建基于Hadoop的大数据环境,满足可扩展性和成本问题。但快速访问数据就是另外一回事了。为此,他们从AtScale转向使用软件,这样可以使用SQL查询引擎访问Hadoop数据。
现在,该公司使用Hadoop作为集中式数据中心,并为类似于该平台上的Web流量数据进行分类的事情做BI报告。Ebates的分析主管Mark Stange-Tregear表示,将Hadoop的数据处理能力与Tableau的简单报告相结合,将帮助开放更深层次的数据存储。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
相关推荐
-
Spark尚未“成熟” 用户仍需“专业”
虽然Spark的应用对企业而言已经并不陌生,但对于一些企业来说,这项技术可能还是比较“前沿”。
-
关于如何选择混合云,你不得不知的几件事
近年来,提升云计算能力一直是IT决策者和企业对于未来规划的着重点,随着云计算的不断发展,混合云渐渐成为关键词。
-
【对话Teradata高管】我们很幸运,这是一个“大I小T”的时代
Teradata天睿公司近日在上海举办的“2017 Teradata大数据峰会”上,Teradata天睿公司高管们分享了Teradata在开源技术方面的观点和举措。
-
Tableau 携手神州数码 推进中国商业分析发展进程
为了帮助商业领域的更多从业者使用数据,在更短的时间内做出更好的决策,可视化分析领域的Tableau Software今天宣布与神州数码集团建立合作伙伴关系,在中国的商业分析进程中展开深度合作。