在物联网数据分析和可视化大会上,一些参会者表示,企业拥有日益增长的大量物联网数据,Apache Spark数据处理框架在提升企业数据资本化能力方面扮演重要角色。
物联网技术的采纳率在IT领域增长最快,但是为了处理从可用连接设备获取的数据,企业需要具备收集、处理和分析能力。这正是Spark发挥作用的地方。Spark这款分布式计算框架处理海量数据的速度非常出色,因而很自然就成为了物联网数据分析的首选。
Ashok Srivastava是Verizon公司(美国一家无线运营商)首席数据科学家,他说:“Spark正适合做物联网。”他在这家无线运营商负责的数据科学研究团队在寻求对现有企业数据应用高级分析和机器学习技术的方案,期望为企业生产领域创造新的收入。
Spark处理多元化数据类型
例如,他和他的团队要根据过去的网络流量来预测未来的流量水平。他们还要与Verizon的农业服务部门合作,帮助优化农作物种植增加产量,这要通过分析传感器数据看哪种类型的农作物在哪些区域生长效果好,并分析它们需要怎样的生长条件。
每一种案例中需要处理的数据都是多种多样的,Spark都能处理得非常好。在团队的各种项目中,他们使用Spark的机器学习库和流分析算法用于低延时应用。Srivastava说,如果能利用好这些各种各样的数据类型,可能获得巨大的商业价值。
“我认为我们对已拥有异构数据结构思考的越多,就会有更多的机会等着我们。”
Soundar Srinivasan是Robert Bosch有限责任公司负责数据挖掘服务和解决方案的高级工程经理,在他看来,Spark的主要作用是与各种数据系统交互对接的能力。Bosch公司正变成为物联网技术的大用户,该公司产品可以监控制造业流程,包括汽车零部件和电动工具。通过收集生产线效率数据,该公司可以发现降低效率的点并实施更正。
预测分析节约制造业成本
对于农业设备中的液压泵,Srinivasan和他的团队可以识别冗余的质量测试,保证产品向市场的发布。他们使用预测分析功能来预测质量测试的结果,生产线不需要真正执行每个测试。这样缩短了生产泵设备的测试和矫正周期的35%,每年可以为公司节约50万美元。
Srinivasan说:“我们努力利用数据收集和分析解决实现产品需求和市场迅速推广之间的冲突,同时仍然要确保满足一定的质量标准。”
他说Spark正是管理这种流程的优秀平台,因为他的团队使用了数据管理和分析工具的复杂矩阵。在后端他们使用Sqoop来摄取数据,用Hive来存储数据,用R和Python分析数据并构建预测模型,用Tableeau对结果进行可视化展现。Spark位于所有架构产品的中心,有效地将整个过程整合到了一起。
不是所有人都推崇Spark
尽管有这么多优点,但并不是所有与会者都推荐将Spark用作物联网引擎。Emil Berthelsen是Machine Research公司的首席分析师,他认为Spark对于构建当今物联网数据分析平台毫无疑问是有用的工具,但是归根结底还不能算是支持物联网数据分析应用的最佳工具。
Berthelsen解释了其中的原因:Spark的本质是面对既有数据的处理和分析技术,他认为Spark并不足以满足物联网的挑战。他说,传统的数据管理和分析技术来自于像SAS Institute和IBM这些公司,那些技术非常擅长处理预定义收集频率的结构化数据。但是那些技术和产品在面对物联网应用多变的数据类型时处理的并不好,从这一点上考虑,他推荐更有针对性构建的工具——例如 Splunk。
Berthelsen说:“关键问题是这些产品都是面向通用领域的,而不是专门为这个领域而设计。物联网与别的领域是有差异的,它的结构化程度更弱,你不知道会遇上什么样的数据。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
翻译
TechTarget特邀编辑。2003年入软件行业,熟悉软件过程所有环节,对机构信息化的各方面有深入理解和实践经验。现就职于某互联网创业公司,目前关注互联网分布式系统架构和机器学习。喜欢传统文化社科哲学(尤喜《周易》、《老子》),喜健身喜抓举(具备抱人引体向上的能力),喜欢中国象棋(具备盲棋1对2的能力)。
相关推荐
-
Spark尚未“成熟” 用户仍需“专业”
虽然Spark的应用对企业而言已经并不陌生,但对于一些企业来说,这项技术可能还是比较“前沿”。
-
【对话Teradata高管】我们很幸运,这是一个“大I小T”的时代
Teradata天睿公司近日在上海举办的“2017 Teradata大数据峰会”上,Teradata天睿公司高管们分享了Teradata在开源技术方面的观点和举措。
-
乘风破浪!拥抱数据洪流
全球产生的数据量达到惊人的地步,2013年生成的数据总量约为3.5 ZB。到2020年,保守估计,全球年数据量将达到44 ZB。企业该如何在大数据的时代取胜?
-
【2017 Teradata大数据峰会直击】Teradata专注提升数据分析能力,致力挖掘客户业务价值
数据分析解决方案供应商Teradata天睿公司今日(2017年5月19日)在上海举办2017 Teradata大数据峰会。