比起传统分析应用程序,建立预测模型和机器学习算法的数据科学家通常需要完成更多的数据准备工作。 越来越多的企业选择构建可支持预测分析、数据挖掘和机器学习应用程序的大数据架构,这些架构逐渐改变着数据管道以及数据准备步骤。 独立顾问和行业分析师Dave Wells说:“过去我们接触到的都是直接进入数据仓库的数据流,数据只在单一方向上迁移。现在我们有数据仓库、数据湖和数据科学家的沙箱,数据来源也变得越来越丰富。
处理数据的方式呈现多样化,而且现在的数据管道也是多向的。” 总之,严格的线性数据流方法被打破。而数据科学家和其他具有探索性或发现性分析兴趣的用户必须由数据管理团队提供服务。 美国一家医疗保健管理……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
比起传统分析应用程序,建立预测模型和机器学习算法的数据科学家通常需要完成更多的数据准备工作。
越来越多的企业选择构建可支持预测分析、数据挖掘和机器学习应用程序的大数据架构,这些架构逐渐改变着数据管道以及数据准备步骤。
独立顾问和行业分析师Dave Wells说:“过去我们接触到的都是直接进入数据仓库的数据流,数据只在单一方向上迁移。现在我们有数据仓库、数据湖和数据科学家的沙箱,数据来源也变得越来越丰富。处理数据的方式呈现多样化,而且现在的数据管道也是多向的。”
总之,严格的线性数据流方法被打破。而数据科学家和其他具有探索性或发现性分析兴趣的用户必须由数据管理团队提供服务。
美国一家医疗保健管理咨询公司Geneia的数据科学家Jin On表示,预测分析的性质改变了分析人员处理数据的方式。“刚参加工作的时候,我建立的分析模型更多地是关于描述性统计。比如想要知道有多少人患糖尿病,经过调查就会得到具体的数据。”
她补充说,她在工作中接触过一个应用程序,旨在预测个体患者需要重新住院的可能性。 “对于这种类型的分析,你需要更多的创造力。必须首先查看实际数据,看看应用程序关于重新住院的可能性中最重要的属性。”
关于数据准备
On的工作涉及到一下机器学习的领域,这通常需要原始数据保持原样,然后以不同的方式过滤以满足特定的分析需求。她说,在评估可用数据的特征之后,下一步是查看可用于提高计划模型预测精度的机器学习算法的类型。
On使用SAS软件准备数据和构建预测模型,制定的数据需求可能随不同的机器学习算法而变化。比如随机森林算法对某些类别的数据变量可以具有的级别数量进行限制,这通常意味着需要完成额外的数据准备步骤。她说:“在这种情况下,你必须做好数据准备工作,使其适用于特定的算法,这是我开始探索之前首先进行数据检查的一个原因。”
“垃圾是放错地方的资源”
分析咨询和培训服务公司The Modeling Agency的CEO Eric King表示,对于数据管理员而言,为支持先进的分析需求,探索数据准备的新方法是非常必要。
即使是计算中最久经考验的概念之一也可能需要重做:垃圾输入,垃圾输出(GIGO),这意味着用户永远不会从坏数据中获得更多价值。 King表示,他的公司教授关于数据准备预测分析的课程。规定的数据准备步骤通常涉及大量的分箱,平滑和拟合,其中许多步骤意味着丢弃异常数据从而分离出有价值的数据。
“在大数据环境中,这样的清理可能并不是数据科学家或成功的预测建模师想要的,”King说,“新算法可以处理一大堆数据垃圾,但过度清理数据可能造成浪费。但是当准备数据用于分析使用时,有时需要采取一些步骤是明智的。”
相关推荐
-
Gartner:人工智能将促使部分专业工作转型
由于人工智能(AI)将对商业策略及人力雇用带来冲击,首席信息官(CIO)须扮演好重要角色,带领企业做好准备。
-
Spark尚未“成熟” 用户仍需“专业”
虽然Spark的应用对企业而言已经并不陌生,但对于一些企业来说,这项技术可能还是比较“前沿”。
-
关于如何选择混合云,你不得不知的几件事
近年来,提升云计算能力一直是IT决策者和企业对于未来规划的着重点,随着云计算的不断发展,混合云渐渐成为关键词。
-
【对话Teradata高管】我们很幸运,这是一个“大I小T”的时代
Teradata天睿公司近日在上海举办的“2017 Teradata大数据峰会”上,Teradata天睿公司高管们分享了Teradata在开源技术方面的观点和举措。