上周在美国举行了数据分析管理协会(DAMA)国际企业数据2014世界大会上,企业信息管理和分析公司Kimberly-Clark全球总监兼数据管理者Robert Abate表示,照大数据目前的发展形势看,大数据集需要更多各种类型的职业数据管理者来管理。
Abate表示:“所谓企业信息管理,就是要在正确的时间给正确的人以正确的数据。这包括主数据、参考数据、数据质量和数据治理。”
不过Abate也提醒到,数据速度、种类和大小都对数据管理提出挑战。数据科学家不那么关心数据质量,而倾向于重点处理数据的数量。作为数据设计关键的数据模式也常常让位于无模式或模式上的即时架构。
“与分析相关的大数据和数据科学会收集大量的数据,存放在数据池,或特定的数据存储层中,然后再在数据上运行算法。”Abate认为,数据质量已经不是数据管理最重要的因素了。
数据治理需要更多地关注元数据
会上,以为有着多年数据架构经验的专家认为,渐渐地,对数据质量的查询会以元数据为中心,比如在数据字典或资源池中发现的数据,而不是数据本身。
咨询公司MatchPoint的数据管理咨询师Ray McGlew表示,随着未经处理的数据越来越多,数据管理会逐渐形成秩序。
区分和优化不同的数据类型是数据管理者的职责所在,尤其随着新的数据类型的发展,它会变得更加重要。
McGlew表示,对于一些关键问题,比如银行交易,真实版本只有一个,但对于社交数据,比如Twitter和Facebook数据,你就要灵活处理,更关注数据的本质。
真正需要的是把元数据整合到单一版本中。
有些情况是用户只有一个账户,比如银行账户,你可以通过账户定位到一个具体的人。但在社交媒体上,一个用户可能拥有多个账户,一个账户也可能是多个用户在使用。这种情况要复杂的多。
“在这种情况下,你得到的不是某个人的数字,你得到的是一系列的数字。换言之,你只能做趋势分析,而无法精准定位。”
无模式也是一种数据模式
无模式的大数据架构是一种新形态,它正在渐渐改变现有的数据架构,至于它以后会怎么发展,还很难说。
投资公司Fidelity的数据分析总监Ian Wood表示:“我们已经开始这样做了。我们公司的架构就在像这个方向发展,无模式或即时模式可能很难发展,但它已经开始发展了。”
“我们接触了很多业务用户,收集它们对未来的期望。我们也接触了技术开发团队,收集了它们的想法。不过坦诚地说,我真不知道我们该往哪个方向走。”
不过,Fidelity公司所采用的方法应该是考虑到组织架构和程序的,而不是直接采用某种技术解决方案。
Hadoop只是文件存储?
提到大数据,难免想到Hadoop。不过Abate认为,大数据并不只是Hadoop,Hadoop不过是一个“文件存储”而已。
Abate表示,除非Hadoop能够很好地集成关系型数据库技术,否则它只能用来存储文件。Abate在加入Kimberly-Clark之前帮助沃尔玛搭建大数据和商务智能。
他表示:“Impala的出现值得注意,它将Hadoop变成了数据库,这一点很有价值。”Impala是Cloudera开发的运行于Hadoop的SQL查询引擎。
即便是使用传统数据仓库,因为数据类型过多,也需要一种新方法。而真正的数据科学家能够在无需了解数据质量的条件下处理大规模的数据。
这可能听起来有点耸人听闻,有些人认同,有些人反对。这一切只能留给时间来检验了。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
翻译
相关推荐
-
Spark尚未“成熟” 用户仍需“专业”
虽然Spark的应用对企业而言已经并不陌生,但对于一些企业来说,这项技术可能还是比较“前沿”。
-
关于如何选择混合云,你不得不知的几件事
近年来,提升云计算能力一直是IT决策者和企业对于未来规划的着重点,随着云计算的不断发展,混合云渐渐成为关键词。
-
【对话Teradata高管】我们很幸运,这是一个“大I小T”的时代
Teradata天睿公司近日在上海举办的“2017 Teradata大数据峰会”上,Teradata天睿公司高管们分享了Teradata在开源技术方面的观点和举措。
-
Tableau 携手神州数码 推进中国商业分析发展进程
为了帮助商业领域的更多从业者使用数据,在更短的时间内做出更好的决策,可视化分析领域的Tableau Software今天宣布与神州数码集团建立合作伙伴关系,在中国的商业分析进程中展开深度合作。