刚刚结束的O’Reilly Strata会议上,有专家指出社会应该致力于鼓励有前途的学生成为下一代数据科学家。
纽约Johnson研究实验室负责启动项分析的高级研究科学家Rachel Schutt表示,对于数据科学家资源的储备现在已经迫在眉睫,因为社会亟需更多的人参与到这项仍在不断发展的行业中。“为什么我们需要下一代数据科学家?最简明的回答是因为我们有许多的问题急待解决。然而具备这种能力解决问题的人才却十分稀缺,在某种程度上来说,大学并不能培养出我们所需要的人才。”
Schutt说,未来的数据科学家将致力于解决许多工业和学术领域的问题,在这之中就包括生物医学研究、信息学、疾病预防、政府、教育以及城市规划等。下一代数据科学家也将帮助改进公民的生活质量,加深经济和社会对人类行为的理解。“为了利用这类数据解决问题,数据科学家需要具备在计算机科学、统计学、软件工程等多方面的综合技能。然而现实是我们正面临着人才短缺问题,因此需要培养学生们参与到这些问题中的能力。”
作为一名Google的前高级统计员,Schutt还兼任哥伦比亚大学的助理教授,在2012年的秋学期讲授“数据科学导论”这门课。她说鼓励学生们从事这一行业的另一个好处就是对于“数据科学家”这一角色的内涵有了更好地诠释。
Schutt说,应当对“数据科学”这一概念进行更深层次的严格定义从而能更加体现“科学”这个词的价值。此外,通过让更多接受过专业培训的人进入到这一行业,也可以帮助我们利用一种更加自然和严格的方法来定义数据科学的研究范围。
数据科学家的角色涵盖许多层面
“数据科学家”的准确定义仍然很难把握,因为目前从事这一行业的人利用多种多样的技术解决了不同种类的问题,然而并不是他们中的所有人的头衔上都称得上“数据”和“科学家”这两个词。为了帮助定义目前数据科学的状态,Schutt集思广益,给出了一个涵盖目前数据科学家经常研究的事情类型的列表。她在Strata会议上将这个列表呈现给大家。
根据Schutt的列表,数据科学家经常进行大量的实验数据分析来生成可视化的数据报表。他们花费大量的时间来利用数据产生独特的商业洞察。他们帮助公司进行重大的基于数据的决策,而且逐渐成为了具有大数据技术能力的专业人士,比如Hadoop,MapReduce,Hive和Pig等。他们是称职的“黑客”,并且对编程语言,如R、Python、C、Java等,有着令人惊叹的熟练掌握程度。他们撰写专利,并且利用自己的能力扮演着“数据侦探”的角色来发掘有用的信息。
数据科学家根据他们在过去所获得的数据来进行对未来行为的预测。他们将自己的发现和预测写在报告和日志里。他们善于创造算法和统计模型而且他们懂得如何设计机器学习的方法。他们提出好的问题并且提高通过数据进行推理的能力。遇到有关数据间关系的问题,他们会有敏锐的直觉来知道如何设计和分析实验,并且他们在调查一个问题时会尝试着建立因果关系。
数据科学家通常会在数字领域进行能力训练,比如统计学或者是数学,但是他们也需要提高沟通技巧,这样就能将发现和非技术的商业领域联系起来。当公司着手于数据科学的研究时可能也会发现他们需要一个高效率的团队,因为每一个数据科学家都具有自己的特点。
Schutt解释说,“考虑到背景和能力的差异,数据科学家之间具有多样性,实际上没有一个数据科学家可以独立做完所有的事情。”
有志成为数据科学家的人应注重哪些方面?
Ramesh Sampath在听过Schutt的报告后认为很容易理解为什么鼓励学生来从事数据科学行业可能会有一定难度,他自己也有志成为一名数据科学家。
Sampath是一名在德州农工大学学习统计学以及数据挖掘的学生,同时也是一份咨询工作的兼职员工,他认为这个职业的内涵并没有被明确定义,这将为有志进入这一行业的人提出巨大的挑战。
“如果你希望成为一名网站开发技术人员,你应该学习Java script以及HTML标签之类的内容,” Sampath说:“但是如果你想成为一名‘数据科学家’可就没那么容易了,因为你所要掌握的技术涉及面太广了。”
Sampath给其他学生的建议是避免试图直接进入这一领域然后开始分析利用Hadoop或者其他相关工具建立的海量数据。相反,学生们应该从小型数据开始着手并且尝试去感受不同的数据是怎么和其他数据相互关联起来的。Sampath 说“只是试图去对小型数据集保持好奇然后试着去理解数据的含义,利用表格和图形来挖掘数据就好。我认为采用表格和图形的方法非常好,因为这种方法展现了数据之间的联系。”
Sampath 认为,在对数据有了比较好的了解之后,就应该开始思考是否能利用这些联系来建立模型从而进行预测。他补充说,任何希望成为数据科学家的人都应该花大量的时间来学习编程。“成为一名黑客,因为我认为人们已经改变了关于我们不需要很好的技术这一论断的看法。应该记录和探索事物而不是拜托别人来替你完成这类工作。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
相关推荐
-
Spark尚未“成熟” 用户仍需“专业”
虽然Spark的应用对企业而言已经并不陌生,但对于一些企业来说,这项技术可能还是比较“前沿”。
-
关于如何选择混合云,你不得不知的几件事
近年来,提升云计算能力一直是IT决策者和企业对于未来规划的着重点,随着云计算的不断发展,混合云渐渐成为关键词。
-
【对话Teradata高管】我们很幸运,这是一个“大I小T”的时代
Teradata天睿公司近日在上海举办的“2017 Teradata大数据峰会”上,Teradata天睿公司高管们分享了Teradata在开源技术方面的观点和举措。
-
乘风破浪!拥抱数据洪流
全球产生的数据量达到惊人的地步,2013年生成的数据总量约为3.5 ZB。到2020年,保守估计,全球年数据量将达到44 ZB。企业该如何在大数据的时代取胜?