Mark Whitehorn是邓迪大学分析学客座教授,分析、商务智能和数据科学的专家。与微软、Teradata和TIBCO公司都有过合作。今天,他做客TechTarget,介绍了开源R语言的应用。
R语言是一种专门化的语言,我个人非常喜欢。如果它的功能和你的需求恰好吻合,那R语言会发挥出很大的价值。接下来我将着重谈一谈R语言的优势和特征。
R语言最强大的功能在于数据采样和数据管控。假设你需要从一组数据中随机抽取100个值的样本,这些数据都是正态分布,平均值为65.342,有2.1的标准偏差。这时你需要做的只是输入这样一行命令:
rnorm(100,65.342,2.1)
之后,R就会生成你需要的数据(如下图)。
接下来说的可能有点偏技术了。但说到R语言不能不说它的数值模拟能力。R分析也得益于数值模拟功能的运用。举个例子来说,我最近要做一个计分系统的Monte Carlo模拟,叫做净推荐值(Net Promoter Score,NPS)。Monte Carlo模拟是分析的重要组成部分,你可以给纷繁复杂的系统建模,更好地了解它们。因为被分析专家应用了很多年,Monte Carlo模拟包含了成千上万次的数值随机采样。
R语言在创建和运行Monte Carlo模拟方面有着卓越的表现,上面提到的NPS模拟,只需要9行代码就可以完成。我本可以“吹嘘”说我只用9行代码就搞定了,但这真心与个人水平无关,是因为R语言本身就善于生成和管控海量数据,也善长大数据处理。
那么,R语言为什么能胜任这样的工作呢?简言之,因为它有一整套专门为这类工作设计的功能。那么它为什么会有这些功能呢?因为R语言是免费、开源的。如果人们需要什么功能,但R语言不具备这种功能,人们就可以贡献代码,完善R语言。R语言已经应用了15年了,这意味着你需要的大部分功能,它都已经具备了。
最后,R语言很好上手,你只需要下载R语言和一个前端环境(比如RStudio,我过去用它创建图像),然后就可以敲代码了。
因此,如果你要处理的是数值操作,尤其是Monte Carlos模拟,我推荐你考虑一下R语言。但如果是其他工作的话,R语言恐怕并不适合。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
翻译
相关推荐
-
Spark和Hadoop分析遇障碍?可以试试容器啊
将定制的Spark和Hadoop试点项目转移到生产中是一项艰巨的任务,但容器技术缓解了这种艰难的过渡。
-
Tableau预测:自助式大数据分析时代正在来临
对于大数据而言,2016年是具有里程碑意义的一年,更多企业和机构在该年度存储和处理各种形态和规模的数据,并从中提取有价值的信息。
-
预测分析工具VS情感驱动 谁能左右分析结果?
使用预测分析工具的企业用户有个普遍的共识,那就是数据始终驱动业务决策。 但在政治领域,这种说法并不是那么适用。
-
重视大数据分析有哪些好处?IT经理有话说
随着Hadoop,Spark和其他大数据技术作为更多组织中的关键IT组件,越来越重视寻找大数据分析应用程序的业务优势,