统计方法应该在数据量增加时做的更好。这就是专业术语“一致性”的意思所在。但如果采用了不适当的数值方法,数值误差将伴随着数据增长而增长,统计误差的降低也将毫无意义。
在数据量增加时,贝叶斯后验概率减少的原因有以下三种可能:
1 多项式逼近
2错过集中部分
3下溢
基本的数值积分算法,例如高斯求积,是基于多项式逼近的。该方法的目的是对一个近似积的多项式进行积分。但似然函数不近似为多项式,当含有更多的数据时,他们变得更加不像多项式。他们变得更接近正常的密度,在最后渐进平坦,没有多项式会有这样的特征。使用更好的积分技术,在面对更多的数据时,积分准确性应该提高而不是降低。
随着数据量的增加,后验分布变得更加集中。这意味着一个单纯的积分方法可能完全错过了被积函数中大量数据集中的那部分。你需要确保你的积分方法用对了地方。幸运的是,在什么地方使用是比较容易判断的。
第三个问题是,软件计算的似然函数在数据量适中时亦可以产生下溢。通常的解决方法是使用似然函数的对数,但对于数值积分来说,解决方法就不是那么简单了。你需要对似然函数本身做积分运算,而不是它的对数。我描述了如何处理这种情况,避免在贝叶斯计算产生下溢。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
作者
翻译
TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。
相关推荐
-
Spark尚未“成熟” 用户仍需“专业”
虽然Spark的应用对企业而言已经并不陌生,但对于一些企业来说,这项技术可能还是比较“前沿”。
-
关于如何选择混合云,你不得不知的几件事
近年来,提升云计算能力一直是IT决策者和企业对于未来规划的着重点,随着云计算的不断发展,混合云渐渐成为关键词。
-
【对话Teradata高管】我们很幸运,这是一个“大I小T”的时代
Teradata天睿公司近日在上海举办的“2017 Teradata大数据峰会”上,Teradata天睿公司高管们分享了Teradata在开源技术方面的观点和举措。
-
Tableau 携手神州数码 推进中国商业分析发展进程
为了帮助商业领域的更多从业者使用数据,在更短的时间内做出更好的决策,可视化分析领域的Tableau Software今天宣布与神州数码集团建立合作伙伴关系,在中国的商业分析进程中展开深度合作。