Twitter开放其数据管道Firehose对于社交大数据分析来说无疑是一个晴天大利好。利用Twitter实时数据你几乎能进行各种数据分析,从奥斯卡电影人气到美国总统支持率,再到产品用户满意度分析,可谓一座不设防的数据大金矿。
但是掘金Twitter“快数据”也对分析系统提出了很高要求,DataSift是少数能吃下Twitter数据的顶级社会化分析机器之一,DataSift从Twitter购买了多年的数据同步授权,能够访问所有Twitter管道数据,并将子集卖给第三方,主要是企业客户。目前只有Gnip获得了同样的授权。
DataSift的定位是实时社交数据挖掘平台,处理海量推文本身对于DataSift来说不算什么,DataSift的挑战是在互联网上向大规模用户提供Twitter数据分析服务。 |
要知道,是大数据概念让DataSift成为一个十亿美元俱乐部的成员。而DataSift的最大创新就是创建了一个互联网规模的关键词过滤系统,能够快速评估热门关键词(例如Lady Gaga),DataSift是如何做到这一点的呢,相信下面这个Data Sift的系统架构图能给你答案(点击查看大图):
从上图可以看出DataSift的架构包括:
● 运行于SSD固态硬盘之上的MySQL(Percona server)
● HBase集群(目前约30个Hadoop节点,400TB存储)
● Memcashed(cache)
● Redis(依然用于一些内部队列、但也许很快将弃用)
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
作者
相关推荐
-
Spark尚未“成熟” 用户仍需“专业”
虽然Spark的应用对企业而言已经并不陌生,但对于一些企业来说,这项技术可能还是比较“前沿”。
-
关于如何选择混合云,你不得不知的几件事
近年来,提升云计算能力一直是IT决策者和企业对于未来规划的着重点,随着云计算的不断发展,混合云渐渐成为关键词。
-
【对话Teradata高管】我们很幸运,这是一个“大I小T”的时代
Teradata天睿公司近日在上海举办的“2017 Teradata大数据峰会”上,Teradata天睿公司高管们分享了Teradata在开源技术方面的观点和举措。
-
Tableau 携手神州数码 推进中国商业分析发展进程
为了帮助商业领域的更多从业者使用数据,在更短的时间内做出更好的决策,可视化分析领域的Tableau Software今天宣布与神州数码集团建立合作伙伴关系,在中国的商业分析进程中展开深度合作。