从《琅琊榜》来看大数据

最近看完《琅琊榜》这不热播剧后,真心感觉其是一部国产的良心之作,完美的剧情,外加杠杠的特效,使得我这个不经常看电视剧的人也能追着看完。

通过整个剧的回顾,我们可以惊奇的发现:人称麒麟才子的梅长苏就是一个大数据的专家先驱有木有,琅琊阁就是一个数据中心有木有!

##琅琊阁
俗称百事通的琅琊阁,究竟是如何做到事事都知道的呢?

我觉得可以从以下几个方面分析:

1
2
3
4
1.   数据采集        
2.   数据预处理
3.   数据分析与决策
4.   数据存储

1.数据采集

飞鸽传书,这个画面在古装剧中是比较常见的,同样琅琊阁也不例外,这可是遍布天下的大数据收集端口,相当于我们现在的网络舆情监测系统之类。
现有大数据采集的技术:

1
2
flume ——一个分布式的日志收集系统          
kafka ——分布式消息发布与订阅的系统,主要用于消息队列

####2.数据预处理
小书童拆下绑在白鸽脚上的纸条,将“数据”传递给“主机”,即琅琊阁中的分析人员,然后对数据进行初步的筛选整合。这个非常像我们所做的数据预处理,需要对重要的信息进行清洗,转换,也就是ETL。
现有ETL工具主要为:

1
2
hive —— 基于hadoop的数据仓库,对HDFS中的数据进行ETL            
spark sql —— 基于spark的数据查询与处理

####3.数据分析与决策
我们风流倜傥的蔺少阁主,得到分析人员送来的数据之后,根据自己的专业背景知识和经验积累得出判断。(那个时候只能通过人靠经验来做数据分析)
现有的数据分析工具:

1
2
3
hadoop —— 分布式系统,主要通过mapreduce的计算框架进行数据分析,主要面向于离线计算    
spark —— 基于内存的分布式系统,以RDD为核心,在spark core的基础上提供了spark sql交互式查询,spark streaming流式计算,spark mlib机器学习和spark graphx图计算的支持
flink —— 新起之秀,与spark类似

####4.数据存储
蔺少阁主发出指令,对有价值的数据信息进行归档存储。每一条数据信息都通过独有的通道进入主机,完成存储。而数以千计万计的数据信息汇总则形成了大数据。
现有的大数据存储工具:

1
2
3
4
hdfs —— 基于磁盘的分布式文件系统			
hbase —— 基于hdfs的分布式数据库
mongodb —— 目前在IT行业非常流行的一种非关系型数据库(NoSql)
cassandra —— 开源分布式NoSQL数据库系统

##梅长苏
梅长苏与琅琊阁少阁主是好友至交,数据上能够得到琅琊阁的支持。此外,他还是江湖第一大帮派江左盟的宗主,拥有遍布天下的庞大的大数据信息收集网络。

在蛰伏江湖的数年之间,依托琅琊阁以及江左盟,梅长苏收集和掌握了大梁相干经济/政治/军事核心人物的海量大数据信息(错综复杂的人物及利益关系,把柄,罪证等)。经过对大数据进行系统和缜密的分析之后,这位大数据专家制定了整套洗冤/夺嫡的战略规划和解决方案,最终步步为营,实现了最初的战略目标。

可以说,得麒麟才子者得天下,其背后的真实玄机应该是得大数据者得天下

##总结
如今随着数据量的急剧增长,人们开始进入大数据时代。从《琅琊榜》这部电视剧我们可以看出,充分分析大数据中的价值信息,可以为以后的决策起到关键的作用。正因为有了“琅琊阁”和“江左盟”大数据的支持,梅长苏才能凭借一身白衣,搅动这京城风云。可以说“大数据不是拥有数据,而是分析这些数据,转化为洞察,为你所用”。

Comments

2016-06-29