从《琅琊榜》来看大数据

最近看完《琅琊榜》这不热播剧后，真心感觉其是一部国产的良心之作，完美的剧情，外加杠杠的特效，使得我这个不经常看电视剧的人也能追着看完。

通过整个剧的回顾，我们可以惊奇的发现：人称麒麟才子的梅长苏就是一个大数据的专家先驱有木有，琅琊阁就是一个数据中心有木有！

##琅琊阁
俗称百事通的琅琊阁，究竟是如何做到事事都知道的呢？

我觉得可以从以下几个方面分析：

1.   数据采集        
2.   数据预处理      
3.   数据分析与决策             
4.   数据存储

1.数据采集

飞鸽传书，这个画面在古装剧中是比较常见的，同样琅琊阁也不例外，这可是遍布天下的大数据收集端口，相当于我们现在的网络舆情监测系统之类。
现有大数据采集的技术：

1 2	flume ——一个分布式的日志收集系统 kafka ——分布式消息发布与订阅的系统，主要用于消息队列

####2.数据预处理
小书童拆下绑在白鸽脚上的纸条，将“数据”传递给“主机”，即琅琊阁中的分析人员，然后对数据进行初步的筛选整合。这个非常像我们所做的数据预处理，需要对重要的信息进行清洗，转换，也就是ETL。
现有ETL工具主要为：

1 2	hive —— 基于hadoop的数据仓库，对HDFS中的数据进行ETL spark sql —— 基于spark的数据查询与处理

####3.数据分析与决策
我们风流倜傥的蔺少阁主，得到分析人员送来的数据之后，根据自己的专业背景知识和经验积累得出判断。（那个时候只能通过人靠经验来做数据分析）
现有的数据分析工具：

1
2
3

hadoop —— 分布式系统，主要通过mapreduce的计算框架进行数据分析，主要面向于离线计算    
spark —— 基于内存的分布式系统，以RDD为核心，在spark core的基础上提供了spark sql交互式查询，spark streaming流式计算，spark mlib机器学习和spark graphx图计算的支持   
flink —— 新起之秀，与spark类似

####4.数据存储
蔺少阁主发出指令，对有价值的数据信息进行归档存储。每一条数据信息都通过独有的通道进入主机，完成存储。而数以千计万计的数据信息汇总则形成了大数据。
现有的大数据存储工具：

hdfs —— 基于磁盘的分布式文件系统			
hbase —— 基于hdfs的分布式数据库          
mongodb —— 目前在IT行业非常流行的一种非关系型数据库(NoSql) 			
cassandra —— 开源分布式NoSQL数据库系统

##梅长苏
梅长苏与琅琊阁少阁主是好友至交，数据上能够得到琅琊阁的支持。此外，他还是江湖第一大帮派江左盟的宗主，拥有遍布天下的庞大的大数据信息收集网络。

在蛰伏江湖的数年之间，依托琅琊阁以及江左盟，梅长苏收集和掌握了大梁相干经济／政治／军事核心人物的海量大数据信息（错综复杂的人物及利益关系，把柄，罪证等）。经过对大数据进行系统和缜密的分析之后，这位大数据专家制定了整套洗冤／夺嫡的战略规划和解决方案，最终步步为营，实现了最初的战略目标。

可以说，得麒麟才子者得天下，其背后的真实玄机应该是得大数据者得天下。

##总结
如今随着数据量的急剧增长，人们开始进入大数据时代。从《琅琊榜》这部电视剧我们可以看出，充分分析大数据中的价值信息，可以为以后的决策起到关键的作用。正因为有了“琅琊阁”和“江左盟”大数据的支持，梅长苏才能凭借一身白衣，搅动这京城风云。可以说“大数据不是拥有数据，而是分析这些数据，转化为洞察，为你所用”。

从《琅琊榜》来看大数据

1.数据采集

Comments