基于Storm构建分布式实时处理应用初探

然后攫掏出文件中每一行的内容之后，就是分析文件的内容组件了，这里是指：SensitiveFileAnalyzer(监控短信内容拆解分析)，它负责分析出文件的格局内容。

我们可以很清跋扈地看到：Spouts组件(用户短信采集器)：SensitiveFileReader591、SensitiveFileReader592的线程数executors、义务提交emitted情况。以及Bolts组件：监控短信内容拆解分析器(SensitiveFileAnalyzer)、敏感信息采集处理(SensitiveBatchBolt)的运行情况，如许监控起来就异常便利。

基于Storm构建分布式及时处理应用初探

经由过程SensitiveBatchBolt模块的监控线程，可以看到，我们今朝已经采集到了9个敏感信息用户了，再来看下，这些包含敏感关键字的用户有没有入库MySQL成功?

基于Storm构建分布式及时处理应用初探

发明入库的结不雅也是9个，和日记打印的数量上是一致的。并且垃圾短信内容sms_content不雅然都包含了“racketeer”、“Bad”这些敏感关键字!完全相符我们的预期。并且，今后文件处理量上来了，我们可以经由过程调剂设置Spouts/Bolts的并行度，和Worker的数量进行化解。当然，你还可以经由过程程度扩大集群的数量来解决这个问题。

Storm本身是Apache托管的开源的分布式及时Ｆ算体系，它的前身是Twitter Storm。在Storm问世以前，处理海量的及时数据信息，大年夜部分是类似于应用消息队列，加上工作过程/线程的方法。这使得构建这类的应用法度榜样，变得异常的复杂。很多的营业逻辑中，你不得不推敲消息的发送和接收，线程之间的并发控制等等问题。而个中的营业逻辑可能只是占据全部应用的一小部分，并且很难做到营业逻辑的解耦。然则Storm的出现改变了这种局面，它起首抽象出数据流Stream的抽象概念，一个Stream指的是tuples构成的无界线的序列。后面又持续提出Spouts、Bolts的概念。Spouts在Storm琅绫擎是数据源，专门负责生成流。而Bolts则是以流作为输入，并从新生成流作为输出，并且Bolts还会持续指定它输入的流应当若何划分。最后Storm是经由过程拓扑(Topology)这种抽象概念，组织起若干个Spouts、Bolts构成的分布式数据处理收集。Storm设计的时刻，就有意的把Spouts、Bolts构成的拓扑(Topology)收集经由过程Thrift办事方法进行封装，这个做法，使得Storm的Spouts、Bolts组件可以经由过程今朝主流的随便率性说话实现，使得全部框架的兼容性和扩大性加倍优良。

Storm在Apache开源项目标网址是：http://storm.apache.org/，有兴趣的同伙可以经常存眷一下。官网膳绫擎有很威望的技巧规范解释，以及若何把Storm和消息队列、HDFS、HBase有效的集成起来。今朝在国内，就我小我看法，对Storm分析应用，做得最好的应当算是阿里巴巴，它在本来Storm的基本上加以改进，开源出JStorm，有兴趣的同伙，可以多存眷一下。

借助Storm，我们可以很轻松地开辟分布式及时处理应用，而上述场景的设计，只是Storm应用的一个案例。比拟传统的单机办事器应用而言，集群化地并行协同计算处理，是云计算、大年夜数据时代的一个趋势，也是我往后尽力进修的偏向。故在此写下本身的进修经验领会，有纰谬的处所，还请各位群友批驳斧正。

【编辑推荐】

Yelp的及时流技巧之四：流处理器PaaStorm
为什么说Storm比Hadoop快？
大年夜数据计算架构Hadoop、Spark和Storm 三者技巧比较
大年夜数据框架比较：Hadoop、Storm、Samza、Spark和Flink
为什么说Storm比Hadoop 快？

【义务编辑：未丽燕 TEL：（010）68476606】

3/3 首页上一页 1 2 3

　　推荐阅读

　　云计算成了救命稻草？看看国内这4家企业是怎么做的

上周，微软、亚马逊、谷歌等国外科技巨擘齐发家报，在各家亮眼数据的背后，云计算营业成为一大年夜功臣。近些年来，在传统IT营业萎缩的情况下，云办事在各大年夜科技公司的营业和计谋中，扮演着越来越重>>>详细阅读

本文标题：基于Storm构建分布式实时处理应用初探

地址：http://www.17bianji.com/lsqh/38471.html

1/2 1