然后攫掏出文件中每一行的内容之后,就是分析文件的内容组件了,这里是指:SensitiveFileAnalyzer(监控短信内容拆解分析),它负责分析出文件的格局内容。
我们可以很清跋扈地看到:Spouts组件(用户短信采集器):SensitiveFileReader591、SensitiveFileReader592的线程数executors、义务提交emitted情况。以及Bolts组件:监控短信内容拆解分析器(SensitiveFileAnalyzer)、敏感信息采集处理(SensitiveBatchBolt)的运行情况,如许监控起来就异常便利。
经由过程SensitiveBatchBolt模块的监控线程,可以看到,我们今朝已经采集到了9个敏感信息用户了,再来看下,这些包含敏感关键字的用户有没有入库MySQL成功?
发明入库的结不雅也是9个,和日记打印的数量上是一致的。并且垃圾短信内容sms_content不雅然都包含了“racketeer”、“Bad”这些敏感关键字!完全相符我们的预期。并且,今后文件处理量上来了,我们可以经由过程调剂设置Spouts/Bolts的并行度,和Worker的数量进行化解。当然,你还可以经由过程程度扩大集群的数量来解决这个问题。
Storm本身是Apache托管的开源的分布式及时F算体系,它的前身是Twitter Storm。在Storm问世以前,处理海量的及时数据信息,大年夜部分是类似于应用消息队列,加上工作过程/线程的方法。这使得构建这类的应用法度榜样,变得异常的复杂。很多的营业逻辑中,你不得不推敲消息的发送和接收,线程之间的并发控制等等问题。而个中的营业逻辑可能只是占据全部应用的一小部分,并且很难做到营业逻辑的解耦。然则Storm的出现改变了这种局面,它起首抽象出数据流Stream的抽象概念,一个Stream指的是tuples构成的无界线的序列。后面又持续提出Spouts、Bolts的概念。Spouts在Storm琅绫擎是数据源,专门负责生成流。而Bolts则是以流作为输入,并从新生成流作为输出,并且Bolts还会持续指定它输入的流应当若何划分。最后Storm是经由过程拓扑(Topology)这种抽象概念,组织起若干个Spouts、Bolts构成的分布式数据处理收集。Storm设计的时刻,就有意的把Spouts、Bolts构成的拓扑(Topology)收集经由过程Thrift办事方法进行封装,这个做法,使得Storm的Spouts、Bolts组件可以经由过程今朝主流的随便率性说话实现,使得全部框架的兼容性和扩大性加倍优良。
Storm在Apache开源项目标网址是:http://storm.apache.org/,有兴趣的同伙可以经常存眷一下。官网膳绫擎有很威望的技巧规范解释,以及若何把Storm和消息队列、HDFS、HBase有效的集成起来。今朝在国内,就我小我看法,对Storm分析应用,做得最好的应当算是阿里巴巴,它在本来Storm的基本上加以改进,开源出JStorm,有兴趣的同伙,可以多存眷一下。
借助Storm,我们可以很轻松地开辟分布式及时处理应用,而上述场景的设计,只是Storm应用的一个案例。比拟传统的单机办事器应用而言,集群化地并行协同计算处理,是云计算、大年夜数据时代的一个趋势,也是我往后尽力进修的偏向。故在此写下本身的进修经验领会,有纰谬的处所,还请各位群友批驳斧正。
【编辑推荐】
- Yelp的及时流技巧之四:流处理器PaaStorm
- 为什么说Storm比Hadoop快?
- 大年夜数据计算架构Hadoop、Spark和Storm 三者技巧比较
- 大年夜数据框架比较:Hadoop、Storm、Samza、Spark和Flink
- 为什么说Storm比Hadoop 快?
推荐阅读
上周,微软、亚马逊、谷歌等国外科技巨擘齐发家报,在各家亮眼数据的背后,云计算营业成为一大年夜功臣。近些年来,在传统IT营业萎缩的情况下,云办事在各大年夜科技公司的营业和计谋中,扮演着越来越重>>>详细阅读
本文标题:基于Storm构建分布式实时处理应用初探
地址:http://www.17bianji.com/lsqh/38471.html
1/2 1