运行演示
第1步,在IntelliJ IDEA中编辑运行Streaming法度榜样。master节点启动IntelliJ IDEA,创建工程NetworkWordCount,编辑模仿器与分析器。模仿器如图10所示,分析器如图11所示。
- $ start-all.sh
- $ cd spark-1.4.0-bin-hadoop2.4
- $ sbin/start-all.sh
图10 IntelliJ IDEA中数据流模仿器示意图
图11 IntelliJ IDEA平分析器示意图
第2步,创建模仿器数据源文件。在master节点创建/home/dong/Streamingtext目次,在个中创建文本文件file1.txt。
file1.txt内容如下:
- spark,
- hello,
- hbase,
- world,
第3步,打包数据流模仿器。打包过程详见本书4.3.3节。在Artifacts打包设备界面中,根据用户实际scala安装目次,在Class Path中添加下述scala依附包,如图12所示。
运行演示
- /usr/scala-2.10.4/lib/scala-swing.jar
- /usr/scala-2.10.4/lib/scala-library.jar
- /usr/scala-2.10.4/lib/scala-actors.jar
图12 在Class Path中添加scala依附包
查看结不雅
打包后在主目次下生成NetworkWordCount.jar,如图13所示。
第4步,启动数据流模仿器。在master节点开启控制终端,经由过程下面代码启动数据流模仿器。
- $ java -cp /home/dong/NetworkWordCount.jar dong.spark.SocketSimulation/ home/dong/Streamingtest/file1.txt 9999 1000
数据流模仿器每距离1000毫秒大年夜/home/dong/Streamingtext/file1.txt中随机朝长进步一行文本发送给master节点的9999端口。在分析器未连接时,数据流模仿器处于壅塞状况,终端不会显示输出的文本。
第5步,运行分析器。在master上启动IntelliJ IDEA编写分析器代码,然后单击菜单"Build->"Build Artifacts",经由过程Application选项设备分析器运行所需的参数,个中Socket主机名为master、端标语为9999,参数之间用空格距离,如图13所示。
图13 分析器参数设备示意图
设备好参数后返回IntelliJ IDEA菜单栏,单击"Run"->"Build Artifacts"运行分析器。
查看结不雅
第1步,在master上查看数据流模仿器运行情况。IntelliJ IDEA运行分析器大年夜而与数据流模仿器建立连接。当检测到外部连接时,数据流模仿器将每隔1000毫秒大年夜/home/dong/Streamingtext/file1.txt中随机朝长进步一行文本发送给master节点上的9999端口。为便利讲解和解释,file1.txt中每一行只包含一个悼?船是以数据流模仿器每次仅发送一个单词给端口,如图14所示。
图14 在master上模仿器运行结不雅
进步并行度
分析器代码如下:
第2步,在master的IntelliJ IDEA中查看分析器运行情况。在IntelliJ IDEA的运行日记窗口中,可以不雅察到统计结不雅。经由过程分析可知Spark Streaming每个批处理时光距离内获取的单词数为5,刚好是5秒内发送单词典总数,并对各单词进行了统计,如图15所示。
推荐阅读
实现了功能虚拟化的收集可以或许使通信办事供给商快速供给办事、分析和主动化的收集,加快新办事投向市场的周期,并有效应用数据中间的通用平台。收集功能虚拟化旨在赞助电信行业加快立异>>>详细阅读
本文标题:大数据分析技术与实战之Spark Streaming
地址:http://www.17bianji.com/lsqh/37783.html
1/2 1