大数据分析技术与实战之Spark Streaming

//在每个批处理时光距离内对获取到的数据进行单词统计并且打印。

val words= lines.flatMap(_.split(","))

val wordcounts = words.map(x=>(x,1)).reduceByKey(_+_)

wordcounts.print()

ssc.start()

ssc.awaitTermination()

}

运行演示

第1步，在IntelliJ IDEA中编辑运行Streaming法度榜样。master节点启动IntelliJ IDEA，创建工程NetworkWordCount，编辑模仿器与分析器。模仿器如图10所示，分析器如图11所示。

$ start-all.sh  
$ cd spark-1.4.0-bin-hadoop2.4  
$ sbin/start-all.sh

大年夜数据分析技巧与拭魅战之Spark Streaming
图10 IntelliJ IDEA中数据流模仿器示意图

大年夜数据分析技巧与拭魅战之Spark Streaming
图11 IntelliJ IDEA平分析器示意图

第2步，创建模仿器数据源文件。在master节点创建/home/dong/Streamingtext目次，在个中创建文本文件file1.txt。

file1.txt内容如下：

spark,
hello,
hbase,
world,

第3步，打包数据流模仿器。打包过程详见本书4.3.3节。在Artifacts打包设备界面中，根据用户实际scala安装目次，在Class Path中添加下述scala依附包，如图12所示。

运行演示

/usr/scala-2.10.4/lib/scala-swing.jar 
/usr/scala-2.10.4/lib/scala-library.jar 
/usr/scala-2.10.4/lib/scala-actors.jar

大年夜数据分析技巧与拭魅战之Spark Streaming
图12 在Class Path中添加scala依附包

查看结不雅

打包后在主目次下生成NetworkWordCount.jar，如图13所示。

第4步，启动数据流模仿器。在master节点开启控制终端，经由过程下面代码启动数据流模仿器。

$ java -cp /home/dong/NetworkWordCount.jar dong.spark.SocketSimulation/ home/dong/Streamingtest/file1.txt 9999 1000

数据流模仿器每距离1000毫秒大年夜/home/dong/Streamingtext/file1.txt中随机朝长进步一行文本发送给master节点的9999端口。在分析器未连接时，数据流模仿器处于壅塞状况，终端不会显示输出的文本。

第5步，运行分析器。在master上启动IntelliJ IDEA编写分析器代码，然后单击菜单"Build->"Build Artifacts"，经由过程Application选项设备分析器运行所需的参数，个中Socket主机名为master、端标语为9999，参数之间用空格距离，如图13所示。

大年夜数据分析技巧与拭魅战之Spark Streaming
图13 分析器参数设备示意图

设备好参数后返回IntelliJ IDEA菜单栏，单击"Run"->"Build Artifacts"运行分析器。

查看结不雅

第1步，在master上查看数据流模仿器运行情况。IntelliJ IDEA运行分析器大年夜而与数据流模仿器建立连接。当检测到外部连接时，数据流模仿器将每隔1000毫秒大年夜/home/dong/Streamingtext/file1.txt中随机朝长进步一行文本发送给master节点上的9999端口。为便利讲解和解释，file1.txt中每一行只包含一个悼?船是以数据流模仿器每次仅发送一个单词给端口，如图14所示。

大年夜数据分析技巧与拭魅战之Spark Streaming
图14 在master上模仿器运行结不雅

进步并行度

分析器代码如下：

第2步，在master的IntelliJ IDEA中查看分析器运行情况。在IntelliJ IDEA的运行日记窗口中，可以不雅察到统计结不雅。经由过程分析可知Spark Streaming每个批处理时光距离内获取的单词数为5，刚好是5秒内发送单词典总数，并对各单词进行了统计，如图15所示。

5/9 首页上一页 3 4 5 6 7 8 下一页尾页

　　推荐阅读

　　业界关注的NFV，近况如何？

实现了功能虚拟化的收集可以或许使通信办事供给商快速供给办事、分析和主动化的收集，加快新办事投向市场的周期，并有效应用数据中间的通用平台。收集功能虚拟化旨在赞助电信行业加快立异>>>详细阅读

本文标题：大数据分析技术与实战之Spark Streaming

地址：http://www.17bianji.com/lsqh/37783.html

1/2 1