作家
登录

大数据分析技术与实战之Spark Streaming

作者: 来源: 2017-10-11 11:56:48 阅读 我要评论

//在每个批处理时光距离内对获取到的数据进行单词统计并且打印。 
  • val words= lines.flatMap(_.split(",")) 
  • val wordcounts = words.map(x=>(x,1)).reduceByKey(_+_) 
  • wordcounts.print() 
  • ssc.start() 
  • ssc.awaitTermination() 
  • 运行演示

    第1步,在IntelliJ IDEA中编辑运行Streaming法度榜样。master节点启动IntelliJ IDEA,创建工程NetworkWordCount,编辑模仿器与分析器。模仿器如图10所示,分析器如图11所示。

    1. $ start-all.sh  
    2. $ cd spark-1.4.0-bin-hadoop2.4  
    3. $ sbin/start-all.sh 

    大年夜数据分析技巧与拭魅战之Spark Streaming
    图10 IntelliJ IDEA中数据流模仿器示意图

    大年夜数据分析技巧与拭魅战之Spark Streaming
    图11 IntelliJ IDEA平分析器示意图

    第2步,创建模仿器数据源文件。在master节点创建/home/dong/Streamingtext目次,在个中创建文本文件file1.txt。

    file1.txt内容如下:

    • spark,
    • hello,
    • hbase,
    • world,

    第3步,打包数据流模仿器。打包过程详见本书4.3.3节。在Artifacts打包设备界面中,根据用户实际scala安装目次,在Class Path中添加下述scala依附包,如图12所示。

    运行演示

    1. /usr/scala-2.10.4/lib/scala-swing.jar 
    2. /usr/scala-2.10.4/lib/scala-library.jar 
    3. /usr/scala-2.10.4/lib/scala-actors.jar 

    大年夜数据分析技巧与拭魅战之Spark Streaming
    图12 在Class Path中添加scala依附包

    查看结不雅

    打包后在主目次下生成NetworkWordCount.jar,如图13所示。

    第4步,启动数据流模仿器。在master节点开启控制终端,经由过程下面代码启动数据流模仿器。

    1. $ java -cp /home/dong/NetworkWordCount.jar dong.spark.SocketSimulation/ home/dong/Streamingtest/file1.txt 9999 1000 

    数据流模仿器每距离1000毫秒大年夜/home/dong/Streamingtext/file1.txt中随机朝长进步一行文本发送给master节点的9999端口。在分析器未连接时,数据流模仿器处于壅塞状况,终端不会显示输出的文本。

    第5步,运行分析器。在master上启动IntelliJ IDEA编写分析器代码,然后单击菜单"Build->"Build Artifacts",经由过程Application选项设备分析器运行所需的参数,个中Socket主机名为master、端标语为9999,参数之间用空格距离,如图13所示。

    大年夜数据分析技巧与拭魅战之Spark Streaming
    图13 分析器参数设备示意图

    设备好参数后返回IntelliJ IDEA菜单栏,单击"Run"->"Build Artifacts"运行分析器。

    查看结不雅

    第1步,在master上查看数据流模仿器运行情况。IntelliJ IDEA运行分析器大年夜而与数据流模仿器建立连接。当检测到外部连接时,数据流模仿器将每隔1000毫秒大年夜/home/dong/Streamingtext/file1.txt中随机朝长进步一行文本发送给master节点上的9999端口。为便利讲解和解释,file1.txt中每一行只包含一个悼?船是以数据流模仿器每次仅发送一个单词给端口,如图14所示。

    大年夜数据分析技巧与拭魅战之Spark Streaming
    图14 在master上模仿器运行结不雅

    进步并行度

    分析器代码如下:

    第2步,在master的IntelliJ IDEA中查看分析器运行情况。在IntelliJ IDEA的运行日记窗口中,可以不雅察到统计结不雅。经由过程分析可知Spark Streaming每个批处理时光距离内获取的单词数为5,刚好是5秒内发送单词典总数,并对各单词进行了统计,如图15所示。


      推荐阅读

      业界关注的NFV,近况如何?

    实现了功能虚拟化的收集可以或许使通信办事供给商快速供给办事、分析和主动化的收集,加快新办事投向市场的周期,并有效应用数据中间的通用平台。收集功能虚拟化旨在赞助电信行业加快立异>>>详细阅读


    本文标题:大数据分析技术与实战之Spark Streaming

    地址:http://www.17bianji.com/lsqh/37783.html

    关键词: 探索发现

    乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

    网友点评
    自媒体专栏

    评论

    热度

    精彩导读
    栏目ID=71的表不存在(操作类型=0)