作家
登录

Apache Beam 剖析

作者: 来源: 2017-04-11 11:01:11 阅读 我要评论

 
  •                   --inputFile=gs://apache-beam-samples/shakespeare/* --output=gs://<your-gcs-bucket>/counts" \ 
  •      -Pdataflow-runner 
  • Apache Beam 重要针对幻想并行的数据处理义务,并经由过程把数据集拆分多个子数据集,让每个子数据集可以或许被零丁处理,大年夜而实现整体数据集的并行化处理。当然,也可以用 Beam 来处理采取,转换和加载义务和数据集成义务(一个ETL过程)。进一步将数据大年夜不合的存储介质中或者数据源中攫取,转换数据格局,最后加载到新的体系中。

    3.4 运行结不雅

    当法度榜样运行完成后,你可以看到有多个文件以 count 开首,个数取决于履行引擎的类型。当你查看文件的内容的时刻,每个独一的单词后面会显示其出现次数,然则前后次序是不固定的,也是分布式引擎为了进步效力的一种常用方法。

    3.4.1 Direct

    1. $ ls counts* 
    2.  
    3. $ more counts* 
    4. api: 9 
    5. bundled: 1 
    6. old: 4 
    7. Apache: 2 
    8. The: 1 
    9. limitations: 1 
    10. Foundation: 1 
    11. ... 

    3.4.3 Flink-Local

    1. $ ls counts* 
    2.  
    3. $ more counts* 
    4. The: 1 
    5. api: 9 
    6. old: 4 
    7. Apache: 2 
    8. limitations: 1 
    9. bundled: 1 
    10. Foundation: 1 
    11. ... 

    3.4.4 Flink-Cluster

    1. $ ls /tmp/counts* 
    2.  
    3. $ more /tmp/counts* 
    4. The: 1 
    5. api: 9 
    6. old: 4 
    7. Apache: 2 
    8. limitations: 1 
    9. bundled: 1 
    10. Foundation: 1 
    11. ... 
    1. $ ls counts* 
    2.  
    3. $ more counts* 
    4. beam: 27 
    5. SF: 1 
    6. fat: 1 
    7. job: 1 
    8. limitations: 1 
    9. require: 1 
    10. of: 11 
    11. profile: 10 
    12. ... 

    3.4.6 Dataflow

    1. $ gsutil ls gs://<your-gcs-bucket>/counts* 
    2.  
    3. $ gsutil cat gs://<your-gcs-bucket>/counts* 
    4. feature: 15 
    5. smother'st: 1 
    6. revelry: 1 
    7. bashfulness: 1 
    8. Bashful: 1 
    9. Below: 2 
    10. deserves: 32 
    11. barrenly: 1 
    12. ... 

    4.总结

    【编辑推荐】

    1. 基于Apache Flink的及时F算引擎Blink在阿里搜刮中的应用
    2. Apache Beam的前世此生:谷歌已经不再应用MapReduce了
    3. 大年夜数据框架比较:Hadoop、Storm、Samza、Spark和Flink
    4. Flink常见的关键技巧与特点详解
    5. Apache Flink实现的数据流体系构造
    【义务编辑:武晓燕 TEL:(010)68476606】

      推荐阅读

      Gradle for Android 第四篇( 构建变体 )

    当你在开辟一个app,平日你会有几个版本。大年夜多半情况是你须要一个开辟版本,用来测试app和弄清它的质量,然后还须要一个临盆版本。这些版本平日有不合的设置,例如不合的URL地址。更可>>>详细阅读


    本文标题:Apache Beam 剖析

    地址:http://www.17bianji.com/lsqh/34709.html

    关键词: 探索发现

    乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

    网友点评
    自媒体专栏

    评论

    热度

    精彩导读
    栏目ID=71的表不存在(操作类型=0)