Apache Beam 剖析

--inputFile=gs://apache-beam-samples/shakespeare/* --output=gs://<your-gcs-bucket>/counts" \

-Pdataflow-runner

Apache Beam 重要针对幻想并行的数据处理义务，并经由过程把数据集拆分多个子数据集，让每个子数据集可以或许被零丁处理，大年夜而实现整体数据集的并行化处理。当然，也可以用 Beam 来处理采取，转换和加载义务和数据集成义务(一个ETL过程)。进一步将数据大年夜不合的存储介质中或者数据源中攫取，转换数据格局，最后加载到新的体系中。

3.4 运行结不雅

当法度榜样运行完成后，你可以看到有多个文件以 count 开首，个数取决于履行引擎的类型。当你查看文件的内容的时刻，每个独一的单词后面会显示其出现次数，然则前后次序是不固定的，也是分布式引擎为了进步效力的一种常用方法。

3.4.1 Direct

$ ls counts* 
 
$ more counts* 
api: 9 
bundled: 1 
old: 4 
Apache: 2 
The: 1 
limitations: 1 
Foundation: 1 
...

3.4.3 Flink-Local

$ ls counts* 
 
$ more counts* 
The: 1 
api: 9 
old: 4 
Apache: 2 
limitations: 1 
bundled: 1 
Foundation: 1 
...

3.4.4 Flink-Cluster

$ ls /tmp/counts* 
 
$ more /tmp/counts* 
The: 1 
api: 9 
old: 4 
Apache: 2 
limitations: 1 
bundled: 1 
Foundation: 1 
...

$ ls counts* 
 
$ more counts* 
beam: 27 
SF: 1 
fat: 1 
job: 1 
limitations: 1 
require: 1 
of: 11 
profile: 10 
...

3.4.6 Dataflow

$ gsutil ls gs://<your-gcs-bucket>/counts* 
 
$ gsutil cat gs://<your-gcs-bucket>/counts* 
feature: 15 
smother'st: 1 
revelry: 1 
bashfulness: 1 
Bashful: 1 
Below: 2 
deserves: 32 
barrenly: 1 
...

4.总结

【编辑推荐】

基于Apache Flink的及时Ｆ算引擎Blink在阿里搜刮中的应用
Apache Beam的前世此生：谷歌已经不再应用MapReduce了
大年夜数据框架比较：Hadoop、Storm、Samza、Spark和Flink
Flink常见的关键技巧与特点详解
Apache Flink实现的数据流体系构造

【义务编辑：武晓燕 TEL：（010）68476606】

3/3 首页上一页 1 2 3

　　推荐阅读

　　Gradle for Android 第四篇( 构建变体 )

当你在开辟一个app,平日你会有几个版本。大年夜多半情况是你须要一个开辟版本，用来测试app和弄清它的质量，然后还须要一个临盆版本。这些版本平日有不合的设置，例如不合的URL地址。更可>>>详细阅读

本文标题：Apache Beam 剖析

地址：http://www.17bianji.com/lsqh/34709.html

1/2 1