Apache Beam 重要针对幻想并行的数据处理义务,并经由过程把数据集拆分多个子数据集,让每个子数据集可以或许被零丁处理,大年夜而实现整体数据集的并行化处理。当然,也可以用 Beam 来处理采取,转换和加载义务和数据集成义务(一个ETL过程)。进一步将数据大年夜不合的存储介质中或者数据源中攫取,转换数据格局,最后加载到新的体系中。
3.4 运行结不雅
当法度榜样运行完成后,你可以看到有多个文件以 count 开首,个数取决于履行引擎的类型。当你查看文件的内容的时刻,每个独一的单词后面会显示其出现次数,然则前后次序是不固定的,也是分布式引擎为了进步效力的一种常用方法。
3.4.1 Direct
- $ ls counts*
- $ more counts*
- api: 9
- bundled: 1
- old: 4
- Apache: 2
- The: 1
- limitations: 1
- Foundation: 1
- ...
3.4.3 Flink-Local
- $ ls counts*
- $ more counts*
- The: 1
- api: 9
- old: 4
- Apache: 2
- limitations: 1
- bundled: 1
- Foundation: 1
- ...
3.4.4 Flink-Cluster
- $ ls /tmp/counts*
- $ more /tmp/counts*
- The: 1
- api: 9
- old: 4
- Apache: 2
- limitations: 1
- bundled: 1
- Foundation: 1
- ...
- $ ls counts*
- $ more counts*
- beam: 27
- SF: 1
- fat: 1
- job: 1
- limitations: 1
- require: 1
- of: 11
- profile: 10
- ...
3.4.6 Dataflow
- $ gsutil ls gs://<your-gcs-bucket>/counts*
- $ gsutil cat gs://<your-gcs-bucket>/counts*
- feature: 15
- smother'st: 1
- revelry: 1
- bashfulness: 1
- Bashful: 1
- Below: 2
- deserves: 32
- barrenly: 1
- ...
4.总结
【编辑推荐】
- 基于Apache Flink的及时F算引擎Blink在阿里搜刮中的应用
- Apache Beam的前世此生:谷歌已经不再应用MapReduce了
- 大年夜数据框架比较:Hadoop、Storm、Samza、Spark和Flink
- Flink常见的关键技巧与特点详解
- Apache Flink实现的数据流体系构造
推荐阅读
Gradle for Android 第四篇( 构建变体 )
当你在开辟一个app,平日你会有几个版本。大年夜多半情况是你须要一个开辟版本,用来测试app和弄清它的质量,然后还须要一个临盆版本。这些版本平日有不合的设置,例如不合的URL地址。更可>>>详细阅读
本文标题:Apache Beam 剖析
地址:http://www.17bianji.com/lsqh/34709.html
1/2 1