持久: 批处理体系处理的数据一般存储在持久存储体系上(比如硬盘上、数据库中)
在今朝的数据处理框架范畴,Flink可谓独树一帜。固然Spark同样也供给了批处理和流处理的才能,但Spark流处理的微批次架构使其响应时光略长。Flink流处理优先的方法实现了低延迟、高吞吐和真正逐条处理。
同样,Flink也并不是完美的。Flink今朝最大年夜的缺点就是缺乏在大年夜型公司实际临盆项目中的成功应用案例。相对于Spark来讲,它还不敷成熟,社区活泼度也没有Spark那么高。但假以时日,Flink必定会改变数据处理框架的格局。
六、大年夜数据处理框架的选择
1. 对于初学者
因为Apache Hadoop在大年夜数据范畴的广泛应用,是以仍推荐作为初学者进修数据处理框架的首选。固然MapReduce因为机能原因今后的应用会越来越少,然则YARN和HDFS依然作为其他框架的基本组件被大年夜量应用(比如HBase依附于HDFS,YARN可认为Spark、Samza等框架供给资本治理)。进修Hadoop可认为今后的进阶打下基本。
Apache Spark在今朝的企业应用中应当是当之无愧的王者。在批处理范畴,固然Spark与MapReduce的市场占领率平起平坐,但Spark稳定上升,而MapReduce却稳定降低。而在流处理范畴,Spark Streaming与另一大年夜流处理体系Apache Storm合营占据了大年夜部分市场(当然很多公司会应用内部研发的数据处理框架,但它们多半并不开源)。伯渴攀利的┞俘统出身、活泼的社区以及大年夜量的商用案例都是Spark的优势。除了可用于批处理和流处理体系,Spark还支撑交互式萌芽、图计算和机械进修。Spark在将来几年内仍然会是大年夜数据处理的主流框架,推荐同窗们卖力进修。
另一个作为混淆处理框架的Apache Flink则潜力无穷,被称作“下一代数据处理框架”。固然今朝存在社区活泼度不敷高、商用案例较少等情况,不过“是叫子总会发光”,如不雅Flink能在贸易应用上有凸起表示,则可能挑衅Spark的地位。
2. 对于企业应用
如不雅企业中只须要批处理工作,并且对时光并不敏感,那么可以应用成本较其他解决筹划更低的Hadoop集群。
如不雅企业仅进行流处理,并且对低延迟有着较高请求,Storm加倍合适,如不雅对延迟不异常敏感,可以应用Spark Streaming。而如不雅企业内部已经存在Kafka和Hadoop集群,并且须要多团队合作开辟(下流团队会应用上游团队处理过的数据作为数据源),那么Samza是一个很好的选择。
如不雅须要同时兼顾批处理与流处理义务,那么Spark是一个很好的选择。混淆处理框架的另一个好处是,降低了开辟人员的进修成本,大年夜而为企业节约人力成本。Flink供给了真正的流处理才能并且同样具备批处理才能,但商用案例较少,对于初次测验测验数据处理的企业来说,大年夜范围应用Flink存在必定风险。
【编辑推荐】
- 解读:大年夜数据分析及其数据来源
- 我们分析了10个垂直行业,告诉你大年夜数据应用面对哪些挑衅
- 揭秘10个大年夜数据神话
- 深刻浅出:若何大年夜0开端进修大年夜数据发掘分析?
- 大年夜数据让人开端困惑人生
推荐阅读
Kafka拓扑构造Kafka的设计可以赞助用户解决很多架构汕9依υ?题,其具备的高机能、低耦合、高靠得住性、数据不损掉等特点,结合实际的应用体系应用处景,可以或许异常知足用户的需求。>>>详细阅读
本文标题:大数据处理框架的类型、比较和选择
地址:http://www.17bianji.com/lsqh/37199.html
1/2 1