年前最后一场技巧盛宴 | 1月27日与京东、日记易技巧大年夜咖畅聊智能化运维成长趋势!
Spark是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark扩大了广泛应用的MapReduce计算模型,并且高效地支撑更多计算模式,包含交互式萌芽和流处理。
一.基本常识
1.Spark
【编辑推荐】
- Apache Hadoop 3.0.0 GA版正式宣布,可以安排到线上
- 大年夜源码看Spark攫取Hive表数据小文件和分块的问题
- 编译Hadoop2.9源码并搭建情况
- Hadoop和Spark之间有什么差别,现工业界都在应用何种技巧?
- 后Hadoop时代的大年夜数据技巧思虑:数据即办事
Spark是一个用来实现快速而通用的集群计算的平台。
在速度方面,Spark扩大了广泛应用的MapReduce计算模型,并且高效地支撑更多计算模式,包含交互式萌芽和流处理。
Spark项目包含多个慎密集成的组件。Spark的核心是一个对由很多计算义务构成的、运行在多个工作机械或者是一个计算集群上的应用进行调剂、分发以及监控的计算引擎。

Spark的各个组件
2.Hadoop
用户可以在不了闭幕布式底层细节的情况下,开辟分布式法度榜样。充分应用集群的威力进行高速运算和存储。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据供给了存储,则MapReduce为海量的数据供给了计算。
二.大年夜数据处理选择
根据Spark和Hadoop的基本常识,我们懂得Spark和Hadoop都 可以进行大年夜数据处理,那我们若何选择处理平台呢?
1.处理速度和机能
Spark扩大了广泛应用的MapReduce计算模型,个中Spark有个Directed Acyclic Graph(DAG有向无环图)履行引擎,支撑轮回数据流和内存计算。
Hadoop是磁盘级计算,进行计算时,都须要大年夜磁盘读或者写数据,同时全部计算模型须要收集传输,导致MapReduce具有高延迟的致命弱点。
据统计,基于Spark内存的计算速度比Hadoop MapReduce快100倍以上,基于磁盘的计算速度也要快10倍以上。
2.开起事易度
Spark供给多说话(包含Scala、Java、Python)API,可以或许快速实现应用,比拟MapReduce更简洁的代码,安装安排也无需复杂设备。应用API可以轻松地构建分布式应用,同时也可以应用Scala和Python脚本进行交互式编程。
3.兼容性
Hadoop是一个由Apache基金会所开辟的分布式体系基本架构。
Spark供给了一个强大年夜的技巧栈,基于”One Stack to rule them all”的理念实现一体化、多元化的大年夜数据处理平台,轻松应对大年夜数据处理的萌芽说话Spark SQL、机械进修对象MLlib、图计算对象GraphX、及时流处理对象Spark Streaming无缝连接。
Hadoop的技巧栈则相对自力复杂,各个框架都是自力的体系,给集成带来了很大年夜的复杂和不肯定性。
4.互相集成性
Spark可以运行在Hadoop集群治理Yarn上,这使得Spark可以攫取Hadoop的任何数据。同时它也能攫取HDFS、HBase、Hive、Cassandra以及任何Hadoop数据源。
推荐阅读
年前最后一场技巧盛宴 | 1月27日与京东、日记易技巧大年夜咖畅聊智能化运维成长趋势! 你想做一名技恋人员吗?那么你应当进步你的开源技巧。据世界领先的求职网站 Dice 和 Linux 基金会称,>>>详细阅读
地址:http://www.17bianji.com/lsqh/40426.html
1/2 1