作家
登录

大数据处理为何选择Spark,而不是Hadoop

作者: 来源: 2018-01-22 09:28:16 阅读 我要评论

年前最后一场技巧盛宴 | 1月27日与京东、日记易技巧大年夜咖畅聊智能化运维成长趋势!

Spark是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark扩大了广泛应用的MapReduce计算模型,并且高效地支撑更多计算模式,包含交互式萌芽和流处理。

一.基本常识

1.Spark

【编辑推荐】

  1. Apache Hadoop 3.0.0 GA版正式宣布,可以安排到线上
  2. 大年夜源码看Spark攫取Hive表数据小文件和分块的问题
  3. 编译Hadoop2.9源码并搭建情况
  4. Hadoop和Spark之间有什么差别,现工业界都在应用何种技巧?
  5. 后Hadoop时代的大年夜数据技巧思虑:数据即办事
【义务编辑:未丽燕 TEL:(010)68476606】

Spark是一个用来实现快速而通用的集群计算的平台。

在速度方面,Spark扩大了广泛应用的MapReduce计算模型,并且高效地支撑更多计算模式,包含交互式萌芽和流处理。

Spark项目包含多个慎密集成的组件。Spark的核心是一个对由很多计算义务构成的、运行在多个工作机械或者是一个计算集群上的应用进行调剂、分发以及监控的计算引擎。

\
Spark的各个组件

2.Hadoop

用户可以在不了闭幕布式底层细节的情况下,开辟分布式法度榜样。充分应用集群的威力进行高速运算和存储。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据供给了存储,则MapReduce为海量的数据供给了计算。

二.大年夜数据处理选择

根据Spark和Hadoop的基本常识,我们懂得Spark和Hadoop都 可以进行大年夜数据处理,那我们若何选择处理平台呢?

1.处理速度和机能

Spark扩大了广泛应用的MapReduce计算模型,个中Spark有个Directed Acyclic Graph(DAG有向无环图)履行引擎,支撑轮回数据流和内存计算。

Hadoop是磁盘级计算,进行计算时,都须要大年夜磁盘读或者写数据,同时全部计算模型须要收集传输,导致MapReduce具有高延迟的致命弱点。

据统计,基于Spark内存的计算速度比Hadoop MapReduce快100倍以上,基于磁盘的计算速度也要快10倍以上。


2.开起事易度

Spark供给多说话(包含Scala、Java、Python)API,可以或许快速实现应用,比拟MapReduce更简洁的代码,安装安排也无需复杂设备。应用API可以轻松地构建分布式应用,同时也可以应用Scala和Python脚本进行交互式编程。

3.兼容性

Hadoop是一个由Apache基金会所开辟的分布式体系基本架构。

Spark供给了一个强大年夜的技巧栈,基于”One Stack to rule them all”的理念实现一体化、多元化的大年夜数据处理平台,轻松应对大年夜数据处理的萌芽说话Spark SQL、机械进修对象MLlib、图计算对象GraphX、及时流处理对象Spark Streaming无缝连接。

Hadoop的技巧栈则相对自力复杂,各个框架都是自力的体系,给集成带来了很大年夜的复杂和不肯定性。

4.互相集成性

Spark可以运行在Hadoop集群治理Yarn上,这使得Spark可以攫取Hadoop的任何数据。同时它也能攫取HDFS、HBase、Hive、Cassandra以及任何Hadoop数据源。



  推荐阅读

  根据Dice和Linux基金会调查:来看看国外开源人员现状

年前最后一场技巧盛宴 | 1月27日与京东、日记易技巧大年夜咖畅聊智能化运维成长趋势! 你想做一名技恋人员吗?那么你应当进步你的开源技巧。据世界领先的求职网站 Dice 和 Linux 基金会称,>>>详细阅读


本文标题:大数据处理为何选择Spark,而不是Hadoop

地址:http://www.17bianji.com/lsqh/40426.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)