作家
登录

深度解析:Spark优于Hadoop吗?

作者: 来源: 2017-11-13 15:14:25 阅读 我要评论

Spark 将大年夜数据生态体系设置在超光速磁盘上,确保比MapReduce快10-100倍。很多人认为这可能是MapReduce的终结。

Tech Neo技巧沙龙 | 11月25号,九州云/ZStack与您一路商量云时代收集界线治理实践


对于任何一个进入大年夜数据世界的仁攀来讲,大年夜数据和Hadoop 就成了同义词。跟着人们进修了大年夜数据生态体系及其对象和运作道理,他们更能懂得大年夜数据的实际意义以及Hadoop 在生态体系中所扮演的角色。

近期研究注解在产品中应用Spark的用户激增。很多用户同时运行Spark和Cassandra, 或者Spark和Hadoop ,又或者在Apche Mesos上运行Spark. 尽管Spark用户数量有所增长,但并没有在大年夜数据社区造成惊恐。MapReduce应用率可能会降低,但具体降幅未知。

深度解析:Spark优于Hadoop吗?

维诽谤科对大年夜数据如许解释:大年夜数据是一个宽泛的术语,它指传统数据处理应用法度榜样无法处理的巨大年夜而复杂的数据集。

简单来讲,跟着数据量的增长,采取惯例处理办法须要花费大年夜量时光且价格不菲。

Doug Cutting受谷歌GFS及MapReduce白皮书的启发,在 2005年创办了Hadoop 。Hadoop 采取开源软件框架对超大年夜数据集进行分布式存储技巧及分布式处理。换句话说,设计这一产品的目标在于缩减处理大年夜数据集的时光和成本。

Hadoop,其分布式文件体系(HDFS)和分布式处理模块(MapReduce)成为大年夜数据计算的实际标准。Hadoop 这一术语不仅可以与基本模块相干,也与可兼容Hadoop的其他软件包生态体系互相干注。

跟着时光的推移,生成的数据量猛增,处理大年夜量数据的需求也随之猛增。这最终使大年夜数据枷⒚须要知足各类不合需求,而这些需求并非都可以全部由Hadoop 完成。

很多人认为数据分析是一门艺术而非一门科学。在任何艺术范畴,艺术家创造一小块部分拼图,又将小拼图将放到更大年夜的拼图上,见证它的发展。可以粗略的翻译为:数据分析师想鄙人一?处理开端之前获得前一个处理的结不雅。换句话说,很多半据分析学在本质上都是交互式的。在传统意义上,交互式分析习惯上受构造化萌芽说话(SQL)的影响。分析师在数据库中撰写可在数据中运行的萌芽前提。尽管Hadoop 也有同类产品(Hive和Pig),这本来也耗时,因为每个萌芽前提须要大年夜量时光处理数据。

这些障碍促使了Spark的出生,这种新型处理模块能促进迭代编程和交互式分析。Spark设备了一个将数据载入存储器并反复萌芽的内存原始模型。这使Spark异常合适大年夜量数据分析及机械进修算法。

留意,Spark仅仅规定了分布式处理模块。存储数据部分仍然依附Hadoop(分布式文件体系HDFS)采取分布存储方法高效存储数据,而不由Spark完成

操作简单

比拟MapReduce来讲,Spark操作简单,甚至可以说异常便捷。即使对于一个简单逻辑或算法,MapReduce也须要100行代码;但应用Spark,一个简单逻辑,几行代码就可以完成。这就引出了一个关键身分,叫做用处广泛。很多对于MapReduce来讲弗成能完成的机械进修或图表问题的高等算法,都可以由Spark完成。这让Spark的采取率相当高。

MapReduce没有交互模块。尽管Hive和Pig包含敕令行接口,这些体系的机能仍然依附MapReduce。MapReduce对于批处理仍然十分受用。

Spark 在内存中处理数据,而MapReduce却将处理后的数据传送回磁盘。所以Spark将优于MapReduce。

在2014年,Spark晋级Daytona GraySort测试并拔点头筹。对于外行仁攀来说,DaytonaGraySort是测试体系检索100TB(一万亿笔记录)数据速度的第三方评判基准。

Spark应用206个AWS EC2 设备,在23分钟内将100TB的数据存储稻磁逄上。此前的最高记录保持者是MapReduce,它应用了2100台设备,总共花费了72分钟。Spark在雷同的前提下却比MapReduce快了3倍,应用的设备总数也少了10倍。

Spark占用大年夜量内存。如不雅我们运行Spark的同时运行其他占用内存的办事,其机能可能大年夜打扣头。然则,我们可以有把握地说,Spark在迭代处理方面占优势(须要多次传递同一数据)。

大年夜多半数据分析本质上是迭代处理。尽管迭代处理可以由MapReduce完成,但数据攫取应当在每次迭代中进行。平日情况下,这并没有问题。但如不雅攫取100GB的数据或几个TB的数据时,就会费时,而人们会不耐烦

成本

这两者在计算才能、磁盘和收集情况方面的硬件请求都十分类似。内存越大年夜,Spark表示越好。这两者都应用商品办事器。

MapReduce编程辛苦,市场上胀窘面的专家并不多。即便有为数不多的Spark专家,但这也仅仅是因为Spark是始创产品。所以进修Spark编程比MapReduce要轻易的多。

离开了Hadoop 的Spark

运行Spark其实并不须要Hadoop的支撑。如不雅我们没有大年夜分布式文件体系(HDFS)中攫取数据,Spark也可以自交运行。Spark也可以大年夜诸如S3, Cassandra等其他存储中读写数据。在这种架构下,Spark可在自力模式下运行,并不须要Hadoop 组件的支撑。

产品应用

很多人猜测Spark会促使另一种更优质客栈的成长。但这种新型客栈可能会与Hadoop 及其软件包生态体系异常类似。

Spark的最大年夜长处是简洁。但它并不会彻底祛除MapReduce,因为应用MapReduce依然大年夜有人在。即便Spark成为大年夜赢家,除非研发新分布式文件体系,我们将同时应用Hadoop 和Spark处理数据。

【编辑推荐】

  1. 手把手教你Spark机能调优
  2. 大年夜数据和Hadoop时代的维度建模和Kimball数据集市
  3. Hadoop伪分布式搭建操作步调指南
  4. 嫌弃Hadoop?可能是你的打开方法有问题
  5. 若何为Hadoop集群选择精确的硬件
【义务编辑:未丽燕 TEL:(010)68476606】

  推荐阅读

  利用MySQL全备份,如何只恢复一个库或者一个表?

Tech Neo技巧沙龙 | 11月25号,九州云/ZStack与您一路商量云时代收集界线治理实践 在实际工作中,一个MySQL实例中可能有多个database。而我们备份时,平日采取完全备份,将所有database都备>>>详细阅读


本文标题:深度解析:Spark优于Hadoop吗?

地址:http://www.17bianji.com/lsqh/38791.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)