大数据系列之并行计算引擎Spark介绍

Spark：

Apache Spark 是专为大年夜范围数据处理而设计的快速通用的计算引擎。

Spark是UC Berkeley AMP lab (加州大年夜学伯渴攀利分校的AMP实验室)所开源的类Hadoop MapReduce的通用处行框架，Spark拥有Hadoop MapReduce所具有的长处；但不合于MapReduce的是Job中心输出结不雅可以保存在内存中，大年夜而不再须要读写HDFS，是以Spark能更好地实用于数据发掘与机械进修等须要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 类似的开源集群计算情况，然则两者之间还存在一些不合之处，这些有效的不合之处使 Spark 在某些工作负载方面表示得加倍优胜，换句话说，Spark 启用了内存分布数据集，除了可以或许供给交互式萌芽外，它还可以优化迭代工作负载。

Spark 是在 Scala 说话中实现的，它将 Scala 用作其应用法度榜样框架。与 Hadoop 不合，Spark 和 Scala 可以或许慎密集成，个中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支撑分布式数据集上的迭代功课，然则实际上它是对 Hadoop 的弥补，可以在 Hadoop 文件体系中并交运行。经由过程名为 Mesos 的第三方集群框架可以支撑此行动。Spark 由加州大年夜学伯渴攀利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开辟，可用来构建大年夜型的、低延迟的数据分析应用法度榜样。

1.更快的速度：内存计算下，Spark 比 Hadoop 快100倍。

内存计算引擎，供给Cache机制来支撑须要反复迭代计算或者多次数据共享，削减数据攫取的I/O开销
DAG引擎，削减多次计算之间中心结不雅写到HDFS的开销;
应用多线程池模型来削减task启动开销，shuffle过程中避免不须要的sort操作已经削减磁盘I/O操作;

Spark的机能特点：

2.易用性：

Spark 供给了80多个高等运算符。
供给了丰富的API，支撑JAVA,Scala,Python和R四种说话;
代码量比MapReduce少2~5倍;

3.通用性：Spark 供给了大年夜量的看维包含SQL、DataFrames、MLlib、GraphX、Spark Streaming。开辟者可以在同一个应用法度榜样中无缝组合应用这些库。

4.支撑多种资本治理器：Spark 支撑 Hadoop YARN，Apache Mesos，及其自带的自力集群治理器

Spark基来源基本理：

Spark Streaming：构建在Spark上处理Stream数据的框架，根本的道理是将Stream数据分成小的时光片段(几秒)，以类似batch批量处理的方法来处理这小部分数据。Spark Streaming构建在Spark上，一方面是因为Spark的低延迟履行引擎(100ms+)，固然比不上专门的流式数据处理软件，也可以用于及时Ｆ算，另一方面比拟基于Record的其它处理框架(如Storm)，一部分窄依附的RDD数据集可以大年夜源数据从新计算达到容错处理目标。此外小批量处理的方法使得它可以同时兼容批量和及时数据处理的逻辑和算法。便利了一些须要汗青数据和及时数据结合分析的特定应用处合。

Spark背景：

1.MapReduce局限性: