Spark 1.6升级2.x防踩坑指南

Spark Standalone的WebUI中已经没有这个API了：/api/v1/applications：https://issues.apache.org/jira/browse/SPARK-12299，https://issues.apache.org/jira/browse/SPARK-18683

版本回退

那些进级到2.x后，发明有问题回退后，让你欲哭无泪的问题。

Spark 2.0开端，SQL创建的分区表兼容Hive了，Spark会将分区信息保存到HiveMetastore中，也就是我们可以经由过程SHOW PARTITIONS萌芽分区，Hive也能正常萌芽这些分区表了。如不雅将Spark切换到低版本，在更新分区表，HiveMetastore中的分区信息并不会更新，须要履行MSCK REPAIR TABLE进行修复，不然再次进级会出现缺数据的现象。

Spark 2.0 ~ 2.1创建的VIEW并不会把创建VIEW的原始SQL更新到HiveMetastore，而是解析后的SQL，如不雅这个SQL包含复杂的子萌芽，那么切换到1.6后，就有可能无法应用这个VIEW表了(1.6对SQL的支撑不如2.x)

其他

大年夜2.2.0开端，Spark不在支撑Hadoop 2.5及更早的版本，同时也不支撑Java 7 了，所以，如不雅你用的版本比较老，照样尽快进级的比较好。

2.x中对于ThriftServer或JobServer如许的长时光运行的办事，稳定性不如1.6，如不雅您的计算营业复杂、SQL计算义务繁多、频繁的更新数据、处理数据量较大年夜，稳定性的问题加倍凸显。稳定性问题重要集中在内存方面，Executor经常出现堆外内存严重超出、OOM导致过程异常退出等问题。Executor过程OOM异常退出后相干的block-mgr目次(也就是SPARK_LOCAL_DIRS)并不会被清理，这就导致Spark Application长时光运行很轻易出现磁盘被写满的情况。

总结

Spark 2.x自2.0.0宣布到今朝的2.2.0已经有一年多的时光了，2.x传播鼓吹有诸多的机能改进，信赖不少应用Spark的同窗还逗留在1.6.x或者更低的版本上，没有进级到2.x或许是因为1.6相对而言很稳定，或许是进级后处处踩坑被迫放弃。

Spark 2.x中为了机能，SQL模块的修改相昔时夜，这也导致Bug变多，稳定性变差。当然，跟着Spark的赓续改进迭代，这些问题也在慢慢缓解。

对于一个计算办事，比拟机能，数据计算的┞俘确性及稳定性加倍重要。建议尚未进级到2.x的同窗，最好应用最新的Spark版本做进级;进级前，务必结合本身的营业场景做好充分的测试，避免踩坑。

【编辑推荐】

大年夜数据技情面对的三个重要技巧问题
五个不容忽视的“非主流”大年夜数据技巧对象
大年夜数据技巧在成长挑衅与机会并存
大年夜数据技巧：内包照样外包
详谈数据科学与大年夜数据技巧专业

【义务编辑：未丽燕 TEL：（010）68476606】

2/2 首页上一页 1 2

　　推荐阅读

　　Go语言的9大优势和3大缺点

转用一门新说话平日是一项大年夜决定计划，尤其是当你的团队成员中只有一个应用过它时。本年 Stream 团队的重要编程说话大年夜 Python 转向了 Go。本文说清楚明了其背后的九大年夜原因以及若何做好这一>>>详细阅读

本文标题：Spark 1.6升级2.x防踩坑指南

地址：http://www.17bianji.com/lsqh/38137.html

1/2 1