Spark Standalone的WebUI中已经没有这个API了:/api/v1/applications:https://issues.apache.org/jira/browse/SPARK-12299,https://issues.apache.org/jira/browse/SPARK-18683
版本回退
那些进级到2.x后,发明有问题回退后,让你欲哭无泪的问题。
Spark 2.0开端,SQL创建的分区表兼容Hive了,Spark会将分区信息保存到HiveMetastore中,也就是我们可以经由过程SHOW PARTITIONS萌芽分区,Hive也能正常萌芽这些分区表了。如不雅将Spark切换到低版本,在更新分区表,HiveMetastore中的分区信息并不会更新,须要履行MSCK REPAIR TABLE进行修复,不然再次进级会出现缺数据的现象。
Spark 2.0 ~ 2.1创建的VIEW并不会把创建VIEW的原始SQL更新到HiveMetastore,而是解析后的SQL,如不雅这个SQL包含复杂的子萌芽,那么切换到1.6后,就有可能无法应用这个VIEW表了(1.6对SQL的支撑不如2.x)
其他
大年夜2.2.0开端,Spark不在支撑Hadoop 2.5及更早的版本,同时也不支撑Java 7 了,所以,如不雅你用的版本比较老,照样尽快进级的比较好。
2.x中对于ThriftServer或JobServer如许的长时光运行的办事,稳定性不如1.6,如不雅您的计算营业复杂、SQL计算义务繁多、频繁的更新数据、处理数据量较大年夜,稳定性的问题加倍凸显。稳定性问题重要集中在内存方面,Executor经常出现堆外内存严重超出、OOM导致过程异常退出等问题。Executor过程OOM异常退出后相干的block-mgr目次(也就是SPARK_LOCAL_DIRS)并不会被清理,这就导致Spark Application长时光运行很轻易出现磁盘被写满的情况。
总结
Spark 2.x自2.0.0宣布到今朝的2.2.0已经有一年多的时光了,2.x传播鼓吹有诸多的机能改进,信赖不少应用Spark的同窗还逗留在1.6.x或者更低的版本上,没有进级到2.x或许是因为1.6相对而言很稳定,或许是进级后处处踩坑被迫放弃。
Spark 2.x中为了机能,SQL模块的修改相昔时夜,这也导致Bug变多,稳定性变差。当然,跟着Spark的赓续改进迭代,这些问题也在慢慢缓解。
对于一个计算办事,比拟机能,数据计算的┞俘确性及稳定性加倍重要。建议尚未进级到2.x的同窗,最好应用最新的Spark版本做进级;进级前,务必结合本身的营业场景做好充分的测试,避免踩坑。
【编辑推荐】
- 大年夜数据技情面对的三个重要技巧问题
- 五个不容忽视的“非主流”大年夜数据技巧对象
- 大年夜数据技巧在成长 挑衅与机会并存
- 大年夜数据技巧:内包照样外包
- 详谈数据科学与大年夜数据技巧专业
推荐阅读
转用一门新说话平日是一项大年夜决定计划,尤其是当你的团队成员中只有一个应用过它时。本年 Stream 团队的重要编程说话大年夜 Python 转向了 Go。本文说清楚明了其背后的九大年夜原因以及若何做好这一>>>详细阅读
本文标题:Spark 1.6升级2.x防踩坑指南
地址:http://www.17bianji.com/lsqh/38137.html
1/2 1