作家
登录

Spark 1.6升级2.x防踩坑指南

作者: 来源: 2017-10-24 14:21:42 阅读 我要评论

Spark Standalone的WebUI中已经没有这个API了:/api/v1/applications:https://issues.apache.org/jira/browse/SPARK-12299,https://issues.apache.org/jira/browse/SPARK-18683

版本回退

那些进级到2.x后,发明有问题回退后,让你欲哭无泪的问题。

Spark 2.0开端,SQL创建的分区表兼容Hive了,Spark会将分区信息保存到HiveMetastore中,也就是我们可以经由过程SHOW PARTITIONS萌芽分区,Hive也能正常萌芽这些分区表了。如不雅将Spark切换到低版本,在更新分区表,HiveMetastore中的分区信息并不会更新,须要履行MSCK REPAIR TABLE进行修复,不然再次进级会出现缺数据的现象。

Spark 2.0 ~ 2.1创建的VIEW并不会把创建VIEW的原始SQL更新到HiveMetastore,而是解析后的SQL,如不雅这个SQL包含复杂的子萌芽,那么切换到1.6后,就有可能无法应用这个VIEW表了(1.6对SQL的支撑不如2.x)

其他

大年夜2.2.0开端,Spark不在支撑Hadoop 2.5及更早的版本,同时也不支撑Java 7 了,所以,如不雅你用的版本比较老,照样尽快进级的比较好。

2.x中对于ThriftServer或JobServer如许的长时光运行的办事,稳定性不如1.6,如不雅您的计算营业复杂、SQL计算义务繁多、频繁的更新数据、处理数据量较大年夜,稳定性的问题加倍凸显。稳定性问题重要集中在内存方面,Executor经常出现堆外内存严重超出、OOM导致过程异常退出等问题。Executor过程OOM异常退出后相干的block-mgr目次(也就是SPARK_LOCAL_DIRS)并不会被清理,这就导致Spark Application长时光运行很轻易出现磁盘被写满的情况。

总结

Spark 2.x自2.0.0宣布到今朝的2.2.0已经有一年多的时光了,2.x传播鼓吹有诸多的机能改进,信赖不少应用Spark的同窗还逗留在1.6.x或者更低的版本上,没有进级到2.x或许是因为1.6相对而言很稳定,或许是进级后处处踩坑被迫放弃。

Spark 2.x中为了机能,SQL模块的修改相昔时夜,这也导致Bug变多,稳定性变差。当然,跟着Spark的赓续改进迭代,这些问题也在慢慢缓解。

对于一个计算办事,比拟机能,数据计算的┞俘确性及稳定性加倍重要。建议尚未进级到2.x的同窗,最好应用最新的Spark版本做进级;进级前,务必结合本身的营业场景做好充分的测试,避免踩坑。

【编辑推荐】

  1. 大年夜数据技情面对的三个重要技巧问题
  2. 五个不容忽视的“非主流”大年夜数据技巧对象
  3. 大年夜数据技巧在成长 挑衅与机会并存
  4. 大年夜数据技巧:内包照样外包
  5. 详谈数据科学与大年夜数据技巧专业
【义务编辑:未丽燕 TEL:(010)68476606】

  推荐阅读

  Go语言的9大优势和3大缺点

转用一门新说话平日是一项大年夜决定计划,尤其是当你的团队成员中只有一个应用过它时。本年 Stream 团队的重要编程说话大年夜 Python 转向了 Go。本文说清楚明了其背后的九大年夜原因以及若何做好这一>>>详细阅读


本文标题:Spark 1.6升级2.x防踩坑指南

地址:http://www.17bianji.com/lsqh/38137.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)