作家
登录

数据倾斜那些坑 你都迈过去了吗?

作者: 来源: 2017-11-08 12:11:51 阅读 我要评论

两边其实都没有错的,然则一旦我们做接洽关系了会出现什么情况,这个义务会在做接洽关系的阶段,也就是sql的on的阶段卡逝世。

四、大年夜营业计角度来懂得数据倾斜

数据往往和营业是强相干的,营业的场景直接影响到了数据的分布。

列出来一些办法和思路,具体的参数和用法在官网看就行了。

  1. mapjoin 方法
  2. 设置 rdd 紧缩
  3. 合理设置 driver 的内存
  4. Spark Sql 中的优化和 Hive 类似,可以参考Hive

再举一个例子,比如就说订单场景吧,我们在某一天在北京和上海两个城市多了强力的推广,结不雅可能是这两个城市的订单量增长了10000%,其余城市的数据量不变。

然后我们要统计不合城市的订单情况,如许,一做 group 操作,可能直接就数据倾斜了。

两个公司都安排了 Hadoop 集群。假设如今碰到了数据倾斜,产生什么?

0x04 若何解决

数据倾斜的产生是有一些评论辩论的,解决它们也是有一些评论辩论的,本章会先给出几个解决数据倾斜的思路,然后对 Hadoop 和 Spark 分别给出一些解决数据倾斜的筹划。

如许懂得也有事理,然则比较单方面,举两个场景来比较:

  • 公司一:总用户量 1000 万,5 台 64G 内存的的办事器。
  • 公司二:总用户量 10 亿,1000 台 64G 内存的办事器。

解决数据倾斜有这几个思路:

  1. 营业逻辑,我们大年夜营业逻辑的层面上来竽暌古化数据倾斜,比瘸琅绫擎的例子,我们零丁对这两个城市来做 count,最后和其它城市做整合。
  2. 法度榜样层面,比如说袈溱 Hive 中,经常碰到count(distinct)操作,如许会导致最终只有一个 reduce,我们可以先 group 再在外面包一层 count,就可以了。
  3. 调参方面,Hadoop 和 Spark 都自带了很多的参数和机制来调节数据倾斜,合劳顿用它们就能解决大年夜部分问题。

二、大年夜营业和数据上解决数据倾斜

很多半据倾斜都是在数据的应用上造成的。我们举几个场景,并分别给出它们的解决筹划。

一、几个思路

数据分布不平均:

  • 前面提到的“大年夜数据角度来懂得数据倾斜”和“大年夜营业计角度来懂得数据倾斜”中的例子,其实都是数据分布不平均的类型,这种情况和寂?娼台无关,我们能经由过程设计的角度测验测验解决它。

有损的办法:

  • 找到异常数据,比如 ip 为 0 的数据,过滤掉落

无损的办法:

  • 对分布不平均的数据,零丁计算
  • 先对 key 做一层 hash,先将数据打散让它的并行度变大年夜,再汇集

数据预处理

三、Hadoop平台的优化办法

列出来一些办法和思路,具体的参数和用法在官网看就行了。

  1. map join 方法
  2. count distinct 的操作,先转成 group,再 count
  3. 全能膏药:hive.groupby.skewindata=http://bigdata.51cto.com/art/201711/true
  4. left semi join的应用
  5. 设置 map 端输出、中心结不雅紧缩。(不美满是解决数据倾斜的问题,然则削减了 IO 读写和收集传输,能进步很多效力)

四、Spark平台的优化办法

0xFF 总结

数据倾斜的坑照样很大年夜的,若何处理数据倾斜是一个经久的过程,欲望本文的一些思路能供给赞助。

文一一些内容没有细讲,比如 Hive Sql 的优化,数据清洗中的各类坑,这些留待后面零丁的分享,话苄很多的内容。

别的千亿级其余数据还会有更多的可贵,不仅仅是数据倾斜的问题,这一点在后面也会有专门的分享。

【编辑推荐】

  1. Spark Graphx 实现图中极大年夜团发掘, 伪并行化算法
  2. 归并Spark社区代码的┞俘确姿势
  3. 谈谈Spark与Spark-Streaming关系
  4. 大年夜数据前景分析:Hadoop将被Spark替代?
  5. 手把手教你Spark机能调优
【义务编辑:未丽燕 TEL:(010)68476606】

  推荐阅读

  闲谈大数据和算法 知道这些让你受益无穷

本篇总结一下本身对大年夜数据算法认知的过程。正文包含两部分:本身对算法的认知过程和对大年夜数据算法的懂得。写这篇博客的原因有很多,总的来讲有下面几点: 本身在算法的路上一向>>>详细阅读


本文标题:数据倾斜那些坑 你都迈过去了吗?

地址:http://www.17bianji.com/lsqh/38617.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)