从源码看Spark读取Hive表数据小文件和分块的问题

// 这里计算splitSize，根据前面计算的goalSize=419MB，minSize为1

long splitSize = computeSplitSize(goalSize, minSize, blockSize);

long bytesRemaining = length;

// 如不雅文件大年夜小大年夜于splitSize，就按照splitSize对它进行分块

// 由此可以看出，这里是为了并行化更好，所以按照splitSize会对文件分的更细，因而split会更多

while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {

String[][] splitHosts = getSplitHostsAndCachedHosts(blkLocations,

length-bytesRemaining, splitSize, clusterMap);

splits.add(makeSplit(path, length-bytesRemaining, splitSize,

splitHosts[0], splitHosts[1]));

bytesRemaining -= splitSize;

}

if (bytesRemaining != 0) {

String[][] splitHosts = getSplitHostsAndCachedHosts(blkLocations, length

- bytesRemaining, bytesRemaining, clusterMap);

splits.add(makeSplit(path, length - bytesRemaining, bytesRemaining,

splitHosts[0], splitHosts[1]));

}

} else {

String[][] splitHosts = getSplitHostsAndCachedHosts(blkLocations,0,length,clusterMap);

splits.add(makeSplit(path, 0, length, splitHosts[0], splitHosts[1]));

}

} else {

//Create empty hosts array for zero length files

splits.add(makeSplit(path, 0, length, new String[0]));

}

规矩：Math.max(minSize, Math.min(goalSize, blockSize))，大年夜而我们可以知道 splitSize = 128MB，对于3MB~4MB的小文件来说，就决定了一个小文件就是一个split了，大年夜而对应了一个Spark的partition，所以我们一个分区下就有200个partition，当取两个月的数据时，就是 200 * 30 * 2 = 12000，大年夜而是12000个Task，跟同事所说的吻合!

> 而大年夜TextInputFormat里分Split的逻辑来看，它只会把一个文件分得越来越小，而不会对小文件采取归并，所以无论调剂哪个参数，都没法改变┞封种情况!而经由过程repartition强行分区，也是在拿到HDFS文件之后对这12000个partition进行重分区，改变不了小文件的问题，也无法改变攫取Hive表Task数多的情况

有同事问到，Spark攫取一张Hive表的数据Task有一万多个，看了Hive表分区下都是3MB~4MB的小文件，每个Task只处理这么小的文件，实袈溱浪费资本浪费时光。而我们都知道Spark的Task数由partitions决定，所以他想经由过程repartition(num)的方法来改变分区数，结不雅发明攫取文件的时刻Task数并没有改变。遂问我有什么参数可以设置，大年夜而改变攫取Hive表时的Task数，将小文件归并大年夜文件读上来

总结

1、Block是物理概念，而Split是逻辑概念，最后数据的分片是根据Split来的。一个文件可能大年夜于BlockSize也可能小于BlockSize，大年夜于它就会被分成多个Block存储到不合的机械上，SplitSize可能大年夜于BlockSize也可能小于BlockSize，SplitSize如不雅大年夜于BlockSize，那么一个Split就可能要跨多个Block。对于数据分隔符而言，不消担心一个完全的句子分在两个Block里，因为在Split构建RecordReader时，它会被弥补完全

2、对于采取 org.apache.hadoop.mapred.TextInputFormat 作为InputFormat的Hive表，如不雅存在小文件，Spark在攫取的时刻单凭调参数和repartition是改变不了分区数的!对于小文件的归并，今朝除了Hadoop供给的Archive方法之外，也只能经由过程写MR来手动合了，最好的方法照样写数据的时刻本身控制reduce的个数，把握文件数

3、对于Spark直接经由过程SparkContext的 textFile(inputPath, numPartitions) 办法攫取HDFS文件的，它底层也是经由过程HadoopRDD构建的，它的参数numPartitions就是膳绫擎计算goalSize的numSplits参数，这篇文┞仿对道理描述的异常具体，异常值得一读

4、对于小文件归并的InputFormat有 org.apache.hadoop.mapred.lib.CombineFileInputFormat，跟它相干的参数是 mapreduce.input.fileinputformat.split.maxsize，它用于设置一个Split的最大年夜值

3/4 首页上一页 1 2 3 4 下一页尾页

　　推荐阅读

　　7nm工艺！AMD Navi显卡现身：性能大提升

【限时免费】岁尾最强一次云计算大年夜会，看传统、社区、互联网企业若何碰撞？之后是7nm的Navi（仙后座），再之后是基于7nm+改进版的下下代架构。据ComputerBase报道，代号GFX10的芯片近>>>详细阅读

本文标题：从源码看Spark读取Hive表数据小文件和分块的问题

地址：http://www.17bianji.com/lsqh/40042.html

1/2 1