主题简介:
SSM体系架构设计
HDFS优化存储功能讲解
SSM体系应用处景分析
一、背景
跟着大年夜数据技巧相干技巧的成长和普及,越来越多的公司开端应用基于开源Hadoop的平台体系,同时,越来越多的营业和应用也在大年夜传统的技巧架构迁徙到大年夜数据平台上。在典范的Hadoop大年夜数据平台中,人们应用HDFS作为存储办事的核心。
而在大年夜数据成长之初,最重要的应用处景仍然是离线批处理场景,对存储的需求寻求的是吞吐量,HDFS恰是针对如许的场景而设计的,而跟着技巧赓续的成长,越来越多的场景会对存储提出新的需求,HDFS也面对着新的挑衅。重要包含几个方面:
1、数据量问题
一方面跟着营业的增长和新的应用接入,会给HDFS带来更多的数据,另一方面跟着深度进修,人工智能等技巧的成长,用户平日欲望能保存更长时光的数据,以晋升深度进修的效不雅。数据量的快速增长会使集群赓续面对扩容需求,大年夜而导致存储成本赓续增长。
跟着数据量的赓续增长积聚,数据也会出现出拜访热度不合的巨大年夜差别。例如一个平台会赓续地写入最新的数据,但平日情况下比来写入的数据拜访频率会比良久之前的数据高很多。如不雅无论数据冷热忱况,都采取同样的存储策略,是对集群资本的一种浪费。若何根据数据冷热程度对HDFS存储体系进行优化是一个亟待解决的问题。
2、小文件问题
众所周知,HDFS的设计是针对离线批处理大年夜文件的,处理小文件并非传统HDFS善于的场景。HDFS小文件问题的根源在于文件的元数据信息都是保护在单点Namenode的内存中,单台机械的内存空间始终是有限的。据估算,单台namenode集群能容纳体系文件数量极限大年夜约在1.5亿阁下。实际上,HDFS平台平日作为底层存储平台办事于上层多种计算框架,多个营业场景,所以小文件问题大年夜营业的角度也难以避免。今朝也有筹划例如HDFS-Federation解决Namenode单点扩大性问题,但同时也会带来巨大年夜的运维治理难度。
3、冷热数据问题
二、现有HDFS优化技巧
HDFS异构存储:
与此类似,对于热点的数据,同样可以根据不合的规矩,对其采取更快速的存储策略,如上图所示,短时光内拜访此处较多的热点数据,会大年夜HDD存储上升至SSD存储,更热点的数据会采取内存存储的策略。
Hadoop大年夜2.6.0版本开端支撑异构存储功能。我们知道HDFS默认的存储策略,对于每个数据块,采取三个副本的存储方法,保存在不合节点的磁盘上。异构存储的感化在于应用办事器不合类型的存储介质(包含HDD硬盘、SSD、内存等)供给更多的存储策略(例如三个副本一个保存在SSD介质,剩下两个仍然保存在HDD硬盘),大年夜而使得HDFS的存储可以或许更灵活高效地应对各类应用处景。
HDFS中预定义支撑的各类存储包含:
- ARCHIVE:高存储密度但耗电较少的存储介质,例如磁带,平日用来存储冷数据
- DISK:磁盘介质,这是HDFS最早支撑的存储介质
- SSD:固态硬盘,是一种新型存储介质,今朝被不少互联网公司应用
- RAM_DISK :数据被写入内存中,同时会往该存储介质中再(异步)写一份
HDFS中支撑的存储策略包含:
- Lazy_persist:一个副本保存在内存RAM_DISK中,其余副本保存在磁盘中
- ALL_SSD:所有副本都保存在SSD中
- One_SSD:一个副本保存在SSD中,其余副本保存在磁盘中
- Hot:所有副本保存在磁盘中,这也是默认的存储策略
- Warm:一个副本保存在磁盘上,其余副本保存在归档存储上
- Cold:所有副本都保存在归档存储上
总体上HDFS异构存储的价值袈溱于,根据数据热度采取不合策略大年夜而晋升集群整体资本应用效力。对于频繁拜访的数据,将其全部或部分保存在更高拜访机能的存储介质(内存或SSD)上,晋升其读写机能;对于几乎不会拜访的数据,保存在归档存储介质上,降低其存储成本。然则HDFS异构存储的设备须要用户对目次指定响应的策略,即竽暌姑户须要预先知道每个目次下的文件的拜访热度,在实际大年夜数据平台的应用中,这是比较艰苦的一点。
HDFS纠删码:
传统HDFS数据采取三副本机制包管数据的靠得住性,即每存储1TB数据,现其实集群各节点上占用的数据达到3TB,额外开销为200%。这给节点磁盘存储和收集传输带来了很大年夜的压力。
在Hadoop3.0开端惹人支撑HDFS文件块级其余纠删码,底层采取Reed-Solomon(k,m)算法。RS是一种常用的纠删码算法,经由过程矩阵运算,可认为k位数据生成m位校验位,根据k和m的取值不合,可以实现不合程度的容错才能,是一种比较灵活的纠删码算法。
常见的算法为RS(3,2)、RS(6,3)、RS(10,4),k个文件块和m个校验块构成一个组,这个组内可以容忍随便率性m个数据块的损掉。
HDFS纠删码技巧可以或许降低数据存储的冗余度,以RS(3,2)为例,其数据冗余度为67%,比拟Hadoop默认的200%大年夜为削减。然则纠删码技巧存储数据和数据恢复都须要消费cpu进行计算,实际上是一种以时光换空间的选择,是以比较实用的场景是对冷数据的存储。冷数据存储的数据往往一次写入之后长时光没有拜访,这种情况下可以经由过程纠删码技巧削减副本数。
推荐阅读
今早和往常一样,滴个车上班!!!途中听到车主的滴滴平台播报,大年夜请安思是:近日滴滴平台出现故障,一些数据将不显示。平台恢复后,金额等汗青数据不会损掉,请司机师傅宁神工作。第>>>详细阅读
地址:http://www.17bianji.com/lsqh/38394.html
1/2 1