作家
登录

如何根据数据冷热程度分层存储,让HDFS更高效?

作者: 来源: 2017-11-02 13:06:10 阅读 我要评论

三、大年夜数据存储优化:SSM

前面介绍的无论HDFS异构存储照样纠删码技巧,前提都是须要用户对特定的数据指定存储的行动,就是说用户须要知道哪些数据是热点数据,哪些是冷数据。那有没有一种办法可以主动对存储进行优化呢?

谜底是有的,这里介绍的SSM(Smart Storage Management)体系,它大年夜底层存储(平日是HDFS)中获取元数据信息,并经由过程数据读写拜访信息分析获取数据热度情况,针对不合热度的数据,按照预先制订的一系列规矩,采取响应的存储优化策略,大年夜而晋升全部存储体系的效力。SSM是一个由Intel主导的开源的项目,中国移动也介入个中的研发,项目可以在Github中获取到:https://github.com/Intel-bigdata/SSM 。

SSM定位是一个存储外围优化的体系,整体上采取Server-Agent-Client的架构,个中Server负责SSM整体逻辑的实现,Agent用于对存储集群履行各类操作,Client是供给给用户的数据拜访接口,平日个中包含了原生HDFS的接口。

SSM-Server的重要框架如上图所示,大年夜上到下,StatesManager与HDFS集群进行交互,用于获取HDFS元数据信息,并保护每个文件的拜访热度信息。StatesManager中的信息会持久化到关系型数据库中。在SSM中采取TiDB作为底层存储的数据库。RuleManager保护和治理规矩相干信息,用户经由过程前台界面为SSM定义一系列存储规矩,RuleManger负责规矩的解析和履行。CacheManager/StorageManager根据热度和规矩,生成具体的action义务。ActionExecutor 负责具体的action义务,把义务分派给Agent,并在Agent节点履行。

SSM-Server内部逻辑实现依附于规矩的定义,须要治理员经由过程前台web页面为SSM体系制订一系列规矩。一条规矩包含几部分构成:

  • 操尴尬刁难象,平日是指相符特定前提的文件。
  • 触发器,指规矩触发的时光点,例如天天准时触发。
  • 履行前提,定义一系列基于热度的前提,例如文件在一段时光拜访次数计数请求。
  • 履行操作,对相符履行前提的数据进行相干操作,平日是指定其存储策略等。

一个实际的规矩示例:

file.path matchs ”/foo/*”: accessCount(10min) >= 3 |>

最典范的场景就是针对冷数据,如上图所示,定义相干规矩,将较长时光为没有拜访的数据采取更低成本的存储。例如本来的数据块,大年夜SSD存储退化到HDD存储。

大年夜Hadoop出生到今天也有跨越10年的时光,在此时代HDFS技巧本身也在赓续优化演进。HDFS现有一些技巧可以或许必定程度上解决上述一些问题。这里扼要介绍一下HDFS异构存储和HDFS纠删码技巧。

针对冷数据的场景,SSM也可以采取纠山步饽优化,经由过程定义响应规矩,对于拜访次数很少的冷数据,对其履行erasure code操作,降低数据副本冗余。

别的值得一提的是SSM针对小文件也有响应优化手段,这个功能仍然处于开辟过程中。大年夜体逻辑是SSM会对HDFS上一系列小文件履行归并成大年夜文件的操作,同时,在SSM的元数据中记录下原始小文件和归并后大年夜文件的映射关系以及每个小文件在大年夜文件中的偏移量。当用户须要拜访小文件时,经由过程SSM特定的客户端(SmartClient),根据SSM元数据中的小文件映射信息,大年夜归并后的文件中获取到原始小文件。

最后SSM是个开源的项目,今朝仍然在异常快速的迭代演进过程中,迎接任何感兴趣的同伙介入项目标开辟供献。

Q&A

Q1:HDFS自行搭建应当大年夜多大年夜范围开端?

A1:HDFS支撑伪分布模式,即使只有一个节点,也能搭建一个HDFS体系。如不雅欲望更好体验和懂得HDFS的分布式架构,建议有3到5个节点的情况来搭建。

Q2:苏研在实际各省的大年夜数据平台用SSM了吗?

A2:今朝还没有,这个项目还在快速成长中,须要比及测试稳定后才会慢慢用到临盆上。

Q3:HDFS和Spark差别是什么?优缺点呢?

A3:HDFS和Spark并不是同一个层面上的技巧,HDFS是存储体系,而Spark是一种计算引擎。我们经常拿来和Spark对标的是Hadoop中的Mapreduce计算框架而非HDFS存储体系。在实际项目扶植中,平日HDFS和Spark是协作的关系,底层存储应用HDFS,上层计算应用Spark。

【编辑推荐】

  1. 为什么石油和天然气的大年夜数据家当须要扩大NAS存储
  2. 面向海量范围与高度扩大偏向转化的二级数据存储
  3. 下一代云存储体系技巧白皮书
  4. 存储架构第三个架构:组合式存储
  5. 若何做数据存储架构技巧选型?
【义务编辑:武晓燕 TEL:(010)68476606】

  推荐阅读

  服务器升级导致滴滴车主APP、滴滴出行APP出现部分异常

今早和往常一样,滴个车上班!!!途中听到车主的滴滴平台播报,大年夜请安思是:近日滴滴平台出现故障,一些数据将不显示。平台恢复后,金额等汗青数据不会损掉,请司机师傅宁神工作。第>>>详细阅读


本文标题:如何根据数据冷热程度分层存储,让HDFS更高效?

地址:http://www.17bianji.com/lsqh/38394.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)