沙龙晃荡 | 3月31日 京东、微博拭魅战专家与你合营商量容器技巧实践!
1、中间节点治理元数据
元数据被定义为:描述数据的数据,对数据及信息资本的描述性信息。
元数据(Metadata)是描述其它数据的数据(data about other data),或者说是用于供给某种资本的有关信息的构造数据(structured data)。元数据是描述信息资本或数据等对象的数据,其应用目标在于:辨认资本;评价资本;追踪资本在应用过程中的变更;实现简单高效地治理大年夜量收集化数据;实现信息资本的有效发明、查找、一体化组织和对应用资本的有效治理。
在设计分布式(存储)体系时,应用中间节点是异常简洁、清楚地一种筹划,中间节点平日兼具元数据存储与萌芽、集群节点状况治理、决定计划制订与义务下发等功能;
长处:
A.因为其元数据集中式治理的特点,可以便利的处理集群运维治理的统计分析类需求;
B. 中间节点记录了用户数据的状况信息(即元数据),在扩容时,可以选择不做rebalance操作(rebalance引起的数据迁徙可能带来巨大年夜的机能开销),且仍能正常寻址;
a.单点故障是设计分布式体系最忌讳的问题之一,中间节点简洁的设计也带来了此问题,若何实现HA呢?;解决筹划:(1)应用主备模型,主备之间应用同步或异步的方法进行增量或全量的数据同步(如TFS,mfs,HDFS2.0等),或者主备之间应用远端共享存储(如HDFS2.0,远端存储须要高可用);
对于元数据的治理今朝有几种常用的解决筹划:中间节点治理元数据,分布式治理元数据,无元数据设计;本文谈谈三种筹划的特点:
b.存在机能和容量扩大上限,集中式中间节点自身硬件举措措施存在扩大(scale up)上限及萌芽式寻址方法,导致此问题;即使client缓存元数据或应用缓存集群,也不克不及在根本上清除上限,在某些场景下(如海量小文件),此问题仍然存在;解决筹划:(1)优化进级硬件,如应用SSD,大年夜内存等机械;(2)当面对此问题时,推敲应用分布式治理元数据筹划。
2、分布式治理元数据
和中间节点的筹划类似,只是将元数据分片并应用分布式节点治理存储,在保有中间节点筹划长处的同时,解决了机能和容量扩大上限的问题,同时,多个节点同时供给元数据萌芽办事,体系机能获得晋升;
缺点
词攀类体系较为少见,体系本身构造复杂,实现也有必定难度;
a.体系包含两种相对自力的分布式节点:元数据节点,数据节点,它们均是带状况节点,每种节点构成的分布式模块都要面对分布式CAP原则的弃取,都要做到可扩大,尤其是元数据对一致性有着更高请求;
b.元数据节点须要合营保护数据节点的状况,并在状况变更时作出一致性的决定计划;这些都对体系的设计和实现构成了很大年夜挑衅;
c.别的,大年夜量元数据所需的存储设备也是一笔弗成忽视的成本开销;
膳绫擎两种筹划有着合营思惟:记录并保护数据的状况(即元数据),数据寻址时先向元数据办事器萌芽,再存取实际数据;
3、无元数据设计
重要以ceph为例,有别于上述二者的思惟,词攀类体系的重要思惟:应用算法盘似揭捉?址,寻址算法的输入参数之一为集群状况(如数据节点分布拓扑,权重,过程状况等)的某种情势描述,词攀类常见算法有consistent hashing,Ceph RADOS体系的CRUSH算法,这类算法平日不直接治理用户数据,而是引攘闼殇一层逻辑分片构造(如consistent hashing的环片段,ceph的placement group),其粒度更大年夜,其数量有限且相对固定,用户存取的数据附属于个中独一一个分片中,体系经由过程治理保护这些分片进而治理保护用户数据;词攀类体系有的也有中间设备治理节点(如ceph rados的monitor),只供给集群和分片等重要状况的治理保护,不供给元数据的存储萌芽;
长处:
A.如前所述,体系只需治理保护逻辑分片与集群状况等信息,不存储治理用户数据的元数据,体系的可扩大性大年夜大年夜加强,这在大年夜量元数据场景时尤为明显;
B.寻址算法所需的参数数据量小且相对固定,client可以经由过程缓存的方法,达到若干client并行寻址的目标,避免了寻址机能瓶颈;
缺点分析:
a.集群扩容时(甚至权重改变时),须要做rebalance,尤其是数据范围很大年夜(PB级以上)的集群,由此带来的大年夜量数据迁徙使集群一向处于高负载的状况,进而使得正常营业请求的延时、iops等机能指标降低;但有些场景做集群扩容时,并不欲望做rebalance(如集群容量不足);对此,常见策略是每个集群预先做好机能、容量评估,须要扩容时,直接新建集群;如不雅单个集群必须做rebalance,经由过程人工干涉限流降低集群负载;至于须要做rebalance的根来源基本因,本人认为扩容导致集群状况改变,进而导致寻址算法结不雅改变,最终数据分布页鸬墟之改变;
b.数据的副本分布地位经由过程寻址算法计算得出,地位相对固定,几乎弗成工资调剂;但平日可以经由过程改变权重的方法改变数据总体分布情况;
缺点及解决筹划:
c.中间设备治理节点只治理分片信息,不知道单个用户数据的信息,统计分析类的腥缬须要经由过程按期地收集数据节点信息等方法实现,并存储保护。
总结:经由过程以上比较分析,三类体系的寻址策略,使体系本身均有本身响应的优缺点,它们都不是完美的,但都有其合适的场景和营业,在体系设计与选型时,须要做周全的考量。
【义务编辑:武晓燕 TEL:(010)68476606】推荐阅读
“一千个读者,就有一千个哈姆雷特”,关于这个问题不合的人看法也不尽雷同。在我看来,今天区块链技巧切实其实带来了很多变更,但也存在很多问题,这些问题出生的核心源自于“信息纰谬称”和&l>>>详细阅读
本文标题:分布式存储中的元数据管理
地址:http://www.17bianji.com/lsqh/40579.html
1/2 1