作家
登录

大规模分布式存储系统-分布式文件系统

作者: 来源: 2017-10-17 09:57:08 阅读 我要评论

  • 快照

快照( Snapshot)操作是对源文件/目次进行一个“快照”操作,生成该时刻源文件/目次的一个刹时状况存放于目标文件/目次中o GFS中应用标准的写时复制机制生成快照,也就是说,“快照”只是增长GFS中chunk的引用计数,表示这个chunk被快照文件引用了,比及客户端修改┞封个chunk时,才须要在ChunkServer中拷贝chunk的数据生成新的chunk,后续的修改操作落到新生成的chunk上。(不改就不拷贝,只引用)

6、 ChunkServer设计

主动化对体系的容错才能提出了很高的请求,Google在软件层面的尽力获得了巨大年夜的回报,因为软件层面可以或许做到主动化容错,底层的硬件可以采取便宜的缺点率较高的硬件,比如便宜的SATA盘,这大年夜大年夜降低了云办事的人力及硬件成本。

Google的成功经验也注解了一点:单Master的设计是可行的。单Master的设计不仅简化了体系,并且还可以或许较好的实现一致性。别的,Master保护的元数据很多,须要设计高效的数据构造,占用内存小,并且可以或许支撑快照操作。支撑写时复制的B树可以或许知足Master的元数据治篮孟耋,然而,它的实现是相当复杂的。

Taobao File System

TFS设计时采取的思路是:多个逻辑图片文件共享一个物理文件。经由过程<块ID,文件编号>来独一肯定一个文件。

1、体系架构

  • TFS整体架构

NameServer经由过程心跳对DataServer的状况进行监测;每个DataServer上会运行多个dsp过程,一个dsp对应一个挂载点,这个挂载点一般对应一个自力磁盘,大年夜而治理多块磁盘,TFS中Block的实际数据都存储在DataServer中,大年夜小一般为64MB,默认存储三份。

TFS是写少读多的应用,即使每次写操作都须要经由NameNode也不会出现问题,这大年夜大年夜简化了体系的设计,同一时刻每个Block只能有一个写操作,多个客户端的写操作会被串行化。客户端起首向NameServer提议写请求,NameServer须要根据DataServer上的可写块、容量和负载加权平均来选择一个可写的Block,并且在该Block地点的多个DataServer中选择一个作为写入的主副本(Primary),如不雅所有的副本都修改成功,主副本会起首通知NameServer更新Block的版本号,成功今后才会返回客户端操作结不雅,全部流程如图3所示。

2、评论辩论

比拟GFS,TFS的写流程不敷优化,第一,每个写请求都须要多次拜访NameServer;第二,数据推送也没有采取流水线方法减小延迟。这也是由特定汗青时代的特定营业需求所决定的,淘宝的体系是需求驱动,用最低的成本、最简单的方法解决用户面对的问题,TFS NameServer不须要保存文件目次树信息,也不须要保护文件与Block之间的映射关系。

因为用户可能上传大年夜量雷同的图片,是以,图片上传到TFS前,须要去重。一般在外部保护一套文件级其余去重体系( Dedup),采取MD5或者SHA1等Hash算法为图片文件计算指纹( FingerPrint)。图片写入TFS之前起首到去重体系中查找是否存在指纹,如不雅已经存在,根本可以认为是反复图片;图片写入TFS今后也须要将图片的指纹以及在TFS中的地位信息保存到去重体系中。去重是一个键值存储体系,淘宝内部应用Tair来进行图片去重。图片的更新操作是在TFS中写入新图片,并在应用体系的数据库中保存新图片的地位,图片的删除操作仅仅在应用体系中将图片删除。

跟着体系的范围越来越大年夜,商用软件往往很难知足需求,经由过程采取开源软件与自立开辟相浇忧⒛方法,可以有更好的可控性,体系也有更高的可扩大性。互联网技巧的优势在于范围效应,跟着范围越来越大年夜,单位成本也会越来越低。

3、内容分发收集

淘宝CDN采取分级存储。因为缓存数据有较高的局部性,在Squid办事器上应用SSD+SAS+SATA混淆存储,图片跟着热点变更而迁徙,最热点的存储到SSD,中等热度的存储到SAS,轻热度的存储到SATA。经由过程如许的方法,可以或许很好地结合SSD的机能和SAS、SATA磁盘的成本优势。

【编辑推荐】

  1. Docker镜像的存储机制
  2. SCM: 颠覆存储体系软件架构
  3. IPFS:基于区块链的去中间化存储收集
  4. 分布式日记存储体系-LogDevice
  5. 【超实用】SQL Server两个常用的体系存储过程
【义务编辑:武晓燕 TEL:(010)68476606】

  推荐阅读

  数字化供应链带来的机遇与挑战——“第三方数字合作伙伴”新角色

沙龙晃荡 | 去哪儿、陌陌、ThoughtWorks在主动化运维中的实践!10.28不见不散! 跟着数笔迹巧的迅猛成长,供给链的数字化趋势创造了新的贸易模式,也衍生了一种新角色&mdash;&mdash;&ldquo>>>详细阅读


本文标题:大规模分布式存储系统-分布式文件系统

地址:http://www.17bianji.com/lsqh/37977.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)