作家
登录

Hadoop 分布式存储与传统SQL存储比较及存储操作描述

作者: 来源: 2018-03-12 09:56:02 阅读 我要评论

沙龙晃荡 | 3月31日 京东、微博拭魅战专家与你合营商量容器技巧实践!


Google 为了应对快速增长的数据处理,开辟了一套算法。后来竽暌剐人根据算法的思惟,开辟出开源的软件框架 ,就是Hadoop, 跟着越来越多的组织和小我开辟者在框架开辟中赓续供献改进,Hadoop 已经形成一套家族产品,成为当下最成功最风行的分布式大年夜数据处理框架。

Hadoop 受到很多组织青睐,是因为有两大年夜身分: 一、超大年夜范围的数据处理, 平日 10TB 以上;二、超复杂的计算工作,例如统计和模仿。

Hadoop 在很多应用处景中发挥侧重要功用,如大年夜范围统计、ETL数据发掘、大年夜数据智能分析、机械进修等。

Hadoop 读时模式(Schema>

左边是Schema on Read , 右边是Schema on Write。 右边数据格局纰谬会报错;左边更存眷读数据的规矩

Hadoop 是分布式数据库, 而大年夜部分SQL 是集中存储的。

假如我搜刮我的一个聊天记录,Hadoop 会把搜刮义务分成多个均衡负载的搜刮义务运行在60个节点上。而传统SQL会逐个搜刮存储空间,直到全部遍历。如不雅没有完全搜刮完,会返回搜刮结不雅吗? Hadoop的答复是YES,而传统SQL会是NO。

Hadoop 家族的产品 Hive,可以让不怎么懂SQL 的客户开辟出根本上和SQL同样功能的萌芽

Hadoop 的数据写入、备份、删除操作

一、数据写入

在客户端想HDFS写数据的过程中,重要分为下面几个过程:

客户端将数据缓存到本地的一个临时文件中;

Namenode与分派好的Datanode进行沟通,肯定存储地位可用,然后将这些存储地位信息返回给客户端;

客户端将本地的临时文件传输到Datanode中;

当写文件停止,临时文件封闭时,会将已有的临时数据传输到Datanode中,并告诉Namenode写数据完成;

Namenode将该文件改变为持久的一致性状况,也就事将该操作记录到日记EditLog中。如不雅此时Namenode宕掉落,那么文件信息损掉。

膳绫擎的过程重要特点噬烫蛛数据先缓存到本地,在达到块大年夜小限制时才与Datanode通信进行传输。如许的好处在于避免在客户写数据的过程中持续占用收集带宽,这对于处理多用户大年夜量数据的写入是异常关键的。

二、数捷报份

数据的写入同时伴随这数据块的备份,过程如下:

举例来讲: 微信后台有可能数千个办事器节点用于存储微信聊天记录,假设我的聊天记录分布在60个不合的办事节点上。而对于关系数据库,会合中在多个表空间中。

在客户端临时数据达到一个块时,与Namenode通信,获得一组Datanode地址,这些Datanode就是用来存储该数据块的;

客户端起首将该数据块发送到一个Datanode上,Datanode在接收时是以4kb为单位进行,我们把这些小单位称为缓存页(参考了Linux管道文件的说法);

对于第一个接到数据的Datanode,它把缓存页中的数据写入本身的文件体系,另一方面,它又将这些缓存页传送给下一?Datanode;

反复3的过程,第二个Datanode又精华存页存储在本地文件体系,同时将它传送给第三个Datanode;

如不雅HDFS中的备份数量设置为3,那么第三个Datanode就只须要精华存页存储即可。

膳绫擎的过程中,数据块大年夜客户端流向第一个Datanode,然后再流向第二个,大年夜第二个再到第三个,全部是一个流水线过程,中心不会有逗留。所以HDFS将它称为Replication Pipelining。

Hadoop 和 传统SQL关系数据存储 有什么差别?

当这个本地的临时文件达到HDFS中的块大年夜小限制时,客户端拜访Namenode,Namenode将文件的名字插入到HDFS定名空间中,并且为其分派响应的存储地位;

为什么不采取客户端同时向多个Datanode写数据的办法呢?其实大年夜Pipelining这个称呼上就可以猜到,客户端和Datanode采取的缓存文件都是管道文件,即只支撑一次攫取。

三、 数据删除

HDFS中的数据删除也是比较有特点的,并不是直接删除,而是先放在一个类似收受接收站的处所(/trash),可供恢复。

对于用户或者应用法度榜样想要删除的文件,HDFS会将它重定名并移动到/trash中,当过了必定的生命刻日今后,HDFS才会将它大年夜文件体系中删除,并由Namenode修改相干的元数据信息。并且只有到这个时刻,Datanode上相干的磁盘空间才能节俭出来,也就是说,当用户请求删除某个文件今后,并不克不及立时看出HDFS存储空间的增长,得比及必定的时光周期今后(如今默认为6小时)。

对于备份数据,有时刻也会须要删除,比如用户根据须要下调了Replicaion的个数,那么多余的数捷报份就会鄙人次Beatheart接洽中完成删除,对于接收到删除操作的Datanode来说,它要删除的备份块也是先放入/trash中,然后过一准时光后才删除。是以在磁盘空间的查看上,也会有必定的延时。

那么若何急速彻底删除文件呢,可以应用HDFS供给的Shell敕令:bin/hadoop dfs expunge清空/trash。

【编辑推荐】

  1. 来看一看PB级分布式存储Ceph
  2. 异构情况下的存储治理,您预备好了吗?
  3. 企业若何克服混淆云存储问题
  4. 去中间化数据存储,你的数据你做主
  5. 分布式存储中的元数据治理
【义务编辑:武晓燕 TEL:(010)68476606】


  推荐阅读

  分布式存储中的元数据管理

沙龙晃荡 | 3月31日 京东、微博拭魅战专家与你合营商量容器技巧实践!1、中间节点治理元数据 元数据被定义为:>>>详细阅读


本文标题:Hadoop 分布式存储与传统SQL存储比较及存储操作描述

地址:http://www.17bianji.com/lsqh/40580.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)