作家
登录

Hadoop环境中管理大数据存储八大技巧

作者: 来源: 2017-04-10 12:03:56 阅读 我要评论

在现如今,跟着IT互联网信息技巧的飞速成长和进步。今朝大年夜数据行业也越来越火爆,大年夜而导致国内大年夜数据人才也极端缺乏,下面介绍一下关于Hadoop情况中治理大年夜数据存储技能。

1、分布式存储

传统化集中式存储存在已有一段时光。但大年夜数据并非真的合适集中式存储架构。Hadoop设计用于将计算更接近数据节点,同时采取了HDFS文件体系的大年夜范围横向扩大功能。

2、超融合VS分布式

固然,平日解决Hadoop治理自身数据低效性的筹划是将Hadoop数据存储在SAN上。但这也造成了它自身机能与范围的瓶颈。如今,如不雅你把所有的数据都经由过程集中式SAN处理器进行处理,与Hadoop的分布式和并行化特点相悖。你要么针对不合的数据节点治理多个SAN,要么将所有的数据节点都集中到一个SAN。

但Hadoop是一个分布式应用,就应当运行在分布式存储上,如许存储就保存了与Hadoop本身同样的灵活性,不过它也请求拥抱一个软件定义存储筹划,并在商用办事器上运行,这比拟瓶颈化的Hadoop天然更为高效。

留意,不要混淆超融合与分布式。某些超融合筹划是分布式存储,但平日这个术语意味着你的应用和存储都保存在同一计算节点上。这是在试图解决数据本地化的问题,但它会造成太多资本争用。这个Hadoop应用和存储平台会争用雷同的内存和CPU。Hadoop运行在专有应用层,分布式存储运行在专有存储层如许会更好。之后,应用缓存和分层来解决数据本地化并补偿收集机能损掉。

3、避免控制器瓶颈(ControllerChokePoint)

6、虚拟化Hadoop

实现目标的一个重要方面就是——避免经由过程单个点例如一个传统控制器来处理数据。反之,要确保存储平台并行化,机能可以获得明显晋升。

此外,这个筹划供给了增量扩大性。为数据湖添加功能跟往琅绫擎扔x86办事器一样简单。一个分布式存储平台如有须要将主动添加功能并从新调剂数据。

4、删重和紧缩

控制大年夜数据的关键是删重和紧缩技巧。平日大年夜数据集内会有70%到90%的数据简化。以PB容量计,能节约数万美元的磁盘成本。现代平台供给内联(比较后期处理)删重和紧缩,大年夜大年夜降低了存储数据所需才能。

5、归并Hadoop发行版

很多大年夜型企业拥有多个Hadoop发行版本。可能是开辟者须要或是企业部分已经适应了不合版本。无论若何最终往往要对这些集群的保护与运营。一旦海量数据真正开端影响一俭朴业瓯,多个Hadoop发行版存储就会导致低效性。我们可以经由过程创建一个单一,可删重和紧缩的数据湖获取数据效力

虚拟化已经囊括企业级市场。很多地区跨越80%的物理办事器如今是虚拟化的。但也如有很多企业因为机能和数据本地化问题对虚拟化Hadoop避而不谈。

7、创建弹性数据湖

创建数据湖并不轻易,但大年夜数据存储可能话苄需求。我们有很多种办法来做这件事,但哪一种是精确的?这个精确的架构应当是一个动态,弹性的数据湖,可以以多种格局(架构化,非构造化,半构造化)存储所有资本的数据。更重要的是,它必须支撑应用不在长途资本上而是在本地数据资本上履行。

不幸的是,传统架构和应用(也就长短分布式)并不尽如人意。跟着数据集越来越大年夜,将应用迁徙到数据弗成避免,而因为延迟太长也无法倒置。

幻想的数据湖基本架构会实现数据单一副本的存储,并且有应用在单一数据资本上履行,无需迁徙数据或制造副本。

8、整合分析

分析并不是一个新功能,它已经在传统RDBMS情况中存在多年。不合的是基于开源竽暌功用的出现,以及数据库表单和社交媒体,非构造化数据资本(比如,维诽谤科)的┞符合才能。关键在于将多个数据类型和格局整合成一个标准的才能,有利于更轻松和一致地实现可视化与申报制造。合适的对象也对分析/贸易智能项目标成功至关重要。

【编辑推荐】

  1. 企业数据存储厂商点将台
  2. 高效数据中间收集治理五大年夜技能
  3. Pandas处理大年夜数据的一些小技能
  4. 云时代的大年夜数据存储-云HBase
  5. 在 Apache Hive 中轻松生计的12个技能
【义务编辑:武晓燕 TEL:(010)68476606】

  推荐阅读

  学习机器学习时需要尽早知道的三件事

我已经在学术界和工业界进行了很多年的机械进修建模工作,在看了一系列评论辩论“大年夜数据”实用性问题的优良视频 Scalable ML 后,我开端思虑总搅一皓在进修机械进修时,我>>>详细阅读


本文标题:Hadoop环境中管理大数据存储八大技巧

地址:http://www.17bianji.com/lsqh/34676.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)