作家
登录

如何为Hadoop集群选择正确的硬件

作者: 来源: 2017-11-09 10:39:42 阅读 我要评论

以下是NameNode/ResourceManager及其Standby节点的推荐设备。磁盘的数量取决于你想冗余备份元数据的份数。

  • 4–6个1TB的硬盘,JBOD(1个是OS, 2个是NameNode的FS image [RAID 1], 1个设备给Apache ZooKeeper, 桓荷琐是设备给Journal node)
  • 2路6核,2路8核的CPU, 主频至少2-2.5GHz
  • 64-256GB的内存
  • 绑定的万兆网

除了根据工作负载来选择硬件外,还可以与硬件厂商一路懂得耗电和散热以节俭额外的开支。因为Hadoop是运行在数十,数百甚至数千个节点上,尽可能多的┞峰酌方方面面都可以节俭成本。每个硬件厂商都供给了专门的对象来监控耗电和散热,以及若何改进的最佳实践。

“记住,Hadoop生态体系的设计需推敲并行情况。”

如不雅预期你的Hadoop集群将来会跨越20台机械,建议集群初始筹划就跨两个机架,每个机柜都设备柜顶(TOR,top-of-rack)的10GigE交换机。跟着集群范围的扩大年夜,跨越多个机架时,我们在机架之上还要设备冗余的核心交换机,带宽一般为40GigE,用来连接所有机柜的柜顶(TOR)交换机。拥有两个机架,可以让运维团队更好的懂得机架内以及跨机架的收集通信需求。Hadoop收集请求可以参考Fayson之前的文┞仿CDH收集请求(Lenovo参考架构)。

当搭建好Hadoop集群后,我们就可以开端辨认和整顿运行在集群之上的工作负载,并且为这些工作负载预备基准测试,以定位硬件的瓶颈在哪里。经由一段时光的基准测试和监控,我们就可以懂得须要若何增长什么样设备的新机械。异构的Hadoop集群是比较常见的,特别是跟着数据量和用例数量的增长,集群须要扩容时。所以如不雅因为前期并不熟悉工作负载,选择了一些较为通用的办事器,也并不是不克不及接收。Cloudera Manager支撑办事器分组,大年夜而使异构集群设备变的很简单。

以下是不合的工作负载的常见机械设备:

  • Light Processing Configuration,1U的机械,一般为测试,开辟或者低请求的场景:2个hex-core CPUs,24-64GB内存,8个磁盘(1TB或者2TB)
  • Balanced Compute Configuration,均衡或主流的设备,1U/2U的机械:2个hex-core CPUs,48-256GB的内存,12-16块磁盘(1TB-4TB),硬盘为纵贯挂载
  • Storage Heavy Configuration,重存储的设备,2U的机械:2个hex-core CPUs,48-128GB的内存,16-24块磁盘(2TB-6TB)。这种设备一旦多个节点或者机架故障,将对收集流量造成很大年夜的压力
  • Compute Intensive Configuration,计算密集型的设备,2U的机械:2个hex-core CPUs,64-512GB memory,4-8块磁盘(1TB-4TB)

留意:以上2路6核为最低的CPU设备,推荐的CPU选择一般为2路8核,2路10核,2路12核

下图显示若何根据工作负载来选择你的机械:

4.其他留意事项

Hadoop生态体系是一个并行情况的体系。在选择购买处理器时,我们不建议选择主频(GHz)最高的芯片,如许一般都代表了更高电源瓦数(130W+)。因为这会产生两个问题:更高的功率消费和须要更多的散热。较为均衡的选择是在主频,价格和核数之间做一个均衡。

当存在产生大年夜量中心结不雅的应用法度榜样 – 输出结不雅数据与输入数据相当,或者须要较多的收集交换数据时,建议应用绑定的万兆网,而不是单个万兆网口。

当计算对内存请求比较高的场景,请记住,Java最多应用10%的内存来治理虚拟机。建议严格设备Hadoop应用的堆大年夜小的限制,大年夜而避免内存交换稻磁逄,因为交换会大年夜大年夜影响计算引擎如MapReduce/Spark的机能。

优化内存通道宽度也同样重要。比如,当应用双通道内存时,每台机械都应设备一对DIMM。应用三通道内存时,每个机械都应当具有三倍的DIMM。同样,四通道DIMM应当被分为四组。

5.Hadoop其他组件的┞峰酌

Hadoop远远不止HDFS和MapReduce/Spark,它是一个周全的数据平台。CDH平台包含了很多Hadoop生态圈的其他组件。我们在做群集筹划的时刻往往还须要推敲HBase,Impala和Solr等。它们都邑运行在DataNode上运行,大年夜而包管数据的本地性。

因为GC超时的问题,建议的HBase RegionServer的heap size大年夜小一般为16GB,而不是简单的越大年夜越好。为了包管HBase及时萌芽的SLA,可以经由过程Cgroups的的方法给HBase分派专门的静态资本。

Impala是内存计算引擎,有时可以用到集群80%以上的内存资本,是以如不雅要应用Impala,建议每个节点至少有128GB的内存。当然也可以经由过程Impala的动态资本池来对萌芽的内存或用户进行限制。

Cloudera Search在做节点筹划时比较有趣,你可以先在一个节点安装Solr,然后装载一些文档,建立索引,并以你期望的方法进行萌芽。然后持续装载,直到索引建立以及萌芽响应跨越了你的预期,这个时刻你就须要推敲扩大了。单个节点Solr的┞封些数据可以给你供给一些筹划时的参考,但不包含复制因子身分。

6.总结

选择并采购Hadoop硬件时须要一些基准测试,应用处景测试或者Poc,以充分懂得你地点企业的工作负载情况。但Hadoop集群也支撑异构的硬件设备,所以如不雅在不懂得工作负载的情况下,建议选择较为均衡的硬件设备。还须要留意一点,Hadoop平台往往都邑应用多种组件,资本的应用情况往往都邑不一样,专注于多租户的设计包含安然治理,资本隔离和分派,将会是你成功的关键。

【编辑推荐】

  1. 软硬件结合,让人工智能计算进入平易近主化时代
  2. 存储硬件很重要,但不仅于此
  3. hadoop生态圈列式存储体系--kudu介绍及安装设备
  4. EMC James McCready:软硬件设备更灵活,VxRail旨在赞助用户简化安排,降低TCO
  5. 应用WSS和SOFS治理集群存储
【义务编辑:武晓燕 TEL:(010)68476606】

  推荐阅读

  这些JavaScript编程黑科技,高逼格代码,让你惊叹不已

Javascript是一门很牛的说话,我可能学了假的JavaScript,哈哈!1、单行写一个评级组件"★★★★★☆☆☆☆☆".slice(5 - rate, 10 - rate);定义一个变量rate是1到5的值,然后履行膳绫擎代>>>详细阅读


本文标题:如何为Hadoop集群选择正确的硬件

地址:http://www.17bianji.com/lsqh/38659.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)