如何为Hadoop集群选择正确的硬件

以下是NameNode/ResourceManager及其Standby节点的推荐设备。磁盘的数量取决于你想冗余备份元数据的份数。

4–6个1TB的硬盘，JBOD(1个是OS, 2个是NameNode的FS image [RAID 1], 1个设备给Apache ZooKeeper, 桓荷琐是设备给Journal node)
2路6核，2路8核的CPU, 主频至少2-2.5GHz
64-256GB的内存
绑定的万兆网

除了根据工作负载来选择硬件外，还可以与硬件厂商一路懂得耗电和散热以节俭额外的开支。因为Hadoop是运行在数十，数百甚至数千个节点上，尽可能多的┞峰酌方方面面都可以节俭成本。每个硬件厂商都供给了专门的对象来监控耗电和散热，以及若何改进的最佳实践。

“记住，Hadoop生态体系的设计需推敲并行情况。”

如不雅预期你的Hadoop集群将来会跨越20台机械，建议集群初始筹划就跨两个机架，每个机柜都设备柜顶(TOR,top-of-rack)的10GigE交换机。跟着集群范围的扩大年夜，跨越多个机架时，我们在机架之上还要设备冗余的核心交换机，带宽一般为40GigE，用来连接所有机柜的柜顶(TOR)交换机。拥有两个机架，可以让运维团队更好的懂得机架内以及跨机架的收集通信需求。Hadoop收集请求可以参考Fayson之前的文┞仿CDH收集请求(Lenovo参考架构)。

当搭建好Hadoop集群后，我们就可以开端辨认和整顿运行在集群之上的工作负载，并且为这些工作负载预备基准测试，以定位硬件的瓶颈在哪里。经由一段时光的基准测试和监控，我们就可以懂得须要若何增长什么样设备的新机械。异构的Hadoop集群是比较常见的，特别是跟着数据量和用例数量的增长，集群须要扩容时。所以如不雅因为前期并不熟悉工作负载，选择了一些较为通用的办事器，也并不是不克不及接收。Cloudera Manager支撑办事器分组，大年夜而使异构集群设备变的很简单。

以下是不合的工作负载的常见机械设备：

Light Processing Configuration，1U的机械，一般为测试，开辟或者低请求的场景：2个hex-core CPUs，24-64GB内存，8个磁盘(1TB或者2TB)
Balanced Compute Configuration，均衡或主流的设备，1U/2U的机械：2个hex-core CPUs，48-256GB的内存，12-16块磁盘(1TB-4TB)，硬盘为纵贯挂载
Storage Heavy Configuration，重存储的设备，2U的机械：2个hex-core CPUs，48-128GB的内存，16-24块磁盘(2TB-6TB)。这种设备一旦多个节点或者机架故障，将对收集流量造成很大年夜的压力
Compute Intensive Configuration，计算密集型的设备，2U的机械：2个hex-core CPUs，64-512GB memory,4-8块磁盘(1TB-4TB)

留意：以上2路6核为最低的CPU设备，推荐的CPU选择一般为2路8核，2路10核，2路12核

下图显示若何根据工作负载来选择你的机械：

4.其他留意事项

Hadoop生态体系是一个并行情况的体系。在选择购买处理器时，我们不建议选择主频(GHz)最高的芯片，如许一般都代表了更高电源瓦数(130W+)。因为这会产生两个问题：更高的功率消费和须要更多的散热。较为均衡的选择是在主频，价格和核数之间做一个均衡。

当存在产生大年夜量中心结不雅的应用法度榜样 – 输出结不雅数据与输入数据相当，或者须要较多的收集交换数据时，建议应用绑定的万兆网，而不是单个万兆网口。

当计算对内存请求比较高的场景，请记住，Java最多应用10%的内存来治理虚拟机。建议严格设备Hadoop应用的堆大年夜小的限制，大年夜而避免内存交换稻磁逄，因为交换会大年夜大年夜影响计算引擎如MapReduce/Spark的机能。

优化内存通道宽度也同样重要。比如，当应用双通道内存时，每台机械都应设备一对DIMM。应用三通道内存时，每个机械都应当具有三倍的DIMM。同样，四通道DIMM应当被分为四组。

5.Hadoop其他组件的┞峰酌

Hadoop远远不止HDFS和MapReduce/Spark，它是一个周全的数据平台。CDH平台包含了很多Hadoop生态圈的其他组件。我们在做群集筹划的时刻往往还须要推敲HBase，Impala和Solr等。它们都邑运行在DataNode上运行，大年夜而包管数据的本地性。

因为GC超时的问题，建议的HBase RegionServer的heap size大年夜小一般为16GB，而不是简单的越大年夜越好。为了包管HBase及时萌芽的SLA，可以经由过程Cgroups的的方法给HBase分派专门的静态资本。

Impala是内存计算引擎，有时可以用到集群80%以上的内存资本，是以如不雅要应用Impala，建议每个节点至少有128GB的内存。当然也可以经由过程Impala的动态资本池来对萌芽的内存或用户进行限制。

Cloudera Search在做节点筹划时比较有趣，你可以先在一个节点安装Solr，然后装载一些文档，建立索引，并以你期望的方法进行萌芽。然后持续装载，直到索引建立以及萌芽响应跨越了你的预期，这个时刻你就须要推敲扩大了。单个节点Solr的┞封些数据可以给你供给一些筹划时的参考，但不包含复制因子身分。

6.总结

选择并采购Hadoop硬件时须要一些基准测试，应用处景测试或者Poc，以充分懂得你地点企业的工作负载情况。但Hadoop集群也支撑异构的硬件设备，所以如不雅在不懂得工作负载的情况下，建议选择较为均衡的硬件设备。还须要留意一点，Hadoop平台往往都邑应用多种组件，资本的应用情况往往都邑不一样，专注于多租户的设计包含安然治理，资本隔离和分派，将会是你成功的关键。

【编辑推荐】

软硬件结合，让人工智能计算进入平易近主化时代
存储硬件很重要，但不仅于此
hadoop生态圈列式存储体系--kudu介绍及安装设备
EMC James McCready：软硬件设备更灵活，VxRail旨在赞助用户简化安排，降低TCO
应用WSS和SOFS治理集群存储

【义务编辑：武晓燕 TEL：（010）68476606】

2/2 首页上一页 1 2

　　推荐阅读

　　这些JavaScript编程黑科技，高逼格代码，让你惊叹不已

Javascript是一门很牛的说话，我可能学了假的JavaScript，哈哈！1、单行写一个评级组件"★★★★★☆☆☆☆☆".slice(5 - rate, 10 - rate);定义一个变量rate是1到5的值，然后履行膳绫擎代>>>详细阅读

本文标题：如何为Hadoop集群选择正确的硬件

地址：http://www.17bianji.com/lsqh/38659.html

1/2 1