`
szjian
  • 浏览: 72352 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

hadoop 集群管理-内存设置

阅读更多

1. 内存

hadoop为各个守护进程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)统一分配的内存在hadoop-env.sh中设置,参数为HADOOP_HEAPSIZE,默认为1000M。

大部分情况下,这个统一设置的值可能并不适合。例如对于namenode节点,1000M的内存只能存储几百万个文件的数据块的引用。如果我想单独设置namenode的内存,可以通过HADOOP_NAMENODE_OPTS来设置。

同样的,可以通过HADOOP_SECONDARYNAMENODE_OPTS来设置secondrynamenode的内存,使得它与namenode保持一致。

当然,还有HADOOP_DATANODE_OPTS、HADOOP_BALANCER_OPTS、HADOOP_JOBTRACKER_OPTS变量供你使用。

此外,tasktracker启动独立的子JVM以运行map和reduce任务,分配给每个子JVM的内存量由mapred.child.java.opts属性(mapred-site.xml)控制,默认值为200M。

2. 最大map任务数

一个tasktracker能够同时运行最大map任务数,由mapred.tasktracker.map.tasks.maximum属性(mapred-site.xml)控制,默认为2。

3. 最大reduce任务数

一个tasktracker能够同时运行最大reduce任务数,由mapred.tasktracker.reduce.tasks.maximum属(mapred-site.xml)性控制,默认为2。

4. 小总结:计算节点的内存占用量。

默认情况下,一个同时运行了namenode,secondarynamenode和jobtracker的主节点,各自使用1000M内存,所以总计使用3000M。

默认情况下,一个从节点运行了如下守护进程:

  • 1个datanode:默认占用1000M内存。
  • 1个tasktracker:默认占用1000M内存。
  • 最多2个map任务:2*200M=400M。
  • 最多2个reduce任务:2*200M=400M。

即默认情况下,一个从节点需要使用2800M内存量。

在一个tasktracker上能够同时运行的任务数取决于这台机器上有多少个处理器。由于mapreduce作业通常是I/O-bound,因此将任务数设定为超出处理器数也有一定道理,可以获得更好的利用率。经验法则是任务总数(map任务数与reduce任务数之和)与处理器的比值在1和2之间。

例如,假设一台8个处理器的工作节点,每个处理器上运行2个进程,则可以将最大map任务数和最大reduce任务数分别设置成7(因为还有datanode和tasktracker进程,所以不能设置为8),各个JVM子任务可用内存设置为400M,则总内存开销=1000M(datanode)+1000M(tasktracker)+7*400M(map)+7*400M(reduce)=7600M

这样配置是否合理,还需要考虑是否给这台机器上的其他进程预留了足够内存,否则可能导致各进程在系统中不断切换,导致性能恶化。可以使用一些工具来监控集群的内存使用情况来进行优化,例如Ganglia工具。

分享到:
评论

相关推荐

    Hadoop快速部署工具 EasyHadoop.zip

    界面化一键安装部署管理hadoop集群。 5.支持64位 linux 操作系统. 特别是 redhat centos 5 6 6.五种秒级监控图表,实时查看节点服务器内存,硬盘,CPU,MR状态,负载状态,及时发现问题。 7.支持配置推送,hosts...

    hadoop-0.20.2.part1

    就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么...

    hadoop-0.20.2.part2

    就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么...

    hadoop-0.20.2.part3

    就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么...

    Hadoop-海量文件的分布式计算处理方案.docx

    就如同java程序员可以 不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的 模式允许程序员可以不需要有什么...

    Hadoop实战中文版.PDF

    谈到Hadoop集群的硬件基础,马如悦告诉IT168编辑:“百度使用的服务器品牌较多,市面上主流的服务器品牌均有涉及,但绝大多数都基于英特尔X86平台,配置则大体上是8核CPU(主要是英特尔至强7400/7500系列),32GB内存...

    Hadoop--海量文件的分布式计算处理方案

    MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理...

    Hadoop运行原理分析

    解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样 的 模式允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大的分布式系统得资源。

    【大数据】批处理与Hadoop.pdf

    MapReduce的学习曲线较为陡峭,虽然Hadoop⽣态系统的其他周边技术可以⼤幅降低这⼀问题的影响,但通过Hadoop集群快速实现某 些应⽤时依然需要注意这个问题。 围绕Hadoop已经形成了辽阔的⽣态系统,Hadoop集群本⾝也...

    Yarn 内存分配管理机制及相关参数配置.

    关于Yarn内存分配与管理,主要涉及到了ResourceManage、ApplicationMatser、NodeManager这几个概念,相关的优化也要紧紧围绕着这几方面来开展。这里还有一个Container的概念,现在可以先把它理解为运行map/reduce ...

    Hadoop实战.pdf

    就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么...

    2017最新大数据架构师精英课程

    17_快捷键设置* L* C. y4 Z1 v0 p) [8 p3 A 18_IO& f, H- i' w( B; P% V; Q" z. L( n/ q 19_IO2 20_文件归档和解档 21_TCP+udp协议-广播 22_UDP实现屏广程序-教师端3 m7 l; D) p! p$ q' H- L5 t1 s 23_UDP实现屏广...

    Hadoop实战(第2版)

    Hadoop是一个开源的MapReduce平台,设计运行在大型分布式集群环境中,提供查询和分析服务。尤其适用于大数据系统,Hadoop为苹果、eBay、LinkedIn、雅虎和Facebook等公司提供重要软件环境。它为开发者进行数据存储、...

    【前端素材】大数据-集群存储管理.zip

    Spark:Apache Spark是一个快速、通用的集群计算系统,提供了比MapReduce更快的数据处理能力。它支持内存计算和更多复杂的数据处理流程。 NoSQL数据库:NoSQL数据库(如MongoDB、Cassandra等)则更适用于处理这类...

    hadoop大数据实战手册

    1.1 HDFS 内存存储...............…··························· ·· ···············…….................…... . .. .. ................. 2 1.1.l HDFS 内存存储...

    伪集群分布

    hadoop在windows的伪集群分布,在一台主机模拟多主机。  -Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行,是相互独立的Java进程。  -在这种模式下,Hadoop使用的是...

    大数据面试题.doc

    Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于设置所有 Hadoop 守护线程的内存。它默认是 200 GB。( ) 33. DataNode 首次加入 cluster 的时候,如果 log 中报告不兼容文件版本,那需要 NameNode执行"Hadoop namenode -...

    大数据面试题(1).doc

    Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于设置所有 Hadoop 守护线程的内存。它默认是 200 GB。( ) 33. DataNode 首次加入 cluster 的时候,如果 log 中报告不兼容文件版本,那需要 NameNode执行"Hadoop namenode -...

    cloudbreak:用于在云中配置和管理Apache Hadoop集群的工具。 作为Hortonworks数据平台的一部分,Cloudbreak使在云基础架构上轻松配置,配置和弹性增长HDP集群变得容易。 Cloudbreak可用于跨AWS,Azure,GCP和OpenStack等云基础架构提供商配置Hadoop

    破云 文档: : 本地开发设置到目前为止,本文档重点介绍在macOS上设置开发环境。 如果您尚未安装某些组件,则需要Homebrew。 要获得Homebrew,请按照Homebrew主页上的安装说明进行操作: : 前提条件是,您需要安装...

    Hadoop的HA简介&CAP理论的关系

    主从集群:结构相对简单,主与从协作 主:单点,数据一致好掌握 问题: 单点故障 二、解决方案 单点故障: 高可用方案:HA(High Available) 多个NN,主备切换,主压力过大,内存受限: 联邦机制:Federation(元数据...

Global site tag (gtag.js) - Google Analytics