HDFS和MapReduce是Hadoop的两大核心。Hadoop的体系结构主要是通过HDFS来实现分布式存储的底层支持的,通过MapReduce来实现分布式并行任务处理的程序支持。
一、HDFS的体系结构。
HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中:NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;DataNode管理存储的数据。
HDFS允许用户以文件的形式存储数据。从内部来看,文件被分成若干个数据块,而且这若干个数据块存放在一组DataNode上。
NameNode执行文件系统的命名空间操作,比如打开、关闭、重命名文件或目录等,它也负责数据块到具体DataNode的映射。
DataNode负责处理文件系统客户端的文件读写请求,并在NameNode的统一调度下进行数据块的创建、删除和复制工作。
二、MapReduce的体系结构。
MapReduce是一种并行编程模式,利用这种模式软件开发者可以轻松地编写出分布式并行程序。在Hadoop的体系结构中,MapReduce是一个简单易用的软件框架,基于它可以将任务分发到由上千台商用机器组成的集群上,并以一种可靠容错的方式并行处理大量的数据集,实现Hadoop的并行任务处理功能。
MapReduce框架是由一个单独运行在主节点的JobTracker和运行在每个集群从节点的TaskTracker共同组成的。
主节点负责调度构成一个作业的所有任务,这些任务分布在不同的从节点上。主节点监控它们的执行情况,并且重新执行之前失败的任务;
从节点仅负责由主节点指派的任务。当一个Job被提交时,JobTracker接收到提交作业和其配置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。
从上面的介绍可以看出,HDFS和MapReduce共同组成了Hadoop分布式系统体系结构的核心。HDFS在集群上实现了分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了对文件操作和存储等的支持,MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成了Hadoop分布式集群的主要任务。
相关推荐
开源思想,少要积分,仅供学习。 Hadoop1.0伪分布式安装步骤。 开源思想,少要积分,仅供学习。 Hadoop1.0伪分布式安装步骤。
为公司内部培训编制的Hadoop入门ppt,包含1.0,2.0相关核心理论知识,2.3.0以后版本知识不涉及
它的上一个版本是0.20.205.0,新版的版本号原是 0.20.205.1,但开发者表示,Hadoop已经成熟几年前就做好了应用于生产的准备,但有些客户在采用前希望看到版本号是1.0,所以他们决定直接跳到了1.0。
hadoop1.x、2.x,hadoop学习个人笔记,hadoop环境搭建,java开发实例等
最新hadoop1.0帮助文档,学习hadoop必备
hadoop-1.0源代码(全):包括bin、conf、ivy、lib和src等文hadoop-1.0源代码(全):包括bin、conf、ivy、lib和src等文件夹件夹
hadoop 启动时 TaskTracker无法启动 ERROR org.apache.hadoop.mapred.TaskTracker: Can not start task tracker because java.io.IOException: Failed to set permissions of path: \tmp\hadoop-admin \mapred\...
该文档主要是Hadoop的集群搭建的方式,对每个人都很有帮助
NULL 博文链接:https://ajaxcn.iteye.com/blog/2288977
详解hadoop Hadoop1.0架构 Hadoop1.0编程 Hadoop1.0弊端 Hadoop2.0架构 Hadoop2.0编程 Hadoop2.0部署
hadoop的体系介绍:1,hadoop的快速入门;2,分布式的系统概述;3,离线分析系统概述;
Hadoop平台中的HDFS文件存储结构
2. Hadoop 1.0及其生态系统 2. Hadoop 1.0及其生态系统 5. 所有Reduce任务结束后
hadoop1.0.0.1 安装包,linux 平台
The MongoDB Connector for Hadoop is a library which allows MongoDB (or backup files in its data format, BSON) to be used as an input source, or output destination, for Hadoop MapReduce tasks....
hadoop知识结构图 hadoop知识结构图 hadoop知识结构图 hadoop知识结构图
本文对Hadoop体系架构的组成进行了全面的说明,对Hadoop体系的每个产品的作用、功能、使用方法等都进行了详细的描述。无论你是大数据方面的新手,还是大数据方面的专家,都能从中得到指引或启发。
hadoop-train-v2-1.0.jar
在Hadoop1.0时代,Hadoop的两大核心组件HDFS NameNode和JobTracker都存在着单点问题,这其中以NameNode的单点问题尤为严重。因为 NameNode保存了整个HDFS的元数据信息,一旦NameNode挂掉,整个HDFS就无法访问,同时 ...
Hadoop,介绍hadoop的组成,详细的文档描述,适合入门者阅读