[size=medium]公司云梯的图解:
gateway机器是跳板机,提交job到云梯的,在gateway机器上只要配置hadoop-site.xml即可,配置文件中主要是指定jobtracker的地址和hdfs的地址。
gateway机器(相当于job client)提交job和对应的jar包到jobtracker机器上,jobtracker会对提交的作业进行相应的校验,校验通过就初始化这个job,然后jobtracker把对应的job放入调度队列,同时taskTracker会不停的发送心跳信号给jobtracker,如果taskTracker空闲,那么jobtracker会根据调度策略把它分给相应的taskTracker,然后taskTracker就启动一个jvm进程来处理。然后一般taskTracker启动的选择都和datanode的距离有关,一般是先考虑同一服务器的机器,其次是同一机架的,主要是为了减少网络的开销(因为不在同一服务器上的话,还要dataNode的数据传输就需要网路)。
然后taskTracker在跑mapreduce的时候,会请求namenode,由它来告知datanode一系列的信息,比如存储地址,大小等信息。
hdfs的架构图:
namenode主要是维护文件系统的树结构以及树内文件的目录、地址等信息,它负责管理datanode和数据的读写。它一般会由一个second namenode机器来防止单点故障。
hdfs读取数据:
dfs客户端先建立hdfs文件系统的连接,然后从namenode中获取对应data的地址等信息,然后通过inputFormat方法去切割和读取datanode中的文件,这样就完成了数据的读取。
hdfs写入数据:
dfs客户端首先建立hdfs文件系统的连接,然后通过create方法告知它要创建一个文件,然后namenode开始创建一个文件名称,通过hdfs的写入流类进行对datanode数据的写入,它的写入是以包的形式写入的,然后每次写入会有一个ack的包确认信号返回,也就是途中datanode中的两个相互箭头的表示。
- 大小: 71.1 KB
- 大小: 15.7 KB
- 大小: 49.6 KB
- 大小: 59.2 KB
分享到:
相关推荐
英文版,不过英文比较简单,有插画,内容不是很多,适合入门了解一下,或者只是想了解一下。书的网站http://www.hadoopilluminated.com/
Hadoop伪分布模式安装图解
高清版,在 win7 系统上,利用虚拟工具 VMware 建立若干个 Linux 系统,每个系统为一个节点, 构建 Hadoop 集群。
【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)前言环境清单创建SpringBoot项目创建包创建yml添加集群主机名映射hadoop配置文件环境变量HADOOP_HOME编写代码添加hadoop依赖jar包...
hadoop 集群安装,安装过程,centos6.4,hadoop1.1.1,vmware
一步步演示hadoop 0.20.2的eclipse部署步骤,和问题解决描述.
在VMWare中安装好Linux操作系统,并自动配置好VMWare tools后。 需要设置共享文件夹以便与windows系统互相传输文件,Hadoop安装配置流程图解
Hadoop完全分布式详细安装图解教程.pdf
2、jdk安装成功(jdk1.6.0_23for linux版本,图解安装过程http://freewxy.iteye.com/blog/882784 ) 3、下载hhadoop0.21.0.tar.gz(http://apache.etoak.com//hadoop/core/hadoop-0.21.0/ ) 安装hadoop 1、首先将...
本文详细图解了hadoop安装过程中linux的网络配置,实现了hadoop虚拟机,宿主机,外网三者互通,
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。 HDFS是GoogleFileSystem(GFS)的开源实现。MapReduce是GoogleMapReduce的开源实现。HDFS和...
NULL 博文链接:https://jimmee.iteye.com/blog/1213565
对智能交通系统、全国上网记录,网络优化等的业务背景、部署方案、难点分析、逻辑构架等的分析,提供详细的平台分布图解。
本文档详细描述了ubuntu下安装hadoop 的具体过程,整个过程中还配有部分图解.希望能有一些帮助
主要介绍了Hadoop框架起步之图解SSH、免密登录原理和实现方法,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
图解Spark 核心技术与案例实战,很好的学习资源,希望大伙喜欢!
图解MapReduce,系统介绍Hadoop MapReduce工作过程原理
hadoop伪分布式安装文档 这个文档里主要介绍了Hadoop的安装与环境搭建教程图解,本文图文并茂给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用,两者的实现基本类似,但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多,所以它的实现也更加复杂,故下面先进行讲解...