侵权投诉
订阅
纠错
加入自媒体

从HDFS架构和设计看Hadoop和云计算的关系

2015-04-18 01:47
华静一
关注

  6 硬件错误

  硬件错误是常态而不是异常。HDFS可能由成百上千的服务器所构成,每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系统的组件数目是巨大的,而且任一组件都有可能失效,这意味着总是有一部分HDFS的组件是不工作的。因此错误检测和快速、自动的恢复是HDFS最核心的架构目标。

  二 HDFS重要名词解释

  HDFS 采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储。 HDFS暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据。从内部看,一个文件其实被分成一个或多个数据块,这些块存储在一组 Datanode上。Namenode执行文件系统的名字空间操作,比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体Datanode节点的映射。Datanode负责处理文件系统客户端的读写请求。在Namenode的统一调度下进行数据块的创建、删除和复制。

从HDFS架构和设计看Hadoop和云计算的关系

  集群中单一Namenode的结构大大简化了系统的架构。Namenode是所有HDFS元数据的仲裁者和管理者,这样,用户数据永远不会流过Namenode。

  1 Namenode

  (1)HDFS的守护程序。

  (2)记录文件时如何分割成数据块的,以及这些数据块被存数到那些借点上。

  (3)对内存和I/O进行集中管理

  (4)namenode是单个节点,发生故障将使集群崩溃。

从HDFS架构和设计看Hadoop和云计算的关系

  2 secondary Namenode

  (1)监控HDFS状态的辅助后台程序

  (2)secondary Namenode与namenode通讯,定期保存HDFS元数据快照。

  (3)当namenode故障时候,secondary Namenode可以作为备用namenode使用。

从HDFS架构和设计看Hadoop和云计算的关系

  3 Datanode

  Datanode将HDFS数据以文件的形式存储在本地的文件系统中,它并不知道有关HDFS文件的信息。它把每个 HDFS数据块存储在本地文件系统的一个单独的文件中。Datanode并不在同一个目录创建所有的文件,实际上,它用试探的方法来确定每个目录的最佳文件数目,并且在适当的时候创建子目录。

  4 jobTracker

  (1)用于处理作业的后台程序

  (2)决定有哪些文件参与处理,然后切割task并分配节点

  (3)监控task,重启失败的task

  (4)每个集群只有唯一一个jobTracker,位于Master。

<上一页  1  2  3  4  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号