日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

文檔

HDFS概述

更新時間:

HDFS(Hadoop Distributed File System)是一種Hadoop分布式文件系統,具備高度容錯特性,支持高吞吐量數據訪問,可以在處理海量數據(TB或PB級別以上)的同時最大可能的降低成本。HDFS適用于大規模數據的分布式讀寫,特別是讀多寫少的場景。

特性

E-MapReduce集群中HDFS的優勢如下:

  • 具有高容錯性和高可擴展性。

  • 提供Shell命令接口。

  • 提供Web可視化組件管理界面,方便管理。

  • 擁有類似于Linux的文件權限管理。

  • Locality感知,在分配存儲空間時會考慮計算節點的位置。

  • 當DataNode之間數據不平衡時,可以進行Rebalance操作。

  • 支持滾動重啟和升級操作。

架構

HDFS是經典的Master和Slave架構,每一個HDFS集群包括一個NameNode和多個DataNode。

NameNode管理所有文件的元數據信息,并且負責與客戶端交互。DataNode負責管理存儲在該節點上的文件。每一個上傳到HDFS的文件都會被劃分為一個或多個數據塊,這些數據塊根據HDFS集群的數據備份策略被分配到不同的DataNode上,位置信息交由NameNode統一管理。

基本概念

名稱

描述

NameNode

用于管理文件系統的命名空間、維護文件系統的目錄結構樹以及元數據信息,記錄寫入的每個數據塊(Block)與其歸屬文件的對應關系。

此信息以命名空間鏡像(FSImage)和編輯日志(EditsLog)兩種形式持久化在本地磁盤中。

DataNode

DataNode是Hadoop分布式文件系統(HDFS)中實際存儲數據塊的核心組件。

DataNode會根據NameNode或Client的指令來存儲或者提供數據塊,并且定期地向NameNode匯報該DataNode存儲的數據塊信息。

Client

通過Client來訪問文件系統,然后由Client與NameNode和DataNode進行通信。Client對外作為文件系統的接口,類似于POSIX。

Blocks

HDFS將文件拆分成128 MB大小的數據塊進行存儲,這些Block可能存儲在不同的節點上。HDFS可以存儲更大的單個文件,甚至超過任何一個磁盤所能容納的大小。一個Block默認存儲3個副本(EMR Core節點如果使用云盤,則為2副本),以Block為粒度將副本存儲在多個節點上。此方式不僅提高了數據的安全性,而且對于分布式作業可以更好地利用本地的數據進行計算,減少網絡傳輸。

Secondary NameNode

對于非高可用集群,默認會啟動一個Secondary NameNode進程。Secondary NameNode的作用是消費EditsLog,定期地合并FsImage和EditsLog,生成新的FsImage文件,降低了NameNode的壓力。

高可用

對于高可用集群,默認會啟動兩個NameNode,一個是Active NameNode,另一個是Standby NameNode,兩個NameNode承擔不同角色。

Active NameNode負責處理DataNode和Client的請求,Standby NameNode跟Active NameNode一樣擁有最新的元數據信息,隨時準備在Active NameNode出現異常時接管其服務。如果Active NameNode異常,Standby NameNode會感知到并切換成Active NameNode的角色處理DataNode和Client請求。