E-MapReduce Doctor(簡稱EMR Doctor)是E-MapReduce產品自研的面向開源大數據集群的智能運維診斷系統。通過EMR Doctor(即監控診斷頁面的“健康診斷”和“集群日報”功能)可以全局了解集群的健康狀況和動態走勢,為運維決策和資源優化提供有力的信息支撐。
作為EMR集群的運維人員,通常需要關注以下內容:
集群的整體穩定性,包含關鍵服務組件的狀態監控和異常處理。例如YARN、HDFS、Hive和Spark等。
集群的整體有效性,例如集群的負載、集群的內存和CPU有效利用率等。
集群用戶的SLA,能夠保證關鍵任務在獲取足夠資源的條件下按時完成。
EMR Doctor作為開源大數據集群的管家,提供以下能力:
及時掌握集群健康狀況,提供關鍵服務的使用建議,降低集群運維的成本并不斷提升穩定性。
獲取集群資源的使用和分配狀況,合理配置硬件資源,提升集群資源的利用效率。
輔助調優各個組件以及運行任務,提出可操作的優化建議,保證整體數據和計算鏈路的高效與穩定。
文檔內容是否對您有幫助?