本文中含有需要您注意的重要提示信息,忽略該信息可能對您的業務造成影響,請務必仔細閱讀。
靈駿集群是帶有靈駿優化套件的高性能靈駿計算節點的集合,每個靈駿節點對應一臺GPU計算服務器,可以用于部署異構計算服務。本文為您介紹如何管理靈駿集群和靈駿節點,例如查看靈駿集群信息、查看節點詳情、擴容靈駿集群等操作。
管理靈駿集群
靈駿集群的狀態分為:
初始化失敗:查看失敗任務詳情,請參見運維任務中心。
初始化中:正在進行靈駿網絡配置、靈駿計算節點初始化等操作。
運行中:只有當集群的狀態為運行中時,才能進行集群擴容、集群縮容、節點重裝或節點重啟任務。
重要如果集群擴容、集群縮容、節點重裝或節點重啟任務對應的靈駿計算節點不同,可以并行提交這些任務。
查看集群信息
登錄靈駿控制臺。
在左側導航欄,選擇資源與節點 > 集群管理。
單擊集群ID后的詳情,會跳轉到集群詳情頁面。
查看集群名稱、分組數、創建信息等集群基本信息。
基于節點分組、監控報警、基礎指標、RDMA、GPU五個維度查看集群信息。
擴容集群
集群擴容時需要在新的GPU節點上部署CPFS Client,并將該節點添加至CPFS集群中。
集群擴容時需要對新擴容的節點進行打標。
登錄靈駿控制臺。
在左側導航欄,選擇資源與節點 > 集群管理。
單擊目標集群ID后的擴容。
在以下為原有分組詳情區域,單擊對應節點分組名稱后的擴容。
在彈出的對話框中,輸入節點名前綴、登錄密碼和確認密碼。
選中未使用的節點實例前的復選框或購買新節點,單擊?確定。
在以下為待擴容詳細配置區域,單擊確認提交。
回到集群管理頁面,擴容的集群狀態顯示擴容中,等待擴容完成。
縮容集群
縮容會導致被移出集群的節點重裝,節點上的本地數據將全部清空。因此,請在縮容操作前確保已備份節點數據。
集群縮容時需要將縮容的節點從CPFS集群中移除。
登錄靈駿控制臺。
在左側導航欄,選擇資源與節點 > 集群管理。
單擊集群ID后的縮容。
在以下為原有分組詳情區域,選中需要移出的節點前的復選框,然后單擊批量移出集群。
在以下是待縮容的詳細配置區域,單擊確認提交。
在確認縮容配置頁面,在下方的文本框中輸入
DELETE
,單擊確定對集群進行縮容。回到集群管理頁面,擴容的集群狀態顯示縮容中,等待縮容完成。
刪除集群
刪除集群前,需要先對相應集群進行集群縮容,移出集群下所有節點。
集群刪除時不會刪除關聯的CPFS集群。
登錄靈駿控制臺。
在左側導航欄,選擇資源與節點 > 集群管理。
單擊想要刪除的集群ID/名稱,在?集群詳情頁面單擊右上角的刪除。
在彈出的對話框中,單擊確定,完成集群刪除。
創建集群分組
您有兩種方式為靈駿集群創建分組。
管理靈駿節點
一個靈駿計算節點最多只能同時執行一項操作,包括集群擴容、集群縮容、節點重裝和節點重啟。
購買新節點
登錄靈駿控制臺。
在左側導航欄,選擇資源與節點 > 節點管理。
在節點管理頁面,單擊購買新節點,會跳轉到節點購買頁面。
按照界面提示,購買新節點。
查看節點詳情
登錄靈駿控制臺。
在左側導航欄,選擇資源與節點> 節點管理,進入節點管理頁面。
單擊全部頁簽查看全部節點。
您可以查看節點ID/名稱、鏡像名、可用區等節點基本信息。
在下拉列表中選擇鏡像名、可用區、IP地址等條件,然后在文本框中輸入搜索內容,對節點進行搜索。
單擊未使用頁簽查看未使用節點。您可以查看節點規格、GPU等節點基本信息。
登錄節點
重裝節點
重裝節點會導致節點的數據被刪除,請謹慎操作。
只有當靈駿集群的狀態為運行中時,才能重裝節點。
節點重裝時需要先將舊節點從CPFS集群中移除,再將新的節點信息添加到CPFS集群中。
在以下情況,您需要重裝節點:
重新部署業務。
更換操作系統版本。
運維場景需要。
操作步驟:
登錄靈駿控制臺。
在左側導航欄,選擇資源與節點 > 節點管理。
在節點管理頁面,單擊實例ID后的重裝。在彈出的對話框中,選擇鏡像版本、修改節點名稱,然后輸入并確認節點root密碼,單擊重裝。
重啟節點
重啟節點可能會影響業務連續性。
只有當靈駿集群的狀態為運行中時,才能重啟節點。
在以下情況,您需要重啟節點:
部署新應用或服務。
修改系統配置。
運維場景需要。
操作步驟:
登錄靈駿控制臺。
在左側導航欄,選擇資源與節點 > 節點管理。
在節點管理頁面,單擊實例ID后的重啟。