安裝共享GPU調(diào)度組件
針對使用共享GPU的模型預(yù)測場景,容器服務(wù) Kubernetes 版提供了共享GPU調(diào)度能力,同時也支持NVIDIA驅(qū)動在內(nèi)核態(tài)的控制,保障GPU顯存的隔離。本文介紹如何在專有版GPU集群中安裝GPU隔離模塊及GPU分配查詢工具,實現(xiàn)GPU的共享和隔離能力。
前提條件
已創(chuàng)建ACK專有版GPU集群。具體操作,請參見創(chuàng)建GPU集群。
已通過kubectl工具連接專有版GPU集群。具體操作,請參見獲取集群KubeConfig并通過kubectl工具連接集群。
使用限制
支持共享GPU調(diào)度的節(jié)點不能將CPU Policy設(shè)置為static
。
更多使用限制,請見下表。
配置 | 支持版本 |
Kubernetes | 僅支持1.12.6及其以上版本的專有版集群 |
操作系統(tǒng) | 除了Windows系統(tǒng)外的其他容器服務(wù)Kubernetes版支持的操作系統(tǒng) |
支持顯卡 |
步驟一:為帶有GPU設(shè)備的節(jié)點打標簽
登錄容器服務(wù)管理控制臺,在左側(cè)導(dǎo)航欄選擇集群。
在集群列表頁面,單擊目標集群名稱,然后在左側(cè)導(dǎo)航欄,選擇 。
在節(jié)點管理頁面,單擊右上角的標簽與污點管理。
在標簽與污點管理頁面,批量選擇節(jié)點,然后單擊添加標簽。
在彈出的添加對話框中,填寫標簽名稱和值,然后單擊確定。
設(shè)置名稱為cgpu,值為true,使節(jié)點共享GPU功能生效。
如果您需要關(guān)閉節(jié)點共享GPU功能,可以設(shè)置名稱為cgpu,值為false。刪除標簽不能關(guān)閉節(jié)點共享GPU功能。
步驟二:為添加標簽的節(jié)點安裝共享GPU組件
在集群列表頁面,單擊目標集群名稱,然后在左側(cè)導(dǎo)航欄,選擇 。
在頁面左上角單擊創(chuàng)建。在Chart中選中ack-cgpu,其余配置項按照界面提示操作,完成ack-cgpu的安裝。
在Helm頁面,當ack-cgpu的狀態(tài)變成已部署時,表明ack-cgpu已成功部署。