靈駿常見問題
本文為您介紹智能計算靈駿的常見問題。
如何創(chuàng)建、刪除集群下的節(jié)點分組?
您有兩種方式為靈駿集群創(chuàng)建分組。
創(chuàng)建集群時,為集群創(chuàng)建分組。更多信息,請參見集群和分組配置。
創(chuàng)建集群完成后,為已有的集群創(chuàng)建分組。
在左側(cè)導(dǎo)航欄,選擇資源與節(jié)點>集群管理。
單擊相應(yīng)的集群ID/名稱。
單擊節(jié)點分組頁簽。
單擊新建分組。輸入節(jié)點組的分組名稱、默認(rèn)機型等信息。
(可選)創(chuàng)建完集群分組后,您可以編輯相應(yīng)集群分組的名稱或刪除集群分組。
刪除集群下的節(jié)點分組。
在左側(cè)導(dǎo)航欄,選擇資源與節(jié)點>集群管理。
單擊相應(yīng)的集群ID/名稱。
單擊節(jié)點分組頁簽。
在相應(yīng)的節(jié)點分組后的操作列單擊刪除。
在對話框中單擊確定。
刪除集群時,為什么提示需先刪除所有分組下的節(jié)點?
您需要先對集群進(jìn)行縮容,保證集群下沒有節(jié)點,才能刪除集群,具體操作請參見刪除集群。
為什么深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)需要GPU?
GPU與CPU的對比如下表所示。
對比項 | GPU | CPU |
算術(shù)運算單元(ALU) | 大量擅長處理大規(guī)模并發(fā)計算的算術(shù)運算單元(ALU)。 | 擁有強大的算術(shù)運算單元(ALU),但數(shù)量較少。 |
邏輯控制單元 | 相對簡單的邏輯控制單元。 | 復(fù)雜的邏輯控制單元。 |
緩存 | 緩存較低且用于服務(wù)線程,不用于保存訪問的數(shù)據(jù)。 | 擁有大量緩存結(jié)構(gòu),能夠?qū)?shù)據(jù)保存至緩存,從而提高訪問速度、降低時延。 |
響應(yīng)方式 | 需要將全部任務(wù)整合后,再進(jìn)行批處理。 | 實時響應(yīng),對單個任務(wù)的響應(yīng)速度較快。 |
適用場景 | 適用于計算密集、相似度高、多線程并行的高吞吐量運算場景。 | 適用于對響應(yīng)速度有要求,邏輯復(fù)雜的串行運算場景。 |
最適合GPU的計算類型是可以并行完成的計算,您可以使用并行編程方法和GPU加速計算。而神經(jīng)網(wǎng)絡(luò)是高度并行的,非常適合用GPU進(jìn)行計算。最典型的例子比如卷積,每個卷積計算都獨立于其他卷積計算,這意味著任何計算都不依賴于其他計算的結(jié)果。您使用神經(jīng)網(wǎng)絡(luò)進(jìn)行的許多計算都可以很容易地分解成更小的計算,各個小計算不會相互依賴。
智能計算靈駿與普通GPU托管服務(wù)有什么不同?
智能計算靈駿集群采用專為大規(guī)模AI計算場景所設(shè)計的系統(tǒng)架構(gòu)和多層性能優(yōu)化技術(shù),能充分利用整體的計算、通信和內(nèi)存能力。在并行度極高的大規(guī)模計算場景,比如自然語言處理、自動駕駛模型訓(xùn)練、推薦引擎等,相比普通GPU托管服務(wù)可以減少訓(xùn)練的時間和成本,建立更大、更復(fù)雜的模型。
開通集群后,是否需要安裝GPU驅(qū)動?
靈駿計算節(jié)點的操作系統(tǒng)鏡像中已包含GPU驅(qū)動,您可以使用nvidia-smi確認(rèn)GPU驅(qū)動已正確安裝并查詢顯卡狀態(tài)。
如何查詢GPU顯卡的詳細(xì)信息?
不同操作系統(tǒng)的靈駿節(jié)點實例,查看GPU顯卡信息的操作有所區(qū)別,具體說明如下:
如果您的靈駿節(jié)點安裝了Linux操作系統(tǒng),您可以執(zhí)行命令nvidia-smi,查詢GPU顯卡的詳細(xì)信息。
如果您需要了解GPU顯卡的空閑率、使用率、溫度以及功率等信息,可以前往數(shù)據(jù)大盤查看。具體操作,請參見數(shù)據(jù)大盤。
如何使用eGPU套件?
靈駿節(jié)點默認(rèn)安裝eGPU軟件包的試用版,試用期為3個月。如您希望使用更長時間,請提交工單。目前eGPU的長期授權(quán)僅對企業(yè)認(rèn)證用戶開放。