針對Alibaba Cloud Linux 3系統的GPU計算型實例,如果創建實例時未自動安裝NVIDIA Tesla驅動,通過手動方式安裝該驅動時,需要您先下載軟件包,然后編譯安裝并配置CUDA等組件,操作比較繁瑣,而采用YUM方式可以快速安裝NVIDIA Tesla驅動及相關組件(例如CUDA、PyTorch以及TensorFlow等),可以更快更好地發揮GPU的高性能計算能力,或提供更流暢的圖形顯示效果。
龍蜥社區在Anolis OS上提供了AI相關組件,Alibaba Cloud Linux 3是從Anolis 8系統基礎上發展出來的,其與Anolis 8兼容,因此可以直接在Alibaba Cloud Linux 3安裝Anolis 8的軟件包(例如NVIDIA Tesla驅動、CUDA、PyTorch以及TensorFlow等),更多信息,請參見OpenAnolis龍蜥社區。其中,通過本文安裝的NVIDIA Tesla驅動版本為525.105.17、CUDA版本為11.4,PyTorch版本為1.10.1、TensorFlow版本為2.5.0。
準備工作
本文僅適用于Alibaba Cloud Linux 3操作系統的GPU計算型實例,且創建該實例時未同步自動安裝NVIDIA Tesla驅動,更多信息,請參見GPU計算型。
安裝NVIDIA Tesla驅動前,請先準備GPU實例,然后配置epao倉庫便于獲取更多軟件包,并為當前操作系統的內核安裝kernel-devel包。具體操作如下:
創建GPU實例。
本文以GPU計算型實例gn6i為例,該實例的操作系統為Alibaba Cloud Linux 3,且未安裝NVIDIA Tesla驅動。具體操作,請參見創建GPU實例。
遠程連接GPU實例。
具體操作,請參見通過密碼或密鑰認證登錄Linux實例。
執行以下命令,配置epao倉庫以獲取更多軟件包。
sudo yum install -y anolis-epao-release
執行以下命令,確認當前操作系統內核的kernel-devel包是否已安裝。
sudo rpm -qa | grep kernel-devel
顯示結果如下圖所示時,表示操作系統內核的kernel-devel包已安裝,則操作結束。
否則執行kernel-devel包的安裝操作。
執行
uname -r
命令,查看當前操作系統的內核版本。執行以下命令,安裝當前操作系統內核的kernel-devel包。
本示例以內核版本號為
5.10.134-16.3.al8.x86_64
為例,請替換為您實際使用的內核版本號。sudo yum install -y kernel-devel-5.10.134-16.3.al8.x86_64
操作步驟
在安裝NVIDIA Tesla驅動時,通常會同時安裝CUDA、PyTorch 和TensorFlow組件,該組件都是用于加速深度學習和機器學習任務的工具。
執行以下命令,安裝NVIDIA Tesla驅動。
sudo yum install -y nvidia-driver nvidia-driver-cuda
安裝CUDA Toolkit。
執行以下命令,安裝CUDA Toolkit。
sudo yum install -y cuda
執行
ll /usr/local
命令,查看CUDA Toolkit版本。
執行以下命令,安裝PyTorch。
sudo yum install -y pytorch
執行以下命令,安裝TensorFlow。
sudo yum install -y tensorflow
測試驗證
檢查版本
執行
nvidia-smi
命令,如果驅動及組件已成功安裝,則可以查看已安裝的NVIDIA Tesla驅動版本。測試CUDA
執行
cd
命令,進入測試樣例目錄。在目錄
/usr/local/cuda-11.4/extras/demo_suite/
中存在一些測試樣例程序,例如CUDA示例程序deviceQuery
。執行
sudo ./deviceQuery
命令,查看CUDA的相關信息。例如紋理內存、常量內存、共享內存等信息。