日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

什么是推理引擎DeepGPU-LLM

DeepGPU-LLM是阿里云研發的基于GPU云服務器的大語言模型(Large Language Model,LLM)推理引擎,在處理大語言模型任務中,該推理引擎可以為您提供高性能的大模型推理服務。

產品簡介

DeepGPU-LLM作為阿里云開發的一套推理引擎,具有易用性和廣泛適用性,旨在優化大語言模型在GPU云服務器上的推理過程,通過優化和并行計算等技術手段,為您提供免費的高性能、低延遲推理服務。

DeepGPU-LLM的關聯布局圖如下所示:

image

功能介紹

DeepGPU-LLM的主要功能包括:

  • 支持多GPU并行(Tensor Parallel)功能。

  • 支持Llama 1/2系列、ChatGLM 1/2/3系列、Baichuan 1/2系列、通義千問Qwen系列等主流模型。

  • 支持fp16,以及int8/int4低精度推理(量化模式:目前支持權重量化和KV-Cache量化)。

  • 支持多卡之間通信優化。

  • 支持stream chat輸出和chat直接對話功能。

基礎環境依賴

DeepGPU-LLM所需的基礎環境依賴如下所示:

類別

規格或版本

GPU規格

SM=70, 75, 80, 86, 89(例如A800、A30、A10、V100, T4等)

操作系統

Ubuntu 20.04

CUDA版本

11.7、11.8、12.1

PyTorch版本

1.13、2.0、2.1

OpenMPI

4.0.3版本及以上

安裝包及相關文件說明

使用DeepGPU-LLM處理大語言模型(LLM)在GPU上的推理優化時,需要您提前準備如下安裝包:

安裝包名稱

說明

  • deepgpu_llm-x.x.x+pt1.13cu117-py3-none-any.whl

  • deepgpu_llm-x.x.x+pt2.0cu117-py3-none-any.whl

  • deepgpu_llm-x.x.x+pt2.1cu121-py3-none-any.whl

LLM模型推理加速安裝包。

  • x.x.x指待安裝的DeepGPU-LLM版本號。

  • 支持PyTorch 1.13、PyTorch 2.0、PyTorch 2.1版本。

  • 支持單卡或多卡GPU推理。

LLM模型推理加速安裝包中所包含的文件如下所示:

文件名稱

說明

  • llama_model.py

  • chatglm_model.py

  • baichuan_model.py

  • qwen_model.py

  • deepgpu_utils.py

主流模型的推理依賴代碼

  • huggingface_llama_convert

  • huggingface_glm_convert

  • huggingface_chatglm2_convert

  • huggingface_baichuan_convert

  • huggingface_qwen_convert

主流模型權重轉換腳本

  • baichuan_cli

  • baichuan_hf_cli

  • chatglm_cli

  • chatglm_hf_cli

  • llama_cli

  • qwen_cli

安裝包提供的可運行示例代碼

說明

準備好模型后可以直接運行示例代碼,通過--help可查看具體參數配置。

相關文檔

在大語言模型推理場景下,如果您想通過推理引擎DeepGPU-LLM進行不同模型(例如Llama、ChatGLM、Baichuan、通義千問Qwen等模型)的推理優化,請參見安裝并使用DeepGPU-LLM