日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

模型部署

重要

本文中含有需要您注意的重要提示信息,忽略該信息可能對您的業務造成影響,請務必仔細閱讀。

模型部署可以為您創建專屬的推理服務。本文介紹了模型部署的基本概念、使用方法和配置指南,幫助您為大語言模型配置專屬的模型推理服務。

功能概述

簡單來說,模型部署是指將大模型運行在專屬的計算資源上,使模型在獨立的運行環境中高效、可靠地運行,并為業務應用提供推理服務。

支持的模型

模型部署支持預置模型和自定義模型,對比如下:

模型類別

定義

特點

為什么選擇模型部署

預置模型

百煉預先部署在公用云服務器上的大語言模型。

泛用性高,用戶基礎較廣,涵蓋了通義系列模型、行業大模型、第三方模型等。

例如:通義千問-Max模型。

部署后,您將獲得更高的并發量。

自定義模型

使用百煉微調的個性化大語言模型。

適應特定領域的語義環境,具有更高的準確性和專業性,以及更好的上下文理解能力。

例如:基于情感分類任務微調的模型。

部署后,您才可以使用這類模型,評測模型的微調效果。同時您可以獲得更穩定的模型服務、更高的并發量。

快速配置

阿里云百煉支持兩種模型部署方式:百煉控制臺(0代碼)和API(全代碼)。兩種部署方式完全等價,您可以根據業務需求決定部署方式。

百煉控制臺部署(0代碼)

操作步驟

示意圖

  1. 請訪問阿里云百煉-模型部署,點擊部署新模型

image

  1. 選擇您要部署的模型和計費模式。

    建議您在第一次部署時選擇按量付費的計費模式:根據您的并發量需求,填寫實例數量,最后確認部署清單。

    系統會自動計算算力單元數量。實例數、算力單元與并發量的換算關系,請參考文末的實例數量與并發量的換算關系。
    重要

    點擊開始部署后,您將開始支付模型部署的費用,請您務必確認后再部署模型。

image

  1. 查看部署狀態

    開始部署后,您可以在控制臺上查看部署進度,這需要一定時間,請您耐心等待。

    當部署狀態為運行中時,代表該模型可以提供推理服務。

image

進階配置

通過 API 部署模型(全代碼)

除了在控制臺操作,百煉支持通過 HTTP 請求執行模型部署。以下是簡潔的操作指南:

前提準備

獲取 API-KEY:確保已獲取并配置好 API-KEY,參考獲取API Key配置API Key到環境變量

重要

由于代碼操作的特殊性,當您在執行付費操作時(例如創建或更新部署任務),百煉不會向您確認消費數額,因此可能產生意料之外的費用。強烈建議您在執行下列操作前,充分了解各項操作可能產生的影響,以及百煉模型部署服務的單價和計費規則

常見操作步驟

  1. 列舉可部署模型

    獲取可部署模型列表:

    curl "https://dashscope.aliyuncs.com/api/v1/deployments/models" \
        --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
        --header "Content-Type: application/json"

    返回示例:

    {
      "request_id": "cb68e88f-d3fc-4aed-b8bc-2c76c7e05607",
      "output": {
        "models": [
          {
            "model_name": "qwen-turbo",
            "base_capacity": 2
          },
        ],
        "page_no": 1,
        "page_size": 50,
        "total": 1
      }
    }

    model_name:模型名稱

    base_capacity:每個實例需要的最小算力單元數量

  2. 創建部署任務

    部署模型:

    curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
        --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
        --header "Content-Type: application/json" \
        --data "{        
                    "model_name": "<YOUR_MODEL_NAME>",      
                    "capacity": 1,        
                    "suffix": "sample"
                }"

    model_name:待部署的模型

    capacity:分配的算力單元,需為 base_capacity基礎算力單元) 的整數倍

    suffix(可選):用于區分多個部署任務

  3. 查詢部署任務狀態

    查看某個任務的狀態:

    curl 'https://dashscope.aliyuncs.com/api/v1/deployments/qwen-v1-ft-202305099980-fac9-sample' \
        --header 'Authorization: Bearer <YOUR-DASHSCOPE-API-KEY>' \
        --header 'Content-Type: application/json' 
  4. 調用部署任務

    使用已部署模型:

    curl --location "https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation" \
    --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
    --header "Content-Type: application/json" \
    --data '{
        "model": "qwen-turbo",
        "input":{
            "messages":[      
                {
                    "role": "system",
                    "content": "You are a helpful assistant."
                },
                {
                    "role": "user",
                    "content": "你是誰?"
                }
            ]
        },
        "parameters": {
            "result_format": "message"
        }
    }'
  5. 更新部署任務(可選)

    動態調整部署任務的算力單元,實現擴縮容:

    curl --request PUT 'https://dashscope.aliyuncs.com/api/v1/deployments/qwen-v1-ft-20230703-cx7f/scale' \
        --header 'Authorization: Bearer <YOUR-DASHSCOPE-API-KEY>' \
        --header 'Content-Type: application/json' \
        --data '{    
                    "capacity":4
                }'
  6. 查詢所有部署任務(可選)

    查看所有任務狀態:

    curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
        --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
        --header "Content-Type: application/json" 
  7. 刪除部署任務(可選)

    警告

    刪除已部署的模型,可能會導致該模型關聯的線上業務發生中斷,請謹慎操作。

    下線已部署模型:

    curl --request DELETE "https://dashscope.aliyuncs.com/api/v1/deployments/<deployed_model>" \
        --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
        --header "Content-Type: application/json" 

選擇付費方式

選擇計費模式,您可以前往計費項與定價對比兩種計費模式。

在快速配置中,您已經了解了按量付費的方式,這里提供了包月資源的簡介。

包月資源:您需要先付費購買資源包,操作步驟詳見示意圖。

重要

實例規格支持不同的預置模型。

請您在購買頁面確認:您選擇的預置模型與實例規格是否對應。

image

image

附錄

名詞解釋

名詞

解釋

實例

是模型部署量的基本單位,表示每個部署任務提供的推理服務數量。實例數量越多,部署提供的推理服務越多,并發性能越好。通過動態調整實例數量,模型能夠應對流量變化,確保高峰期的高效響應。

基礎算力單元

是模型的一項屬性,表示部署模型到單個實例上所需的算力單元數量。比如,qwen-turbo模型的基礎算力單元是2,代表部署qwen-turbo到一個實例上需要2個算力單元。

QPM(Queries Per Minute,每分鐘請求數)

是衡量模型推理并發性能的一個指標,表示模型每分鐘可處理的請求數量。實例越多,QPM越高,模型的響應能力越強,能夠更好地應對高并發請求。

部署后并發性能參考表

模型名稱

基礎算力單元

每實例參考處理能力

qwen-plus

8

70 QPM

qwen-turbo

2

25 QPM

llama2-7b-chat-v2

1

4 QPM

llama2-13b-chat-v2

2

6 QPM

chatglm-6b-v2

1

6 QPM

后續操作

如您希望了解計費信息,請訪問計費項與定價

如您希望了解API詳情,請訪問模型部署

如您希望評測模型微調的效果,請訪問模型評測