亚洲中字幕无码中字,国产精品穿着丝袜打电话播放,91日本中文字幕家庭教师

模型部署可以為您創建專屬的推理服務。本文介紹了模型部署的基本概念、使用方法和配置指南，幫助您為大語言模型配置專屬的模型推理服務。

功能概述

簡單來說，模型部署是指將大模型運行在專屬的計算資源上，使模型在獨立的運行環境中高效、可靠地運行，并為業務應用提供推理服務。

支持的模型

模型部署支持預置模型和自定義模型，對比如下：

模型類別

定義

特點

為什么選擇模型部署

預置模型

百煉預先部署在公用云服務器上的大語言模型。

泛用性高，用戶基礎較廣，涵蓋了通義系列模型、行業大模型、第三方模型等。

例如：通義千問-Max模型。

部署后，您將獲得更高的并發量。

自定義模型

使用百煉微調的個性化大語言模型。

適應特定領域的語義環境，具有更高的準確性和專業性，以及更好的上下文理解能力。

例如：基于情感分類任務微調的模型。

部署后，您才可以使用這類模型，評測模型的微調效果。同時您可以獲得更穩定的模型服務、更高的并發量。

快速配置

阿里云百煉支持兩種模型部署方式：百煉控制臺（0代碼）和API（全代碼）。兩種部署方式完全等價，您可以根據業務需求決定部署方式。

百煉控制臺部署（0代碼）

操作步驟	示意圖
請訪問阿里云百煉-模型部署，點擊部署新模型。
選擇您要部署的模型和計費模式。建議您在第一次部署時選擇按量付費的計費模式：根據您的并發量需求，填寫實例數量，最后確認部署清單。系統會自動計算算力單元數量。實例數、算力單元與并發量的換算關系，請參考文末的實例數量與并發量的換算關系。重要點擊開始部署后，您將開始支付模型部署的費用，請您務必確認后再部署模型。
查看部署狀態開始部署后，您可以在控制臺上查看部署進度，這需要一定時間，請您耐心等待。當部署狀態為運行中時，代表該模型可以提供推理服務。

進階配置

通過 API 部署模型（全代碼）

除了在控制臺操作，百煉支持通過 HTTP 請求執行模型部署。以下是簡潔的操作指南：

前提準備

獲取 API-KEY：確保已獲取并配置好 API-KEY，參考獲取API Key及配置API Key到環境變量。

重要

由于代碼操作的特殊性，當您在執行付費操作時（例如創建或更新部署任務），百煉不會向您確認消費數額，因此可能產生意料之外的費用。強烈建議您在執行下列操作前，充分了解各項操作可能產生的影響，以及百煉模型部署服務的單價和計費規則。

常見操作步驟

列舉可部署模型

獲取可部署模型列表：

curl "https://dashscope.aliyuncs.com/api/v1/deployments/models" \
    --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
    --header "Content-Type: application/json"

返回示例：

{
  "request_id": "cb68e88f-d3fc-4aed-b8bc-2c76c7e05607",
  "output": {
    "models": [
      {
        "model_name": "qwen-turbo",
        "base_capacity": 2
      },
    ],
    "page_no": 1,
    "page_size": 50,
    "total": 1
  }
}

model_name：模型名稱

base_capacity：每個實例需要的最小算力單元數量

創建部署任務

部署模型：

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
    --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
    --header "Content-Type: application/json" \
    --data "{        
                "model_name": "<YOUR_MODEL_NAME>",      
                "capacity": 1,        
                "suffix": "sample"
            }"

model_name：待部署的模型

capacity：分配的算力單元，需為 base_capacity（基礎算力單元）的整數倍

suffix（可選）：用于區分多個部署任務

查詢部署任務狀態

查看某個任務的狀態：

curl 'https://dashscope.aliyuncs.com/api/v1/deployments/qwen-v1-ft-202305099980-fac9-sample' \
    --header 'Authorization: Bearer <YOUR-DASHSCOPE-API-KEY>' \
    --header 'Content-Type: application/json'

調用部署任務

使用已部署模型：

curl --location "https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header "Content-Type: application/json" \
--data '{
    "model": "qwen-turbo",
    "input":{
        "messages":[      
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "你是誰？"
            }
        ]
    },
    "parameters": {
        "result_format": "message"
    }
}'

更新部署任務（可選）

動態調整部署任務的算力單元，實現擴縮容：

curl --request PUT 'https://dashscope.aliyuncs.com/api/v1/deployments/qwen-v1-ft-20230703-cx7f/scale' \
    --header 'Authorization: Bearer <YOUR-DASHSCOPE-API-KEY>' \
    --header 'Content-Type: application/json' \
    --data '{    
                "capacity":4
            }'

查詢所有部署任務（可選）

查看所有任務狀態：

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
    --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
    --header "Content-Type: application/json"

刪除部署任務（可選）

警告

刪除已部署的模型，可能會導致該模型關聯的線上業務發生中斷，請謹慎操作。

下線已部署模型：

curl --request DELETE "https://dashscope.aliyuncs.com/api/v1/deployments/<deployed_model>" \
    --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
    --header "Content-Type: application/json"

選擇付費方式

選擇計費模式，您可以前往計費項與定價對比兩種計費模式。

在快速配置中，您已經了解了按量付費的方式，這里提供了包月資源的簡介。

包月資源：您需要先付費購買資源包，操作步驟詳見示意圖。

重要

實例規格支持不同的預置模型。

請您在購買頁面確認：您選擇的預置模型與實例規格是否對應。

附錄

名詞解釋

名詞	解釋
實例	是模型部署量的基本單位，表示每個部署任務提供的推理服務數量。實例數量越多，部署提供的推理服務越多，并發性能越好。通過動態調整實例數量，模型能夠應對流量變化，確保高峰期的高效響應。
基礎算力單元	是模型的一項屬性，表示部署模型到單個實例上所需的算力單元數量。比如，qwen-turbo模型的基礎算力單元是2，代表部署qwen-turbo到一個實例上需要2個算力單元。
QPM（Queries Per Minute，每分鐘請求數）	是衡量模型推理并發性能的一個指標，表示模型每分鐘可處理的請求數量。實例越多，QPM越高，模型的響應能力越強，能夠更好地應對高并發請求。

部署后并發性能參考表

模型名稱	基礎算力單元	每實例參考處理能力
qwen-plus	8	70 QPM
qwen-turbo	2	25 QPM
llama2-7b-chat-v2	1	4 QPM
llama2-13b-chat-v2	2	6 QPM
chatglm-6b-v2	1	6 QPM

后續操作

如您希望了解計費信息，請訪問計費項與定價。

如您希望了解API詳情，請訪問模型部署。

如您希望評測模型微調的效果，請訪問模型評測。

日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区