日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

高級配置:GPU共享

在您使用專屬資源組部署服務時,EAS提供了GPU共享功能,以便充分利用資源。您只需在部署服務時打開GPU共享開關,系統(tǒng)便會在服務中部署虛擬化的GPU,EAS可以根據您配置的算力占比和使用顯存來指定每個實例所需的資源。本文為您介紹如何配置GPU共享功能。

前提條件

已創(chuàng)建專屬資源組并購買機器資源。具體操作,請參見使用專屬資源組

使用限制

  • 當前GPU共享功能僅供白名單用戶受限申請使用,如果您希望使用GPU共享功能,請先提交工單,申請?zhí)砑覩PU共享功能使用白名單。

  • 僅使用專屬資源組部署服務時,支持配置GPU共享功能。

創(chuàng)建服務時配置GPU共享

通過控制臺配置GPU共享

  1. 進入模型在線服務(EAS)頁面。

    1. 登錄PAI控制臺

    2. 在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應的工作空間。

    3. 在工作空間頁面的左側導航欄選擇模型部署 > 模型在線服務(EAS),進入模型在線服務(EAS)頁面。

  2. 單擊部署服務,然后在自定義模型部署區(qū)域,單擊自定義部署

  3. 資源部署信息區(qū)域,配置以下關鍵參數,其他參數配置說明,請參見服務部署:控制臺image

    參數

    描述

    資源組種類

    資源組選擇已創(chuàng)建的專屬資源組。

    GPU共享

    選中GPU共享復選框。

    部署資源

    配置以下配置項:

    • 單卡使用顯存(GB):每個實例所需的GPU顯存數量,取值為整型,單位為GB。系統(tǒng)支持實例按顯存進行調度,實現單卡共享多實例功能。

      重要

      當前未開啟顯存的嚴格隔離,您需自行控制各實例的顯存使用量,不能超出申請量,避免出現顯存內存溢出。

    • 單卡算力占比(%):每個實例所需的單個GPU算力比例,取值為1~100之間的整數。例如填寫10,則表示單個GPU的10%算力。系統(tǒng)支持實例按算力進行調度,實現單卡共享多實例功能。

  4. 參數配置完成后,單擊部署

通過本地客戶端配置GPU共享

  1. 下載并認證客戶端,以Windows 64版本為例。

  2. 在客戶端文件所在目錄新建JSON格式的文件,命名為service.json,文件內容示例如下。

    {
        "containers": [
            {
                "image": "eas-registry-vpc.cn-beijing.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4",
                "port": 8000,
                "script": "python webui/webui_server.py --port=8000 --model-path=Qwen/Qwen1.5-7B-Chat"
            }
        ],
        "metadata": {
            "cpu": 8,
            "enable_webservice": true,
            "gpu_core_percentage": 5,
            "gpu_memory": 20,
            "instance": 1,
            "memory": 20000,
            "name": "testchatglm",
            "resource": "eas-r-fky7kxiq4l2zzt****",
            "resource_burstable": false
        },
        "name": "test"
    }

    其中關鍵參數說明如下。其他參數配置說明,請參見服務模型所有相關參數說明

    參數

    描述

    gpu_memory

    每個實例所需的GPU顯存數量,取值為整型,單位為GB。

    系統(tǒng)支持實例按顯存進行調度,實現單卡共享多實例功能。如果使用顯存調度,則需要將gpu字段配置為0。當gpu字段配置為1時,表示實例獨占整張GPU卡,此時gpu_memory字段會被忽略。

    重要

    當前未開啟顯存的嚴格隔離,您需自行控制各實例的顯存使用量,不能超出申請量,避免出現顯存內存溢出。

    gpu_core_percentage

    每個實例所需的單個GPU算力比例,取值為1~100之間的整數,單位為百分比。例如填寫10,代表的是單個GPU的10%算力。

    系統(tǒng)支持實例按算力進行調度,實現單卡共享多實例功能。另外指定該參數時,必須指定gpu_memory參數,否則該參數不生效。

    resource

    已創(chuàng)建的專屬資源組ID。如何查看專屬資源組ID,請參見管理專屬資源組

  3. 打開終端工具,在JSON文件所在目錄,使用以下命令創(chuàng)建服務。更多操作說明,請參見命令使用說明

    eascmdwin64.exe create <service.json>

    其中:<service.json>需要替換為您創(chuàng)建的JSON文件名稱。

更新服務使用GPU共享

如果您在使用專屬資源組部署服務時沒有使用GPU共享功能,您可以通過更新服務配置來開啟GPU共享功能。

通過控制臺更新服務使用GPU共享

  1. 模型在線服務(EAS)頁面,單擊目標服務操作列下的更新服務

  2. 更新服務頁面的資源部署信息區(qū)域,配置資源組種類GPU共享部署資源參數,參數配置詳情,請參見通過控制臺配置GPU共享

  3. 參數配置完成后,單擊更新

通過本地客戶端更新服務使用GPU共享

  1. 下載并認證客戶端,以Windows 64版本為例。

  2. 在客戶端文件所在目錄新建JSON格式的文件,命名為instances.json,文件內容示例如下。

    "metadata": {
            "gpu_memory": 2,
            "gpu_core_percentage": 5
        }

    其中參數配置說明,請參見通過本地客戶端配置GPU共享

  3. 打開終端工具,在JSON文件所在目錄,使用以下命令修改EAS服務使用GPU共享功能。

    eascmdwin64.exe modify <service_name> -s <instances.json>

    其中:<service_name>需要替換為EAS服務名稱;<instances.json>需要替換為新建的JSON文件名稱。