日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

更改共享GPU調(diào)度顯存最小分配單位

共享GPU調(diào)度默認(rèn)按1 GiB為單位申請(qǐng)顯存,申請(qǐng)更細(xì)粒度的顯存需要更改顯存最小分配單位。本文介紹如何將共享GPU調(diào)度顯存最小分配單位更改為128 MiB,以申請(qǐng)更細(xì)粒度的顯存。

前提條件

  • 您的集群需要安裝共享GPU調(diào)度專業(yè)版的組件,然后您才可以更改共享GPU調(diào)度顯存最小分配單位。關(guān)于安裝共享GPU調(diào)度專業(yè)版的組件,請(qǐng)參見安裝共享GPU調(diào)度組件

  • 集群類型為ACK Pro且集群版本≥1.18.8。關(guān)于創(chuàng)建ACK Pro集群和升級(jí)集群,請(qǐng)參見創(chuàng)建ACK Pro版集群升級(jí)集群

注意事項(xiàng)

  • 如果集群中已存在共享GPU應(yīng)用(申請(qǐng)了aliyun.com/gpu-mem的Pod),需要?jiǎng)h除這些任務(wù)才能進(jìn)行顯存單元切換工作(1 GiB -> 128 MiB或128 MiB -> 1 GiB),否則調(diào)度器賬本會(huì)發(fā)生混亂。

  • 該功能僅支持集群中節(jié)點(diǎn)開啟只共享不隔離的情景(即節(jié)點(diǎn)打上了標(biāo)簽ack.node.gpu.schedule=share),對(duì)于既共享又隔離的情景(即節(jié)點(diǎn)打上了標(biāo)簽:ack.node.gpu.schedule=cgpu),因?yàn)楦綦x模塊限制了一塊GPU卡上僅能創(chuàng)建16個(gè)Pod,所以在一張顯存為32 GiB的GPU卡上,即使您的Pod申請(qǐng)的顯存為128 MiB,也只能創(chuàng)建16個(gè)Pod。

  • 當(dāng)節(jié)點(diǎn)按128 MiB為單位上報(bào)顯存資源時(shí),不支持節(jié)點(diǎn)彈性伸縮,例如某個(gè)Pod申請(qǐng)aliyun.com/gpu-mem資源數(shù)為32,此時(shí)集群中節(jié)點(diǎn)沒有足夠的顯存滿足該P(yáng)od需求,該P(yáng)od處于Pending狀態(tài),即使配置了節(jié)點(diǎn)彈性伸縮,也不會(huì)彈出放置該P(yáng)od的節(jié)點(diǎn)。

  • 若集群創(chuàng)建時(shí)間早于2021年10月20日,需要提交工單讓售后同學(xué)重啟調(diào)度器,配置才能生效。

更改顯存單位

未安裝ack-ai-installer

  1. 登錄容器服務(wù)管理控制臺(tái),在左側(cè)導(dǎo)航欄選擇集群

  2. 集群列表頁(yè)面,單擊目標(biāo)集群名稱,然后在左側(cè)導(dǎo)航欄,選擇應(yīng)用 > 云原生AI套件

  3. 單擊頁(yè)面下方的一鍵部署,選中調(diào)度組件(批量任務(wù)調(diào)度、GPU共享、GPU拓?fù)涓兄PU調(diào)度),然后單擊部署云原生AI套件

  4. 云原生AI套件頁(yè)面,單擊組件ack-ai-installer所在行的卸載,單擊確定

  5. 卸載完成后,單擊組件ack-ai-installer所在行的部署,增加如下代碼gpuMemoryUnit: 128Mib1

  6. 單擊確定

    組件ack-ai-installer的狀態(tài)部署中變?yōu)?b data-tag="uicontrol" id="84c5294e1267i" class="uicontrol">已部署,表明組件ack-ai-installer已部署完成。

已安裝ack-ai-installer

  1. 登錄容器服務(wù)管理控制臺(tái),在左側(cè)導(dǎo)航欄選擇集群

  2. 集群列表頁(yè)面,單擊目標(biāo)集群名稱,然后在左側(cè)導(dǎo)航欄,選擇應(yīng)用 > 云原生AI套件

  3. 單擊組件ack-ai-installer所在行的卸載,單擊確定

  4. 卸載完成后,單擊組件ack-ai-installer所在行的部署,增加如下代碼gpuMemoryUnit: 128Mib1

  5. 單擊確定

    組件ack-ai-installer的狀態(tài)部署中變?yōu)?b data-tag="uicontrol" id="9f10acf22fa5y" class="uicontrol">已部署,表明組件ack-ai-installer已部署完成。

申請(qǐng)顯存示例

下面是一個(gè)示例Pod,該P(yáng)od通過aliyun.com/gpu-mem申請(qǐng)16個(gè)單位為128 MiB的顯存,總共申請(qǐng):16 * 128 MiB = 2GiB。

apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: binpack
  labels:
    app: binpack
spec:
  replicas: 1
  serviceName: "binpack-1"
  podManagementPolicy: "Parallel"
  selector: # define how the deployment finds the pods it manages
    matchLabels:
      app: binpack-1
  template: # 定義Pods規(guī)范。
    metadata:
      labels:
        app: binpack-1
    spec:
      containers:
      - name: binpack-1
        image: registry.cn-beijing.aliyuncs.com/ai-samples/gpushare-sample:tensorflow-1.5
        command:
        - bash
        - gpushare/run.sh
        resources:
          limits:
            # 128 MiB
            aliyun.com/gpu-mem: 16   # 16 * 128 MiB = 2 GiB