日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

使用閑時(shí)資源

本文為您介紹如何在使用預(yù)付費(fèi)資源配額(Quota)提交DLC訓(xùn)練任務(wù)時(shí),合理利用并配置閑時(shí)資源。

功能介紹

在PAI平臺(tái)中,您可根據(jù)自身業(yè)務(wù)場(chǎng)景靈活劃分和分配Quota,不同的業(yè)務(wù)團(tuán)隊(duì)提交的訓(xùn)練任務(wù)則會(huì)消耗被分配的Quota。但某些業(yè)務(wù)的Quota在某個(gè)特定時(shí)間段內(nèi),可能出現(xiàn)閑置情況,而其他業(yè)務(wù)可能因?yàn)闆](méi)有Quota而排隊(duì),從而導(dǎo)致資源的錯(cuò)配與浪費(fèi)。

在大規(guī)模的集群算力和復(fù)雜的組織結(jié)構(gòu)下,資源利用率成為算力型產(chǎn)品的必然目標(biāo)。為了解決上述問(wèn)題,DLC提供了閑時(shí)資源能力。您可以通過(guò)該功能提交閑時(shí)計(jì)算任務(wù),在不影響正常業(yè)務(wù)的前提下,提升整體算力資源利用率。

實(shí)現(xiàn)原理如下:

  • 閑時(shí)計(jì)算任務(wù)使用當(dāng)前或其他Quota下的空閑的計(jì)算資源。不受本Quota的資源總量的限制,也不受剩余資源數(shù)量的限制。

  • 閑時(shí)計(jì)算任務(wù)借用空閑資源運(yùn)行任務(wù)時(shí),當(dāng)借用Quota的空閑資源需要被原Quota計(jì)算任務(wù)使用時(shí),則該借用資源的閑時(shí)計(jì)算任務(wù)將會(huì)被終止,自動(dòng)歸還所借用的資源。

  • 閑時(shí)計(jì)算任務(wù)配合PAI提供的AIMaster和EasyCKPT能力,自動(dòng)提升任務(wù)續(xù)跑能力,避免算力浪費(fèi)。

前提條件

已創(chuàng)建預(yù)付費(fèi)資源配額(包括通用計(jì)算資源專有資源配額和靈駿智算資源配額),并綁定到工作空間。具體操作,請(qǐng)參見(jiàn)資源配額(Quota)功能介紹

提交DLC任務(wù)使用閑時(shí)資源

  1. 在控制臺(tái)提交DLC訓(xùn)練任務(wù)時(shí),您可以在資源配置區(qū)域,配置閑時(shí)資源,其中關(guān)鍵參數(shù)說(shuō)明如下,其他參數(shù)配置詳情,請(qǐng)參見(jiàn)創(chuàng)建訓(xùn)練任務(wù)image

    參數(shù)

    描述

    資源配額

    選擇通用計(jì)算資源專有資源配額或靈駿智算資源配額。

    說(shuō)明

    僅支持在華北6(烏蘭察布)地域使用靈駿智算資源。

    閑時(shí)資源

    取值如下:

    • 可接受:作業(yè)可以接受使用閑時(shí)計(jì)算資源,也可以使用當(dāng)前已關(guān)聯(lián)的Quota。

    • 只接受:作業(yè)僅接受閑時(shí)計(jì)算資源,而不會(huì)使用當(dāng)前已關(guān)聯(lián)的Quota內(nèi)的資源。

    使用閑時(shí)資源的任務(wù),表示使用已關(guān)聯(lián)Quota外的資源運(yùn)行任務(wù), 可能會(huì)出現(xiàn)閑時(shí)資源回收而導(dǎo)致任務(wù)被停止的情況。

    請(qǐng)確認(rèn)代碼中包含Checkpoint機(jī)制,確保任務(wù)可以順利重新啟動(dòng)續(xù)跑。具體操作,請(qǐng)參見(jiàn)EasyCkpt:AI大模型高性能狀態(tài)保存恢復(fù)

    自動(dòng)容錯(cuò)

    由于閑時(shí)計(jì)算任務(wù)在資源緊張時(shí)有被搶占的風(fēng)險(xiǎn),為了優(yōu)化這類任務(wù)的運(yùn)行效率并提升整體算力的有效利用率,建議您開(kāi)啟自動(dòng)容錯(cuò)功能。在閑時(shí)資源被回收的情況下,系統(tǒng)將自動(dòng)尋找合適的資源,重新運(yùn)行任務(wù)。具體配置方法,請(qǐng)參見(jiàn)AIMaster:彈性自動(dòng)容錯(cuò)引擎image

  2. 查看DLC任務(wù)資源使用詳情。

    • 在分布式訓(xùn)練任務(wù)列表或任務(wù)詳情內(nèi),會(huì)展示任務(wù)是否開(kāi)啟閑時(shí)資源以及使用的資源類型。image

      • 配額內(nèi):普通資源,表示運(yùn)行該任務(wù)使用已關(guān)聯(lián)的Quota。

      • 配額外:閑時(shí)共享資源,表示運(yùn)行該任務(wù)使用閑時(shí)計(jì)算資源。

    • 當(dāng)任務(wù)使用的閑時(shí)資源被搶占回收時(shí),在任務(wù)詳情頁(yè)面的實(shí)例(Pod)狀態(tài)將被標(biāo)記為被搶占25ce0f1a95079ed2f57a7353ec7b69d7

      當(dāng)隸屬于借出資源的Quota組,且不使用閑時(shí)資源的任務(wù)出隊(duì)后,如因資源不足導(dǎo)致無(wú)法調(diào)度時(shí),系統(tǒng)將會(huì)為該Quota組回收資源以保障該任務(wù)的調(diào)度。此時(shí),使用該閑時(shí)資源的任務(wù)實(shí)例狀態(tài)將被標(biāo)記為被搶占。

相關(guān)文檔

由于閑時(shí)計(jì)算任務(wù)在資源緊張時(shí)有被搶占的風(fēng)險(xiǎn),為了優(yōu)化這類任務(wù)的運(yùn)行效率并提升整體算力的有效利用率,DLC建議您啟用AIMaster:彈性自動(dòng)容錯(cuò)引擎功能,以便在任務(wù)被搶占時(shí)實(shí)現(xiàn)無(wú)縫切換和繼續(xù)執(zhí)行。推薦您使用PAI團(tuán)隊(duì)提供的EasyCkpt:AI大模型高性能狀態(tài)保存恢復(fù)組件,從而在任務(wù)被搶占時(shí)最大限度地減少訓(xùn)練進(jìn)度損失,并實(shí)現(xiàn)任務(wù)的自動(dòng)續(xù)跑和恢復(fù)。