日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

基于Kubernetes部署AI推理服務(wù)概述

借助ACK云原生AI套件提供的Arena命令行工具、AI負載調(diào)度、GPU管理、資源彈性伸縮等基礎(chǔ)能力,您可以在Kubernetes集群中簡便、高效地把訓(xùn)練好的模型部署為AI推理服務(wù)。阿里云容器服務(wù)ACK支持為推理服務(wù)提供彈性伸縮、GPU共享調(diào)度、性能監(jiān)控、成本分析與優(yōu)化等功能,降低您的運維成本。本文介紹使用ACK和云原生AI套件部署模型推理服務(wù)的相關(guān)信息。

重要

通過ack-arena使用的NVIDIA Triton Server、TensorFlow Serving均為第三方開源社區(qū)/商業(yè)公司提供的免費開源組件。您可以按需選用并安裝相應(yīng)的組件并配置服務(wù)器,以此部署模型推理服務(wù),以及使用相關(guān)的模型測試、優(yōu)化工具等。

但阿里云不承擔(dān)第三方組件相關(guān)的穩(wěn)定性、服務(wù)限制與安全合規(guī)等責(zé)任。您應(yīng)及時關(guān)注對應(yīng)第三方開源社區(qū)或商業(yè)公司的官網(wǎng)、代碼托管平臺的版本更新動態(tài)并仔細閱讀及遵守相應(yīng)的開源協(xié)議,自行承擔(dān)因第三方組件導(dǎo)致的應(yīng)用側(cè)程序開發(fā)、維護、故障與安全等潛在風(fēng)險。

云原生AI套件支持的AI推理服務(wù)類型及描述如下。

AI推理服務(wù)類型

描述

參考文檔

GPU共享模型推理任務(wù)

當需要把多個模型推理任務(wù)部署到同一塊GPU,通過共享GPU顯存和算力資源,提高GPU利用率時,您可以使用Arena提交GPU共享模型推理任務(wù)。

提交GPU共享模型推理任務(wù)

Tensorflow模型推理服務(wù)

您可以通過Arena把Tensorflow模型部署成Tensorflow-serving推理服務(wù)。

部署Tensorflow模型推理服務(wù)

PyTorch模型推理服務(wù)

PyTorch是一種深度學(xué)習(xí)計算框架,可用來訓(xùn)練模型。您可以通過Triton或TorchServe方式部署PyTorch模型的推理服務(wù)。

提交GPU共享模型推理任務(wù)

容器化彈性推理

您可以基于ECI或ECS運行彈性推理服務(wù),滿足推理服務(wù)的彈性伸縮的需求,降低您的成本。