為方便您獲取EAS服務實例級別的事件,EAS在云監控上定義了服務實例事件(ServiceInstance)類型。EAS事件控制器會實時推送EAS服務實例事件到云監控。您可以通過云監控控制臺或API接口查看EAS服務實例事件,對事件進行運維、審計或報警設置。本文為您介紹如何查看服務實例事件、創建并啟用報警規則。
查看EAS服務實例事件
通過控制臺
您可以在云監控控制臺查看EAS服務實例事件,具體操作步驟如下。
登錄云監控控制臺。
在左側導航欄,選擇 。
在事件監控頁簽,產品選擇機器學習,單擊搜索,查看EAS系統事件。
單擊目標事件操作列下的詳情,查看事件詳情。
事件詳情示例如下。
參數
說明
Product
產品code。例如:機器學習為learn。
Name
事件名。關于機器學習支持查看的事件名,請參見支持查看的EAS服務實例事件中的事件名列。
Level
事件級別,可能值:
INFO:信息。
WARN:警告。
CRITICAL:嚴重。
Status
事件狀態。關于機器學習的事件狀態,請參見支持查看的EAS服務實例事件中的事件狀態列。
RegionId
服務所在的地域ID。例如:華東2(上海)為cn-shanghai。
ResourceId
資源ID,詳情請參見權限策略說明。
InstanceName
服務實例名稱。
Time
事件發生時間,格式為UNIX毫秒時間戳。
GroupId
EAS對應的云監控應用分組,默認沒有分組。
Content
表示事件的核心內容,JSON格式。具體參數說明,請參見Content參數說明。
Content參數說明
參數
說明
serviceName
實例對應的服務名。
serviceId
實例對應的服務ID。
serviceGroup
實例對應的服務群組。
resourceType
實例所在的資源組類型,可能值:
PublicResource:公共資源組。
DedicatedResource:專屬資源組。
instanceType
實例規格。
cpu
實例使用的CPU個數。
memory
實例的內存使用量,單位為MB。
gpu
實例使用的GPU個數。
gpuMemory
實例GPU內存使用量,單位為GB。
nvidiaName
實例使用的顯卡名稱。
role
實例所屬的服務角色,可能值:
Queue:隊列服務。
DataLoader:離線服務。
Standard:普通服務。
isBurst
是否屬于Burstable管理的實例,可能值:
false:不屬于Burstable管理的實例,即實例所屬資源組未開啟自動伸縮功能。
true:屬于Burstable管理的實例,即實例所屬資源組開啟了自動伸縮功能。
isSpot
是否屬于搶占式資源實例,可能值:
false:不屬于搶占式資源實例。
true:屬于搶占式實例。
callerUid
創建EAS服務的用戶UID。
timestamp
事件發生的UTC時間。
restartCount
實例重啟次數。
exitCode
實例的退出狀態碼,默認為空。
status
實例的狀態,可能值請參見支持查看的EAS服務實例事件的事件狀態列。
reason
事件原因。
message
事件信息。
通過API接口
您也可以通過API接口查看EAS服務實例事件,詳情請參見DescribeSystemEventAttribute。
創建并啟用事件報警規則
通過控制臺
創建系統事件報警規則,具體操作,請參見創建系統事件報警規則。其中關鍵參數配置如下。
產品類型:選擇機器學習。
事件類型:選擇ServiceInstance。當前只支持ServiceInstance,即服務實例事件。
事件等級:根據業務需要選擇單個或多個事件等級。
事件名稱:選擇需要監控的事件名稱,即附錄中的事件名稱(中文)列。支持選擇單個或多個事件名稱。
關鍵詞匹配:對查詢的事件內容設置關鍵詞匹配。
啟用系統事件報警規則,具體操作,請參見啟用系統事件報警規則。
通過API接口
您也可以通過API接口創建并啟用事件報警規則,具體操作,請參見創建事件報警規則和啟用事件報警規則。
附錄:支持查看的EAS服務實例事件
EAS根據服務實例的生命周期定義了如下服務實例事件。
事件類型 | 事件名 | 事件名稱(中文) | 事件級別 | 事件狀態 |
ServiceInstance | EAS:ServiceInstance:Running | 服務實例運行 | INFO | Running |
EAS:ServiceInstance:Pending | 服務實例等待調度 | INFO | Pending | |
EAS:ServiceInstance:Completed | 服務實例運行結束 | INFO | Completed | |
EAS:ServiceInstance:Terminating | 服務實例開始刪除 | INFO | Terminating | |
EAS:ServiceInstance:Terminated | 服務實例刪除成功 | INFO | Terminated | |
EAS:ServiceInstance:Unknown | 服務實例未知異常 | WARN | Unknown | |
EAS:ServiceInstance:Evicted | 服務實例驅逐 | WARN | Evicted | |
EAS:ServiceInstance:ErrImagePull | 服務實例拉取鏡像出錯 | WARN | ErrImagePull | |
EAS:ServiceInstance:ImagePullBackOff | 服務實例拉取鏡像失敗 | WARN | ImagePullBackOff | |
EAS:ServiceInstance:CrashLoopBackOff | 服務實例崩潰 | CRITICAL | CrashLoopBackOff | |
EAS:ServiceInstance:Error | 服務實例內部錯誤 | CRITICAL | Error | |
EAS:ServiceInstance:Failed | 服務實例運行失敗 | CRITICAL | Failed |