EAS服務部署成功后,您可以在服務監控頁面查看該服務的相關指標,來了解服務的調用和運行情況。本文為您介紹如何查看服務監控信息及監控指標說明。
前提條件
已部署模型服務,詳情請參見服務部署:控制臺。
查看服務監控信息
進入模型在線服務(EAS)頁面。
登錄PAI控制臺。
在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應的工作空間。
在工作空間頁面的左側導航欄選擇 ,進入模型在線服務(EAS)頁面。
單擊目標服務服務監控列下的,進入服務監控頁簽。
查看服務監控信息。
切換儀表盤
服務名:分鐘級監控儀表盤,包含大部分常用的分鐘級監控指標。默認顯示該儀表盤。
服務名(fine):秒級監控儀表盤。
服務名(per):單實例分鐘級監控儀表盤。
服務部署好后,默認創建以下3個儀表盤。
說明其中服務名在控制臺顯示為實際EAS服務的名稱。
您可以單擊服務名右側的按鈕,切換三個儀表盤,來查看各儀表盤具體的監控指標,關于監控指標的具體說明,請參見監控指標說明。
切換時間范圍
單擊監控信息區域右側的,來切換儀表盤展示的時間范圍。
重要目前分鐘級監控指標最多保留1個月,秒級監控指標最多保留1個小時。
監控指標說明
分鐘級監控儀表盤
您可以在該儀表盤監控以下指標信息:
QPS(query per second) 表示服務每秒的請求數。如果服務包含多個實例,則此處的指標為所有實例之和。不同返回碼的請求數會分開計算。 | Response 表示服務在選定時間范圍內接收的響應總數。不同返回碼的響應數會分開計算。如果服務包含多個實例,則此處的指標為所有實例之和。 |
CPU 表示服務在該時間點的CPU平均使用量。單位為核數。如果服務包含多個實例,則此處的指標為所有實例的平均值。 | CPU Utilization 表示服務在該時間點CPU平均使用率。計算方法為:CPU平均使用量 ÷ 最大可用核數。如果服務包含多個實例,則此處的指標為所有實例的平均值。 |
Memory Utilization 表示服務在該時間點的內存平均使用率。計算方法為:內存rss ÷ 內存total。如果服務包含多個實例,則此處的指標為所有實例的平均值。 | GPU 如果您部署的服務使用了GPU,該面板指標表示服務在該時間點的GPU平均使用率。如果服務包含多個實例,則此處的指標為所有實例的平均值。 |
GPU Memory 如果您部署的服務使用了GPU,該面板指標表示服務在該時間點的GPU顯存的使用量。如果服務包含多個實例,則此處的指標為所有實例的平均值。 | Replicas 表示服務在該時間點的實例數。 |
CPU Total 表示服務在該時間點可用的CPU總核數。計算方法為:單實例可用CPU核數 × 服務實例數。 | Daily Invoke 表示服務每天的調用量,不同返回碼的調用量會分開計算。 |
RT 表示請求的響應時間。 其中:
| Memory 表示服務在該時間點的內存平均使用量。如果服務包含多個實例,則此處的指標為所有實例的平均值。其中:
|
Traffic 表示服務接收和發出的流量大小,單位為比特每秒。如果服務包含多個實例,則此處的指標為所有實例的平均值。 其中:
| TCP Connections 表示TCP連接數。 |
秒級監控儀表盤
您可以在該儀表盤監控以下指標:
Instance QPS Fine 統計服務中每個實例每秒接收的請求數。不同返回碼的請求數會分開計算。 重要 數據精度精確到5秒級別,只保留最近1個小時的數據。 其中:實例使用ip:port來標識。 | Instance RT Fine 統計服務中每個實例接收到請求的平均響應時間。 重要 數據精度精確到5秒級別,只保留最近1個小時的數據。 其中:實例使用ip:port來標識。 |
單實例分鐘級監控儀表盤
您可以在該儀表盤監控以下指標:
Instance QPS 統計服務中每個實例每秒接收的請求數。不同返回碼的請求數會分開計算。其中:實例使用ip:port來標識。 | Instance RT 統計服務中每個實例的平均響應時間。其中:實例使用ip:port來標識。 |
Instance CPU 統計服務中每個實例的CPU使用量,單位為核數。其中:實例使用ip:port來標識。 | Instance Memory 統計服務中每個實例的內存使用量。其中:實例使用ip:port來標識。 |
Instance GPU 統計服務中每個實例的GPU使用率。 | Instance GPU Memory 統計服務中每個實例的GPU顯存使用量。 |
Instance TCP Connections 表示單實例TCP連接數。 |
相關文檔
通過監控報警功能對服務指標進行監控,當指標數據超過了配置的報警規則,則發送報警通知。詳情請參見開通服務監控報警。
通過云監控控制臺或API接口查看EAS服務實例事件,對事件進行運維、審計或報警設置,詳情請參見查看服務實例云監控事件。
根據業務邏輯設置自定義的監控指標,并根據這些指標進行彈性伸縮,詳情請參見自定義監控及擴縮容指標。