DLA不僅支持使用定義好的報警模板對所有作業進行監控報警,還支持對單個作業進行監控報警。本文介紹如何針對特定的作業進行監控報警。
前提條件
- 您已經成功購買DLA虛擬集群。
- 如果您是RAM用戶,請確認已具備AliyunARMSFullAccess權限。
- 您已經成功創建了Spark作業。如何創建Spark作業,請參見創建和執行Spark作業。
指定作業延時觸發報警
通常情況下,選擇了作業延時的模板,只要有作業延時就會報警。如果您需要精確地針對特定虛擬集群的特定作業進行監控報警,可以在創建報警頁面選擇Spark Structure Streaming作業處理延時大于10秒模板,按下面的語法修改告警表達式。
spark_structured_streaming_driver_latency{vcName="$(vcName)",app_id=~"$(job_id).*"} / 1000 > $(latency_sec)
說明 如何進入創建報警頁面請參見添加報警。
告警表達式中的參數說明如下。
參數名稱 | 參數說明 |
---|---|
vcName |
作業相關的虛擬集群名稱。 |
job_id |
作業ID。 |
latency_sec |
作業處理延時時間,以秒為單位。 |
說明 關于報警的更多信息,請參見管理報警。
指定作業停止觸發報警
通常情況下,選擇了作業停止的模板,只要有作業停止就會報警。如果您需要精確地針對特定作業進行監控報警,可以在創建報警頁面選擇Spark作業停止模板,按下面的語法修改告警表達式。
sum by (parent_job) (label_replace(up{pod_name=~"${job_id}.*-driver"}, "parent_job", "$1", "pod_name", "(.*?)-(.*)")) < 1
說明 如何進入創建報警頁面請參見添加報警。
告警表達式中的參數說明如下。
參數名稱 | 參數說明 |
---|---|
job_id |
作業ID。 |
說明 關于報警的更多信息,請參見管理報警。