DLA不僅支持使用定義好的報警模板對所有作業進行監控報警,還支持對單個作業進行監控報警。本文介紹如何針對特定的作業進行監控報警。

前提條件

指定作業延時觸發報警

通常情況下,選擇了作業延時的模板,只要有作業延時就會報警。如果您需要精確地針對特定虛擬集群的特定作業進行監控報警,可以在創建報警頁面選擇Spark Structure Streaming作業處理延時大于10秒模板,按下面的語法修改告警表達式
spark_structured_streaming_driver_latency{vcName="$(vcName)",app_id=~"$(job_id).*"} / 1000 > $(latency_sec)
說明 如何進入創建報警頁面請參見添加報警。
告警表達式中的參數說明如下。
參數名稱 參數說明
vcName 作業相關的虛擬集群名稱。
job_id 作業ID。
latency_sec 作業處理延時時間,以秒為單位。
說明 關于報警的更多信息,請參見管理報警。

指定作業停止觸發報警

通常情況下,選擇了作業停止的模板,只要有作業停止就會報警。如果您需要精確地針對特定作業進行監控報警,可以在創建報警頁面選擇Spark作業停止模板,按下面的語法修改告警表達式
sum by (parent_job) (label_replace(up{pod_name=~"${job_id}.*-driver"}, "parent_job", "$1", "pod_name", "(.*?)-(.*)")) < 1
說明 如何進入創建報警頁面請參見添加報警。
告警表達式中的參數說明如下。
參數名稱 參數說明
job_id 作業ID。
說明 關于報警的更多信息,請參見管理報警。