DLA支持配置虛擬集群以及Spark作業級別的監控告警,您可以設置報警規則,系統在監控數據滿足條件時,會通知報警聯系組中的所有聯系人。

背景信息

監控報警是通過阿里云Prometheus監控實現的。通過阿里云Prometheus監控,您可以查看監控大盤,設置監控項,在觸發監控項的報警規則時,Prometheus監控可以通過郵件、釘釘、短信、電話通知報警聯系組中的所有聯系人。您可以維護報警監控項對應的報警聯系組,以便發生報警時,相關聯系人能及時收到通知。

前提條件

  • 您已經成功購買DLA虛擬集群。
  • 如果您是RAM用戶,請確認已具備AliyunARMSFullAccess權限。

添加報警

  1. 登錄Data Lake Analytics管理控制臺
  2. 單擊左側導航欄中的虛擬集群管理
  3. 單擊目標虛擬集群詳情虛擬集群管理
  4. 在左側導航欄單擊監控報警,選擇報警
  5. 在右側單擊創建報警,進入報警配置界面。報警
  6. 創建報警面板,執行以下操作:
    1. 告警模板下拉列表,選擇模板。

      DLA支持的模板列表有Presto集群CPU利用率大于90%Presto集群內存利用率大于90%Spark虛擬集群CPU/Memory Quota利用率大于90%Spark Structure Streaming作業處理延時大于10秒Spark流作業Batch處理時長大于10秒Spark作業節點每分鐘Full GC時間大于10秒Spark作業節點內存利用率大于90%Spark作業節點CPU利用率大于90%Spark作業停止

    2. 規則名稱文本框,輸入規則名稱,例如:Spark Structure Streaming作業處理延時大于10秒。
    3. 告警表達式文本框,輸入告警表達式。以Spark Structure Streaming作業處理延時大于10秒為例,默認表達式為spark_structured_streaming_driver_latency / 1000 > 10
      說明 如果您需要對指定作業進行監控報警,請參見指定作業的報警設置
    4. 持續時間文本框,輸入時間,例如:1分鐘,當告警條件連續1分鐘都滿足時才會發送告警。
    5. 告警消息文本框,輸入告警消息。
    6. 可選:高級配置標簽區域,單擊創建標簽可以設置報警標簽,設置的標簽可用作分派規則的選項。
    7. 可選:高級配置注釋區域,單擊創建注釋,設置message,設置 {{變量名}}告警信息。設置完成后的格式為:message:{{變量名}}告警信息,例如:message:{{$labels.pod_name}}重啟
      您可以自定義變量名,也可以選擇已有的標簽作為變量名。已有的標簽包括:
      • 報警規則表達式指標中攜帶的標簽。
      • 通過報警規則創建的標簽。
      • ARMS系統自帶的默認標簽,默認標簽說明如下。
        標簽 說明
        alertname 告警名稱,格式為:告警名稱_集群名稱。
        _aliyun_arms_alert_level 告警等級。
        _aliyun_arms_alert_type 告警類型。
        _aliyun_arms_alert_rule_id 告警規則對應的ID。
        _aliyun_arms_region_id 地域ID。
        _aliyun_arms_userid 用戶ID。
        _aliyun_arms_involvedObject_type 關聯對象子類型,如ManagedKubernetes,ServerlessKubernetes。
        _aliyun_arms_involvedObject_kind 關聯對象分類,如app,cluster。
        _aliyun_arms_involvedObject_id 關聯對象ID。
        _aliyun_arms_involvedObject_name 關聯對象名稱。
    8. 通知策略下拉列表,選擇通知策略。
      如何創建通知策略,請參見通知策略
    9. 單擊確定
    報警配置頁面顯示創建的報警。8

管理報警規則

  1. 登錄Data Lake Analytics管理控制臺
  2. 單擊左側導航欄中的虛擬集群管理
  3. 單擊目標虛擬集群詳情虛擬集群管理
  4. 在左側導航欄單擊監控報警,選擇報警
  5. 單擊報警頁簽,在右側操作列按需對目標報警規則采取以下操作。
    • 如需編輯報警規則,請單擊編輯,在編輯報警對話框中編輯報警規則,并單擊確認
    • 如需啟動未啟用的報警規則,請單擊開啟,然后在狀態列中查看啟動狀態。
    • 如需停用已啟用的報警規則,請單擊關閉,然后在狀態列中查看停用狀態。
    說明 管理報警的具體操作,請參見管理報警