日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

云監控為您提供企業級開放型一站式監控解決方案。Hologres已經接入云監控的云服務監控,方便您通過云監控全面了解Hologres實例的資源使用、業務運行及健康狀況,及時收到異常報警并做出響應,保證應用程序運行順暢。本文為您介紹如何通過云監控監測Hologres實例的相關指標并上報告警。

前提條件

已開通Hologres,詳情請參見PSQL客戶端

使用建議

目前云監控已經支持按照Hologres實例類型(包括實時數倉Hologres(從實例)實時數倉Hologres(湖倉加速)實時數倉Hologres(通用型)實時數倉Hologres(計算組))展示對應實例的監控指標,不同的實例類型對應專屬監控指標,以便更好的監控業務異常并處理,建議將實時數倉Hologres的監控切換為對應實例類型下的監控,以獲得更好的監控體驗。image.png

云監控指標

當前云監控支持的Hologres實例監控指標詳情,請參見Hologres管控臺的監控指標。更多有關云監控信息

查看監控指標

您可以直接登錄云監控控制臺查看。

  1. 登錄云監控控制臺

  2. 在左側導航欄,單擊云產品監控

  3. 大數據(數加)區域,單擊目標實例類型(實時數倉Hologres(從實例)、實時數倉Hologres(湖倉加速)、實時數倉Hologres(通用型)或實時數倉Hologres(計算組)),進入Hologres監控大盤。

  4. 單擊地域后的地域圖標,選擇目標地域。

  5. 單擊目標實例ID或操作列的監控圖表,查看實例相關指標的狀態。image

    說明

    您可以自定義查看實例指標的時間段,監控數據最多保留30天。

監控告警實踐

一鍵報警

Hologres支持您在云監控中開啟一鍵報警功能,為所有實例設置默認的告警規則,開啟后,會創建CPU使用率、磁盤使用率、內存使用率、連接數等相關報警規則,作用于阿里云賬號(主賬號)下的所有Hologres實例,方便對多個常見的重要指標進行異常告警,快速發現問題。默認告警規則包括:

  • 如果連接數使用率(Info)連續3次平均值>=95就通知,通知對象為云賬號報警聯系人

  • 如果存儲水位(Warn)連續3次平均值>90就通知,通知對象為云賬號報警聯系人

  • 如果內存水位(Warn)連續3次平均值>=90就通知,通知對象為云賬號報警聯系人

  • 如果CPU水位(Info)連續3次平均值>=99就通知,通知對象為云賬號報警聯系人

說明

默認每次告警的周期為5分鐘,可自定義設置。

自定義報警

除默認的一鍵告警外,您還可以根據業務情況,對更多的監控指標設置告警,詳情請參見創建報警規則

告警設置最佳實踐

Hologres對于不同監控指標,推薦設置的告警如下:

實例CPU使用率(%)

該指標反映了Hologres的資源是否存在瓶頸,也反映了您的資源使用是否充分。推薦的告警如下:

  • 告警規則:

    • 緊急(Critical):“實例CPU使用率連續60個周期(1周期=1分鐘),監控值>=99%”,有效監測集群的資源水位,長期打滿需要擴容。

    • 警告(Warn):“實例CPU使用率連續10個周期(1周期=1分鐘),監控值>=99%”,可以及時觀測是否因為業務變動導致CPU打滿。

  • 不建議出現一次實例CPU使用率達到100%就告警。短時間內的CPU使用率達到100%并不表示系統過載或異常,而是代表了高效的資源利用。

  • 不建議CPU的告警水位設置過低。因為沒有任務運行時,也可能有系統組件在運行,會占用一定資源。

Worker節點CPU使用率(%

該指標反映了Hologres中每個Worker資源是否存在瓶頸,也反映了資源使用是否充分。推薦告警如下:

  • 告警規則

    • 緊急(Critical):“Worker節點CPU使用率連續60個周期(1周期=1分鐘),監控值>=99%”,有效監測每個Worker的資源水位,長期打滿需要擴容。

    • 警告(Warn):“Worker節點CPU使用率連續10個周期(1周期=1分鐘),監控值>=99%”,可以及時觀測是否因為業務變動導致CPU打滿。

  • 不推薦出現一次Worker節點CPU使用率達到100%就告警。短時間內的CPU使用率達到100%并不表示系統過載或異常,而是代表了高效的資源利用。

  • 不推薦CPU的告警水位設置過低,因為沒有任務運行時,也可能有系統組件在運行,會占用一定資源。

實例內存使用率(%)

該指標反映了實例的內存使用情況。推薦的告警如下:

  • 告警規則

    • 緊急(Critical):“實例內存使用率連續60個周期(1周期=1分鐘),監控值>=99%”,有效監測集群的內存水位,長期打滿建議擴容。

    • 警告(Warn):“實例內存使用率連續10個周期(1周期=1分鐘),監控值>=99%”,可以及時觀測是否因為業務變動導致內存打滿。

  • 不推薦內存指標的告警水位設置過低。因為內存不僅用于Query運行,也用于Meta、Cache等部分,在實例任務空閑時也有一定的內存使用。

Worker節點內存使用率(%)

該指標反映了Worker的內存使用情況。推薦的告警如下:

  • 告警規則

    • 緊急(Critical):“Worker節點內存使用率連續60個周期(1周期=1分鐘),監控值>=99%”,有效監測集群的內存水位,長期打滿建議擴容。

    • 警告(Warn):“Worker節點內存使用率連續10個周期(1周期=1分鐘),監控值>=99%”,可以及時觀測是否因為業務變動導致內存打滿。

  • 不推薦內存指標的告警水位設置過低,因為內存不僅用于Query運行,也用于Meta、Cache等部分,在實例任務空閑時也有一定的內存使用。

連接數使用率最高的FE的連接數使用率(%

該指標反映了當前每個FE的連接數使用率最大值。推薦的告警規則如下:

警告(Warn):“連接數使用率最高的FE的連接數使用率連續5個周期(1周期=1分鐘),監控值>=95%”,可以有效監測集群的連接數使用情況,及時清理空閑連接。

wal sender使用率最高的FE的wal sender使用率(%)

該指標反映了當前每個FE的Walsender使用率最大值。推薦的告警規則如下:

警告(Warn):“wal sender使用率最高的FE的wal sender使用率連續5個周期(1周期=1分鐘),監控值>=95%”,可以有效監測集群的Walsender使用情況。

本實例正在運行中Query最長的時長(milliseconds)

該指標可以有效監測實例中當前時刻是否有長時間運行的Query。推薦的告警規則如下:

警告(Warn):“本實例正在運行中Query最長的時長連續10個周期(1周期=1分鐘),監控值>=3600000milliseconds”。

正在運行的 Serverless Computing 的查詢中,最長的時長(milliseconds)

該指標可以有效監測Serverless集群中的任務運行情況,如果運行時間過長,可以及時取消相關任務。推薦的告警規則如下:

警告(Warn):“正在運行的Serverless Computing的查詢中,最長的時長連續10個周期(1周期=1分鐘),監控值>=3600000milliseconds”。

失敗Query QPS(countS)

該指標反映了實例中運行Query的失敗情況,可以針對失敗Query設置告警,方便及時了解實例中Query運行情況。推薦的告警規則如下:

警告(Warn):“失敗Query QPS中,連續10個周期(1周期=1分鐘),監控值>=10countS”。如果實例中失敗Query較多,建議根據慢Query日志查看詳情失敗詳情,并針對性治理。

FE replay延遲(milliseconds

該指標反映了每個FE的replay時間,如果時間過長,說明replay慢,可能原因為FE卡住,導致Query卡住,需要及時處理。推薦的告警如下:

  • 告警規則

    警告(Warn):“FE replay延遲連續10個周期(1周期=1分鐘),監控值>=300000milliseconds”,出現告警時,前往HoloWeb活躍Query查看是否有長時間運行的Query,并嘗試取消Query。

  • 不推薦FE replay延遲設置的時間過短。因為實例中有元數據的修改就有FE的replay,通常情況下,FE的replay時間在秒級都屬于正常現象。

主從同步延遲(milliseconds)

該指標僅在從實例中展示,反映了主從同步的延遲情況,推薦的告警規則如下:

警告(Warn):“主從同步延遲連續10個周期(1周期=1分鐘),監控值>=600000milliseconds”。

每個DB統計信息缺失的表個數(countS)

該指標反映了Auto Analyze的質量,如果長時間存在缺失統計信息的表,可以對表手動執行Analyze命令,詳情請參見ANALYZE和AUTO ANALYZE。推薦的告警如下:

  • 告警規則

    警告(Warn):“每個DB統計信息缺失的表個數連續60個周期(1周期=1分鐘),監控值>=10countS”。

  • 不建議監控值設置過低。因為實例中表數量太多時,也會導致Auto Analyze執行速度降低。

常見監控問題排查

當監控指標出現不符合業務預期的波動,或者出現告警時,可以通過監控指標常見問題排查監控指標的問題并處理。

API方式訪問監控指標

除了云監控控制臺,云監控也提供自定義監控大盤、API等方式訪問監控指標,以便業務能夠更加靈活地訪問監控。其中:

授予RAM用戶云監控查看權限

默認情況下,RAM用戶無法查看云監控的指標信息。此時需要您對該RAM用戶授予云監控查看權限。

您可使用阿里云賬號(主賬號)登錄RAM控制臺,為RAM用戶授予如下權限,授權方法請參見為RAM用戶授權

說明

您也可根據需求自行選擇權限。

權限名稱

權限功能描述

AliyunCloudMonitorFullAccess

管理云監控(CloudMonitor)的權限。

AliyunCloudMonitorReadOnlyAccess

只讀訪問云監控(CloudMonitor)的權限。

AliyunCloudMonitorMetricDataReadOnlyAccess

訪問云監控(CloudMonitor)時序指標數據的權限。