本文介紹監控告警與日志中的常見問題。
Datastream作業TM日志中拋NullPointerException如果沒有詳細錯誤棧怎么辦?
在
頁面,單擊目標作業名稱后,在部署詳情頁簽的運行參數配置區域的其他配置中,添加如下代碼。env.java.opts: "-XX:-OmitStackTraceInFastThrow"
如何針對單個Class設置日志級別參數?
例如,設置Kafka Connector相關的log4j.logger.org.apache.kafka.clients.consumer=trace(源表)和log4j.logger.org.apache.kafka.clients.producer=trace(結果表)參數時,需要在Log Levels中配置,不能在其他配置中配置。
如何開啟實時計算Flink版GC日志參數?
在
頁面,單擊目標作業名稱后,在部署詳情頁簽的運行參數配置區域的其他配置中,添加如下代碼。env.java.opts: >-
-XX:+PrintGCDetails -XX:+PrintGCDateStamps -Xloggc:/flink/log/gc.log
-XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=2 -XX:GCLogFileSize=50M
Datastream作業無延遲、輸出曲線,應該如何處理?
問題詳情
源表有源源不斷的數據進入Flink,Kafka物理表每個Partition也是有源源不斷的數據的情況下,Datastream作業Kafka Source CurrentEmitEventTimeLag和CurrentFetchEventTimeLag顯示作業延遲為52年。
問題原因
Datastream中Kafka Connector依賴是社區的Connector,不是Ververica內置的Connector。社區Connector是沒有實現曲線匯報邏輯的,所以輸入輸出延遲等曲線顯示異常。
解決方案
使用Ververica Connector依賴,詳情請參見ververica maven倉庫。
如何解決非Static方法輸出不到SLS中的問題?
問題詳情
由于SLS Logger Appender實現邏輯,非Static方法輸出不到SLS中。
解決方案
您需要使用標準的定義方式
private static final Logger LOG = LoggerFactory.getLogger(xxx.class);
。
數據正常寫入(如Kafka能收到Flink寫入的數據),但Flink任務狀態總覽顯示數據為0?
問題詳情
如果作業中只有一個節點,source沒有input只有output,sink只有input沒有output,在作業拓撲圖中將無法看到讀取和寫入的數據量。
解決方案
為了能夠在拓撲圖中看到具體的數據流量,需要對算子進行分割。將source算子和sink算子拆分成獨立的算子,分別與其他的算子進行連接,形成新的拓撲結構,在拓撲圖中即可看到數據的流向和流量。
您需要在
頁面,單擊目標作業名稱,在部署詳情頁簽運行參數配置區域的其他配置中添加分割算子的參數配置pipeline.operator-chaining: 'false'
。
配置日志到SLS后,作業啟動報錯
問題詳情
修改作業日志輸出到SLS后,作業啟動時顯示作業啟動失敗,請重試,并報錯如下:
Unknown ApiException {exceptionType=com.ververica.platform.appmanager.controller.domain.TemplatesRenderException, exceptionMessage=Failed to render {userConfiguredLoggers={}, jobId=3fd090ea-81fc-4983-ace1-0e0e7b******, rootLoggerLogLevel=INFO, clusterName=f7dba7ec27****, deploymentId=41529785-ab12-405b-82a8-1b1d73******, namespace=flinktest-default, priorityClassName=flink-p5, deploymentName=test}} 029999 202312121531-8SHEUBJUJU
問題原因
配置作業日志時,請確認是否將部分Twig變量(例如namespace、deploymentId等)進行了修改。
解決方案
參考配置作業日志輸出重新進行配置,根據實際情況對表格中說明的參數進行修改。
云監控告警相對ARMS有哪些不足?
不支持查詢分析語法。
目前只能查看當前作業曲線,而無法查看歷史作業曲線,這將不利于進行多輪調優對比RPS效果。
無法查看subtask粒度的曲線,多Source、多subtask的場景下,無法直觀快速定位聚類后的延遲問題。
目前無法查看用戶代碼內部埋點上報的指標,這可能會對問題排查造成不便。