數(shù)據(jù)導(dǎo)入模塊-任務(wù)執(zhí)行失敗/超時問題排查手冊
本文匯總了數(shù)據(jù)導(dǎo)入失敗/超時常見問題
自助排查手冊
完全自查
報錯信息:xxx表無數(shù)據(jù)或xxx分區(qū)無數(shù)據(jù),請自查數(shù)據(jù)源后重試。
潛在原因:
數(shù)據(jù)計算平臺數(shù)據(jù)未生產(chǎn),或?qū)懭氘惓?/p>
排查路徑:
登錄數(shù)據(jù)源,查詢該表或分區(qū)是否有數(shù)據(jù)。查看在QA調(diào)度時是否有數(shù)據(jù)
建議解決方案:
上游系統(tǒng)補充數(shù)據(jù),重新調(diào)度
如上游生產(chǎn)數(shù)據(jù)時間不定,QA配置的是定時更新。可以使用觸發(fā)調(diào)度,打通上游系統(tǒng)和QA的聯(lián)通
報錯信息:特殊字段類型不支持Ilegal data type - column 'xxx列名' type 'xxx' is not allowed.
排查路徑:
登錄數(shù)據(jù)源,查詢該表提示哪些字段是特殊的列類型;如BOOLEAN、ARRAY、MAP等
MC語法:DESC 表名;
GUASSDB語法:SELECT pg_get_tabledef('表名');
建議解決方案:
若無需該字段,則在導(dǎo)入時可以選擇關(guān)閉該列
若該列一定需要,則可以轉(zhuǎn)換成文本類型的字段列進(jìn)行存儲
自查+協(xié)助排查
報錯信息:SQL解析異常Parse exception - invalid token 'FROM'
潛在原因:
出現(xiàn)了sql語法解析錯誤
排查路徑:
請在【Quick Audience-配置管理-數(shù)據(jù)導(dǎo)入-表結(jié)構(gòu)配置】界面中,查看表結(jié)構(gòu)配置中的原始列表是否存在特殊符號的列表,如 /、-等符號
建議解決方案:
請前往數(shù)據(jù)源,修改列名為符合數(shù)據(jù)庫規(guī)范的列名(如:字母開頭,只包含字母數(shù)字_)
如非上述問題,請聯(lián)系值班Quick Audience同學(xué)協(xié)助排查。
報錯信息:①xxx表不存在 ②xxx表已存在
潛在原因:
表創(chuàng)建失敗或已經(jīng)存在
排查路徑:
ADB:
登錄ADB,查詢是否有CREATE, DELETE, DROP, INSERT, SELECT, UPDATE,ALTER的操作
登錄ADB管控臺,查詢在調(diào)度過程中,ADB是否在備份快照(在備份快照階段,不允許執(zhí)行DDL語法)
HOLO:
登錄holo數(shù)據(jù)庫,查詢show hg_experimental_force_sync_replay的值是否為off。
建議解決方案:
ADB:
如無權(quán)限,請登錄DMS平臺授權(quán)賬號對應(yīng)權(quán)限
等ADB備份結(jié)束后,再執(zhí)行Quick Audience調(diào)度任務(wù)(備注:如備份時間過長,請及時提ADB工單幫忙處理備份問題)
HOLO:
holo集群默認(rèn)同步時異步,您可以通過在holo控制臺執(zhí)行語句:alter database dbname set hg_experimental_force_sync_replay = on; 來強制等待meta同步,但是會損耗holo的性能。
執(zhí)行完之后重新開一個holo控制臺通過 SQL 命令:show hg_experimental_force_sync_replay; 來查看是否已生效。
若非上述問題,請聯(lián)系 Quick Audience 的值班同事協(xié)助進(jìn)行排查。
報錯信息:Quick Audience取消SQL請求canceling statement due to user request
潛在原因:
計算源或分析源負(fù)載比較高
數(shù)據(jù)量大長時間執(zhí)行SQL未計算出結(jié)果,Quick Audience主動斷開了連接(同步執(zhí)行超時時間為3小時)。
排查路徑:
登錄計算源后臺查詢是否負(fù)載過高
后臺查詢正在執(zhí)行sql,查詢表中數(shù)據(jù)量是否符合預(yù)期
建議解決方案:
保證資源充足:各個空間任務(wù)不相互影響,可各自采購計算資源。減少相互間的依賴,避免資源搶占,運行緩慢;隨著數(shù)據(jù)量增多和空間增加,需要適當(dāng)查看計算源和分析源資源是否充足。
運行時間錯峰:多個空間使用相同的計算源和分析源資源,各個空間QA的調(diào)度任務(wù)運行時間盡量錯開,避免資源搶占,運行緩慢。如果客戶外部系統(tǒng)使用該計算源和分析源,也需錯開使用時間。
若非上述問題,請聯(lián)系Quick Audience值班同學(xué)協(xié)助排查。
報錯信息:調(diào)度任務(wù)執(zhí)行超時
潛在原因:
計算源或分析源負(fù)載比較高
數(shù)據(jù)量大長時間執(zhí)行SQL未計算出結(jié)果(調(diào)度任務(wù)超時時間為6小時)。
排查路徑:
登錄計算源后臺查詢是否負(fù)載過高
后臺查詢正在執(zhí)行sql,查詢表中數(shù)據(jù)量是否符合預(yù)期
建議解決方案:
保證資源充足:各個空間任務(wù)不相互影響,可各自采購計算資源。減少相互間的依賴,避免資源搶占,運行緩慢;隨著數(shù)據(jù)量增多和空間增加,需要適當(dāng)查看計算源和分析源資源是否充足。
運行時間錯峰:多個空間使用相同的計算源和分析源資源,各個空間QA的調(diào)度任務(wù)運行時間盡量錯開,避免資源搶占,運行緩慢。如果客戶外部系統(tǒng)使用該計算源和分析源,也需錯開使用時間。
若非上述問題,請聯(lián)系Quick Audience值班同學(xué)協(xié)助排查。
任務(wù)運行緩慢解決辦法
保證資源充足:各個空間任務(wù)不相互影響,可各自采購計算資源。減少相互間的依賴,避免資源搶占,運行緩慢;隨著數(shù)據(jù)量增多和空間增加,需要適當(dāng)查看計算源和分析源資源是否充足。
運行時間錯峰:多個空間使用相同的計算源和分析源資源,各個空間QA的調(diào)度任務(wù)運行時間盡量錯開,避免資源搶占,運行緩慢。如果客戶外部系統(tǒng)使用該計算源和分析源,也需錯開使用時間。
批量調(diào)度,多表導(dǎo)入:可以在調(diào)度任務(wù)中,選擇表選擇多張表配置一個調(diào)度任務(wù),減少idmaping次數(shù)和。加快多張表導(dǎo)入
QA調(diào)度任務(wù)監(jiān)控配置
如果您需要及時了解調(diào)度任務(wù)狀態(tài),可在【Quick Audience-配置管理-高級設(shè)置-監(jiān)控告警】模塊,配置釘釘監(jiān)控告警,該配置可監(jiān)控任務(wù)超時和失敗原因(如預(yù)期時間內(nèi)未完成任務(wù)告警,需創(chuàng)建釘釘告警群,并配置webhook機器人)。