開發人員根據需求將代碼發布上線后,還需要及時處理數據、程序、調度、監控告警等的異常事件,保障數據產出時效、程序高效運行和生產穩定性。

背景信息

數據開發人員主要需要處理以下事項:
  • 程序異常處理、性能優化。
  • 調度異常處理。
  • 數據質量監控規則異常分析、規則優化。
  • 數據異常的核查。
運維階段的流程包括分析影響、制定與實施方案和驗證實施方案。流程

操作步驟

  1. 分析影響。
    運維人員或開發人員通過監控規則捕獲、自主發現或其它方法獲取關于數據產出時效性、數據準確性等指標的異常情況,并進行影響分析。異常情況包括但不限于:
    • 任務運行失敗。
    • 任務運行時間過長。
    • 產出表中出現臟數據。
    開發人員根據影響分析的結果判斷是否對線上的數據應用有影響。
    • 如果有影響,需要開發人員及時推送告警信息至任務責任人,并判斷原因、確定可行性解決方案。
    • 如果無影響,則無需處理。
  2. 制定與實施方案。
    1. 開發人員提交線上變更申請。
    2. 審批人員(建議安排為對業務邏輯、代碼較為熟悉的人員)審批允許發布變更。
    3. 運維人員按照步驟實施發布,完成后通知數據開發人員進行驗證。如果驗證失敗,則運維人員按照修改腳本的回滾方法進行回滾,并反饋結果至開發人員。
  3. 驗證實施方案。
    開發人員在收到運維人員實施成功的通知后,開始驗證變更結果是否符合預期。
    • 如果符合預期,則開發人員需要將此次變更的原因、內容及生效時間通知直接下游及關聯方的人員。
    • 如果未符合預期,則開發人員需要反饋給運維人員執行回滾。