日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

故障復(fù)盤

更新時間:

故障復(fù)盤規(guī)范

故障復(fù)盤作為故障體系中的重要一環(huán),整體復(fù)盤流程包括故障處理過程、改進分析、故障定責(zé),基于包含標(biāo)準(zhǔn)化的復(fù)盤SOP、對應(yīng)預(yù)防action推薦、問責(zé)管理機制,全面地回溯線上故障的發(fā)生,產(chǎn)出故障復(fù)盤報告和改進措施,避免故障重復(fù)發(fā)生。

復(fù)盤遵循以下標(biāo)準(zhǔn)流程:

  • 過程回溯:可使用5-why方法提出多個問題對處理過程進行深挖。如本次故障為什么會發(fā)生?為什么沒有提前發(fā)現(xiàn)?過程中各個團隊是如何處理的?處理過程是否有可以優(yōu)化的空間?

  • 問題剖析:回溯完成過程之后,需要深層次剖析:是否流程機制層面問題?是否質(zhì)量檢驗層面問題?是否產(chǎn)品業(yè)務(wù)層面問題?是否系統(tǒng)設(shè)計層面問題?有沒有更好的防御機制?如何避免再次發(fā)生?

  • 經(jīng)驗總結(jié):剖析出來深層次原因之后,需要切實給出可落地的Action,包括給出短期治標(biāo)Action,長期治本Action,以及沉淀經(jīng)驗和教訓(xùn)。

  • 定級定責(zé):完成原因和改進方案后,針對本次故障做最終的等級認(rèn)可和故障責(zé)任劃分。責(zé)任團隊分為主要責(zé)任團隊和次要責(zé)任團隊,以及測試責(zé)任團隊。

  • 改進追蹤:當(dāng)完成復(fù)盤后,如無法有效的落地執(zhí)行改進,將導(dǎo)致復(fù)盤的成果白費。所以在故障復(fù)盤中就需要明確改進方案并限定完成時間。

    • 制定的action需要符合 SMART 原則,即:

      • Specific:即改進項。需要改進、優(yōu)化的單項、指標(biāo)是什么?

      • Measurable:即驗收標(biāo)準(zhǔn)。指定改驗收標(biāo)準(zhǔn)是什么?

      • Attainable:即改進項是否可以達到。避免出現(xiàn)一些假大空、無法落地的改進;

      • Relevant:即要與其他改進具有一定的相關(guān)性。即盡可能避免出現(xiàn)孤立的改進;

      • Time-bound:即預(yù)期解決時間。這個時間建議最長不要超過三個月,避免改進流于形式;

    • 一個完整的action建議記錄以下內(nèi)容:標(biāo)題、計劃完成時間、負(fù)責(zé)人(及其團隊或協(xié)助處理人)、驗收方式及驗收人、跟蹤人、改進措施的類別、具體改進內(nèi)容描述及驗收標(biāo)準(zhǔn)。在改進項完成后可有選擇地進行驗收,如評審驗收、演練驗收等。驗收完成后由驗收負(fù)責(zé)人完結(jié)此改進action的整體工作。

復(fù)盤文檔一般包含以下內(nèi)容:

  • 故障簡述:故障概述、影響面、處理人等

  • 故障背景:故障發(fā)生時的業(yè)務(wù)鏈路

  • 故障時間線:著重強調(diào)故障引入、故障發(fā)生、故障發(fā)現(xiàn)、業(yè)務(wù)響應(yīng)、恢復(fù)執(zhí)行、故障恢復(fù)幾個時間點

  • 故障原因分析:建議先一句話總結(jié),再進行具體原因剖析

  • 故障過程分析:可從需求評估、代碼發(fā)布、故障應(yīng)急等環(huán)節(jié)進行分析

  • 后續(xù)改進:后續(xù)改進措施,明確改進方和責(zé)任人

  • 故障等級/責(zé)任:參考上述故障等級定義,定義本次故障等級,并明確責(zé)任團隊和責(zé)任人。

故障數(shù)據(jù)運營

基于基礎(chǔ)故障數(shù)據(jù),通過不同維度和形式,以線上和線下結(jié)合的方式,在報表平臺、安全生產(chǎn)報告、安全生產(chǎn)會議等不同場合進行故障數(shù)據(jù)的披露和運營。目的是利用歷史故障數(shù)據(jù),度量穩(wěn)定性現(xiàn)狀和能力。故障數(shù)據(jù)運營的核心是通過故障分量化計算考核,實現(xiàn)整體故障收斂。

故障分整體目標(biāo)

安全生產(chǎn)故障分目標(biāo),經(jīng)過與各業(yè)務(wù)團隊溝通采用自上而下拆解方式進行設(shè)定。比如本財年故障分同比上財年收斂20%-30%。安全生產(chǎn)故障分更深層次拆解由各業(yè)務(wù)團隊內(nèi)部根據(jù)實際情況設(shè)定。

故障分計算方案

在設(shè)計故障分的計算規(guī)則時,建議考慮以下維度數(shù)據(jù)指標(biāo):

故障時長

故障時長=故障恢復(fù)時間-故障發(fā)生時間

故障發(fā)生時間

最接近故障等級定義激活(P4起)的時間點。按照如下順序:

  1. 針對業(yè)務(wù)監(jiān)控:取首次達到故障等級(P4起)的時間為準(zhǔn);

  2. 針對用戶上報:取業(yè)務(wù)開始受影響的時間點;

  3. 若無法評估受影響的時間點則取首次用戶上報的時間。

故障恢復(fù)時間

故障止血(即:不再發(fā)生新增業(yè)務(wù)/用戶影響)的時間點(客戶端以測試通過且可實際修復(fù)問題版本提交APP審核為恢復(fù)時間);

如果有業(yè)務(wù)監(jiān)控以監(jiān)控恢復(fù)至正常基線為準(zhǔn),否則以止血時間為準(zhǔn)。

注:故障時長及是否降級/減免如有爭議,以安全生產(chǎn)值班長判定為準(zhǔn)。

收斂比

一般指本財年與上財年對比結(jié)果,體現(xiàn)與自身同期收斂效果,為負(fù)數(shù)代表收斂,負(fù)值越大說明收斂效果越好,為正數(shù)代表發(fā)散,正值越大說明發(fā)散越嚴(yán)重,具體計算方法為:

收斂比=(本財年某時段-上財年同時段)/上財年同時段

消耗比

一般指本財年實際消耗故障分,占故障分目標(biāo)的比例,體現(xiàn)與設(shè)定收斂目標(biāo)的差距,提示達到收斂目標(biāo)的剩余消耗空間,數(shù)值越小越好。

消耗比= 本財年累計消耗故障分/財年故障分目標(biāo)

制定故障分建議考慮以下原則:

  • 拉齊橫向標(biāo)準(zhǔn):在企業(yè)上層拉齊標(biāo)準(zhǔn),降低各個子部門和業(yè)務(wù)團隊的理解成本。

  • 減少重大故障影響:針對特大故障,設(shè)置較大的系數(shù)倍數(shù),以凸顯特大故障對故障分的影響。

  • 鼓勵快速恢復(fù):針對不同P等級故障,差異化設(shè)置系數(shù),以體現(xiàn)恢復(fù)時長要求。比如同時針對P1P2級重大故障,設(shè)置了“5分鐘內(nèi)恢復(fù)降一級,10分鐘內(nèi)恢復(fù)故障分計80%”的通用標(biāo)準(zhǔn)。

  • 細(xì)化責(zé)任拆解:設(shè)置主次責(zé)團隊的故障分拆解邏輯,比如主次責(zé)團隊默認(rèn)按7:3比例拆分故障分。

  • 故障分統(tǒng)計默認(rèn)排除:容災(zāi)演練&全鏈路壓測符合預(yù)期故障、特定打標(biāo)過不參與故障統(tǒng)計的業(yè)務(wù)等。