故障基礎(chǔ)數(shù)據(jù)管理
故障場景等級(jí)定義
日常運(yùn)營中,除用戶方環(huán)境或自身操作引起的問題外,無論什么原因?qū)е碌姆?wù)中斷、服務(wù)品質(zhì)下降或用戶服務(wù)體驗(yàn)下降的現(xiàn)象,都稱為故障。對(duì)故障影響程度的劃分就是故障等級(jí)定義。
定義故障等級(jí)是為了指定故障等級(jí)定義作為各業(yè)務(wù)的安全生產(chǎn)法則,推進(jìn)各業(yè)務(wù)穩(wěn)定性提升。如評(píng)判各業(yè)務(wù)團(tuán)隊(duì)的故障發(fā)現(xiàn)能力的標(biāo)準(zhǔn)就是故障等級(jí)定義的監(jiān)控發(fā)現(xiàn)率等。在定義故障等級(jí)的時(shí)候,需要從功能等級(jí)、業(yè)務(wù)體量、業(yè)務(wù)特性、量化影響4個(gè)維度進(jìn)行設(shè)計(jì),一個(gè)簡要的通用故障等級(jí)定義參考模板如下:
業(yè)務(wù)量級(jí) | 功能分類 | 影響面 | P1 | P2 | P3 | P4 |
大體量 | 核心功能 | 成功率下跌30%及以上 | P1 | |||
成功率下跌20%~30% | P2 | |||||
成功率下跌20%以下 | P3 | |||||
非核心功能 | 成功率下跌30%及以上 | P2 | ||||
成功率下跌20%~30% | P3 | |||||
成功率下跌20%以下 | P4 | |||||
小體量 | 核心功能 | 10分鐘內(nèi)總體成功率下跌45%及以上 | P1 | |||
10分鐘內(nèi)總體成功率下跌30%~45% | P2 | |||||
10分鐘內(nèi)總體成功率下跌30%以下 | P3 | |||||
非核心功能 | 10分鐘內(nèi)總體成功率下跌45%及以上 | P2 | ||||
10分鐘內(nèi)總體成功率下跌30%~45% | P3 | |||||
10分鐘內(nèi)總體成功率下跌30%以下 | P4 |
故障場景監(jiān)控覆蓋
基于故障等級(jí)定義場景,配置對(duì)應(yīng)的監(jiān)控項(xiàng)接入7*24監(jiān)控值班,同時(shí)對(duì)接入的監(jiān)控?cái)?shù)據(jù)額外提供基于算法的智能告警,或者接入研發(fā)可自閉環(huán)的風(fēng)險(xiǎn)預(yù)警,保障業(yè)務(wù)故障的監(jiān)控發(fā)現(xiàn)率,減少故障持續(xù)時(shí)間,降低故障影響。
為保障故障發(fā)現(xiàn)率,故障場景監(jiān)控覆蓋率建議維持在95%以上。
服務(wù)組&值班表管理
將故障應(yīng)急的相關(guān)人員群體,通過前置到故障場景的干系人做綁定配置,同時(shí)支持服務(wù)組和值班表,實(shí)現(xiàn)故障啟動(dòng)后自動(dòng)快速通知負(fù)責(zé)人上線處理的效果。
在設(shè)計(jì)相應(yīng)的管理方案時(shí),需要考慮以下內(nèi)容:
服務(wù)組:提供服務(wù)的人員群體,服務(wù)包括故障處理,工單處理等
值班表:可以對(duì)服務(wù)組成員進(jìn)行排班,讓故障應(yīng)急工作更有計(jì)劃性、不易遺漏
升級(jí)組:服務(wù)組的一種,通過服務(wù)組和升級(jí)組,可表達(dá)組與組之間的升級(jí)路徑
服務(wù)組與故障業(yè)務(wù)線的關(guān)系:一個(gè)服務(wù)組對(duì)應(yīng)故障中一個(gè)角色,但可以服務(wù)多條故障業(yè)務(wù)線
服務(wù)組與工單問題分類的關(guān)系:一個(gè)服務(wù)組可以服務(wù)工單多個(gè)問題分類
服務(wù)組與組織架構(gòu)的關(guān)系:一個(gè)服務(wù)組可以服務(wù)多個(gè)組織架構(gòu),一個(gè)組織架構(gòu)可以拆分為多個(gè)服務(wù)組
故障訂閱管理
故障通告訂閱是用來維護(hù)故障通告接收對(duì)象,可根據(jù)不同的條件發(fā)送不同的渠道。故障訂閱可以分為3種類型的對(duì)象:個(gè)人、干系人角色、釘釘群或其他通知渠道。通過合理的配置故障通告和訂閱,能夠確保相關(guān)干系人及時(shí)收到告警。