日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

故障管理

更新時間:

故障管理概述

故障管理是源于ITIL的一個概念,在IT企業或者互聯網企業進行故障管理的目的是當生產環境出現重大宕機時盡快恢復正常的服務運營,將組件失敗對業務所造成的負面影響降到最低,從而確保滿足事先與業務客戶之間所約定的服務級別的目標和服務級別質量。

在IT和互聯網企業的實踐中,以下情況都有可能造成故障:

  • 按計劃進行的硬件、操作系統維護所引起的故障,包括更換硬盤、操作系統補丁。

  • 應用性故障,包括軟件應用性能問題、應用缺陷(bug)、系統應用變更。

  • 人為操作故障:包括誤操作以及不按規定非標準操作引起的故障。

  • 系統軟件故障:包括操作系統死機、數據庫的各類故障。

  • 硬件故障:包括硬盤、網卡損壞。

  • 相關設備故障:包括UPS失效引起的電力中斷。

  • 自然災害,包括洪水、火災、地震。

這里以阿里集團為例。為降低故障的影響,阿里集團故障管理體系從整體體系化治理的角度出發,將影響真實業務的場景定義、發現和應急能力以及后續治理都納入故障管理的范圍。結合阿里集團創新性的“風險預警”,從“隱患”就開始管理,同時覆蓋造成一定影響導致性能下降的普通故障,以及嚴重影響業務的“重大故障”。

此外,考慮到互聯網企業的一些特性,如企業存在大量對快速響應要求極高的場景,內部多運用和實踐DevOps/Agile等快速迭代的開發環境,同時重大故障應急涉及多部門(法務、政務、公關、客服、技術支持)的聯動機制等等,本故障管理體系也結合了以上的互聯網企業特性做了對應的機制優化。

image.png

故障管理的重要性

無論是理論還是實踐,均證明故障只要有發生的可能,它總會發生。根據墨菲定律,假設某意外事件在一次實驗(活動)中發生的概率為p(p>0),則在n次實驗(活動)中至少有一次發生的概率為P=1-(1-p)n。由此可見,當實驗次數n趨向于無窮時,pn會越來越趨于1,即成為必然事件。

為了保障業務穩定性,可以通過故障管理來達到:

  • 提前發現、解決風險來預防問題;

  • 及時發現,快速定位、快速恢復故障達到降低故障的影響面(1-5-10解決方案);

  • 確保改進措施有效落地、避免故障重復發生。

通過建立一個規范可遵循、全流程閉環的故障管理體系,配合技術手段的提升,可以有效降低故障發生的幾率,縮短故障的MTTR,最終使故障造成的破壞性趨近于0。

在日常運營中,無論什么原因導致業務服務中斷、服務品質下降或用戶服務體驗下降的現象,稱為故障,但不包括用戶側環境或用戶自身操作引起的問題。

  • “用戶體驗下降”說明故障的核心要關注用戶感受,可通過客服渠道獲知用戶投訴,也可通過監控渠道推知用戶端的使用情況;

  • “服務中斷、服務品質下降”說明即使用戶沒有投訴(甚至沒有用戶使用),但是如企業提供的服務出了問題,也是故障;

  • “無論什么原因”指無論是企業自身原因,還是第三方如供應商、運營商的原因,只要影響到了用戶,就都是故障。

故障管理

故障管理是單獨針對故障的一整套完成的應急相應流程機制,包括:故障應急、故障收斂、故障追蹤、故障復盤、故障改進等核心功能。通過建立故障應急機制,可保證服務穩定運行、服務體驗保證等。故障管理也可以理解為重大事件的升級。

故障管理應包含以下幾點功能或特性:

  • 故障等級定義:針對不同的業務線,需召集不同的人員進行統一制定。確定得到各方人員的認同。且制定故障等級需遵循以下幾點:

  • 功能重要性

  • 影響產品、服務、應用

  • 影響面(用戶數、損失數、輿情等)

  • 故障應急:支持故障全局應急通告,電話、短信、郵件、IM多種通知渠道,確保故障關鍵進展及時通知至相關人員,加快信息流轉;

  • 故障收斂:支持按時間/次數進行告警收斂,將告警收斂到一個故障中統一處理;

  • 故障追蹤:支持對故障的最新進展、故障影響面(影響服務)、輿情反饋、Timeline時間線進行在線化管理、協同,基于統一視角協同處理故障,提升故障處理效率;

  • 故障復盤:基于最佳實踐經驗,沉淀了對故障進行深度復盤的結構化要求,形成了線上檢查點,以產品的方式承載流程落地。包括根因檢查點(如故障原因、最近活動、注入方式、恢復方式等)、故障變更檢查、監控檢查,并需要對每一個故障明確責任人及團隊;

  • 故障改進:支持對故障制定明確的改進及驗收措施、責任人及完成時間,確保每個深度復盤后的故障都能對業務連續性形成改進,避免歷史同類故障重復發生。

最佳實踐

運維事件中心是阿里云提供的云上故障管理服務。制定故障應急響應流程機制??梢幏痘髽I流程機制,建立完整的體系幫助企業穩定發展。

阿里集團相關團隊在多年的故障管理經驗上,開發了一套功能非常豐富,方便故障管理的各項工作數字化推動的故障管理平臺。故障管理的方方面面都可以在運維事件中心上配置和管理。

故障等級定義的制定和錄入

標準化故障等級定義制定的思路:

  1. 依據業務屬性先將業務劃分為大的子類(業務整體技術架構層面)

  2. 將每個子類業務里的核心模塊和次核心、非核心模塊區分開來(功能層面)

  3. 根據各功能模塊的業務量級去適配不同的影響面及故障等級定義模板

其中根據業務量級適配不同的影響面及其對應的故障等級定義模板是這個思路的重點。下面舉例解釋(僅作為參考,各業務可以根據自身實際情況酌情使用部分推薦值):

對于核心功能:

  • 大體量的情況下(例如:高峰期分鐘級超過1000TPS,日均100W以上),建議分鐘級成功量下跌30%及以上定義為P1

  • 中體量的情況下(例如:高峰期分鐘級100-1000TPS,日均10-100W),建議10分鐘內總體成功量下跌45%及以上定義為P1

  • 小體量的情況下(例如高峰期分鐘級10-100TPS,日均1-10W), 15/30分鐘內總體成功量下跌45%及以上定義為P1

  • 更小體量的業務(日均小于1W TPS),可使用60分鐘內總體成功量下跌45%及以上定義為P2

說明

業務功能模塊最好從用戶視角出發,或者外部調用可感知到的視角出發,如用戶使用的業務量級下跌或者外部調用成功量下跌。

在最高故障等級P1確定的情況下,我們依次降低影響面, 形成P2-P4的標準 (大體量業務的主路徑失敗可以考慮P3起, 不設置P4級別故障), 如30%-20%, 45%-30%等影響面對應剩余等級。

對于次核心功能(如營銷類,注冊類等業務),可以在核心功能的基礎上統一降低一個級別;

對于非核心功能(如查詢類,后臺使用等業務),可以在核心功能的基礎上統一降低兩個級別;

由此生成一個故障等級定義的模板可以如下所示(實際使用中可適當精簡,避免過于冗余)

image.png

故障等級定義制定好以后,需要得到技術負責人的審批,以及后續面向技術團隊和上下游團隊的公示。必要時需要進行宣講。

在運維事件中心可以錄入對應的故障等級,在相關聯的監控觸發后,可以自動匹配到對應的等級定義,方便快速得到故障嚴重性的界定。

服務組和故障應急群

服務組是一組人員,可以跟一個或者多個故障場景綁定,當故障觸發時,會自動外呼對應的服務組值班成員以及加服務組成員到故障應急群。同時服務組也支持排班。簡而言之服務組就是在故障平臺的一組值班人員。

故障應急群是在故障通告后自動創建的故障處理群,除了自動加入的處理成員,其他相關人員也可以主動加入,進行故障的排查。 故障應急群同時具備簽到響應、輔助排查、作戰手冊等故障處理相關功能。

故障記錄

在故障進行中進行故障相關的關鍵時間點、關鍵操作等相關內容進行記錄。

故障復盤與改進措施

故障復盤信息同步,在故障結束后,對故障原因責任人等進行定位與定責。

對故障進行復盤后,需針對此次故障件進行針對性的改進,避免后續再次發生此類故障。