日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

文檔

故障演練

更新時(shí)間:
一鍵部署

對(duì)于很多大型企業(yè)(如阿里巴巴)來說,經(jīng)過多年的技術(shù)演進(jìn),系統(tǒng)工具和架構(gòu)已經(jīng)高度垂直化,服務(wù)器規(guī)模也達(dá)到了比較大的體量。當(dāng)服務(wù)規(guī)模大于一定量(如10000臺(tái))時(shí),小概率的硬件故障每天都會(huì)發(fā)生。這時(shí)如果需要人的干預(yù),系統(tǒng)就無法可靠的伸縮。

為此每一層的系統(tǒng)都會(huì)面向失敗做設(shè)計(jì),對(duì)下游組件零信任,確保在故障發(fā)生時(shí)可以快速的發(fā)現(xiàn)和處理。但這些措施在故障發(fā)生時(shí)的有效性、故障恢復(fù)工具的真實(shí)容災(zāi)能力、處理問題人員的熟練度,溝通機(jī)制、容災(zāi)措施對(duì)上層的影響等問題,平時(shí)并沒有太多的機(jī)會(huì)驗(yàn)證,往往都是在真實(shí)故障中暴露。

故障演練就是這個(gè)背景下誕生的,沉淀通用的故障場(chǎng)景,以可控成本在線上故障重放,以持續(xù)性的演練和回歸方式的運(yùn)營(yíng)來暴露問題,不斷驗(yàn)證和推動(dòng)系統(tǒng)、工具、流程、人員能力的提升,從而提前發(fā)現(xiàn)并修復(fù)可避免的重大問題,或通過驗(yàn)證故障發(fā)現(xiàn)手段、故障修復(fù)能力來達(dá)到縮短故障修復(fù)時(shí)長(zhǎng)的作用。

故障演練驗(yàn)證,是指基于混沌工程的故障演練實(shí)現(xiàn)對(duì)業(yè)務(wù)系統(tǒng)的驗(yàn)證。演練可以分為有損演練和無損演練,一般通過低頻的有損演練發(fā)現(xiàn)業(yè)務(wù)架構(gòu)問題、驗(yàn)證業(yè)務(wù)容災(zāi)能力,通過高頻的無損演練實(shí)現(xiàn)對(duì)業(yè)務(wù)的監(jiān)控發(fā)現(xiàn)/報(bào)警響應(yīng)、組織應(yīng)急等能力進(jìn)行驗(yàn)證。

演練方案設(shè)計(jì)理論基礎(chǔ)

技術(shù)型故障分析歸納,大致可以按照IaaS、PaaS、SaaS的層次進(jìn)行歸類。

image.png

上面的分類是一個(gè)宏觀視角,不是一個(gè)系統(tǒng)設(shè)計(jì)的視角。所以可以對(duì)故障模型再做一次升級(jí),并得到一些推論:

  • 故障是來自于硬件(如IaaS層),軟件(如PaaS或SaaS)的故障。并且有個(gè)規(guī)律,硬件故障的現(xiàn)象,會(huì)在軟件故障現(xiàn)象上有所體現(xiàn)。

  • 故障隸屬于單機(jī)或是分布式系統(tǒng)之一,分布式故障包含單機(jī)故障。

  • 對(duì)于單機(jī)或同機(jī)型的故障,以系統(tǒng)為視角,故障可能是當(dāng)前進(jìn)程內(nèi)的故障,比如:如FullGC,CPU飆高; 進(jìn)程外的故障,比如其他進(jìn)程突然搶占了內(nèi)存,導(dǎo)致當(dāng)前系統(tǒng)異常等。對(duì)于大多數(shù)無損突襲演練的故障模擬,只需要關(guān)注故障對(duì)當(dāng)前系統(tǒng)的影響,而不是真的需要外部產(chǎn)生故障。

  • 此外,還有一類故障,可能是人為失誤,或流程不當(dāng)導(dǎo)致,這部分不做重點(diǎn)討論。

image.png

常見的故障類型都可以映射到這個(gè)故障模型中,模擬故障的演練系統(tǒng)及方案也可以基于該模型進(jìn)行設(shè)計(jì)。在設(shè)計(jì)演練方案的過程中,可以考慮在模型中每個(gè)環(huán)節(jié)進(jìn)行故障注入,驗(yàn)證故障應(yīng)急方案。

不同演練類型和目標(biāo)

根據(jù)演練過程對(duì)線上業(yè)務(wù)的影響,演練可分為有損演練和無損演練。由于對(duì)業(yè)務(wù)的影響不同,兩種演練可以進(jìn)行的演練頻次、可實(shí)現(xiàn)的業(yè)務(wù)驗(yàn)證目標(biāo)都有不同。

有損演練是指直接在線上真實(shí)業(yè)務(wù)環(huán)境注入異常進(jìn)行演練,演練模擬的真實(shí)有效性高,為了平衡業(yè)務(wù)影響一般會(huì)選擇最核心場(chǎng)景、在業(yè)務(wù)最低峰期做演練,而且演練頻次相對(duì)較小,例如為了驗(yàn)證多活容災(zāi)能力的機(jī)房斷網(wǎng)演練,一般是一個(gè)月一次的演練頻次;無損演練是指在一套無線上真實(shí)業(yè)務(wù)流量的隔離環(huán)境做演練,配合壓測(cè)模擬流量注入異常進(jìn)行演練,由于業(yè)務(wù)無損,可以支持較高頻次的演練,比如為了類比/形變復(fù)現(xiàn)線上類似故障、驗(yàn)收故障復(fù)盤的改進(jìn)action、演練監(jiān)控感知能力/報(bào)警響應(yīng)能力等,可以組織對(duì)不同業(yè)務(wù)團(tuán)隊(duì)輪流參與的每周1次的高頻演練。

演練類型

演練方案優(yōu)缺點(diǎn)

演練環(huán)境

演練頻次

主要演練目標(biāo)

有損演練

  • 優(yōu)點(diǎn):真實(shí)有效性高

  • 缺點(diǎn):線上業(yè)務(wù)有損

線上真實(shí)業(yè)務(wù)環(huán)境

1-2月一次

  • 容災(zāi)多活機(jī)房斷網(wǎng)驗(yàn)證演練

  • 重要架構(gòu)/業(yè)務(wù)問題模擬驗(yàn)證

  • 全鏈路生產(chǎn)突襲模擬演練

無損演練

  • 優(yōu)點(diǎn):線上業(yè)務(wù)無損

  • 缺點(diǎn):逼真度有限

全鏈路灰度環(huán)境/新建業(yè)務(wù)環(huán)境

每周1-2次

  • 監(jiān)控感知能力/報(bào)警應(yīng)急響應(yīng)

  • 類似故障復(fù)現(xiàn)/改進(jìn)action驗(yàn)收

  • 應(yīng)急組織流程、止損預(yù)案驗(yàn)證

故障演練實(shí)踐參考

阿里巴巴集團(tuán)借助混沌工程實(shí)現(xiàn)了無損演練和有損演練的常態(tài)化執(zhí)行,縮短建設(shè)大規(guī)模演練實(shí)施的進(jìn)程、加速演練執(zhí)行效率,讓業(yè)務(wù)更聚焦在架構(gòu)/流程風(fēng)險(xiǎn)識(shí)別與系統(tǒng)優(yōu)化/容災(zāi)能力建設(shè)上,保障混沌工程實(shí)驗(yàn)投入產(chǎn)出比最大化。

image.png

生產(chǎn)環(huán)境做三大類場(chǎng)景的低頻演練:

  • 機(jī)房斷網(wǎng)演練,通過對(duì)業(yè)務(wù)資源的IP級(jí)別編排,實(shí)現(xiàn)先單個(gè)業(yè)務(wù)斷網(wǎng)演練驗(yàn)證,再逐步擴(kuò)大業(yè)務(wù)范圍、直至所有業(yè)務(wù)的機(jī)房斷網(wǎng)演練,保證線上多活容災(zāi)能力的持續(xù)有效性,避免因業(yè)務(wù)迭代、基礎(chǔ)設(shè)施/中間件變化導(dǎo)致的多活容災(zāi)能力失效問題;

  • 全民掃雷收集發(fā)現(xiàn)的線上重大架構(gòu)/業(yè)務(wù)問題的模擬驗(yàn)證以及修復(fù)后的驗(yàn)收;

  • 一年左右一次的生產(chǎn)突襲演練,一般由CTO操作注入,驗(yàn)證從監(jiān)控感知發(fā)現(xiàn)->報(bào)警快速響應(yīng)->高效組織應(yīng)急->定位排查止損的全鏈路故障處理流程。

仿真環(huán)境(常態(tài)引流1%線上流量的全鏈路灰度環(huán)境,或者新業(yè)務(wù)建設(shè)環(huán)境)做高頻的模擬演練:

  • 各業(yè)務(wù)自身監(jiān)控感知能力/報(bào)警響應(yīng)速度的演練驗(yàn)證;

  • 各業(yè)務(wù)的歷史故障形變/抽象的場(chǎng)景,在本業(yè)務(wù)和其它業(yè)務(wù)做回放演練驗(yàn)證,以及歷史故障重要改進(jìn)措施的演練驗(yàn)收;

  • 各業(yè)務(wù)組織應(yīng)急協(xié)同能力以及各類預(yù)案有效性演練驗(yàn)證。