云原生可觀測服務內容說明
1. 服務概述
1.1 服務說明
云原生可觀測服務是在客戶系統上云、用云過程中,提供以阿里云產品體系為主,開源生態組件為輔的統一可觀測方案設計、驗證與落地的專家服務。該服務基于客戶現實情況,以及可觀測治理目標,為客戶提供統一可觀測平臺設計與落地、業務指標梳理與提取、應用及基礎設施指標梳理及提取、決策支撐大盤設計與繪制、告警梳理與落地的技術服務。
云原生可觀測服務包含 3 個版本,客戶可以結合自身業務需求進行購買,注意,任何未在本SOW中定義的工作內容或方案均不包含在本項目的交付范圍中。
云原生可觀測服務 (必選,基礎版與標準版 2 選 1;實施支持版按需購買)
基礎版
基礎咨詢服務:基于客戶現狀及治理訴求進行方案設計與落地,整體設計與落地基于阿里云 Arms、Prometheus、Grafana、SLS的原生能力。基礎版覆蓋基礎設施以及應用,不包含業務層可觀測能力以及任何需要定制開發的工作。
包含基于以上方案的技術驗證工作,確保設定的技術方案具備落地能力。
包含上述方案的實施工作,整體方案可落地,且符合客戶預期。
標準版
標準咨詢服務:基于客戶現狀及治理訴求進行方案設計與落地,整體設計與落地基于阿里云 Arms、Prometheus、Grafana、SLS的原生能力。標準版覆蓋基礎設施、應用以及業務可觀測。適用于對在業務可觀測訴求比較強的客戶。
包含基于以上方案的技術驗證工作,確保設定的技術方案具備落地能力。
包含上述方案的實施工作,整體方案可落地,且符合客戶預期。
實施支持版
如果客戶需要阿里云團隊提供基礎版或標準版 SoW 以外的可觀測能力建設,或基于可觀測能力建設結果的衍生能力建設,包括但不限于:CI/CD Pipeline 觀測能力建設、彈性架構改造、容量規劃等,可購買實施支持版服務,根據項目實際工作量來評估需要購買服務包的數量。
本服務包以遠程服務為主,可結合項目需求與客戶實際情況進行調整。
如客戶有額外的集成需求,或項目范圍大于標準版,結合實際情況進行溝通。
2. 服務范圍
以下服務范圍按照3個版本分類,分別是云原生可觀測服務基礎版,云原生可觀測服務標準版,云原生可觀測服務_實施支持版,不同版本類型服務范圍如下。
2.1 云原生可觀測服務基礎版服務范圍
云原生可觀測服務基礎版內容如下:
可觀測現狀調研與目標評估
通過遠程信息收集及現場溝通的方式,對客戶的業務現狀及應用系統進行全面調研,了解客戶對于業務及應用的長期規劃。
調研客戶現行監控告警架構、業務目標調研、技術架構調研、運維體系調研、監控目標指定、應用彈性現狀調研。
可觀測方案設計
基于調研與評估的結果,為客戶設計可觀測方案,包含:
基于阿里云 ARMS、Prometheus、Grafana 產品能力囊括指標、鏈路追蹤數據的采集、存儲和分析使用的統一可觀測性平臺設計。
針對ACK 部署架構應用以及 ECS 部署架構應用,指標、鏈路追蹤數據的接入方案設計。
應用指標設計:根據應用情況,設計應用指標,用于反應應用健康度,并暴露應用運行時信息,包括但不限于PV/UV/QPS,應用健康度、應用接口健康情況、JVM 運行情況、慢 sql 、異常等指標。并設計相對應的指標數據聚合方案等。1、 覆蓋應用需滿足 ARMS手動安裝探針,使用組件需滿足ARMS應用監控支持的Java組件和框架。
基礎設施指標設計:根據基礎設施使用情況,設計基礎設施指標,用于反應基礎設施的健康程度。包括但不限于ACK 各層指標,ECS 等云產品指標。并設計相應的指標聚合方案。
大盤展示方案設計:根據具體的可視化展示需求,以及上述定義的指標數據,設計從決策層到實施層,不同維度的大盤展示方案,用于支撐決策并提速問題排查。
告警方案設計:依據業務情況,針對核心指標進行告警方案設計,并通過系列手段,提高告警信噪比。
方案不包含如下內容:
基礎設施及應用指標、日志、鏈路追蹤數據采集方案均只基于阿里云 Arms、SLS 原生能力,如 Arms、SLS 等云產品不支持,則不在本期交付范圍內,例如對 Ruby、PHP 等非 Arms 能支持的應用指標采集,或 Arms 所不支持的Java、組件版本指標采集等,均不在本次交付范圍內。
如有全球應用觀測需求,涉及到合規問題,需要客戶側提供專業合規支持,數據傳輸報備等合規相關工作內容不在本項目范圍內。
由于全鏈路觀測業務相關性極強,定制化程度高,且設計、實施成本不可預測,本項目不承諾進行全鏈路觀測設計和實施,鏈路追蹤能力基于 Arms產品提供的原生能力來建設。
大數據應用可觀測不在本項目范圍內。
日志數據的采集、存儲、分析和使用不在本項目范圍內。
業務指標以及需要通過自實現采集器進行獲取的指標的采集、存儲、聚合規則等設計內容不在本項目范圍內。
一切其他不在本 SoW 描述服務范圍內的工作均不在本服務包交付范圍中。
技術驗證
對確認的方案進行技術驗證,滿足可落地性的需求。
對技術驗證的結果進行記錄。
方案實施工作:
可觀測架構配置與落地
基于可觀測性方案設計,進行統一可觀測架構所需資源的拉起和配置工作。
指標、鏈路追蹤數據接入支持工作,(具體操作由客戶側團隊執行):1、 進行非生產環境的數據接入支持工作,并和客戶一起產出接入操作手冊。2、 進行生產環境的數據接入支持工作。
基于方案設計,進行指標的聚合規則編寫。
大盤配置工作,基于方案設計,基于非生產環境數據,進行可視化大盤配置工作,并在生產環境數據接入后,完成非生產數據源到生產數據源的切換。
告警配置,報警規則配置和報警渠道對接。
實施不包含:
實施服務僅覆蓋1-2 個典型架構應用,旨在快速看到可觀測落地效果,并在實施過程中完成知識傳遞,本服務不承諾完成所有客戶應用的實施。如有額外數量的應用可觀測性實施接入需求,需額外購買實施支持版以彌補工作量。
實施工作僅針對符合阿里云云原生觀測能力的應用,比如 Java 應用且組件版本受 Arms 支持,如有需要使用開源組件支撐的應用,比如 PHP 應用等,需要實施支持版或通過標準版進行覆蓋。
一切客戶生產環境的操作不在實施范圍內,包括但不限于生產環境的agent 安裝、配置等。
客戶應用以及三方產品的開發、改造和配置等工作不在實施范圍內。
本項目實施均基于阿里云產品以及開源工具原生采集指標。涉及到自定義指標采集器設計和實現等工作不在本項目范圍內。不在范圍內的內容包括但不限于從數據庫、日志等原始數據中提取,通過代碼實現自定義指標采集器進行編寫和設計。
由甲方原因導致的進度不符合預期,乙方不承擔延期責任。
乙方按照項目需要通過現場或遠程方式進行詳細調研以及咨詢方案設計,并產出最終結果。
乙方不負責提供除阿里云官方文檔、項目交付范圍內文檔之外的任何技術文檔。
乙方不負責甲方業務系統規劃、架構設計、上云改造、應用過程中的任何實施與維護責任。
乙方不負責非阿里云平臺以外(第三方軟件、應用系統)問題處理、技術的支持和答疑工作。
2.2 云原生可觀測服務標準版服務范圍
云原生可觀測服務基礎版內容如下:
可觀測現狀調研與目標評估
通過遠程信息收集及現場溝通的方式,對客戶的業務現狀及應用系統進行全面調研,了解客戶對于業務及應用的長期規劃。
調研客戶現行監控告警架構、業務目標調研、技術架構調研、運維體系調研、監控目標指定、應用彈性現狀調研。
可觀測方案設計
基于調研與評估的結果,為客戶設計可觀測方案,包含:
基于阿里云 ARMS、Prometheus、Grafana 以及 SLS產品能力輔以OpenTelemetry 開源組件能力,囊括指標、鏈路追蹤數據、日志數據的采集、存儲和分析使用的統一可觀測性平臺設計。
針對ACK 部署架構應用以及 ECS 部署架構應用,指標、鏈路追蹤以及日志數據的接入方案設計。
業務指標設計:根據業務需求和現狀,設計1-2個核心業務指標,并依據業務指標數據來源,設計相對應的日志改造方案、指標聚合方案等。
應用指標設計:根據應用情況,設計應用指標,用于反應應用健康度,并暴露應用運行時信息,包括但不限于PV/UV/QPS,應用健康度、應用接口健康情況、JVM 運行情況、慢 sql 、異常等指標。并設計相對應的指標數據聚合方案等。
基礎設施指標設計:根據基礎設施使用情況,設計基礎設施指標,用于反應基礎設施的健康程度。包括但不限于ACK 各層指標,ECS 等云產品指標。并設計相應的指標聚合方案。
大盤展示方案設計:根據具體的可視化展示需求,以及上述定義的指標數據,設計從決策層到實施層,不同維度的大盤展示方案,用于支撐決策并提速問題排查。
告警方案設計:依據業務情況,針對核心指標進行告警方案設計,并通過系列手段,提高告警信噪比。
方案不包含如下內容:
如有全球應用觀測需求,涉及到合規問題,需要客戶側提供專業合規支持,數據傳輸報備等合規相關工作內容不在本項目范圍內。
由于全鏈路觀測業務相關性極強,定制化程度高,且設計、實施成本不可預測,本項目不承諾進行全鏈路觀測設計和實施,鏈路追蹤能力基于 Arms產品提供的原生能力來建設。
大數據應用可觀測不在本項目范圍內。
方案設計可能引入如 OpenTelemetry、Nginx Exporter、Kong Exporter等開源工具來進行三方組件指標采集,方案設計將基于開源工具現有能力進行,針對開源工具的新功能開發、新需求跟進、變更、問題兜底等工作內容均不在該項目范圍內。
日志數據的采集、存儲、分析和使用不在本項目范圍內。
業務指標以及需要通過自實現采集器進行獲取的指標的采集、存儲、聚合規則等設計內容不在本項目范圍內。
技術驗證
對確認的方案進行技術驗證,滿足可落地性的需求。
對技術驗證的結果進行記錄。
方案實施工作:
1-2個典型應用的可觀測架構配置與落地:
基于可觀測性方案設計,進行統一可觀測架構所需資源的拉起和配置工作。
指標、鏈路追蹤數據接入支持工作,(具體操作由客戶側團隊執行):1、 進行非生產環境的數據接入支持工作,并和客戶一起產出接入操作手冊。2、 進行生產環境的數據接入支持工作。
基于方案設計,進行指標的聚合規則編寫。
基于業務監控需要,進行自定義指標采集器設計與編寫,業務指標如果涉及到從數據庫、日志等原始數據中提取,通過代碼實現自定義指標采集器進行編寫和設計。
大盤配置工作,基于方案設計,基于非生產環境數據,進行可視化大盤配置工作,并在生產環境數據接入后,完成非生產數據源到生產數據源的切換。
告警配置,報警規則配置和報警渠道對接。
實施不包含:
實施服務覆蓋1-2 個典型架構應用,旨在快速看到可觀測落地效果,并在實施過程中完成知識傳遞,本服務不承諾完成所有客戶應用的實施。如有額外數量的應用可觀測性實施接入需求,需額外購買實施支持版以彌補工作量。
一切客戶生產環境的操作不在實施范圍內,包括但不限于生產環境的agent 安裝、配置等。
客戶應用以及三方產品的開發、改造和配置等工作不在實施范圍內。
本項目實施均基于阿里云產品以及開源工具原生采集指標。涉及到自定義指標采集器設計和實現等工作不在本項目范圍內。不在范圍內的內容包括但不限于從數據庫、日志等原始數據中提取,通過代碼實現自定義指標采集器進行編寫和設計。
由甲方原因導致的進度不符合預期,乙方不承擔延期責任。
乙方按照項目需要通過現場或遠程方式進行詳細調研以及咨詢方案設計,并產出最終結果。
乙方不負責提供除阿里云官方文檔、項目交付范圍內文檔之外的任何技術文檔。
乙方不負責甲方業務系統規劃、架構設計、上云改造、應用過程中的任何實施與維護責任。
乙方不負責非阿里云平臺以外(第三方軟件、應用系統)問題處理、技術的支持和答疑工作。
2.3 云原生可觀測服務_實施支持版
基于可觀測能力建設結果,評估額外工作量,進行工作量實施支持,工作內容可能包括但不限于:
CI/CD pipeline 可觀測能力設計與落地。包括 CI/CD pipeline 構建數據采集、接入、大盤繪制,告警設計與配置等。
彈性架構能力設計與落地。包括基于 ECS 部署架構以及基于 ACK 部署架構的應用層無狀態彈性架構能力的設計與落地,以及基于阿里云云原生數據庫serverless 能力的數據庫層彈性架構設計與落地。
應用可觀測體系接入實施。基礎版與標準版承諾完成 1-2 個典型應用的接入,如需阿里云服務團隊協助進行更多應用接入,可通過實施支持版來彌補工作量。
客戶可根據實際服務范圍采購多個實施服務包。
本服務不包含:
實施支持版不承諾提供任何額外書面交付物。
乙方服務過程中不負責甲方應用的部署、應用代碼的改造、數據代碼改造、數據遷移等具體的實施工作,具體的實施工作由甲方執行,在實施過程中乙方只負責阿里云側云上環境設置與集成,并協助甲方解決阿里云產品使用相關的問題。
由甲方原因導致的進度不符合預期,乙方不承擔延期責任。
3. 前提條件
客戶應提前至少15個工作日申請該服務,以便于阿里云評估客戶業務目標及時間計劃可行,確認是否承接該服務申請。
如客戶的申請涉及大批量資源需求,建議客戶提前一個月申請,具體視供應鏈評估情況協商。
客戶應及時向乙方提供所有需要的合理的文檔、信息、數據、圖表以及必要的系統權限、遠程訪問通道以使乙方可以提供服務。且所有這些資料將受到本協議項下的保密條款的約束。甲方同意向乙方已披露的或將要披露的所有信息是真實、準確并且不會產生誤導。
云原生可觀測服務基礎版和云原生可觀測服務標準版,乙方的辦公地點不受項目約束,服務的提供方式主要以:電話、釘釘、郵件等方式。
本項目交付過程中,實施主體為甲方,乙方主要提供方案設計及技術驗證過程中的問題處理,具體的云原生可觀測實施動作需要由甲方進行。
乙方將在正常業務時間,即星期一到星期五的正常業務時間,即北京時間上午 9:00 到下午 6:00(國家法定節假日除外)提供本項目的交付服務。
雙方在項目實施期間采用雙方同意的通訊方式,由雙方的項目經理負責傳遞本項目所需的書面信息,可選擇的通訊方式包括:釘釘,互聯網、FAX、電子郵件等。
所有項目交付物為中文(簡體),工作語言為中文。所有交付作品采用Microsoft Office(包括PPT,WORD,Excel,Visio)格式,并以電子拷貝方式提交。
甲方與乙方應須按雙方事先達成一致的工作計劃、人員資源計劃與系統確定的工作起止日期投入項目工作。如遇到甲方相關業務系統迭代延期上線,相關項目進度將會產生順延,乙方對此不承擔責任。
如需引入第三方,甲乙雙方應分別負責同各自第三方簽訂合同。乙方不對甲方的其他分包商或廠商(除乙方的分包商外)的行為負責、亦不對由其造成的延遲負責;甲方不對乙方的其他分包商或廠商(除甲方的分包商外)的行為負責、亦不對由其造成的延遲負責。
任何一方均不對本合同項下的特殊、附帶、或間接損害或后果性經濟損害(包括利潤或節省金額損失)負責,即便該方已被告知該等損害賠償的可能性。
4.分工界面
4.1 客戶與阿里云
客戶購買云原生可觀測服務(基礎版+標準版),經過阿里云審核及交流后確認服務成立,
針對該服務期限內,雙方商定并確認具體業務目標及范圍。
具體分工界面見下表:
服務類型 | 階段 | 任務名稱 | 任務明細 | 客戶 | 阿里云 |
云原生可觀測服務 | 現狀調研 | 業務目標調研 | 1、著重分析用戶的技術架構和業務目標,收集當前的技術信息,運維體系,監控現狀和目標。 2、通過調研明確現狀以及監控需求,確定項目計劃和目標 | A/S/C/I | R/I |
技術架構調研 | A/S/C/I | R/I | |||
運維體系調研 | A/S/C/I | R/I | |||
監控目標指定 | A/S/C/I | R/I | |||
方案設計 | 可觀測方案設計 | 1、根據調研現狀與建設目標,對云上可觀測性架構進行設計,該工作項為整個項目提出總體的目標與愿景 2、方案包含內容如下: a. 統一可觀測性平臺設計 b. 數據的接入方案設計 C. 業務指標設計 d. 應用指標設計 e. 基礎設施指標設計 f. 大盤展示方案設計 g. 告警方案設計 | A/S/C/I | R/I | |
技術驗證 | 方案落地驗證 | 1、對確認的方案進行技術驗證,滿足可落地性的需求 2、對技術驗證的結果進行記錄 | A/R/I | S/C/I | |
可觀測性配置落地 | 可觀測性架構改造 | 1、基于可觀測性方案設計,進行統一可觀測架構所需資源的拉起和配置工作。 2、指標、鏈路追蹤數據接入支持工作,(具體操作由客戶側團隊執行): a. 進行非生產環境的數據接入支持工作,并和客戶一起產出接入操作手冊。 b. 進行生產環境的數據接入支持工作。 3、基于方案設計,進行指標的聚合規則編寫, 4、大盤配置工作 5、告警配置,報警規則配置和報警渠道對接。 | A/R/I | S/C/I | |
日志接入 | |||||
觀測大盤配置 | |||||
監控告警配置 |
責任簡稱:R-Responsible執行人,A-Accountable負責人,C-Consulted征求意見人,I-Informed被告知人,S-Support負責配合“R”完成指標的工作。
4.1.1 客戶
客戶指定一名具備合適技能和經驗的項目經理作為與阿里云溝通的主要聯系人,代表客戶直接負責項目實施的計劃、協調、監督與控制以及升級問題與風險,同時全權代表客戶在本項目的各個方面做出決策。
根據項目情況,由甲方項目經理協調各方資源主導可觀測調研以及技術驗證工作。
項目開始由甲方提供可觀測相關的資料和規范文檔,并明確說明執行要求。
4.1.2 阿里云
指派一名有經驗的技術經理執行云原生可觀測服務項目管理,并引入、管理乙方項目組人員,與甲方項目經理溝通。
通過現狀調研了解客戶系統的基本架構、業務使用場景、技術組件和開發框架等信息,并對可觀測現狀及目標進行評估
基于現狀調研設計云原生可觀測治理方案。
配合甲方進行可觀測技術方案驗證,協助解決技術驗證過程中遇到的各類問題。
4.1.3 完工標準
云原生可觀測服務基礎版完工標準
云原生可觀測方案設計完成并經過甲方確認,包含覆蓋應用以及基礎設施的統一可觀測架構、指標設計、大盤設計、告警設計四部分內容。
方案內容落地客戶環境 1-2 個應用。
產出交付物:《云原生可觀測基礎版方案》
云原生可觀測服務標準版完工標準
云原生可觀測方案設計完成并經過甲方確認,包含覆蓋業務、應用和基礎設施的統一可觀測架構、指標設計、大盤設計、告警設計四部分內容。
方案內容落地客戶環境 1-2 個應用。
產出交付物:《云原生可觀測標準版方案》
云原生可觀測實施支持服務完工標準
該服務為實施支持版服務,依據實際項目溝通的實施支持內容進行完工標準的確認。
4.2 服務目錄
服務內容:云原生可觀測服務針對客戶的業務目標,包含以下服務:
服務名稱 | 階段名稱 | 子階段名稱 | 基礎版服務包 | 標準版服務包 | 可觀測增補包 |
可觀測架構治理服務 | 需求調研 | 基礎設施調研 | 包含 | 包含 | 用于增補基礎版或者標準版范圍外的可觀測需求,如 CI/CD pipeline 觀測、負責的大盤繪制、復雜的自定業務指標義采集器實現等需求。 |
技術架構調研 | 包含 | 包含 | |||
運維體系調研 | 包含 | 包含 | |||
監控目標調研 | 包含 | 包含 | |||
業務目標調研 | 包含 | ||||
方案設計 | 可觀測技術架構設計 | 包含 | 包含 | ||
數據采集方案 | 包含 | 包含 | |||
基礎設施觀測方案 | 包含 | 包含 | |||
應用觀測方案 | 包含 | 包含 | |||
業務觀測方案 | 包含 | ||||
大盤展示方案 | 包含 | 包含 | |||
告警方案設計 | 包含 | 包含 | |||
方案驗證 | 基于設計方案的技術驗證 | 包含 | 包含 | ||
實施 | 基于方案設計實施可觀測實施落地 | 包含 | 包含 |
5. 服務SLA
提供云原生可觀測服務
在服務期間內向客戶提供方案技術驗證支持群以及按需的現場保障
按對應服務規格提供《云原生可觀測基礎方案》、《云原生可觀測標準方案》
6. 服務流程
云原生可觀測服務流程
7. 驗收標準
7.1 驗收分項清單
階段名稱 | 子階段名稱 | 任務名稱 | 子任務名稱 | 交付物名稱 |
項目調研 | 項目調研階段 | 現狀調研和評估 | 業務目標調研 | 無 |
技術架構調研 | ||||
運維體系調研 | ||||
監控目標指定 | ||||
應用彈性現狀調研 | ||||
數據庫現狀調研 | ||||
方案設計 | 可觀測性方案設計 | 可觀測性架構設計 | 可觀測性架構設計 | 《可觀測性設計方案》 |
彈性架構改造方案設計 | 彈性架構方案設計 | 彈性架構方案設計 | 《基于 ACK的彈性架構方案》 《數據庫彈性架構方案》 | |
方案落地驗證 | 方案落地驗證 | 技術驗證 | 方案落地驗證 | 無 |
改造實施 | 可觀測性配置落地 | 可觀測性架構改造 | 可觀測性架構改造 | 《可觀測性實施方案》 |
日志接入 | 針對各服務及需求范圍內的日志進行接入 | |||
觀測大盤配置 | 基于監控指標、日志信息、應用信息配置監控大盤,指標滿足設計需求 | |||
監控告警配置 | 報警規則配置,報警渠道對接 | |||
彈性架構改造支持 | 彈性架構改造支持 | 彈性架構改造支持 | 無 | |
護航與驗收 | 項目驗收 | 系統驗收 | 完成驗收 | 《系統驗收報告》 |
7.2 驗收標準
乙方項目交付過程中提供云原生可觀測方案設計與實施工作,并將關鍵信息記錄在文檔內,因此文檔類交付成果應著重文檔實質內容的驗收,確認乙方提交內容符合甲方需求。
若甲方業務流程要求在乙方提交交付成果前需進行各類內部評審,甲方應在約定的驗收時點前推動并及時完成其內部所需評審和匯報。
文檔內容經過評審會,若需要修改,乙方修改后提請甲方進行驗收,由甲方指定的代表進行簽收確認。驗收在公共云服務系統頁面上點擊驗收確認按鈕。
7.3 驗收計劃
根據《7.1驗收分項清單》所列示各階段的交付內容與交付物,本項目將按照以下驗收計劃進行項目驗收,甲方同意根據此驗收計劃對乙方的交付物進行驗收。
云原生可觀測服務基礎版驗收計劃
編號 | 驗收里程碑 | 驗收內容 | 驗收完成標志 |
1 | 《云原生可觀測基礎版方案》設計與驗證完成 | 《云原生可觀測基礎版方案》 | 甲方在線確認驗收方案 |
云原生可觀測服務標準版驗收計劃
編號 | 驗收里程碑 | 驗收內容 | 驗收完成標志 |
1 | 《云原生可觀測標準版方案》設計與驗證完成 | 《云原生可觀測標準版方案》 | 甲方在線確認驗收方案 |
8.完成標志
客戶驗收完成。