SRE計畫書

網站可靠性工程(SRE)

增加系統可靠度

目的

使用網站可靠性工程 (SRE) 工具，來自動執行多項操作工作，並提高團隊效率。

./resource/維運制度全貌.jpg|800

個人角度：累積與重複使用，每次跌倒都有成長
團隊
1. 有限資源下，滿足On Call需求大家才能安心放假，避免公車效應(某個關線人物出意外導致整個專案無法進行)
2. 有章法、組織性、有陣型的執行任務，才可以規模話、系統化。
3. 傳承、知識共享
企業：減少成本、提升可靠度、擴展業務

期望結果

整個組織面對計畫中、非計劃性的任務，都能夠有一致的協作處理辦法，尤其針對非計畫性的危機處理更是著重地方。

./resource/事件管理矩陣.jpg

todo

定義出P1~3的等級與事件後才有辦法定義出處理時間。

團隊一起列出過去曾經發生的具體異常事件，判斷優先次序、事件種類、事件來源，每季重新整理一次。

./resource/事件管理溝通流程.jpg

預計建立 Redmin作為ISMS以期望達到符合ISO27001 第9項【績效評估】

200-Areas/OB嚴選/專案/resource/SRE計畫書-2.png

建立文件管理系統，透過進行事故後審查，來改善軟體開發生命週期。將所有軟體問題和相應的解決方案記錄在共用知識庫中。幫助軟體團隊在未來高效地應對類似問題。

具體報告內容

欄位	說明	範例
事件摘要	句話描述事件的關鍵字、影響	WebAPI的商品頁資回應很慢，使用者無法瀏覽商品資訊。
詳細描述	詳細描述狀況。	WebAPI商品頁資訊透過瀏覽器與APP 突然回應很慢，很多圖檔無法顯示，導致客戶的使用者無法瀏覽商品資訊°其他客戶並沒有這樣狀況°
發現時間	發現的時間點。	2023/3/1 21:00
發現方式	描述是內部還是外部發現。如果是內部，要記錄哪個團隊、透過什麼方式' 像是自動化、人工。	範例1 :客戶（編號：A00001）回報給業務。範例2 :內部Ninja團隊的監控機制發現。
影響範圍	描述影響的範圍。	範例1 : WebAPI的所有使用者。範例2 :全部的客戶
嚴重性	當下判斷的嚴重性等級'分成S0〜S3。	S0
優先序	當下判斷處理的優先序‘分成POP3。	P0

欄位	說明	範例
問題原因(Root Cause)	針對問題做深度的分析。	使用AWS EFS存放圖檔‘ Read IOPS Credit耗盡，造成無法正常回覆圖檔資料給WebSite。
處理方式	詳細描述處理的過程與方式。	•提高 EFSIOPS Credit 從 500— 2000。 •增加CDN快取，減少圖檔存取的次數
後續行動	描述後續的處理工作項目，包含任務內容與負責團隊。	•調整U RL Path •讓CDN更容易設定圖檔-SRE+Ninja。 •使用預熱方式，讓CDN能夠先針對圖檔路徑預熱-SRE。 •增加EFS IOPS檢查機制，提早發現-SRE。
未來如何提早發現	類似問題-有沒有什麼方法可以提早避免或者發現的？	後續行動（3 ）
人力與成本	描述這次共有多少人參與？花費多少時間？	3個人參與，過程耗費］小時：Total= 3X 1=3小時/人力

標題：[P0] 2023/03/01 (三) 13:30~15:30 商品業回應很慢，客戶無法下單
異常時間：2023/03/01 13:30。
如何發現：Ninja團隊的監控機器人發現
異常原因：AWS儲存服務EFS的Credit耗盡，造成無法存取讀檔。
處理方式：調整 EFS Credit 500 — 2000。
後續行動
- 調整URL Path讓CDN更容易設定圖檔-SRE + Ninja。
- 使用預熱方式，讓CDN能夠先針對圖檔路徑預熱- SRE。
- 增加EFS IOPS檢查機制，提早發現-SRE (Done )。
人力成本：3X1 =3小時/人力
未來如何提早發現:增加EFS IOPS檢查機制'提早發現-SRE ( Done )。