IT之家 4 月 14 日消息,騰訊云官方公眾號(hào)今日發(fā)文,披露了 4 月 8 日服務(wù)大范圍故障的原因及細(xì)節(jié)。
官方表示,經(jīng)過故障定位發(fā)現(xiàn),客戶登錄不上控制臺(tái)正是由云 API 異常所導(dǎo)致。云 API 是云上統(tǒng)一的開放接口集合,客戶可通過 API 以編程方式管理和操控云端資源,云控制臺(tái)通過組合云 API 提供交互式的網(wǎng)頁功能。
故障發(fā)生后,依賴云 API 提供產(chǎn)品能力的部分公有云服務(wù)也因此出現(xiàn)無法使用的情況,包括云函數(shù)、文字識(shí)別、微服務(wù)平臺(tái)、音頻內(nèi)容安全、驗(yàn)證碼等。此次故障一共持續(xù)了近 87 分鐘,期間共有 1957 個(gè)客戶報(bào)障。
騰訊云方面稱,若將云服務(wù)比作“酒店”,控制臺(tái)就相當(dāng)于“前臺(tái)”,是統(tǒng)一的服務(wù)入口?!熬频昵芭_(tái)發(fā)生故障會(huì)導(dǎo)致入住、續(xù)住等管理能力不可用,但已入住的客房不受影響。”這次故障中客戶已經(jīng)配置好的服務(wù)器等 IaaS 資源,包括已經(jīng)部署運(yùn)行的業(yè)務(wù),沒有受到云 API 異常的影響。
官方披露了這次故障根本原因及改進(jìn)措施如下:
綜合盤點(diǎn)這次故障,最根本的原因是在版本變更過程中,沒有有效執(zhí)行沙箱驗(yàn)證和預(yù)案演練,暴露了在變更管理上的不足,接下來將從以下幾個(gè)方面快速進(jìn)行改進(jìn)和完善,以減少故障的影響范圍和影響時(shí)長。
第一,提升系統(tǒng)韌性
1、定期執(zhí)行預(yù)定的變更策略模擬演練,確保在真實(shí)故障發(fā)生時(shí),能夠迅速切換到恢復(fù)模式,最小化服務(wù)中斷時(shí)間。
2、優(yōu)化服務(wù)部署架構(gòu),通過分層架構(gòu)、代碼審查和監(jiān)控等手段, 避免 API 服務(wù)中潛在的循環(huán)依賴問題。
3、提供 API 服務(wù)逃生通道,當(dāng)故障發(fā)生時(shí),可供調(diào)用方快速切換。
第二,強(qiáng)化變更管理與保護(hù)措施
1、完善自動(dòng)化測試用例庫,在系統(tǒng)變更前通過沙箱環(huán)境對變更內(nèi)容進(jìn)行嚴(yán)格驗(yàn)證。
2、實(shí)施灰度發(fā)布策略,逐步推廣新功能或配置更改,按集群、可用區(qū)、地域逐步生效,以便在發(fā)現(xiàn)問題時(shí)能夠迅速回滾。
3、引入異常自動(dòng)熔斷機(jī)制,當(dāng)檢測到系統(tǒng)異常時(shí),能夠立即中斷變更過程。
第三,增強(qiáng)故障響應(yīng)與溝通能力
1、對故障處理流程進(jìn)行全面升級(jí),確保實(shí)時(shí)更新故障處理進(jìn)度和預(yù)計(jì)恢復(fù)時(shí)間點(diǎn),提升故障報(bào)告發(fā)布效率。
2、在對外發(fā)布的故障通知中,清晰闡述受影響的業(yè)務(wù)范圍、故障根因及預(yù)計(jì)修復(fù)時(shí)長,保持透明度。
3、優(yōu)化騰訊云健康狀態(tài)看板(StatusPage)的信息展示邏輯,解除對云 API 等云服務(wù)的依賴,通過引入緩存和容災(zāi)機(jī)制,確保即使在云服務(wù)出現(xiàn)故障時(shí),能準(zhǔn)確、及時(shí)地傳遞故障信息。
據(jù)IT之家4 月 8 日報(bào)道,當(dāng)日下午騰訊云出現(xiàn)服務(wù)故障,接口響應(yīng)報(bào)錯(cuò)、內(nèi)部服務(wù)錯(cuò)誤,網(wǎng)頁顯示 504 錯(cuò)誤。騰訊云官方微博下也有網(wǎng)友反饋服務(wù)故障,IP 來自全國多地。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。