日前,大量美國互聯(lián)網(wǎng)應(yīng)用的服務(wù)幾乎在同一時(shí)間集體掉線,迪士尼+的劇集停播、麥當(dāng)勞應(yīng)用程序無法點(diǎn)餐、聯(lián)合航空值機(jī)系統(tǒng)癱瘓……這一系列連鎖反應(yīng)原來系亞馬遜云服務(wù)(AWS)再次突發(fā)嚴(yán)重系統(tǒng)故障。
這場持續(xù)了超15小時(shí)的故障,不僅蔓延到AWS的核心服務(wù),引發(fā)全球連鎖反應(yīng),更被業(yè)內(nèi)稱為近年來最嚴(yán)重的宕機(jī)事故之一。故障修復(fù)之余,這也對(duì)行業(yè)拋出了靈魂拷問,全球領(lǐng)先的云服務(wù)商為何不可靠?云端時(shí)代的“斷網(wǎng)魔咒”為何屢破不止?
01
宕機(jī)突發(fā)背后
小漏洞引發(fā)大崩塌
根據(jù)AWS官方公告披露,此次故障的“根源”藏在最基礎(chǔ)的網(wǎng)絡(luò)環(huán)節(jié)。當(dāng)?shù)貢r(shí)間10月19日晚上11:49,AWS的核心節(jié)點(diǎn)之一美國東部1區(qū)(US-EAST-1)首先報(bào)告出現(xiàn)“顯著的錯(cuò)誤率和延遲”現(xiàn)象,在10月20日凌晨0:26,AWS確定事件的觸發(fā)原因?yàn)閰^(qū)域DynamoDB(AWS旗下云原生數(shù)據(jù)庫)服務(wù)端點(diǎn)的DNS解析問題。
所謂DNS(域名系統(tǒng)),是一種將網(wǎng)址轉(zhuǎn)換為IP地址的系統(tǒng),是互聯(lián)網(wǎng)的核心基礎(chǔ)設(shè)施,也是名副其實(shí)的互聯(lián)網(wǎng)導(dǎo)航系統(tǒng)。其一旦失靈,就意味著客戶端無法把DynamoDB的域名以正常的速度解析成正確的IP地址,從而導(dǎo)致了后續(xù)一連串服務(wù)故障。
其中包括EC2、Lambda、S3、CloudFormation等多個(gè)產(chǎn)品在內(nèi)的“多服務(wù)操作問題”。一直截止到10月20日下午3:01,所有AWS服務(wù)才恢復(fù)正常運(yùn)營。
不僅如此,此次中斷的波及范圍極廣。短短幾個(gè)小時(shí)內(nèi),Downdetector監(jiān)控到來自500多個(gè)網(wǎng)站的用戶報(bào)告數(shù)量翻倍,達(dá)到400萬份,并最終在恢復(fù)嘗試過程中達(dá)到650萬的峰值。有專家指出,這次事件不僅是一次技術(shù)故障,更是一場關(guān)于互聯(lián)網(wǎng)脆弱性和集中化風(fēng)險(xiǎn)的全球警示。
談及AWS此次服務(wù)中斷帶來的經(jīng)濟(jì)損失,Catchpoint的CEO Mehdi Daoudi指出,如果將本次宕機(jī)的后續(xù)影響、公司停業(yè)損失和“數(shù)百萬名無法進(jìn)行工作的員工的生產(chǎn)力損失”都考慮在其中,累計(jì)損失金額將會(huì)是數(shù)百億美元乃至千億美元。
02
故障背后的深層答案與行業(yè)啟示
值得注意的是,這并非AWS首次遭遇大規(guī)模服務(wù)中斷,作為云行業(yè)的標(biāo)桿企業(yè),其故障史早已暴露出了核心區(qū)域過度依賴的積弊。
2021年12月,US-East-1區(qū)域服務(wù)器供電故障引發(fā)連鎖反應(yīng),亞馬遜配送業(yè)務(wù)停滯,Netflix、Twitter等平臺(tái)離線超6小時(shí),被業(yè)內(nèi)稱為“年度云端災(zāi)難”。
2022年12月,US-WEST-2區(qū)域網(wǎng)絡(luò)設(shè)備故障,引發(fā)大規(guī)模網(wǎng)絡(luò)癱瘓。導(dǎo)致該區(qū)域內(nèi)EC2實(shí)例失聯(lián)、EBS存儲(chǔ)卷無法訪問。
2023年6月,US-EAST-1區(qū)域AWS Lambda和API Gateway的前端系統(tǒng)遇到問題,導(dǎo)致客戶無法調(diào)用函數(shù)、更新或部署新應(yīng)用。
加之此次故障,梳理近五年重大故障可以總結(jié)出幾個(gè)關(guān)鍵規(guī)律。
一是核心區(qū)域的脆弱性,US-EAST-1區(qū)域幾乎成為“故障高發(fā)地”。絕大部分重大故障都起源于US-EAST-1區(qū)域。這既是AWS部署最早、最大的區(qū)域,也是眾多全球客戶默認(rèn)或首選部署的區(qū)域,其負(fù)載和復(fù)雜性最高,一旦發(fā)生故障,影響面最大。
二是“連鎖效應(yīng)”成為常態(tài),單一服務(wù)的故障(如DynamoDB、Kinesis、ElastiCache)極易通過復(fù)雜的服務(wù)依賴鏈迅速放大,演變成波及數(shù)十項(xiàng)服務(wù)乃至整個(gè)區(qū)域的全面癱瘓。
三是故障根因多樣化但聚焦,故障原因涵蓋從物理網(wǎng)絡(luò)設(shè)備、到DNS解析、再到API容量和軟件bug等多個(gè)層面,但越來越多地指向內(nèi)部核心管理系統(tǒng)或基礎(chǔ)組件的失效,而非直接面向用戶的終端服務(wù)。
AWS故障頻發(fā)的背后,也暴露出全球云基礎(chǔ)設(shè)施的深層矛盾。根據(jù)Synergy Research Group的數(shù)據(jù),AWS是云基礎(chǔ)設(shè)施技術(shù)領(lǐng)域的龍頭企業(yè),約占據(jù)三分之一的市場份額,領(lǐng)先于微軟和谷歌。三者合計(jì)占比近70%,市場缺乏充分競爭使得基礎(chǔ)架構(gòu)升級(jí)動(dòng)力不足。
更值得警惕的是“隱性成本削減”帶來的風(fēng)險(xiǎn)。今年7月,AWS在云計(jì)算部門裁員數(shù)百人,上海AI研究院也宣布解散。對(duì)此,行業(yè)分析師曾指出,運(yùn)維團(tuán)隊(duì)精簡可能導(dǎo)致故障響應(yīng)速度下降。
對(duì)于企業(yè)用戶來說,此次AWS故障也再次證明,依賴單一云服務(wù)提供商的風(fēng)險(xiǎn)不可低估。行業(yè)中也早有“雞蛋不要放在一個(gè)籃子里”的呼吁。面對(duì)不可避免的網(wǎng)絡(luò)服務(wù)中斷,企業(yè)應(yīng)增強(qiáng)前瞻性,實(shí)施多區(qū)域部署、混合云策略并且建立實(shí)時(shí)故障轉(zhuǎn)移機(jī)制。
究其根本,云服務(wù)是可靠的,但這種可靠性并非萬無一失,而是需要企業(yè)與云服務(wù)商共同構(gòu)建動(dòng)態(tài)韌性,不是“永不斷線”,而是能夠平衡好“快速恢復(fù)”和“業(yè)務(wù)無損”。
閉眼沖eSIM?你要提前了解“四變五不變”!
eSIM“無卡化”的便捷承諾,為何在實(shí)踐中步履蹣跚?
eSIM商用背后:一場手機(jī)、芯片與運(yùn)營商的“三角博弈”
責(zé)編/版式:王禹蓉
審校:王 濤 梅雅鑫
監(jiān)制:劉啟誠
【通信世界新媒體矩陣】
央視頻 | 微軟MSN | 視頻號(hào) | 微博 | 今日頭條 | 百家號(hào) | 網(wǎng)易號(hào) | 人民號(hào) | 騰訊新聞
搜狐 | 新浪看點(diǎn) | 雪球號(hào) | 抖音 | 快手 | 愛奇藝 | 知乎 | 嗶哩嗶哩 | 咪咕視頻 |CSDN
【新媒體團(tuán)隊(duì)】
監(jiān)制|劉啟誠
審校|王濤 梅雅鑫 張鵬
編輯|王禹蓉
視頻制作|蔣雅麗 黃楊洋
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.