互联网史上历时最长的瘫痪是怎样造成的【让编程再次伟大#48】

byDavid Chiang •9:25 下午

0

📌 互联网史上历时最长的瘫痪是怎样造成的【让编程再次伟大#48】

⓵ 【容易懂 Easy Know】

想像一個很大的城市，裡面有很多很多的房子（就是我們的網站或應用程式），這些房子都需要從一個叫做 DynamoDB 的中央水塔抽水來運作。有一天，這個水塔的送水系統（一個小程式）壞掉了，就像兩個水管工人同時想去調整開關，結果反而把開關弄壞了，水塔就沒辦法供水了。雖然工人很快修好了開關，但因為水塔停了三小時，家家戶戶累積了超多的用水需求，水壓一下子衝垮了另一個很重要的水管（DWFM，負責分配電力的系統），導致城市裡所有發電機都無法啟動。

接著，管線工人又花了好多時間修好這條水管，但這時控制整個城市網路的系統（Network Manager）又因為突然湧入的大量請求而塞住了，網路交通亂七八糟。最後，連負責指揮交通的警察（NLB，流量分配器）也搞不清楚狀況。從水塔故障開始，整個城市花了超過半天的時間才完全恢復正常。這告訴我們，即使是一點點小錯誤，在一個很大很複雜的系統裡，也可能像骨牌一樣，一個接著一個引發大問題。

--------------------------------------------------

⓶ 【總結 Overall Summary】

這段影片詳細敘述了2025年10月19日至20日，AWS發生的一場長達14小時32分鐘的歷史性大規模服務中斷事件。事故的起因是AWS核心資料庫產品DynamoDB發生了連結故障，導致數百個依賴該服務的雲端服務全面下線。根本原因是一個低層級的程式碼邏輯錯誤，具體來說，是DynamoDB處理DNS記錄的規劃器與執行器之間出現了競態條件，導致DNS中DynamoDB的網域名稱記錄被誤刪，使得其他服務無法找到資料庫。

雖然工程師在三小時內修正了初始錯誤，但災難才剛開始。由於DynamoDB作為AWS內部幾乎所有系統的預設資料庫，長時間停機後累積了天文數字般的重試任務。首先是負責調度EC2伺服器資源的內部管理程式DWFM，因不堪重負而崩潰，暴露出重試機制設計上的缺陷以及缺乏自動恢復與手動操作程序的問題。DWFM恢復後，接著是負責控制EC2網路功能的Network Manager，同樣因累積的請求量過大而無法及時處理，導致EC2網路功能異常。隨後，負責分配網路流量的負載平衡器NLB也因網路管理器速度緩慢、健康檢查反覆失靈，產生連鎖反應。工程師不得不手動干預，甚至暫時關閉NLB的健康檢查，直到所有積壓任務清除才逐步恢復。最終，最為依賴的容器服務ECS和EKS也陸續恢復，標誌著整個中斷的結束。

影片進一步探討了這次事件的深層原因，指出除了初始的程式碼錯誤，AWS高度互聯的微服務架構導致了嚴重的連鎖反應。同時，也引發了對雲端服務高可用性承諾的質疑，特別是為何單一區域（us-east-1）的故障能癱瘓半個網路。作者解釋這並非純粹的技術問題，而是企業在成本與風險之間權衡的商業決策。雖然多節點、多區域部署能提高容錯性，但會顯著增加成本。在企業CEO的視角下，若其他公司也面臨類似問題，則單點部署反而成為一種「納許均衡」的理性選擇，因為發生機率低，且責任可歸咎於雲端服務供應商。最終，影片強調技術雖然追求完美，但現實世界往往受限於實際考量，技術只是服務世界的工具。

--------------------------------------------------

⓷ 【觀點 Viewpoints】

程式碼低層級錯誤可能引發大規模災害：DynamoDB的DNS記錄更新邏輯中出現的競態條件，導致了AWS歷史上最長的大規模中斷，顯示即使是看似微小的程式碼缺陷，在高壓複雜系統中也可能造成巨大影響。

微服務架構的雙面刃：AWS倡導微服務架構，雖然提高了模組化和開發效率，但高度互連的內部系統也使得單點故障容易引發「骨牌效應」，從核心資料庫到資源調度、網路管理，最終導致整個服務鏈條崩潰。

系統設計缺乏韌性與恢復機制：DWFM等核心系統缺乏自動恢復能力和手動操作程序，顯示在極端情況下的應變措施不足。這種設計缺陷導致故障從單一服務蔓延至整個EC2生態。

雲端高可用性是選擇而非必然：雲服務供應商提供建立高容錯系統的環境和工具（如多節點、多區域部署），但企業是否選擇投入額外成本來實踐這種高可用性，是一個商業決策而非純粹的技術問題。

商業決策優先於技術完美：企業在是否進行多點部署以提升韌性時，面臨成本與風險的權衡。從CEO的角度看，為極低機率的「黑天鵝事件」支付數倍甚至數十倍的成本是不划算的，因此往往傾向於跟隨行業慣例，導致單一區域（如us-east-1）成為部署熱點，形成「納許均衡」。

us-east-1區域的特殊性：該區域作為AWS最早建立、成長最快且資源最豐富的地區，承載了大量客戶和AWS自身的核心服務，使其成為故障的重災區，並凸顯了單一區域故障對全球網路的巨大影響。

--------------------------------------------------

⓸ 【摘要 Abstract】

⚠️ 2025年AWS發生最長大規模中斷，持續14小時32分鐘。
📌 事故起因是DynamoDB的DNS更新邏輯出現競態條件，導致服務中斷。
✅ 故障從核心資料庫DynamoDB，經DWFM、EC2、Network Manager、NLB，最終波及ECS/EKS，呈現嚴重骨牌效應。
⚠️ DWFM等關鍵系統缺乏自動恢復機制及手動應急程序，加劇了災情。
📌 雲服務高可用性需額外投資，是企業在成本與風險間權衡的商業決策。
✅ us-east-1區域因歷史因素和商業選擇，成為AWS服務高度集中的脆弱點。
⚠️ 微服務架構雖有優點，但在高依賴性下，單點故障易引發全系統連鎖反應。
📌 技術追求完美，但現實世界中商業與成本考量常是最終決策的主導因素。

--------------------------------------------------

⓹ 【FAQ 測驗】

第一題
AWS這次大規模中斷事件的最初起因是什麼？
A. 大規模DDoS攻擊導致網路癱瘓。
B. EC2伺服器集體過熱宕機。
C. DynamoDB的DNS更新程式碼邏輯錯誤導致網域名稱消失。
D. 第三方資料中心電力供應中斷。

正確答案：C
解釋：影片明確指出，事故源於DynamoDB系統中負責DNS的規劃器與執行器之間出現低層級的程式碼邏輯錯誤（競態條件），導致DynamoDB的DNS記錄被誤刪。

第二題
影片中提到，即使AWS為雲服務提供了高可用性的環境，但企業是否能真正實現高度容錯，主要取決於什麼？
A. 雲端供應商的技術能力與服務條款。
B. 企業是否願意投入額外成本進行多點或多區域部署。
C. 是否聘請頂尖的軟體工程師團隊。
D. 操作系統和程式語言的選擇。

正確答案：B
解釋：影片強調，雖然雲服務提供了建立高容錯系統的環境，但實際是否實現高容錯，在於企業是否願意為多點/多區域/多雲部署支付數倍甚至數十倍的額外成本，這是一個商業而非純技術問題。

第三題
為什麼影片作者認為，從CEO的角度來看，多數企業會選擇將服務部署在us-east-1等單一熱點區域，即使這增加了故障風險？
A. us-east-1提供了獨有的技術功能，其他區域無法替代。
B. 這是雲服務供應商的強制要求，客戶沒有選擇權。
C. 這是基於成本效益和「納許均衡」的商業決策，認為為低頻率事件投入巨額成本不划算，且如果大家都出問題，責任歸咎於雲供應商。
D. 企業對雲服務的穩定性有絕對信心，不認為會發生大規模故障。

正確答案：C
解釋：影片指出，從CEO角度出發，為每幾年才發生一次的「黑天鵝事件」投入數倍成本是不現實的。如果其他公司也面臨同樣問題，公司只是受害者，責任會歸咎於雲供應商。因此，跟隨行業慣例部署在熱點區域，形成一種成本效益下的「納許均衡」。

✡ Oli小濃縮 Summary bot 為您濃縮重點 ✡

▶ https://youtu.be/ITw5hZWeAyE

*

張貼留言 (0)

互联网史上历时最长的瘫痪是怎样造成的【让编程再次伟大#48】

廣告1

廣告2

聯絡表單