專欄文章

打造高可用雲端架構 深入解析韌性模式設計

打造高可用雲端架構 深入解析韌性模式設計

營運韌性是指在面對故障、負載增加或攻擊時,仍能持續提供不中斷服務的能力。AWS 與客戶共同承擔韌性實現的責任:AWS 提供具高可用性和冗餘的基礎設施,而客戶需設計並測試應用系統以滿足特定需求。針對不同應用系統,韌性要求各異,需要平衡需求、成本和複雜度,選擇最合適的架構設計。 



深入探索 AWS 的韌性設計:讓服務不中斷的秘密 

AWS 通過全球分散的基礎設施設計確保營運韌性,包括 33 個區域 (Region) 和 105 個可用區 (Available Zone,AZ)。區域間完全隔離,確保單一區域中斷不影響其他區域,顯著降低地理風險。每個區域內部署專用基礎設施和服務堆疊,並通過非同步設計進行跨區域資料複製,如 Amazon S3 在不同區域的自主運行模式,確保服務穩定性。可用區由多個物理資料中心組成,支持低延遲資料複製和冗餘網路,同時保持足夠物理距離以減少自然災害影響。 


AWS 多數服務設計為可獨立運行於單一區域或可用區內,例如 Amazon Route 53,提供 100% 可用性並限制故障影響範圍。此外,AWS 持續擴展其區域和可用區布局,以滿足各類應用對高韌性和高可用性的需求,打造靈活且可靠的雲端架構。 
 



雲端架構韌性:設計高效穩定的服務系統 

設計韌性架構時,需要考慮以下 5 個核心要素,並在之間找到平衡: 
 

設計複雜度 實施成本   維運工作   安全性 對環境的影響
  • 韌性設計會增加系統複雜度,可能引發不可預知行為。 

  • 需評估是否值得提升複雜度,或改用更簡單的災難恢復 (Disaster Recovery, DR) 機制。 

  • 韌性越高,成本越高,需運行更多軟體和基礎設施。 

  • 不過若確保成本合理,能與未來可能的損失相抵。 

  • 高韌性系統需要更複雜的操作流程和技能。 

  • 應確認維運能力足夠,包括流程成熟度和技術水平。 

  • 韌性和安全性關係不大,但高韌性系統需保護更多元件。 

  • 使用雲端安全最佳實踐來維持安全性。

  • 韌性增加可能提升資源消耗。 

  • 可透過減少計算資源或調整反應時間來降低影響,實現可持續性。 

 



5 種韌性設計模式 

本文將探討圖 1 所示的 5 種韌性設計模式 (P1 至 P5),並分析在採用這些模式時需要考量的各項權衡,幫助您根據應用系統的特定需求,選擇適合的韌性等級,最終設計出符合需求的最佳架構方案。 

5 種韌性設計模式 
圖/AWS Blog


韌性模式 1 (P1) 

P1 模式是一種利用多個可用區 (AZ) 提高系統韌性的雲端架構,適用於對業務影響較小的應用系統,如內部工具或非關鍵系統。 
圖/AWS Blog

 

P1 模式是一種利用多個可用區 (AZ) 提高系統韌性的雲端架構,適用於對業務影響較小的應用系統,如內部工具或非關鍵系統。 


 

設計概念 

特點與權衡 

運行行為 

  • 單一執行個體 (EC2 Instance) 在多個可用區中運行。 

  • 自動化管理使用 Auto Scaling Group,當某一可用區的執行個體故障時,可自動在其他可用區啟動新的執行個體。 

  • 此架構可減少單一可用區故障對整體服務的影響。 

  • 優點:較低的架構複雜度與成本。 

  • 缺點:若某個可用區故障,應用程式需要重新啟動,可能造成短暫中斷。 

  • 適合對韌性需求相對較低的應用系統。 

  • 若出現故障,AWS 會自動偵測並在其他可用區中啟動備援資源,確保服務持續運行。 

 



韌性模式 2 (P2) 

P2 模式是利用多個執行個體在多可用區 (Multi-AZ) 運行,強調「靜態穩定性」(Static Stability),適合高韌性需求的應用系統。 
圖/AWS Blog

 


P2 模式是利用多個執行個體在多可用區 (Multi-AZ) 運行,強調「靜態穩定性」(Static Stability),適合高韌性需求的應用系統。 

 

設計概念 

特點與權衡 

運行行為 

適用場景 
  • 多組執行個體在多個可用區內同時運行,確保系統穩定,即使部分區域發生故障,其他執行個體仍可承擔流量。 

  • 配合 Auto Scaling Group 和 Elastic Load Balancer (ELB),自動分配流量到可用執行個體,避免影響使用者體驗。 

      優點:  

  • 減少單一可用區故障對整體系統的影響。 

  • 靜態配置避免資源頻繁調整,提高穩定性。 


    缺點:  

  • 資源運行成本高,需要額外資源在平時保持靜態可用。 

  • 當某個可用區發生故障時,流量會自動轉移到正常運行的可用區內執行個體,維持服務不中斷。 
  • 適合需高可用性的應用系統,例如電子商務網站,避免停機造成重大損失。 

  • 在多可用區內平衡資源配置,避免高峰期間對用戶造成影響。 

 

 



韌性模式 3 (P3) 

P3 模式是一種多區域 (Multi-Region) 分散部署架構,適用於需要極高韌性的關鍵應用系統,例如銀行服務或全球分布式的應用程式。 
圖/AWS Blog


P3 模式是一種多區域 (Multi-Region) 分散部署架構,適用於需要極高韌性的關鍵應用系統,例如銀行服務或全球分布式的應用程式。 

 

設計概念 

特點與權衡 

運行行為 

適用場景 
  • 在多個地理區域 (Region) 中部署應用系統,確保即使一個區域中斷,其他區域仍可正常運行。 

  • 每個區域內使用多可用區 (Multi-AZ) 和 Auto Scaling Group,進一步提高可靠性。 

  • 消費者可透過不同區域的應用程式存取服務,即使部分區域中斷也能持續提供服務。 

     優點:

  • 降低單一區域故障導致全系統中斷的風險。 
  • 分散部署的架構可確保全球用戶的服務可用性。 


    缺點:  

  • 管理和維運成本高,需要維持多個區域的同步性和一致性。 

  • 系統依賴區域間的共享資源,可能仍受影響。 

  • 若某一區域的服務故障,用戶可自動切換到其他正常運行的區域,保持業務連續性。 

  • 通過負載均衡 (Load Balancer) 或域名服務 (DNS) 自動導向用戶請求至可用的區域。

  • 全球分布的關鍵應用系統,例如金融交易、聯絡中心或跨區域的移動應用程式。 

  • 對高可用性和低延遲有極高要求的業務。 

 

 

 

韌性模式 4 (P4) 


P4 設計概念可參閱此文章 :什麼是 BaaS 與 DRaaS ? 4 種方案制定最完整的災難備援策略


P4 模式是一種多區域災備架構,適用於高韌性需求的關鍵業務服務,例如金融支付系統,確保服務在災難情況下快速恢復。 

 

設計概念 

特點與權衡 

適用場景 

根據應用需求,選擇以下模式來滿足恢復時間目標 (RTO) 和恢復點目標 (RPO): 
 

  1、指示燈模式 (Pilot Light):  
  • 僅在災難恢復區域中保留關鍵基礎資源處於待命狀態。 

  • 平時資源處於最低運行,災難發生時快速啟用並恢復完整功能。 

  • 適合 RTO/RPO 約為 10 分鐘級的應用系統。 


    2、暖待命模式 (Warm Standby):  

  • 災難恢復區域保留較低量的基礎資源並日常運行。 

  • 災難期間可快速升級到完整運行狀態。 

  • 通常通過自動化工具實現數分鐘級的恢復。 

     優點:

  • 降低跨區域中斷的影響,實現快速恢復。 

  • 成本和資源消耗相對於多站點活躍架構較低。


    缺點:  

  • 需要額外管理跨區域的資源同步,增加部署複雜性。 

  • 系統依賴基礎架構自動化工具 (如 IaC) 來加速恢復。 

  • 高韌性需求但需要平衡成本的應用系統,如銀行交易或其他對中斷敏感的服務。 

  • 可接受短暫恢復時間的業務場景。 

 

 

 

韌性模式 5 (P5) 

 

P5 模式是多區域多活架構,適用於對中斷容忍度接近零的關鍵應用系統,如銀行核心業務和客戶關係管理系統。 
圖/AWS Blog


P5 模式是多區域多活架構,適用於對中斷容忍度接近零的關鍵應用系統,如銀行核心業務和客戶關係管理系統。 

 

設計概念 

特點與權衡 

運行行為 

適用場景 
  • 在多個地理區域 (Region) 同時運行應用系統,讓所有區域同時處於活躍狀態 (Active-Active)。 

  • 透過 Route 53 負載均衡,分配用戶請求到最近且可用的區域,確保服務不中斷。 

  • 提供接近零的恢復時間目標 (RTO) 和資料遺失目標 (RPO)。 

     優點:

  • 最大化降低區域中斷對服務的影響。 

  • 適合極高韌性需求,確保服務穩定性和用戶體驗。 


    缺點:  

  • 部署複雜度高,涉及多區域間的同步與一致性。 

  • 高成本,需維持多區域的完整基礎設施和運行資源。

  • 用戶請求根據地理位置自動導向最近的活躍區域。 

  • 若某一區域發生故障,流量會自動轉移到其他區域,保持服務連續性。 

  • 高度關鍵且不能容忍任何停機的業務,例如銀行交易、醫療數據處理或全球分布式應用系統。 
 

 


從基礎到核心-AWS 韌性架構的多層次實現 

 
 

AWS 提供多層次的韌性架構設計,從基礎的多可用區部署到多區域多活模式(P1 至 P5),滿足不同應用系統的需求。這些設計結合全球分散基礎設施、非同步跨區域資料複製和多樣化災備策略,確保即使在區域性故障下,服務仍能穩定運行。從應對單區中斷的簡化模式到接近零停機的核心架構。 
 

AWS 韌性模式在高可用性、恢復速度和成本效益之間找到平衡,幫助用戶設計出可靠靈活的雲端系統,適應不同業務需求。 選擇適當的韌性模式取決於業務需求和預算,AWS 提供工具和架構最佳實踐,幫助用戶實現靈活可靠的雲端架構。 CKmates 擁有豐富的雲端架構經驗,可協助企業評估並優化 AWS 韌性模式,確保系統在高可用性與成本效益之間取得最佳平衡,讓業務運行更穩定、更高效。 

 

 

最新文章

Contact Us
joinline