專欄文章

【直擊】AWS 基礎設施更新懶人包|AWS re:Invent 2025

【直擊】AWS 基礎設施更新懶人包|AWS re:Invent 2025

在這個 AI 時代,伺服器的算力以及底層基礎設施的建立與管理越來越重要,在今年的 AWS re:Invent 2025 基礎設施演講由 AWS 公用運算資深副總裁 Peter DeSantis 與運算與機器學習服務副總裁 Dave Brown 共同解密在這個AI時代,AWS如何在晶片設計以及整體基礎設施如何成載全世界的AI需求。

延伸閱讀:【直擊】AWS re:Invent 2025 最新技術完整整理|CKmates 帶你一次掌握全部 AI 與雲端更新

 


基礎設施的核心價值與 AI 時代的挑戰


Peter DeSantis 在開場時強調一個核心理念:「基礎設施的基本面比以往任何時候都更重要 。」他指出,儘管生成式 AI 令人興奮,但 AI 應用的建置和運行推理工作負載成本極其昂貴 。因此,AWS 持續深度投資於降低成本並擴展運算市場 。DeSantis 認為,AWS 近 20 年來的成功關鍵在於,採用雲端的企業能比傳統企業更快行動、更快交付、更快成長,並能夠快速調整方向——啟動、優化、迭代 。

 


Nitro 系統:虛擬化的革命性突破


回顧 2010 年,AWS EC2 雖然已在業界廣受採用,但團隊發現傳統虛擬化層偶爾會導致性能出現「抖動」(jitter)現象 ,AWS 團隊不願妥協,最終開發出革命性的 Nitro 系統 ,Nitro 系統將虛擬化功能從伺服器移出,放到專用硬體上。這項創新不僅完全消除了性能抖動問題,還提供了與裸機相同的性能,同時提升了安全性和降低了成本。DeSantis 驕傲地指出,Nitro 系統甚至被寫入了計算機架構的經典教科書《Computer Architecture: A Quantitative Approach》最新版本中,成為柏克萊和史丹佛等學校的教學內容。


 
Graviton 5:新世代通用處理器 Dave Brown
 


Graviton 5:新世代通用處理器


Dave Brown 接著介紹了 AWS 自研晶片的最新成果,Nitro 系統的成功經驗促使 AWS 開始思考如何從零開始設計一個專為雲端工作負載優化的處理器,這就是 Graviton 處理器家族。

散熱方案與持續改進循環
 

Graviton 5 帶來突破性創新,其中最重要的一項全新直接接觸矽晶的散熱方案,傳統處理器散熱設計因多層堆疊,限制散熱效率,AWS 透過控制整個技術堆疊,設計出移除了導熱界面材料和金屬蓋層的散熱解決方案,此設計有效降低熱阻抗,使熱量能更快速地從晶片散出,最終使功耗降低了 13%。

Graviton 系列處理器在每一代中都基於前代架構持續優化,例如,Graviton 4 優化了快取性能,而在 Graviton 5 中,團隊大幅擴展了快取容量,將核心數量提升到 192 個,L3 快取容量增加了 5 倍,讓每個核心能使用多達 2.6 倍的 L3 快取空間,從而提升了整體性能和一致性。

 

M9g 實例與早期客戶成果


 

M9g 實例與早期客戶成果


基於 Graviton 5 的預覽版 M9g 執行個體相較於 M8g 提供高達 25% 的性能提升,並展現目前 EC2 中最佳的性價比。多家早期客戶在實測中已觀察到顯著成果:
 

  • Adobe 性能提升 25%
  • Anthropic 模型延遲降低 20%
  • Honeycomb 每核心性能提升 36%
  • SAP 在 SAP HANA 上獲得驚人的 60% 性能提升


 

Swift 語言:從 iOS 到伺服器端


Apple 的雲端基礎設施副總裁 Ray Campbell 分享了 Apple 在伺服器端技術演進上的實際案例,作為全球領先的技術公司之一,Apple 需要不斷優化其開發流程與服務交付方式,雖然 Java 長期是其主要語言,但隨著服務規模持續擴大,性能與支援上的挑戰也日益明顯。

Apple 自行開發的 Swift 語言原本是為 iOS 應用程式設計,但其高性能與安全特性同樣展現出在伺服器端開發的強大潛力,使用 Swift 能讓單一開發者同時處理客戶端與伺服器端程式碼,統一技術堆疊並提升整體開發效率。

Apple 採用 Swift 後,在 Graviton 執行個體上獲得 40% 的性能提升與 30% 的成本降低。從 Java 遷移到 Swift 的過程幾乎是無縫的,歸功於 Swift 優異的互操作性,Campbell 指出,Apple 的垃圾訊息防護系統在使用 Swift 並運行於 Graviton 上後,能擴展至每秒數百次的操作量,協助偵測可疑電話號碼,同時維護數億使用者的隱私。



 

Lambda Managed Instances:無伺服器的新篇章


隨著客戶將 Lambda 推向需要存取最新 EC2 技術、極高擴展性能、更大網路吞吐量與毫秒級延遲的新場景,AWS 推出了 Lambda Managed Instances。透過 Managed Instances,Lambda 會在客戶帳戶中執行於客戶選擇的實例上,但修補、可用性與日常運維仍由 AWS 完整管理,客戶負責選擇實例類型與硬體,Lambda 則負責其餘所有細節。
 


Project Mantle:重新想像推理基礎設施


隨著 AI 工作負載快速成長,AWS 發現與過去二十年優化的傳統工作負載截然不同,推理是一個多階段流程,包括:Token、Refill、Decode、De-Token,每個階段對系統的壓力都不同。

AWS 的解決方案是 Project Mantle,一套全新的推理基礎設施,目前已為許多 Bedrock 的模型提供動力。最重要的洞察是:並非所有推理請求都有相同的需求 ,因此,AWS 推出了 Bedrock Service Tiers:

 

  • Priority (優先級):適用於需要實時低延遲的即時互動。
  • Standard (標準):適用於可預測的穩定工作負載。
  • Flex (靈活):適用於背景任務,優化效率,這使得客戶能夠更智能地優化和分配資源。


Project Mantle 的第二項重大改進是佇列隔離,確保單一客戶的流量激增不會影響其他客戶的性能。此外,系統新增 Journal 機制,用於處理長時間運行的請求,若遇到硬體故障或網路中斷,系統可從中斷點恢復,這也使得先進排程策略得以實現,例如 By-the-Tune Fine-tuning,可在流量高峰時暫停微調任務,待流量下降後從原處繼續,提高微調的整體效率。

 

向量搜尋:連接數據的新方式


向量能讓電腦以接近人類理解的方式處理概念、關係與語義,AWS 宣布推出 Nova Multimodal Embeddings 模型,這是一款業界領先的嵌入模型,能處理文字、文件、圖像、視訊與音訊,並將其轉換至共同的向量空間,建立統一的數據語意理解。

更重要的是,向量搜尋能力已直接整合至多項 AWS 服務中,無需額外導入全新技術堆疊:

 

  • Amazon OpenSearch:自傳統搜尋與分析平台進化為向量智慧引擎,兼具關鍵字搜尋與語義向量搜尋。
  • S3 Tables with Vectors:能在與原始數據相同的位置建立向量索引,支援億級向量規模,且維持一致的權限管理。


以 TwelveLabs 為例,他們使用 AWS 基礎設施處理大量視訊數據,其模型能理解視訊不只是連續影格或文字轉錄,而是結合視覺、音訊與時間序列的完整敘事,他們使用 S3 Vectors 儲存數百萬小時的視訊嵌入向量,資料可直接寫入 S3 Vectors,無須遷移,當用戶提出複雜查詢時,系統可在數十億個向量中執行近似最近鄰搜尋,快速回傳相關視訊結果。
 


Trainium 3 UltraServers:AI 訓練的新標竿


DeSantis 接著介紹了 AWS 自研 AI 晶片 Trainium 的最新進展,Amazon EC2 Trn3 UltraServers 現已全面上市,基於 AWS 首款 3 奈米 AI 晶片 Trainium 3,單一 UltraServer 可容納多達 144 顆 Trainium 3 晶片,透過自訂的 NeuronSwitch 連接,形成一個大規模 AI 超級電腦。

Trainium 3 的性能數據令人印象深刻:

 

  • 362 PFLOPs 的 FP8 運算能力
  • 20 TB 的高頻寬記憶體
  • 700 TB/s 的記憶體頻寬


相較於 Trainium 2 UltraServers:
 

  • 運算性能提升 4.4 倍
  • 能源效率提升 4 倍
  • 記憶體頻寬提升近 4 倍


在實際測試中,Trainium 3 相比 Trainium 2 實現了 5 倍以上的每瓦 token 輸出。
 


Trainium 4: 下一代預告與開發工具創新


AWS 已經在開發 Trainium 4,預計將帶來 8 倍的 FP4 吞吐量、3 倍的 FP8 性能 和 4 倍的記憶體頻寬,Trainium 4 將設計支援 NVIDIA NVLink Fusion 高速晶片互連技術,使 Trainium 4、Graviton 和 Elastic Fabric Adapter 能在通用 MGX 機架內無縫協作。
 

在今年的 AWS re:Invent 2025 基礎設施演講由 AWS 公用運算資深副總裁 Peter DeSantis 與運算與機器學習服務副總裁 Dave Brown 共同解密在這個AI時代,AWS如何在晶片設計以及整體基礎設施如何成載全世界的AI需求。



AWS 為 Trainium 提供了一整套開發工具,包括:
 

  • Neuron Kernel Language:提供直接低階訪問所有 Trainium 功能的語言,同時保持 Pytorch 的易用性。
  • Neuron Compiler:現已開源,讓開發者能深入了解編譯器運作。
  • Neuron Profiler:提供指令級別的詳細分析。
  • Neuron Explorer (新推出):將所有詳細分析數據呈現在直觀介面中,自動檢測瓶頸並建議優化。


 

DeSantis 在結語中強調,AWS 在過去二十年中所做的投資——廣泛而深入的技術堆疊——是刻意的選擇,從 Graviton 5 的核心、Lambda Managed Instances 的無伺服器擴展,到 Trainium 的突破性 AI 性能,AWS 正在為 AI 時代打造最強大的基礎設施。



DeSantis 在結語中強調,AWS 在過去二十年中所做的投資——廣泛而深入的技術堆疊——是刻意的選擇,從 Graviton 5 的核心、Lambda Managed Instances 的無伺服器擴展,到 Trainium 的突破性 AI 性能,AWS 正在為 AI 時代打造最強大的基礎設施。 他最後總結:「但對於 AI 而言,仍然是第一天 (It's still Day One)。新的架構將開啟新的可能性,AWS 將持續在這裡,不斷突破極限,為你提供建構未來所需的工具。」

作者: CKmates AWS Ambassador Tony Chung

最新文章

Contact Us
joinline