12 月 2 日,亞馬遜云計算服務(wù)(AWS)在美國拉斯維加斯舉辦的年度云計算盛會“AWS re:Invent 2025”上發(fā)布了全新的自研 Trainium3 芯片,以及采用 Trainium3 芯片的 Trainium3 UltraServer 服務(wù)器。
根據(jù)首席執(zhí)行官 Matt Garman 的介紹,新款 Trainium3 芯片的性能是前代產(chǎn)品的 4 倍,并采用臺積電 3 納米工藝制造。每個芯片都配備了 144 GB 的 HBM3E 內(nèi)存,內(nèi)存帶寬為 4.9 TB/s,提供 2.52 FP8 PFLOPs 的算力。
(來源:社交媒體 X)
Trainium3 UltraServer 單機(jī)最多集成 144 顆 Trainium3 芯片,總共配備 20.7 TB HBM3E、706 TB/s 內(nèi)存帶寬,可提供最高 362 FP8 PFLOPS 的算力,時延降低 4 倍,可更快訓(xùn)練超大模型,并大規(guī)模支撐推理服務(wù)。
其計算性能比 Trainium2 UltraServer 高出 4.4 倍,能源效率高出 4 倍,內(nèi)存帶寬也高出近 4 倍。在使用 OpenAI 的開源大模型 GPT-OSS 進(jìn)行測試時,Trainium3 UltraServer 的單芯片吞吐量可提升 3 倍,推理響應(yīng)速度提升 4 倍。這意味著企業(yè)可以在更小的基礎(chǔ)設(shè)施規(guī)模下應(yīng)對峰值需求,顯著優(yōu)化用戶體驗(yàn),同時降低每次推理請求的成本。
AWS 以垂直整合方式打造 Trainium3 UltraServer,從芯片架構(gòu)到軟件棧全鏈路協(xié)同。核心之一是新一代網(wǎng)絡(luò)基礎(chǔ)設(shè)施,用于消除傳統(tǒng)分布式 AI 計算的通信瓶頸:NeuronSwitch-v1 提供 2 倍 的 UltraServer 內(nèi)部帶寬;增強(qiáng)型 Neuron Fabric 將芯片間通信延遲降低至 10 微秒以內(nèi)。
這種強(qiáng)大的配置使得它非常適合處理下一代最前沿的 AI 工作負(fù)載,例如:訓(xùn)練大規(guī)模AI模型,可以將復(fù)雜模型的訓(xùn)練時間從數(shù)月縮短至數(shù)周;處理高并發(fā)的 AI 推理請求,以低延遲實(shí)時處理數(shù)百萬用戶的請求,例如智能對話、視頻生成等;運(yùn)行特定復(fù)雜任務(wù),如智能體系統(tǒng)、專家混合模型和大規(guī)模強(qiáng)化學(xué)習(xí)等。
包括 Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music 等客戶,已經(jīng)借助 Trainium 將訓(xùn)練和推理成本降低最多 50%。其中,Decart 在實(shí)時生成式視頻方面實(shí)現(xiàn)了 4 倍推理速度提升,成本僅為 GPU 的一半;而 Amazon Bedrock 已經(jīng)在生產(chǎn)環(huán)境中使用 Trainium3 提供服務(wù)。
