作者 | ZeR0
編輯 | 漠影
智東西圣何塞6月12日報道,今日,年度AI盛會AMD Advancing AI大會火熱開幕。作為全球第二大AI芯片供應商,AMD今日發(fā)布其迄今最強AI產(chǎn)品陣容——旗艦數(shù)據(jù)中心GPU、新一代AI軟件棧、全新AI機架級基礎設施、AI網(wǎng)絡,全面展露與英偉達掰手腕的雄心宏圖。智東西從大會前排發(fā)來一手報道。
xAI技術團隊成員Xiao Sun、Meta工程副總裁Yee Jiun Song、甲骨文云基礎設施執(zhí)行副總裁Mahesh Thiagarajan、HUMAIN CEO Tareq Amin相繼登臺,與AMD董事會主席及首席執(zhí)行官蘇姿豐(Lisa Su)博士對談。
OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman作為驚喜嘉賓壓軸登場,透露OpenAI團隊在MI300X和MI450上開展了一些工作。他評價說,MI450的內(nèi)存架構已為推理做好準備,相信它也會成為出色的訓練選擇。
此次AMD最新發(fā)布或預覽的重點產(chǎn)品包括:
1、數(shù)據(jù)中心AI芯片AMD Instinct MI350系列:采用3nm制程,集成了1850億顆晶體管,基于AMD CDNA 4架構,搭載288GB HBM3e內(nèi)存,內(nèi)存帶寬達到8TB/s,單GPU可運行5200億個參數(shù)的大模型,F(xiàn)P4/FP6精度下峰值算力達到20PFLOPS,達到上一代MI300X的4倍,推理性能達到上一代的35倍;跑DeepSeek R1模型時,推理吞吐量超過英偉達B200。
2、數(shù)據(jù)中心AI芯片AMD Instinct MI400系列(明年推出):專為大規(guī)模訓練和分布式推理而設計,將FP4精度下峰值算力翻倍提升至40PFLOPS,F(xiàn)P8峰值性能達到20PFLOPS,搭載432GB HBM4內(nèi)存,內(nèi)存帶寬達到19.6TB/s,每GPU橫向擴展帶寬達到300GB/s,可實現(xiàn)跨機架和集群的高帶寬互連,旨在訓練和運行擁有數(shù)千億和萬億級參數(shù)的大模型。
相比MI355X,MI400系列的性能提升高達10倍。
▲相比MI355X,MI400系列的AI計算性能猛躥新高
3、全新AI軟件棧ROCm 7.0:相比上一代,推理性能提升至4倍以上,訓練性能可提升至3倍,實現(xiàn)對GPT、Llama 4、DeepSeek、Grok、Gemma 3、Qwen、Command R+、Mistral AI等許多主流模型的Day 0級支持,可在筆記本電腦和工作站上開發(fā),首度支持Windows系統(tǒng)。AMD還首次推出開發(fā)者云。
4、下一代"Helios"AI機架級基礎設施(明年推出):AMD首個AI機架級解決方案,進一步提升AI計算密度和可擴展性,支持多達72塊MI400系列GPU緊密耦合,支持260TB/s的擴展帶寬,支持UALink,F(xiàn)P4峰值算力達2.9EFLOPS。
蘇姿豐博士稱Helios是"世界上最好的AI機架級解決方案"。
與采用英偉達下一代Vera Rubin芯片的Oberon機架相比,Helios AI機架擁有同等的GPU域、縱向擴展帶寬,F(xiàn)P4和FP8精度下的性能也大致相同,HBM4內(nèi)存容量、內(nèi)存帶寬、橫向擴展帶寬分別提升50%。
Helios集成了AMD EPYC "Venice" CPU、MI400系列GPU和Pensando "Vulcano" NIC網(wǎng)卡。
其中AMD EPYC "Venice"服務器CPU將采用2nm制程,基于Zen 6架構,最多256核,CPU-to-GPU帶寬翻倍,代際性能提升70%,內(nèi)存帶寬達到1.6TB/s。
蘇姿豐博士還劇透了將于2027年推出的AMD下一代機架級解決方案。該方案將集成EPYC "Verano" CPU、MI500系列GPU、Pensando "Vulcano" NIC。
AMD有三大AI戰(zhàn)略支柱:領先的計算引擎,開放的生態(tài)系統(tǒng),全棧解決方案。現(xiàn)場,蘇姿豐博士展示了AMD端到端AI計算硬件產(chǎn)品組合。
全新Instinct MI350系列、ROCm 7軟件、AMD開發(fā)云、AMD Threadripper和Radeon AI解決方案,都將在今年問世。
蘇姿豐博士談道,AMD相信開放的生態(tài)系統(tǒng)對AI未來至關重要,并且是唯一一家致力于硬件、軟件和解決方案開放的公司。
一、MI350系列:內(nèi)存容量比B200多60%,8卡峰值AI算力達161PFLOPS據(jù)蘇姿豐博士分享,數(shù)據(jù)中心AI加速器TAM市場將每年增長60%以上,到2028年達到5000億美元,預計推理將在未來幾年內(nèi)每年增長80%以上,成為AI計算的最大驅動力。
AMD履行Instinct GPU路線圖承諾,繼2023年發(fā)布MI300A/X、2024年推出MI325后,MI350系列今年第三季度上市,下一代MI400系列將在明年推出。
目前全球10大AI公司中,有7家正大規(guī)模部署AMD Instinct GPU。
MI350系列GPU是AMD當前最先進的生成式AI平臺。MI350X和MI355X采用相同的計算機體系結構和內(nèi)存,MI350X更適用于典型板卡功耗(TBP)較低的風冷,MI355X的訓練吞吐量、效率、功耗更高,更適用于液冷。
和英偉達B200/GB200相比,MI355X的紙面性能同樣能打,內(nèi)存容量多出60%,F(xiàn)P64/FP32、FP6精度下的峰值性能翻倍提升,F(xiàn)P16、FP8、FP4精度下峰值性能相當。
相比上一代MI300系列,MI355X重點對低精度數(shù)據(jù)類型進行了優(yōu)化。FP16/BF16數(shù)據(jù)類型吞吐量提高到4k FLOPs/clock/CU,F(xiàn)P8數(shù)據(jù)類型吞吐量增加到8k FLOPs/clock/CU,F(xiàn)P6/FP4數(shù)值格式支持2倍的每CPU FP8速率。
從表格中可以看到,MI355X的向量FP64峰值性能會比MI300X略低,矩陣FP64峰值性能幾乎只有MI300X的一半。
8卡MI355X總共有2.3TB HBM3e內(nèi)存、64TB/s內(nèi)存帶寬,F(xiàn)P4/FP6精度下峰值算力可達到161PFLOPS。
MI350系列GPU采用UBB8版型。每個節(jié)點搭載8塊GPU,通過153.6GB/s的Infinity Fabric雙向鏈路進行通信。
風冷機架最多可配備64個MI350系列GPU、18TB HBM3e。直接液冷機架最多可配備128個MI350系列GPU、36TB HBM3E,可提供高達2.6EFLOPS的FP4性能。
二、1850億顆晶體管,多種先進封裝混搭MI350系列采用增強的模塊化Chiplet封裝,晶體管數(shù)量從上一代的1530億顆增加到1850億顆,但核心總數(shù)減少。
和前代相似,MI350系列GPU采用了多種3D和2.5D先進封裝技術。
采用臺積電N3P工藝的8個加速器Complex die(XCD)堆疊在2個采用N6工藝的I/O base die(IOD)上。每個XCD有32個CU(計算單元)、4MB L2緩存。AMD還給每個XCD預留了4個CU,這些CU會根據(jù)需要被禁用。IOD包含128個HBM3e通道、256MB Infinity Cache、第四代Infinity Fabric Link。
中間Infinity Fabric先進封裝對分帶寬提升到5.5TB/s,通過Chiplet集成和統(tǒng)一內(nèi)存架構實現(xiàn)更高的靈活性和擴展性,并通過降低總線頻率和電壓來降低非核心功耗。GPU與其它芯片通信用的4代Infinity Fabric總線帶寬達到1075GB/s。
相比上一代,MI350系列增加了更多內(nèi)存容量和內(nèi)存帶寬。
通過矩陣核心增強和靈活的量化控制,與MI300X相比,MI350X的每CU峰值HBM讀帶寬提升多達50%。
三、跑DeepSeek R1提速高達3倍,推理成本遠低于B200推理方面,當運行Llama 3.1 405B大模型,執(zhí)行AI Agent與聊天機器人、內(nèi)容生成、摘要總結、對話式AI等廣泛AI用例時,相比上一代MI300X,MI355X能實現(xiàn)2.6倍~4.2倍的推理性能提升。
無論是運行DeepSeek R1、Llama 3 70B還是Llama 4 Maverick,MI355X都能實現(xiàn)3倍于MI300X的推理性能。
在采用相同GPU數(shù)量、以FP4精度運行DeepSeek R1和Llama 3.1 405B模型時,相比英偉達B200使用自研TensorRT-LLM推理引擎,MI355X使用SGLang、vLLM等開源推理框架的推理性能可提升20%~30%。
運行Llama 3.1 405B模型時,MI355X使用vLLM的推理性能,與GB200使用TensorRT-LLM的性能相媲美。
與B200相比,MI355X每美元可提供多出40%的token,相應也就能提供更低的推理成本。
訓練方面,與上一代MI300X相比,在FP8精度下進行Llama 3 70B模型預訓練,MI355X可提供3.5倍的吞吐量;在微調(diào)Llama 2 70B時,MI355X可實現(xiàn)多達2.9倍的加速。
與英偉達B200、GB200相比,MI355X也能取得同等甚至更高的預訓練或微調(diào)性能。
這意味著理論上MI355X能實現(xiàn)更快的訓練和推理,縮短從模型開發(fā)到部署的時間。
四、ROCm 7:超3.5倍推理性能提升,支持桌面端與Windows
AMD的開源軟件戰(zhàn)略正在取得成效。在開源社區(qū)幫助下,AMD軟件生態(tài)系統(tǒng)發(fā)展突飛猛進。
ROCm軟件棧是AMD為前沿模型訓練和大規(guī)模推理而設計的統(tǒng)一架構,在計算密度、內(nèi)存、帶寬、擴展、互連方面提供領先優(yōu)勢。
AMD ROCm軟件生態(tài)系統(tǒng)持續(xù)優(yōu)化推理和訓練性能,對Llama、DeepSeek等主流模型實現(xiàn)Day 0級支持,將發(fā)布節(jié)奏從每季度加快到每兩周,持續(xù)改善開發(fā)者的開箱即用體驗。
AMD還增加了捐贈開源社區(qū)的GPU數(shù)量。PyTorch、VLLM、SGLang、Hugging Face等公司或組織將免費獲得GPU,這樣就能持續(xù)集成測試,確保他們研發(fā)的軟件棧和新功能都能在AMD硬件上開箱即用。
通過頻繁的更新、先進的數(shù)據(jù)類型(如FP4)和新算法(如FAv3),ROCm正在實現(xiàn)下一代AI性能,同時推動開源框架(如vLLM和SGLang)比封閉替代方案更快地向前發(fā)展。
ROCm 7將于2025年第三季度普遍可用,支持MI350系列GPU。AMD將在6月12日發(fā)布一個公開預覽版,官方版本將于8月發(fā)布。亮點包括:
1、性能提升:與上一代ROCm 6版本相比,ROCm 7擁有超過3.5倍的推理能力和3倍的訓練能力。這源于可用性、性能和對低精度數(shù)據(jù)類型(如FP4和FP6)支持等方面的進步。通信棧的進一步增強優(yōu)化了GPU利用率和數(shù)據(jù)移動。
▲ROCm的新推理功能
推理方面,與上一代ROCm 6對比,ROCm 7在相同硬件上運行Llama 3.1 70B、Qwen2-72B、DeepSeek R1等模型,可實現(xiàn)3.2~3.8倍的推理和訓練性能。
AMD在訓練方面同樣擁抱開源,有自研的開源模型。AMD組建了一個AI科學家團隊,該團隊用AMD的軟件和硬件來研發(fā)模型(包括文本模型、文生圖模型、歐洲模型、多模態(tài)模型、游戲Agent等),試圖實現(xiàn)最佳性能。
▲新訓練功能
這里補充個插曲,歐洲模型源自AMD之前收購的芬蘭silo AI。silo AI一直致力于構建支持多種歐洲語言的模型,他們也跟法國明星大模型獨角獸Mistral AI合作。
相比ROCm 6,ROCm 7在相同硬件上訓練Llama 2 70B、Llama 3.1 8B、Qwen 1.5 7B等開源模型,可實現(xiàn)3~3.1倍的性能提升。
2、分布式推理:ROCm 7引入了一種健壯的分布式推理方法,利用與開源生態(tài)系統(tǒng)的協(xié)作,包括SGLang、vLLM、llm-d等開源推理框架。通過采用開放策略,ROCm 7與這些合作伙伴一起構建、共同開發(fā)共享接口和原語,從而在AMD平臺上實現(xiàn)高效的分布式推理。
英偉達TensorRT-LLM工具不支持DeepSeek R1 FP8精度,但vLLM、SGLang等開源推理框架均可支持。由于AMD與這些開源軟件緊密合作,MI355X能取得更好的推理結果,吞吐量比B200高出30%。
3、企業(yè)AI解決方案:ROCm企業(yè)級AI軟件棧作為一個全棧MLOps平臺首次亮相,專為企業(yè)環(huán)境中的無縫AI操作而設計,通過交鑰匙工具實現(xiàn)安全、可擴展的AI,用于微調(diào)、合規(guī)性、部署和集成。它包括針對行業(yè)特定數(shù)據(jù)進行模型微調(diào)的工具,以及與結構化和非結構化工作流的集成,通過AMD生態(tài)系統(tǒng)內(nèi)的合作伙伴關系來開發(fā)參考應用,如聊天機器人和文檔摘要。
4、支持在Ryzen筆記本電腦和工作站上的開發(fā):可執(zhí)行AI輔助代碼、定制自動化、先進推理、模型微調(diào)等任務,將ROCm體驗擴展到端側。
AMD Ryzen AI 300筆記本電腦可本地運行240億個參數(shù)的AI模型。更專業(yè)的Ryzen AI Max筆記本電腦,本地可跑700億個參數(shù)的模型。Threadripper + Radeon AI工作站,本地可跑1280億個參數(shù)的模型。
ROCm將支持In-Box Linux,并首度支持Windows操作系統(tǒng)。預計從2025年下半年開始,ROCm將出現(xiàn)在主要的發(fā)行版中,將Windows定位為一流的、得到全面支持的操作系統(tǒng),確保家庭和企業(yè)設置的可移植性和效率。
AMD還首次推出開發(fā)者云,讓開發(fā)者能夠即時、無障礙地訪問ROCm和AMD GPU,實現(xiàn)無縫的AI開發(fā)和部署。
這個完全托管的環(huán)境提供了對MI300X GPU的即時訪問,無需硬件投資或本地設置,只需Github或電子郵件地址即可輕松設置。Docker容器預裝了流行的AI軟件,最大限度地減少了安裝時間,同時給開發(fā)人員定制代碼的靈活性。
其可擴展的計算選項包括:
小型,1x MI300X GPU (192GB GPU內(nèi)存);
大型,8x MI300X GPU (1536GB GPU內(nèi)存)。
率先注冊的開發(fā)者可獲得25小時的免費積分,通過ROCm Star開發(fā)者證書等計劃可獲得最多50個小時的額外時間。
五、"Helios"AI機架明年問世,搭載下一代3nm AI網(wǎng)卡
MI350系列機架基礎設施完全基于開放標準,可采用x86 CPU(5代EPYC)、Instinct GPU(MI350系列)、UEC Scale-Out NIC(AMD Pensando "Pollara" NIC)。
明年,AMD將推出下一代AI機架基礎設施解決方案——Helios AI機架,將集成EPYC "Venice" CPU、MI400系列GPU、Pensando "Vulcano" NIC。
該架構橫向擴展基于超以太網(wǎng)(Ultra Ethernet),縱向擴展基于UALink(Ultra Accelerator Link),并提供Fabric Manager作為ROCm生命周期管理的一部分,以支持基礎設施自動化。
網(wǎng)絡對于構建機架級規(guī)模的AI系統(tǒng)至關重要。為了擴大網(wǎng)絡規(guī)模,AMD去年推出了Pensando Pollara 400 AI NIC。該NIC現(xiàn)可在MI350系統(tǒng)里大規(guī)模部署。
相比英偉達ConnectX7、博通Thor2,AMD Pollara可實現(xiàn)高出10%~20%的RDMA性能。
AMD使用UEC標準來推動創(chuàng)新。由于先進UEC功能運行在Pollara內(nèi)部,AMD可將客戶的fabric成本降低16%,這個分析是基于8k GPU集群。當將這些集群擴展到32k、64k、128k時,成本和節(jié)省幅度會快速增加。
作為MI400系列的一部分,下一代AMD Pensando "Vulcano" AI NIC將在2026年作為默認配置發(fā)貨。
Vulcano采用3nm制程,提供800G網(wǎng)絡吞吐量,每GPU的橫向擴展帶寬是上一代的8倍,支持UAL和PCIe Gen6,相比PCIe Gen6提供了2倍的帶寬,可擴展到100萬塊GPU,并具有完整的軟件向前和向后兼容。
這些優(yōu)勢將直接轉化為更快的模型訓練和更好的推理性能,為客戶帶來巨大的經(jīng)濟優(yōu)勢。
六、AI網(wǎng)絡:UALink支持1024塊GPU互連,今年Q3推出全新DPU
AI模型尺寸每三年增長1000倍,不僅需要更多的計算、內(nèi)存,還需要更多的網(wǎng)絡帶寬來進行訓練和分布式推理。如今訓練數(shù)據(jù)集每8個月翻一番。這些需求都超過了芯片的發(fā)展速度,芯片晶體管密度每兩年才翻一番。
唯一的方法是構建分布式系統(tǒng)創(chuàng)新,實現(xiàn)AI芯片的數(shù)據(jù)中心級擴展。
為了支持大量GPU一起工作,AMD與100多家公司一起成立了超以太網(wǎng)聯(lián)盟(Ultra Ethernet)。超以太網(wǎng)技術是以太網(wǎng)的進化,能擴展至英偉達Infiniband的20倍、經(jīng)典以太網(wǎng)的10倍。
去年成立的UALink(Ultra Accelerator Link)聯(lián)盟旨在擴展將AI芯片網(wǎng)絡規(guī)模,提供更高的帶寬、更低的延時。與英偉達NVLink相比,UALink完全開放,由100多個聯(lián)盟成員支持,意味著客戶可以使用任何GPU、任何CPU和任何交換機來擴展他們的架構。
UALink支持多達1024個GPU連接在一起的能力,是英偉達NVLink支持GPU規(guī)模的2倍。
在GPU系統(tǒng)連接的前端網(wǎng)絡方面,AMD宣布Salina 400 DPU將在今年第三季度推出,目標成為"目前市場上性能最好、最安全、可擴展的AI前端網(wǎng)絡基礎設施"。
Salina 400 DPU的性能達到上一代的2倍,相比英偉達Bluefield 3 DPU性能提升40%。該DPU可安全橋接AI服務器到企業(yè),提高AI服務器性能與網(wǎng)絡、安全性、存儲卸載,引擎對網(wǎng)絡功能的加速可達到CPU的40倍。
自動化同樣不可或缺。ROCm AI生命周期管理軟件,可將客戶的部署時間從幾個月減少到幾天。
ROCm將在2026年推出Fabric Manager,確保用戶可自動部署機架級規(guī)模的應用,并自帶可靠性、可用性和可維護性。
七、AMD設定2030年新目標:將機架級能效提高20倍
能效長期是與AMD的路線圖和產(chǎn)品戰(zhàn)略相一致的指導核心設計原則。
在2020年,AMD通過在短短六年內(nèi)將AMD移動處理器的能效提高25倍,超額完成了25×20的目標。
如今AMD已超越其30×25的目標(與2020年相比,將加速計算節(jié)點的能源效率提高30倍),在AI訓練和高性能計算方面,使用當前配置的4個MI355X GPU和一個EPYC第五代CPU,實現(xiàn)了38倍的節(jié)點級能效提升,與5年前的系統(tǒng)相比,在相同的性能下,能耗降低了97%。
現(xiàn)在,AMD又設定了一個新的2030年目標,即在2024年的基礎上,將機架規(guī)模的能源效率提高20倍(幾乎是之前行業(yè)效率的3倍),使目前需要超過275個機架的典型AI模型到2030年能夠在一個機架內(nèi)進行訓練,同時減少95%的運營用電量,將模型訓練的碳排放量從約3000公噸減少到100公噸。
這些預測是基于AMD芯片和系統(tǒng)設計路線圖以及經(jīng)能效專家Jonathan Koomey博士驗證的測量方法。
結合軟件和算法的進步,新目標可以使整體能源效率提高100倍。
到2030年機架規(guī)模的20倍目標反映了下一個前沿領域:不僅關注芯片,還關注更智能、更高效的系統(tǒng),從芯片到全機架集成,以滿足數(shù)據(jù)中心級的功率需求。
結語:全棧布局,豪賭AI計算未來
AI基礎設施如今已是數(shù)據(jù)中心AI芯片兵家必爭之地。從今日釋放信息來看,AMD面向整個機架級基礎設施的布局已趨于完整,覆蓋從CPU、GPU、內(nèi)存、網(wǎng)絡、存儲、軟硬件協(xié)同設計到系統(tǒng)的性能與能效優(yōu)化。
隨著頂尖大模型性能增長放緩,產(chǎn)學界不再一味煉大模型,而是更多探索圍繞可持續(xù)、更經(jīng)濟地擴展AI計算的相關創(chuàng)新,這正推動AI模型的訓練和部署效率持續(xù)提升。
除了提升硬件性能與配置外,AI軟件棧和AI機架級基礎設施的優(yōu)化,都成為AMD面向未來增強AI競爭力的重點投入方向。與英偉達不同的是,AMD認定開源才能推動AI以最快速度進步,正堅定擁抱開源,構建一個完全開放的軟件生態(tài)系統(tǒng)。
在演講尾聲,蘇姿豐博士強調(diào):"AI的未來不會由任何一家公司或在一個封閉的生態(tài)系統(tǒng)中建立,它將由整個行業(yè)的開放合作來塑造成型。"
作為全球數(shù)據(jù)中心AI芯片市場的第二名,AMD比第一名的包袱更輕,比后位者吞食市場份額的機會更大。而蓄勢待出的MI400系列和"Helios" AI機架級基礎設施,將蘊藏著AMD押注下一股AI浪潮、釋放生成式AI和高性能計算的機遇與潛力。