5 月 19 日消息,全球頂級(jí)網(wǎng)絡(luò)技術(shù)會(huì)議 SIGCOMM 近日發(fā)布 2025 年度論文入選名單,騰訊云提交的兩項(xiàng)創(chuàng)新技術(shù)方案獲得收錄,分別解決了云計(jì)算和大模型訓(xùn)練中的網(wǎng)絡(luò)技術(shù)難題。
騰訊云研發(fā)的 FORNAX 技術(shù)通過(guò)硬件與軟件協(xié)同,成功破解傳統(tǒng)云網(wǎng)絡(luò)流量激增時(shí)的卡頓問(wèn)題。傳統(tǒng)方案依賴軟件管理硬件數(shù)據(jù)轉(zhuǎn)發(fā)規(guī)則,容易在流量高峰時(shí)出現(xiàn)延遲和故障。FORNAX 通過(guò)軟硬協(xié)同,讓硬件具備自主感知流量變化能力,結(jié)合智能糾錯(cuò)機(jī)制,實(shí)現(xiàn)異常情況秒級(jí)響應(yīng)。該技術(shù)已穩(wěn)定運(yùn)行兩年多,支撐數(shù)十億用戶流量,保持硬件故障零宕機(jī)記錄。
針對(duì) AI 大模型所需的超大規(guī)模 GPU 集群,騰訊云推出星脈網(wǎng)絡(luò)方案。通過(guò)優(yōu)化網(wǎng)絡(luò)架構(gòu),實(shí)現(xiàn)單機(jī)柜 6.4 萬(wàn)塊 GPU 高效互聯(lián),全集群支持 51.2 萬(wàn) GPU 組網(wǎng)。同時(shí)創(chuàng)新電源管理和散熱方案,提升設(shè)備密度并降低能耗。配套的智能監(jiān)控系統(tǒng)可將故障定位時(shí)間從數(shù)天縮短到分鐘級(jí)。該技術(shù)已應(yīng)用于騰訊混元大模型、騰訊元寶等業(yè)務(wù),也服務(wù)了大量的企業(yè)客戶。
不久前,星脈團(tuán)隊(duì)針對(duì) DeepSeek 開(kāi)源的 DeepEP 通信框架進(jìn)行深度優(yōu)化,使其在多種網(wǎng)絡(luò)環(huán)境下均實(shí)現(xiàn)顯著性能提升。相關(guān)技術(shù)方案也獲得了 DeepSeek 公開(kāi)致謝。
SIGCOMM 是計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域最高水平學(xué)術(shù)會(huì)議,歷史上推動(dòng)了 TCP/IP、SDN、P4 可編程網(wǎng)絡(luò)等里程碑網(wǎng)絡(luò)技術(shù)的誕生。SIGCOMM 論文被引用率極高,常成為教科書(shū)案例。此次入選,標(biāo)志著騰訊云在云網(wǎng)絡(luò)和 AI 基礎(chǔ)設(shè)施領(lǐng)域達(dá)到國(guó)際領(lǐng)先水平。