在國(guó)際電信聯(lián)盟成立 160 周年之際,中國(guó)通信學(xué)會(huì)主辦的 "2025 世界電信與信息社會(huì)日系列活動(dòng) " 于 5 月 16 日 -17 日期間在江西南昌召開(kāi)。今日,以 "AI 大模型賦能千行百業(yè) " 為主題的系列活動(dòng)之一,"AI 與行業(yè)大模型應(yīng)用專題研討 " 召開(kāi)。此次專題研討聚焦 " 運(yùn)營(yíng)商 AI 與行業(yè)大模型布局 " 和 " 行業(yè)大模型實(shí)踐與應(yīng)用 " 兩大板塊,匯聚政府機(jī)構(gòu)、科研院所及行業(yè)領(lǐng)軍企業(yè),共同解讀了全球 AI 趨勢(shì)與治理方向,探討了 AI 大模型的技術(shù)前沿與行業(yè)實(shí)踐。
以下是演講內(nèi)容全文:
各位嘉賓大家下午好!我是高通公司姜波。非常榮幸能夠在國(guó)際電信聯(lián)盟成立 160 周年之際,與大家相聚在南昌,共同探討終端側(cè) AI 推理創(chuàng)新如何推動(dòng)智能產(chǎn)業(yè)迎來(lái)全新發(fā)展機(jī)遇,并加速各行業(yè)對(duì) AI 的規(guī)模化集成及用戶體驗(yàn)的重塑。
今年年初,DeepSeek 的推出引發(fā)了對(duì) AI 模型訓(xùn)練方式的顛覆變革和重新評(píng)估,驗(yàn)證了 AI 即將從大規(guī)模訓(xùn)練向大規(guī)模推理轉(zhuǎn)變的趨勢(shì),這將形成全新的終端側(cè)推理計(jì)算的創(chuàng)新和升級(jí)周期。雖然模型訓(xùn)練仍將在云端進(jìn)行,但模型推理將向終端側(cè)轉(zhuǎn)移。
AI 模型訓(xùn)練成本的降低與開(kāi)源合作相結(jié)合,使得更多開(kāi)發(fā)者和組織能夠開(kāi)發(fā)高質(zhì)量模型,并且小模型正逐漸接近前沿大模型的質(zhì)量。盡管有人認(rèn)為模型規(guī)模縮小會(huì)導(dǎo)致質(zhì)量下降,但實(shí)際上,2024 年來(lái)推出的眾多先進(jìn)的 AI 小模型已經(jīng)具有卓越性能,能夠達(dá)到甚至超越一年前推出的僅能在云端運(yùn)行的更大模型。許多主流模型系列,如 DeepSeek R1、Meta Llama、IBM Granite 和 Mistral Ministral,均已推出小模型版本,并在特定任務(wù)的性能和基準(zhǔn)測(cè)試中表現(xiàn)出色。
蒸餾技術(shù)是開(kāi)發(fā)高效小模型的關(guān)鍵,它能夠在保持準(zhǔn)確性的同時(shí)實(shí)現(xiàn)知識(shí)的轉(zhuǎn)移。這一技術(shù)的應(yīng)用推動(dòng)了小型基礎(chǔ)模型的激增,其中包括許多針對(duì)特定任務(wù)優(yōu)化的模型。以 DeepSeek 為例,在其發(fā)布的一周內(nèi),就出現(xiàn)了多種新的蒸餾模型,如通義千問(wèn)和 Llama 蒸餾模型。經(jīng)過(guò)蒸餾的 Llama 模型性能顯著提升,而 DeepSeek 的 Qwen-7B 蒸餾模型的性能已與去年最先進(jìn)的 GPT-4 云端模型相當(dāng)。
根據(jù) Epoch AI 的數(shù)據(jù),2024 年發(fā)布的大規(guī)模 AI 模型中,超過(guò) 75% 的模型參數(shù)在千億規(guī)模以下。量化、壓縮和剪枝等技術(shù)有助于縮小模型規(guī)模,量化能降低功耗并在不明顯影響準(zhǔn)確性的情況下加速運(yùn)算,剪枝則消除不必要的參數(shù)。將大型基礎(chǔ)模型縮減為更小、更高效的版本,不僅能實(shí)現(xiàn)更快的推理速度、更少的內(nèi)存占用和更低的功耗,同時(shí)可以保持較高的性能水平,從而使此類模型適合在智能手機(jī)、PC 和汽車等終端上部署。
得益于高質(zhì)量小模型數(shù)量的持續(xù)增加,如今,邊緣及終端側(cè) AI 開(kāi)發(fā)者在開(kāi)發(fā)應(yīng)用和 AI 智能體方面有著非常多樣化的模型選擇。從全球范圍來(lái)看,我們既有 Llama、Mistral、Phi 這樣的開(kāi)源模型,還有百川、Gemini Nano、通義千問(wèn)等閉源模型,這當(dāng)中有一些模型也正在不斷擁抱開(kāi)源社區(qū)。此外,不同地區(qū)也在積極發(fā)展各自的 AI 模型,推出了各具特色的新型模型。與此同時(shí),傳統(tǒng)的計(jì)算機(jī)視覺(jué)和物體檢測(cè)等領(lǐng)域所使用的模型,在特定應(yīng)用場(chǎng)景下依然發(fā)揮著不可替代的作用。
隨著當(dāng)前模型的發(fā)展,我們觀察到不同設(shè)備,包括手機(jī)、汽車、PC、XR 和工業(yè)物聯(lián)網(wǎng)設(shè)備等,在支持的模型參數(shù)規(guī)模方面展現(xiàn)出不同的能力。結(jié)合 AI 模型自身質(zhì)量的不斷提升,終端側(cè) AI 將具備更豐富的功能,如支持更長(zhǎng)的上下文、提供個(gè)性化體驗(yàn)、實(shí)現(xiàn)多模態(tài)交互和處理并發(fā)模型等,這些都將極大地推動(dòng)終端側(cè) AI 應(yīng)用的創(chuàng)新與繁榮。
根據(jù)預(yù)測(cè),2025 年中國(guó)新一代 AI 手機(jī)市場(chǎng)出貨量將達(dá)到 1.18 億臺(tái),占整個(gè)市場(chǎng)的 40.7%。 [ 1 ] 同時(shí), 2025 年中國(guó) AI PC 市場(chǎng)出貨占比預(yù)計(jì)將從 2024 年的 13% 大幅上升至 37%。 [ 2 ]
作為終端側(cè) AI 的領(lǐng)導(dǎo)者,高通在人工智能領(lǐng)域有著超過(guò) 15 年的投入,擁有行業(yè)領(lǐng)先硬件和軟件解決方案覆蓋廣泛終端,并且擁有跨 NPU、CPU 和 GPU 的卓越異構(gòu)計(jì)算能力、領(lǐng)先的軟件優(yōu)化、以及能效。此外,我們還在全球范圍內(nèi)擁有領(lǐng)先的終端側(cè)布局和高達(dá)數(shù)十億的用戶設(shè)備數(shù)量,覆蓋智能手機(jī)、PC、汽車、XR、邊緣網(wǎng)絡(luò)設(shè)備等等。同時(shí),我們也與眾多生態(tài)合作伙伴共同推動(dòng) AI 技術(shù)的創(chuàng)新和應(yīng)用。
2024 年,高通與騰訊混元合作,基于驍龍 8 至尊版移動(dòng)平臺(tái),共同推動(dòng)騰訊混元大模型 7B 和 3B 版本的終端側(cè)部署。這有助于騰訊混元大模型為廣泛的業(yè)務(wù)場(chǎng)景提供技術(shù)支持,通過(guò)利用終端側(cè) AI 加速產(chǎn)品創(chuàng)新,并有效降低運(yùn)營(yíng)成本。
在硬件方面,高通長(zhǎng)期致力于開(kāi)發(fā)定制 CPU、NPU、GPU 和低功耗子系統(tǒng),同時(shí)擁有封裝技術(shù)和熱設(shè)計(jì)的技術(shù)專長(zhǎng),這構(gòu)成了我們行業(yè)領(lǐng)先的系統(tǒng)級(jí)芯片(SoC)產(chǎn)品的基礎(chǔ)。通過(guò)異構(gòu)計(jì)算系統(tǒng),高通幫助開(kāi)發(fā)者通過(guò)上層軟件調(diào)用硬件核心組件進(jìn)行 AI 加速,包括 CPU、GPU、NPU 和高通傳感器中樞。其中,Oryon CPU 面向即時(shí)性要求高的任務(wù),Adreno GPU 擅長(zhǎng)圖像和視頻處理,Hexagon NPU 適用于持續(xù)和泛在型任務(wù),如計(jì)算攝影和大模型應(yīng)用。而高通傳感器中樞則針對(duì)那些對(duì)功耗敏感且需要始終保持在線的應(yīng)用場(chǎng)景。
在軟件工具支持方面,我們推出了高通 AI 軟件棧,可以讓模型在終端上完成端到端的部署和優(yōu)化工作。高通 AI 軟件棧支持所有開(kāi)發(fā)者常用的 AI 框架、runtime、開(kāi)發(fā)工具和操作系統(tǒng)。例如,我們支持 ONNX、TensorFlow、PyTorch 等主流 AI 框架,以及 ONNX Runtime、Direct ML 和 TFLite 等常用 runtime,我們也給開(kāi)發(fā)者提供了高通自己開(kāi)發(fā)的 runtime ——高通 AI 引擎 Direct,以供開(kāi)發(fā)者調(diào)用前面介紹的各種硬件模塊,對(duì) AI 用例進(jìn)行加速。此外,為了更好地支持開(kāi)發(fā)者,我們?nèi)ツ晖瞥隽烁咄?AI Hub,它能夠幫助開(kāi)發(fā)者選擇相應(yīng)平臺(tái)和開(kāi)發(fā)模型、編寫(xiě)應(yīng)用,最后在不同類型的移動(dòng)終端上進(jìn)行部署。
除了高通 AI 軟件棧和 AI Hub,我們還推出了高通智能體 AI 規(guī)劃器。高通智能體 AI 規(guī)劃器作為高通 AI 軟件棧的重要組成部分,位于應(yīng)用和 AI 框架及 runtime 之間,為終端側(cè)所有的 AI 功能提供所需的協(xié)調(diào)規(guī)劃,是賦能下一代智能體 AI 體驗(yàn)的關(guān)鍵所在。
簡(jiǎn)而言之,這是一個(gè)用于意圖理解、意圖分發(fā)和域服務(wù)調(diào)動(dòng)的端到端解決方案,涵蓋了從最初的自然語(yǔ)言理解階段,包括自動(dòng)語(yǔ)音識(shí)別(ASR)和文本到語(yǔ)音轉(zhuǎn)換(TTS)模塊,到通過(guò)端側(cè)智能體進(jìn)行的意圖理解和任務(wù)編排過(guò)程。在任務(wù)編排階段,規(guī)劃器能夠調(diào)用端側(cè)的各種工具,并利用端側(cè)的個(gè)性化知識(shí)圖譜和本地?cái)?shù)據(jù),從而讓任務(wù)規(guī)劃更為精確和高效。此外,在完成任務(wù)規(guī)劃之后,規(guī)劃器還支持多種后續(xù)的域服務(wù),如音樂(lè)播放、天氣查詢、導(dǎo)航和訂餐等功能。
隨著 AI 在終端側(cè)無(wú)處不在地運(yùn)行,以應(yīng)用為中心的體驗(yàn)正在改變。通過(guò)自然語(yǔ)言、圖像、視頻與手勢(shì)的交互方式,AI 智能體能夠簡(jiǎn)化技術(shù)使用方法,預(yù)測(cè)用戶需求,并在終端和應(yīng)用內(nèi)主動(dòng)執(zhí)行復(fù)雜的工作流程、進(jìn)行決策和管理任務(wù)。也就是說(shuō),AI 正在成為新的 UI(用戶界面),用戶將不再需要打開(kāi)特定的應(yīng)用程序, AI 智能體將作為新的交互方式服務(wù)于用戶的所有計(jì)算終端。這不僅將改變單個(gè)應(yīng)用,還將影響零售、餐飲等行業(yè)的客戶體驗(yàn)邏輯,成為變革商業(yè)版圖的新生力量。
今年,高通公司迎來(lái)成立 40 周年、深耕中國(guó)市場(chǎng) 30 年的重要里程碑。過(guò)去 30 年來(lái),高通一直與中國(guó)的移動(dòng)生態(tài)系統(tǒng)企業(yè)保持緊密合作。目前,我們正在攜手更廣泛的合作伙伴,充分利用端側(cè) AI 在性能、效率、響應(yīng)速度和隱私保護(hù)方面的優(yōu)勢(shì),共同把握產(chǎn)業(yè)發(fā)展機(jī)遇。
在智能手機(jī)方面,包括小米、榮耀、OPPO、vivo 在內(nèi)的廠商均已發(fā)布了搭載驍龍 8 至尊版移動(dòng)平臺(tái)的旗艦手機(jī)產(chǎn)品,支持豐富的生成式 AI 用例。在 PC 方面,預(yù)計(jì)到 2026 年將有超過(guò) 100 款搭載驍龍 X 系列計(jì)算平臺(tái)的 PC 發(fā)布或正在開(kāi)發(fā)中,覆蓋華碩、宏碁、戴爾、HP、聯(lián)想和榮耀等領(lǐng)先廠商。同時(shí),我們持續(xù)與騰訊會(huì)議、有道、愛(ài)奇藝、字節(jié)跳動(dòng)等 ISV 合作伙伴協(xié)作,為開(kāi)發(fā)者提供工具和支持,把握 AI PC 的行業(yè)發(fā)展新機(jī)遇。在汽車領(lǐng)域,高通過(guò)去在多個(gè)場(chǎng)合展示了基于驍龍數(shù)字底盤(pán)解決方案運(yùn)行的汽車端大模型和生成式 AI 用例。如今,理想、小鵬等中國(guó)車廠已基于高通第四代驍龍座艙平臺(tái)發(fā)布了其車端的大模型功能。
站在新的起點(diǎn)上,高通將持續(xù)加強(qiáng)在可擴(kuò)展硬件和軟件方面的投入,并通過(guò)與模型廠商的緊密合作,賦能開(kāi)發(fā)者在終端側(cè)加速采用 AI 智能體和應(yīng)用,讓 AI 應(yīng)用更加觸手可及,推動(dòng) AI 技術(shù)在千行百業(yè)的應(yīng)用。
[ 1 ] IDC:2025 年中國(guó)智能手機(jī)市場(chǎng)十大洞察
[ 2 ] Canalys:預(yù)計(jì)大中華區(qū) AI PC 滲透率 2024 年達(dá) 13%,2025 年達(dá) 37%