IT 之家 7 月 8 日消息,據(jù)小米技術(shù)消息,計(jì)算機(jī)視覺國際大會(huì) ICCV 2025 論文錄用結(jié)果公布,小米兩篇論文憑借創(chuàng)新性研究成果成功入選:視頻理解大模型核心技術(shù) Q-Frame,推出行業(yè)首個(gè)動(dòng)態(tài)幀選擇與分辨率自適應(yīng)框架,實(shí)現(xiàn)即插即用;持續(xù)學(xué)習(xí)框架 Analytic Subspace Routing ( Any-SSR ) ,成功解決大語言模型在持續(xù)學(xué)習(xí)領(lǐng)域的核心難題「災(zāi)難性遺忘」問題。
全自研視頻理解大模型核心技術(shù) Q-Frame
在視頻理解大模型(Video-LLMs)的研究中,小米 AI 團(tuán)隊(duì)針對(duì)傳統(tǒng) " 均勻幀采樣 " 處理方式存在時(shí)間碎片化信息丟失、盲目采樣及算力浪費(fèi)等問題痛點(diǎn),推出全自研的 Q-Frame 核心技術(shù),該成果以論文《Q-Frame: Query-aware Frame Selection and Multi-Resolution Adaptation for Video-LLMs》入選 ICCV 2025。
Q-Frame 作為視頻理解大模型核心技術(shù),是行業(yè)首個(gè)動(dòng)態(tài)幀選擇與分辨率自適應(yīng)框架,也是首個(gè)無需訓(xùn)練,市面上各類視頻理解大模型基座均可即插即用的算法框架。Q-Frame 擁有三大行業(yè)首次創(chuàng)新,能夠精準(zhǔn)理解視頻內(nèi)容與用戶問題,通過精準(zhǔn)捕捉跟用戶問題最相關(guān)的視頻關(guān)鍵內(nèi)容,將有效信息量提升 5 倍:
跨模態(tài)查詢檢索(Cross-modal Query Retrieval, CQR)
查詢感知幀選擇(Query-aware Frame Selection, QFS)
多分辨率自適應(yīng)(Multi-Resolution Adaptation, MRA)
在 MLVU 評(píng)測(cè)集上,Q-Frame 使 Qwen2-VL 的理解準(zhǔn)確率從 55.5% 提升至 65.4%;在 LongVideoBench 上,讓 GPT-4o 的準(zhǔn)確率從 53.3% 提升到 58.6% 。此外,其多分辨率自適應(yīng)特性可根據(jù)內(nèi)容重要性和查詢需求動(dòng)態(tài)調(diào)整幀分辨率,避免算力浪費(fèi)。
通過采用動(dòng)態(tài)查詢感知幀選擇和多分辨率自適應(yīng),Q-Frame 還有效解決了「均勻幀采樣」策略下時(shí)間碎片化的信息丟失、問題無感知的盲目采樣和分辨率一刀切的算力浪費(fèi)三大難題。與傳統(tǒng)均勻選幀、統(tǒng)一處理方式不同,在有限計(jì)算資源下,Q-Frame 可使模型更高效準(zhǔn)確理解視頻。
此外,Q-Frame 具有即插即用(plug-and-play)的特點(diǎn),可與市場上現(xiàn)有的各類視頻理解大模型兼容,無論是開源模型還是閉源模型,無需對(duì)模型進(jìn)行額外的訓(xùn)練或微調(diào)。以 VILA-V1.5 和 Qwen2-VL 等開源模型為例,在集成 Q-Frame 后,這些模型在視頻理解任務(wù)上的性能均得到了顯著提升。同樣,對(duì)于閉源的 GPT-4o 模型,Q-Frame 也展現(xiàn)出了良好的兼容性,進(jìn)一步證明了其廣泛的適用性。
Q-Frame 在小米「人車家全生態(tài)」戰(zhàn)略中有著多元的應(yīng)用場景,目前正在持續(xù)探索和落地:小米 YU7 發(fā)布時(shí)提到的哨兵模式中,能夠分清楚普通的風(fēng)吹草動(dòng)和可能帶來剮蹭、碰撞的危險(xiǎn)行為;智能家居中,能夠在監(jiān)控畫面中找到最關(guān)鍵的畫面,幫助用戶解答問題;在小愛視頻問答場景中,可以直接定位到視頻中能夠解答問題的片段開始播放等。
大模型持續(xù)學(xué)習(xí)框架 Any-SSR
在大語言模型(LLMs)持續(xù)學(xué)習(xí)(Continual Learning, CL)領(lǐng)域,往往會(huì)因新任務(wù)的學(xué)習(xí)而導(dǎo)致對(duì)舊任務(wù)知識(shí)的遺忘,即災(zāi)難性遺忘問題。小米 AI 團(tuán)隊(duì)聯(lián)合華南理工大學(xué)針對(duì)這一難題開展研究,其成果《Analytic Subspace Routing: How Recursive Least Squares Works in Continual Learning of Large Language Model》成功入選 ICCV 2025。
Any-SSR 框架作為行業(yè)首個(gè)將遞歸最小二乘法(Recursive Least Squares, RLS)引入大語言模型持續(xù)學(xué)習(xí)的技術(shù)框架,通過分析路由機(jī)制,動(dòng)態(tài)地把不同任務(wù)分配到獨(dú)立子空間學(xué)習(xí),避免任務(wù)間知識(shí)干擾,創(chuàng)新性解決了大語言模型持續(xù)學(xué)習(xí)中災(zāi)難性遺忘問題。同時(shí),利用低秩適應(yīng)(Low-Rank Adaptation, LoRA)與分析路由相結(jié)合的方式,實(shí)現(xiàn)了新舊知識(shí)的無縫整合與動(dòng)態(tài)學(xué)習(xí)。
在一系列技術(shù)創(chuàng)新的基礎(chǔ)上,Any-SSR 方法實(shí)現(xiàn)了 " 近乎完美 " 的知識(shí)保留(即不遺忘),同時(shí)能無縫地學(xué)習(xí)新知識(shí)。在實(shí)驗(yàn)中,Any-SSR 在 TRACE 基準(zhǔn)測(cè)試上的表現(xiàn)顯著優(yōu)于其他方法,包括多任務(wù)學(xué)習(xí)(MTL)等,不僅在整體性能(OP)上取得了優(yōu)異成績,還實(shí)現(xiàn)了零反向知識(shí)轉(zhuǎn)移(BWT)。
IT 之家從小米技術(shù)獲悉,過去五年,小米集團(tuán)研發(fā)投入約 1020 億元,在 2025 年的 300 億研發(fā)投入中,大約有四分之一將被用于 AI 相關(guān)方向。未來五年(2026-2030 年),小米還將在核心技術(shù)賽道再投入 2000 億元。