日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

關(guān)于ZAKER 合作
硅星人 59分鐘前

高考數(shù)學(xué) 142 分,多學(xué)科推理 MMMU 跑分 76.0 直逼人類專家,Skywork R1V 3.0 用強(qiáng)化學(xué)習(xí)探索跨學(xué)科推理

在電影《銀翼殺手 2049》中,虛擬伴侶 Joi 能通過全息投影與現(xiàn)實(shí)世界無(wú)縫互動(dòng)。她能感知主角 K 的情緒為他挑選音樂,也能理解 K 的指令,將自己的形象投放到城市的廣告牌上,與他同步體驗(yàn)雨中漫步。她不僅在看和聽,更在理解 K 所處的復(fù)雜環(huán)境和他的潛在需求,并作出恰當(dāng)且充滿人情味的反應(yīng)。

這種科幻場(chǎng)景要走入現(xiàn)實(shí),AI 需要跨越的,并非只是單純的數(shù)據(jù)量或算力。有趣的是,現(xiàn)實(shí)中的突破路徑和科幻設(shè)想有所不同,研究者們發(fā)現(xiàn),真正的關(guān)鍵在于通過 GRPO(Group Relative Policy Optimization)這樣的強(qiáng)化學(xué)習(xí)算法,讓 AI 像人類一樣通過試錯(cuò)來學(xué)習(xí),自己找到整合不同信息的最佳策略。

這種方法恰好針對(duì)了當(dāng)前 AI 的一個(gè)要害,也就是如何讓多模態(tài)能力從信息拼接升級(jí)為真正的融合理解。傳統(tǒng)方法就像給 AI 一本厚厚的說明書,告訴它每種情況的標(biāo)準(zhǔn)答案。而強(qiáng)化學(xué)習(xí)則更像給了 AI 一個(gè)實(shí)驗(yàn)室,讓它通過不斷嘗試來發(fā)現(xiàn)規(guī)律,當(dāng)某個(gè)推理路徑能更好地解決問題時(shí),就給予高分獎(jiǎng)勵(lì),從而強(qiáng)化這種思考方式。

昆侖萬(wàn)維最新開源的 Skywork R1V 3.0,就是這一探索路徑下的產(chǎn)物。它最核心的思路,就是借助強(qiáng)化學(xué)習(xí),將在數(shù)學(xué)等領(lǐng)域?qū)W到的嚴(yán)謹(jǐn)推理能力,遷移并泛化到物理、化學(xué)、醫(yī)學(xué)乃至更廣泛的現(xiàn)實(shí)世界問題中,試圖讓 AI 離那個(gè)理想中的 Joi 更近一步。

目前,昆侖萬(wàn)維已全面開源 Skywork R1V 3.0 的所有資源,旨在推動(dòng)多模態(tài)推理社區(qū)的進(jìn)一步發(fā)展:

模型權(quán)重

技術(shù)報(bào)告:xxx(待補(bǔ)充)

代碼倉(cāng)庫(kù)

從 " 偏科生 " 到 " 六邊形戰(zhàn)士 ",尋找能力的平衡點(diǎn)

如何評(píng)價(jià)一個(gè) AI 模型的好壞?在今天,只看它在某個(gè)單項(xiàng)上跑分有多高,可能已經(jīng)不夠了。更重要的,是看它的能力曲線是否平滑,在面對(duì)五花八門的問題時(shí),表現(xiàn)是否足夠穩(wěn)定。

在這方面,R1V 3.0 交出了一份很有意思的答卷。它在一個(gè)名為 MMMU 的權(quán)威評(píng)測(cè)上,取得了 76.0 分的成績(jī) 。這個(gè)分?jǐn)?shù)距離人類初級(jí)專家的平均水平(76.2 分)只有一步之遙 ,同時(shí)也超過了一些知名的閉源模型,比如 Claude 3.7 Sonnet 的 75.0 分和 GPT-4.5 的 74.4 分 。

MMMU 之所以重要,是因?yàn)樗幌駛鹘y(tǒng)的單科競(jìng)賽,更像一場(chǎng)包含理工、人文、醫(yī)學(xué)、藝術(shù)等多個(gè)領(lǐng)域的 " 跨學(xué)科高考 " 。能在這里拿到高分,背后透露出的信息是,這個(gè)模型的能力不偏科,知識(shí)結(jié)構(gòu)相對(duì)均衡。這或許是讓 AI 智能的 " 鋸齒 " 變得更平滑、更可靠的一種體現(xiàn)。

當(dāng)然,均衡不代表平庸。在物理、邏輯和數(shù)學(xué)等更考驗(yàn)硬核推理能力的評(píng)測(cè)中,它同樣拿下了多個(gè)開源模型的最佳成績(jī) 。

硬核理工科,是騾子是馬拉出來遛遛

跑分終究是跑分。想知道一個(gè)模型是真學(xué)霸還是紙老虎,得拉出來實(shí)戰(zhàn)遛遛。我們直接上題,看看它在不同場(chǎng)景下的真實(shí)表現(xiàn)。

在 2025 年高考數(shù)學(xué)新一卷的測(cè)試中,R1V 3.0 取得了 142 分的成績(jī),達(dá)到了開源多模態(tài)推理模型的最優(yōu)結(jié)果,其表現(xiàn)已逼近多款業(yè)界領(lǐng)先的閉源模型水平:

具體的解題效率上,我們向模型展示了一道高考物理選擇題,R1V 3.0 不僅能給出正確答案,而且明顯 " 想得更快、更明白 " 了。它的解題思維鏈比上一代大幅縮短,比如從 4 千降至 7 百 tokens,推理速度提升了約 6 倍。

R1V 3.0

如果說高中題只是開胃菜,那大學(xué)的電路分析題就是正餐了。我們給它一道有一定分析深度的英文大學(xué)電路理論分析題 ,它能準(zhǔn)確識(shí)別題目中 "unit ramp"(單位斜坡電壓)的含義,嚴(yán)格依據(jù)基爾霍夫電壓定律列出微分方程,并用積分因子法系統(tǒng)地求解,推導(dǎo)邏輯自洽、過程條理清晰 。這證明了它的推理能力確實(shí)有深度。

接下來,我們來看一道具有一定分析深度的英語(yǔ)版的大學(xué)電路理論分析題。從中可以看出,即便是這樣具有挑戰(zhàn)性的大學(xué)層次題目,R1V 3.0 依然能夠準(zhǔn)確給出解答。

Consider applying a unit ramp voltage source to a series RL circuit as shown in . Compute the voltages with zero initial condition for L = 0.1H;

文史醫(yī),AI 的 " 知識(shí)盲區(qū) " 還是 " 舒適區(qū) "?

跳出數(shù)理化,在更廣闊的知識(shí)領(lǐng)域里又如何?我們向模型提問:" 在下圖中,P 波代表 ___________,QRS 段表示 ___________,T 波代表 _____________。"

面對(duì)心電圖,它能頭頭是道地講出 P 波、QRS 段和 T 波各自的生理意義,就像個(gè)醫(yī)學(xué)院的學(xué)生在做課堂報(bào)告 。

而面對(duì)一位有 20 年肝硬化病史的患者的 CT 影像,它也能結(jié)合病史和影像學(xué)特點(diǎn),推理出 " 肝細(xì)胞癌 " 的最可能診斷,并列出其他可能性以供鑒別 。

從冰冷的醫(yī)學(xué)影像,切換到充滿溫度的人文藝術(shù),它也能 hold 住。它能認(rèn)出《清明上河圖》,并對(duì)其藝術(shù)風(fēng)格、歷史背景和深遠(yuǎn)影響進(jìn)行分析 。

還能通過一個(gè)唐代女樂俑的服飾、妝容和姿態(tài),準(zhǔn)確判斷其所屬朝代、社會(huì)階層,并結(jié)合 " 墓葬明器 " 的概念分析其文化意義 。

生活大冒險(xiǎn),如何應(yīng)對(duì) " 非標(biāo) " 難題

最后,來看一些更開放、更接近生活的 " 非標(biāo) " 問題。比如這個(gè)高難度的 " 看圖猜地方 " 游戲:我們要求模型根據(jù)一張圖片里的建筑、植被、標(biāo)識(shí)牌等線索,推斷出其所在的大洲、國(guó)家、城市乃至經(jīng)緯度 。R1V 3.0 展現(xiàn)出了極強(qiáng)的綜合認(rèn)知能力,通過層層推理,最終成功鎖定了地點(diǎn) 。

還有一個(gè)更生活化的問題:" 我買一千瓶這個(gè)飲料,中獎(jiǎng)的錢的期望是多少?" 。模型需要先通過視覺看懂瓶蓋上的中獎(jiǎng)規(guī)則,再運(yùn)用數(shù)學(xué)能力進(jìn)行概率計(jì)算 。

而最考驗(yàn) " 網(wǎng)感 " 的梗圖理解,它也沒掉鏈子。面對(duì)一張涉及人物表情和雙關(guān)語(yǔ)的梗圖(Meme)圖片,它能準(zhǔn)確識(shí)別出其中的幽默感,并解釋這種幽默來源于對(duì) "models" 一詞在技術(shù)和日常語(yǔ)境中不同含義的誤解 。

通往穩(wěn)健推理的后訓(xùn)練路徑

模型表現(xiàn)這么好,背后用了什么巧妙的技術(shù)?Skywork R1V 3.0 的技術(shù)路徑很有意思,它沒有依賴海量數(shù)據(jù)和算力硬堆,而是把重點(diǎn)放在了模型的后訓(xùn)練階段,更像一場(chǎng)精細(xì)的調(diào)優(yōu) 。

這條路徑始于能力的嫁接與強(qiáng)化。團(tuán)隊(duì)基于 R1V 2.0 做冷啟動(dòng),讓模型一出生就具備不錯(cuò)的多模態(tài)推理基礎(chǔ) 。隨后引入 GRPO 強(qiáng)化學(xué)習(xí)算法,對(duì)模型進(jìn)行深度激發(fā),讓強(qiáng)大的文本推理能力成功嫁接到多模態(tài)任務(wù)上 。值得一提的是,這個(gè)過程借助 GRPO 強(qiáng)化學(xué)習(xí)算法,實(shí)現(xiàn)高效泛化,僅用了約 1.2 萬(wàn)條高質(zhì)量監(jiān)督微調(diào)樣本和 1.3 萬(wàn)條強(qiáng)化學(xué)習(xí)樣本,就實(shí)現(xiàn)了多學(xué)科推理能力的顯著提升 。

有了初步的能力,如何確保它不是在機(jī)械地模仿?為了解決這個(gè)問題,團(tuán)隊(duì)引入了一套獨(dú)特的關(guān)鍵熵驅(qū)動(dòng)驗(yàn)證機(jī)制。他們發(fā)現(xiàn),真正會(huì)推理的模型,在思考的關(guān)鍵節(jié)點(diǎn)會(huì)表現(xiàn)出較高的不確定性,代表著思維在發(fā)散;而只會(huì)模仿的模型則非常確定 。這個(gè)機(jī)制就像一個(gè)思考質(zhì)檢員,能高效地識(shí)別出哪些模型版本是真正學(xué)會(huì)了推理,而不是在機(jī)械地模仿風(fēng)格 。

解決了推理的真?zhèn)螁栴},還有一個(gè)挑戰(zhàn)是知識(shí)的均衡。由于強(qiáng)化學(xué)習(xí)階段的訓(xùn)練數(shù)據(jù)以數(shù)學(xué)問題為主,模型的能力會(huì)有些偏科 。為此,團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)之后,專門引入了一個(gè)針對(duì)連接器,也就是連接視覺和語(yǔ)言的橋梁,的微調(diào)步驟 。這一步有效地平衡了模型的知識(shí)結(jié)構(gòu),讓它在保持理科優(yōu)勢(shì)的同時(shí),也補(bǔ)上了文史、藝術(shù)等領(lǐng)域的短板,成了一個(gè)更全面的通才 。

結(jié)語(yǔ)

從最開始那個(gè)可能看不懂 Meme 的 AI,到最后這個(gè)更均衡、更穩(wěn)健的模型版本,Skywork R1V 3.0 的迭代過程,本身就在試圖解決當(dāng)前 AI 最棘手的幾個(gè)問題。它證明了,在行業(yè)普遍追求更高、更快、更強(qiáng)的同時(shí),通過精細(xì)的后訓(xùn)練調(diào)優(yōu),讓 AI 想得更穩(wěn)、更可靠,是一條同樣重要且可行的路。

這背后是對(duì) " 可靠性 " 的追求。尤其在 2025 年,當(dāng) AI 開始被更嚴(yán)肅地探討用于醫(yī)療診斷、金融合規(guī)等高風(fēng)險(xiǎn)領(lǐng)域時(shí),可靠性已經(jīng)從一個(gè)加分項(xiàng)變成了必選項(xiàng)。未來的 AI 競(jìng)爭(zhēng),可能不再只是參數(shù)和分?jǐn)?shù)的比拼,更是看誰(shuí)的系統(tǒng)在關(guān)鍵時(shí)刻更值得信賴。一個(gè)真正可用的 AI,需要具備某種程度的 " 認(rèn)知謙遜 ":知道自己的能力邊界,并在不確定時(shí),懂得把決策交還給人類。

而昆侖萬(wàn)維選擇將 Skywork R1V 3.0 完全開放的做法,本身就體現(xiàn)了這種對(duì)可靠性和透明性的追求。實(shí)際上,這也不是一次孤立的行動(dòng),而是其構(gòu)建以推理能力為主線的技術(shù)體系的一部分,此前他們已陸續(xù)開源了 Skywork-OR1 文本推理模型和 SkyReels-V1 視頻生成模型等多個(gè)項(xiàng)目。這種系統(tǒng)性的開源,以及將技術(shù)細(xì)節(jié)、探索發(fā)現(xiàn)都展示給社區(qū)的做法,讓人們能夠更好地檢驗(yàn)和理解模型,這恰恰是通往信任的關(guān)鍵一步。

歸根結(jié)底,技術(shù)的發(fā)展終究要回歸到具體的人和具體的問題上,這可能比宏大的敘事要走得更遠(yuǎn)。

相關(guān)標(biāo)簽
ai

相關(guān)閱讀

最新評(píng)論

沒有更多評(píng)論了
主站蜘蛛池模板: 日本三级成人午夜视频网 | 久久视频精品线视频在线网站 | 成人看片在线观看免费 | 99热碰| 性福利视频| 极品美女写真菠萝蜜视频 | 日韩国产欧美成人一区二区影院 | 亚洲乱人伦在线 | 国内精品久久久久影院不卡 | 欧美ab| 国产一区二区在线视频播放 | 本道久久综合88全国最大色 | 欧美成a人片在线观看久 | a毛片免费观看 | 国产在线观看高清精品 | 又黄又湿又爽吸乳视频 | 国产黄色网| 国产精品亚洲精品日韩已满 | 国产精品亚洲专一区二区三区 | 草久视频在线观看 | 日本美女作爱 | 日韩美女啪啪 | 69xxxxxxxx | 欧美日韩国产在线人成dvd | 特级毛片8级毛片免费观看 特级毛片免费观看视频 | 国产在线欧美精品 | 最新亚洲国产有精品 | 99在线观看| 特级做a爰片毛片免费看一区 | 一级一级特黄女人精品毛片 | 小泽玛利亚的一级毛片的 | 亚洲国产精品久久久久秋霞不卡 | 国产成人精品视频一区二区不卡 | 一个人看的免费观看日本视频www | 一级一黄在线观看视频免费 | 性做久久久久久免费观看 | 亚洲国产精品不卡毛片a在线 | 日韩欧美一级毛片在线 | 久久厕所视频 | 深夜福利视频在线观看 | 久久精品免看国产成 |