丁香婷婷久久大综合,a一级爱做片免费,中国特级黄色毛片

物理學正在走向人工智能——

Meta 開源發(fā)布V-JEPA 2世界模型：一個能像人類一樣理解物理世界的 AI 模型。

圖靈獎得主、Meta 首席 AI 科學家Yann LeCun親自出鏡宣傳，并稱：

我們相信世界模型將為機器人技術(shù)帶來一個新時代，使現(xiàn)實世界中的 AI 智能體能夠在不需要大量機器人訓練數(shù)據(jù)的情況下幫助完成家務和體力任務。

那什么是世界模型呢？

簡單說，就是能夠?qū)φ鎸嵨锢硎澜缱龀龇磻?AI 模型。

它應該具備以下幾種能力：

理解：世界模型應該能夠理解世界的觀察，包括識別視頻中物體、動作和運動等事物。

預測：一個世界模型應該能夠預測世界將如何演變，以及如果智能體采取行動，世界將如何變化。

規(guī)劃：基于預測能力，世界模型應能用于規(guī)劃實現(xiàn)給定目標的行動序列。

V-JEPA 2（Meta Video Joint Embedding Predictive Architecture 2 ）是首個基于視頻訓練的世界模型（視頻是關于世界信息豐富且易于獲取的來源）。

它提升了動作預測和物理世界建模能力，能夠用于在新環(huán)境中進行零樣本規(guī)劃和機器人控制。

V-JEPA 2 一發(fā)布就引起了一片好評，甚至有網(wǎng)友表示：這是機器人領域的革命性突破！

62 小時訓練即可生成規(guī)劃控制模型

V-JEPA 2 采用自監(jiān)督學習框架，利用超過 100 萬小時的互聯(lián)網(wǎng)視頻和圖像數(shù)據(jù)進行預訓練，不依賴語言監(jiān)督，證明純視覺自監(jiān)督學習可以達到頂尖表現(xiàn)。

上圖清晰地展示了如何從大規(guī)模視頻數(shù)據(jù)預訓練到多樣化下游任務的全過程：

輸入數(shù)據(jù)：利用 100 萬小時互聯(lián)網(wǎng)視頻和 100 萬圖片進行預訓練。

訓練過程：使用視覺掩碼去噪目標進行視頻預訓練。

下游應用分為三類：

理解與預測：行為分類、物體識別、行為預測；

語言對齊：通過與 LLM 對齊實現(xiàn)視頻問答能力；

規(guī)劃：通過后訓練行動條件模型 ( V-JEPA 2-AC ) 實現(xiàn)機器人操作。

V-JEPA 2 采用聯(lián)合嵌入預測架構(gòu)（JEPA），主要包含兩個組件：編碼器和預測器。

編碼器接收原始視頻并輸出能夠捕捉有關觀察世界狀態(tài)的語義信息的嵌入。

預測器接收視頻嵌入以及關于要預測的額外上下文，并輸出預測的嵌入。

研究團隊用視頻進行自監(jiān)督學習來訓練 V-JEPA 2，這就能夠在無需額外人工標注的情況下進行視頻訓練。

V-JEPA 2 的訓練涉及兩個階段：先是無動作預訓練（下圖左側(cè)），然后是額外的動作條件訓練（下圖右側(cè)）。

經(jīng)過訓練后，V-JEPA 2 在運動理解方面取得了優(yōu)異性能（在 Something-Something v2 上達到 77.3 的 top-1 準確率），并在人類動作預測方面達到了當前最佳水平（在 Epic-Kitchens-100 上達到 39.7 的 recall-at-5），超越了以往的任務特定模型。

此外，在將 V-JEPA 2 與大型語言模型對齊后，團隊在 8B 參數(shù)規(guī)模下多個視頻問答任務中展示了當前最佳性能（例如，在 PerceptionTest 上達到 84.0，在 TempCompass 上達到 76.9）。

對于短期任務，例如拾取或放置物體，團隊以圖像的形式指定目標。

使用 V-JEPA 2 編碼器獲取當前狀態(tài)和目標狀態(tài)的嵌入。

從其觀察到的當前狀態(tài)開始，機器人通過使用預測器來想象采取一系列候選動作的后果，并根據(jù)它們接近目標的速度對候選動作進行評分。

在每個時間步，機器人通過模型預測控制重新規(guī)劃并執(zhí)行朝向該目標的最高評分的下一個動作。

對于更長期的任務，例如拾取物體并將其放置在正確的位置，指定一系列機器人試圖按順序?qū)崿F(xiàn)的視覺子目標，類似于人類觀察到的視覺模仿學習。

通過這些視覺子目標，V-JEPA 2 在新的和未見過的環(huán)境中拾取并放置新物體時，成功率達到 65% – 80%。

物理理解新基準

Meta 還發(fā)布了三個新的基準測試，用于評估現(xiàn)有模型從視頻中理解和推理物理世界的能力。

雖然人類在所有三個基準測試中表現(xiàn)良好（準確率 85% – 95%），但人類表現(xiàn)與包括 V-JEPA 2 在內(nèi)的頂級模型之間存在明顯差距，這表明模型需要改進的重要方向。

IntPhys 2是專門設計用來衡量模型區(qū)分物理上可能和不可能場景的能力，并在早期的 IntPhys 基準測試基礎上進行構(gòu)建和擴展。

團隊通過一個游戲引擎生成視頻對，其中兩個視頻在某個點之前完全相同，然后其中一個視頻發(fā)生物理破壞事件。

模型必須識別出哪個視頻發(fā)生了物理破壞事件。

雖然人類在這一任務上在多種場景和條件下幾乎達到完美準確率，但當前的視頻模型處于或接近隨機水平。

Minimal Video Pairs ( MVPBench ) 通過多項選擇題測量視頻語言模型的物理理解能力。

旨在減輕視頻語言模型中常見的捷徑解決方案，例如依賴表面視覺或文本線索以及偏見。

MVPBench 中的每個示例都有一個最小變化對：一個視覺上相似的視頻，以及相同的問題但答案相反。

為了獲得一個示例的分數(shù)，模型必須正確回答其最小變化對。

CausalVQA測量視頻語言模型回答與物理因果關系相關問題的能力。

該基準旨在專注于物理世界視頻中的因果關系理解，包括反事實（如果……會發(fā)生什么）、預期（接下來可能發(fā)生什么）和計劃（為了實現(xiàn)目標下一步應該采取什么行動）相關的問題。

雖然大型多模態(tài)模型在回答視頻中 " 發(fā)生了什么 " 的問題方面能力越來越強，但在回答 " 可能發(fā)生了什么 " 和 " 接下來可能發(fā)生什么 " 的問題時仍然存在困難。

這表明在給定行動和事件空間的情況下，預測物理世界可能如何演變方面，與人類表現(xiàn)存在巨大差距。

One More Thing

Meta 還透露了公司在通往高級機器智能之路上的下一步計劃。

目前，V-JEPA 2 只能在單一時間尺度上學習和進行預測。

然而，許多任務需要跨多個時間尺度的規(guī)劃。

所以一個重要的方向是發(fā)展專注于訓練能夠在多個時間和空間尺度上學習、推理和規(guī)劃的分層次JEPA 模型。

另一個重要的方向是多模態(tài)JEPA 模型，這些模型能夠使用多種感官（包括視覺、音頻和觸覺）進行預測。

項目地址：

GitHub：https://github.com/facebookresearch/vjepa2

Hugging Face：https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6

參考鏈接：

[ 1 ] https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

[ 2 ] https://x.com/AIatMeta/status/1932808881627148450

[ 3 ] https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/

— 完 —

量子位 AI 主題策劃正在征集中！歡迎參與專題365 行 AI 落地方案，一千零一個 AI 應用，或與我們分享你在尋找的 AI 產(chǎn)品，或發(fā)現(xiàn)的AI 新動向。

也歡迎你加入量子位每日 AI 交流群，一起來暢聊 AI 吧～

一鍵關注點亮星標

科技前沿進展每日見

一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評論區(qū)留下你的想法！

日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

LeCun 世界模型出 2 代了！62 小時搞定機器人訓練，開啟物理推理新時代

宙世代

一起剪

相關閱讀

2025年第23周中國手機銷量排名：華為nova 14進前三

2K等深微曲屏終結(jié)！一加15曝光：回歸1.5K直屏

微軟測試數(shù)據(jù)遷移新工具：助你擺脫Win10升級Win11！

AI“辣聊”翻車，誰在允許偶像被“分身擦邊”？

小米YU7或?qū)⒂?月26日上市 三款配置/續(xù)航最高835km

高德已可用 華為李小龍：Pura80系列支持長隧道車道級導航定位

科股早知道：供給強約束疊加行業(yè)格局集中背景下，這類化工品正處于價格上行周期

羅永浩數(shù)字人直播首秀：AI講解近10萬字 效果把老羅都嚇一跳

王化回應山東一大學禁用紅米手機考試：技術(shù)公司要求 固有認知沒刷新

Z力覺醒 蛟龍16Z Pro游戲本首發(fā)預約開啟

從“答案”走向“洞察”，深度研究Agent正在淘汰“信息縫合怪”

Synopsys中國業(yè)務開始恢復 但是！EDA還是不能賣

港劇有望登上衛(wèi)視黃金檔！TVB進軍內(nèi)地市場更進一步

“強得不可思議！” 英偉達對手放大招

金表黃金含量縮水17%，西普尼沖刺IPO，胡少華創(chuàng)業(yè)獲莆田岳父力挺

最新評論

量子位

熱門訂閱 換一批

騎鯨出海

董秘學苑

小米YU7或?qū)⒂?月26日上市三款配置/續(xù)航最高835km

高德已可用華為李小龍：Pura80系列支持長隧道車道級導航定位

羅永浩數(shù)字人直播首秀：AI講解近10萬字效果把老羅都嚇一跳

王化回應山東一大學禁用紅米手機考試：技術(shù)公司要求固有認知沒刷新

Z力覺醒蛟龍16Z Pro游戲本首發(fā)預約開啟

Synopsys中國業(yè)務開始恢復但是！EDA還是不能賣

熱門訂閱換一批