物理學正在走向人工智能——
Meta 開源發(fā)布V-JEPA 2世界模型:一個能像人類一樣理解物理世界的 AI 模型。
我們相信世界模型將為機器人技術(shù)帶來一個新時代,使現(xiàn)實世界中的 AI 智能體能夠在不需要大量機器人訓練數(shù)據(jù)的情況下幫助完成家務和體力任務。
簡單說,就是能夠?qū)φ鎸嵨锢硎澜缱龀龇磻?AI 模型。
它應該具備以下幾種能力:
理解:世界模型應該能夠理解世界的觀察,包括識別視頻中物體、動作和運動等事物。
預測:一個世界模型應該能夠預測世界將如何演變,以及如果智能體采取行動,世界將如何變化。
規(guī)劃:基于預測能力,世界模型應能用于規(guī)劃實現(xiàn)給定目標的行動序列。
V-JEPA 2(Meta Video Joint Embedding Predictive Architecture 2 )是首個基于視頻訓練的世界模型(視頻是關于世界信息豐富且易于獲取的來源)。
它提升了動作預測和物理世界建模能力,能夠用于在新環(huán)境中進行零樣本規(guī)劃和機器人控制。
V-JEPA 2 采用自監(jiān)督學習框架,利用超過 100 萬小時的互聯(lián)網(wǎng)視頻和圖像數(shù)據(jù)進行預訓練,不依賴語言監(jiān)督,證明純視覺自監(jiān)督學習可以達到頂尖表現(xiàn)。
輸入數(shù)據(jù):利用 100 萬小時互聯(lián)網(wǎng)視頻和 100 萬圖片進行預訓練。
訓練過程:使用視覺掩碼去噪目標進行視頻預訓練。
下游應用分為三類:
理解與預測:行為分類、物體識別、行為預測;
語言對齊:通過與 LLM 對齊實現(xiàn)視頻問答能力;
規(guī)劃:通過后訓練行動條件模型 ( V-JEPA 2-AC ) 實現(xiàn)機器人操作。
V-JEPA 2 采用聯(lián)合嵌入預測架構(gòu)(JEPA),主要包含兩個組件:編碼器和預測器。
編碼器接收原始視頻并輸出能夠捕捉有關觀察世界狀態(tài)的語義信息的嵌入。
預測器接收視頻嵌入以及關于要預測的額外上下文,并輸出預測的嵌入。
V-JEPA 2 的訓練涉及兩個階段:先是無動作預訓練(下圖左側(cè)),然后是額外的動作條件訓練(下圖右側(cè))。
使用 V-JEPA 2 編碼器獲取當前狀態(tài)和目標狀態(tài)的嵌入。
從其觀察到的當前狀態(tài)開始,機器人通過使用預測器來想象采取一系列候選動作的后果,并根據(jù)它們接近目標的速度對候選動作進行評分。
在每個時間步,機器人通過模型預測控制重新規(guī)劃并執(zhí)行朝向該目標的最高評分的下一個動作。
對于更長期的任務,例如拾取物體并將其放置在正確的位置,指定一系列機器人試圖按順序?qū)崿F(xiàn)的視覺子目標,類似于人類觀察到的視覺模仿學習。
通過這些視覺子目標,V-JEPA 2 在新的和未見過的環(huán)境中拾取并放置新物體時,成功率達到 65% – 80%。
Meta 還發(fā)布了三個新的基準測試,用于評估現(xiàn)有模型從視頻中理解和推理物理世界的能力。
雖然人類在所有三個基準測試中表現(xiàn)良好(準確率 85% – 95%),但人類表現(xiàn)與包括 V-JEPA 2 在內(nèi)的頂級模型之間存在明顯差距,這表明模型需要改進的重要方向。
IntPhys 2是專門設計用來衡量模型區(qū)分物理上可能和不可能場景的能力,并在早期的 IntPhys 基準測試基礎上進行構(gòu)建和擴展。
團隊通過一個游戲引擎生成視頻對,其中兩個視頻在某個點之前完全相同,然后其中一個視頻發(fā)生物理破壞事件。
模型必須識別出哪個視頻發(fā)生了物理破壞事件。
雖然人類在這一任務上在多種場景和條件下幾乎達到完美準確率,但當前的視頻模型處于或接近隨機水平。
旨在減輕視頻語言模型中常見的捷徑解決方案,例如依賴表面視覺或文本線索以及偏見。
MVPBench 中的每個示例都有一個最小變化對:一個視覺上相似的視頻,以及相同的問題但答案相反。
為了獲得一個示例的分數(shù),模型必須正確回答其最小變化對。
該基準旨在專注于物理世界視頻中的因果關系理解,包括反事實(如果……會發(fā)生什么)、預期(接下來可能發(fā)生什么)和計劃(為了實現(xiàn)目標下一步應該采取什么行動)相關的問題。
雖然大型多模態(tài)模型在回答視頻中 " 發(fā)生了什么 " 的問題方面能力越來越強,但在回答 " 可能發(fā)生了什么 " 和 " 接下來可能發(fā)生什么 " 的問題時仍然存在困難。
這表明在給定行動和事件空間的情況下,預測物理世界可能如何演變方面,與人類表現(xiàn)存在巨大差距。
Meta 還透露了公司在通往高級機器智能之路上的下一步計劃。
目前,V-JEPA 2 只能在單一時間尺度上學習和進行預測。
然而,許多任務需要跨多個時間尺度的規(guī)劃。
所以一個重要的方向是發(fā)展專注于訓練能夠在多個時間和空間尺度上學習、推理和規(guī)劃的分層次JEPA 模型。
另一個重要的方向是多模態(tài)JEPA 模型,這些模型能夠使用多種感官(包括視覺、音頻和觸覺)進行預測。
項目地址:
GitHub:https://github.com/facebookresearch/vjepa2
Hugging Face:https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6
參考鏈接:
[ 1 ] https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
[ 2 ] https://x.com/AIatMeta/status/1932808881627148450
[ 3 ] https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/
— 完 —
量子位 AI 主題策劃正在征集中!歡迎參與專題365 行 AI 落地方案,一千零一個 AI 應用,或與我們分享你在尋找的 AI 產(chǎn)品,或發(fā)現(xiàn)的AI 新動向。
也歡迎你加入量子位每日 AI 交流群,一起來暢聊 AI 吧~
一鍵關注 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評論區(qū)留下你的想法!