Jim Fan:
幾天前,我看到一篇博客文章,它引起了我的注意。文章說大模型已經通過了圖靈測試,但卻沒人注意到。圖靈測試曾經是神圣不可侵犯的,對吧?它是計算機科學的圣杯,其理念是,你無法區分與你對話的是人類還是機器。
然后,我們就這么悄無聲息地通過了圖靈測試。但當機器思考的時間多了幾秒鐘,或者云端無法調試你糟糕的代碼時,人們就會感到不滿。每一次突破都在平淡無奇中度過,就像又一個普通的周二。
我想提出一個非常簡單的概念,叫做 " 物理圖靈測試 "。設想一下,周日晚上你舉辦了一場黑客馬拉松派對,周一早上,你想找人收拾這一片狼藉,并且在晚餐時為你點上一支精美的蠟燭讓你的伴侶開心起來。而當你回到家時,卻無法分辨這一切是人類還是機器的杰作。
這就是簡單的物理圖靈測試。但我們現在進展到什么程度了呢?快實現了嗎?看看這個類似的機器人,準備去工作,結果卻沒能做好。再看看機器狗面對香蕉皮的場景,還有被指令為你制作早餐麥片的機器人呢?
大家都知道,研究人員經常抱怨。最近,有個叫 ilia 的人抱怨說,預訓練的數據快用完了。他甚至把互聯網比作人工智能的 " 化石燃料 ",還說我們用于訓練網絡的數據即將耗盡。只要和機器人專家相處一天,就知道那些深度學習研究人員有多 " 嬌慣 " 了。
這就是收集到的數據,機器人的關節控制信號,這些是隨時間變化的連續值,無法從互聯網上獲取,在維基百科、YouTube 或其他任何地方都找不到。人們必須自己收集。那要怎么收集的呢?有一種非常復雜但也很昂貴的方法,叫做 " 遠程操作 "。讓人戴上虛 VR 頭盔,頭盔能識別手部動作,并將動作信號傳輸給機器人。
通過這種方式,人類可以教機器人做事,比如從烤面包機里拿出面包,然后在上面淋上蜂蜜。但可以想象,這是一個非常緩慢且痛苦的過程。
這就是現狀,那該怎么辦呢?如何突破這個障礙?機器人領域的 " 核能 " 在哪里?我們需要清潔能源,不能永遠依賴 " 化石燃料 "。于是,模擬技術登場了。
必須離開現實世界,在模擬環境中做點什么。所以嘗試讓機器人的手在模擬環境中完成超越人類靈巧度的任務,比如轉筆。對我來說這是超人類的技能,因為我小時候就放棄嘗試轉筆了。
我很高興機器人至少在模擬環境中比我做得好。那么如何訓練機器人的手完成這樣復雜的任務呢?有兩個思路。第一,模擬速度要比實時快 10000 倍,這意味著在單個 GPU 上并行運行 10000 個物理模擬環境。這是第一點。第二點是,這 10000 個模擬環境不能完全相同,必須改變一些參數,比如重力、摩擦力和重量,我們稱之為 " 域隨機化 "。這就是模擬的原理。
換句話說,現實世界是這些訓練場景的一部分。那么如何應用呢?可以創建一個數字孿生體,也就是機器人和現實世界 1:1 的復制體。然后在訓練模擬中進行測試,再直接應用到現實世界,實現零樣本學習。
可以用手來舉例。這是能完成的最令人印象深刻的任務之一。比如讓機器狗站在球上,然后將訓練成果應用到現實世界。這是在加州大學伯克利分校(UCB),有人在操控機器狗行走。研究人員想法很奇特,這場景看起來就像《黑鏡》里的情節。
實際上,這被稱為 " 尤里卡博士 " 項目。有個研究人員讓他的機器狗站在瑜伽球上,至少現在在機器狗的靈活性方面取得了很大進展,不過真正的狗可做不到。接下來,還可以將這種方法應用到更復雜的機器人上,比如人形機器人。
能做的不止是行走,對吧?當控制身體時,可以追蹤任何想要追蹤的點、任何關鍵部位,跟隨任何想要的速度向量。這就是人形機器人的全身控制問題。
這非常困難,但可以通過并行運行 10000 個模擬環境來進行訓練。將訓練成果零樣本、無需微調地應用到現實機器人上,這是在英偉達實驗室。實際上,需要放慢視頻播放速度。
第一個視頻是實時播放的,下一個視頻是放慢后的??梢钥吹綑C器人動作的復雜性,它在保持平衡的同時做出類似人類的敏捷動作。猜猜完成這些動作需要多大規模的神經網絡?
只需要 150 萬個參數,不是幾十億,150 萬個參數就足以捕捉人體的潛意識處理過程。這個系統的推理過程,150 萬個參數就夠了。如果將其放在速度與模擬多樣性的圖表中,我認為這可以稱為 " 模擬 1.0",也就是數字孿生范式,它使用經典的矢量化物理引擎。
然后可以將模擬速度提升到每秒 1 萬到 100 萬幀。但問題是,必須創建數字孿生體,需要有人構建機器人、搭建環境等等。這非常繁瑣,而且需要大量手工操作。
能不能開始生成模擬的部分內容呢?所有這些 3D 資源都是由 3D 生成模型生成的,所有的紋理來自 Stable Diffusion 或其他擴散模型,所有的場景布局由提示詞和語言模型生成,再編寫 XML 將它們整合在一起,構建了一個名為 "Robot-CASa" 的框架,這是一個大規模的合成模擬框架。
它用于模擬日常任務,除了機器人,其他內容都是生成的。可以組合不同的場景,它仍然依賴經典引擎運行,但已經可以完成很多任務。
現在,可以再次讓人進行遠程操作,但這次是在模擬環境中,而不是在現實機器人上。在模擬環境中重現操作軌跡,并且加入強大的硬件加速光線追蹤技術,讓模擬場景更加逼真。
仍然可以看出這些紋理不是真實的,但已經足夠接近了。把這種足夠接近的情況稱為什么呢?稱之為 " 數字表親 " 范式。它不是數字孿生體,但在一定程度上捕捉到了相似性。這種數字表親模擬運行速度較慢,但它是一種混合生成物理引擎,生成部分內容,然后將其余部分交給經典圖形管道處理。
而視頻聯合模型只用了 1 年時間,就實現了從模擬簡單物體到模擬可變形物體(比如面條)的跨越。這里可能少了點趣味性,但這是我愿意付出的代價。對于最新的 Sora 等策略模型,也只用了 1 年時間,這就是規模擴展和數據驅動過程的力量。
還記得一開始給你們看的視頻嗎?這個視頻里沒有一個真實像素,它完全是由定制模型生成的。使用一個通用的開源 VR 視頻生成模型,在現實機器人實驗室收集的領域數據上進行微調,然后生成了這些內容?,F在,可以通過提示詞讓模型想象不同的未來場景,模擬反事實情況???,這兩幀畫面原本完全相同,但根據不同的語言提示,生成的視頻會做出正確的反應。
即使這些動作在現實世界中從未發生過,也能實現。視頻擴散模型并不在乎場景有多復雜,也不在乎是否有流體或軟體。
同樣地,可以讓它拿起不同的東西,它會用正確的手抓取物體并放入籃子里。這些都是生成的,沒有一個像素是真實的。它還能正確模擬出各種反射效果,對吧?
什么是視頻擴散模型呢?它就像是將數億個互聯網視頻壓縮成一個多元宇宙的模擬場景。很神奇,對吧?在這個夢幻空間里創建機器人,機器人現在可以與任何地方的物體進行交互,無處不在,無所不能。
詹森之前離開了,但我覺得他會很喜歡這個。要擴展經典模擬,需要大量的計算資源,這也是 1.x 系列的情況。問題是,隨著規模的擴大,它會遇到瓶頸,因為手工制作的系統在多樣性方面存在限制。
而神經世界模型,也就是模擬 2.0,將隨著計算資源呈指數級擴展。這就是神經網絡超越經典圖形工程師的地方。兩者相加,將成為擴展下一代機器人系統的 " 核能 "。
在 3 月英偉達 GTC 大會約翰遜(Johnson)的主題演講中開源了一個名為 Groot 的模型。在機器人上運行這個模型,有時候會有很神奇的效果。無法想象在訓練過程中清理了多少數據。它能夠完美地拿起香檳,做得非常好。
它還能完成一些工業任務,比如拿起工廠里的物品,也能實現多機器人協作。Groot 模型是完全開源的,實際上,未來的一系列模型也將開源,因為遵循約翰遜的開源理念,致力于讓物理人工智能更加普及。
在人類歷史的 99% 時間里,一直遵循這樣的模式:從原材料出發,通過人類勞動構建文明。而在過去的 1%,也就是大約 50 年里,人類勞動占比逐漸減少,出現了高度專業化、高度復雜的機器人系統,它們一次只能完成一項任務。
編程成本非常高,但它們仍然在社會中發揮著作用。這就是現狀。未來是要把代表機器人勞動占比的區域擴展到各個領域,就像語言模型 API(LLM API)處理數字和比特一樣,物理 API 將處理原子。
基本上可以給軟件配備物理執行器,讓它改變物理世界。在物理 API 之上,將會出現新的經濟模式和新的范式,比如物理提示。如何指令這些機器人?如何訓練它們?
有時候語言是不夠的。還會有物理應用商店和技能經濟。比如說,米其林星級廚師不必每天都去廚房,他可以訓練機器人,然后將提供米其林星級晚餐作為一種服務。再引用一次約翰遜的話:未來,一切可移動的物體都將實現自動化。
有一天,回到家,會看到干凈的沙發和點著蠟燭的晚餐,伴侶會微笑著迎接,而不是因為沒洗衣服而大喊大叫,這一點每天都激勵著我。上個月買了兩個人形機器人,它們運行良好。
這些機器人就像環境智能一樣融入背景,甚至不會注意到通過物理圖靈測試的那一刻。而那一天,也只會被當作又一個普通的周二被人們記住。謝謝大家。