今天,我們很高興地宣布 V-JEPA 2 正式發布。這是首個基於視訊訓練的世界模型,它能夠實現最先進的理解和預測能力,以及在新環境中進行零樣本規劃和機器人控制。在我們努力實現高階機器智慧 (AMI) 的目標的過程中,擁有能夠像人類一樣學習世界、規劃如何執行不熟悉的任務並高效適應周圍不斷變化的世界的 AI 系統至關重要。
V-JEPA 2 是一個擁有 12 億個參數的模型,它是使用我們在 2022 年首次分享的元聯合嵌入預測架構(JEPA) 建構的。我們先前的工作表明,JEPA 在圖像和3D 點雲等模態下表現良好。 V -JEPA是我們去年發布的第一個視訊訓練模型,在此基礎上,V-JEPA 2 改進了動作預測和世界建模功能,使機器人能夠與不熟悉的物體和環境互動以完成任務。我們也分享了三個新的基準,以幫助研究界評估他們現有的模型使用影片學習和推理世界的程度。透過分享這項工作,我們旨在讓研究人員和開發人員能夠存取最佳模型和基準,以幫助加速研究和進步,最終帶來更優秀、更強大的 AI 系統,從而改善人們的生活。
什麼是世界模型?
我們都知道,如果你把一個網球拋向空中,重力會把它拉回來。如果它懸空,突然在空中旋轉飛向另一個方向,或突然變成蘋果,那真是令人驚訝。這種身體直覺並非成年人經過多年教育就能獲得的——幼兒在能夠說出完整句子之前,就透過觀察周圍的世界培養出了這種直覺。
預測世界將如何回應我們的行為(或他人的行為)的能力是人類一直以來都在運用的,尤其是在規劃行動以及如何最好地應對新情況時。不妨想想這種生理直覺在我們日常生活中是如何被體現的。當我們穿過陌生擁擠的區域時,我們會一邊朝著目的地前進,一邊努力避免撞到沿途的人或障礙物。打冰球時,我們會滑向冰球即將飛向的方向,而不是它目前的位置。用爐子煮飯時,我們會考慮鍋子還要燒多久,或是否要調低火候。我們內在的世界模型不僅為我們提供了這種直覺,還充當著一個內在模擬器,讓我們能夠預測假設行動的結果,最終根據我們認為最能實現目標的方式,選擇最佳行動。
在採取行動之前,我們會使用世界模型來設想潛在的後果。在我們致力於建立能夠先思考後行動的 AI 代理的過程中,讓它們學習實現以下功能的世界模型至關重要:
- 理解:世界模型應該能夠理解對世界的觀察,包括辨識影片中的物體、動作和運動等。
- 預測:世界模型應該能夠預測世界將如何發展,以及如果代理人採取行動,世界將如何變化。
- 規劃:基於預測能力,世界模型應該有助於規劃實現給定目標的行動序列。
我們的長期願景是,世界模型將使 AI 代理能夠在物理世界中進行規劃和推理。為了實現這一願景,我們即將發布 V-JEPA 2,這是一個主要基於視頻進行訓練的世界模型——視頻是豐富且易於獲取的世界信息來源。透過將 V-JEPA 2 代碼和模型檢查點開放給商業和研究應用,我們希望圍繞這項研究建立一個廣泛的社區,推動我們朝著最終目標邁進,即開發能夠改變 AI 與物理世界交互方式的世界模型。
https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks
Picture Source:
ai.meta