Google DeepMind 團隊發布了 Gemini Robotics 1.5 模型,使機器人能夠感知、計劃、思考、使用工具並採取行動,以更好地解決複雜的多步驟任務。
大多數日常任務都需要上下文資訊和多個步驟才能完成,這對於當今的機器人來說極具挑戰性。Gemini Robotics-ER 1.5 能夠像高階大腦一樣協調機器人的活動。此模型擅長在物理環境中進行規劃和做出邏輯決策。它擁有先進的空間理解能力,能夠以自然語言進行交互,預估機器人的成功率和進度,並且能夠原生調用 Google 搜尋等工具來查找資訊或使用任何第三方用戶定義的函數。
Gemini Robotics-ER 1.5 會為每個步驟提供自然語言指令,Gemini Robotics 1.5 會利用其視覺和語言理解能力直接執行具體操作。 Gemini Robotics 1.5 也能幫助機器人思考其動作,以便更好地解決語義複雜的任務,甚至可以用自然語言解釋其思考過程,使其決策更加透明。
這兩個模型均基於核心 Gemini 模型系列構建,並已使用不同的資料集進行微調,以專注於各自的任務。結合使用時,它們可以提升機器人泛化能力,使其能夠處理更長的任務和更多樣化的環境。
傳統上,視覺-語言-動作模型將指令或語言計畫直接轉化為機器人的動作。 Gemini Robotics 1.5 不僅可以簡單地翻譯指令或計劃,現在還可以在採取行動之前進行思考。這意味著它可以產生自然語言的內部推理和分析序列,以執行需要多個步驟或更深入的語義理解的任務。
Gemini Robotics 1.5 展現出卓越的跨實例學習能力。它能夠將從一個機器人學到的動作遷移到另一個機器人,而無需針對每個新實例專門自訂模型。這項突破加速了新行為的學習,幫助機器人變得更聰明、更實用。
https://deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/
Picture Source:
Google