Google 發布 Gemini Robotics 將代理 AI 帶入實體世界

2025-09-25 IT Dept

本篇文章可能經由機器翻譯或第三方服務翻譯而成，為避免翻譯品質落差造成語意上的誤解，建議參閱原文章內容。由 AI 判讀的觀點不代表原文章之語意表達或事實之陳述，僅做為參考與研究之用。

Google DeepMind 團隊發布了 Gemini Robotics 1.5 模型，使機器人能夠感知、計劃、思考、使用工具並採取行動，以更好地解決複雜的多步驟任務。

大多數日常任務都需要上下文資訊和多個步驟才能完成，這對於當今的機器人來說極具挑戰性。Gemini Robotics-ER 1.5 能夠像高階大腦一樣協調機器人的活動。此模型擅長在物理環境中進行規劃和做出邏輯決策。它擁有先進的空間理解能力，能夠以自然語言進行交互，預估機器人的成功率和進度，並且能夠原生調用 Google 搜尋等工具來查找資訊或使用任何第三方用戶定義的函數。

Gemini Robotics-ER 1.5 會為每個步驟提供自然語言指令，Gemini Robotics 1.5 會利用其視覺和語言理解能力直接執行具體操作。 Gemini Robotics 1.5 也能幫助機器人思考其動作，以便更好地解決語義複雜的任務，甚至可以用自然語言解釋其思考過程，使其決策更加透明。

這兩個模型均基於核心 Gemini 模型系列構建，並已使用不同的資料集進行微調，以專注於各自的任務。結合使用時，它們可以提升機器人泛化能力，使其能夠處理更長的任務和更多樣化的環境。

傳統上，視覺-語言-動作模型將指令或語言計畫直接轉化為機器人的動作。 Gemini Robotics 1.5 不僅可以簡單地翻譯指令或計劃，現在還可以在採取行動之前進行思考。這意味著它可以產生自然語言的內部推理和分析序列，以執行需要多個步驟或更深入的語義理解的任務。

Gemini Robotics 1.5 展現出卓越的跨實例學習能力。它能夠將從一個機器人學到的動作遷移到另一個機器人，而無需針對每個新實例專門自訂模型。這項突破加速了新行為的學習，幫助機器人變得更聰明、更實用。

https://deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/

Picture Source:
Google

需要登入

本篇文章為會員專屬內容，需要登入後才能觀看完整內文。

請透過連結登入會員中心。立即登入

功能列表

需要登入

Need Assistance?

Live Chat With