Google 發布基於 Gemini 模型 Agent - SIMA 2

Google DeepMind 團隊推出基於 Gemini 模型 Agent - SIMA 2,這是一款通用型人工智慧,能夠在各種虛擬環境中執行基本指令。

Google DeepMind 團隊推出基於 Gemini 模型 Agent - SIMA 2,這是一款通用型人工智慧,能夠在各種虛擬環境中執行基本指令,SIMA 2 正從一個指令執行者進化為一個互動遊戲夥伴。它不僅能夠在虛擬世界中執行人類語言指令,現在還能思考自身目標、與使用者互動,並隨著時間的推移不斷自我改進。

推理的力量

SIMA 的第一個版本學會了在各種商業電子遊戲中執行 600 多項語言跟隨技能,例如「向左轉」、「爬梯子」和「打開地圖」。它在這些環境中像真人一樣操作,透過「看」螢幕並使用虛擬鍵盤和滑鼠進行導航,而無需訪問底層遊戲機制。

SIMA 2 超越了簡單的指令執行。透過將 Gemini 模型嵌入智能體的核心,SIMA 2 不僅可以回應指令,還能思考和推理指令。

SIMA 2 的新架構整合了 Gemini 強大的推理能力,幫助它理解用戶的高級目標,執行複雜的推理以實現目標,並在遊戲中熟練地執行以目標為導向的操作。

泛化性能的飛躍

Gemini 的加入也提升了 SIMA 2 的泛化能力與可靠性。與前代產品相比,SIMA 2 現在能夠理解更複雜、更細緻的指令,並且在執行這些指令方面也更加成功,尤其是在從未接受過訓練的場景或遊戲中,例如新的維京生存遊戲 ASKA,或是 MineDojo——一款基於熱門開放世界沙盒遊戲 Minecraft 的研究性實現。

展望未來:邁向通用具身智能之路

SIMA 2 能夠在各種遊戲環境中運行,這是通用智能的重要試驗場,使智能體能夠掌握技能、練習複雜的推理,並透過自主遊戲不斷學習。

儘管SIMA 2是邁向通用型、互動式、具身智慧的重要一步,但它本質上仍是一項研究工作,其目前的限制也凸顯了未來研究的關鍵領域。

https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/

Picture Source
Google