通義千問發布原生世界模型 Qwen-AgentWorld

2026-06-27 IT Dept

本篇文章可能經由機器翻譯或第三方服務翻譯而成，為避免翻譯品質落差造成語意上的誤解，建議參閱原文章內容。由 AI 判讀的觀點不代表原文章之語意表達或事實之陳述，僅做為參考與研究之用。

Qwen-AgentWorld 是一個原生語言世界模型，它透過跨越七個統一領域的長鏈推理來模擬智能體環境：MCP、搜尋、終端、軟體工程、安卓、Web 和作業系統。它透過一個三階段流程進行訓練：CPT 注入環境知識，SFT 啟動下一狀態預測推理，RL 提升模擬精度，訓練資料來自超過 1000 萬條真實世界的互動軌跡。與以往將世界建模視為事後附加功能的方法不同，Qwen-AgentWorld 是原生世界模型：從 CPT 階段開始，環境建模就是訓練目標。

主要特點：

七大統一領域。首個在單一模型中涵蓋七個智能體互動領域的語言世界模型。
原生世界模型。從CPT開始進行環境建模，而非事後適應。
通用性強、可擴展且可控制的模擬器。可零樣本泛化到物件導向設計（OOD）環境（例如，爪形智能體）；可控擾動和虛擬世界建構超越了真實環境訓練。
智能體基礎模型。 LWM RL 在單輪非智能體軌跡上的預熱可以遷移到多輪、工具調用智能體任務，涵蓋七個基準測試，其中包括三個完全超出領域範圍的測試。

Qwen-AgentWorld 自繼續預訓練階段起，便將環境建模作為明確目標進行端到端訓練。三階段管線遵循一個核心原則：CPT 注入，SFT 激活，RL 精煉。

階段一：繼續預先訓練（CPT）透過學習不含思維鏈的交互軌跡，將環境知識注入模型。資料來源涵蓋專用智慧體基礎架構（容器化執行沙箱、MCP 伺服器、Android/Web/OS 模擬器）、開源環境互動軌跡以及內部智慧體軌跡。除環境數據外，我們還引入了涵蓋工業控制、網路安全、法律、醫學、金融和時事等領域的專業知識語料。本階段的一項關鍵貢獻是輪次層級的資訊理論損失掩碼：透過 4 個表層統計量識別每個（動作, 觀測）對中真正承載環境資訊的對話輪，對其餘輪施加掩碼，使其不參與 loss 計算，但仍保留為上下文輸入。

階段二：監督微調（SFT）透過 <think>...</think> 包裹的思考過程，為下一狀態預測啟動出顯式的思維鏈推理模式。我們採用拒絕採樣（rejection sampling）篩選高品質思維鏈軌跡，最終獲得 7,094 個訓練樣本。

階段三：強化學習（RL）以混合獎勵訊號精煉輸出品質。我們基於 GSPO 演算法進行 RL 訓練，獎勵訊號由兩部分組成：基於評分準則的 LLM 評判器（從多個維度評估產生品質），以及基於規則的驗證器（用於客觀可驗證的正確性檢查）。

為系統評估語言世界模型，通義千問推出 AgentWorldBench 一個綜合性評測基準。此基準是基於 5 個前緣模型在 9 個成熟評測集（如 Tool Decathlon、Terminal-Bench 1.0 & 2.0、OSWorld-Verified 等）上的真實環境交互觀測建構而成。每個評測樣本均配備真實環境執行所得的 ground-truth 觀測，支持基於參考的精確評分。 AgentWorldBench 採用開放式評分準則（rubric），從格式、事實性、一致性、真實性和品質五個維度全面評估世界建模能力，深入考察模型的推理能力、領域知識以及長上下文處理水平。

AgentWorldBench 評測結果：各領域五維評分準則平均數。 Qwen-AgentWorld-397B-A17B 取得最高整體得分（58.71），超越 GPT-5.4（58.25）及其他前沿模型。

Qwen-AgentWorld-35B-A3B（Hugging Face, ModelScope）語言世界模型，採用 MoE 架構，總參數 35B / 激活參數 3B，支援 256K 上下文。

https://github.com/QwenLM/Qwen-AgentWorld

Picture Source
Qwen

需要登入

本篇文章為會員專屬內容，需要登入後才能觀看完整內文。

請透過連結登入會員中心。立即登入

功能列表

需要登入

Need Assistance?

Live Chat With