Qwen-AgentWorld 是一個原生語言世界模型,它透過跨越七個統一領域的長鏈推理來模擬智能體環境:MCP、搜尋、終端、軟體工程、安卓、Web 和作業系統。它透過一個三階段流程進行訓練:CPT 注入環境知識,SFT 啟動下一狀態預測推理,RL 提升模擬精度,訓練資料來自超過 1000 萬條真實世界的互動軌跡。與以往將世界建模視為事後附加功能的方法不同,Qwen-AgentWorld 是原生世界模型:從 CPT 階段開始,環境建模就是訓練目標。
主要特點:
- 七大統一領域。首個在單一模型中涵蓋七個智能體互動領域的語言世界模型。
- 原生世界模型。從CPT開始進行環境建模,而非事後適應。
- 通用性強、可擴展且可控制的模擬器。可零樣本泛化到物件導向設計(OOD)環境(例如,爪形智能體);可控擾動和虛擬世界建構超越了真實環境訓練。
- 智能體基礎模型。 LWM RL 在單輪非智能體軌跡上的預熱可以遷移到多輪、工具調用智能體任務,涵蓋七個基準測試,其中包括三個完全超出領域範圍的測試。
Qwen-AgentWorld 自繼續預訓練階段起,便將環境建模作為明確目標進行端到端訓練。三階段管線遵循一個核心原則:CPT 注入,SFT 激活,RL 精煉。
階段一:繼續預先訓練(CPT) 透過學習不含思維鏈的交互軌跡,將環境知識注入模型。資料來源涵蓋專用智慧體基礎架構(容器化執行沙箱、MCP 伺服器、Android/Web/OS 模擬器)、開源環境互動軌跡以及內部智慧體軌跡。除環境數據外,我們還引入了涵蓋工業控制、網路安全、法律、醫學、金融和時事等領域的專業知識語料。本階段的一項關鍵貢獻是 輪次層級的資訊理論損失掩碼:透過 4 個表層統計量識別每個(動作, 觀測)對中真正承載環境資訊的對話輪,對其餘輪施加掩碼,使其不參與 loss 計算,但仍保留為上下文輸入。
階段二:監督微調(SFT) 透過 <think>...</think> 包裹的思考過程,為下一狀態預測啟動出顯式的思維鏈推理模式。我們採用拒絕採樣(rejection sampling)篩選高品質思維鏈軌跡,最終獲得 7,094 個訓練樣本。
階段三:強化學習(RL) 以混合獎勵訊號精煉輸出品質。我們基於 GSPO 演算法進行 RL 訓練,獎勵訊號由兩部分組成:基於評分準則的 LLM 評判器(從多個維度評估產生品質),以及基於規則的驗證器(用於客觀可驗證的正確性檢查)。
為系統評估語言世界模型,通義千問推出 AgentWorldBench 一個綜合性評測基準。此基準是基於 5 個前緣模型在 9 個成熟評測集(如 Tool Decathlon、Terminal-Bench 1.0 & 2.0、OSWorld-Verified 等)上的真實環境交互觀測建構而成。每個評測樣本均配備真實環境執行所得的 ground-truth 觀測,支持基於參考的精確評分。 AgentWorldBench 採用開放式評分準則(rubric),從格式、事實性、一致性、真實性和品質五個維度全面評估世界建模能力,深入考察模型的推理能力、領域知識以及長上下文處理水平。
AgentWorldBench 評測結果:各領域五維評分準則平均數。 Qwen-AgentWorld-397B-A17B 取得最高整體得分(58.71),超越 GPT-5.4(58.25)及其他前沿模型。
Qwen-AgentWorld-35B-A3B(Hugging Face, ModelScope)語言世界模型,採用 MoE 架構,總參數 35B / 激活參數 3B,支援 256K 上下文。
https://github.com/QwenLM/Qwen-AgentWorld
Picture Source
Qwen