阿里巴巴發布針對真實執行場景訓練的 Agent 模型 - iFlow-ROME

iFlow-ROME 是一個基於智能體學習生態系統 (ALE) 的開源智能體學習生命週期模型 (LLM)。

iFlow-ROME 是一個基於智能體學習生態系統 (ALE) 的開源智能體學習生命週期模型 (LLM)。它基於一個 300 億 MoE 架構,僅啟動了 30 億個參數,並使用超過一百萬條高品質軌跡進行訓練。 ROME 在智能體基準測試中表現出色:在 SWE-bench Verified 測試中獲得 57.40% 的分數,在 Terminal-Bench 2.0 測試中獲得 24.72% 的分數,超越了規模相近的模型,甚至可以與參數量超過 1000 億的模型相媲美。

ROME 不是透過增加參數數量來單純地擴展效能,而是透過全端基礎設施和強化學習演算法最佳化來實現跨越參數規模的智慧體效能。

ALE 全端基礎設施

  • ROLL-大規模強化學習優化引擎
  • ROCK – 用於代理執行的安全沙箱和環境編排
  • iFlow CLI – 統一代理框架與開發者介面

IPA策略最佳化演算法

  • 引入交互感知智能體策略優化(IPA)
  • 在語意互動區塊層級執行學分分配
  • 顯著提高長期任務的訓練穩定性和成功率

強大的代理績效

  • 儘管ROME模型規模中等(300 億模型規模,30 億個有效參數),但在標準代理基準測試中,其性能優於同等規模的模型:Terminal-Bench 2.0:24.72%、SWE-bench 驗證:57.40%
  • 性能可與參數超過100 億的型號相媲美,在某些情況下甚至可以與之匹敵

生產級安全

  • 專為在真實環境中自主執行代理而設計
  • 針對以下風險進行了嚴格的風險評估和紅隊演練:未經授權的訪問、非法或不安全的工具調用
  • 以部署級安全保障為設計理念

https://huggingface.co/FutureLivingLab/iFlow-ROME

Picture Source
Alibaba Group