DeepReinforce 公開 Agent 推理模型 - Ornith-1

DeepReinforce 團隊正式推出 Ornith-1.0,這是一系列專為智能體編碼任務而設計的開放程式碼自改進模型。

DeepReinforce 團隊正式推出 Ornith-1.0,這是一系列專為智能體編碼任務而設計的開放程式碼自改進模型,Ornith-1.0 涵蓋了從適用於邊緣設備部署的緊湊型 9B Dense 模型到針對最高性能優化的 397B MoE 前沿規模模型的完整範圍,其變體包括 9B Dense、31B Dense、35B MoE 和 397B MoE。

Ornith -1.0基於預訓練的 Gemma 4 和 Qwen 3.5 模型構建,在編碼基準測試中,其性能在同等規模的開源模型中處於領先地位。

Ornith-1.0 的核心創新在於其自我改進的訓練架構。與依賴人工設計的框架來驅動強化學習中的解決方案生成不同,Ornith-1.0 能夠學習生成解決方案的展開式以及指導這些展開式的特定任務框架。透過聯合優化框架和最終解決方案,該模型可以發現更優的搜尋軌跡並產生更高品質的解決方案。

Ornith-1.0 在各種智能體編碼基準測試中,在同等規模的開源模型中取得了最先進的性能:Ornith-1.0-397B( 在 Terminal-Bench 2.1 上得分為77.5 ,在 SWE-Bench Verpus 上得分為82.4)的性能與 Claude Opus 4.7135-7013上。 SWE-Bench Verified 上得分為80.8)相當,並且優於規模相近的領先開源模型,包括 MiniMax M3(在 TB-2.1 上得分為66.0 ,在 SWE-Bench Verified 上得分為80.5)和 DeepSeek-V4-Pro(在TB-261 上得分為80.5 .0.0 上)為6898 上。 Ornith-1.0-9B 可以輕鬆部署在邊緣設備上,其性能可與 Gemma 4-31B 和 Qwen 3.6 35B 等更大的型號相媲美,甚至更勝一籌。

Ornith-1.0-35B 的表現顯著優於類似規模的模型,包括 Qwen 3.5-35B、Qwen 3.6-35B 和 Gemma 31B。儘管只有 350 億個參數,但它在 Terminal-Bench 2.1 測試中甚至超過了 Qwen 3.5-397B(64.4 對 53.5),同時在其他幾個編碼和智能體基準測試中也達到了相同的性能。

Ornith-1.0 的核心是一個自我改進的訓練框架,它能夠共同學習如何解決任務,並建立指導這些解決方案的框架。與依賴固定的、由人設計的、適用於所有任務類別的框架不同,Ornith-1.0 將框架視為一個可學習的對象,並與策略共同演化。

模型亮點

  • 最先進的編碼代理:提供 9B-Dense、31B-Dense、35B-MoE 和 397B-MoE 版本(基於 Gemma 4 和 Qwen 3.5 進行後訓練),在 Terminal-Bench 2.1、SWE-Bench、NL2Repo 和 OpenClaw 等編碼基準測試中同等的開源模型中取得了最先進的效能模型。
  • 自改進訓練框架:Ornith-1.0 採用強化學習 (RL) 技術,不僅學習產生解決方案的展開式,也學習產生驅動這些展開式的鷹架。透過聯合優化腳手架和最終解決方案,該模型能夠發現更優的搜尋軌跡並產生更高品質的解決方案。
  • 許可:MIT 許可,全球可訪問,無地域限制。

Ornith-1.0 提供了一個與 OpenAI 相容的工具呼叫接口,因此它可以與標準代理框架即插即用。

https://deep-reinforce.com/ornith_1_0.html

Picture Source
deep-reinforce.com