AI21Labs 發布迷你語言模型 Jamba Reasoning3B

AI21Labs 推出 Jamba Reasoning 3B,這是一個緊湊的開源推理模型,它重新定義了設備端推理的可能性,也是 Jamba 模型家族新成員的首發之作。

AI21Labs 推出 Jamba Reasoning 3B,這是一個緊湊的開源推理模型,它重新定義了設備端推理的可能性,也是 Jamba 模型家族新成員的首發之作。Jamba Reasoning 3B 基於 SSM-Transformer 架構構建,上下文窗口長度為 256K 個 token,能夠處理高達 1M 個 token,與 DeepSeek、谷歌、Llama 和微軟等競爭對手相比,其效率提升了 2-5 倍,同時還達到了領先的智能基準。

Jamba Reasoning 3B 的發布印證了 NVIDIA 最近的宣言:「小型語言模式是智慧代理 AI 的未來」。 Jamba Reasoning 3B 的混合 SSM-Transformer 架構成功利用了比「原始」Transformer 架構小 8 倍的鍵值快取 (KV),即使在上下文成長的情況下也能保持較低的記憶體佔用。

在 M3 MacBook Pro 上,它每秒可以產生 40 個令牌,上下文長度為 32K,使其成為高級智慧代理應用程式中的精簡元件。

模型速覽

許可證:Apache 2.0
參數數量:3B
上下文視窗長度:256K

Jamba Reasoning 3B 的優點在於:

智慧效能永不下降:由於採用了混合 SSM-Transformer 架構,Jamba Reasoning 3B 比純 Transformer 模型更有效率。大多數基於 Transformer 的模型在上下文長度超過 32K 個 token 時效能會顯著下降,而 Jamba Reasoning 3B 能夠處理更長的上下文長度(包括高達 100 萬個 token),這使得它在高級代理 AI 系統或多模態應用中非常有用,因為長上下文理解對輸出品質至關重要。

領先的智慧:Jamba Reasoning 3B 的表現優於 DeepSeek、Google、Meta 和微軟的其他裝置端模型。它在指令追蹤任務(IFBench)和常識性知識(MMLU-Pro 和 Humanity's Last Exam)方面尤為出色,這使得 Jamba Reasoning 3B 成為一款高效且智慧的模型,可用於高級代理工作流程或裝置端 RAG 應用。這些成果源自於強大的訓練後流程,我們將 RLVR、SFT、DPO 和 GRPO 等對齊訓練技術與我們自主研發的專有方法相結合,以確保卓越的模型品質。

專為設備安全使用而構建:此模型獲得 Apache 2.0 許可,可直接下載到您的計算機或手機上,並使用您自己的文件在設備上進行定制,以實現完全安全的應用程序,即使您的互聯網無法運行,它們也可以繼續運行。

https://www.ai21.com/blog/introducing-jamba-reasoning-3b/

Picture Source
AI21Labs