Alibaba 發布下一代模型架構 Qwen3-Next

阿里巴巴 Qwen 團隊發布了下一代模型架構 Qwen3-Next,並引入了多項關鍵改進。

阿里巴巴 Qwen 團隊發布了下一代模型架構 Qwen3-Next,並引入了多項關鍵改進,如混合注意力機制、高度稀疏的混合專家 (MoE) 結構等技術,有利於訓練穩定性的優化,以及用於更快推理的多 token 預測機制。

基於這項全新架構,Qwen 團隊訓練了 Qwen3-Next-80B-A3B-Base 模型-一個擁有 800 億個參數的模型,但在推理過程中僅啟動 30 億個參數。

此基礎模型的表現與密集的 Qwen3-32B 模型相當(甚至略勝一籌),但訓練成本(GPU 小時)卻不到後者的 10%。在推理過程中,尤其是在上下文長度超過 32K 個 token 的情況下,它實現了 10 倍以上的吞吐量提升,在訓練和推理方面均實現了極致的效率。

Qwen3 -Next-80B-A3B-Instruct 的性能與旗艦模型 Qwen3-235B-A22B-Instruct-2507 相當,並且在需要超長上下文(最多 256K 個 token)的任務中顯示出明顯的優勢。

Qwen3 -Next-80B-A3B-Thinking 在複雜的推理任務中表現出色——優於 Qwen3-30B-A3B-Thinking-2507 和 Qwen3-32B-Thinking 等成本更高的模型,在多個基準測試中優於閉源的 Gemini-2.5-Flash-Thinking,並接近頂級模型 Qwen3-235B-A22B-Thinking-2507 的性能。

主要特點:

  • 混合架構:門控 DeltaNet + 門控注意力
  • 超稀疏 MoE:僅啟動 3.7% 的參數
  • 有利於訓練穩定性的設計
  • 多標記預測

https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list

Picture Source:
Alibaba