阿里巴巴 Qwen 團隊發布了下一代模型架構 Qwen3-Next,並引入了多項關鍵改進,如混合注意力機制、高度稀疏的混合專家 (MoE) 結構等技術,有利於訓練穩定性的優化,以及用於更快推理的多 token 預測機制。
基於這項全新架構,Qwen 團隊訓練了 Qwen3-Next-80B-A3B-Base 模型-一個擁有 800 億個參數的模型,但在推理過程中僅啟動 30 億個參數。
此基礎模型的表現與密集的 Qwen3-32B 模型相當(甚至略勝一籌),但訓練成本(GPU 小時)卻不到後者的 10%。在推理過程中,尤其是在上下文長度超過 32K 個 token 的情況下,它實現了 10 倍以上的吞吐量提升,在訓練和推理方面均實現了極致的效率。
Qwen3 -Next-80B-A3B-Instruct 的性能與旗艦模型 Qwen3-235B-A22B-Instruct-2507 相當,並且在需要超長上下文(最多 256K 個 token)的任務中顯示出明顯的優勢。
Qwen3 -Next-80B-A3B-Thinking 在複雜的推理任務中表現出色——優於 Qwen3-30B-A3B-Thinking-2507 和 Qwen3-32B-Thinking 等成本更高的模型,在多個基準測試中優於閉源的 Gemini-2.5-Flash-Thinking,並接近頂級模型 Qwen3-235B-A22B-Thinking-2507 的性能。
主要特點:
- 混合架構:門控 DeltaNet + 門控注意力
- 超稀疏 MoE:僅啟動 3.7% 的參數
- 有利於訓練穩定性的設計
- 多標記預測
Picture Source:
Alibaba