擴展強化學習 (RL) 有可能提高模型效能,超越傳統的預訓練和後訓練方法。最近的研究表明,RL 可以顯著提高模型的推理能力。例如,DeepSeek R1 透過整合冷啟動資料和多階段訓練實現了最先進的效能,實現了深度思考和複雜推理。
我們的研究探討了強化學習(RL)的可擴展性及其對增強大型語言模型智慧的影響。我們很高興推出 QwQ-32B,這是一個具有 320 億個參數的模型,其性能可與 DeepSeek-R1 相媲美,後者擁有 6710 億個參數(其中 370 億個已激活)。這項顯著成果強調了 RL 在應用於基於廣泛的世界知識進行預訓練的穩健基礎模型時的有效性。此外,我們還將與代理相關的功能整合到推理模型中,使其能夠在利用工具的同時進行批判性思考,並根據環境回饋調整其推理。這些進步不僅展示了 RL 的變革潛力,而且為追求通用人工智慧的進一步創新鋪平了道路。
QwQ-32B在 Apache 2.0 許可下在Hugging Face和ModelScope中是開放重量級的,可透過Qwen Chat存取。
表現
QwQ-32B 透過一系列基準進行評估,旨在評估其數學推理、編碼能力和一般解決問題的能力。以下結果重點展示了 QwQ-32B 與其他領先模型(包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和原始 DeepSeek-R1)相比的表現。
強化學習
我們從冷啟動檢查點開始,並實施了由基於結果的獎勵驅動的強化學習 (RL) 擴展方法。在初始階段,我們專門針對數學和編碼任務擴展 RL。我們沒有依賴傳統的獎勵模型,而是利用數學問題的準確性驗證器來確保最終解決方案的正確性,並使用程式碼執行伺服器來評估產生的程式碼是否成功通過預先定義的測試案例。隨著訓練的進展,兩個領域的表現都不斷提高。在第一階段之後,我們添加了另一個 RL 階段以實現通用能力。它利用通用獎勵模型和一些基於規則的驗證器的獎勵進行訓練。我們發現,這一階段的 RL 訓練只需少量步驟,就能提高其他一般能力的表現,例如遵循指令、與人類偏好保持一致以及代理性能,而不會導致數學和編碼性能明顯下降。
未來工作
這標誌著 Qwen 在擴展強化學習(RL)以增強推理能力方面邁出了第一步。透過這趟旅程,我們不僅見證了擴展 RL 的巨大潛力,而且還認識到預訓練語言模型中尚未開發的可能性。在我們致力於開發下一代 Qwen 的過程中,我們相信,將更強大的基礎模型與由擴展運算資源驅動的 RL 相結合,將使我們更接近實現通用人工智慧 (AGI)。此外,我們正在積極探索將代理與 RL 結合,以實現長遠推理,旨在透過推理時間擴展來釋放更高的智慧。