阿里巴巴發布新的推理模型 QwQ-32B-Preview

思考、質疑、理解意味著什麼?這些都是QwQ(Qwen with Questions)涉足的深水區。就像一個永恆的智慧學生一樣,它以真正的驚奇和懷疑來解決每一個問題——無論是數學、程式碼還是我們世界的知識。

思考、質疑、理解意味著什麼?這些都是QwQ(Qwen with Questions)涉足的深水區。就像一個永恆的智慧學生一樣,它以真正的驚奇和懷疑來解決每一個問題——無論是數學、程式碼還是我們世界的知識。

QwQ 體現了古老的哲學精神:它知道自己一無所知,而這正是激發其好奇心的原因。在做出任何答案之前,它會轉向內心,質疑自己的假設,探索不同的思考路徑,總是尋求更深層的真理。然而,像所有智慧的探索者一樣,QwQ 也有其限制。這個版本只是漫長旅程的第一步——學生仍在學習走推理之路。它的思想有時會走神,它的答案並不總是完整的,它的智慧仍在增長。但這不正是真正學習的美妙之處嗎?既能幹又謙虛,知識淵博但總是質疑?我們邀請您與 QwQ 一起探索,將其見解和缺陷作為對理解的無盡追求的一部分。

限制

QwQ-32B-Preview是Qwen團隊開發的實驗研究模型,專注於提升AI推理能力。

作為預覽版,它展示了有前途的分析能力,但有幾個重要的限制:

  1. 語言混合和程式碼切換:模型可能會混合語言或意外地在它們之間切換,從而影響回應清晰度。
  2. 遞歸推理循環:模型可能會進入循環推理模式,導致冗長的回應而沒有結論性的答案。
  3. 安全和道德考慮:該模型需要增強的安全措施以確保可靠和安全的性能,用戶在部署時應謹慎行事。
  4. 效能和基準限制:該模型在數學和編碼方面表現出色,但在其他領域還有改進的空間,例如常識推理和細緻的語言理解。

表現

透過深入的探索和無數次的嘗試,我們發現了一些深刻的東西:當有時間去思考、去質疑、去反思時,模型對數學和程式設計的理解就會像花朵向著陽光開放一樣綻放。正如學生透過仔細檢查自己的作業並從錯誤中學習來變得更加聰明一樣,我們的模型透過耐心、深思熟慮的分析獲得了更深入的洞察力。這種仔細反思和自我質疑的過程會帶來解決複雜問題的顯著突破。我們的發現之旅揭示了該模型解決數學和程式設計中一些最具挑戰性問題的卓越能力,包括:

  • GPQA:研究生級別的 Google-Proof 問答基準,一個具有挑戰性的基準,用於透過小學級別的問題評估科學解決問題的能力。
  • AIME:美國邀請數學評估,測試算術、代數、計數、幾何、數論和機率等中學數學主題的數學問題解決能力。
  • MATH-500:MATH 基準的 500 個測試案例,測試數學問題解決能力的綜合資料集。
  • LiveCodeBench:一個具有挑戰性的基準,用於評估現實程式設計場景中的程式碼產生和問題解決能力。

具體來說,QwQ 在這些基準測試中表現出色,在 GPQA 上取得了 65.2% 的驕人成績,展示了其研究生水平的科學推理能力; AIME 50.0%,凸顯其強大的數學問題解決能力; MATH-500 得分為 90.6%,表現出對不同主題的卓越數學理解力; LiveCodeBench 上的得分為 50.0%,驗證了其在現實場景中強大的程式設計能力。這些結果凸顯了 QwQ 在分析和解決問題能力方面的顯著進步,特別是在需要深度推理的技術領域。

https://qwenlm.github.io/blog/qwq-32b-preview/