阿里巴巴集團旗下 Qwen 團隊宣布發表 WorldPM 系列全新偏好建模模型,包括 WorldPM-72B 及其衍生版本 WorldPM-72B-HelpSteer2、WorldPM-72B-RLHFLow、WorldPM-72B-UltraFeedback 等。這項聲明引起了全球人工智慧開發者社群的廣泛關注,被認為是偏好建模領域的重大突破。
WorldPM:偏好建模的新探索
WorldPM(世界偏好建模)是Qwen在偏好建模領域的最新成果。根據官方介紹,該模型透過對超過1500萬個偏好資料點的訓練,驗證了偏好建模與語言建模遵循類似的縮放規律。這項發現表明,隨著數據和模型規模的擴大,偏好模型可以學習統一的偏好表示,從而顯著提高監督學習的表現。
WorldPM-72B 系列擁有 72 億個參數規模,專為評估和優化其他模型的輸出而設計。官方表示,基於WorldPM進行微調比從零開始訓練有顯著提升效能,尤其在需要捕捉人類偏好的場景下表現優異。這使其成為強化學習和監督微調的理想工具,為開發人員提供模型最佳化的有效途徑。
開源策略:賦能全球開發者
Qwen 始終秉持開源精神; WorldPM 系列模型全部採用 Apache2.0 授權協議發布,現已在 Hugging Face 上開放供全球開發者免費下載使用。這項開放策略不僅降低了技術門檻,也進一步鞏固了Qwen在全球開源AI生態系統中的領導地位。 X平台的開發者回饋將WorldPM的發布描述為“開源模型生態系統的新里程碑”,引發了熱烈的討論,尤其是在監督學習和偏好評估領域。
值得注意的是,WorldPM 並不是一個通用的對話模型,而是專注於為其他模型提供偏好評分和最佳化指導。例如,開發人員可以使用 WorldPM-72B 對生成式 AI 的回應進行評分,從而提高特定任務的模型效能。這種專業化的定位使其在人工智慧發展鏈中發揮關鍵作用。
技術亮點:平衡規模與效率
在 WorldPM 的開發過程中,Qwen 團隊從公共論壇收集了多樣化的偏好數據,涵蓋了多個使用者社區,以確保跨不同文化和語言背景的適應性。 WorldPM 的訓練資料規模為 1,500 萬,結合 15 億至 720 億個參數的模型架構,展現出強大的泛化能力。官方技術報告顯示,WorldPM 在對抗性評估中表現優異,測試損失呈現冪律下降趨勢,顯示模型可以有效識別包含故意錯誤的答案,以及不相關或不完整的答案。
此外,WorldPM 中風格偏見的優化值得關注。隨著模型規模的擴大,WorldPM 逐漸表現出風格中立的特徵,克服了主觀評估中常見的偏見問題。這使得它在客觀領域表現尤為出色,尤其是在編碼和數學等需要精確推理的任務中展現出明顯的優勢。
https://www.aibase.com/news/18150
Picture Source:
Alibaba Cloud