今天,我們推出最聰明的 AI 模型 Gemini 2.5。我們的第一個 2.5 版本是 2.5 Pro 的實驗版本,它在廣泛的基準測試中都處於領先地位,並且在LMArena上以顯著優勢排名第一。
Gemini 2.5 模型是思考模型,能夠在做出反應之前透過自己的想法進行推理,從而提高性能和準確性。
在人工智慧領域,系統的「推理」能力不僅僅指分類和預測。它指的是分析資訊、得出合乎邏輯的結論、結合背景和細微差別並做出明智決策的能力。
長期以來,我們一直在探索透過強化學習、思路鏈提示等技術,讓人工智慧變得更聰明、更推理能力。在此基礎上,我們最近推出了我們的第一個思維模型,Gemini 2.0 Flash Thinking。
現在,借助 Gemini 2.5,我們透過結合顯著增強的基礎模型和改進的後期訓練,實現了全新的性能水準。展望未來,我們將把這些思考能力直接融入我們的所有模型中,以便它們能夠處理更複雜的問題,並支援更強大、更具情境感知能力的代理。
Gemini 2.5 Pro 簡介
Gemini 2.5 Pro Experimental 是我們用來執行複雜任務的最先進的模型。它在LMArena排行榜(衡量人類偏好)上以顯著優勢名列前茅,表明該模型性能強大,且具有高品質的風格。 2.5 Pro也表現出強大的推理和編碼能力,在常見的編碼、數學和科學基準測試中處於領先地位。
Gemini 2.5 Pro 現已在Google AI Studio和Gemini 應用程式中針對 Gemini Advanced 用戶推出,並且即將在Vertex AI中推出。我們還將在未來幾週內推出定價,讓人們能夠使用具有更高速率限制的 2.5 Pro 進行規模生產使用。
增強推理
Gemini 2.5 Pro 在一系列需要高階推理的基準測試中都處於領先地位。 2.5 Pro 不使用會增加成本的測試時間技術(如多數投票),在 GPQA 和 AIME 2025 等數學和科學基準測試中處於領先地位。
在「人類的最後考試」中,它在未使用工具的模型中也獲得了 18.8% 的最高分數,這是最先進的成績。 「人類的最後考試」是一個由數百名學科專家設計的資料集,旨在捕捉人類知識和推理的前沿。
進階編碼
我們一直專注於程式設計效能,Gemini 2.5 較 2.0 有了很大的飛躍——未來還會有更多的改進。 2.5 Pro 擅長創建視覺引人注目的 Web 應用程式和代理程式碼應用程序,以及程式碼轉換和編輯。在代理程式碼評估的行業標準 SWE-Bench Verified 上,Gemini 2.5 Pro 透過自訂代理設定獲得了 63.8% 的得分。
以下是一個範例,說明 2.5 Pro 如何利用其推理能力透過從單行提示產生可執行程式碼來創建視訊遊戲。
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025
Picture Source:
Google