金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
谷歌拿下IMO(國際數(shù)學奧林匹克競賽)金牌的模型——Gemini 2.5 Deep Think,現(xiàn)在可以用起來了。
根據(jù)谷歌DeepMind的最新消息,這個模型已經(jīng)在Gemini App中推出。
并且這個發(fā)布的版本,跟拿下IMO金牌的版本還有略微的區(qū)別。
之前的模型需要好幾個小時才能解決復雜的數(shù)學問題,但App中發(fā)布的版本,速度會更快,實用性也會更強。
但相對的,實力定然不如之前的“完全體”,不過同樣是拿IMO’25的試題實驗,可以達到銅牌的水平。
DeepMind在發(fā)布Gemini 2.5 DeepThink之際,還拉來了數(shù)學家Michel van Garrel來站臺:
- 當我問它一個猜想,我大概有三個思路,但它似乎在考慮20甚至100個
不過這個模型只對Ultra的訂閱用戶開放,每月訂閱費為249.99美元,折合人民幣約1803元。
推理性能超越o3、Grok 4
除了“發(fā)布”的動作之外,DeepMind這次還秀了一波推理性能的肌肉,對標的選手是OpenAI的o3和馬斯克的Grok 4。
主要考量的能力聚焦在了編碼、科學、知識和推理能力上。
結果顯示,在衡量代碼性能的LiveCodeBench V6測試中,以及在衡量不同領域(包括科學和數(shù)學)專業(yè)知識的Humanity’s Last Exam測試中,與不使用工具的其他模型相比,Gemini 2.5 Deep Think均取得最好的成績。
整體來看,Gemini 2.5 Deep Think功能具備以下優(yōu)勢:
- 迭代式開發(fā)與設計:DeepMind團隊對Deep Think在需要逐步構建復雜事物的任務中的表現(xiàn)印象深刻。例如,Deep Think能夠提升網(wǎng)頁開發(fā)任務的美觀性和功能性。
- 科學與數(shù)學領域的發(fā)現(xiàn):由于能夠通過極其復雜的難題進行推理,深度思考能夠成為研究人員的強大工具。它能夠協(xié)助制定和探索數(shù)學猜想,或者對復雜的科學文獻進行推理分析,從而有可能加快發(fā)現(xiàn)的過程。
- 算法開發(fā)與代碼編寫:Deep Think在處理那些需要精心編寫代碼、對問題表述、權衡利弊以及時間復雜度進行仔細考量的難題方面表現(xiàn)尤為出色。
至于其背后的原理,DeepMind總結了一句話:
- 擴展Gemini的并行“思考時間”。
具體而言,正如人類在解決復雜問題時,會花時間從不同角度探索、權衡潛在的解決方案并完善最終答案一樣,Deep Think通過使用并行思維技術,拓展了思維能力的邊界。
這種方法讓Gemini能夠一次性生成眾多想法并同時進行考量,甚至隨著時間的推移修正或結合不同的想法,最終得出最佳答案。
此外,通過延長推理時間或“思考時間”,DeepMind為Gemini提供了更多時間去探索不同的假設,并為復雜問題找到創(chuàng)造性的解決方案。
DeepMind還開發(fā)了新穎的強化學習技術,旨在激勵模型利用這些擴展的推理路徑,從而使Deep Think隨著時間的推移,成為一個更出色、更直觀的問題解決者。
團隊成員還表示,Gemini 2.5 Deep Think用來看論文:
- 它不只是簡單地復述研究論文,而是能以我前所未見的方式,融合不同論文中的觀點。
參考鏈接:
[1]https://blog.google/products/gemini/gemini-2-5-deep-think/
[2]https://x.com/SamuelAlbanie/status/1951322935198630356
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.