谷歌DeepMind終于正式宣布,Gemini的一個能“并行思考”的進(jìn)階模型,真正獲得了今年國際奧林匹克數(shù)學(xué)競賽(IMO)金牌。
Attention is All You Need! 剛剛過去的周末,OpenAI搶在DeepMind之前,達(dá)到了IMO金牌水平,并且公布了答卷。
一年一度的IMO比賽,禁用任何工具和互聯(lián)網(wǎng)、只能閱讀官方題面并以自然語言撰寫完整證明,時長為兩場各4.5小時。這次兩家的模型完整解出了6題中的5題,最終模型拿到 35/42 分——足以摘金!
都答對了題,得分一樣,誰家的模型更好?DeepMind在網(wǎng)站上簡單介紹了這個能“并行思考”的模型,并且將很快推出服務(wù)給用戶;從專家看到的答卷來看,DeepMind的更簡潔清晰。而OpenAI并沒有在其官網(wǎng)上正式公司它奧數(shù)“摘金”,承認(rèn)這是一個實驗性模型,真正推出要等到年底了。
其實現(xiàn)在的Gemini可能已經(jīng)具備奧數(shù)金牌的實力了。UCLA計算機(jī)科學(xué)副教授Lin Yang用Gemini 2.5 Pro,已經(jīng)可以解出6道題中的5道!當(dāng)然要通過精心的提示和流程設(shè)計。
DeepMind去年用了兩個模型,AlphaGeometry 和AlphaProof,通過把試題翻譯成專業(yè)的Lean語言,證明后再翻譯回來。而且解題時間用了兩三天,6道題中做對了4道,達(dá)到了銀牌的水平。今年的新模型用的全部是自然語言。
DeepMind簡單介紹了這個新模型模型:這是先進(jìn)版本的 Gemini Deep Think ,一種針對復(fù)雜問題的增強推理模式,融入了一些最新的研究技術(shù),包括并行思考。這種設(shè)置讓模型能夠在給出最終答案之前,同時探索并組合多種可能的解法,而不是沿著一條單一、線性的思路推進(jìn)。
DeepMind還用新穎的強化學(xué)習(xí)技術(shù)訓(xùn)練了這個版本的 Gemini,能夠利用更多的多步推理、問題求解和定理證明的數(shù)據(jù)。Gemini 可以訪問一個高質(zhì)量數(shù)學(xué)題解答語料庫,并在指令中加入了一些解決 IMO 問題的一般性提示和技巧。
這個“奧數(shù)金牌”版本的Gemini,將會很快公開使用,解答最難的數(shù)學(xué)題。它還沒有一個正式的名字,需要經(jīng)過一些數(shù)學(xué)家等專業(yè)人士的進(jìn)一步測試,將提供給Google AI Ultra的訂戶使用,月費250美元。
OpenAI強調(diào)它與DeepMind用了不同的方法。OpenAI暗示,他們用了更少的算力,一些研究員認(rèn)為DeepMind的并行思考,可能用了更多的算力。兩家都沒有公布這一點。但算力成本的確是一個衡量性能的關(guān)鍵指標(biāo),暴力解題,意義就不那么大了。
此外,OpenAI該項目負(fù)責(zé)人Alexander Wei暗示,在 IMO 第6題上(這里不展開具體的實驗設(shè)置),模型“知道”自己沒有一個正確的解答?!澳P湍芤庾R到自己不知道答案,這是我們當(dāng)時非常興奮的一個早期跡象,也讓我們看到了這條研究方向的潛力!”
UC伯克利博士生、負(fù)責(zé)通用智能體項目的Michael Luo認(rèn)為:聽起來這個模型(我猜是 o3/o4 的一個分支)是用 LLM 作為評審、并且在超長上下文里訓(xùn)練出來的。需要非常精細(xì)的提示詞和智能體工程,才能確保證明在自動化的情況下(不用 LEAN)依然有效。不過這一點應(yīng)該與Gemini沒有明顯區(qū)別。
DeepMind的奧數(shù)項目負(fù)責(zé)人是越南裔的Thang Luong,他研究超級智能,立即在自我介紹中加上了AI IMO金牌得主。OpenAI負(fù)責(zé)人研究推理模型的科學(xué)家Alexander Wei。
(左Thang Luong,右Alexander Wei)
華人是真正的金牌得主
這次比賽結(jié)果沒有太大的懸念,按團(tuán)體成績排名:中國(第 1 名)、美國(第 2 名)、韓國(第 3 名)、波蘭和日本(并列第 4 名)、以色列(第 6 名)、印度(第 7 名)、新加坡(第 8 名)、越南(第 9 名)和土耳其(第 10 名)。
第一屆 IMO 于1959年舉辦,但中國直到1985年才首次參賽,并獲得了一枚銅牌。4年后的1989年,中國贏得了首次 IMO 冠軍,后來的 36 年里,中國持續(xù)稱霸賽場,共獲得了25次IMO 冠軍和191枚金牌。目前美國奧數(shù)隊的成員中,華裔擔(dān)當(dāng)了主力,往屆獲獎?wù)咧?,有許多成為AI領(lǐng)域的創(chuàng)業(yè)者,其中典型的是AI編程智能體公司Cognision,創(chuàng)業(yè)團(tuán)隊都是華人,擁有10塊奧數(shù)獎牌。
至于說在DeepMind和OpenAI的研究團(tuán)隊,其明星項目中的華人研究人員之多,已經(jīng)不必細(xì)數(shù)了。
OpenAI“不講武德”
誰首次獲得奧數(shù)冠軍,這件事意義太重大了,OpenAI是不甘心白白讓死對頭DeepMind摘走這個桂冠的。
當(dāng)?shù)貢r間周五下午,DeepMind 獲得今年奧數(shù)金牌的消息泄露。周六凌晨 1 點,OpenAI 搶先宣布自己的模型IMO“摘金”,搶走了風(fēng)頭。DeepMind和IMO官方花了些時間來驗證,結(jié)果發(fā)現(xiàn)OpenAI根本就沒讓IMO參與,而是找了幾位前IMO金牌得主做了非官方的評審。直到周一,完全經(jīng)過IMO的驗證之后,DeepMind 才官宣確認(rèn)拿到金牌。
DeepMind說,我遵守了IMO的規(guī)則,證明過程經(jīng)過競賽組織方的專家審核,并且在先宣布了獲獎的學(xué)生選手之后,才正式公布,所以,我是官方承認(rèn)的。
不過,OpenAI也沒說自己得了“奧數(shù)冠軍”,它只是說自己達(dá)到了奧數(shù)冠軍的水平,用一只草莓(OpenAI推理模型的代號)掛上一枚金牌。其官網(wǎng)也沒有公布此事。
OpenAI負(fù)責(zé)推理研究的“德?lián)渲酢盢oam Brown透露了一些內(nèi)幕:
“大約兩個月前,IMO(國際數(shù)學(xué)奧林匹克)通過郵件邀請我們參加一個正式的(Lean)版本 IMO。我們一直專注于自然語言中的通用推理,而不受 Lean 這類形式化系統(tǒng)的限制,所以我們婉拒了。他們從來沒有邀請我們參加自然語言的數(shù)學(xué)版本。
在過去幾個月里,我們在通用推理方面取得了大量進(jìn)展。這包括收集、整理并在高質(zhì)量數(shù)學(xué)數(shù)據(jù)集上進(jìn)行訓(xùn)練,這些數(shù)據(jù)也會用于未來的模型。在我們的 IMO 評估中,我們沒有使用 RAG(檢索增強生成)或任何工具。
我們提交的每一個證明都由三位外部 IMO 獎牌獲得者評審,并一致認(rèn)為證明是正確的。我們還公開發(fā)布了這些證明,以便任何人都能驗證其正確性。
在公布成績之前,我們曾與一位 IMO 委員會成員溝通,對方希望我們等到頒獎典禮結(jié)束后再公開成績,這一請求我們欣然接受。
我們在太平洋時間凌晨 1 點(澳大利亞東部標(biāo)準(zhǔn)時間下午 6 點)于頒獎結(jié)束后發(fā)布。期間沒有任何人要求我們比這更晚公布?!?/p>
但是IMO方面這次對OpenAI感到不爽。IMO官員Joseph Myers認(rèn)為,AI開發(fā)商應(yīng)該在頒獎儀式之后一周才宣布其比賽結(jié)果,否則的話就“粗俗和不合適”。公眾關(guān)注的焦點,應(yīng)該在人類參賽選手上,而不是讓AI搶去了風(fēng)頭。他指責(zé)OpenAI沒有與IMO合作,也沒有IMO的專家參與評審OpenAI的答題卷。數(shù)學(xué)家陶哲軒也對不經(jīng)IMO審核的行為持保留意見。
OpenAI的始終與IMO官方保持溝通,聽起來也是合理的。一些人認(rèn)為DeepMind得金牌名正言順,更值得尊重;另一些人認(rèn)為,這體現(xiàn)出不同的企業(yè)文化,DeepMind是大公司的作風(fēng)。
誰真正的奧數(shù)學(xué)霸,我們認(rèn)為應(yīng)該還是DeepMind,它開拓了用AI解答疑難數(shù)學(xué)題的研究,開發(fā)并公布了一系列模型,這次IMO認(rèn)可其金牌水平,也是實至名歸:
AlphaEvolve
AlphaProof
AlphaGeometry
FunSearch
AlphaDev
AlphaTensor
AlphaCode
不過,國際上數(shù)學(xué)及AI圈子里越來越多人意識到,明年的奧數(shù)賽,實際就是三個隊競爭前茅了:華人中國奧數(shù)隊,華人美國奧數(shù)隊,還有AI隊。
再往后,可能是華人代表人類與AI競賽了。
1,DeepMind的答卷在此:
https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf
2,OpenAI的答卷在此:
https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.