AI首獲奧數(shù)金牌，有人不講武德

2025-07-22 17:03:16　來源: 未盡研究

上海舉報

分享至

谷歌DeepMind終于正式宣布，Gemini的一個能“并行思考”的進(jìn)階模型，真正獲得了今年國際奧林匹克數(shù)學(xué)競賽（IMO）金牌。

Attention is All You Need! 剛剛過去的周末，OpenAI搶在DeepMind之前，達(dá)到了IMO金牌水平，并且公布了答卷。

一年一度的IMO比賽，禁用任何工具和互聯(lián)網(wǎng)、只能閱讀官方題面并以自然語言撰寫完整證明，時長為兩場各4.5小時。這次兩家的模型完整解出了6題中的5題，最終模型拿到 35/42 分——足以摘金！

都答對了題，得分一樣，誰家的模型更好？DeepMind在網(wǎng)站上簡單介紹了這個能“并行思考”的模型，并且將很快推出服務(wù)給用戶；從專家看到的答卷來看，DeepMind的更簡潔清晰。而OpenAI并沒有在其官網(wǎng)上正式公司它奧數(shù)“摘金”，承認(rèn)這是一個實驗性模型，真正推出要等到年底了。

其實現(xiàn)在的Gemini可能已經(jīng)具備奧數(shù)金牌的實力了。UCLA計算機(jī)科學(xué)副教授Lin Yang用Gemini 2.5 Pro，已經(jīng)可以解出6道題中的5道！當(dāng)然要通過精心的提示和流程設(shè)計。

DeepMind去年用了兩個模型，AlphaGeometry 和AlphaProof，通過把試題翻譯成專業(yè)的Lean語言，證明后再翻譯回來。而且解題時間用了兩三天，6道題中做對了4道，達(dá)到了銀牌的水平。今年的新模型用的全部是自然語言。

DeepMind簡單介紹了這個新模型模型：這是先進(jìn)版本的 Gemini Deep Think ，一種針對復(fù)雜問題的增強推理模式，融入了一些最新的研究技術(shù)，包括并行思考。這種設(shè)置讓模型能夠在給出最終答案之前，同時探索并組合多種可能的解法，而不是沿著一條單一、線性的思路推進(jìn)。

DeepMind還用新穎的強化學(xué)習(xí)技術(shù)訓(xùn)練了這個版本的 Gemini，能夠利用更多的多步推理、問題求解和定理證明的數(shù)據(jù)。Gemini 可以訪問一個高質(zhì)量數(shù)學(xué)題解答語料庫，并在指令中加入了一些解決 IMO 問題的一般性提示和技巧。

這個“奧數(shù)金牌”版本的Gemini，將會很快公開使用，解答最難的數(shù)學(xué)題。它還沒有一個正式的名字，需要經(jīng)過一些數(shù)學(xué)家等專業(yè)人士的進(jìn)一步測試，將提供給Google AI Ultra的訂戶使用，月費250美元。

OpenAI強調(diào)它與DeepMind用了不同的方法。OpenAI暗示，他們用了更少的算力，一些研究員認(rèn)為DeepMind的并行思考，可能用了更多的算力。兩家都沒有公布這一點。但算力成本的確是一個衡量性能的關(guān)鍵指標(biāo)，暴力解題，意義就不那么大了。

此外，OpenAI該項目負(fù)責(zé)人Alexander Wei暗示，在 IMO 第6題上（這里不展開具體的實驗設(shè)置），模型“知道”自己沒有一個正確的解答?！澳Ｐ湍芤庾R到自己不知道答案，這是我們當(dāng)時非常興奮的一個早期跡象，也讓我們看到了這條研究方向的潛力！”

UC伯克利博士生、負(fù)責(zé)通用智能體項目的Michael Luo認(rèn)為：聽起來這個模型（我猜是 o3/o4 的一個分支）是用 LLM 作為評審、并且在超長上下文里訓(xùn)練出來的。需要非常精細(xì)的提示詞和智能體工程，才能確保證明在自動化的情況下（不用 LEAN）依然有效。不過這一點應(yīng)該與Gemini沒有明顯區(qū)別。

DeepMind的奧數(shù)項目負(fù)責(zé)人是越南裔的Thang Luong，他研究超級智能，立即在自我介紹中加上了AI IMO金牌得主。OpenAI負(fù)責(zé)人研究推理模型的科學(xué)家Alexander Wei。

（左Thang Luong，右Alexander Wei）

華人是真正的金牌得主

這次比賽結(jié)果沒有太大的懸念，按團(tuán)體成績排名：中國（第 1 名）、美國（第 2 名）、韓國（第 3 名）、波蘭和日本（并列第 4 名）、以色列（第 6 名）、印度（第 7 名）、新加坡（第 8 名）、越南（第 9 名）和土耳其（第 10 名）。

第一屆 IMO 于1959年舉辦，但中國直到1985年才首次參賽，并獲得了一枚銅牌。4年后的1989年，中國贏得了首次 IMO 冠軍，后來的 36 年里，中國持續(xù)稱霸賽場，共獲得了25次IMO 冠軍和191枚金牌。目前美國奧數(shù)隊的成員中，華裔擔(dān)當(dāng)了主力，往屆獲獎?wù)咧?，有許多成為AI領(lǐng)域的創(chuàng)業(yè)者，其中典型的是AI編程智能體公司Cognision，創(chuàng)業(yè)團(tuán)隊都是華人，擁有10塊奧數(shù)獎牌。

至于說在DeepMind和OpenAI的研究團(tuán)隊，其明星項目中的華人研究人員之多，已經(jīng)不必細(xì)數(shù)了。

OpenAI“不講武德”

誰首次獲得奧數(shù)冠軍，這件事意義太重大了，OpenAI是不甘心白白讓死對頭DeepMind摘走這個桂冠的。

當(dāng)?shù)貢r間周五下午，DeepMind 獲得今年奧數(shù)金牌的消息泄露。周六凌晨 1 點，OpenAI 搶先宣布自己的模型IMO“摘金”，搶走了風(fēng)頭。DeepMind和IMO官方花了些時間來驗證，結(jié)果發(fā)現(xiàn)OpenAI根本就沒讓IMO參與，而是找了幾位前IMO金牌得主做了非官方的評審。直到周一，完全經(jīng)過IMO的驗證之后，DeepMind 才官宣確認(rèn)拿到金牌。

DeepMind說，我遵守了IMO的規(guī)則，證明過程經(jīng)過競賽組織方的專家審核，并且在先宣布了獲獎的學(xué)生選手之后，才正式公布，所以，我是官方承認(rèn)的。

不過，OpenAI也沒說自己得了“奧數(shù)冠軍”，它只是說自己達(dá)到了奧數(shù)冠軍的水平，用一只草莓（OpenAI推理模型的代號）掛上一枚金牌。其官網(wǎng)也沒有公布此事。

OpenAI負(fù)責(zé)推理研究的“德?lián)渲酢盢oam Brown透露了一些內(nèi)幕：

“大約兩個月前，IMO（國際數(shù)學(xué)奧林匹克）通過郵件邀請我們參加一個正式的（Lean）版本 IMO。我們一直專注于自然語言中的通用推理，而不受 Lean 這類形式化系統(tǒng)的限制，所以我們婉拒了。他們從來沒有邀請我們參加自然語言的數(shù)學(xué)版本。

在過去幾個月里，我們在通用推理方面取得了大量進(jìn)展。這包括收集、整理并在高質(zhì)量數(shù)學(xué)數(shù)據(jù)集上進(jìn)行訓(xùn)練，這些數(shù)據(jù)也會用于未來的模型。在我們的 IMO 評估中，我們沒有使用 RAG（檢索增強生成）或任何工具。

我們提交的每一個證明都由三位外部 IMO 獎牌獲得者評審，并一致認(rèn)為證明是正確的。我們還公開發(fā)布了這些證明，以便任何人都能驗證其正確性。

在公布成績之前，我們曾與一位 IMO 委員會成員溝通，對方希望我們等到頒獎典禮結(jié)束后再公開成績，這一請求我們欣然接受。

我們在太平洋時間凌晨 1 點（澳大利亞東部標(biāo)準(zhǔn)時間下午 6 點）于頒獎結(jié)束后發(fā)布。期間沒有任何人要求我們比這更晚公布?！?/p>

但是IMO方面這次對OpenAI感到不爽。IMO官員Joseph Myers認(rèn)為，AI開發(fā)商應(yīng)該在頒獎儀式之后一周才宣布其比賽結(jié)果，否則的話就“粗俗和不合適”。公眾關(guān)注的焦點，應(yīng)該在人類參賽選手上，而不是讓AI搶去了風(fēng)頭。他指責(zé)OpenAI沒有與IMO合作，也沒有IMO的專家參與評審OpenAI的答題卷。數(shù)學(xué)家陶哲軒也對不經(jīng)IMO審核的行為持保留意見。

OpenAI的始終與IMO官方保持溝通，聽起來也是合理的。一些人認(rèn)為DeepMind得金牌名正言順，更值得尊重；另一些人認(rèn)為，這體現(xiàn)出不同的企業(yè)文化，DeepMind是大公司的作風(fēng)。

誰真正的奧數(shù)學(xué)霸，我們認(rèn)為應(yīng)該還是DeepMind，它開拓了用AI解答疑難數(shù)學(xué)題的研究，開發(fā)并公布了一系列模型，這次IMO認(rèn)可其金牌水平，也是實至名歸：

AlphaEvolve

AlphaProof

AlphaGeometry

FunSearch

AlphaDev

AlphaTensor

AlphaCode

不過，國際上數(shù)學(xué)及AI圈子里越來越多人意識到，明年的奧數(shù)賽，實際就是三個隊競爭前茅了：華人中國奧數(shù)隊，華人美國奧數(shù)隊，還有AI隊。

再往后，可能是華人代表人類與AI競賽了。

1，DeepMind的答卷在此：

https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf

2，OpenAI的答卷在此：

https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.