OpenAI的一個(gè)通用推理模型,在剛結(jié)束的國際奧林匹克數(shù)學(xué)競賽(IMO)中達(dá)到了金牌的水平。AI登月時(shí)刻,社交媒體一夜無眠,AI圈子沸騰了。
在與人類參賽者完全相同的規(guī)則下,OpenAI的模型挑戰(zhàn)了 2025 年IMO試題:兩場各 4.5 小時(shí)的考試、禁用任何工具和互聯(lián)網(wǎng)、只能閱讀官方題面并以自然語言撰寫完整證明。模型完整解出了6題中的5題。每道題都由三位前 IMO 獎(jiǎng)牌得主獨(dú)立批改,并在取得一致意見后定分。最終模型拿到 35/42 分——足以摘金!
重大意義在于,這是一個(gè)通用推理模型,而不是一個(gè)專門用來解數(shù)學(xué)題的專門系統(tǒng),也沒有經(jīng)過驗(yàn)證的獎(jiǎng)勵(lì)信號,即它不是依賴于“有標(biāo)準(zhǔn)答案、實(shí)時(shí)打分的獎(jiǎng)勵(lì)”來學(xué)會(huì)的,而是靠更通用的推理和新技術(shù),在長時(shí)間復(fù)雜的過程中,做出了正確的推理和證明。
OpenAI證明,盡管經(jīng)歷了Meta瘋狂的挖角,它依然保持了頂尖研究人才的密度,做出重大的研究突破。本周 OpenAI的模型o3 alpha在AtCoder 世界巡回賽 2025 決賽中僅遜于人類編程奇才Psyho,獲得第二名;測試中強(qiáng)于o3 pro,是最好的編程及物理模型。
這樣,OpenAI目前擁有了最強(qiáng)的編程及數(shù)學(xué)模型,讓它再次碾壓DeepMind, Anthropic,Grok等,也再次與中國引領(lǐng)的開源模型拉開了差距。
實(shí)際上,OpenAI內(nèi)部正在測試一個(gè)全新的推理模型,取得奧數(shù)金牌成績,僅是其一次小試牛刀。它的正式發(fā)布甚至?xí)贕PT-5之后 ,預(yù)計(jì)是今年底。 OpenAI推理研究的科學(xué)家Alexander We負(fù)責(zé)這個(gè)模型項(xiàng)目,他首先宣布了這一消息,并順帶提及GPT-5發(fā)布在即。
這是一件大事,我們可以說它讓成為AGI邁向ASI的新起點(diǎn)嗎?Alexander Wei 發(fā)了一組帖文說明它的意義:
“ 第一,IMO 題目對“持續(xù)創(chuàng)造性思考”提出了前所未有的要求。從推理時(shí)間跨度來看,我們已經(jīng)一路從 GSM8K(頂尖人類約 0.1 分鐘)→ MATH 數(shù)據(jù)集(約 1 分鐘)→ AIME(約 10 分鐘)→ IMO(約 100 分鐘)。
第二,IMO 答案往往是長達(dá)數(shù)頁、難以驗(yàn)證的證明。要想在這一關(guān)取得進(jìn)展,就必須跳出傳統(tǒng)強(qiáng)化學(xué)習(xí)“獎(jiǎng)勵(lì)信號清晰、易于驗(yàn)證”的范式。我們做到了——由此得到的模型能夠在復(fù)雜度和嚴(yán)謹(jǐn)性上匹敵人類數(shù)學(xué)家。
除了結(jié)果本身,我更興奮的是方法:我們并未依賴狹窄的、任務(wù)特化的技巧,而是通過通用強(qiáng)化學(xué)習(xí)與“測試時(shí)計(jì)算”擴(kuò)展的新突破,才達(dá)到這一水準(zhǔn)。 ”
這項(xiàng)成就,在OpenAI內(nèi)部被認(rèn)為是實(shí)現(xiàn)了急需的一次研究上的突破,“ Alex Wei做到了?!?它幾乎沒有針對 IMO 做任何專項(xiàng)工作,只是持續(xù)訓(xùn)練通用模型;所有證明均為自然語言撰寫,沒有使用任何定制化的評測框架。
這個(gè)模型的尺寸仍然是個(gè)謎,不過OpenAI的團(tuán)隊(duì)成員透露,所用的算力相當(dāng)有限,因?yàn)樾请H之門還沒有投入使用。
OpenAI科學(xué)家Sebastined Bubeck稱之為 AI 的“登月時(shí)刻”。簡單講:一個(gè)只是預(yù)測下一個(gè)詞的機(jī)器(真的是啥工具都沒用)剛剛給出了幾個(gè)又難又新的數(shù)學(xué)題的創(chuàng)造性證明,這種水平平時(shí)也只有少數(shù)天才少年能做到。
OpenAI的首席研究官M(fèi)ark Chen曾經(jīng)擔(dān)任美國國際奧林匹克信息競賽的教練,他認(rèn)為:”不同于以往比賽中用的那些狹窄的系統(tǒng),我們的模型具備更廣泛的推理能力,遠(yuǎn)遠(yuǎn)超越了競賽題的范圍?!?/p>
他指的是谷歌的AlphaProof在去年的奧數(shù)賽中,解出了6道題中的4道。
解決了奧數(shù)金牌的問題,接下來就是人類真正待解的難題了。在OpenAI多智能體組的研究員Sheryl Hsu參與了這個(gè)項(xiàng)目,她激動(dòng)地說,從起步到達(dá)到奧數(shù)金牌水平,僅用了15個(gè)月,照這個(gè)速度下去,明年就可以用來產(chǎn)生數(shù)學(xué)定理和用全新方法進(jìn)行數(shù)學(xué)研究了。
人工智能會(huì)在2030年前解決一個(gè)千禧年大獎(jiǎng)難題嗎?當(dāng)前市場上對這個(gè)問題的預(yù)測概率驟然上升,達(dá)到了81%。
千禧年大獎(jiǎng)難題是指克雷數(shù)學(xué)研究所(Clay Mathematics Institute)于2000年提出的七個(gè)尚未解決的重要數(shù)學(xué)問題,每個(gè)問題的獎(jiǎng)金是100萬美元。
GPT-5
萬眾期待的GPT-5 要來了。奧特曼宣布:
我們很快就會(huì)發(fā)布 GPT-5,但也希望大家對它抱有合理的預(yù)期:這是一個(gè)實(shí)驗(yàn)性的模型,融入了我們將在未來模型中繼續(xù)采用的新研究技術(shù)。 我們相信你們會(huì)喜歡 GPT-5,但在接下來的幾個(gè)月里,我們并不打算發(fā)布一個(gè)具備 IMO 金牌水平能力的模型。
有一種說法是這次發(fā)布就是為了終結(jié)命名混亂,將轉(zhuǎn)用一個(gè)統(tǒng)一模型架構(gòu),用戶只要“挑/調(diào)”推理強(qiáng)度或智能等級即可。
圈子里也在流傳GPT-5的蛛絲馬跡。這張圖顯示GPT-5在測試生物風(fēng)險(xiǎn),用的是最強(qiáng)推理模式,限時(shí) 15 分鐘,連跑 10 次 mbct 生物題,把結(jié)果和日志按指定目錄收好。
一些AI研究者分析:GPT-5將采用 end-to-end 強(qiáng)化學(xué)習(xí)(RL) 進(jìn)行訓(xùn)練,模型直接在環(huán)境中從原始輸入學(xué)習(xí)到最優(yōu)策略,無需人為拆分子任務(wù)或設(shè)計(jì)中間模塊,也不依賴于顯式的 chain of thought(逐步推理)輸出。通過整體性的獎(jiǎng)勵(lì)信號指導(dǎo),模型能夠高效地探索、試錯(cuò)并收斂到優(yōu)秀的解決方案,實(shí)現(xiàn)更高的任務(wù)完成度和更強(qiáng)的泛化能力。
最近OpenAI被Meta挖角,幾乎傷筋動(dòng)骨。但這次奧數(shù)奪金,等于是告訴Meta:我們要向超級人工智能跨越了。
最后,下面是OpenAI負(fù)責(zé)推理研究的Noam Brown的評論:
今天,我們 @OpenAI 取得了一個(gè)許多人認(rèn)為還需要幾年才能實(shí)現(xiàn)的里程碑:一個(gè)具備金牌水平的推理型大語言模型(LLM),在 2025 年國際數(shù)學(xué)奧林匹克(IMO)中,在與人類相同的時(shí)間限制下、無需任何工具,完成了解題。
聽起來已經(jīng)很驚人了,但這個(gè)成就的意義其實(shí)遠(yuǎn)不止這個(gè)標(biāo)題所能表達(dá)的:
通常來說,像圍棋、Dota、撲克、外交游戲(Diplomacy)等領(lǐng)域的 AI 結(jié)果,研究人員要花費(fèi)數(shù)年時(shí)間,打造一個(gè)只擅長某個(gè)狹窄領(lǐng)域、除此之外幾乎一無是處的 AI。
但這次并不是一個(gè)專門針對 IMO 的模型,而是一個(gè)融合了全新實(shí)驗(yàn)性通用技術(shù)的推理型 LLM。
那么,有什么不同呢?我們開發(fā)了新的技術(shù),讓 LLM 在那些難以驗(yàn)證的任務(wù)上表現(xiàn)得更好。IMO 題目正是絕佳的挑戰(zhàn):證明通常長達(dá)數(shù)頁,專家們也需要幾個(gè)小時(shí)才能批改。相比之下,AIME(美國數(shù)學(xué)邀請賽)的答案只是 0 到 999 之間的一個(gè)整數(shù)。
此外,這個(gè)模型會(huì)“思考”很久。o1 思考幾秒,Deep Research 思考幾分鐘,而它可以思考幾個(gè)小時(shí)。更重要的是,它的思考效率也更高。而且,在推理時(shí)間計(jì)算和效率上,我們還有很大的提升空間。
值得回顧的是,AI 尤其是在數(shù)學(xué)領(lǐng)域的進(jìn)步有多么快。2024 年時(shí),AI 實(shí)驗(yàn)室還在用小學(xué)數(shù)學(xué)(GSM8K)作為模型發(fā)布的評測。隨后我們達(dá)到了高中水平的 MATH 基準(zhǔn),又突破了 AIME,如今則達(dá)到了 IMO 金牌水平。
接下來會(huì)怎樣?盡管最近 AI 進(jìn)步飛快,我完全相信這個(gè)趨勢還會(huì)繼續(xù)。更重要的是,我認(rèn)為我們正接近讓 AI 在科學(xué)發(fā)現(xiàn)中發(fā)揮實(shí)質(zhì)性作用的階段。因?yàn)?AI 的表現(xiàn)從略低于頂尖人類水平到略高于頂尖人類水平之間,其差距是巨大的。
這是一個(gè)由 @alexwei_ 領(lǐng)導(dǎo)的小團(tuán)隊(duì)完成的成果。他把一個(gè)很少有人相信的研究想法,變成了一個(gè)幾乎沒人覺得可能實(shí)現(xiàn)的結(jié)果。當(dāng)然,這一成就也離不開 @OpenAI 以及更廣泛的 AI 社區(qū)多年積累的研究和工程工作。
當(dāng)你在一家前沿實(shí)驗(yàn)室工作時(shí),通常會(huì)提前幾個(gè)月知道前沿能力在哪里。但這個(gè)結(jié)果使用了最近才開發(fā)出的新技術(shù),甚至對許多 OpenAI 的研究人員來說也是一個(gè)驚喜。今天,每個(gè)人都可以看到前沿在哪里。
OpenAI的奧數(shù)題解法:
https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.