智東西
編譯 程茜
編輯 李水青
智東西9月18日消息,今天凌晨,OpenAI和谷歌前后腳宣布,自家模型在全球知名編程競賽ICPC 2025獲得金牌級別的表現(xiàn)。
OpenAI推理系統(tǒng)答對了全部12道題目,并且一次性答對11道題,最難的題目提交了9次后成功,與人類團(tuán)隊相比可排第一;Gemini 2.5 Deep Think高級版本在677分鐘內(nèi)解出10道題,與人類團(tuán)隊相比可位列第二。
ICPC的要求是參賽者在5個小時內(nèi)解出12道復(fù)雜算法問題,解題方案是否完美、解題耗時都會影響積分。
最終139支隊伍中獲得金牌的只有前四名,分別為圣彼得堡國立大學(xué)、東京大學(xué)、北京交通大學(xué)、清華大學(xué),解出題目最多的是圣彼得堡國立大學(xué),共11道。
▲ICPC拿下金牌的人類團(tuán)隊
這是繼2個月前,OpenAI推理系統(tǒng)、谷歌Gemini 2.5 Deep Think在國際數(shù)學(xué)奧林匹克競賽(IMO)之后,又一次在頂尖國際競賽中證明了自己的實力。
谷歌Gemini 2.5 Deep Think高級版本參加ICPC總決賽的代碼已經(jīng)在GitHub開源。
GitHub地址:https://github.com/google-deepmind/gemini_icpc2025
一、OpenAI拿下滿分,谷歌錯兩道
ICPC是全球公認(rèn)的歷史最悠久、規(guī)模最大、最負(fù)盛名的大學(xué)級算法編程競賽,每年來自近3000所大學(xué)和超過103個國家的參與者競相解決現(xiàn)實世界的編程問題。
OpenAI和谷歌都參與并獲得金牌級別表現(xiàn),OpenAI推理系統(tǒng)解答了12道題,谷歌Gemini 2.5 Deep Think高級版本答出10道題,最好的人類團(tuán)隊答出11道題。
1、OpenAI:拿下滿分,11道題一次就做對
OpenAI推理系統(tǒng)獲得滿分。
OpenAI提到并沒有專門為ICPC訓(xùn)練模型,其采用通用推理模型組合的方式參賽。
比賽中,GPT-5與一款實驗性推理模型共同生成解題方案,由該實驗性推理模型負(fù)責(zé)篩選待提交的方案。最終,GPT-5正確解答了11道題目,而最后一道也是難度最高的一道題目由這款實驗性推理模型解決。
其模型一次性答對了11道題,最難的問題在第9次提交時成功了。
2、谷歌:答對10道題,45分鐘解出8道題
Gemini 2.5 Deep Think高級版本按照ICPC規(guī)則在遠(yuǎn)程在線環(huán)境中進(jìn)行現(xiàn)場比賽,比人類參賽者晚10分鐘開始。Gemini總共花費677分鐘,解決了12個問題中的10個,其中8個花費45分鐘,另外2個問題花費3個小時。
下圖是2025年ICPC總決賽中解決每個問題所用的時間,Gemini所花的時間以藍(lán)色顯示,最快的大學(xué)生團(tuán)隊的時間以灰色顯示。
Gemini在3道題目上的解題時間都超過了人類。
▲ICPC總決賽中解決每個問題所用的時間
此外,谷歌DeepMind還提到一道困住所有人類團(tuán)隊的難題,被Gemini在半小時內(nèi)成功解答。
問題C要求團(tuán)隊設(shè)計一套解決方案,通過相互連接的管道網(wǎng)絡(luò)將液體輸送至一組儲液罐,目標(biāo)是找到一種管道配置,以最快速度將所有儲液罐注滿。
該問題存在無限多種可能的配置,因為每條管道均可處于開啟、關(guān)閉甚至部分開啟的狀態(tài),這使得尋找最優(yōu)配置的難度極大。
▲問題C簡介
Gemini找到了有效的解決方案:它首先假設(shè)每個水庫都有一個“優(yōu)先級值”,代表每個水庫與其他水庫相比應(yīng)該獲得的優(yōu)先程度。
當(dāng)給定一組優(yōu)先級值時,可以使用動態(tài)規(guī)劃算法找到管道的最佳配置。
Gemini發(fā)現(xiàn),通過應(yīng)用極小極大定理(Minimax Theorem),原問題可轉(zhuǎn)化為尋找能使最終流量受到最大約束的優(yōu)先級數(shù)值。
借助優(yōu)先級數(shù)值與最優(yōu)流量之間的關(guān)聯(lián),Gemini在類似碗狀的凸性解空間中,通過嵌套三分搜索(Nested Ternary Searches)快速找到最優(yōu)優(yōu)先級數(shù)值,最終解決了C題。
目前訂閱Google AI Ultra的Gemini用戶已經(jīng)可以在Gemini App中使用輕量級版本的Gemini 2.5 Deep Think。
二、ICPC金牌水平,展現(xiàn)大模型抽象推理能力
谷歌DeepMind的博客中提到,Gemini的表現(xiàn)得益于其在預(yù)訓(xùn)練、訓(xùn)練后、強化學(xué)習(xí)技術(shù)、多步驟推理和平行思維方面的技術(shù)創(chuàng)新。
例如,在強化學(xué)習(xí)過程中,研究人員訓(xùn)練Gemini為編程人員面臨的一些最困難的問題進(jìn)行推理和生成代碼,從結(jié)果反饋中學(xué)習(xí)并改進(jìn)其方法。為了解決一個問題,多個Gemini Agent會各自提出自己的解決方案,使用終端執(zhí)行代碼和測試,然后根據(jù)所有嘗試迭代解決方案。
谷歌DeepMind的內(nèi)部研究表明,Gemini 2.5 Deep Think高級版本也能在2023年和2024年ICPC世界總決賽中取得金牌級別的表現(xiàn),表現(xiàn)不亞于全球前20名競技開發(fā)者。
在ICPC上獲得金牌水平對軟件開發(fā)具有直接的實際影響,如果將比賽中最好的AI和人類解決方案結(jié)合起來,所有12個問題都會得到徹底和正確的解決。這表明AI有潛力提供獨特思路,為人類專家提供補充。
除了數(shù)學(xué)和編程外,Gemini 2.5 Deep Think高級版本還展示了在抽象推理方面的能力。
這是因為,ICPC的問題需要模型理解復(fù)雜的問題、設(shè)計多步驟的邏輯計劃、完美實施,這一過程與許多科學(xué)和工程領(lǐng)域所需的技能相同,包括設(shè)計新藥或微芯片等領(lǐng)域。
OpenAI的研究人員在X上發(fā)布帖子稱,他們采用同一組模型參加IMO和IOI競賽,展示了模型性能以及通用型。
結(jié)語:大模型復(fù)雜抽象問題解決能力提升
從國際數(shù)學(xué)奧林匹克競賽(IMO)到此次的編程競賽,OpenAI以及谷歌的模型在解決更具挑戰(zhàn)的數(shù)學(xué)、推理難題上迸發(fā)出巨大潛力。ICPC全球執(zhí)行董事Bill Poucher博士稱,ICPC一直致力于在解決問題方面設(shè)定最高標(biāo)準(zhǔn),Gemini在這一領(lǐng)域取得的成績,標(biāo)志著定義下一代所需AI工具和學(xué)術(shù)標(biāo)準(zhǔn)的關(guān)鍵時刻。
這些在競爭性編程和數(shù)學(xué)推理方面的突破共同證明了大模型在抽象推理問題解決方面的性能飛躍,或能與人類專家結(jié)合,解決更加復(fù)雜的難題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.