新智元報(bào)道
編輯:艾倫
【新智元導(dǎo)讀】OpenAI的封閉模型在IOI 2025競賽奪金的同時(shí),英偉達(dá)團(tuán)隊(duì)交出了一份同樣令人振奮的答卷——他們利用完全開源的大模型和全新的GenCluster策略,在IOI 2025競賽中跑出了媲美金牌選手的成績!開源模型首次達(dá)到了IOI金牌水準(zhǔn)。這究竟是怎樣實(shí)現(xiàn)的?
IOI(國際信息學(xué)奧林匹克)是全球中學(xué)生算法編程競賽的最高殿堂,每年只有不到10%選手能拿到金牌。
比賽要求選手在兩天內(nèi)各5小時(shí)獨(dú)立解決3道高難度算法題,全程斷網(wǎng)、不能借助外部資料,每題最多允許50次提交嘗試。
要拿金牌,既要有過硬的算法思維,又得策略得當(dāng)、在有限提交內(nèi)調(diào)優(yōu)代碼。
如此嚴(yán)苛的賽制也成為AI編程能力的試金石。
去年OpenAI曾用專門微調(diào)的o1-ioi模型搭配復(fù)雜的推理策略參賽,但只拿到213分(排名約49%,未達(dá)到銅牌線)。
而今年OpenAI改用通用大模型組合,通過海量生成+自我驗(yàn)證的方法一舉達(dá)成533.29分,排名逼近人類前五、穩(wěn)拿金牌。
這一飛躍展示了大規(guī)模測試時(shí)計(jì)算(TTC,test-time compute,指在模型訓(xùn)練完成之后,實(shí)際用來做推理/生成/回答時(shí)所使用的計(jì)算資源)的威力,也意味著AI已逼近頂尖人類水平。
然而,這些驚人成績大多來自封閉模型,而且具體技巧往往秘而不宣。
相比之下,開源模型雖在Codeforces等公開榜單上進(jìn)步明顯,但總體上仍落后于私有模型的表現(xiàn)。
GenCluster的出現(xiàn)扭轉(zhuǎn)了這一局面。
英偉達(dá)的研究者提出這一可擴(kuò)展測試時(shí)計(jì)算框架,專門提升開源LLM在編程競賽問題上的解題能力。
通過充分利用推理階段的計(jì)算資源,GenCluster讓一個(gè)開源模型(OpenAI發(fā)布的gpt-oss-120b)在IOI 2025題目上首次跑出了446.75分的金牌級(jí)別高分!
他們?cè)谧钚抡撐闹泄_了這一過程的細(xì)節(jié)和代碼,實(shí)現(xiàn)了透明、可復(fù)現(xiàn)的評(píng)測。
下面,我們?cè)敿?xì)看看GenCluster的核心思想和實(shí)現(xiàn)流程。
GenCluster技術(shù)方案
以算力換思路的「四部曲」
GenCluster的理念很直接:用算力彌補(bǔ)思維差距。
既然單次生成代碼往往不靠譜,那就多生成、優(yōu)中選優(yōu)。
GenCluster對(duì)每個(gè)問題(精確到子任務(wù)級(jí)別)執(zhí)行一套 「海選+篩選+比拼+提交」 的流水線流程:
生成候選解:首先,利用大模型并行生成大量不同思路的候選程序代碼。
相比人類選手絞盡腦汁一次寫出一個(gè)解,GenCluster直接調(diào)用LLM來個(gè)「海量腦暴」。
論文中使用的gpt-oss-120b模型會(huì)針對(duì)每個(gè)子任務(wù)產(chǎn)生多達(dá)數(shù)千個(gè)候選方案。
這些代碼風(fēng)格各異、五花八門,相當(dāng)于請(qǐng)出一支「AI解題大軍」,嘗試各種可能的解法。
行為聚類:面對(duì)海量代碼,下一步是篩選歸類。
GenCluster并非簡單按文本相似度分組,而是關(guān)注程序運(yùn)行行為的相似性。
具體做法是讓候選程序跑一系列測試用例(既包括公開樣例,也包括模型或人工設(shè)計(jì)的小型測試),根據(jù)它們輸出的結(jié)果模式將程序分成不同簇。
直觀來說,同一簇內(nèi)的程序「成敗相同」——要么在這些測試上全對(duì),要么犯類似錯(cuò)誤。
這樣可將數(shù)千方案歸為若干行為類別,便于后續(xù)處理。
錦標(biāo)賽排名:有了聚類,還需要從中找到最可能正確的方案。
GenCluster別出心裁地設(shè)計(jì)了一個(gè)「AI 錦標(biāo)賽」環(huán)節(jié):
先從每個(gè)簇挑選一個(gè)代表方案(他們發(fā)現(xiàn)「思路最長」(推理步驟最多)的代碼往往更可靠,因此選取每簇中代碼生成時(shí)思維鏈最長的那個(gè)作為代表);
然后讓這些代表方案在更多對(duì)抗測試中互相比拼,通過勝負(fù)場次來給簇排序。
可以理解為每兩個(gè)方案「踢一場比賽」,看誰通過的測試更多,勝者計(jì)分。
經(jīng)過多輪兩兩對(duì)決,每個(gè)簇都有一個(gè)勝場數(shù),勝場越多表示該簇方案越可能是正確解。
最終得到按「實(shí)力」高低排列的簇列表。
這種LLM自我評(píng)估+行為競賽的排名策略,比簡單按簇大小或投票率排序要精細(xì)得多,尤其適用于多數(shù)候選都不正確的困難場景。
輪轉(zhuǎn)提交:最后進(jìn)入提交策略階段。
由于比賽每題僅有最多50次提交機(jī)會(huì),如何挑選并提交方案至關(guān)重要。
GenCluster采用輪轉(zhuǎn)提交(Round-Robin)的方法兼顧冒險(xiǎn)與穩(wěn)妥:它按照上一步的簇排名依次循環(huán),從每個(gè)簇取出一個(gè)方案提交評(píng)測,然后再輪到下一簇。
如此「雨露均沾」,確保不同思路都有機(jī)會(huì)試錯(cuò),不會(huì)把50次名額浪費(fèi)在一條路上。
每輪提交后,如果發(fā)現(xiàn)某簇的方案已經(jīng)成功拿滿該子任務(wù)的分?jǐn)?shù)(即找到正確解法),那么該簇剩余方案就不再提交,轉(zhuǎn)而嘗試其他簇的方案。
另外,GenCluster傾向先攻克難度最高的子任務(wù),因?yàn)橐坏┠孟伦铍y部分,簡單子任務(wù)往往也迎刃而解。
這種循環(huán)輪轉(zhuǎn)+及時(shí)止損的策略,大幅提高了在有限提交內(nèi)獲取高分的概率。
經(jīng)過以上四步,GenCluster在模擬真實(shí)比賽環(huán)境下,從茫茫代碼中選出了少量最優(yōu)解提交,從而最大化得分。
整個(gè)流程充分利用了大模型強(qiáng)大的生成多樣性和計(jì)算資源,以「廣撒網(wǎng)+巧收網(wǎng)」的方式彌補(bǔ)單次推理不準(zhǔn)確的不足,可謂「用算力換正確率」的典范。
技術(shù)優(yōu)勢
GenCluster比其他方法強(qiáng)在哪?
GenCluster的核心創(chuàng)新在于大規(guī)模生成+智能篩選。
類似的思路以前也有嘗試,例如AlphaCode系統(tǒng)就曾通過生成上百萬代碼并聚類篩選,達(dá)到Codeforces前54%選手水平。
OpenAI在IOI 2025奪金時(shí)也用了超過1萬個(gè)候選項(xiàng)+聚類+學(xué)習(xí)打分的套路。
但GenCluster將這一思路在開源模型上發(fā)揚(yáng)光大,并引入了更精細(xì)的「行為聚類」和「錦標(biāo)賽」機(jī)制來提升篩選效果。
對(duì)比其他可能的策略,GenCluster顯示出明顯優(yōu)勢:
對(duì)比隨機(jī)或簡單規(guī)則:論文實(shí)驗(yàn)讓GenCluster與幾種簡單選擇策略對(duì)比:隨機(jī)挑選方案、按最長推理鏈挑選方案、按最大簇挑選、按多數(shù)投票輸出挑選等。
結(jié)果表明,GenCluster成績遠(yuǎn)超這些基線方法,隨機(jī)選方案最終總分約300分,按最長推理鏈只有277分,而GenCluster高達(dá)446.75分。
顯然,在IOI這樣難度極高、正確解稀少的場景下,盲目選或簡單統(tǒng)計(jì)是靠不住的,GenCluster的精細(xì)篩選策略更勝一籌。
對(duì)比其他聚類策略:如果僅按簇大小選,假設(shè)「大簇更可能有正確解」,反而效果平平(接近隨機(jī))。
這是因?yàn)殄e(cuò)誤解法可能充斥成為大簇;而真正正確的解法往往鳳毛麟角,初始生成時(shí)可能只出現(xiàn)很小的簇。
多數(shù)投票策略(根據(jù)候選程序在測試上的輸出多數(shù)情況來評(píng)價(jià)簇)在這種高難題上也不理想,當(dāng)絕大多數(shù)程序輸出都是錯(cuò)的,「多數(shù)」并不可靠。
相比之下,GenCluster的錦標(biāo)賽排名能更有效地區(qū)分出潛在正確簇。
此外,GenCluster 還通過挑選簇代表的巧思(用思路最長的方案代表簇)進(jìn)一步提高了判斷精度:研究發(fā)現(xiàn)這個(gè)簡單技巧比隨便拿簇中一個(gè)方案當(dāng)代表要好不少。
這些細(xì)節(jié)設(shè)計(jì)讓 GenCluster 的選擇更有「慧眼」,盡量把50次寶貴提交用在刀刃上。
擴(kuò)展性與計(jì)算投入:GenCluster最大的賣點(diǎn)是可擴(kuò)展。它的得分會(huì)隨著生成候選數(shù)量K的增加而提升,并沒有明顯飽和。
從K=50一路增加到5000,最后提交得分從332分穩(wěn)步提升到446.75分。
當(dāng)然,越多候選也增加了篩選難度,但GenCluster的方法能有效在海量方案中挖掘出優(yōu)解,使得投入更多算力就有更高收益。
這種正相關(guān)的擴(kuò)展性非常關(guān)鍵:意味著只要有足夠計(jì)算資源,開源模型的表現(xiàn)還有進(jìn)一步超越當(dāng)前金牌線的潛力。
GenCluster通過一系列策略巧妙地放大了開源模型的解題能力,彌補(bǔ)了模型本身與頂級(jí)閉源模型的差距。
正如作者所說,這為開源模型在復(fù)雜推理任務(wù)上縮小差距乃至后來居上提供了一條可行路徑。
實(shí)驗(yàn)成果
開源模型首奪IOI金牌
英偉達(dá)團(tuán)隊(duì)在IOI 2025全部題目上驗(yàn)證了GenCluster的威力。
他們選用的gpt-oss-120b是今年OpenAI發(fā)布的開源1200億參數(shù)大型模型,具備強(qiáng)鏈?zhǔn)酵评砟芰Γ⒔?jīng)過英偉達(dá)優(yōu)化可高效運(yùn)行。
實(shí)驗(yàn)讓該模型針對(duì)每個(gè)IOI子任務(wù)生成最多5000個(gè)候選方案,并用GenCluster策略從中選取提交。
結(jié)果令人矚目:在嚴(yán)格遵守50次提交限制的情況下,gpt-oss-120b最終總分達(dá)到446.75分,超過當(dāng)年金牌線 438.30分,相當(dāng)于拿下了一枚IOI金牌!
這是歷史上首次有開源權(quán)重的模型達(dá)到此成績。
值得一提的是,這一分?jǐn)?shù)雖然尚未追上OpenAI宣稱的533.29分(后者借助了多個(gè)專有模型集成),但已經(jīng)非常接近人類金牌選手的水平線。
在2025年的賽場上,排名第六名的人類選手得分也在533分附近,而排名28名(金牌最后一名)為438.3分。
也就是說,GenCluster相當(dāng)于打敗了除頂尖幾位選手外的所有人類。
考慮到它使用的還是開源模型,這個(gè)結(jié)果格外鼓舞人心。
更重要的是,英偉達(dá)提供了透明的實(shí)驗(yàn)細(xì)節(jié)和代碼,方便第三方驗(yàn)證和復(fù)現(xiàn)這套方案。
相比之下,OpenAI等公司的封閉方案由于缺乏公布細(xì)節(jié),外界很難評(píng)估其中用到了多少計(jì)算資源、哪些特殊技巧。
GenCluster的工作為學(xué)術(shù)界和開源社區(qū)提供了一個(gè)公開的高水平基準(zhǔn),證明通過開源模型也能達(dá)成過去只有巨頭專有模型才能實(shí)現(xiàn)的成績。
創(chuàng)新意義
開源AI迎來新里程碑
英偉達(dá)GenCluster的成功標(biāo)志著開源AI在頂級(jí)編程競賽領(lǐng)域取得了里程碑式的突破。
以往,封閉大型模型在這類競賽中一騎絕塵,讓人感覺開源方案望塵莫及。
如今,GenCluster 展現(xiàn)出「彎道超車」的可能:只要方法得當(dāng)、資源到位,開源模型也完全有實(shí)力和封閉模型一爭高下。
這樣的案例無疑會(huì)對(duì)AI競賽格局和開源生態(tài)產(chǎn)生深遠(yuǎn)影響:
其一,打開競賽新賽道。
今年IOI專門增設(shè)了AI線上賽道,讓AI系統(tǒng)在與人類相同規(guī)則下參賽。
而隨著像GenCluster這樣的開源方案崛起,未來我們可能看到更多團(tuán)隊(duì)用開源模型參賽,甚至舉辦純粹比拼AI的編程大賽。
在公平可復(fù)現(xiàn)的前提下競技,有助于加速技術(shù)進(jìn)步,也增加了比賽的看點(diǎn)。
其二,促進(jìn)行業(yè)開放與合作。
當(dāng)開源模型憑借透明方法取得佳績,這對(duì)封閉模型路線也是一種鞭策。
OpenAI、DeepMind等或許需要更主動(dòng)地披露其競賽AI的技術(shù)細(xì)節(jié),或干脆開放部分模型權(quán)重,來回應(yīng)學(xué)術(shù)界和業(yè)界對(duì)可驗(yàn)證性的需求。
同時(shí),英偉達(dá)此次扮演了「協(xié)同者」角色,一方面與OpenAI合作訓(xùn)練優(yōu)化了gpt-oss-120b等模型,另一方面自己又利用這些開源模型推出創(chuàng)新方案。
可以預(yù)見,跨機(jī)構(gòu)的合作和開源社區(qū)的參與將成為推動(dòng)AI極限挑戰(zhàn)的新動(dòng)力。
其三,降低研究壁壘。
過去,要想在編程挑戰(zhàn)上取得頂尖成績,往往需要調(diào)動(dòng)專有模型和海量計(jì)算,非常昂貴且不可復(fù)現(xiàn)。
現(xiàn)在有了GenCluster提供的開源范例,更多研究者可以基于公開代碼和模型復(fù)現(xiàn)乃至改進(jìn)這個(gè)方法。
這將繁榮該領(lǐng)域的研究,讓算法競賽逐漸成為衡量通用AI的標(biāo)準(zhǔn)基準(zhǔn)。
當(dāng)開源模型不斷刷新紀(jì)錄,意味著學(xué)術(shù)界不必事事仰賴商業(yè)巨頭,也能推動(dòng)前沿進(jìn)展。
當(dāng)然,我們也應(yīng)看到,目前GenCluster達(dá)成金牌仍以巨大計(jì)算開銷為代價(jià),每題生成上千方案、運(yùn)行上萬次測試,對(duì)算力和工程有相當(dāng)要求。
如何在減少計(jì)算成本的同時(shí)保持高性能,是未來努力方向之一。
此外,開源模型要徹底追上并超越最強(qiáng)的封閉模型,可能還需要在模型架構(gòu)和訓(xùn)練上繼續(xù)改進(jìn)。
但不管怎樣,英偉達(dá)GenCluster已經(jīng)向世人證明:開源選手也能站上AI編程競賽的領(lǐng)獎(jiǎng)臺(tái)。
這一突破無疑為開源AI正名,并將在社區(qū)引發(fā)新一輪關(guān)于「算力vs.算法」「封閉vs.開源」的思考與探索。
在一條形容AI答題的玩笑中,有人說「也許只要給足夠多的猴子足夠多的打字機(jī),就能寫出完美代碼」。
而GenCluster則用實(shí)踐告訴我們:即便不開「小黑屋」訓(xùn)練專用強(qiáng)大模型,開源AI也能靠聰明地調(diào)動(dòng)「千軍萬碼」來解決最難的題。
開源模型勇奪IOI金牌,不僅是技術(shù)上的勝利,更是理念上的一次勝出。
它象征著開放與共享的力量,正在足以比肩那些神秘莫測的「封閉巨獸」。
展望未來,隨著開源生態(tài)和創(chuàng)新算法的雙輪驅(qū)動(dòng),我們有理由期待,在更多人工智能的競技場上,都會(huì)出現(xiàn)開源選手登頂?shù)纳碛啊?/p>
參考資料:
https://arxiv.org/abs/2510.14232v1
https://x.com/JacksonAtkinsX/status/1979563525614842156
附錄:英偉達(dá)GenCluster實(shí)戰(zhàn)Prompt
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.