鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
無需谷歌“鈔能力”,兩位清華校友強(qiáng)強(qiáng)聯(lián)合,直接讓基礎(chǔ)模型Gemini 2.5 Pro輕松達(dá)到IMO金牌水平。
只需提示詞改動……
該發(fā)現(xiàn)來自兩位清華校友楊林和黃溢辰,他們共同設(shè)計了一套自我迭代驗證流程和提示詞優(yōu)化,就成功讓Gemini 2.5 Pro完成了今年IMO題目的解答。
他們還剛剛更新了代碼,直接利用通用提示詞就能實現(xiàn)模型推理增強(qiáng)。
好家伙,原來我們都被LLM騙了,基礎(chǔ)大模型早就彎道超車,具備超強(qiáng)的解決復(fù)雜數(shù)學(xué)推理問題的能力。
只不過,直接用效果并不好。
就像MathArena也用Gemini?2.5?Pro跑了本次IMO題目,結(jié)果只有13分,遠(yuǎn)低于IMO銅牌門檻(19/42)。
但只要加一點點提示詞魔法和迭代驗證,就能實現(xiàn)1+1>2。
這一點也受到了陶哲軒的認(rèn)可:
我認(rèn)同嚴(yán)格驗證是在復(fù)雜數(shù)學(xué)任務(wù)中取得出色表現(xiàn)的關(guān)鍵。
具體是怎么做到的?我們接著往下看。
通用提示詞+迭代驗證
首先為什么最近AI模型都喜歡參加IMO測試呢?
其實是因為相較于面向中小學(xué)水平題目的傳統(tǒng)數(shù)學(xué)基準(zhǔn)GSM8K、MATH等,IMO可以更為充分地考驗?zāi)P偷某橄笏季S和多步驟邏輯推理能力,堪稱檢驗LLM推理能力的“試金石”。
不過前幾年模型結(jié)果都不盡如人意,要么是無法理解題目要求,要么是“偏科”某一類問題。
直到今年才首次有官方認(rèn)可的金牌AI出現(xiàn),谷歌和OpenAI均完成了5道題,其中谷歌Gemini模型搭載了新的Deep Think模式,OpenAI的模型據(jù)悉也是在通用強(qiáng)化學(xué)習(xí)和計算擴(kuò)展方面實現(xiàn)了技術(shù)突破。
但現(xiàn)在,研究團(tuán)隊只用提示詞設(shè)計,就達(dá)成了上述效果。
關(guān)鍵在于,他們設(shè)計了一套自我驗證流程,依次可分為六個步驟:
- 初始解決方案生成:模型首先根據(jù)提示詞生成初步解答,要求每一步邏輯推理清晰、解釋明確。
- 自我改進(jìn):模型對初始答案進(jìn)行回顧和優(yōu)化,彌補初始生成中因思維預(yù)算有限導(dǎo)致的不足。
- 驗證解決方案并生成錯誤報告:在驗證器中根據(jù)提示詞驗證解答,生成包含關(guān)鍵錯誤(如邏輯謬誤或事實錯誤)和不完整論證在內(nèi)的問題報告。
- 審查錯誤報告(可選):對問題報告進(jìn)行復(fù)核,刪除誤報的問題,提升報告可靠性。
- 基于錯誤報告糾正或改進(jìn)解決方案:根據(jù)問題報告改進(jìn)解答,修正后返回驗證步驟。
- 接受或拒絕解決方案:若解答連續(xù)5次都通過驗證,則接受該回答;若連續(xù)迭代10次,都存在重大問題,則拒絕此答案。
具體來說,整個過程是由Gemini 2.5 Pro構(gòu)成的求解器(solver)和驗證器(verifier)執(zhí)行,采用差異化提示詞以達(dá)到不同作用。
其中求解器主要負(fù)責(zé)生成和改進(jìn)答案,在提示詞設(shè)計上將嚴(yán)謹(jǐn)性設(shè)為首要目標(biāo),確保結(jié)果可嚴(yán)格驗證。
但由于Gemini 2.5 Pro的最大思考tokens為32768,在初始生成答案時無法獨立完成負(fù)責(zé)的IMO問題,所以通過步驟2中的自我改進(jìn),額外注入32768 tokens,讓模型回顧并優(yōu)化初始解答,提升整體質(zhì)量。
然后使用驗證器模擬IMO評分專家,進(jìn)行迭代改進(jìn),并決定是否接受改進(jìn)后的解決方案。
驗證器會逐一檢查解答并找出存在的問題,將問題分為關(guān)鍵錯誤和論證缺口兩類,其中關(guān)鍵錯誤是指明顯錯誤或存在清晰邏輯謬誤的內(nèi)容,會嚴(yán)重破壞證明的邏輯鏈條,引向錯誤答案。
論證缺口包含主要缺口和次要缺口,主要缺口可能會導(dǎo)致整個證明失敗,而次要缺口可能會產(chǎn)生正確結(jié)論,但論證仍然是不完整的。
當(dāng)發(fā)現(xiàn)問題后,驗證器隨即會輸出一份錯誤報告,為模型改進(jìn)解決方案提供有用信息,在步驟4中對驗證器的誤判進(jìn)行改正,然后模型根據(jù)報告嘗試改進(jìn)答案。
由于驗證器可能出錯,所以需要足夠次數(shù)的重復(fù)迭代,降低誤判影響,最終如果答案能通過驗證則接受,如果始終存在關(guān)鍵錯誤或主要論證缺口,則拒絕。
具體實驗過程中,研究團(tuán)隊選擇剛剛發(fā)布的IMO 2025題目,因為發(fā)布時間較短,可以有效避免訓(xùn)練數(shù)據(jù)污染,確保評估的真實性。
另外在參數(shù)設(shè)置上,選擇較低的溫度值0.1,因為較高的溫度可能會導(dǎo)致更多的隨機(jī)錯誤,并使用Gemini 2.5 Pro的推理token上限,同時排除其它模型、代碼干擾。
關(guān)鍵提示詞中,初始生成的提示詞要求有充分理由支撐答案,如果不能找到完整解決方案,不能進(jìn)行編造,且所有數(shù)學(xué)內(nèi)容用TeX格式呈現(xiàn)。
輸出格式需嚴(yán)格按照總結(jié)到詳細(xì)解決方案的順序,其中總結(jié)包括結(jié)論和方法概述,詳細(xì)解決方案中需要呈現(xiàn)完整、逐步的數(shù)學(xué)證明,在最終輸出前還要仔細(xì)檢查以符合所有指令。
在驗證提示詞里,唯一任務(wù)就是找出并報告解決方案里的所有問題,并不嘗試糾正漏洞,需生成詳細(xì)驗證日志并將問題進(jìn)行分類,輸出格式包括總結(jié)和詳細(xì)驗證日志,總結(jié)又包括最終判定和發(fā)現(xiàn)列表。
最終,模型實現(xiàn)為IMO的6道題目中的5道生成了完整且數(shù)學(xué)嚴(yán)謹(jǐn)?shù)慕鉀Q方案,其中前兩道題目各生成了有提示和無提示的兩種解決方案。
第一題提示使用數(shù)學(xué)歸納法,第二題提示使用解析幾何完成,通過對比可得,詳細(xì)的提示詞可以減少計算搜索空間、提高效率,但并不會額外賦予模型新的能力。
在未能解決的第六題上,研究人員發(fā)現(xiàn)模型是在其中一個有關(guān)證明時出現(xiàn)核心錯誤,從而導(dǎo)致后續(xù)證明無效。
實驗結(jié)果證明,結(jié)構(gòu)化迭代流程將是LLM的潛在能力轉(zhuǎn)化為嚴(yán)謹(jǐn)數(shù)學(xué)證明的關(guān)鍵,可突破單次生成中例如有限推理預(yù)算和初始答案錯誤等局限性。
另外研究人員預(yù)計,如果混合使用多種模型,例如Grok 4、OpenAI-o系列,以及類似Grok 4 heavy的多智能體系統(tǒng),可能會產(chǎn)生更強(qiáng)的數(shù)學(xué)能力。
清華校友強(qiáng)強(qiáng)聯(lián)合
本次研究的兩位作者——黃溢辰和楊林,他們是清華大學(xué)數(shù)學(xué)物理基礎(chǔ)科學(xué)實驗班的本科同學(xué),畢業(yè)后又分別前往海外高校深造。
黃溢辰在加州大學(xué)伯克利分校取得物理學(xué)博士學(xué)位后,曾在微軟擔(dān)任AI研究員,后在加州理工學(xué)院擔(dān)任博士后,師從凝聚態(tài)物理領(lǐng)域大拿陳諧教授。
陳諧教授本科同樣畢業(yè)于清華大學(xué),并在2012年獲得麻省理工學(xué)院理論物理博士,目前是加州理工學(xué)院的Eddleman理論物理學(xué)教授。
主要研究的是量子凝聚態(tài)系統(tǒng)中的新型相和相變,包括強(qiáng)關(guān)聯(lián)系統(tǒng)中的拓?fù)湫颉⒍囿w系統(tǒng)動力學(xué)、張量網(wǎng)絡(luò)表示以及量子信息應(yīng)用等。
曾在2017年斬獲斯隆獎,后又因其對物質(zhì)拓?fù)鋺B(tài)及相互關(guān)系的卓越貢獻(xiàn),榮獲2020年物理學(xué)新視野獎,該獎項隸屬于科學(xué)突破獎的子獎項,要知道科學(xué)突破獎也被譽為當(dāng)代科學(xué)界的“奧斯卡獎”。
后續(xù)黃溢辰又接著在麻省理工學(xué)院理論物理中心和哈佛大學(xué)物理系繼續(xù)從事博士后研究,主要研究方向是量子物理學(xué),包括量子信息學(xué)、 凝聚態(tài)理論和機(jī)器學(xué)習(xí)。
另一位作者楊林,目前是加州大學(xué)洛杉磯分校的副教授,任職于電氣與計算機(jī)工程系以及計算機(jī)科學(xué)系。
此前,他曾獲得約翰霍普金斯大學(xué)的計算機(jī)科學(xué)和物理與天文學(xué)雙博士學(xué)位,又曾在普林斯頓大學(xué)從事博士后研究,師從王夢迪教授。
王夢迪14歲就考入清華,23歲就從麻省理工學(xué)院博士畢業(yè),其導(dǎo)師還是美國國家工程院院士Dimitri P. Bertsekas,年僅29歲就成為普林斯頓大學(xué)終身教授。
研究領(lǐng)域主要涉及生成式人工智能、強(qiáng)化學(xué)習(xí)、大語言模型等,2024年還曾獲得控制領(lǐng)域最高獎項Donald P. Eckman獎(每年僅頒發(fā)給一位獲獎?wù)撸?/em>。
而楊林教授的研究重點則是強(qiáng)化學(xué)習(xí)理論與應(yīng)用、機(jī)器學(xué)習(xí)和優(yōu)化理論、大數(shù)據(jù)處理和算法設(shè)計等,他曾在ICML和NeurIPS等頂級機(jī)器學(xué)習(xí)會議上發(fā)表過多篇論文,還曾獲得亞馬遜教授獎、西蒙斯學(xué)者獎等。
有限的資源下,學(xué)術(shù)界也能比肩大廠
對于本次研究的相關(guān)細(xì)節(jié),量子位也和楊林教授深入聊了聊。
首先是為什么會優(yōu)先選擇Gemini 2.5 Pro作為研究對象,楊林教授表示:
實驗開始時Gemini相對比較方便,可調(diào)的參數(shù)較多。
而當(dāng)談及Gemini 2.5 Pro在解決前5道問題所涉及的計算資源和耗時,楊林教授也是坦然回應(yīng)道:
具體資源我們沒有仔細(xì)統(tǒng)計,但大致估算下,第一步大概需要60000token,之后的每次驗證,如果通過則15000token,如果需要修改則需要30000token。
每次由于隨機(jī)性都會有所差異,不同題目需要的tokens數(shù)在300k到5000k都是有可能的,比如運氣不好的時候,一道題目就做了8次獨立實驗。而計算時間則取決于谷歌服務(wù)器的空閑度,最快10分鐘左右就能解出一道題。
關(guān)于使用提示前后模型的差異,楊林教授也表示:
當(dāng)使用提示后,模型基本一次獨立實驗(Agent輸出失敗或成功算一次獨立實驗)就能解決題目,但不使用模型的思維會發(fā)散,之前提及的8次獨立實驗就是在沒有使用提示的情況下出現(xiàn)的。
至于沒有成功解決的第六題,楊林教授認(rèn)為主要問題還是出在驗證器上:
當(dāng)求解器輸出假陽性答案時,驗證器沒能很好地區(qū)分一些細(xì)節(jié)。
目前團(tuán)隊已經(jīng)進(jìn)行了手動驗證,自我檢查了證明的所有細(xì)節(jié),但缺乏官方評分,楊林教授也希望如果組委會有興趣,他們很樂意參與IMO官方評分,進(jìn)一步驗證解答。
未來他們也將會通過使用更多訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練和微調(diào),以提升基礎(chǔ)模型的能力。
之后楊林教授也分享了一些本次研究中他所收獲的心得體會:
有時候基礎(chǔ)模型的能力需要用其它方法釋放,如果未來模型訓(xùn)練達(dá)到瓶頸,那么Agent方法可能是破局的關(guān)鍵。而本次研究也讓我們看到,學(xué)術(shù)界利用有限的資源,也能做出與大廠同等重要的成果。
他也希望AI在未來能在數(shù)學(xué)研究中扮演更為重要的角色,尤其是在一些長期懸而未決的問題上。
最后也幫讀者朋友們向教授詢問了一些與AI共存的建議,楊林教授相當(dāng)謙虛地表示:
同學(xué)們比我年輕,對AI的使用可能比我更加自然,所以我提不出什么建議。但就我自身而言,我希望在使用AI的同時,也能提高自身的知識水平。
簡而言之就是,使用并向它學(xué)習(xí)。
論文鏈接:https://www.alphaxiv.org/abs/2507.15855v2
參考鏈接:
[1]https://x.com/ns123abc/status/1948223115437154372
[2]https://github.com/lyang36/IMO25
[3]https://x.com/lyang36/status/1947466281990738339
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.