自 2025 年起,AI 業(yè)內(nèi)先后推出了 Cursor、Gemini CLI、Qwen CLI、GPT-codex 等基于大模型的自動化代碼生成工具,展現(xiàn)了 AI 發(fā)展的下一個風(fēng)口——即利用大模型調(diào)用各種分析工具,更好地完成自動化代碼生成或輔助人類更快速地進(jìn)行代碼工作。
基于此,上海交通大學(xué)本科校友、美國西北大學(xué)博士生郁家豪和所在團(tuán)隊(duì)研究了如何提高大模型在代碼生成這項(xiàng)復(fù)雜任務(wù)上的性能。
圖 | 郁家豪(來源:郁家豪)
經(jīng)調(diào)研,測試時拓展(TTS,Testing Time Scaling)被廣泛應(yīng)用在代碼生成上,即先是生成多個候補(bǔ)答案,并通過對比選取最好的方案,來取得相對較好的結(jié)果。同時,離線學(xué)習(xí)(offline learning),即提前生成好數(shù)據(jù)再讓大模型進(jìn)行學(xué)習(xí)也是 AI 社區(qū)中一種主流的做法。相比在線學(xué)習(xí)(online learning)需要同時采集數(shù)據(jù)和訓(xùn)練模型的做法,離線學(xué)習(xí)所需要的計(jì)算資源更低,更方便人們開展算法實(shí)驗(yàn)。
但是,研究團(tuán)隊(duì)發(fā)現(xiàn)離線學(xué)習(xí)會在一定程度上損失大模型生成回答的多樣性,從而會降低測試時拓展時所帶來的性能提升。在代碼生成任務(wù)中,如果生成的多個候補(bǔ)回答非常相近就會造成冗余,以至于并不能很好地提升性能。因此,如何在離線學(xué)習(xí)的場景下,解決模型生成回答多樣性不足的問題,是研究團(tuán)隊(duì)的工作重點(diǎn)。
為了解決這一問題,他們提出一種新型訓(xùn)練方法,即在離線學(xué)習(xí)的損失項(xiàng)中加入了鼓勵多樣性這一項(xiàng),通過控制多樣性的做法,使得模型在離線學(xué)習(xí)之后能夠生成不一樣的候補(bǔ)回答,而不是生成相似的單一回答。這樣一來,在后續(xù)的測試時拓展時,最終的模型準(zhǔn)確率相比常規(guī)的離線學(xué)習(xí)算法有著很高提升。
最終,研究團(tuán)隊(duì)在開源數(shù)據(jù)集 SWE-Bench 上驗(yàn)證了相關(guān)結(jié)果,證明其所訓(xùn)練的模型取得了 SWE-Bench-Verified 開源榜單第四、SWE-Bench-Lite 開源榜單第一的好成績,證明了這一算法的合理性。
通過和其他團(tuán)隊(duì)的在線學(xué)習(xí)訓(xùn)練模型方案加以對比,研究團(tuán)隊(duì)發(fā)現(xiàn)本次方法可以在一定程度上彌補(bǔ)離線學(xué)習(xí)相比在線學(xué)習(xí)的天然多樣性不足,為在需要測試時拓展的復(fù)雜問題上引申出了“除在線學(xué)習(xí)以外”的新思路,即引入了鼓勵多樣性的離線學(xué)習(xí)的新思路。
(來源:https://arxiv.org/pdf/2509.12434)
在應(yīng)用前景上:
首先,在一些需要多輪交互以及調(diào)用工具的復(fù)雜任務(wù)比如代碼生成、數(shù)學(xué)競賽、網(wǎng)絡(luò)攻防奪旗賽(CTF,Capture The Flag)中,可以使用類似技術(shù)更高效地進(jìn)行模型訓(xùn)練。另外,對于一些復(fù)雜的數(shù)學(xué)競賽題目來說,當(dāng)使用那些鼓勵生成多樣性訓(xùn)練的模型的時候,在多次嘗試之中可以給出不同的解題思路,從而提高最終的解題率。
其次,在創(chuàng)意寫作方面,大模型的創(chuàng)意寫作一直被詬病“AI 味很重”,AI 經(jīng)常被吐槽喜歡使用一些固定句式。而通過鼓勵多樣性,本次方法也能在某種程度上減輕模型的固化回答,使得創(chuàng)意寫作更加優(yōu)質(zhì)和更加多樣化,從而更好地啟發(fā)人類的寫作思路。
研究團(tuán)隊(duì)表示,研究中最難忘的事情便是離線學(xué)習(xí)數(shù)據(jù)采集的模型選擇。他們最初計(jì)劃使用 Anthropic 的商業(yè)模型 Claude Sonnet 4 進(jìn)行采集,采集一小部分?jǐn)?shù)據(jù)之后發(fā)現(xiàn)課題組開銷竟然達(dá)到五百多美元。評估一下之后他們發(fā)現(xiàn),要完整地進(jìn)行數(shù)據(jù)采集可能需要高達(dá)上萬美元的開銷,這超出了課題組的預(yù)算。于是,他們開始尋求替代模型,同時替代模型必須具備較好的智能體代碼生成能力。
在此期間,恰逢國產(chǎn)模型(國模)出現(xiàn)了一波井噴式爆發(fā)。從 Kimi-K2 到 Qwen3-coder-480B、再到 GLM-4.5,這些國模的價格都遠(yuǎn)比 Anthropic 的模型要便宜。研究團(tuán)隊(duì)進(jìn)行了幾次小樣本采集實(shí)驗(yàn),結(jié)果發(fā)現(xiàn)這三個國模的性能都接近 Claude Sonnet 4,完全可以作為實(shí)驗(yàn)代替模型。更巧的是,GLM-4.5 在發(fā)布之后,其背后公司推出了一個月內(nèi)試用 1 萬億 token 的套餐,這正好與研究團(tuán)隊(duì)的實(shí)驗(yàn)節(jié)奏相吻合。于是,他們使用 GLM-4.5 提供的套餐完成了離線數(shù)據(jù)采集,采集數(shù)據(jù)的開銷從預(yù)期的上萬美元壓縮到 50 元人民幣。“并且在后學(xué)的模型微調(diào)中,這些數(shù)據(jù)的質(zhì)量也很高,這具體反應(yīng)在了微調(diào)之后的模型性能上?!毖芯繄F(tuán)隊(duì)告訴 DeepTech。
同時,研究團(tuán)隊(duì)用于微調(diào)的模型也是 Qwen3-coder-30B,這也是一款國模。當(dāng)前,大模型研究社區(qū)也在普遍采用最新 Qwen 模型作為微調(diào)任務(wù)。“這些經(jīng)歷讓我們感慨:在 2023 年,開源領(lǐng)域幾乎只有 Llama,大家進(jìn)行模型微調(diào)研究都只基于 Llama2 進(jìn)行;在 2025 年,國模已經(jīng)完成了接力棒的交接,代替 Llama 成為了開源領(lǐng)域的主流,并且和閉源模型的差距也在不斷縮小?!毖芯繄F(tuán)隊(duì)表示。
后續(xù),他們打算針對回答多樣性和測試時拓展的性能加以進(jìn)一步研究。之所以開展這一方向是因?yàn)椋和ㄟ^評估其他使用閉源模型的研究團(tuán)隊(duì)在 SWE-Bench 上的提交結(jié)果,該團(tuán)隊(duì)發(fā)現(xiàn)當(dāng)人們嘗試使用不同模型進(jìn)行測試時拓展,人們會認(rèn)為不同模型產(chǎn)生回答的多樣性更高,也會認(rèn)為最后的效果會更加好。
但是,這些都只是經(jīng)驗(yàn)之談。截至目前,沒有任何一個研究團(tuán)隊(duì)進(jìn)行過定量研究。到底多少個不同模型參與測試時拓展最好?如果這些模型之間的性能差距很大,會不會影響最后的效果?“這些問題還沒有人探索過,因此是我們打算后續(xù)探索的目標(biāo)。”研究團(tuán)隊(duì)表示。
參考資料:
https://arxiv.org/pdf/2509.12434
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.