研究人員在離線學(xué)習(xí)加入多樣性激勵，減輕創(chuàng)意寫作“AI味”

2025-10-05 22:12:59　來源: DeepTech深科技

河南舉報(bào)

分享至

自 2025 年起，AI 業(yè)內(nèi)先后推出了 Cursor、Gemini CLI、Qwen CLI、GPT-codex 等基于大模型的自動化代碼生成工具，展現(xiàn)了 AI 發(fā)展的下一個風(fēng)口——即利用大模型調(diào)用各種分析工具，更好地完成自動化代碼生成或輔助人類更快速地進(jìn)行代碼工作。

基于此，上海交通大學(xué)本科校友、美國西北大學(xué)博士生郁家豪和所在團(tuán)隊(duì)研究了如何提高大模型在代碼生成這項(xiàng)復(fù)雜任務(wù)上的性能。

圖 | 郁家豪（來源：郁家豪）

經(jīng)調(diào)研，測試時拓展（TTS，Testing Time Scaling）被廣泛應(yīng)用在代碼生成上，即先是生成多個候補(bǔ)答案，并通過對比選取最好的方案，來取得相對較好的結(jié)果。同時，離線學(xué)習(xí)（offline learning），即提前生成好數(shù)據(jù)再讓大模型進(jìn)行學(xué)習(xí)也是 AI 社區(qū)中一種主流的做法。相比在線學(xué)習(xí)（online learning）需要同時采集數(shù)據(jù)和訓(xùn)練模型的做法，離線學(xué)習(xí)所需要的計(jì)算資源更低，更方便人們開展算法實(shí)驗(yàn)。

但是，研究團(tuán)隊(duì)發(fā)現(xiàn)離線學(xué)習(xí)會在一定程度上損失大模型生成回答的多樣性，從而會降低測試時拓展時所帶來的性能提升。在代碼生成任務(wù)中，如果生成的多個候補(bǔ)回答非常相近就會造成冗余，以至于并不能很好地提升性能。因此，如何在離線學(xué)習(xí)的場景下，解決模型生成回答多樣性不足的問題，是研究團(tuán)隊(duì)的工作重點(diǎn)。

為了解決這一問題，他們提出一種新型訓(xùn)練方法，即在離線學(xué)習(xí)的損失項(xiàng)中加入了鼓勵多樣性這一項(xiàng)，通過控制多樣性的做法，使得模型在離線學(xué)習(xí)之后能夠生成不一樣的候補(bǔ)回答，而不是生成相似的單一回答。這樣一來，在后續(xù)的測試時拓展時，最終的模型準(zhǔn)確率相比常規(guī)的離線學(xué)習(xí)算法有著很高提升。

最終，研究團(tuán)隊(duì)在開源數(shù)據(jù)集 SWE-Bench 上驗(yàn)證了相關(guān)結(jié)果，證明其所訓(xùn)練的模型取得了 SWE-Bench-Verified 開源榜單第四、SWE-Bench-Lite 開源榜單第一的好成績，證明了這一算法的合理性。

通過和其他團(tuán)隊(duì)的在線學(xué)習(xí)訓(xùn)練模型方案加以對比，研究團(tuán)隊(duì)發(fā)現(xiàn)本次方法可以在一定程度上彌補(bǔ)離線學(xué)習(xí)相比在線學(xué)習(xí)的天然多樣性不足，為在需要測試時拓展的復(fù)雜問題上引申出了“除在線學(xué)習(xí)以外”的新思路，即引入了鼓勵多樣性的離線學(xué)習(xí)的新思路。

（來源：https://arxiv.org/pdf/2509.12434）

在應(yīng)用前景上：

首先，在一些需要多輪交互以及調(diào)用工具的復(fù)雜任務(wù)比如代碼生成、數(shù)學(xué)競賽、網(wǎng)絡(luò)攻防奪旗賽（CTF，Capture The Flag）中，可以使用類似技術(shù)更高效地進(jìn)行模型訓(xùn)練。另外，對于一些復(fù)雜的數(shù)學(xué)競賽題目來說，當(dāng)使用那些鼓勵生成多樣性訓(xùn)練的模型的時候，在多次嘗試之中可以給出不同的解題思路，從而提高最終的解題率。

其次，在創(chuàng)意寫作方面，大模型的創(chuàng)意寫作一直被詬病“AI 味很重”，AI 經(jīng)常被吐槽喜歡使用一些固定句式。而通過鼓勵多樣性，本次方法也能在某種程度上減輕模型的固化回答，使得創(chuàng)意寫作更加優(yōu)質(zhì)和更加多樣化，從而更好地啟發(fā)人類的寫作思路。

研究團(tuán)隊(duì)表示，研究中最難忘的事情便是離線學(xué)習(xí)數(shù)據(jù)采集的模型選擇。他們最初計(jì)劃使用 Anthropic 的商業(yè)模型 Claude Sonnet 4 進(jìn)行采集，采集一小部分?jǐn)?shù)據(jù)之后發(fā)現(xiàn)課題組開銷竟然達(dá)到五百多美元。評估一下之后他們發(fā)現(xiàn)，要完整地進(jìn)行數(shù)據(jù)采集可能需要高達(dá)上萬美元的開銷，這超出了課題組的預(yù)算。于是，他們開始尋求替代模型，同時替代模型必須具備較好的智能體代碼生成能力。

在此期間，恰逢國產(chǎn)模型（國模）出現(xiàn)了一波井噴式爆發(fā)。從 Kimi-K2 到 Qwen3-coder-480B、再到 GLM-4.5，這些國模的價格都遠(yuǎn)比 Anthropic 的模型要便宜。研究團(tuán)隊(duì)進(jìn)行了幾次小樣本采集實(shí)驗(yàn)，結(jié)果發(fā)現(xiàn)這三個國模的性能都接近 Claude Sonnet 4，完全可以作為實(shí)驗(yàn)代替模型。更巧的是，GLM-4.5 在發(fā)布之后，其背后公司推出了一個月內(nèi)試用 1 萬億 token 的套餐，這正好與研究團(tuán)隊(duì)的實(shí)驗(yàn)節(jié)奏相吻合。于是，他們使用 GLM-4.5 提供的套餐完成了離線數(shù)據(jù)采集，采集數(shù)據(jù)的開銷從預(yù)期的上萬美元壓縮到 50 元人民幣。“并且在后學(xué)的模型微調(diào)中，這些數(shù)據(jù)的質(zhì)量也很高，這具體反應(yīng)在了微調(diào)之后的模型性能上?！毖芯繄F(tuán)隊(duì)告訴 DeepTech。

同時，研究團(tuán)隊(duì)用于微調(diào)的模型也是 Qwen3-coder-30B，這也是一款國模。當(dāng)前，大模型研究社區(qū)也在普遍采用最新 Qwen 模型作為微調(diào)任務(wù)。“這些經(jīng)歷讓我們感慨：在 2023 年，開源領(lǐng)域幾乎只有 Llama，大家進(jìn)行模型微調(diào)研究都只基于 Llama2 進(jìn)行；在 2025 年，國模已經(jīng)完成了接力棒的交接，代替 Llama 成為了開源領(lǐng)域的主流，并且和閉源模型的差距也在不斷縮小?！毖芯繄F(tuán)隊(duì)表示。

后續(xù)，他們打算針對回答多樣性和測試時拓展的性能加以進(jìn)一步研究。之所以開展這一方向是因?yàn)椋和ㄟ^評估其他使用閉源模型的研究團(tuán)隊(duì)在 SWE-Bench 上的提交結(jié)果，該團(tuán)隊(duì)發(fā)現(xiàn)當(dāng)人們嘗試使用不同模型進(jìn)行測試時拓展，人們會認(rèn)為不同模型產(chǎn)生回答的多樣性更高，也會認(rèn)為最后的效果會更加好。

但是，這些都只是經(jīng)驗(yàn)之談。截至目前，沒有任何一個研究團(tuán)隊(duì)進(jìn)行過定量研究。到底多少個不同模型參與測試時拓展最好？如果這些模型之間的性能差距很大，會不會影響最后的效果？“這些問題還沒有人探索過，因此是我們打算后續(xù)探索的目標(biāo)。”研究團(tuán)隊(duì)表示。

參考資料：

https://arxiv.org/pdf/2509.12434

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.