夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

研究人員在離線學(xué)習(xí)加入多樣性激勵,減輕創(chuàng)意寫作“AI味”

0
分享至

自 2025 年起,AI 業(yè)內(nèi)先后推出了 Cursor、Gemini CLI、Qwen CLI、GPT-codex 等基于大模型的自動化代碼生成工具,展現(xiàn)了 AI 發(fā)展的下一個風(fēng)口——即利用大模型調(diào)用各種分析工具,更好地完成自動化代碼生成或輔助人類更快速地進(jìn)行代碼工作。

基于此,上海交通大學(xué)本科校友、美國西北大學(xué)博士生郁家豪和所在團(tuán)隊(duì)研究了如何提高大模型在代碼生成這項(xiàng)復(fù)雜任務(wù)上的性能。


圖 | 郁家豪(來源:郁家豪)

經(jīng)調(diào)研,測試時拓展(TTS,Testing Time Scaling)被廣泛應(yīng)用在代碼生成上,即先是生成多個候補(bǔ)答案,并通過對比選取最好的方案,來取得相對較好的結(jié)果。同時,離線學(xué)習(xí)(offline learning),即提前生成好數(shù)據(jù)再讓大模型進(jìn)行學(xué)習(xí)也是 AI 社區(qū)中一種主流的做法。相比在線學(xué)習(xí)(online learning)需要同時采集數(shù)據(jù)和訓(xùn)練模型的做法,離線學(xué)習(xí)所需要的計(jì)算資源更低,更方便人們開展算法實(shí)驗(yàn)。

但是,研究團(tuán)隊(duì)發(fā)現(xiàn)離線學(xué)習(xí)會在一定程度上損失大模型生成回答的多樣性,從而會降低測試時拓展時所帶來的性能提升。在代碼生成任務(wù)中,如果生成的多個候補(bǔ)回答非常相近就會造成冗余,以至于并不能很好地提升性能。因此,如何在離線學(xué)習(xí)的場景下,解決模型生成回答多樣性不足的問題,是研究團(tuán)隊(duì)的工作重點(diǎn)。

為了解決這一問題,他們提出一種新型訓(xùn)練方法,即在離線學(xué)習(xí)的損失項(xiàng)中加入了鼓勵多樣性這一項(xiàng),通過控制多樣性的做法,使得模型在離線學(xué)習(xí)之后能夠生成不一樣的候補(bǔ)回答,而不是生成相似的單一回答。這樣一來,在后續(xù)的測試時拓展時,最終的模型準(zhǔn)確率相比常規(guī)的離線學(xué)習(xí)算法有著很高提升。

最終,研究團(tuán)隊(duì)在開源數(shù)據(jù)集 SWE-Bench 上驗(yàn)證了相關(guān)結(jié)果,證明其所訓(xùn)練的模型取得了 SWE-Bench-Verified 開源榜單第四、SWE-Bench-Lite 開源榜單第一的好成績,證明了這一算法的合理性。

通過和其他團(tuán)隊(duì)的在線學(xué)習(xí)訓(xùn)練模型方案加以對比,研究團(tuán)隊(duì)發(fā)現(xiàn)本次方法可以在一定程度上彌補(bǔ)離線學(xué)習(xí)相比在線學(xué)習(xí)的天然多樣性不足,為在需要測試時拓展的復(fù)雜問題上引申出了“除在線學(xué)習(xí)以外”的新思路,即引入了鼓勵多樣性的離線學(xué)習(xí)的新思路。


(來源:https://arxiv.org/pdf/2509.12434)

在應(yīng)用前景上:

首先,在一些需要多輪交互以及調(diào)用工具的復(fù)雜任務(wù)比如代碼生成、數(shù)學(xué)競賽、網(wǎng)絡(luò)攻防奪旗賽(CTF,Capture The Flag)中,可以使用類似技術(shù)更高效地進(jìn)行模型訓(xùn)練。另外,對于一些復(fù)雜的數(shù)學(xué)競賽題目來說,當(dāng)使用那些鼓勵生成多樣性訓(xùn)練的模型的時候,在多次嘗試之中可以給出不同的解題思路,從而提高最終的解題率。

其次,在創(chuàng)意寫作方面,大模型的創(chuàng)意寫作一直被詬病“AI 味很重”,AI 經(jīng)常被吐槽喜歡使用一些固定句式。而通過鼓勵多樣性,本次方法也能在某種程度上減輕模型的固化回答,使得創(chuàng)意寫作更加優(yōu)質(zhì)和更加多樣化,從而更好地啟發(fā)人類的寫作思路。

研究團(tuán)隊(duì)表示,研究中最難忘的事情便是離線學(xué)習(xí)數(shù)據(jù)采集的模型選擇。他們最初計(jì)劃使用 Anthropic 的商業(yè)模型 Claude Sonnet 4 進(jìn)行采集,采集一小部分?jǐn)?shù)據(jù)之后發(fā)現(xiàn)課題組開銷竟然達(dá)到五百多美元。評估一下之后他們發(fā)現(xiàn),要完整地進(jìn)行數(shù)據(jù)采集可能需要高達(dá)上萬美元的開銷,這超出了課題組的預(yù)算。于是,他們開始尋求替代模型,同時替代模型必須具備較好的智能體代碼生成能力。

在此期間,恰逢國產(chǎn)模型(國模)出現(xiàn)了一波井噴式爆發(fā)。從 Kimi-K2 到 Qwen3-coder-480B、再到 GLM-4.5,這些國模的價格都遠(yuǎn)比 Anthropic 的模型要便宜。研究團(tuán)隊(duì)進(jìn)行了幾次小樣本采集實(shí)驗(yàn),結(jié)果發(fā)現(xiàn)這三個國模的性能都接近 Claude Sonnet 4,完全可以作為實(shí)驗(yàn)代替模型。更巧的是,GLM-4.5 在發(fā)布之后,其背后公司推出了一個月內(nèi)試用 1 萬億 token 的套餐,這正好與研究團(tuán)隊(duì)的實(shí)驗(yàn)節(jié)奏相吻合。于是,他們使用 GLM-4.5 提供的套餐完成了離線數(shù)據(jù)采集,采集數(shù)據(jù)的開銷從預(yù)期的上萬美元壓縮到 50 元人民幣。“并且在后學(xué)的模型微調(diào)中,這些數(shù)據(jù)的質(zhì)量也很高,這具體反應(yīng)在了微調(diào)之后的模型性能上?!毖芯繄F(tuán)隊(duì)告訴 DeepTech。

同時,研究團(tuán)隊(duì)用于微調(diào)的模型也是 Qwen3-coder-30B,這也是一款國模。當(dāng)前,大模型研究社區(qū)也在普遍采用最新 Qwen 模型作為微調(diào)任務(wù)。“這些經(jīng)歷讓我們感慨:在 2023 年,開源領(lǐng)域幾乎只有 Llama,大家進(jìn)行模型微調(diào)研究都只基于 Llama2 進(jìn)行;在 2025 年,國模已經(jīng)完成了接力棒的交接,代替 Llama 成為了開源領(lǐng)域的主流,并且和閉源模型的差距也在不斷縮小?!毖芯繄F(tuán)隊(duì)表示。

后續(xù),他們打算針對回答多樣性和測試時拓展的性能加以進(jìn)一步研究。之所以開展這一方向是因?yàn)椋和ㄟ^評估其他使用閉源模型的研究團(tuán)隊(duì)在 SWE-Bench 上的提交結(jié)果,該團(tuán)隊(duì)發(fā)現(xiàn)當(dāng)人們嘗試使用不同模型進(jìn)行測試時拓展,人們會認(rèn)為不同模型產(chǎn)生回答的多樣性更高,也會認(rèn)為最后的效果會更加好。

但是,這些都只是經(jīng)驗(yàn)之談。截至目前,沒有任何一個研究團(tuán)隊(duì)進(jìn)行過定量研究。到底多少個不同模型參與測試時拓展最好?如果這些模型之間的性能差距很大,會不會影響最后的效果?“這些問題還沒有人探索過,因此是我們打算后續(xù)探索的目標(biāo)。”研究團(tuán)隊(duì)表示。

參考資料:

https://arxiv.org/pdf/2509.12434

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
呂晨飛,履新上海

呂晨飛,履新上海

極目新聞
2025-10-06 14:35:19
俄強(qiáng)烈譴責(zé)美國在委內(nèi)瑞拉附近海域襲擊船只

俄強(qiáng)烈譴責(zé)美國在委內(nèi)瑞拉附近海域襲擊船只

參考消息
2025-10-06 10:10:25
高市早苗當(dāng)選后,蔡英文賴清德送祝賀,被高市早苗當(dāng)頭一盆冷水

高市早苗當(dāng)選后,蔡英文賴清德送祝賀,被高市早苗當(dāng)頭一盆冷水

娛樂小可愛蛙
2025-10-06 07:37:39
短短18天,3個外國網(wǎng)球選手炮轟中國:吃牛蛙,咳嗽不停,污染重

短短18天,3個外國網(wǎng)球選手炮轟中國:吃牛蛙,咳嗽不停,污染重

風(fēng)過鄉(xiāng)
2025-10-05 11:44:20
四天曝3個瓜!戴呼吸機(jī)、離婚、周慧敏肉軟會玩,一個比一個意外

四天曝3個瓜!戴呼吸機(jī)、離婚、周慧敏肉軟會玩,一個比一個意外

卷史
2025-10-05 13:53:09
首秀驚艷!金童盧比奧強(qiáng)勢回歸!19分鐘狂砍18+3+4+3!

首秀驚艷!金童盧比奧強(qiáng)勢回歸!19分鐘狂砍18+3+4+3!

鬼魅突破上籃
2025-10-06 11:14:47
年輕人很難被收割了!面對國慶期間住宿費(fèi)暴漲,一個帳篷就解決了

年輕人很難被收割了!面對國慶期間住宿費(fèi)暴漲,一個帳篷就解決了

火山詩話
2025-10-06 07:44:58
廣東一高速路段多車相撞,現(xiàn)場一片狼藉!

廣東一高速路段多車相撞,現(xiàn)場一片狼藉!

知肇分子
2025-10-06 10:27:04
攻打委內(nèi)瑞拉,美國將給南美送去一個“社會主義的春天”

攻打委內(nèi)瑞拉,美國將給南美送去一個“社會主義的春天”

百味朱砂
2025-10-05 15:31:10
中美日上半年GDP差距斷崖,美國15萬億,日本2.11萬億,中國咋樣

中美日上半年GDP差距斷崖,美國15萬億,日本2.11萬億,中國咋樣

別人都叫我阿腈
2025-10-04 16:16:26
太突然!著名演員去世,無數(shù)人的童年回憶

太突然!著名演員去世,無數(shù)人的童年回憶

大象新聞
2025-10-06 07:39:25
12年前姥姥在花生地里丟了30多克的金鐲子,今年收花生時意外找到,“今年的花生值老鼻子錢了”

12年前姥姥在花生地里丟了30多克的金鐲子,今年收花生時意外找到,“今年的花生值老鼻子錢了”

觀威海
2025-10-05 21:07:51
第一個出兵加沙的國家出現(xiàn),敢硬剛以色列,底氣來自中國武器?

第一個出兵加沙的國家出現(xiàn),敢硬剛以色列,底氣來自中國武器?

空天力量
2025-10-06 13:17:42
青海通報(bào):137人安全轉(zhuǎn)移,1人遇難

青海通報(bào):137人安全轉(zhuǎn)移,1人遇難

政知新媒體
2025-10-06 13:12:16
烏媒:俄羅斯襲擊期間,中國偵察衛(wèi)星9次飛越利沃夫上空

烏媒:俄羅斯襲擊期間,中國偵察衛(wèi)星9次飛越利沃夫上空

頭條爆料007
2025-10-06 14:23:00
中秋日南方氣溫僅約20℃?央視天氣預(yù)報(bào)“報(bào)錯”,值班人員:系技術(shù)故障,已修復(fù)

中秋日南方氣溫僅約20℃?央視天氣預(yù)報(bào)“報(bào)錯”,值班人員:系技術(shù)故障,已修復(fù)

紅星新聞
2025-10-06 16:03:46
終結(jié)舊主9連勝!62歲穆帥遭巨龍球場5萬人狂噓+扔雜物:偉大的0-0

終結(jié)舊主9連勝!62歲穆帥遭巨龍球場5萬人狂噓+扔雜物:偉大的0-0

風(fēng)過鄉(xiāng)
2025-10-06 09:21:07
曉華理發(fā)店熱度下降,難以回到巔峰時期,湖南懷化回應(yīng):是正常的

曉華理發(fā)店熱度下降,難以回到巔峰時期,湖南懷化回應(yīng):是正常的

魯中晨報(bào)
2025-10-06 16:00:03
柬埔寨將接收兩艘中國056C護(hù)衛(wèi)艦,由中方免費(fèi)援助,換來了三大好處

柬埔寨將接收兩艘中國056C護(hù)衛(wèi)艦,由中方免費(fèi)援助,換來了三大好處

文雅筆墨
2025-10-06 10:36:43
“眼前一黑又一黑”,杭州大量上市!吃一個=4碗飯?

“眼前一黑又一黑”,杭州大量上市!吃一個=4碗飯?

都市快報(bào)橙柿互動
2025-10-05 19:37:29
2025-10-06 17:07:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
15693文章數(shù) 514145關(guān)注度
往期回顧 全部

科技要聞

馬斯克腦機(jī)接口公司終于向科學(xué)界“交底”

頭條要聞

陳震接連發(fā)文回應(yīng)車禍后續(xù) 稱被撞車輛為網(wǎng)約車

頭條要聞

陳震接連發(fā)文回應(yīng)車禍后續(xù) 稱被撞車輛為網(wǎng)約車

體育要聞

5天12場!王楚欽拼到低血糖 央視點(diǎn)贊

娛樂要聞

董璇帶女兒逛樂高樂園 母女同框拍照

財(cái)經(jīng)要聞

暴漲前夜,大國博弈找到了新戰(zhàn)場!

汽車要聞

奇瑞全新大型SUV亮相!大六座+800V平臺

態(tài)度原創(chuàng)

房產(chǎn)
游戲
健康
教育
數(shù)碼

房產(chǎn)要聞

十一直擊,三亞這個熱盤,又火了!

《上古卷軸4:湮滅重制版》實(shí)體版還需要聯(lián)網(wǎng)

內(nèi)分泌科專家破解身高八大謠言

教育要聞

初中指數(shù)冪:比大小

數(shù)碼要聞

華碩ProArt 創(chuàng)16 2025新推5090版本:AI時代創(chuàng)作者的高能伴侶

無障礙瀏覽 進(jìn)入關(guān)懷版 国产高清无码在线影院| 毛片网站完整版| 爽妇网久久网| avav男人的天堂| 国产午夜福利AV在线机视频| 久久婷婷五月综合色精品首页| 无码人妻久久一区区三区免费人妻 | 亚洲综合不卡一区二区三区| 羞羞视频在线观看| 国产午夜成人无码免费| 日本边添边摸边做边爱的网站| 中文字幕老妇女乱伦视频| 日日噜噜夜夜爽爽| 亚洲熟女乱综合| 国产精品入口麻豆| 国产精品爽爽爽免费视频| 国产69精品福利| 夫妻精品在线一区| 亚洲黄色电影国产| 男人天堂新地址| 暖暖视频日本在线观看| 人人人人人爽| 人妻少妇被粗大爽| 亚洲天堂网址| 欧美一区二区拔萝卜| 国产av一区二区三| 欧美三级视频在线播放| 日本中文视频,88xx.| 久久精品国产中国久久| 成人网站你懂得| 99久久国产成人免费网站 | 又大又爽又粗国产一区二区三区毛片| 国产精品成人va在线观看| 人人插人人摸图片| 国产日韩综合一区二区性色av| 亚洲另类无码专区丝袜| 亚洲无码我不卡| 久久精品午夜福利| 免费 无码 国产精品动漫| 亚洲妇女无套内射精| 欧美人体一区二区视频|