夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

「進(jìn)化+壓力測(cè)試」自動(dòng)生成的競(jìng)賽級(jí)編程題,大模型誰(shuí)更hold住

0
分享至



在當(dāng)前評(píng)測(cè)生成式模型代碼能力的浪潮中,傳統(tǒng)依賴人工編寫的算法基準(zhǔn)測(cè)試集,正日益暴露出可擴(kuò)展性不足與數(shù)據(jù)污染嚴(yán)重兩大瓶頸。

為突破這一困局,北京大學(xué)與通用人工智能研究院聯(lián)合提出全新 UniCode 框架。該研究由北京大學(xué)梁一韜助理教授指導(dǎo),博士生鄭欣悅為第一作者,林昊葦為共同一作,創(chuàng)新性地構(gòu)建了一套能夠自動(dòng)生成高質(zhì)量算法題目與抗污染測(cè)試用例的進(jìn)化式評(píng)測(cè)系統(tǒng)。

UniCode 框架通過(guò)三大核心策略動(dòng)態(tài)擴(kuò)展題目,并采用基于「壓力測(cè)試」的用例合成技術(shù),成功構(gòu)建出包含 492 道題目的全新評(píng)測(cè)基準(zhǔn)。在對(duì) 19 個(gè)前沿大模型進(jìn)行系統(tǒng)性測(cè)試后,表現(xiàn)最佳的 o4-mini 模型也僅達(dá)到 70.3% 的通過(guò)率,充分印證了 UniCode 在評(píng)測(cè)上的高挑戰(zhàn)性與強(qiáng)判別力,為代碼能力評(píng)估開辟了一條動(dòng)態(tài)、可擴(kuò)展的全新路徑。



  • 論文標(biāo)題:UniCode: A Framework for Generating High Quality Competitive Coding Problems
  • 論文地址:http://arxiv.org/abs/2510.17868
  • 代碼開源:https://github.com/grandsmile/UniCode
  • 數(shù)據(jù)集: https://huggingface.co/datasets/grandsmile/Generative_Coding_Dataset

三種「進(jìn)化式」題目生成策略



UniCode 將問題生成看作類似生物進(jìn)化的變異與重組過(guò)程,設(shè)計(jì)了三類互補(bǔ)策略:

  1. 單題擴(kuò)展 (Single-problem extension):在保持核心邏輯的前提下,對(duì)單題進(jìn)行結(jié)構(gòu)性修改(如收緊約束、增加條件、改變輸入格式)。例如 Two Sum → Three Sum。該策略能保持問題范式一致,同時(shí)迫使模型在算法復(fù)雜度上做出新權(quán)衡。
  2. 同類融合 (Same-type fusion):將同算法標(biāo)簽的兩題融合。通過(guò)讓 LLM 抽取共用的算法模式并重新實(shí)例化,生成語(yǔ)義新穎但邏輯相關(guān)的題目,從而避免「僅換敘述」的表層變化。
  3. 跨類融合 (Cross-type fusion):跨算法類別組合題目,由 LLM 自動(dòng)發(fā)現(xiàn)「橋接概念」,生成復(fù)合型挑戰(zhàn)(如將求和與回文檢測(cè)結(jié)合為 Palindrome Sum Pair)。這種策略顯著提高了題目難度與診斷價(jià)值。

這三種策略既能沿用已有題目的結(jié)構(gòu)性優(yōu)勢(shì),又能通過(guò)單題變異和重組在題目分布上產(chǎn)生真正的新樣本,從而抑制數(shù)據(jù)污染的影響并提高對(duì)模型算法泛化能力的考察力度。

壓力驅(qū)動(dòng)的測(cè)試用例合成



自動(dòng)生成題目的難點(diǎn)在于:沒有正確參考題解時(shí),如何為題目構(gòu)建高可信度的測(cè)試樣例集合?UniCode 提出一個(gè)壓力驅(qū)動(dòng)的測(cè)試樣例合成流程來(lái)解決這一核心問題:

  1. 小規(guī)模暴力求解(Brute-force)+壓力測(cè)試(Stress test):對(duì)能在小輸入下暴力枚舉的題目,先由 LLM 生成一個(gè)以正確性為優(yōu)先的「暴力算法」并在小規(guī)模輸入上運(yùn)行,得到被信任的輸入 — 輸出對(duì),這些對(duì)用作「壓力測(cè)試集」去篩選一組來(lái)自不同 LLM 的高效候選解。



3.LLM 仲裁(Adjudication):若沒有嚴(yán)格多數(shù)產(chǎn)生共識(shí),則把最票數(shù)最多的兩種輸出樣例,再次輸入給 LLMs 進(jìn)行分析裁決;若裁決仍不明確,則該用例被舍棄以保持試題集的完整性和可靠性。通過(guò)這套流程,研究團(tuán)隊(duì)報(bào)告了測(cè)試用例正確率 94.5% 的水平,并在覆蓋率上也優(yōu)于多項(xiàng)基線方法。

該流程實(shí)現(xiàn)了94.5% 的測(cè)試用例正確率,并在覆蓋率上優(yōu)于多項(xiàng)基線方法。輸入生成采用三路并重策略:隨機(jī)樣本、對(duì)抗生成與 LLM 合成,并按固定比例(20 隨機(jī) + 20 對(duì)抗 + 10 LLM 合成)構(gòu)建最終測(cè)試套,兼顧覆蓋廣度與挑戰(zhàn)性。

評(píng)測(cè)與結(jié)論



借助 UniCode 框架,研究團(tuán)隊(duì)從 Codeforces 等競(jìng)賽平臺(tái)篩選種子算法題,自動(dòng)生成了一個(gè)包含 492 道高質(zhì)量題目、覆蓋 15 個(gè)核心算法標(biāo)簽的評(píng)測(cè)基準(zhǔn),并在此基礎(chǔ)上對(duì) 19 個(gè)主流大語(yǔ)言模型 進(jìn)行了系統(tǒng)評(píng)估。關(guān)鍵發(fā)現(xiàn)包括:

  • 高挑戰(zhàn)性:即便是排名第一的模型(o4-mini-high),總體 pass@1 也只有 70.3%;在較難題目上,大部分模型表現(xiàn)斷崖式下降,說(shuō)明 UniCode 框架能夠生成具有高挑戰(zhàn)性的算法題,暴露模型真實(shí)的算法能力差異。
  • 模型魯棒性仍待提升:模型在隨機(jī)用例和對(duì)抗用例間平均存在約 11.2 個(gè)百分點(diǎn)的性能差,表明對(duì)邊界條件與復(fù)雜輸入的魯棒性仍是薄弱環(huán)節(jié)。
  • 開源模型進(jìn)步明顯:若干開源模型(如 DeepSeek-v3.1、Qwen3-235b)在整體性能上表現(xiàn)出競(jìng)爭(zhēng)力,這對(duì)研究社區(qū)的可復(fù)現(xiàn)性和透明性具有積極意義。

LLMs 在算法推理場(chǎng)景下的泛化表現(xiàn)



為考察 LLMs 在算法題上的泛化能力,研究團(tuán)隊(duì)構(gòu)造了三類對(duì)照題集:SeedQS(原始種子題)、ShadowQS(保留邏輯但改寫敘述的「影子」題)CodeGenQS(UniCode 生成的新題)

實(shí)驗(yàn)顯示:多數(shù)模型在 SeedQS 與 ShadowQS 上表現(xiàn)幾乎一致,說(shuō)明它們對(duì)表層敘述變換具有較強(qiáng)魯棒性;但在 CodeGenQS(由 UniCode 生成、要求組合或遷移算法能力的題目)上,模型普遍出現(xiàn)顯著下跌 —— 論文給出若干例證:claude-3.5-sonnet 從 0.70 跌至 0.21,gpt-4.1-mini 從 0.83 跌至 0.40,整體上模型在 UniCode 問題上的平均性能下降超過(guò) 30%,而在僅為敘述改寫的 ShadowQS 上幾乎無(wú)變化。

這一對(duì)照實(shí)驗(yàn)清晰區(qū)分了模型的「表層魯棒性」與「算法遷移能力」,并驗(yàn)證了 UniCode 的「進(jìn)化式」題目生成策略確實(shí)能夠構(gòu)造出新穎且具挑戰(zhàn)性的任務(wù),為理解和量化模型的真實(shí)泛化能力提供了幫助。

UniCode 題集與基準(zhǔn)對(duì)齊

此外,研究團(tuán)隊(duì)通過(guò)與兩項(xiàng)既有公開基準(zhǔn)的對(duì)齊檢驗(yàn)(LiveCodeBench 與 LiveCodeBenchPro)量化了 UniCode 的可信度:與 LiveCodeBench 的 Pass@1 分?jǐn)?shù)呈高度正相關(guān)(Pearson r ≈ 0.986,p = 6.5e-06),而與 LiveCodeBenchPro(采用「排名越小越優(yōu)」的打分方式)表現(xiàn)為強(qiáng)負(fù)相關(guān)(r ≈ ?0.916),這主要是度量方向的約定所致 —— 若取絕對(duì)值,兩者均顯示 |r|>0.9。

論文特別指出:UniCode 與這些成熟基準(zhǔn)間獲得的相關(guān)性(以 |r| 衡量)超過(guò)了這些現(xiàn)有代碼基準(zhǔn)數(shù)據(jù)集之間的互相關(guān),從而證明UniCode 在評(píng)估尺度上與現(xiàn)有主流工具高度一致,且具備獨(dú)立揭露模型弱點(diǎn)的能力。論文同時(shí)通過(guò)人工盲審驗(yàn)證了生成題目的可解性(在抽樣的 50 道題中,解題率達(dá) 98.0%),增強(qiáng)了生成題目在可讀性與語(yǔ)義明確性方面的可信度。



討論:錯(cuò)誤題會(huì)讓評(píng)測(cè)失效嗎?

從可靠性角度的再思考

在傳統(tǒng)觀念中,一個(gè)基準(zhǔn)的所有題目都必須是完美無(wú)瑕的。然而,當(dāng)基準(zhǔn)規(guī)模大幅擴(kuò)展(如從幾百題增至數(shù)千題),尤其是通過(guò)自動(dòng)生成方式構(gòu)建時(shí),完全避免錯(cuò)誤題目成本極高,甚至不現(xiàn)實(shí)。UniCode 的研究通過(guò)數(shù)學(xué)論證指出:一個(gè)存在少量錯(cuò)誤但題量巨大的基準(zhǔn),其整體評(píng)估結(jié)果可能比一個(gè)題量小但「完美」的基準(zhǔn)更為可靠。

這背后的核心邏輯在于區(qū)分兩種不同類型的誤差:

  1. 系統(tǒng)偏差:由于基準(zhǔn)中的錯(cuò)誤題目導(dǎo)致的誤差。例如,一個(gè)錯(cuò)誤題目可能永遠(yuǎn)無(wú)法被解對(duì)。這種誤差是固定的,其大小大致等于「錯(cuò)誤題目的比例」。在 UniCode 的設(shè)定中,即便有約 5.5% 的錯(cuò)誤題目,其引入的系統(tǒng)偏差也相對(duì)較小且穩(wěn)定。
  2. 隨機(jī)誤差:由于評(píng)測(cè)題目的抽樣隨機(jī)性導(dǎo)致的誤差。樣本量越小,結(jié)果的波動(dòng)性就越大。一個(gè)僅有 200 道題的「完美」基準(zhǔn),很容易因?yàn)轭}目抽樣的偶然性(例如,恰好抽到了某個(gè)模型擅長(zhǎng)的題型)而無(wú)法穩(wěn)定反映模型的真實(shí)能力。

因此,在評(píng)估模型,尤其是區(qū)分頂尖模型時(shí),我們更害怕的是結(jié)果「晃動(dòng)」,而不是一個(gè)微小且固定的「偏移」。UniCode 通過(guò)其大規(guī)模生成能力,正是用可接受且極小的系統(tǒng)偏差,換取了隨機(jī)誤差的顯著降低,從而實(shí)現(xiàn)了比傳統(tǒng)小規(guī)?;鶞?zhǔn)更高、更可靠的判別力。論文在附錄中通過(guò)嚴(yán)格的數(shù)學(xué)模型證明了這一點(diǎn),確保了其基準(zhǔn)報(bào)告的準(zhǔn)確性是值得信賴的。

結(jié)語(yǔ)

UniCode 將「生成式評(píng)測(cè)」從理念推進(jìn)到了可操作的工程化體系:通過(guò)三條進(jìn)化式題目生成路徑 + 一套壓力驅(qū)動(dòng)、分層驗(yàn)證的測(cè)試合成流水線,UniCode 在題目多樣性、判題可靠性和對(duì)模型泛化能力的診斷上都取得了令人信服的結(jié)果。該框架不僅能緩解傳統(tǒng)靜態(tài)基準(zhǔn)的污染與擴(kuò)展問題,還為研究人員提供了一個(gè)可重復(fù)、可追溯的工具鏈,有望成為未來(lái)代碼生成與算法泛化評(píng)估的重要基石。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
絕不姑息!國(guó)家出手逮捕的4位華人首富,原因曝光下才知罪有應(yīng)得

絕不姑息!國(guó)家出手逮捕的4位華人首富,原因曝光下才知罪有應(yīng)得

朗威談星座
2025-10-15 01:16:41
隨著湖人108-122輸球、火箭、勇士大勝,西部最新積分榜出爐!

隨著湖人108-122輸球、火箭、勇士大勝,西部最新積分榜出爐!

浪子阿邴聊體育
2025-10-28 13:31:27
這4個(gè)日本羽絨服:幾乎不打廣告,實(shí)力卻不輸波司登、始祖鳥

這4個(gè)日本羽絨服:幾乎不打廣告,實(shí)力卻不輸波司登、始祖鳥

時(shí)尚搭配師Nicole
2025-10-16 16:49:54
章澤天瘦得驚人,燙了頭發(fā)后更放飛自我,和杜海濤擺拍

章澤天瘦得驚人,燙了頭發(fā)后更放飛自我,和杜海濤擺拍

鄉(xiāng)野小珥
2025-10-26 06:59:35
不愧是世界第一聯(lián)賽,英超第二曼城與第九曼聯(lián)僅相差3分!

不愧是世界第一聯(lián)賽,英超第二曼城與第九曼聯(lián)僅相差3分!

田先生籃球
2025-10-20 10:41:38
開國(guó)大典時(shí),毛主席為何親自命令:不準(zhǔn)任弼時(shí)參加?真相令人動(dòng)容

開國(guó)大典時(shí),毛主席為何親自命令:不準(zhǔn)任弼時(shí)參加?真相令人動(dòng)容

大運(yùn)河時(shí)空
2025-10-28 12:06:18
人民銀行行長(zhǎng)潘功勝透露下一步工作考慮 全面提升人民幣計(jì)價(jià)、支付、投融資、儲(chǔ)備等國(guó)際貨幣功能

人民銀行行長(zhǎng)潘功勝透露下一步工作考慮 全面提升人民幣計(jì)價(jià)、支付、投融資、儲(chǔ)備等國(guó)際貨幣功能

每日經(jīng)濟(jì)新聞
2025-10-28 21:35:09
76歲許紹雄去世,歐陽(yáng)震華、林保怡、惠英紅等好友發(fā)文悼念

76歲許紹雄去世,歐陽(yáng)震華、林保怡、惠英紅等好友發(fā)文悼念

紅星新聞
2025-10-28 14:31:18
特朗普批評(píng)普京:不要炫耀核導(dǎo)彈,有時(shí)間不如盡快結(jié)束戰(zhàn)爭(zhēng)

特朗普批評(píng)普京:不要炫耀核導(dǎo)彈,有時(shí)間不如盡快結(jié)束戰(zhàn)爭(zhēng)

玉涵簡(jiǎn)書
2025-10-28 21:21:16
意天空:德布勞內(nèi)準(zhǔn)備回比利時(shí),球員更傾向于選擇手術(shù)治療

意天空:德布勞內(nèi)準(zhǔn)備回比利時(shí),球員更傾向于選擇手術(shù)治療

懂球帝
2025-10-28 07:55:07
公布臺(tái)灣島照片,有何深意?

公布臺(tái)灣島照片,有何深意?

鈞言堂
2025-10-28 22:14:13
不回避問題,官媒報(bào)道登陸演習(xí),機(jī)器狼表現(xiàn)欠佳,易遭輕武器損毀

不回避問題,官媒報(bào)道登陸演習(xí),機(jī)器狼表現(xiàn)欠佳,易遭輕武器損毀

滄海旅行家
2025-10-27 18:51:04
就在今晚!中國(guó)女足vs巴西隊(duì)沖世界杯8強(qiáng),贏球=創(chuàng)歷史,央5不播

就在今晚!中國(guó)女足vs巴西隊(duì)沖世界杯8強(qiáng),贏球=創(chuàng)歷史,央5不播

大秦壁虎白話體育
2025-10-28 11:10:26
賽季還沒結(jié)束,中超首起轉(zhuǎn)會(huì)誕生,港腳親承加盟上海海港!

賽季還沒結(jié)束,中超首起轉(zhuǎn)會(huì)誕生,港腳親承加盟上海海港!

楊仔述
2025-10-28 15:01:50
沛縣縣委書記丁廣州,任徐州市副市長(zhǎng)

沛縣縣委書記丁廣州,任徐州市副市長(zhǎng)

新京報(bào)政事兒
2025-10-28 22:15:05
別瞎盯核聚變!永鼎、上海電氣,這3點(diǎn)得先弄明白

別瞎盯核聚變!永鼎、上海電氣,這3點(diǎn)得先弄明白

愛看劇的阿峰
2025-10-28 13:44:55
外交部:堅(jiān)決反對(duì)炒作所謂“中國(guó)間諜活動(dòng)”對(duì)華進(jìn)行污蔑抹黑

外交部:堅(jiān)決反對(duì)炒作所謂“中國(guó)間諜活動(dòng)”對(duì)華進(jìn)行污蔑抹黑

環(huán)球網(wǎng)資訊
2025-10-28 15:45:45
朱一龍、倪妮,官宣喜訊!

朱一龍、倪妮,官宣喜訊!

江南晚報(bào)
2025-10-28 11:03:58
王玉雯的胸型有多好看

王玉雯的胸型有多好看

阿廢冷眼觀察所
2025-10-22 07:37:39
特訊!俄軍總參謀長(zhǎng)通告全球:在紅軍城方向包圍烏軍31個(gè)營(yíng)

特訊!俄軍總參謀長(zhǎng)通告全球:在紅軍城方向包圍烏軍31個(gè)營(yíng)

李博世財(cái)經(jīng)
2025-10-28 10:06:50
2025-10-28 23:12:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11589文章數(shù) 142494關(guān)注度
往期回顧 全部

科技要聞

30000人,一夜失業(yè)!亞馬遜AI“砍刀”落下

頭條要聞

貴州桐梓東山坡公園溶洞現(xiàn)垃圾死豬亂象 官方展開調(diào)查

頭條要聞

貴州桐梓東山坡公園溶洞現(xiàn)垃圾死豬亂象 官方展開調(diào)查

體育要聞

巴西主帥一上任,先給楊瀚森打了個(gè)叉?

娛樂要聞

76歲歡喜哥去世!眾星悼念

財(cái)經(jīng)要聞

信息量巨大!“十五五”規(guī)劃建議發(fā)布

汽車要聞

煥新極氪7X 22.98萬(wàn)起 全系升級(jí)900V

態(tài)度原創(chuàng)

本地
親子
健康
數(shù)碼
公開課

本地新聞

全網(wǎng)圍觀,到底多少人被這個(gè)野人大學(xué)生笑瘋了

親子要聞

美贊臣發(fā)布兒童奶粉科學(xué)實(shí)證新成果

骨頭"咔咔響"?肌骨超聲到底有何用

數(shù)碼要聞

智能投影銷量三連跌!都怪TCL海信小米們降價(jià)太狠了?

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 农村少妇一级毛片AA久久| 免费无码激情国产| 影音先锋久久久久久久| 亚洲图片日本视频免费| 色综合久久精品中文字幕| 欧洲美女黑人粗性暴交视频| 久久国产香蕉| 成人毛片18女人毛片免费| 国产精品中文字幕第一区| 国产精品国产三级国产AⅤ下载| 奇米影视一二三区| 真实人与人性恔配视频| 亚洲熟妇丰满大屁股熟妇| 久久免费午夜电影网| 国产女人高潮叫床视频| 秋霞鲁丝片手机在线看| 亚洲av高清一区二区三区18禁| 日本肥熟老熟妇| 精品人妻一区二区三区三区四区| 岛国大片不卡网站| 国产福利欧美| 二区三区日本| 九色国产精品秘 入口| 亚洲精品TV久久久久久久久J| 欧美大屁股xxxx| 日本特黄特色特爽大片| 无码人妻精品一区二区蜜桃视频| 亚洲自偷自偷偷色无码中文| 成熟人妻换╳╳╳╳传媒| 欧美性猛交xxxxx按摩欧美| 免费无码av片在线观看播放| 亚洲日本韩在线观看| 成人片在线观看地址kk4444| 国内久久毛片| 午夜福利片网站| 胖女人操逼视频| 免费AV永久看| 精品无码一区二区三区三十路| 无码人妻丝袜在线视频| Av熟女一区二区| 国产一级α片|