網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

「進(jìn)化+壓力測(cè)試」自動(dòng)生成的競(jìng)賽級(jí)編程題，大模型誰(shuí)更hold住

2025-10-27 18:52:17　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

在當(dāng)前評(píng)測(cè)生成式模型代碼能力的浪潮中，傳統(tǒng)依賴人工編寫的算法基準(zhǔn)測(cè)試集，正日益暴露出可擴(kuò)展性不足與數(shù)據(jù)污染嚴(yán)重兩大瓶頸。

為突破這一困局，北京大學(xué)與通用人工智能研究院聯(lián)合提出全新 UniCode 框架。該研究由北京大學(xué)梁一韜助理教授指導(dǎo)，博士生鄭欣悅為第一作者，林昊葦為共同一作，創(chuàng)新性地構(gòu)建了一套能夠自動(dòng)生成高質(zhì)量算法題目與抗污染測(cè)試用例的進(jìn)化式評(píng)測(cè)系統(tǒng)。

UniCode 框架通過(guò)三大核心策略動(dòng)態(tài)擴(kuò)展題目，并采用基于「壓力測(cè)試」的用例合成技術(shù)，成功構(gòu)建出包含 492 道題目的全新評(píng)測(cè)基準(zhǔn)。在對(duì) 19 個(gè)前沿大模型進(jìn)行系統(tǒng)性測(cè)試后，表現(xiàn)最佳的 o4-mini 模型也僅達(dá)到 70.3% 的通過(guò)率，充分印證了 UniCode 在評(píng)測(cè)上的高挑戰(zhàn)性與強(qiáng)判別力，為代碼能力評(píng)估開辟了一條動(dòng)態(tài)、可擴(kuò)展的全新路徑。

論文標(biāo)題：UniCode: A Framework for Generating High Quality Competitive Coding Problems
論文地址：http://arxiv.org/abs/2510.17868
代碼開源：https://github.com/grandsmile/UniCode
數(shù)據(jù)集: https://huggingface.co/datasets/grandsmile/Generative_Coding_Dataset

三種「進(jìn)化式」題目生成策略

UniCode 將問題生成看作類似生物進(jìn)化的變異與重組過(guò)程，設(shè)計(jì)了三類互補(bǔ)策略：

單題擴(kuò)展 (Single-problem extension)：在保持核心邏輯的前提下，對(duì)單題進(jìn)行結(jié)構(gòu)性修改（如收緊約束、增加條件、改變輸入格式）。例如 Two Sum → Three Sum。該策略能保持問題范式一致，同時(shí)迫使模型在算法復(fù)雜度上做出新權(quán)衡。
同類融合 (Same-type fusion)：將同算法標(biāo)簽的兩題融合。通過(guò)讓 LLM 抽取共用的算法模式并重新實(shí)例化，生成語(yǔ)義新穎但邏輯相關(guān)的題目，從而避免「僅換敘述」的表層變化。
跨類融合 (Cross-type fusion)：跨算法類別組合題目，由 LLM 自動(dòng)發(fā)現(xiàn)「橋接概念」，生成復(fù)合型挑戰(zhàn)（如將求和與回文檢測(cè)結(jié)合為 Palindrome Sum Pair）。這種策略顯著提高了題目難度與診斷價(jià)值。

這三種策略既能沿用已有題目的結(jié)構(gòu)性優(yōu)勢(shì)，又能通過(guò)單題變異和重組在題目分布上產(chǎn)生真正的新樣本，從而抑制數(shù)據(jù)污染的影響并提高對(duì)模型算法泛化能力的考察力度。

壓力驅(qū)動(dòng)的測(cè)試用例合成

自動(dòng)生成題目的難點(diǎn)在于：沒有正確參考題解時(shí)，如何為題目構(gòu)建高可信度的測(cè)試樣例集合？UniCode 提出一個(gè)壓力驅(qū)動(dòng)的測(cè)試樣例合成流程來(lái)解決這一核心問題：

小規(guī)模暴力求解（Brute-force）＋壓力測(cè)試（Stress test）：對(duì)能在小輸入下暴力枚舉的題目，先由 LLM 生成一個(gè)以正確性為優(yōu)先的「暴力算法」并在小規(guī)模輸入上運(yùn)行，得到被信任的輸入 — 輸出對(duì)，這些對(duì)用作「壓力測(cè)試集」去篩選一組來(lái)自不同 LLM 的高效候選解。

3.LLM 仲裁（Adjudication）：若沒有嚴(yán)格多數(shù)產(chǎn)生共識(shí)，則把最票數(shù)最多的兩種輸出樣例，再次輸入給 LLMs 進(jìn)行分析裁決；若裁決仍不明確，則該用例被舍棄以保持試題集的完整性和可靠性。通過(guò)這套流程，研究團(tuán)隊(duì)報(bào)告了測(cè)試用例正確率 94.5% 的水平，并在覆蓋率上也優(yōu)于多項(xiàng)基線方法。

該流程實(shí)現(xiàn)了94.5% 的測(cè)試用例正確率，并在覆蓋率上優(yōu)于多項(xiàng)基線方法。輸入生成采用三路并重策略：隨機(jī)樣本、對(duì)抗生成與 LLM 合成，并按固定比例（20 隨機(jī) + 20 對(duì)抗 + 10 LLM 合成）構(gòu)建最終測(cè)試套，兼顧覆蓋廣度與挑戰(zhàn)性。

評(píng)測(cè)與結(jié)論

借助 UniCode 框架，研究團(tuán)隊(duì)從 Codeforces 等競(jìng)賽平臺(tái)篩選種子算法題，自動(dòng)生成了一個(gè)包含 492 道高質(zhì)量題目、覆蓋 15 個(gè)核心算法標(biāo)簽的評(píng)測(cè)基準(zhǔn)，并在此基礎(chǔ)上對(duì) 19 個(gè)主流大語(yǔ)言模型進(jìn)行了系統(tǒng)評(píng)估。關(guān)鍵發(fā)現(xiàn)包括：

高挑戰(zhàn)性：即便是排名第一的模型（o4-mini-high），總體 pass@1 也只有 70.3%；在較難題目上，大部分模型表現(xiàn)斷崖式下降，說(shuō)明 UniCode 框架能夠生成具有高挑戰(zhàn)性的算法題，暴露模型真實(shí)的算法能力差異。
模型魯棒性仍待提升：模型在隨機(jī)用例和對(duì)抗用例間平均存在約 11.2 個(gè)百分點(diǎn)的性能差，表明對(duì)邊界條件與復(fù)雜輸入的魯棒性仍是薄弱環(huán)節(jié)。
開源模型進(jìn)步明顯：若干開源模型（如 DeepSeek-v3.1、Qwen3-235b）在整體性能上表現(xiàn)出競(jìng)爭(zhēng)力，這對(duì)研究社區(qū)的可復(fù)現(xiàn)性和透明性具有積極意義。

LLMs 在算法推理場(chǎng)景下的泛化表現(xiàn)

為考察 LLMs 在算法題上的泛化能力，研究團(tuán)隊(duì)構(gòu)造了三類對(duì)照題集：SeedQS（原始種子題）、ShadowQS（保留邏輯但改寫敘述的「影子」題）與CodeGenQS（UniCode 生成的新題）。

實(shí)驗(yàn)顯示：多數(shù)模型在 SeedQS 與 ShadowQS 上表現(xiàn)幾乎一致，說(shuō)明它們對(duì)表層敘述變換具有較強(qiáng)魯棒性；但在 CodeGenQS（由 UniCode 生成、要求組合或遷移算法能力的題目）上，模型普遍出現(xiàn)顯著下跌 —— 論文給出若干例證：claude-3.5-sonnet 從 0.70 跌至 0.21，gpt-4.1-mini 從 0.83 跌至 0.40，整體上模型在 UniCode 問題上的平均性能下降超過(guò) 30%，而在僅為敘述改寫的 ShadowQS 上幾乎無(wú)變化。

這一對(duì)照實(shí)驗(yàn)清晰區(qū)分了模型的「表層魯棒性」與「算法遷移能力」，并驗(yàn)證了 UniCode 的「進(jìn)化式」題目生成策略確實(shí)能夠構(gòu)造出新穎且具挑戰(zhàn)性的任務(wù)，為理解和量化模型的真實(shí)泛化能力提供了幫助。

UniCode 題集與基準(zhǔn)對(duì)齊

此外，研究團(tuán)隊(duì)通過(guò)與兩項(xiàng)既有公開基準(zhǔn)的對(duì)齊檢驗(yàn)（LiveCodeBench 與 LiveCodeBenchPro）量化了 UniCode 的可信度：與 LiveCodeBench 的 Pass@1 分?jǐn)?shù)呈高度正相關(guān)（Pearson r ≈ 0.986，p = 6.5e-06），而與 LiveCodeBenchPro（采用「排名越小越優(yōu)」的打分方式）表現(xiàn)為強(qiáng)負(fù)相關(guān)（r ≈ ?0.916），這主要是度量方向的約定所致 —— 若取絕對(duì)值，兩者均顯示 |r|>0.9。

論文特別指出：UniCode 與這些成熟基準(zhǔn)間獲得的相關(guān)性（以 |r| 衡量）超過(guò)了這些現(xiàn)有代碼基準(zhǔn)數(shù)據(jù)集之間的互相關(guān)，從而證明UniCode 在評(píng)估尺度上與現(xiàn)有主流工具高度一致，且具備獨(dú)立揭露模型弱點(diǎn)的能力。論文同時(shí)通過(guò)人工盲審驗(yàn)證了生成題目的可解性（在抽樣的 50 道題中，解題率達(dá) 98.0%），增強(qiáng)了生成題目在可讀性與語(yǔ)義明確性方面的可信度。

討論：錯(cuò)誤題會(huì)讓評(píng)測(cè)失效嗎？

從可靠性角度的再思考

在傳統(tǒng)觀念中，一個(gè)基準(zhǔn)的所有題目都必須是完美無(wú)瑕的。然而，當(dāng)基準(zhǔn)規(guī)模大幅擴(kuò)展（如從幾百題增至數(shù)千題），尤其是通過(guò)自動(dòng)生成方式構(gòu)建時(shí)，完全避免錯(cuò)誤題目成本極高，甚至不現(xiàn)實(shí)。UniCode 的研究通過(guò)數(shù)學(xué)論證指出：一個(gè)存在少量錯(cuò)誤但題量巨大的基準(zhǔn)，其整體評(píng)估結(jié)果可能比一個(gè)題量小但「完美」的基準(zhǔn)更為可靠。

這背后的核心邏輯在于區(qū)分兩種不同類型的誤差：

系統(tǒng)偏差：由于基準(zhǔn)中的錯(cuò)誤題目導(dǎo)致的誤差。例如，一個(gè)錯(cuò)誤題目可能永遠(yuǎn)無(wú)法被解對(duì)。這種誤差是固定的，其大小大致等于「錯(cuò)誤題目的比例」。在 UniCode 的設(shè)定中，即便有約 5.5% 的錯(cuò)誤題目，其引入的系統(tǒng)偏差也相對(duì)較小且穩(wěn)定。
隨機(jī)誤差：由于評(píng)測(cè)題目的抽樣隨機(jī)性導(dǎo)致的誤差。樣本量越小，結(jié)果的波動(dòng)性就越大。一個(gè)僅有 200 道題的「完美」基準(zhǔn)，很容易因?yàn)轭}目抽樣的偶然性（例如，恰好抽到了某個(gè)模型擅長(zhǎng)的題型）而無(wú)法穩(wěn)定反映模型的真實(shí)能力。

因此，在評(píng)估模型，尤其是區(qū)分頂尖模型時(shí)，我們更害怕的是結(jié)果「晃動(dòng)」，而不是一個(gè)微小且固定的「偏移」。UniCode 通過(guò)其大規(guī)模生成能力，正是用可接受且極小的系統(tǒng)偏差，換取了隨機(jī)誤差的顯著降低，從而實(shí)現(xiàn)了比傳統(tǒng)小規(guī)?；鶞?zhǔn)更高、更可靠的判別力。論文在附錄中通過(guò)嚴(yán)格的數(shù)學(xué)模型證明了這一點(diǎn)，確保了其基準(zhǔn)報(bào)告的準(zhǔn)確性是值得信賴的。

結(jié)語(yǔ)

UniCode 將「生成式評(píng)測(cè)」從理念推進(jìn)到了可操作的工程化體系：通過(guò)三條進(jìn)化式題目生成路徑 + 一套壓力驅(qū)動(dòng)、分層驗(yàn)證的測(cè)試合成流水線，UniCode 在題目多樣性、判題可靠性和對(duì)模型泛化能力的診斷上都取得了令人信服的結(jié)果。該框架不僅能緩解傳統(tǒng)靜態(tài)基準(zhǔn)的污染與擴(kuò)展問題，還為研究人員提供了一個(gè)可重復(fù)、可追溯的工具鏈，有望成為未來(lái)代碼生成與算法泛化評(píng)估的重要基石。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.