AI首勝人類博士，頂會論文秒變代碼！港大90后開源刷爆8k星

2025-11-01 17:50:35　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇好困

【新智元導(dǎo)讀】香港大學(xué)黃超團隊開源的DeepCode在「論文復(fù)現(xiàn)代碼」方面，首次在PaperBench測試中超過來自劍橋、伯克利等8所頂尖高校的機器學(xué)習(xí)博士，并領(lǐng)先Claude Code、Cursor等先進的商用代碼智能體。

在AI領(lǐng)域，學(xué)術(shù)論文往往承載了算法、模型架構(gòu)等方面的最前沿突破。

但想要真正理解論文的核心知識，并成功復(fù)現(xiàn)其中的算法和實驗結(jié)果，卻經(jīng)常面臨巨大挑戰(zhàn)。

問題的主要癥結(jié)，在于「關(guān)鍵實現(xiàn)細(xì)節(jié)」上的缺失！

現(xiàn)實中論文作者通常將復(fù)雜的算法邏輯高度抽象化為幾行數(shù)學(xué)公式，省略了真正影響成敗的核心細(xì)節(jié)，比如：

超參數(shù)的具體取值范圍、訓(xùn)練過程中的技巧性調(diào)整、數(shù)據(jù)預(yù)處理的細(xì)節(jié)步驟、網(wǎng)絡(luò)初始化策略等。

然而正是關(guān)鍵實現(xiàn)要點上的缺失，導(dǎo)致了理論與實踐之間的巨大鴻溝。

就連資深研究員也經(jīng)常對此束手無策。

怎么破？

近日，香港大學(xué)黃超教授團隊開源的DeepCode，為這一難題的解決提供了超強的AI利器。

它不僅能夠分析論文內(nèi)容，理解算法邏輯，還可以自動生成可運行的代碼。

DeepCode演示

DeepCode視覺交互界面

在基準(zhǔn)測試中，DeepCode在復(fù)現(xiàn)成功率和代碼質(zhì)量方面表現(xiàn)出眾，在多項指標(biāo)上超過了頂級大學(xué)的機器學(xué)習(xí)博士。

DeepCode自今年7月發(fā)布首個版本——DeepCode v1.0.0以來便備受關(guān)注，并登上 GitHub Trending榜首，斬獲近8千星標(biāo)（截至11月1日數(shù)據(jù)）。

開源鏈接: https://github.com/HKUDS/DeepCode

四大基準(zhǔn)測試全面領(lǐng)先

研究人員將DeepCode放在以下四大基準(zhǔn)測試中進行比較：

人類專家；
最先進的商業(yè)代碼智能體；
科學(xué)代碼智能體；
基于大模型的智能體。

結(jié)果顯示，DeepCode均拿到了最高分。

首超人類專家：75.9% vs 72.4%

在OpenAI發(fā)布的PaperBench基準(zhǔn)測試中，DeepCode的總體準(zhǔn)確率為75.9%，超過參與評測的人類專家組72.4%的成績。

PaperBench的基準(zhǔn)測試規(guī)格如下：

數(shù)據(jù)集來源：OpenAI官方發(fā)布的標(biāo)準(zhǔn)化評測基準(zhǔn)；
任務(wù)規(guī)模：20篇ICML2024會議論文的完整復(fù)現(xiàn)；
評估維度：8316個獨立可評分組件；
評分機制：SimpleJudge分層加權(quán)評估系統(tǒng)；
任務(wù)復(fù)雜度：要求從論文文本到可執(zhí)行代碼的端到端實現(xiàn)。

為確保實驗的科學(xué)嚴(yán)謹(jǐn)性，研究團隊還建立了高質(zhì)量的人類專家基線。

首先是嚴(yán)格的人類專家資質(zhì)標(biāo)準(zhǔn)。

這些專家均來自8所頂尖研究型大學(xué)的機器學(xué)習(xí)博士（在讀/已畢業(yè)博士學(xué)位）。

8所大學(xué)分別為UC Berkeley、Cambridge、CMU、Columbia、Cornell、Purdue、TU Wien、UMass Amherst。

此外，研究團隊還采用了嚴(yán)格的人類專家篩選流程：

首先，進行簡歷預(yù)篩選和學(xué)術(shù)背景驗證；

接著，實施機器學(xué)習(xí)理論知識的標(biāo)準(zhǔn)化測試；

然后，評估Git版本控制和軟件工程實踐能力；

最后，驗證候選人在論文復(fù)現(xiàn)任務(wù)中的完整技能鏈。

以上篩選流程確保所有參與者都具備從理論理解到代碼實現(xiàn)的全流程能力。

實驗環(huán)境配置如下：

計算資源：NVIDIA A10 GPU標(biāo)準(zhǔn)配置，部分使用A100；
開發(fā)時間：4周彈性開發(fā)周期；
工具權(quán)限：無限制使用ChatGPT、GitHub Copilot等商業(yè)AI助手；
嘗試機制：每論文3次獨立復(fù)現(xiàn)機會，采用best@3評分策略。

以上實驗結(jié)果充分證明：

面對需要深度理解和長期開發(fā)的復(fù)雜任務(wù)，即使人類專家可以充分利用各種AI輔助工具，DeepCode仍能在代碼質(zhì)量和準(zhǔn)確性方面達(dá)到更高的水平。

這表明DeepCode不僅達(dá)到而且超越了專家級的代碼復(fù)現(xiàn)能力，也意味著自主科學(xué)軟件工程領(lǐng)域的一個重要里程碑。

優(yōu)于現(xiàn)有AI Coding：84.8% vs 58.7%

在同一基準(zhǔn)上，研究人員從20篇論文中隨機抽取5篇，將DeepCode與當(dāng)前主流商用代碼智能體進行了系統(tǒng)性的性能對比。

在評測中DeepCode展現(xiàn)出明顯領(lǐng)先優(yōu)勢：

DeepCode得分84.8% ，領(lǐng)先Claude Code（58.7%）約26.1個百分點。

為確保測試的公平性和權(quán)威性，所有參與評測的商業(yè)代碼智能體均配備了當(dāng)前最先進的基礎(chǔ)模型：Claude 4.5 Sonnet-think和GPT 5 codex-high。

結(jié)果提示性能差距主要來自多智能體架構(gòu)設(shè)計，而非單純的基礎(chǔ)模型差異。

此外，在科學(xué)代碼智能體、基于大模型的智能體兩項評測中，DeepCode同樣保持領(lǐng)先：

與目前最先進的科學(xué)代碼復(fù)現(xiàn)框架PaperCoder（51.1%）相比，DeepCode的復(fù)現(xiàn)率達(dá)到了73.5% ，提升了22.4個百分點。

這一顯著的提升驗證了研究團隊結(jié)合規(guī)劃、分層任務(wù)分解、代碼生成和迭代調(diào)試的多模塊架構(gòu)優(yōu)于更簡單的基于流水線的方法。

與性能最佳的大模型智能體（43.3%）相比，DeepCode（73.5%）提升了30.2個百分點。

這表明，對于復(fù)雜的代碼復(fù)現(xiàn)任務(wù)而言，復(fù)雜的代理支架（而不是延長推理時間或更大的模型）至關(guān)重要。

DeepCode三大核心能力

Paper2Code（論文→代碼）

輸入：學(xué)術(shù)論文PDF文檔；
輸出：生產(chǎn)級代碼實現(xiàn)+完整測試套件+詳細(xì)技術(shù)文檔。

DeepCode的核心優(yōu)勢在于自動解析復(fù)雜數(shù)學(xué)公式、理解算法邏輯、生成可運行的高質(zhì)量代碼，可以幫助科研人員快速復(fù)現(xiàn)SOTA算法、驗證理論創(chuàng)新、加速研究進展等。

Paper2Code

Text2Web：（想法→網(wǎng)頁）

輸入：自然語言描述的界面需求和功能期望；
輸出：響應(yīng)式前端頁面+現(xiàn)代化UI設(shè)計+完整交互邏輯。

DeepCode可以智能理解用戶意圖、自動適配移動端、生成符合設(shè)計規(guī)范的界面，適用于快速原型驗證、MVP產(chǎn)品開發(fā)、創(chuàng)業(yè)想法落地等場景。

前端實現(xiàn)

Text2Backend：（需求→服務(wù)）

輸入：后端功能需求和業(yè)務(wù)邏輯描述；
輸出：高性能API接口 + 優(yōu)化數(shù)據(jù)庫設(shè)計 + 可擴展系統(tǒng)架構(gòu)。

DeepCode可以自動選擇最佳技術(shù)棧、考慮性能和安全性、支持云原生部署，適用于微服務(wù)快速開發(fā)、遺留系統(tǒng)重構(gòu)、企業(yè)數(shù)字化轉(zhuǎn)型等場景。

DeepCode的核心技術(shù)框架

DeepCode采用系統(tǒng)化的三階段框架，將復(fù)雜的代碼生成任務(wù)分解為架構(gòu)藍(lán)圖構(gòu)建、代碼實現(xiàn)和自動驗證三個步驟，通過多智能體協(xié)作實現(xiàn)從文檔到可執(zhí)行代碼的自動轉(zhuǎn)換。

階段一：架構(gòu)藍(lán)圖構(gòu)建

該階段將冗長的文檔規(guī)范轉(zhuǎn)化為結(jié)構(gòu)化的架構(gòu)藍(lán)圖，通過層次化內(nèi)容分割、多智能體深度分析、架構(gòu)藍(lán)圖融合三個關(guān)鍵步驟解決長文檔理解的挑戰(zhàn)。

在多智能體深度分析環(huán)節(jié)，采用概念智能體、算法智能體兩個專業(yè)智能體并行深度分析文檔的不同維度，確保了既有全局視野又有具體實現(xiàn)細(xì)節(jié)。

代碼規(guī)劃智能體融合以上兩個分析智能體的深度輸出，協(xié)調(diào)高層架構(gòu)與底層規(guī)范，解決潛在的不一致性。

通過智能化的融合過程，最終生成完整的架構(gòu)藍(lán)圖，為后續(xù)代碼生成提供了詳細(xì)的指導(dǎo)。

階段二：自動化代碼構(gòu)建

該階段基于構(gòu)建完成的架構(gòu)藍(lán)圖進行代碼倉庫的系統(tǒng)化構(gòu)建，通過雙重機制設(shè)計解決大規(guī)模代碼庫中的跨文件一致性維護和領(lǐng)域知識缺失的核心挑戰(zhàn)。

階段三：動態(tài)驗證與優(yōu)化

該階段構(gòu)建了一個多層次的質(zhì)量保障體系，通過靜態(tài)分析和動態(tài)執(zhí)行的雙重驗證機制，實現(xiàn)代碼從結(jié)構(gòu)完整性到功能正確性的全面保障，形成了自我完善的閉環(huán)反饋系統(tǒng)。

AI Coding的挑戰(zhàn)與思考

目前AI編程工具在代碼補全和簡單任務(wù)上表現(xiàn)良好，但在需要深層理解的復(fù)雜任務(wù)中仍有不足。

科學(xué)論文復(fù)現(xiàn)就是一個典型例子——它需要AI理解數(shù)學(xué)原理，將抽象概念轉(zhuǎn)化為代碼實現(xiàn)，并處理各種技術(shù)細(xì)節(jié)。

DeepCode在這個領(lǐng)域的進展表明，通過專門的架構(gòu)設(shè)計，AI可以在特定領(lǐng)域取得較好效果，但通用的深度理解能力仍然存在局限。

如何讓AI更好地理解復(fù)雜的業(yè)務(wù)邏輯和技術(shù)需求，仍是一個開放性問題。

· 從輔助工具到開發(fā)伙伴

AI編程工具正在從簡單的代碼補全向更全面的開發(fā)支持演進。

DeepCode展示的從需求分析到代碼生成再到質(zhì)量驗證的完整流程，代表了這種發(fā)展趨勢。

然而，這也帶來了新的問題：

如何在AI系統(tǒng)提供更多自主能力的同時，保持開發(fā)者對項目的有效控制？

如何確保生成的代碼符合團隊的編碼規(guī)范和架構(gòu)要求？

這些問題需要在技術(shù)進步和工程實踐中逐步解決。

· Vibe Coding的實用性考量

Vibe Coding的興起降低了編程門檻，讓更多人能夠參與軟件開發(fā)。

但這種模式也帶來了一系列挑戰(zhàn)：

生成代碼的質(zhì)量和一致性如何保證？
當(dāng)開發(fā)者減少對底層細(xì)節(jié)的關(guān)注時，如何維護代碼的長期可維護性？
如何在提高開發(fā)效率的同時確保代碼的安全性和穩(wěn)定性？

DeepCode的驗證機制提供了一種思路，但更完善的工程實踐和質(zhì)量標(biāo)準(zhǔn)還需要行業(yè)的進一步探索和完善。

作者介紹

李宗蔚

李宗蔚

李宗蔚（1999年生），現(xiàn)為香港大學(xué)博士生，師從黃超老師，專注于大模型智能體前沿技術(shù)研究。其學(xué)術(shù)成果入選CIKM 2024最具影響力論文榜單。作為開源項目DeepCode的核心貢獻者，該項目在GitHub上獲得約8,000星標(biāo)。

李中行

李中行

李中行（1998年生），香港大學(xué)訪問博士，研究方向為大模型智能體與智慧城市。作為智慧城市大模型UrbanGPT第一作者，其研究成果入選KDD 2024及ICDE 2022最具影響力論文榜單。同時為開源項目DeepCode核心貢獻者，獲得約8,000 GitHub星標(biāo)。

郭子睿

郭子睿

郭子睿（2000年生），香港大學(xué)博士學(xué)生，專注于RAG與智能體技術(shù)研究。作為LightRAG和RAG-Anything開源項目的第一作者，其項目在GitHub上累計獲得超過32,000星標(biāo)，已成為圖RAG系統(tǒng)領(lǐng)域的主流技術(shù)框架之一。

黃超

黃超，香港大學(xué)博士生導(dǎo)師，專注于大語言模型、智能體與圖機器學(xué)習(xí)研究，Google Scholar引用超過13,000次。其團隊開發(fā)的LightRAG、RAG-Anything、DeepCode、AutoAgent、AI-Researcher、AI-Trader、MiniRAG、VideoRAG等開源項目累計獲得超過70,000 GitHub星標(biāo)，50次登上GitHub Trending（趨勢榜）。

參考資料：

https://github.com/HKUDS/DeepCode

https://sites.google.com/view/chaoh

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.