夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI首勝人類博士,頂會論文秒變代碼!港大90后開源刷爆8k星

0
分享至


新智元報道

編輯:元宇 好困

【新智元導(dǎo)讀】香港大學(xué)黃超團隊開源的DeepCode在「論文復(fù)現(xiàn)代碼」方面,首次在PaperBench測試中超過來自劍橋、伯克利等8所頂尖高校的機器學(xué)習(xí)博士,并領(lǐng)先Claude Code、Cursor等先進的商用代碼智能體。

在AI領(lǐng)域,學(xué)術(shù)論文往往承載了算法、模型架構(gòu)等方面的最前沿突破。

但想要真正理解論文的核心知識,并成功復(fù)現(xiàn)其中的算法和實驗結(jié)果,卻經(jīng)常面臨巨大挑戰(zhàn)。

問題的主要癥結(jié),在于「關(guān)鍵實現(xiàn)細(xì)節(jié)」上的缺失!

現(xiàn)實中論文作者通常將復(fù)雜的算法邏輯高度抽象化為幾行數(shù)學(xué)公式,省略了真正影響成敗的核心細(xì)節(jié),比如:

超參數(shù)的具體取值范圍、訓(xùn)練過程中的技巧性調(diào)整、數(shù)據(jù)預(yù)處理的細(xì)節(jié)步驟、網(wǎng)絡(luò)初始化策略等。

然而正是關(guān)鍵實現(xiàn)要點上的缺失,導(dǎo)致了理論與實踐之間的巨大鴻溝。

就連資深研究員也經(jīng)常對此束手無策。

怎么破?

近日,香港大學(xué)黃超教授團隊開源的DeepCode,為這一難題的解決提供了超強的AI利器。

它不僅能夠分析論文內(nèi)容,理解算法邏輯,還可以自動生成可運行的代碼。

DeepCode演示

DeepCode視覺交互界面

在基準(zhǔn)測試中,DeepCode在復(fù)現(xiàn)成功率和代碼質(zhì)量方面表現(xiàn)出眾,在多項指標(biāo)上超過了頂級大學(xué)的機器學(xué)習(xí)博士。

DeepCode自今年7月發(fā)布首個版本——DeepCode v1.0.0以來便備受關(guān)注,并登上 GitHub Trending榜首,斬獲近8千星標(biāo)(截至11月1日數(shù)據(jù))。



開源鏈接: https://github.com/HKUDS/DeepCode

四大基準(zhǔn)測試全面領(lǐng)先

研究人員將DeepCode放在以下四大基準(zhǔn)測試中進行比較:

  • 人類專家;

  • 最先進的商業(yè)代碼智能體;

  • 科學(xué)代碼智能體;

  • 基于大模型的智能體。

結(jié)果顯示,DeepCode均拿到了最高分。


首超人類專家:75.9% vs 72.4%

在OpenAI發(fā)布的PaperBench基準(zhǔn)測試中,DeepCode的總體準(zhǔn)確率為75.9%,超過參與評測的人類專家組72.4%的成績。


PaperBench的基準(zhǔn)測試規(guī)格如下:

  • 數(shù)據(jù)集來源:OpenAI官方發(fā)布的標(biāo)準(zhǔn)化評測基準(zhǔn);

  • 任務(wù)規(guī)模:20篇ICML2024會議論文的完整復(fù)現(xiàn);

  • 評估維度:8316個獨立可評分組件;

  • 評分機制:SimpleJudge分層加權(quán)評估系統(tǒng);

  • 任務(wù)復(fù)雜度:要求從論文文本到可執(zhí)行代碼的端到端實現(xiàn)。

為確保實驗的科學(xué)嚴(yán)謹(jǐn)性,研究團隊還建立了高質(zhì)量的人類專家基線。

首先是嚴(yán)格的人類專家資質(zhì)標(biāo)準(zhǔn)。

這些專家均來自8所頂尖研究型大學(xué)的機器學(xué)習(xí)博士(在讀/已畢業(yè)博士學(xué)位)。

8所大學(xué)分別為UC Berkeley、Cambridge、CMU、Columbia、Cornell、Purdue、TU Wien、UMass Amherst。

此外,研究團隊還采用了嚴(yán)格的人類專家篩選流程:

首先,進行簡歷預(yù)篩選和學(xué)術(shù)背景驗證;

接著,實施機器學(xué)習(xí)理論知識的標(biāo)準(zhǔn)化測試;

然后,評估Git版本控制和軟件工程實踐能力;

最后,驗證候選人在論文復(fù)現(xiàn)任務(wù)中的完整技能鏈。

以上篩選流程確保所有參與者都具備從理論理解到代碼實現(xiàn)的全流程能力。

實驗環(huán)境配置如下:

  • 計算資源:NVIDIA A10 GPU標(biāo)準(zhǔn)配置,部分使用A100;

  • 開發(fā)時間:4周彈性開發(fā)周期;

  • 工具權(quán)限:無限制使用ChatGPT、GitHub Copilot等商業(yè)AI助手;

  • 嘗試機制:每論文3次獨立復(fù)現(xiàn)機會,采用best@3評分策略。

以上實驗結(jié)果充分證明:

面對需要深度理解和長期開發(fā)的復(fù)雜任務(wù),即使人類專家可以充分利用各種AI輔助工具,DeepCode仍能在代碼質(zhì)量和準(zhǔn)確性方面達(dá)到更高的水平。

這表明DeepCode不僅達(dá)到而且超越了專家級的代碼復(fù)現(xiàn)能力,也意味著自主科學(xué)軟件工程領(lǐng)域的一個重要里程碑。

優(yōu)于現(xiàn)有AI Coding:84.8% vs 58.7%

在同一基準(zhǔn)上,研究人員從20篇論文中隨機抽取5篇,將DeepCode與當(dāng)前主流商用代碼智能體進行了系統(tǒng)性的性能對比。


在評測中DeepCode展現(xiàn)出明顯領(lǐng)先優(yōu)勢:

DeepCode得分84.8% ,領(lǐng)先Claude Code(58.7%)約26.1個百分點。

為確保測試的公平性和權(quán)威性,所有參與評測的商業(yè)代碼智能體均配備了當(dāng)前最先進的基礎(chǔ)模型:Claude 4.5 Sonnet-think和GPT 5 codex-high。

結(jié)果提示性能差距主要來自多智能體架構(gòu)設(shè)計,而非單純的基礎(chǔ)模型差異。

此外,在科學(xué)代碼智能體、基于大模型的智能體兩項評測中,DeepCode同樣保持領(lǐng)先:

與目前最先進的科學(xué)代碼復(fù)現(xiàn)框架PaperCoder(51.1%)相比,DeepCode的復(fù)現(xiàn)率達(dá)到了73.5% ,提升了22.4個百分點。


這一顯著的提升驗證了研究團隊結(jié)合規(guī)劃、分層任務(wù)分解、代碼生成和迭代調(diào)試的多模塊架構(gòu)優(yōu)于更簡單的基于流水線的方法。


與性能最佳的大模型智能體(43.3%)相比,DeepCode(73.5%)提升了30.2個百分點。

這表明,對于復(fù)雜的代碼復(fù)現(xiàn)任務(wù)而言,復(fù)雜的代理支架(而不是延長推理時間或更大的模型)至關(guān)重要。

DeepCode三大核心能力

Paper2Code(論文→代碼)


  • 輸入:學(xué)術(shù)論文PDF文檔;

  • 輸出:生產(chǎn)級代碼實現(xiàn)+完整測試套件+詳細(xì)技術(shù)文檔。


DeepCode的核心優(yōu)勢在于自動解析復(fù)雜數(shù)學(xué)公式、理解算法邏輯、生成可運行的高質(zhì)量代碼,可以幫助科研人員快速復(fù)現(xiàn)SOTA算法、驗證理論創(chuàng)新、加速研究進展等。

Paper2Code

Text2Web:(想法→網(wǎng)頁)


  • 輸入:自然語言描述的界面需求和功能期望;

  • 輸出:響應(yīng)式前端頁面+現(xiàn)代化UI設(shè)計+完整交互邏輯。


DeepCode可以智能理解用戶意圖、自動適配移動端、生成符合設(shè)計規(guī)范的界面,適用于快速原型驗證、MVP產(chǎn)品開發(fā)、創(chuàng)業(yè)想法落地等場景。

前端實現(xiàn)

Text2Backend:(需求→服務(wù))


  • 輸入:后端功能需求和業(yè)務(wù)邏輯描述;

  • 輸出:高性能API接口 + 優(yōu)化數(shù)據(jù)庫設(shè)計 + 可擴展系統(tǒng)架構(gòu)。

DeepCode可以自動選擇最佳技術(shù)棧、考慮性能和安全性、支持云原生部署,適用于微服務(wù)快速開發(fā)、遺留系統(tǒng)重構(gòu)、企業(yè)數(shù)字化轉(zhuǎn)型等場景。

DeepCode的核心技術(shù)框架

DeepCode采用系統(tǒng)化的三階段框架,將復(fù)雜的代碼生成任務(wù)分解為架構(gòu)藍(lán)圖構(gòu)建、代碼實現(xiàn)和自動驗證三個步驟,通過多智能體協(xié)作實現(xiàn)從文檔到可執(zhí)行代碼的自動轉(zhuǎn)換。

階段一:架構(gòu)藍(lán)圖構(gòu)建

該階段將冗長的文檔規(guī)范轉(zhuǎn)化為結(jié)構(gòu)化的架構(gòu)藍(lán)圖,通過層次化內(nèi)容分割、多智能體深度分析、架構(gòu)藍(lán)圖融合三個關(guān)鍵步驟解決長文檔理解的挑戰(zhàn)。

在多智能體深度分析環(huán)節(jié),采用概念智能體、算法智能體兩個專業(yè)智能體并行深度分析文檔的不同維度,確保了既有全局視野又有具體實現(xiàn)細(xì)節(jié)。

代碼規(guī)劃智能體融合以上兩個分析智能體的深度輸出,協(xié)調(diào)高層架構(gòu)與底層規(guī)范,解決潛在的不一致性。

通過智能化的融合過程,最終生成完整的架構(gòu)藍(lán)圖,為后續(xù)代碼生成提供了詳細(xì)的指導(dǎo)。

階段二:自動化代碼構(gòu)建

該階段基于構(gòu)建完成的架構(gòu)藍(lán)圖進行代碼倉庫的系統(tǒng)化構(gòu)建,通過雙重機制設(shè)計解決大規(guī)模代碼庫中的跨文件一致性維護和領(lǐng)域知識缺失的核心挑戰(zhàn)。

階段三:動態(tài)驗證與優(yōu)化

該階段構(gòu)建了一個多層次的質(zhì)量保障體系,通過靜態(tài)分析和動態(tài)執(zhí)行的雙重驗證機制,實現(xiàn)代碼從結(jié)構(gòu)完整性到功能正確性的全面保障,形成了自我完善的閉環(huán)反饋系統(tǒng)。

AI Coding的挑戰(zhàn)與思考

目前AI編程工具在代碼補全和簡單任務(wù)上表現(xiàn)良好,但在需要深層理解的復(fù)雜任務(wù)中仍有不足。

科學(xué)論文復(fù)現(xiàn)就是一個典型例子——它需要AI理解數(shù)學(xué)原理,將抽象概念轉(zhuǎn)化為代碼實現(xiàn),并處理各種技術(shù)細(xì)節(jié)。

DeepCode在這個領(lǐng)域的進展表明,通過專門的架構(gòu)設(shè)計,AI可以在特定領(lǐng)域取得較好效果,但通用的深度理解能力仍然存在局限。

如何讓AI更好地理解復(fù)雜的業(yè)務(wù)邏輯和技術(shù)需求,仍是一個開放性問題。

· 從輔助工具到開發(fā)伙伴

AI編程工具正在從簡單的代碼補全向更全面的開發(fā)支持演進。

DeepCode展示的從需求分析到代碼生成再到質(zhì)量驗證的完整流程,代表了這種發(fā)展趨勢。

然而,這也帶來了新的問題:

如何在AI系統(tǒng)提供更多自主能力的同時,保持開發(fā)者對項目的有效控制?

如何確保生成的代碼符合團隊的編碼規(guī)范和架構(gòu)要求?

這些問題需要在技術(shù)進步和工程實踐中逐步解決。

· Vibe Coding的實用性考量

Vibe Coding的興起降低了編程門檻,讓更多人能夠參與軟件開發(fā)。

但這種模式也帶來了一系列挑戰(zhàn):

  • 生成代碼的質(zhì)量和一致性如何保證?

  • 當(dāng)開發(fā)者減少對底層細(xì)節(jié)的關(guān)注時,如何維護代碼的長期可維護性?

  • 如何在提高開發(fā)效率的同時確保代碼的安全性和穩(wěn)定性?

DeepCode的驗證機制提供了一種思路,但更完善的工程實踐和質(zhì)量標(biāo)準(zhǔn)還需要行業(yè)的進一步探索和完善。

作者介紹

李宗蔚


李宗蔚

李宗蔚(1999年生),現(xiàn)為香港大學(xué)博士生,師從黃超老師,專注于大模型智能體前沿技術(shù)研究。其學(xué)術(shù)成果入選CIKM 2024最具影響力論文榜單。作為開源項目DeepCode的核心貢獻者,該項目在GitHub上獲得約8,000星標(biāo)。

李中行


李中行

李中行(1998年生),香港大學(xué)訪問博士,研究方向為大模型智能體與智慧城市。作為智慧城市大模型UrbanGPT第一作者,其研究成果入選KDD 2024及ICDE 2022最具影響力論文榜單。同時為開源項目DeepCode核心貢獻者,獲得約8,000 GitHub星標(biāo)。

郭子睿


郭子睿

郭子睿(2000年生),香港大學(xué)博士學(xué)生,專注于RAG與智能體技術(shù)研究。作為LightRAG和RAG-Anything開源項目的第一作者,其項目在GitHub上累計獲得超過32,000星標(biāo),已成為圖RAG系統(tǒng)領(lǐng)域的主流技術(shù)框架之一。

黃超


黃超

黃超,香港大學(xué)博士生導(dǎo)師,專注于大語言模型、智能體與圖機器學(xué)習(xí)研究,Google Scholar引用超過13,000次。其團隊開發(fā)的LightRAG、RAG-Anything、DeepCode、AutoAgent、AI-Researcher、AI-Trader、MiniRAG、VideoRAG等開源項目累計獲得超過70,000 GitHub星標(biāo),50次登上GitHub Trending(趨勢榜)。

參考資料:

https://github.com/HKUDS/DeepCode

https://sites.google.com/view/chaoh

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
演都不演了!全紅嬋復(fù)出奪冠不到24小時,三大惡心情況發(fā)生了

演都不演了!全紅嬋復(fù)出奪冠不到24小時,三大惡心情況發(fā)生了

丁丁鯉史紀(jì)
2025-11-03 14:55:34
西方突然意識到,中國準(zhǔn)備干大事,戰(zhàn)略儲備已布局整整20年

西方突然意識到,中國準(zhǔn)備干大事,戰(zhàn)略儲備已布局整整20年

頭條爆料007
2025-11-03 21:38:08
王家衛(wèi)錄音門最大的受害者出現(xiàn)了!不是唐嫣,而是嫁小導(dǎo)演的金靖

王家衛(wèi)錄音門最大的受害者出現(xiàn)了!不是唐嫣,而是嫁小導(dǎo)演的金靖

木子愛娛樂大號
2025-11-03 11:41:52
全紅嬋大了一圈!被張家齊捏肚子上肉,和陳芋汐體型對比十分明顯

全紅嬋大了一圈!被張家齊捏肚子上肉,和陳芋汐體型對比十分明顯

三十年萊斯特城球迷
2025-11-03 20:59:05
衛(wèi)星在南海拍到振奮一幕,055大驅(qū)打頭陣,當(dāng)面橫穿美航母戰(zhàn)斗群

衛(wèi)星在南海拍到振奮一幕,055大驅(qū)打頭陣,當(dāng)面橫穿美航母戰(zhàn)斗群

頭條爆料007
2025-11-03 19:17:16
伊朗披露哈馬斯前領(lǐng)導(dǎo)人哈尼亞遇刺細(xì)節(jié):一枚導(dǎo)彈“擊穿窗戶”,他當(dāng)時正在打電話

伊朗披露哈馬斯前領(lǐng)導(dǎo)人哈尼亞遇刺細(xì)節(jié):一枚導(dǎo)彈“擊穿窗戶”,他當(dāng)時正在打電話

環(huán)球網(wǎng)資訊
2025-11-03 19:44:58
淪陷了!演員溫崢嶸“現(xiàn)身”多個直播,粉絲稱“根本舉報不過來”

淪陷了!演員溫崢嶸“現(xiàn)身”多個直播,粉絲稱“根本舉報不過來”

上觀新聞
2025-11-03 09:49:05
黃金大消息!工行宣布,今起暫停

黃金大消息!工行宣布,今起暫停

中國基金報
2025-11-03 12:17:24
悍將骨折!開拓者無奈官宣,四人傷停,楊瀚森迎來機會,渴望逆襲

悍將骨折!開拓者無奈官宣,四人傷停,楊瀚森迎來機會,渴望逆襲

阿泰希特
2025-11-03 14:27:59
這是我見過的五官最精致的女性,一臉福相,以后會貴不可言

這是我見過的五官最精致的女性,一臉福相,以后會貴不可言

手工制作阿殲
2025-10-28 14:03:28
紅姐扮演者在萬圣節(jié)活動中被帶走了

紅姐扮演者在萬圣節(jié)活動中被帶走了

清暉有墨
2025-11-03 16:13:26
開拓者官宣召回楊瀚森!未來下放只訓(xùn)練不比賽?隊記解析核心原因

開拓者官宣召回楊瀚森!未來下放只訓(xùn)練不比賽?隊記解析核心原因

羅說NBA
2025-11-03 08:35:00
這條注定沒有熱度的新聞,比想象得還要“恐怖”

這條注定沒有熱度的新聞,比想象得還要“恐怖”

清書先生
2025-11-03 16:27:21
中紀(jì)委周末再打虎!“70后”副部任上落馬,上周25人通報被查,3名中管干部同日被處分

中紀(jì)委周末再打虎!“70后”副部任上落馬,上周25人通報被查,3名中管干部同日被處分

上觀新聞
2025-11-03 11:19:08
電子廠里男女關(guān)系有多亂?網(wǎng)友:女人也是下半身思考的生物啊

電子廠里男女關(guān)系有多亂?網(wǎng)友:女人也是下半身思考的生物啊

解讀熱點事件
2025-11-02 00:10:03
深鐵再救萬科220億,暗藏的動作太多了

深鐵再救萬科220億,暗藏的動作太多了

大貓財經(jīng)Pro
2025-11-03 17:48:50
衛(wèi)冕冠軍遭絕殺!全運會浙江0-1 末輪不勝山東=出局 王鈺棟被換下

衛(wèi)冕冠軍遭絕殺!全運會浙江0-1 末輪不勝山東=出局 王鈺棟被換下

我愛英超
2025-11-03 18:46:32
爭議!全紅嬋與王偉瑩第2跳明顯不在同一節(jié)奏 裁判打出8分同步分

爭議!全紅嬋與王偉瑩第2跳明顯不在同一節(jié)奏 裁判打出8分同步分

風(fēng)過鄉(xiāng)
2025-11-03 08:22:39
知名品牌突發(fā):將關(guān)閉全部門店

知名品牌突發(fā):將關(guān)閉全部門店

魯中晨報
2025-11-03 07:11:03
突傳噩耗!王國斌離世,公司官網(wǎng)已變黑白

突傳噩耗!王國斌離世,公司官網(wǎng)已變黑白

中國基金報
2025-11-03 15:30:07
2025-11-04 04:56:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13777文章數(shù) 66236關(guān)注度
往期回顧 全部

科技要聞

余承東內(nèi)部信:鴻蒙下一步要實現(xiàn)上億覆蓋

頭條要聞

日本組建特種作戰(zhàn)旅 主要面向海外作戰(zhàn)

頭條要聞

日本組建特種作戰(zhàn)旅 主要面向海外作戰(zhàn)

體育要聞

開拓者官宣召回楊瀚森 隊記解析核心原因

娛樂要聞

男導(dǎo)演曝丑聞 蔣欣的含金量還在上升

財經(jīng)要聞

最新省市GDP:誰在飆升,誰掉隊了?

汽車要聞

環(huán)比增長28.7% 方程豹品牌10月銷量31052輛

態(tài)度原創(chuàng)

家居
本地
數(shù)碼
藝術(shù)
公開課

家居要聞

歲月柔情 現(xiàn)代品質(zhì)輕奢

本地新聞

全網(wǎng)圍觀,到底多少人被這個野人大學(xué)生笑瘋了

數(shù)碼要聞

蘋果邀請英國iPad用戶共創(chuàng)“圣誕樹”,獲獎作品將在倫敦總部點亮

藝術(shù)要聞

這21位歐美女神,驚艷得讓人窒息!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 慬色AV一区二区三区| 国产午夜精品福利免费不| 精品国夜夜天天| av资源无码| 亚洲一区二区三区日本久久九| 99re14| 色婷婷五月天| 无码一区二区三区老色鬼| 色一伊人区二区亚洲最大| 色综合久久久无码中文字幕波多| 亚洲欧美天堂网| 国产绳艺sm调教室论坛| 亚洲一区爆白浆| 日本老熟妇乱子伦精品| 人碰人碰人碰人碰视频| 色欲综合影视| 中文字幕无码久久一区| 欧美一区二区三区黄色四级片| 密臀国产精品国产亚洲精品| 国产A级片色哟哟| 亚洲色图片一区二区三区| 韩国三级午夜福利| 一区二区三区四区影视视频在线观看| 欧美性爱成人网站| 亚洲国产中文字幕精品| 亚洲av二区| 在线亚洲精品国产二区图片欧美| 欧美精品hdvideosex4k| 蜜桃视频96| 人人妻人人曰| 少妇和邻居做不戴套视频| 舔老女人的屁股| 青青草干在线黄色视频| 国产一区二区在线视频播放| 人人爽人人奭人人片AV| 国产边打电话边被躁视频| 老年人视频日本大香蕉久久| 99热在线精品国产观看| 制服丝袜88tv| 色欲久久av无码精品人妻| 天天爽夜夜爱|