從需求分析到代碼生成，LLM都能干點啥？一文讀懂291個軟工Benchmark！

2025-08-26 23:14:22　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】大語言模型正加速重塑軟件工程領(lǐng)域的各個環(huán)節(jié)，從需求分析到代碼生成，再到自動化測試，幾乎無所不能，但衡量這些模型到底「好不好用」、「好在哪里」、「還有哪些短板」，一直缺乏系統(tǒng)、權(quán)威的評估工具。浙江大學、新加坡管理大學、加拿大渥太華大學等機構(gòu)的研究團隊，首次對291個用于評估LLMs在軟件工程任務(wù)中的Benchmark進行了系統(tǒng)綜述，為AI4SE社區(qū)繪制了一份詳盡的「基準地圖」與方法指南。

近年來，ChatGPT、Llama等大語言模型在軟件工程領(lǐng)域的能力突飛猛進，從需求分析、代碼生成到測試與維護幾乎無所不能。但一個核心問題是：我們?nèi)绾慰陀^評估這些模型在不同軟件工程任務(wù)中的表現(xiàn)？

在SE領(lǐng)域，Benchmark既是分數(shù)卡，讓不同模型在同一標準下比拼；也是方向盤，引導技術(shù)改進與未來研究方向。

然而，現(xiàn)有LLM-SE Benchmark存在三大痛點：

零散分布：缺乏覆蓋全流程的軟件工程任務(wù)Benchmark綜述
構(gòu)建方式各異：評估指標、數(shù)據(jù)來源五花八門，難以橫向比較
研究空白：此前從未有系統(tǒng)文獻綜述全面匯總軟件工程相關(guān)的大語言模型Benchmark

這使得開發(fā)者和研究者在選擇評估方法時常陷入「信息孤島」，甚至可能被不全面的評估結(jié)果誤導。

為填補這一空白，來自浙江大學、新加坡管理大學、渥太華大學等機構(gòu)的團隊開展了一項系統(tǒng)文獻綜述，首次全面梳理了291個用于評估大語言模型在軟件工程任務(wù)中的Benchmark，并從任務(wù)覆蓋、語言分布、構(gòu)建方式到未來趨勢進行了深入分析。

論文鏈接：https://arxiv.org/pdf/2505.08903

圖1 綜述框架總覽

研究聚焦三大核心問題：

現(xiàn)有LLM-SE Benchmark有哪些？
它們是如何構(gòu)建的？
它們面臨哪些挑戰(zhàn)與改進機會？

為了確保全面、系統(tǒng)，研究人員開展「地毯式搜索」：

數(shù)據(jù)來源：覆蓋IEEE Xplore、ACM DL、ScienceDirect、Springer Link等八大數(shù)據(jù)庫；

補充檢索：采用前向與后向的「滾雪球」檢索，確保重要Benchmark不遺漏；
嚴格篩選：設(shè)置包含與排除標準，剔除與LLM-SE無關(guān)或信息不全的Benchmark；
質(zhì)量評估：從描述清晰度、SE相關(guān)性、方法嚴謹性、可復現(xiàn)性、學術(shù)影響五個維度打分；
最終成果：匯總291個在2025年6月前發(fā)表的Benchmark，按任務(wù)、語言、構(gòu)建方式等多維度分類分析。

六大任務(wù)全覆蓋

Benchmark演化脈絡(luò)清晰

圖2 Benchmark年份分布

統(tǒng)計顯示，自2022年起B(yǎng)enchmark數(shù)量快速增長，2023和2024年分別新增近70個，增長勢頭迅猛。

圖3 Benchmark語言分布

Python在評估Benchmark中一騎絕塵，主要用于代碼生成與推薦類任務(wù)；Java、C++、C語言在質(zhì)量分析與維護任務(wù)中占有重要地位；Go、PHP、Ruby等小眾語言的Benchmark仍然稀缺。

圖4 Benchmark任務(wù)分布

任務(wù)分布（六大類）

需求與設(shè)計（25個）：需求獲取、分類、沖突檢測、規(guī)格化與驗證；
編碼輔助（124個）：代碼生成、補全、摘要、多語言遷移（占比超40%，最多）；
軟件測試（25個）：測試生成、GUI測試、斷言生成、自動修復；
AIOps（6個）：日志生成與解析；
軟件維護（13個）：代碼審查、克隆檢測、代碼重構(gòu)；
質(zhì)量管理（111個）：缺陷檢測、漏洞識別、修復建議（占比38%）。

其中「編碼輔助」任務(wù)相關(guān)Benchmark數(shù)量最多，占比超過40%，其次是質(zhì)量管理類任務(wù)，占比達38%。

現(xiàn)實挑戰(zhàn)

Benchmark還遠遠不夠用！

研究指出，當前Benchmark建設(shè)存在五大瓶頸：

任務(wù)定義模糊、評價不一致：缺乏統(tǒng)一標準，難以橫向?qū)Ρ龋?/p>
規(guī)模受限、計算成本高：多數(shù)數(shù)據(jù)集規(guī)模偏小，覆蓋不了復雜系統(tǒng)；
泛化能力不足：Benchmark表現(xiàn)好，真實場景卻「水土不服」；
更新滯后：難以及時跟進新技術(shù)與框架；
數(shù)據(jù)隱私限制：真實企業(yè)數(shù)據(jù)難以共享，影響高質(zhì)量Benchmark建設(shè)。

未來機會

Benchmark建設(shè)仍是「藍?！?/strong>

團隊提出了五大改進方向：

多維評估：引入準確率、可維護性、效率、安全性、可解釋性等指標；
跨語言、跨任務(wù)：統(tǒng)一評估框架，提升通用性；
貼近真實場景：引入真實項目數(shù)據(jù)，提高落地性；
人類反饋與倫理考量：納入有害性檢測、隱私風險等維度；
動態(tài)可擴展平臺：支持任務(wù)擴展、新模型接入與持續(xù)測評。

總結(jié)

Benchmark是推動LLM落地的「發(fā)動機」

正如作者所言——當前LLM在軟件工程中的應(yīng)用正處于「黃金發(fā)展期」，但真正能驅(qū)動其走向工業(yè)落地、提升工程可信度的，是那些更真實、更多維、更動態(tài)的Benchmark體系。

這項研究不僅填補了LLM軟件工程評估的綜述空白，也為AI4SE研究者、開發(fā)者和企業(yè)提供了清晰的「下一步方向」。

如果說模型是「馬達」，Benchmark就是「方向盤」。誰能把握住它，誰就能在AI軟件工程的未來之路上走得更遠。

參考資料：

https://arxiv.org/pdf/2505.08903

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點推薦

M+框架來了，增加LLM隱空間記憶，不再受上下文窗口限制

機器之心Pro 2025-07-15 17:07:00
1 跟貼 1

Karpathy氛圍編程最新指南！

量子位 2025-08-26 14:30:30
28 跟貼 28

熱議！DeepSeek V3.1驚現(xiàn)神秘「極」字 Bug，模型故障了？

機器之心Pro 2025-08-26 14:05:28
40 跟貼 40

科研寫作神器，超越Mathpix的科學公式提取工具已開源

機器之心Pro 2025-08-05 17:34:47
0 跟貼 0

重構(gòu)訓練框架，開源新方法：拋棄替代損失函數(shù)，僅需優(yōu)化原始目標

量子位 2025-04-27 12:22:37
0 跟貼 0

FlashAttention-4來襲,支持Blackwell GPU，英偉達的護城河更深了

機器之心Pro 2025-08-26 17:48:31
0 跟貼 0

首個接入GPT-5的視頻Agent！一句話生成廣告大片，分鏡配音全包了

量子位 2025-08-26 16:15:53
2 跟貼 2

從技術(shù)原理來說一說，高超音速巡航彈為什么厲害，和技術(shù)難點在哪

陳虎點兵 2025-08-26 21:36:33
1 跟貼 1

美軍頻繁進出巴基斯坦，企圖破解中國體系作戰(zhàn)系統(tǒng)？

戰(zhàn)場科技館 2025-08-26 12:41:15
34 跟貼 34

178個專業(yè)被預(yù)警！是你正在考的嗎？

考研幫 2025-08-25 17:15:24
3 跟貼 3

唐湘龍93閱鋲全自主全體系裝備亮劍，就是告訴世界紅線在哪里！

聽到生活事 2025-08-26 02:25:53
0 跟貼 0

天王蓋地虎！38歲吉魯法甲上演讀秒絕殺連場破門，回歸五大聯(lián)賽寶刀不老！又是一位技術(shù)扶貧

咪咕體育 2025-08-25 18:46:16
13 跟貼 13

中國人踢毽子都有功夫，比比賽更精彩的，就是選手們的技術(shù)！

奇怪小萌新 2025-08-26 15:20:37
19 跟貼 19

步步高投資董事長張源參加活動衣服上有烏克蘭國徽圖案

火煉樹 2025-08-27 00:49:28
26214 跟貼 26214

九三閱兵看強軍改革答卷，跨軍種聯(lián)合作戰(zhàn)體系成型

王強老師 2025-08-25 16:37:23
0 跟貼 0

4000噸盾構(gòu)機挖穿喜馬拉雅山，遭各國嘲笑的工程即將完工！

像風走了八萬里不問歸期 2025-08-24 10:18:00
0 跟貼 0

機器學習臨床預(yù)測模型構(gòu)建的一般流程

醫(yī)咖會 2025-08-11 19:56:31
0 跟貼 0

工業(yè)視覺模型，識別率超99%？視覺程序員：小于99.9%的都是垃圾！

程序員古耕 2025-08-25 11:38:19
24 跟貼 24

一次改變我軍指揮體系的戰(zhàn)役！取消了政委最終決定權(quán)！雪村之戰(zhàn)！

祈福所有 2025-08-26 02:14:08
0 跟貼 0

良言動車上的模型真的有人買嗎

描容娛樂 2025-08-23 23:03:58
11 跟貼 11

轉(zhuǎn)讓全部發(fā)動機技術(shù)，印法加強合作，聯(lián)合打造五代機“心臟”

陳虎點兵 2025-08-25 19:28:03
8 跟貼 8

“反詐老陳”打假“嘎子哥”直播間酷派手機，官方旗艦店確認無此產(chǎn)品，酷派客服：25日將正式回應(yīng)

極目新聞 2025-08-24 18:48:59
5751 跟貼 5751

央視曝光！中國反航母作戰(zhàn)體系，太震撼了！#軍事

金日視界 2025-08-25 09:34:24
16 跟貼 16

街頭采訪小姐姐，彩禮仿佛成了扶貧項目，一般家庭真負擔不起！

宇宙搞笑生活 2025-08-24 17:09:29
4 跟貼 4

竟呼吁各國不要出席“9·3”紀念活動，日本在害怕什么？

北京日報客戶端 2025-08-26 18:48:02
3215 跟貼 3215

40年未戰(zhàn)仍稱雄！中國空軍作戰(zhàn)體系借巴鐵實戰(zhàn)大考！

浩然簡史 2025-08-23 12:20:05
1 跟貼 1

生于1986年，馮旭波擬升廳級

新京報政事兒 2025-08-26 20:57:06
137 跟貼 137

印度高鐵項目！中企解圍，將啟新程

本末倒置也 2025-08-26 06:26:23
0 跟貼 0

博主拍下黑夜中“巨型貓”爬屋檐，仿佛在走房屋模型

江西晨報 2025-08-26 22:11:55
0 跟貼 0

帥哥拿下工程后，把小河水抽干卻發(fā)現(xiàn)此物，全網(wǎng)尋找失主

小姐姐愛搞笑 2025-08-26 17:12:04
1 跟貼 1

將數(shù)據(jù)優(yōu)勢發(fā)揮到極致：「杭州六小龍」開源搭建空間智能的第一步

機器之心Pro 2025-08-26 19:18:46
0 跟貼 0

中央批準，省委領(lǐng)導班子密集調(diào)整

上觀新聞 2025-08-26 20:59:16
129 跟貼 129

中國農(nóng)資秀華強化工強農(nóng)工程鄧州：村支書的高產(chǎn)好方子

粒歌 2025-08-26 13:27:56
1 跟貼 1

公司新入職的程序員，十幾年工作經(jīng)驗，竟然沒用過SVN和Git！

程序員古耕 2025-08-26 22:22:49
25 跟貼 25

剛剛，大模型裝上「鷹眼」！首創(chuàng)高刷視頻理解，谷歌Gemini 2.5完敗

新智元 2025-08-26 23:16:44
0 跟貼 0

官方通報西安一居委會副主任及家人與小區(qū)保安發(fā)生沖突：暫停職務(wù)，開展調(diào)查

界面新聞 2025-08-26 12:24:48
4186 跟貼 4186

世界五大最沒用的巨型項目，一個機場13億，最后1萬歐元賣出

窮游的似水年花 2025-08-26 16:03:46
0 跟貼 0

這難道就是人類基因編碼嗎，什么世紀大巧合，快去看看你有沒有！

曉愛生活 2025-08-25 09:07:03
0 跟貼 0

墨西哥高鐵合同糾紛：僅賠中方806萬，項目現(xiàn)狀如何？

阿鄖田間生活 2025-08-27 01:03:25
0 跟貼 0

鄭繼文：新型的空中作戰(zhàn)體系，比重型隱身轟炸機更重要

滕紅豆 2025-08-26 01:56:13
1 跟貼 1

短時暴雨，8-10級雷雨大風！浙江確定要降溫，但只能“開心”2天
魯中晨報
2025-08-27 07:52:02

河北孟村的某某被家暴致死，知情人：男方家勢力很大，爺爺是院長
魔都姐姐雜談
2025-08-25 14:02:48

轉(zhuǎn)向以人民為中心的經(jīng)濟：標準是什么？
戈多的嘆息
2025-08-25 09:47:44

阿富汗的老百姓沒有見過豬，阿富汗請求中國送給他們2只豬
忠于法紀
2025-08-27 08:54:04

82.3%控球率！世體：弗里克刷新執(zhí)教巴薩新紀錄
雷速體育
2025-08-26 14:47:21

3-1！世錦賽16強出爐，黑馬創(chuàng)造出線奇跡，中國女排全力避開巴西
侃球熊弟
2025-08-26 22:45:24

做的好，一進9段線就攔截，菲律賓南海鬧劇要終結(jié)了
世家寶
2025-08-26 14:10:15

遠華集團總裁賴昌星，在獄中對董文華的描述，聽后讓人咋舌
蘭姐說故事
2025-02-17 22:00:03

看了“收銀員見死不救被索賠218萬”事件，我才知道人性有多復雜
千百度籃球視角
2025-08-26 12:58:02

肥皂劇結(jié)束！皇馬9000萬先生不走了：親口告知主帥留隊競爭
葉青足球世界
2025-08-26 08:45:06

瓦爾德內(nèi)爾怒贊一名中國球員：有史以來最全面的乒乓球選手之一
塵語者
2025-08-26 17:01:38

全家移民真相大白2年，享正師級待遇的潘長江，已走上另一條大道
以茶帶書
2025-08-07 19:42:40

又是后衛(wèi)，炸裂！勇士第一筆重磅補強！終于來了！真不把威少當人
籃球掃地僧
2025-08-26 14:52:37

由正轉(zhuǎn)負！拼多多，“黃昏”將至？
杠桿游戲
2025-08-26 23:30:58

好消息！醫(yī)保賬戶余額能轉(zhuǎn)賬了！手把手教您
許昌廣播電視臺交通廣播
2025-08-26 09:21:06

吳京新片票房慘烈，三天只賣24萬，多位知名演員參演
光影新天地
2025-08-24 15:15:50

余承東“很好玩、很好玩的功能”惹爭議！網(wǎng)友：成功的解決了開車時注意力過于集中的問題
大白聊IT
2025-08-26 11:44:28

烏軍在頓涅茨克勢如破竹，俄軍接連失敗，一退再退
金召點評
2025-08-25 04:00:03

有一味中藥被稱為天然黑發(fā)劑，白發(fā)沒了，脫發(fā)不見了
環(huán)京快爆
2025-08-25 12:13:31

“至暗時刻，英國經(jīng)濟瀕臨崩潰”
觀察者網(wǎng)
2025-08-26 14:19:20

2025-08-27 09:59:00