夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從需求分析到代碼生成,LLM都能干點啥?一文讀懂291個軟工Benchmark!

0
分享至


新智元報道

編輯:LRST

【新智元導讀】大語言模型正加速重塑軟件工程領(lǐng)域的各個環(huán)節(jié),從需求分析到代碼生成,再到自動化測試,幾乎無所不能,但衡量這些模型到底「好不好用」、「好在哪里」、「還有哪些短板」,一直缺乏系統(tǒng)、權(quán)威的評估工具。浙江大學、新加坡管理大學、加拿大渥太華大學等機構(gòu)的研究團隊,首次對291個用于評估LLMs在軟件工程任務(wù)中的Benchmark進行了系統(tǒng)綜述,為AI4SE社區(qū)繪制了一份詳盡的「基準地圖」與方法指南。

近年來,ChatGPT、Llama等大語言模型在軟件工程領(lǐng)域的能力突飛猛進,從需求分析、代碼生成到測試與維護幾乎無所不能。但一個核心問題是:我們?nèi)绾慰陀^評估這些模型在不同軟件工程任務(wù)中的表現(xiàn)?

在SE領(lǐng)域,Benchmark既是分數(shù)卡,讓不同模型在同一標準下比拼;也是方向盤,引導技術(shù)改進與未來研究方向。

然而,現(xiàn)有LLM-SE Benchmark存在三大痛點:

  • 零散分布:缺乏覆蓋全流程的軟件工程任務(wù)Benchmark綜述

  • 構(gòu)建方式各異:評估指標、數(shù)據(jù)來源五花八門,難以橫向比較

  • 研究空白:此前從未有系統(tǒng)文獻綜述全面匯總軟件工程相關(guān)的大語言模型Benchmark

這使得開發(fā)者和研究者在選擇評估方法時常陷入「信息孤島」,甚至可能被不全面的評估結(jié)果誤導。

為填補這一空白,來自浙江大學、新加坡管理大學、渥太華大學等機構(gòu)的團隊開展了一項系統(tǒng)文獻綜述,首次全面梳理了291個用于評估大語言模型在軟件工程任務(wù)中的Benchmark,并從任務(wù)覆蓋、語言分布、構(gòu)建方式到未來趨勢進行了深入分析。


論文鏈接:https://arxiv.org/pdf/2505.08903


圖1 綜述框架總覽

研究聚焦三大核心問題:

  • 現(xiàn)有LLM-SE Benchmark有哪些?

  • 它們是如何構(gòu)建的?

  • 它們面臨哪些挑戰(zhàn)與改進機會?

為了確保全面、系統(tǒng),研究人員開展「地毯式搜索」:

數(shù)據(jù)來源:覆蓋IEEE Xplore、ACM DL、ScienceDirect、Springer Link等八大數(shù)據(jù)庫;

  • 補充檢索采用前向與后向的「滾雪球」檢索,確保重要Benchmark不遺漏;

  • 嚴格篩選設(shè)置包含與排除標準,剔除與LLM-SE無關(guān)或信息不全的Benchmark;

  • 質(zhì)量評估從描述清晰度、SE相關(guān)性、方法嚴謹性、可復現(xiàn)性、學術(shù)影響五個維度打分;

  • 最終成果匯總291個在2025年6月前發(fā)表的Benchmark,按任務(wù)、語言、構(gòu)建方式等多維度分類分析。

六大任務(wù)全覆蓋

Benchmark演化脈絡(luò)清晰


圖2 Benchmark年份分布

統(tǒng)計顯示,自2022年起B(yǎng)enchmark數(shù)量快速增長,2023和2024年分別新增近70個,增長勢頭迅猛。


圖3 Benchmark語言分布

Python在評估Benchmark中一騎絕塵,主要用于代碼生成與推薦類任務(wù);Java、C++、C語言在質(zhì)量分析與維護任務(wù)中占有重要地位;Go、PHP、Ruby等小眾語言的Benchmark仍然稀缺。


圖4 Benchmark任務(wù)分布

任務(wù)分布(六大類)

  • 需求與設(shè)計(25個):需求獲取、分類、沖突檢測、規(guī)格化與驗證;

  • 編碼輔助(124個):代碼生成、補全、摘要、多語言遷移(占比超40%,最多);

  • 軟件測試(25個):測試生成、GUI測試、斷言生成、自動修復;

  • AIOps(6個):日志生成與解析;

  • 軟件維護(13個):代碼審查、克隆檢測、代碼重構(gòu);

  • 質(zhì)量管理(111個):缺陷檢測、漏洞識別、修復建議(占比38%)。

其中「編碼輔助」任務(wù)相關(guān)Benchmark數(shù)量最多,占比超過40%,其次是質(zhì)量管理類任務(wù),占比達38%。

現(xiàn)實挑戰(zhàn)

Benchmark還遠遠不夠用!

研究指出,當前Benchmark建設(shè)存在五大瓶頸:

  • 任務(wù)定義模糊、評價不一致缺乏統(tǒng)一標準,難以橫向?qū)Ρ龋?/p>

  • 規(guī)模受限、計算成本高多數(shù)數(shù)據(jù)集規(guī)模偏小,覆蓋不了復雜系統(tǒng);

  • 泛化能力不足Benchmark表現(xiàn)好,真實場景卻「水土不服」;

  • 更新滯后難以及時跟進新技術(shù)與框架;

  • 數(shù)據(jù)隱私限制真實企業(yè)數(shù)據(jù)難以共享,影響高質(zhì)量Benchmark建設(shè)。

未來機會

Benchmark建設(shè)仍是「藍?!?/strong>

團隊提出了五大改進方向:

  • 多維評估引入準確率、可維護性、效率、安全性、可解釋性等指標;

  • 跨語言、跨任務(wù)統(tǒng)一評估框架,提升通用性;

  • 貼近真實場景引入真實項目數(shù)據(jù),提高落地性;

  • 人類反饋與倫理考量納入有害性檢測、隱私風險等維度;

  • 動態(tài)可擴展平臺支持任務(wù)擴展、新模型接入與持續(xù)測評。

總結(jié)

Benchmark是推動LLM落地的「發(fā)動機」

正如作者所言——當前LLM在軟件工程中的應(yīng)用正處于「黃金發(fā)展期」,但真正能驅(qū)動其走向工業(yè)落地、提升工程可信度的,是那些更真實、更多維、更動態(tài)的Benchmark體系。

這項研究不僅填補了LLM軟件工程評估的綜述空白,也為AI4SE研究者、開發(fā)者和企業(yè)提供了清晰的「下一步方向」。

如果說模型是「馬達」,Benchmark就是「方向盤」。誰能把握住它,誰就能在AI軟件工程的未來之路上走得更遠。

參考資料:

https://arxiv.org/pdf/2505.08903


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
短時暴雨,8-10級雷雨大風!浙江確定要降溫,但只能“開心”2天

短時暴雨,8-10級雷雨大風!浙江確定要降溫,但只能“開心”2天

魯中晨報
2025-08-27 07:52:02
河北孟村的某某被家暴致死,知情人:男方家勢力很大,爺爺是院長

河北孟村的某某被家暴致死,知情人:男方家勢力很大,爺爺是院長

魔都姐姐雜談
2025-08-25 14:02:48
轉(zhuǎn)向以人民為中心的經(jīng)濟:標準是什么?

轉(zhuǎn)向以人民為中心的經(jīng)濟:標準是什么?

戈多的嘆息
2025-08-25 09:47:44
阿富汗的老百姓沒有見過豬,阿富汗請求中國送給他們2只豬

阿富汗的老百姓沒有見過豬,阿富汗請求中國送給他們2只豬

忠于法紀
2025-08-27 08:54:04
82.3%控球率!世體:弗里克刷新執(zhí)教巴薩新紀錄

82.3%控球率!世體:弗里克刷新執(zhí)教巴薩新紀錄

雷速體育
2025-08-26 14:47:21
3-1!世錦賽16強出爐,黑馬創(chuàng)造出線奇跡,中國女排全力避開巴西

3-1!世錦賽16強出爐,黑馬創(chuàng)造出線奇跡,中國女排全力避開巴西

侃球熊弟
2025-08-26 22:45:24
做的好,一進9段線就攔截,菲律賓南海鬧劇要終結(jié)了

做的好,一進9段線就攔截,菲律賓南海鬧劇要終結(jié)了

世家寶
2025-08-26 14:10:15
遠華集團總裁賴昌星,在獄中對董文華的描述,聽后讓人咋舌

遠華集團總裁賴昌星,在獄中對董文華的描述,聽后讓人咋舌

蘭姐說故事
2025-02-17 22:00:03
看了“收銀員見死不救被索賠218萬”事件,我才知道人性有多復雜

看了“收銀員見死不救被索賠218萬”事件,我才知道人性有多復雜

千百度籃球視角
2025-08-26 12:58:02
肥皂劇結(jié)束!皇馬9000萬先生不走了:親口告知主帥 留隊競爭

肥皂劇結(jié)束!皇馬9000萬先生不走了:親口告知主帥 留隊競爭

葉青足球世界
2025-08-26 08:45:06
瓦爾德內(nèi)爾怒贊一名中國球員:有史以來最全面的乒乓球選手之一

瓦爾德內(nèi)爾怒贊一名中國球員:有史以來最全面的乒乓球選手之一

塵語者
2025-08-26 17:01:38
全家移民真相大白2年,享正師級待遇的潘長江,已走上另一條大道

全家移民真相大白2年,享正師級待遇的潘長江,已走上另一條大道

以茶帶書
2025-08-07 19:42:40
又是后衛(wèi),炸裂!勇士第一筆重磅補強!終于來了!真不把威少當人

又是后衛(wèi),炸裂!勇士第一筆重磅補強!終于來了!真不把威少當人

籃球掃地僧
2025-08-26 14:52:37
由正轉(zhuǎn)負!拼多多,“黃昏”將至?

由正轉(zhuǎn)負!拼多多,“黃昏”將至?

杠桿游戲
2025-08-26 23:30:58
好消息!醫(yī)保賬戶余額能轉(zhuǎn)賬了!手把手教您

好消息!醫(yī)保賬戶余額能轉(zhuǎn)賬了!手把手教您

許昌廣播電視臺交通廣播
2025-08-26 09:21:06
吳京新片票房慘烈,三天只賣24萬,多位知名演員參演

吳京新片票房慘烈,三天只賣24萬,多位知名演員參演

光影新天地
2025-08-24 15:15:50
余承東“很好玩、很好玩的功能”惹爭議!網(wǎng)友:成功的解決了開車時注意力過于集中的問題

余承東“很好玩、很好玩的功能”惹爭議!網(wǎng)友:成功的解決了開車時注意力過于集中的問題

大白聊IT
2025-08-26 11:44:28
烏軍在頓涅茨克勢如破竹,俄軍接連失敗,一退再退

烏軍在頓涅茨克勢如破竹,俄軍接連失敗,一退再退

金召點評
2025-08-25 04:00:03
有一味中藥被稱為天然黑發(fā)劑,白發(fā)沒了,脫發(fā)不見了

有一味中藥被稱為天然黑發(fā)劑,白發(fā)沒了,脫發(fā)不見了

環(huán)京快爆
2025-08-25 12:13:31
“至暗時刻,英國經(jīng)濟瀕臨崩潰”

“至暗時刻,英國經(jīng)濟瀕臨崩潰”

觀察者網(wǎng)
2025-08-26 14:19:20
2025-08-27 09:59:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13328文章數(shù) 66138關(guān)注度
往期回顧 全部

科技要聞

星艦第十飛成功部署衛(wèi)星模型 飛船精準濺落

頭條要聞

牛彈琴:憤怒的莫迪不接電話后 特朗普公開點名"羞辱"

頭條要聞

牛彈琴:憤怒的莫迪不接電話后 特朗普公開點名"羞辱"

體育要聞

45歲,她“贏得”一場令人激動的失敗

娛樂要聞

吳京因為說坦克是沒有后視鏡遭人惡評

財經(jīng)要聞

由正轉(zhuǎn)負!拼多多,“黃昏”將至?

汽車要聞

蓮花跑車獲5億美元融資:不易的成績,長遠的下注

態(tài)度原創(chuàng)

家居
房產(chǎn)
旅游
健康
教育

家居要聞

原木風格 自然溫馨簡約

房產(chǎn)要聞

突然!萬科入局三亞超級城更!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

精神科專家解答學習困難七大問題

教育要聞

今年本科招生超300萬,考生被800余專業(yè)錄取,前10名的專業(yè)是誰?

無障礙瀏覽 進入關(guān)懷版 99精品众筹模特自拍视频| 国产伦精品一区二区三区视频我| 哈尔滨熟妇喷水45分钟| 最新国产精品精品视频| 99热精品在线| 亚洲秘无码一区二区三区欧美| 欧洲精品VA无码一区二区三区| 亚洲阿v天堂在线| 人人操操操人人| 人人爽 人人干| 国产无遮挡aaa片爽爽| 大地资源二在线观看免费高清小说| 你懂的网亚洲无码| 香蕉久久一区二区不卡无毒影院| 国产伦子伦露脸| 黄色视频一区欧洲| 亚洲av无码不卡在线播放| 观看国产色欲色欲色欲WWW| 午夜热门精品一区二区三区| 无码人妻精品一区二区三区蜜桃| 国产av国片精品jk制服| 婷婷六月综合网| 久久99国产精品99蜜桃| 成人亚洲精品久久久久| 男女超爽视频免费播放| 精品国产午夜福利在线观看| 国产思思99re99在线观看| 成人无码毛片| 嗯嗯啊啊无码视频| 蜜桃高清无码在线观看| 人人爽人人都AV| 无码AV免费在线播放| 久久99精品久久久久久清纯| 800。免费毛片| 色窝窝无码一区二区三区| 热99re69精品8在线播放| 中文字幕精品久久久久人妻| 亚洲gv猛男gv无码| 久99久久久无码精品国产图片 | 久久天天躁狠狠躁夜夜婷| 国内国精产品一二三区传媒|