新智元報道
編輯:LRST
【新智元導讀】大語言模型正加速重塑軟件工程領(lǐng)域的各個環(huán)節(jié),從需求分析到代碼生成,再到自動化測試,幾乎無所不能,但衡量這些模型到底「好不好用」、「好在哪里」、「還有哪些短板」,一直缺乏系統(tǒng)、權(quán)威的評估工具。浙江大學、新加坡管理大學、加拿大渥太華大學等機構(gòu)的研究團隊,首次對291個用于評估LLMs在軟件工程任務(wù)中的Benchmark進行了系統(tǒng)綜述,為AI4SE社區(qū)繪制了一份詳盡的「基準地圖」與方法指南。
近年來,ChatGPT、Llama等大語言模型在軟件工程領(lǐng)域的能力突飛猛進,從需求分析、代碼生成到測試與維護幾乎無所不能。但一個核心問題是:我們?nèi)绾慰陀^評估這些模型在不同軟件工程任務(wù)中的表現(xiàn)?
在SE領(lǐng)域,Benchmark既是分數(shù)卡,讓不同模型在同一標準下比拼;也是方向盤,引導技術(shù)改進與未來研究方向。
然而,現(xiàn)有LLM-SE Benchmark存在三大痛點:
零散分布:缺乏覆蓋全流程的軟件工程任務(wù)Benchmark綜述
構(gòu)建方式各異:評估指標、數(shù)據(jù)來源五花八門,難以橫向比較
研究空白:此前從未有系統(tǒng)文獻綜述全面匯總軟件工程相關(guān)的大語言模型Benchmark
這使得開發(fā)者和研究者在選擇評估方法時常陷入「信息孤島」,甚至可能被不全面的評估結(jié)果誤導。
為填補這一空白,來自浙江大學、新加坡管理大學、渥太華大學等機構(gòu)的團隊開展了一項系統(tǒng)文獻綜述,首次全面梳理了291個用于評估大語言模型在軟件工程任務(wù)中的Benchmark,并從任務(wù)覆蓋、語言分布、構(gòu)建方式到未來趨勢進行了深入分析。
論文鏈接:https://arxiv.org/pdf/2505.08903
圖1 綜述框架總覽
研究聚焦三大核心問題:
現(xiàn)有LLM-SE Benchmark有哪些?
它們是如何構(gòu)建的?
它們面臨哪些挑戰(zhàn)與改進機會?
為了確保全面、系統(tǒng),研究人員開展「地毯式搜索」:
數(shù)據(jù)來源:覆蓋IEEE Xplore、ACM DL、ScienceDirect、Springer Link等八大數(shù)據(jù)庫;
補充檢索:采用前向與后向的「滾雪球」檢索,確保重要Benchmark不遺漏;
嚴格篩選:設(shè)置包含與排除標準,剔除與LLM-SE無關(guān)或信息不全的Benchmark;
質(zhì)量評估:從描述清晰度、SE相關(guān)性、方法嚴謹性、可復現(xiàn)性、學術(shù)影響五個維度打分;
最終成果:匯總291個在2025年6月前發(fā)表的Benchmark,按任務(wù)、語言、構(gòu)建方式等多維度分類分析。
六大任務(wù)全覆蓋
Benchmark演化脈絡(luò)清晰
圖2 Benchmark年份分布
統(tǒng)計顯示,自2022年起B(yǎng)enchmark數(shù)量快速增長,2023和2024年分別新增近70個,增長勢頭迅猛。
圖3 Benchmark語言分布
Python在評估Benchmark中一騎絕塵,主要用于代碼生成與推薦類任務(wù);Java、C++、C語言在質(zhì)量分析與維護任務(wù)中占有重要地位;Go、PHP、Ruby等小眾語言的Benchmark仍然稀缺。
圖4 Benchmark任務(wù)分布
任務(wù)分布(六大類)
需求與設(shè)計(25個):需求獲取、分類、沖突檢測、規(guī)格化與驗證;
編碼輔助(124個):代碼生成、補全、摘要、多語言遷移(占比超40%,最多);
軟件測試(25個):測試生成、GUI測試、斷言生成、自動修復;
AIOps(6個):日志生成與解析;
軟件維護(13個):代碼審查、克隆檢測、代碼重構(gòu);
質(zhì)量管理(111個):缺陷檢測、漏洞識別、修復建議(占比38%)。
其中「編碼輔助」任務(wù)相關(guān)Benchmark數(shù)量最多,占比超過40%,其次是質(zhì)量管理類任務(wù),占比達38%。
現(xiàn)實挑戰(zhàn)
Benchmark還遠遠不夠用!
研究指出,當前Benchmark建設(shè)存在五大瓶頸:
任務(wù)定義模糊、評價不一致:缺乏統(tǒng)一標準,難以橫向?qū)Ρ龋?/p>
規(guī)模受限、計算成本高:多數(shù)數(shù)據(jù)集規(guī)模偏小,覆蓋不了復雜系統(tǒng);
泛化能力不足:Benchmark表現(xiàn)好,真實場景卻「水土不服」;
更新滯后:難以及時跟進新技術(shù)與框架;
數(shù)據(jù)隱私限制:真實企業(yè)數(shù)據(jù)難以共享,影響高質(zhì)量Benchmark建設(shè)。
未來機會
Benchmark建設(shè)仍是「藍?!?/strong>
團隊提出了五大改進方向:
多維評估:引入準確率、可維護性、效率、安全性、可解釋性等指標;
跨語言、跨任務(wù):統(tǒng)一評估框架,提升通用性;
貼近真實場景:引入真實項目數(shù)據(jù),提高落地性;
人類反饋與倫理考量:納入有害性檢測、隱私風險等維度;
動態(tài)可擴展平臺:支持任務(wù)擴展、新模型接入與持續(xù)測評。
總結(jié)
Benchmark是推動LLM落地的「發(fā)動機」
正如作者所言——當前LLM在軟件工程中的應(yīng)用正處于「黃金發(fā)展期」,但真正能驅(qū)動其走向工業(yè)落地、提升工程可信度的,是那些更真實、更多維、更動態(tài)的Benchmark體系。
這項研究不僅填補了LLM軟件工程評估的綜述空白,也為AI4SE研究者、開發(fā)者和企業(yè)提供了清晰的「下一步方向」。
如果說模型是「馬達」,Benchmark就是「方向盤」。誰能把握住它,誰就能在AI軟件工程的未來之路上走得更遠。
參考資料:
https://arxiv.org/pdf/2505.08903
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.