來源:ScienceAI
作者:論文團(tuán)隊(duì)
編輯:ScienceAI
隨著大語言模型(Large Language Models, LLMs)推理能力的提升,其在自動(dòng)化科學(xué)發(fā)現(xiàn)(Automatic Scientific Discovery)領(lǐng)域的潛力也引發(fā)了學(xué)術(shù)界與公眾的廣泛關(guān)注。AI 領(lǐng)域知名學(xué)者何愷明曾在一次訪談中提出一個(gè)引人深思的問題:「以當(dāng)前大模型的智能水平,若將其置于牛頓時(shí)代,它能否獨(dú)立發(fā)現(xiàn)牛頓物理定律?」
然而,評(píng)估這種能力面臨諸多挑戰(zhàn)。首先,現(xiàn)實(shí)世界中的科學(xué)定律已廣泛存在于大模型的訓(xùn)練語料中,直接評(píng)估難以避免數(shù)據(jù)泄漏問題。其次,當(dāng)前的評(píng)估方法通常依賴于在靜態(tài)數(shù)據(jù)表格中歸納等式,無法真實(shí)反映實(shí)際科研中通過設(shè)計(jì)實(shí)驗(yàn)獲取數(shù)據(jù)以進(jìn)行探索性研究的本質(zhì)。
為此,來自香港科技大學(xué)和英偉達(dá)的研究者提出了 NewtonBench—— 一個(gè)具備強(qiáng)泛化能力、旨在模擬真實(shí)實(shí)驗(yàn)探索環(huán)境的科學(xué)定律發(fā)現(xiàn)基準(zhǔn)(Scientific Law Discovery Benchmark)。
論文地址:https://arxiv.org/pdf/2510.07172
代碼地址:https://github.com/HKUST-KnowComp/NewtonBench
NewtonBench 覆蓋了 12 個(gè)物理領(lǐng)域,其核心創(chuàng)新在于通過「形而上學(xué)變換(metaphysical shift)」將已知物理定律轉(zhuǎn)換為全新的定律,從而有效規(guī)避了數(shù)據(jù)泄漏問題,能夠更真實(shí)地評(píng)估大模型的原始推理能力。
此外,NewtonBench 為每個(gè)物理定律的發(fā)現(xiàn)過程提供了沙盒化的實(shí)驗(yàn)環(huán)境。大模型可以在其中自主設(shè)定實(shí)驗(yàn)參數(shù),執(zhí)行不同復(fù)雜度的實(shí)驗(yàn)任務(wù),并從環(huán)境中獲取反饋數(shù)據(jù)。這種高度模擬真實(shí)科學(xué)研究流程的設(shè)計(jì),顯著提升了評(píng)估結(jié)果的實(shí)際意義。
該研究對(duì) 11 個(gè)領(lǐng)先的大語言模型進(jìn)行了基準(zhǔn)測試,包括 GPT-5、Gemini-2.5-Pro、DeepSeek-R1 和 Qwen-3-235B 等。
評(píng)測結(jié)果顯示,非推理模型(如 GPT-4.1、DeepSeek-V3)表現(xiàn)普遍不佳。而推理模型(如 GPT-5、DeepSeek-R1)則展現(xiàn)出顯著差異。在復(fù)雜實(shí)驗(yàn)環(huán)境下,表現(xiàn)最優(yōu)的 GPT-5 和 Gemini-2.5-Pro 的定律發(fā)現(xiàn)準(zhǔn)確率分別為 29.9% 和 13.9%,而其他模型的準(zhǔn)確率均低于 5%。這充分凸顯了強(qiáng)大的推理能力對(duì)于科學(xué)定律發(fā)現(xiàn)的關(guān)鍵作用。
研究還深入分析發(fā)現(xiàn),為模型額外提供代碼解釋器工具(Code Interpreter Tool) 可以幫助能力較弱的模型突破計(jì)算瓶頸,但可能導(dǎo)致能力較強(qiáng)的模型產(chǎn)生過度依賴,反而抑制其自主探索的效率。
目前,NewtonBench 的評(píng)測數(shù)據(jù)集與評(píng)測代碼已全部開源。
NewtonBench 基準(zhǔn)構(gòu)建
物理法則構(gòu)建
NewtonBench 包含 324 個(gè)物理定律發(fā)現(xiàn)任務(wù),覆蓋力學(xué)、電磁學(xué)、熱力學(xué)等 12 個(gè)物理領(lǐng)域。其核心構(gòu)建方法是:以真實(shí)物理定律為基礎(chǔ),在「形而上學(xué)變換(metaphysical shift)」框架下,通過等式變換操作(mutation operation)生成衍生定律。根據(jù)變換步驟的復(fù)雜度及其引入的泛化需求,任務(wù)被劃分為簡單、中等、困難三個(gè)難度等級(jí)。
實(shí)驗(yàn)環(huán)境構(gòu)建
對(duì)于每個(gè)物理定律,NewtonBench 提供三種不同復(fù)雜度的實(shí)驗(yàn)環(huán)境。在簡單實(shí)驗(yàn)環(huán)境中,實(shí)驗(yàn)的輸入與輸出參數(shù)完全對(duì)齊目標(biāo)物理定律的表達(dá)形式,接近于理想的符號(hào)回歸(symbolic regression) 場景。而在中等及復(fù)雜難度環(huán)境中,目標(biāo)物理定律僅隱含于部分實(shí)驗(yàn)數(shù)據(jù)中。例如:要求模型通過兩個(gè)小球沿直線相向運(yùn)動(dòng)的觀測數(shù)據(jù),推導(dǎo)出引力與距離、質(zhì)量的函數(shù)關(guān)系。
大模型可通過函數(shù)調(diào)用(function calling)機(jī)制執(zhí)行實(shí)驗(yàn)操作,并從環(huán)境動(dòng)態(tài)獲取實(shí)驗(yàn)結(jié)果。模型最多可進(jìn)行 10 輪實(shí)驗(yàn)交互,最終需提交其推導(dǎo)出的物理定律表達(dá)式。
實(shí)驗(yàn)結(jié)果
研究人員對(duì) 11 個(gè)前沿大語言模型 進(jìn)行了系統(tǒng)評(píng)測,采用符號(hào)準(zhǔn)確率(Symbolic Accuracy) 和 均方根對(duì)數(shù)誤差(Root Mean Squared Logarithmic Error, RMSLE) 作為核心評(píng)估指標(biāo)。實(shí)驗(yàn)結(jié)果表明:
1. 非推理模型整體表現(xiàn)欠佳,即使在最簡單的實(shí)驗(yàn)設(shè)定下,其符號(hào)準(zhǔn)確率也僅處于 20%-50% 的區(qū)間;
2. 推理模型(如 GPT-5、DeepSeek-R1)憑借其強(qiáng)大的復(fù)雜推理與數(shù)學(xué)運(yùn)算能力,在簡單場景下的符號(hào)準(zhǔn)確率普遍突破 80%;
3. 隨著實(shí)驗(yàn)復(fù)雜度提升,推理模型間的性能差距顯著擴(kuò)大。在最具挑戰(zhàn)性的「困難定律 + 復(fù)雜實(shí)驗(yàn)」場景下:
性能領(lǐng)先的 GPT-5 和 Gemini-2.5-Pro 符號(hào)準(zhǔn)確率分別僅為 29.9% 和 13.9%;
其余模型的準(zhǔn)確率均低于 5%,顯示出任務(wù)難度的陡增特性。
值得注意的是,代碼執(zhí)行工具的輔助效果呈現(xiàn)出顯著的分化現(xiàn)象:
對(duì)于較弱模型(符號(hào)準(zhǔn)確率 < 40%),代碼工具可帶來顯著性能提升;
然而對(duì)于較強(qiáng)模型,代碼輔助均產(chǎn)生負(fù)面效應(yīng)。
這一矛盾現(xiàn)象促使研究人員開展了深度歸因分析。
代碼輔助效果分析
研究人員選取了四個(gè)代表性模型(GPT-4.1、Qwen-3-235B、Gemini-2.5-Flash、GPT-5-Mini),通過控制代碼調(diào)用權(quán)限數(shù)量展開對(duì)比實(shí)驗(yàn)。結(jié)果顯示,當(dāng)兩個(gè)高性能模型初步獲得代碼權(quán)限時(shí),準(zhǔn)確率均出現(xiàn)顯著下滑。進(jìn)一步分析模型決策文本中的探索(exploration)與利用(exploitation)關(guān)鍵詞頻發(fā)現(xiàn):性能驟降的 Gemini-2.5-Flash 在使用代碼后,探索類詞匯出現(xiàn)頻率急劇下降;而受益于代碼輔助的 Qwen-3-235B 則保持穩(wěn)定的探索傾向。這表明代碼工具的引入導(dǎo)致部分模型發(fā)生推理范式偏移 —— 從開放探索轉(zhuǎn)向?qū)Υa工具的過度依賴,最終削弱其定律發(fā)現(xiàn)能力。
此外,研究人員深度解析了 GPT-4.1 與 GPT-5-Mini 的代碼使用模式。在 GPT-4.1 中,45.4% 的代碼調(diào)用集中于數(shù)值計(jì)算環(huán)節(jié),而該比例在 GPT-5-Mini 中降至 16.5%。與之形成鮮明對(duì)比的是,GPT-5-Mini 將 69.4% 的代碼資源投入函數(shù)擬合(function fitting)過程。這一發(fā)現(xiàn)印證了核心觀點(diǎn):對(duì)于基礎(chǔ)模型,代碼工具有效突破其計(jì)算瓶頸;但高性能模型將其大量用于快速獲取局部最優(yōu)解,反而抑制了對(duì)全局最優(yōu)定律的探索空間。
總結(jié)
NewtonBench 的評(píng)測結(jié)果系統(tǒng)揭示了當(dāng)前大模型科學(xué)發(fā)現(xiàn)能力的核心瓶頸:前沿推理模型雖能推演預(yù)設(shè)場景中的已知定律變體,但其泛化能力在面對(duì)復(fù)雜物理定律及實(shí)驗(yàn)環(huán)境時(shí)呈現(xiàn)系統(tǒng)性衰減。
尤為關(guān)鍵的是,代碼工具在輔助基礎(chǔ)模型突破計(jì)算瓶頸的同時(shí),卻顯著抑制了高性能模型(如 GPT-5 等)的自主探索傾向,致使其陷入局部最優(yōu)陷阱。這充分表明,現(xiàn)有 AI 的科學(xué)發(fā)現(xiàn)能力存在內(nèi)在脆弱性且易受工具范式干擾。
未來研究亟需構(gòu)建可動(dòng)態(tài)平衡探索與利用的認(rèn)知架構(gòu),并將評(píng)估體系拓展至真實(shí)科研流程模擬 —— 涵蓋未知定律發(fā)現(xiàn)、動(dòng)態(tài)實(shí)驗(yàn)設(shè)計(jì)及可證偽性驗(yàn)證,方有望鍛造出具備本征科學(xué)智能的新一代人工智能系統(tǒng)。
閱讀最新前沿科技趨勢報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫”
https://wx.zsxq.com/group/454854145828
未來知識(shí)庫是“ 歐米伽 未來研究所”建立的在線知識(shí)庫平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.