夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

港科大&英偉達(dá)提出NewtonBench:在「平行宇宙」中評(píng)估大模型科學(xué)發(fā)現(xiàn)能力

0
分享至


來源:ScienceAI

作者論文團(tuán)隊(duì)

編輯ScienceAI

隨著大語言模型(Large Language Models, LLMs)推理能力的提升,其在自動(dòng)化科學(xué)發(fā)現(xiàn)(Automatic Scientific Discovery)領(lǐng)域的潛力也引發(fā)了學(xué)術(shù)界與公眾的廣泛關(guān)注。AI 領(lǐng)域知名學(xué)者何愷明曾在一次訪談中提出一個(gè)引人深思的問題:「以當(dāng)前大模型的智能水平,若將其置于牛頓時(shí)代,它能否獨(dú)立發(fā)現(xiàn)牛頓物理定律?」

然而,評(píng)估這種能力面臨諸多挑戰(zhàn)。首先,現(xiàn)實(shí)世界中的科學(xué)定律已廣泛存在于大模型的訓(xùn)練語料中,直接評(píng)估難以避免數(shù)據(jù)泄漏問題。其次,當(dāng)前的評(píng)估方法通常依賴于在靜態(tài)數(shù)據(jù)表格中歸納等式,無法真實(shí)反映實(shí)際科研中通過設(shè)計(jì)實(shí)驗(yàn)獲取數(shù)據(jù)以進(jìn)行探索性研究的本質(zhì)。

為此,來自香港科技大學(xué)和英偉達(dá)的研究者提出了 NewtonBench—— 一個(gè)具備強(qiáng)泛化能力、旨在模擬真實(shí)實(shí)驗(yàn)探索環(huán)境的科學(xué)定律發(fā)現(xiàn)基準(zhǔn)(Scientific Law Discovery Benchmark)。


論文地址:https://arxiv.org/pdf/2510.07172

代碼地址:https://github.com/HKUST-KnowComp/NewtonBench

NewtonBench 覆蓋了 12 個(gè)物理領(lǐng)域,其核心創(chuàng)新在于通過「形而上學(xué)變換(metaphysical shift)」將已知物理定律轉(zhuǎn)換為全新的定律,從而有效規(guī)避了數(shù)據(jù)泄漏問題,能夠更真實(shí)地評(píng)估大模型的原始推理能力。

此外,NewtonBench 為每個(gè)物理定律的發(fā)現(xiàn)過程提供了沙盒化的實(shí)驗(yàn)環(huán)境。大模型可以在其中自主設(shè)定實(shí)驗(yàn)參數(shù),執(zhí)行不同復(fù)雜度的實(shí)驗(yàn)任務(wù),并從環(huán)境中獲取反饋數(shù)據(jù)。這種高度模擬真實(shí)科學(xué)研究流程的設(shè)計(jì),顯著提升了評(píng)估結(jié)果的實(shí)際意義。

該研究對(duì) 11 個(gè)領(lǐng)先的大語言模型進(jìn)行了基準(zhǔn)測試,包括 GPT-5、Gemini-2.5-Pro、DeepSeek-R1 和 Qwen-3-235B 等。

評(píng)測結(jié)果顯示,非推理模型(如 GPT-4.1、DeepSeek-V3)表現(xiàn)普遍不佳。而推理模型(如 GPT-5、DeepSeek-R1)則展現(xiàn)出顯著差異。在復(fù)雜實(shí)驗(yàn)環(huán)境下,表現(xiàn)最優(yōu)的 GPT-5 和 Gemini-2.5-Pro 的定律發(fā)現(xiàn)準(zhǔn)確率分別為 29.9% 和 13.9%,而其他模型的準(zhǔn)確率均低于 5%。這充分凸顯了強(qiáng)大的推理能力對(duì)于科學(xué)定律發(fā)現(xiàn)的關(guān)鍵作用。

研究還深入分析發(fā)現(xiàn),為模型額外提供代碼解釋器工具(Code Interpreter Tool) 可以幫助能力較弱的模型突破計(jì)算瓶頸,但可能導(dǎo)致能力較強(qiáng)的模型產(chǎn)生過度依賴,反而抑制其自主探索的效率。

目前,NewtonBench 的評(píng)測數(shù)據(jù)集與評(píng)測代碼已全部開源。

NewtonBench 基準(zhǔn)構(gòu)建

物理法則構(gòu)建

NewtonBench 包含 324 個(gè)物理定律發(fā)現(xiàn)任務(wù),覆蓋力學(xué)、電磁學(xué)、熱力學(xué)等 12 個(gè)物理領(lǐng)域。其核心構(gòu)建方法是:以真實(shí)物理定律為基礎(chǔ),在「形而上學(xué)變換(metaphysical shift)」框架下,通過等式變換操作(mutation operation)生成衍生定律。根據(jù)變換步驟的復(fù)雜度及其引入的泛化需求,任務(wù)被劃分為簡單、中等、困難三個(gè)難度等級(jí)。


實(shí)驗(yàn)環(huán)境構(gòu)建

對(duì)于每個(gè)物理定律,NewtonBench 提供三種不同復(fù)雜度的實(shí)驗(yàn)環(huán)境。在簡單實(shí)驗(yàn)環(huán)境中,實(shí)驗(yàn)的輸入與輸出參數(shù)完全對(duì)齊目標(biāo)物理定律的表達(dá)形式,接近于理想的符號(hào)回歸(symbolic regression) 場景。而在中等及復(fù)雜難度環(huán)境中,目標(biāo)物理定律僅隱含于部分實(shí)驗(yàn)數(shù)據(jù)中。例如:要求模型通過兩個(gè)小球沿直線相向運(yùn)動(dòng)的觀測數(shù)據(jù),推導(dǎo)出引力與距離、質(zhì)量的函數(shù)關(guān)系。

大模型可通過函數(shù)調(diào)用(function calling)機(jī)制執(zhí)行實(shí)驗(yàn)操作,并從環(huán)境動(dòng)態(tài)獲取實(shí)驗(yàn)結(jié)果。模型最多可進(jìn)行 10 輪實(shí)驗(yàn)交互,最終需提交其推導(dǎo)出的物理定律表達(dá)式。


實(shí)驗(yàn)結(jié)果

研究人員對(duì) 11 個(gè)前沿大語言模型 進(jìn)行了系統(tǒng)評(píng)測,采用符號(hào)準(zhǔn)確率(Symbolic Accuracy) 和 均方根對(duì)數(shù)誤差(Root Mean Squared Logarithmic Error, RMSLE) 作為核心評(píng)估指標(biāo)。實(shí)驗(yàn)結(jié)果表明:

1. 非推理模型整體表現(xiàn)欠佳,即使在最簡單的實(shí)驗(yàn)設(shè)定下,其符號(hào)準(zhǔn)確率也僅處于 20%-50% 的區(qū)間;

2. 推理模型(如 GPT-5、DeepSeek-R1)憑借其強(qiáng)大的復(fù)雜推理與數(shù)學(xué)運(yùn)算能力,在簡單場景下的符號(hào)準(zhǔn)確率普遍突破 80%;

3. 隨著實(shí)驗(yàn)復(fù)雜度提升,推理模型間的性能差距顯著擴(kuò)大。在最具挑戰(zhàn)性的「困難定律 + 復(fù)雜實(shí)驗(yàn)」場景下:

  • 性能領(lǐng)先的 GPT-5 和 Gemini-2.5-Pro 符號(hào)準(zhǔn)確率分別僅為 29.9% 和 13.9%;

  • 其余模型的準(zhǔn)確率均低于 5%,顯示出任務(wù)難度的陡增特性。


值得注意的是,代碼執(zhí)行工具的輔助效果呈現(xiàn)出顯著的分化現(xiàn)象:

  • 對(duì)于較弱模型(符號(hào)準(zhǔn)確率 < 40%),代碼工具可帶來顯著性能提升;

  • 然而對(duì)于較強(qiáng)模型,代碼輔助均產(chǎn)生負(fù)面效應(yīng)。

這一矛盾現(xiàn)象促使研究人員開展了深度歸因分析。

代碼輔助效果分析

研究人員選取了四個(gè)代表性模型(GPT-4.1、Qwen-3-235B、Gemini-2.5-Flash、GPT-5-Mini),通過控制代碼調(diào)用權(quán)限數(shù)量展開對(duì)比實(shí)驗(yàn)。結(jié)果顯示,當(dāng)兩個(gè)高性能模型初步獲得代碼權(quán)限時(shí),準(zhǔn)確率均出現(xiàn)顯著下滑。進(jìn)一步分析模型決策文本中的探索(exploration)與利用(exploitation)關(guān)鍵詞頻發(fā)現(xiàn):性能驟降的 Gemini-2.5-Flash 在使用代碼后,探索類詞匯出現(xiàn)頻率急劇下降;而受益于代碼輔助的 Qwen-3-235B 則保持穩(wěn)定的探索傾向。這表明代碼工具的引入導(dǎo)致部分模型發(fā)生推理范式偏移 —— 從開放探索轉(zhuǎn)向?qū)Υa工具的過度依賴,最終削弱其定律發(fā)現(xiàn)能力。

此外,研究人員深度解析了 GPT-4.1 與 GPT-5-Mini 的代碼使用模式。在 GPT-4.1 中,45.4% 的代碼調(diào)用集中于數(shù)值計(jì)算環(huán)節(jié),而該比例在 GPT-5-Mini 中降至 16.5%。與之形成鮮明對(duì)比的是,GPT-5-Mini 將 69.4% 的代碼資源投入函數(shù)擬合(function fitting)過程。這一發(fā)現(xiàn)印證了核心觀點(diǎn):對(duì)于基礎(chǔ)模型,代碼工具有效突破其計(jì)算瓶頸;但高性能模型將其大量用于快速獲取局部最優(yōu)解,反而抑制了對(duì)全局最優(yōu)定律的探索空間。


總結(jié)

NewtonBench 的評(píng)測結(jié)果系統(tǒng)揭示了當(dāng)前大模型科學(xué)發(fā)現(xiàn)能力的核心瓶頸:前沿推理模型雖能推演預(yù)設(shè)場景中的已知定律變體,但其泛化能力在面對(duì)復(fù)雜物理定律及實(shí)驗(yàn)環(huán)境時(shí)呈現(xiàn)系統(tǒng)性衰減。

尤為關(guān)鍵的是,代碼工具在輔助基礎(chǔ)模型突破計(jì)算瓶頸的同時(shí),卻顯著抑制了高性能模型(如 GPT-5 等)的自主探索傾向,致使其陷入局部最優(yōu)陷阱。這充分表明,現(xiàn)有 AI 的科學(xué)發(fā)現(xiàn)能力存在內(nèi)在脆弱性且易受工具范式干擾。

未來研究亟需構(gòu)建可動(dòng)態(tài)平衡探索與利用的認(rèn)知架構(gòu),并將評(píng)估體系拓展至真實(shí)科研流程模擬 —— 涵蓋未知定律發(fā)現(xiàn)、動(dòng)態(tài)實(shí)驗(yàn)設(shè)計(jì)及可證偽性驗(yàn)證,方有望鍛造出具備本征科學(xué)智能的新一代人工智能系統(tǒng)。

閱讀最新前沿科技趨勢報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫”

https://wx.zsxq.com/group/454854145828


未來知識(shí)庫是“ 歐米伽 未來研究所”建立的在線知識(shí)庫平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
廣西百色多個(gè)村屯被洪水浸泡逾20日,喀斯特地貌排澇難背后

廣西百色多個(gè)村屯被洪水浸泡逾20日,喀斯特地貌排澇難背后

南方都市報(bào)
2025-10-20 14:06:11
不許反擊菲律賓,美威脅對(duì)華“動(dòng)武”,中方兩句回應(yīng)盡顯大國風(fēng)范

不許反擊菲律賓,美威脅對(duì)華“動(dòng)武”,中方兩句回應(yīng)盡顯大國風(fēng)范

文雅筆墨
2025-10-20 11:19:02
“接受條件,否則將被俄羅斯摧毀”,特朗普正全力施壓烏克蘭

“接受條件,否則將被俄羅斯摧毀”,特朗普正全力施壓烏克蘭

山河路口
2025-10-20 12:39:47
剛拿到離婚證,我把癱瘓?jiān)栏杆突厝?,妻子帶著情夫回娘家時(shí)傻眼了

剛拿到離婚證,我把癱瘓?jiān)栏杆突厝ィ拮訋е榉蚧啬锛視r(shí)傻眼了

卡西莫多的故事
2025-10-15 10:20:51
20號(hào)收評(píng):三大指數(shù)沖高回落,所有人都注意,大盤后市或?qū)⑦@么走

20號(hào)收評(píng):三大指數(shù)沖高回落,所有人都注意,大盤后市或?qū)⑦@么走

春江財(cái)富
2025-10-20 15:21:56
被救女子投訴救人男子發(fā)視頻,別輕言“恩將仇報(bào)”| 新京報(bào)快評(píng)

被救女子投訴救人男子發(fā)視頻,別輕言“恩將仇報(bào)”| 新京報(bào)快評(píng)

新京報(bào)
2025-10-19 15:18:06
別的都先放下不談了,特朗普現(xiàn)在對(duì)中國只有一個(gè)要求,中國:拒絕

別的都先放下不談了,特朗普現(xiàn)在對(duì)中國只有一個(gè)要求,中國:拒絕

阿鳧愛吐槽
2025-10-20 15:33:54
中美鬧得再兇,有一張大牌,特朗普始終不敢打,美專家:這說不通

中美鬧得再兇,有一張大牌,特朗普始終不敢打,美專家:這說不通

通文知史
2025-10-19 20:25:03
曼聯(lián)2-1利物浦終獲英超連勝!阿莫林創(chuàng)百年紀(jì)錄,或成執(zhí)教轉(zhuǎn)折點(diǎn)

曼聯(lián)2-1利物浦終獲英超連勝!阿莫林創(chuàng)百年紀(jì)錄,或成執(zhí)教轉(zhuǎn)折點(diǎn)

羅米的曼聯(lián)博客
2025-10-20 07:18:23
當(dāng)選不到24小時(shí),鄭麗文請(qǐng)求來北京面談,賴清德朱立倫都沒想到

當(dāng)選不到24小時(shí),鄭麗文請(qǐng)求來北京面談,賴清德朱立倫都沒想到

頭條爆料007
2025-10-20 15:02:16
絕世有雙!新機(jī)官宣:10月22日,正式發(fā)布登場!

絕世有雙!新機(jī)官宣:10月22日,正式發(fā)布登場!

科技堡壘
2025-10-20 10:58:31
掛斷特朗普電話,普京公布驚人計(jì)劃:隧道連接美俄,邀馬斯克入伙

掛斷特朗普電話,普京公布驚人計(jì)劃:隧道連接美俄,邀馬斯克入伙

南宮一二
2025-10-20 07:19:16
丁寧提拔太快了!成了王皓王楚欽的直管大領(lǐng)導(dǎo),馬琳去向即將公布

丁寧提拔太快了!成了王皓王楚欽的直管大領(lǐng)導(dǎo),馬琳去向即將公布

三十年萊斯特城球迷
2025-10-20 12:18:39
突發(fā)!江陰澄星化工廠磷爆炸

突發(fā)!江陰澄星化工廠磷爆炸

觀察者網(wǎng)
2025-10-20 16:44:23
不怕男神老就怕男神禿!發(fā)量太影響顏值了,禿了的男神也秒變路人

不怕男神老就怕男神禿!發(fā)量太影響顏值了,禿了的男神也秒變路人

上官晚安
2025-10-20 03:57:14
國際金價(jià),突然跳水!俄烏,大消息!

國際金價(jià),突然跳水!俄烏,大消息!

證券時(shí)報(bào)e公司
2025-10-20 08:01:21
潘石屹再次預(yù)判我國樓市!若無意外,未來3年樓市或迎來3大走向

潘石屹再次預(yù)判我國樓市!若無意外,未來3年樓市或迎來3大走向

山丘樓評(píng)
2025-10-20 13:41:38
"美國人均要打兩份工"登上熱搜,有些人啊,是真不太想要臉這東西

"美國人均要打兩份工"登上熱搜,有些人啊,是真不太想要臉這東西

走讀新生
2025-10-20 16:06:43
楊瀚森下放NBA發(fā)展聯(lián)盟事出有因,開拓者兩手準(zhǔn)備,教練用心良苦

楊瀚森下放NBA發(fā)展聯(lián)盟事出有因,開拓者兩手準(zhǔn)備,教練用心良苦

二哥聊球
2025-10-20 10:47:48
“熏到崩潰”!近期,深圳街頭“臭”味彌漫!網(wǎng)友:沒人管管嗎?城管回應(yīng)

“熏到崩潰”!近期,深圳街頭“臭”味彌漫!網(wǎng)友:沒人管管嗎?城管回應(yīng)

南方都市報(bào)
2025-10-20 14:25:35
2025-10-20 20:55:00
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4260文章數(shù) 37328關(guān)注度
往期回顧 全部

科技要聞

雙11涼涼了?大主播退場,無AI不賣貨

頭條要聞

新人花16萬找同學(xué)辦"讓你有面子"婚禮 到現(xiàn)場兩眼一黑

頭條要聞

新人花16萬找同學(xué)辦"讓你有面子"婚禮 到現(xiàn)場兩眼一黑

體育要聞

年薪百萬的球星,穿二手鞋騎自行車上下班

娛樂要聞

明星進(jìn)豪門并沒有想象中的光鮮?

財(cái)經(jīng)要聞

十問十答,讀懂中國經(jīng)濟(jì)“三季報(bào)”!

汽車要聞

被騙上騰勢N8L干到200公里魚鉤測試 下車吐了但值了

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
時(shí)尚
游戲
本地

房產(chǎn)要聞

太強(qiáng)了!海南4天猛簽1000億,寧德時(shí)代、螞蟻瘋狂增資!

數(shù)碼要聞

華為Mate 80標(biāo)準(zhǔn)版新機(jī)備案11月,還有二合一平板電腦

會(huì)化妝的女生都很“假”!

《巫師3》迎來神級(jí)MOD!獵魔人變怪物獵人!

本地新聞

考上警犬專業(yè),我和修勾一起卷編制

無障礙瀏覽 進(jìn)入關(guān)懷版 精品刮子伦一区二区三区电影| 精品乱人伦一区二区三区| 欧美sM精品调教视频| 97激情久久| 天天躁日日躁狠狠躁日日躁| 无码视频一区| 日本阴道毛茸茸| 久久国产成人精品av| 日日噜噜夜夜狠狠va视频v| 女BWWW视| 久操这里只有精品| 婷婷狠狠色18禁久久yy| 久久天天躁狠狠躁夜夜2020老熟妇 | 欧美 日韩 亚洲 在线| 欧美少妇自慰| 亚洲成人无码18| 久久精品国产2020观看福利| 亚洲欧美日韩va| 天天综合网在线观看视频| 欧美丰满熟妇bbbbbb百度 | 五月丁香六月婷婷爱色军团| 久久久精品国产亚洲AV蜜| 互换人妻XXXX天美传其| 波多野结衣电影A区| 在线观看亚洲人成网站| 久久AV黄色电影| 久久亚洲sm情趣捆绑调教| 久久综合九色综合97婷婷| 人妻体内射精一区二区三四| 亚洲国产在一区二区三区| 国产精品国产亚洲区艳妇糸列短篇| 久久99国产视频| 国产精品久久久久久夜夜夜夜| 日韩成人AV网扯| 2023国产精品自拍视频| 亚洲区精品区日韩区综合区| 久久精品成人大片| 少妇丰满电影| 天天综合色一区二区三区| 一区二区在线 | 国| 久久AV无码|