網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

牛頓力學(xué)在AI中失效？哈佛團(tuán)隊(duì)揭示模型缺失物理常識(shí)

2025-07-14 20:42:33　來源: DeepTech深科技

北京舉報(bào)

分享至

一個(gè)在 1,000 萬個(gè)太陽系相關(guān)數(shù)據(jù)上訓(xùn)練的 Transformer 模型能夠精準(zhǔn)地預(yù)測(cè)行星軌道，卻對(duì)引力定律一竅不通。那么，預(yù)測(cè)模型和世界模型有什么區(qū)別？是否存在簡(jiǎn)單直接的指標(biāo)可以檢驗(yàn)這種差異？來自美國(guó)哈佛大學(xué)和美國(guó)麻省理工學(xué)院的研究人員認(rèn)為，或許最具影響力的世界模型，最初正是從一個(gè)預(yù)測(cè)模型起步的。

（來源：https://x.com/keyonV/status/1943730502948511937）

當(dāng)開普勒和牛頓“遇見”AI

為了研究上述 AI 問題，他們追溯到了 400 年前的科學(xué)成果。在英國(guó)科學(xué)家艾薩克?牛頓（Isaac Newton）于 17 世紀(jì)提出萬有引力定律之前，德國(guó)天文學(xué)家約翰內(nèi)斯?開普勒（Johannes Kepler）的行星軌道預(yù)測(cè)模型早已存在，開普勒的預(yù)測(cè)促成了牛頓萬有引力定律的發(fā)現(xiàn)。

而本次研究團(tuán)隊(duì)認(rèn)為，基礎(chǔ)模型的前景依賴于這樣一個(gè)核心假設(shè)：學(xué)習(xí)預(yù)測(cè)序列能夠揭示更深層次的規(guī)律，甚至樂觀地說其能構(gòu)建出一個(gè)世界模型。雖然從某種意義上說這個(gè)想法是新穎的，但從另一種意義上說它又是古老的。

如前所述，數(shù)百年前開普勒發(fā)現(xiàn)了一些幾何規(guī)律，借助這些規(guī)律能夠精準(zhǔn)預(yù)測(cè)夜空中行星未來的位置。牛頓后來在這一進(jìn)展的基礎(chǔ)上發(fā)展并創(chuàng)立了牛頓力學(xué)，這些基本定律不僅能夠預(yù)測(cè)行星的運(yùn)動(dòng)，還能解釋宇宙中的各種物理特性。這條“從預(yù)測(cè)序列到理解其背后深層機(jī)制”的路徑，并非物理學(xué)所獨(dú)有。在生物學(xué)領(lǐng)域，動(dòng)物育種者們?cè)缫延^察到后代性狀的規(guī)律，而他們這些具有預(yù)測(cè)性的見解，啟發(fā)著奧地利帝國(guó)生物學(xué)家格雷戈?duì)?約翰?孟德爾（Gregor Johann Mendel）提出了遺傳學(xué)理論。

如何才能知道基礎(chǔ)模型是否也已實(shí)現(xiàn)“從做出準(zhǔn)確預(yù)測(cè)到構(gòu)建可靠世界模型”的跨越？本次研究通過構(gòu)建一個(gè)框架來回答這個(gè)問題。

具體而言，研究團(tuán)隊(duì)開發(fā)了一種檢測(cè)框架：當(dāng)給定基礎(chǔ)模型和世界模型時(shí)，該框架能夠驗(yàn)證基礎(chǔ)模型是否已經(jīng)習(xí)得目標(biāo)世界模型。研究團(tuán)隊(duì)將這種技術(shù)稱為歸納偏置探針，它基于這樣一個(gè)簡(jiǎn)單的見解：基礎(chǔ)模型的隱性世界模型會(huì)通過“其如何從少量信息中進(jìn)行推斷”而顯現(xiàn)出來，即從少量數(shù)據(jù)中做出推斷。同樣，基礎(chǔ)模型的歸納偏置也能揭示其世界模型。

（來源：https://arxiv.org/pdf/2507.06952）

靈魂一問：模型是否掌握了牛頓力學(xué)？

研究中，研究團(tuán)隊(duì)通過以下實(shí)驗(yàn)來驗(yàn)證相關(guān)觀點(diǎn)：他們測(cè)試一個(gè)經(jīng)過行星運(yùn)動(dòng)位置預(yù)測(cè)訓(xùn)練的 Transformer 模型是否真正掌握了牛頓力學(xué)體系。具體來說，他們首先訓(xùn)練一個(gè)模型來預(yù)測(cè)太陽系中行星的位置。盡管該模型能夠準(zhǔn)確預(yù)測(cè)行星的未來軌跡，但是歸納偏置探針表明它對(duì)牛頓力學(xué)的歸納偏置較低。

比如，當(dāng)對(duì)該模型進(jìn)行微調(diào)以便預(yù)測(cè)行星的力向量（牛頓力學(xué)的核心要素）時(shí)，其預(yù)測(cè)結(jié)果所隱含的引力定律是毫無意義的。研究團(tuán)隊(duì)發(fā)現(xiàn)，該模型所習(xí)得的是零散的啟發(fā)式方法，而非一個(gè)簡(jiǎn)潔的世界模型，它會(huì)根據(jù)所應(yīng)用的數(shù)據(jù)片段采用不同的引力定律。

幾個(gè)世紀(jì)以來，天文學(xué)家和物理學(xué)家一直致力于預(yù)測(cè)行星圍繞太陽運(yùn)行的軌道。開普勒提出了一個(gè)具有開創(chuàng)性的模型，他的模型基于幾何圖案而提出：例如，每個(gè)行星的軌道都遵循一個(gè)橢圓，而太陽位于該橢圓的一個(gè)焦點(diǎn)上。盡管該模型能夠以近乎完美的精確度預(yù)測(cè)軌道，但它無法解釋行星為何遵循這些幾何軌道，也無法應(yīng)用于預(yù)測(cè)軌道之外的新問題。

后來，牛頓利用新的運(yùn)動(dòng)定律對(duì)上述模型進(jìn)行了拓展，這些定律現(xiàn)在被稱為牛頓力學(xué)。這些定律涉及到計(jì)算運(yùn)動(dòng)中行星群的各種屬性，例如它們的相對(duì)速度和質(zhì)量。利用這些特性，不僅能夠推導(dǎo)出開普勒早先提出的軌道運(yùn)動(dòng)定律，也能進(jìn)一步理解力與引力等核心物理概念。

可以說，從開普勒到牛頓，科學(xué)家們實(shí)現(xiàn)了從序列預(yù)測(cè)模型到深層理論認(rèn)知的跨越。本次研究之中，研究團(tuán)隊(duì)測(cè)試了一個(gè)能夠預(yù)測(cè)軌道軌跡序列的 Transformer 模型，以便探究它究竟僅僅是一個(gè)優(yōu)秀的序列模型？還是已經(jīng)實(shí)現(xiàn)了向世界模型的轉(zhuǎn)變？

為此，研究團(tuán)隊(duì)模擬了一個(gè)序列數(shù)據(jù)集，其中每個(gè)序列都描述了行星繞太陽運(yùn)行的情況。他們隨機(jī)采樣初始條件（例如行星的質(zhì)量、位置及其初始相對(duì)速度），以便匹配在已知系外行星中觀察到的軌道形狀。同時(shí)，他們根據(jù)牛頓運(yùn)動(dòng)定律模擬每顆行星圍繞太陽的軌跡。

由于行星的質(zhì)量遠(yuǎn)遠(yuǎn)小于太陽，因此行星之間的相互作用微乎其微，所以忽略不計(jì)這些相互作用。為了將軌道轉(zhuǎn)換為序列，研究團(tuán)隊(duì)每隔一定時(shí)間記錄一次每個(gè)行星和太陽的（x，y）坐標(biāo)，并將所有位置交錯(cuò)排列成一個(gè)包含 1,000 個(gè)觀測(cè)值的序列，這意味著每個(gè)序列代表一個(gè)不同的太陽系。

（來源：https://arxiv.org/pdf/2507.06952）

此外，研究團(tuán)隊(duì)考慮了兩種不同類型的時(shí)間間隔：固定間隔和變化間隔。在固定間隔中，每個(gè)序列使用相同的 6 個(gè)月間隔；在變化間隔中，隨機(jī)一半的序列使用 6 個(gè)月間隔，另一半使用1周間隔，并在開始處添加一個(gè)特殊 token 以用于指示間隔長(zhǎng)度。

例如，在一個(gè)擁有 K 個(gè)行星且時(shí)間間隔各異的太陽系中，第一個(gè)時(shí)間步長(zhǎng)編碼了時(shí)間間隔的長(zhǎng)度，接下來的 K 個(gè)觀測(cè)值是每個(gè)行星在第一個(gè)時(shí)間點(diǎn)的（x，y）坐標(biāo)，再接下來的 K 個(gè)觀測(cè)值是每個(gè)行星在相應(yīng)時(shí)間步長(zhǎng)后的坐標(biāo)，以此類推。

同時(shí)，研究團(tuán)隊(duì)設(shè)置了兩種訓(xùn)練集規(guī)模：第一種是固定間隔數(shù)據(jù)集，擁有 10 億 token、涵蓋 100 萬條序列；第二種是可變間隔數(shù)據(jù)集，擁有 200 億 token、涵蓋 1,000 萬條序列。針對(duì)這兩種情況訓(xùn)練的模型，得出了相似的結(jié)果。

接下來，研究團(tuán)隊(duì)訓(xùn)練了一個(gè)包含 1.09 億個(gè)參數(shù)的 Transformer 模型，以用于預(yù)測(cè)訓(xùn)練集中每個(gè)序列的下一個(gè) token。他們?cè)谝韵聝煞N方案中進(jìn)行了實(shí)驗(yàn)：第一種方案是采取連續(xù)坐標(biāo)并使用均方誤差損失；第二種方案是采取離散化坐標(biāo)并使用交叉熵?fù)p失。結(jié)果發(fā)現(xiàn)后者的效果更好。

期間，研究團(tuán)隊(duì)通過為每個(gè)坐標(biāo)（x、y）創(chuàng)建 7,000 個(gè)區(qū)間，來離散化太陽系中每個(gè)天體的位置向量，其中坐標(biāo)范圍為-50 至 50 天文單位。需要說明的是，訓(xùn)練期間他們使用 8 個(gè)英偉達(dá) H100 GPU 進(jìn)行了 25 個(gè)周期的訓(xùn)練。

隨后，研究團(tuán)隊(duì)在預(yù)留數(shù)據(jù)上針對(duì)模型預(yù)測(cè)結(jié)果進(jìn)行評(píng)估，并發(fā)現(xiàn)預(yù)測(cè)效果較為良好，其決定系數(shù)（R2）超過 0.9999，而且顯著優(yōu)于基準(zhǔn)模型，即優(yōu)于那些總是預(yù)測(cè)最近位置或軌道均值的模型。與此同時(shí)，它還能以較高的精度生成長(zhǎng)軌道。

（來源：https://arxiv.org/pdf/2507.06952）

Transformer 預(yù)測(cè)結(jié)果證明它是一個(gè)非常出色的序列模型。但是，它是否掌握了牛頓力學(xué)？為了驗(yàn)證這一點(diǎn)，研究團(tuán)隊(duì)注意到，牛頓力學(xué)指出一系列軌道中的每次觀測(cè)都由一個(gè)狀態(tài)向量控制，該向量由每個(gè)行星的質(zhì)量、相對(duì)速度和相對(duì)位置組成。鑒于軌道的下一個(gè)位置是確定的，所以如果基礎(chǔ)模型的歸納偏置依賴于牛頓力學(xué)，那么它必須基于這個(gè)狀態(tài)向量進(jìn)行外推。

研究中，研究團(tuán)隊(duì)使用歸納偏差探針來評(píng)估模型的歸納偏差。他們創(chuàng)建了 100 個(gè)合成數(shù)據(jù)集，然后通過訓(xùn)練模型來預(yù)測(cè)這些函數(shù)，從而對(duì) Transformer 進(jìn)行微調(diào)。其通過將 H 視為恒等映射，并將損失函數(shù) ? 設(shè)為均方誤差，以便衡量模型在輸入上的外推預(yù)測(cè)能力，并通過將模型與一個(gè)基于狀態(tài)直接進(jìn)行外推的“預(yù)言機(jī)”（oracle）進(jìn)行對(duì)比來評(píng)估其中一個(gè)公式。

與此同時(shí)，他們將線性模型和雙層神經(jīng)網(wǎng)絡(luò)作為預(yù)言機(jī)，發(fā)現(xiàn)結(jié)果是相似的。其中，對(duì)牛頓狀態(tài)簡(jiǎn)單函數(shù)的歸納偏倚較差。換言之，該模型的歸納偏置并不傾向于牛頓狀態(tài)。當(dāng)它必須進(jìn)行外推時(shí)，它會(huì)對(duì)狀態(tài)截然不同的軌道做出相似的預(yù)測(cè)，而對(duì)狀態(tài)非常相似的軌道則會(huì)做出不同的預(yù)測(cè)。

為此，研究團(tuán)隊(duì)通過創(chuàng)建一個(gè)序列到序列的數(shù)據(jù)集來對(duì)此進(jìn)行測(cè)試，其中每個(gè)輸入是一條軌跡，每個(gè)輸出是“由軌道狀態(tài)所隱含的作用在行星上的”力向量。

基于此，他們先是針對(duì)預(yù)訓(xùn)練的 Transformer 進(jìn)行微調(diào)，使其能夠預(yù)測(cè)太陽系軌道上的力向量，并使用 1% 的真實(shí)力數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，結(jié)果顯示這些力預(yù)測(cè)結(jié)果不佳。

為了評(píng)估該模型在掌握牛頓萬有引力定律方面的接近程度，研究團(tuán)隊(duì)進(jìn)一步對(duì)其進(jìn)行微調(diào)，以便在包含 10,000 個(gè)太陽系的更大數(shù)據(jù)集上預(yù)測(cè)力的大小。

需要說明的是，符號(hào)回歸是一種通過搜索優(yōu)化回歸類目標(biāo)的符號(hào)表達(dá)式的方法。而當(dāng)研究團(tuán)隊(duì)將符號(hào)回歸用于 Transformer 的預(yù)測(cè)結(jié)果時(shí)，得到的物理定律是毫無意義的?；鶞?zhǔn)對(duì)比結(jié)果顯示：基于真實(shí)狀態(tài)訓(xùn)練的 oracle 模型能夠精確預(yù)測(cè)力向量，符號(hào)回歸則能完整復(fù)現(xiàn)真實(shí)的物理定律。

（來源：https://arxiv.org/pdf/2507.06952）

基礎(chǔ)模型并未習(xí)得某一通用物理定律

研究團(tuán)隊(duì)表示，基礎(chǔ)模型的核心價(jià)值在于：序列預(yù)測(cè)能夠揭示對(duì)于潛在機(jī)制的深層理解。對(duì)于本次提出的評(píng)估框架來說，它通過分析模型在新任務(wù)遷移中的歸納偏差，來驗(yàn)證模型是否習(xí)得預(yù)設(shè)世界模型。

實(shí)證結(jié)果表明，盡管許多序列模型在 next-token 預(yù)測(cè)任務(wù)中表現(xiàn)出色，但是它們對(duì)于真實(shí)世界模型的歸納偏置往往有限。本次研究還發(fā)現(xiàn)，這些模型并非是在學(xué)習(xí)連貫的世界模型，而是可能依賴了粗略的狀態(tài)表征或非簡(jiǎn)約的表征。

總的來說，本次成果為理解基礎(chǔ)模型的缺陷提供了一個(gè)方向：如果一個(gè)模型的歸納偏置并非傾向于某種已知的現(xiàn)實(shí)模型，那么它傾向于什么？

本次分析表明，這些模型實(shí)際上所表現(xiàn)出來的行為，更像是開發(fā)了無法泛化的任務(wù)特定啟發(fā)式規(guī)則。在物理學(xué)領(lǐng)域，基礎(chǔ)模型并未習(xí)得某一通用物理定律，而是會(huì)根據(jù)所應(yīng)用的任務(wù)采用不同的、看似毫無意義的定律。目前，相關(guān)論文已被 2025 國(guó)際機(jī)器學(xué)習(xí)會(huì)議（ICML，International Conference on Machine Learning）收錄。

需要指出的是，本次研究需要指定一個(gè)世界模型，以此來測(cè)試基礎(chǔ)模型。世界模型需要明確定義的要求，雖與學(xué)界共識(shí)一致，但卻導(dǎo)致模型真實(shí)表征機(jī)制的溯因分析存在固有局限。盡管研究團(tuán)隊(duì)提出了測(cè)試候選世界模型的策略（例如基于 next-token 分區(qū)的驗(yàn)證方法），但未來研究應(yīng)該優(yōu)先開發(fā)“能夠自動(dòng)構(gòu)建基礎(chǔ)模型行為中隱式世界模型”的技術(shù)。

參考資料：

https://arxiv.org/pdf/2507.06952

https://x.com/keyonV/status/1943730495264584079

https://x.com/keyonV/status/1943730486280331460

https://x.com/keyonV/status/1943730502948511937

運(yùn)營(yíng)/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.