夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

田淵棟與Russell團隊,證明Transformer在訓練中自然學會疊加推理

0
分享至

機器之心報道

編輯:Panda

對于大型語言模型而言,生成更長、更復雜的推理鏈,往往意味著巨大的計算成本。為了解決這一難題,田淵棟團隊在 2024 年提出的「連續(xù)思維鏈」 (Coconut) 提供了一種全新的范式,它將推理軌跡保留在連續(xù)的隱空間中,而非離散的文字符號?,F(xiàn)在,他們與 Stuart Russell 團隊的最新合作研究則從理論上回答了一個核心問題:這種高效的推理范式是如何在訓練中自發(fā)產(chǎn)生的?答案指向了一種關(guān)鍵機制——疊加的涌現(xiàn) 。

大型語言模型(LLM)在許多復雜任務上展現(xiàn)出了強大的推理能力,尤其是在引入思維鏈(CoT)之后。然而,長思維鏈在復雜任務中的推理成本極高,因此,近期有不少研究在嘗試尋找更高效的測試時擴展方法,以期望更高效地提升模型的推理能力。

一種前景較為可觀的方法是田淵棟團隊在 2024 年提出的「連續(xù)思維鏈」(Chain-of-Continuous-Thought,簡稱 Coconut)。與傳統(tǒng)的 CoT 不同,連續(xù)思維鏈是將模型的推理軌跡保存在連續(xù)隱空間中,而非回投到離散的 token 空間。這種做法不僅在理論上具有多項優(yōu)勢,在實驗中也帶來了顯著性能提升。參閱我們之前的報道《田淵棟團隊論文火了!連續(xù)思維鏈優(yōu)于 CoT,打開 LLM 推理新范式》。

然而,若要讓連續(xù)思維鏈更高效、更穩(wěn)定地擴展到更復雜的推理任務,就必須更深入地理解它的內(nèi)部機制。

該團隊 2025 年的研究《Reasoning by superposition: A theoretical perspective on chain of continuous thought》已從理論上指出,連續(xù)思維鏈的一個關(guān)鍵優(yōu)勢在于它能使模型在疊加(superposition)狀態(tài)下進行推理:當模型面對多個可能的推理路徑而無法確定哪一個是正確時,它可以在連續(xù)空間中并行地保留所有可能的路徑,而不像離散 token 那樣必須選擇單一路徑。

具體來說,該研究將一類推理任務抽象為有向圖可達性(a directed graph reachability)問題 —— 即判斷從給定起點節(jié)點能否到達目標節(jié)點。



他們進一步證明,只需一個兩層 Transformer,經(jīng)過 O (n) 次連續(xù)思維解碼(其中 n 為圖中節(jié)點數(shù)量),即可通過特定參數(shù)構(gòu)造有效地解決該問題。

因此,一個自然的問題隨之而來:梯度下降訓練能否自然地收斂出這種結(jié)構(gòu)?我們能否在理論上證明這一點?

近日,田淵棟與 Stuart Russell 兩個團隊合力,發(fā)表了論文《疊加的涌現(xiàn)》,對這個問題給出正面回答。本論文一作 Hanlin Zhu(竺涵林)為加利福尼亞大學伯克利分校(UC Berkeley)電子工程與計算機科學系博士生,此前畢業(yè)于清華大學姚班。



  • 論文標題:Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought
  • Paper:https://arxiv.org/abs/2509.23365v1

具體來說,他們通過對一個簡化的兩層 Transformer 在「圖可達性問題」上的訓練動態(tài)進行理論分析,將訓練過程劃分為兩個階段:

  1. 思維生成(thought generation)階段:模型自回歸地生成一條連續(xù)思維鏈;
  2. 預測(prediction)階段:模型利用已生成的思維進行最終預測。

值得注意的是,通過對思維生成階段進行分析,該團隊揭示了一個重要現(xiàn)象:即便每個訓練樣本只包含一個演示樣例,疊加(superposition)仍然會在訓練中自發(fā)涌現(xiàn)。

他們的理論分析與實驗結(jié)果均表明,當采用連續(xù)思維訓練(Coconut 方法)時,索引匹配 logit(index-matching logit)(衡量模型局部搜索能力強度的一個關(guān)鍵指標)在溫和假設(shè)下保持有界(bounded)。這與傳統(tǒng) Transformer 分析截然不同 —— 后者在無連續(xù)思維的情況下,logit 會呈對數(shù)增長并趨于無界。

一個有界的索引匹配 logit,能在「探索」與「利用」之間維持動態(tài)平衡:

  • 若 logit 過小,模型無法有效進行局部搜索,下一步幾乎只能隨機猜測;
  • 若 logit 過大,模型則會過度自信地鎖定某一條局部路徑(例如僅憑節(jié)點入度等局部特征),從而過早排除真正正確的路徑。

而當 logit 保持在適度范圍內(nèi)時,模型既能利用局部結(jié)構(gòu),又能為多條合理路徑分配相近的權(quán)重,這便自然形成了疊加式推理(superposition reasoning)。這也回答了之前論文未能解答的問題 —— 為何疊加態(tài)會在訓練中自發(fā)涌現(xiàn)。

這里我們就不深入其理論證明部分了,感興趣的讀者請查看原論文。下面簡單看看其實驗部分。

實驗與結(jié)果

為了驗證其理論分析的結(jié)果,該團隊使用了一個 GPT-2 式解碼器進行實驗,其包含兩層 Transformer(d_model=768, n_heads=8)。

該模型是從零開始訓練的,優(yōu)化器為 AdamW(β?=0.9,β?=0.95,權(quán)重衰減 10?2),學習率固定為 1×10??,全局 batch size 為 256。數(shù)據(jù)集則來自 ProsQA 的一個子集。

訓練策略方面,按照之前的方法,他們采用多階段訓練,并使用思維鏈示范進行監(jiān)督。

  • 在階段 c,模型學習在預測推理路徑上第 c 個節(jié)點之前使用 c 個連續(xù)思維(即思維生成階段)。
  • 當 c > l(思維鏈長度)時,模型在生成 l 個連續(xù)思維及 標記后,預測最終答案(即預測階段)。

訓練共 350 個 epoch:階段 1 訓練 150 個 epoch,后續(xù)每階段 25 個 epoch。在每個階段中,以 0.1 的概率混入之前階段的數(shù)據(jù),以防遺忘。最終模型在測試集上的準確度為 96.2%。

思維生成階段

為分析 L^coco 下 μ_v 的訓練動態(tài),該團隊追蹤了第二層注意力的 logit 變化。當模型生成第 c 個連續(xù)思維時,μ_v 對應于源節(jié)點位于 N_c 的邊 token

的 logit。

在實踐中,L^coco 會鼓勵模型聚焦于當前搜索前沿,而非已探索的節(jié)點,因此注意力主要集中在「前沿邊 (frontier edges)」上,即源節(jié)點位于 N_c \ N_{c?1} 的邊。

為簡化理論分析,該團隊假設(shè) μ?=0,但在實際訓練中,模型會對其他邊也賦予非零注意力。因此該團隊報告的是測試集上前沿邊與非前沿邊之間的 logit 差值,以更準確反映 μ_v 的有效變化。

結(jié)果見圖 2。



在階段 1(藍色背景)中,模型在預測第一個連續(xù)思維(c=1)時,逐步學會了關(guān)注前沿邊。logit 差值穩(wěn)步上升,并在約 125 個 epoch 后穩(wěn)定于 60 附近,與定理 1 的理論預測一致:在 L^coco 下,μ_v 先增長后趨于穩(wěn)定且有界。



當切換到階段 2(紫色背景)時,模型在生成第二個連續(xù)思維(c=2)時所需的收斂 epoch 大幅減少。更有趣的是,這種模式可推廣至 c=3 和 c=4,盡管模型從未顯式訓練生成超過兩個思維。



這種「長度泛化(length generalization)」表明:一旦疊加態(tài)在早期階段涌現(xiàn),后續(xù)階段便能快速復用它,進一步拓展搜索前沿。

該團隊還使用了 L^BFS 的變體(COCONUT-BFS 方法)進行對比。與 L^coco 不同,在 c=1 時,注意力 logit 差值沒有飽和,而是持續(xù)增長到更高水平,這與定理 1 的分析一致。

答案預測階段

接下來該團隊分析了模型如何預測最終答案。根據(jù)引理 2,預測依賴兩個信號:



  • 殘差信號(residual carryover),它將最后一個思維 [t_C] 中已探索的節(jié)點以強度 μ_A 傳遞至答案 token 。具體來說,這對應于第一層從 到 [t_C] 的注意力,用于復制可達節(jié)點的疊加狀態(tài)。
  • 候選提升信號(candidate lift),它以強度 μ_R 提升兩個候選節(jié)點的 logit。由于 到
  • 在第一層中復制候選節(jié)點,因此第二層從
  • 的注意力可視為 μ_R 的智能體。

圖 3 展示了兩者的訓練動態(tài)。



一旦進入預測階段,μ_A 與 μ_R 都迅速上升,并在約 5 個 epoch 后趨于穩(wěn)定。這與定理 3 的結(jié)論一致:μ_A 與 μ_R 以相似速率增長,確保正確候選 c? 的 logit 最高。



與理論中的無界增長不同,該團隊在實踐中觀察到 logit 實際上會趨于平臺期。這可能是因為實際訓練中,預測階段仍與思維生成階段相互作用,而理論假設(shè)思維分布固定,以便單獨分析 μ_R 與 μ_A 的關(guān)系。該團隊將這一差異留待了未來研究。

總結(jié)

本文研究了在連續(xù)思維鏈訓練中疊加態(tài)的自發(fā)涌現(xiàn)機制。該團隊對一個簡化的兩層 Transformer 在有向圖可達性任務上的訓練動態(tài)進行了系統(tǒng)的理論分析。

結(jié)果顯示,在溫和假設(shè)下,索引匹配 logit(衡量模型局部搜索能力的關(guān)鍵指標)在訓練過程中會保持有界。

一個有界的 logit 能有效平衡「探索」與「利用」,從而讓模型在推理中實現(xiàn)隱式的并行思考,自然產(chǎn)生疊加現(xiàn)象。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
比盧普斯:楊瀚森有幾項特質(zhì)很打動我 一些小細節(jié)對我來說很重要

比盧普斯:楊瀚森有幾項特質(zhì)很打動我 一些小細節(jié)對我來說很重要

羅說NBA
2025-10-09 07:06:01
歷史新高!漲瘋了

歷史新高!漲瘋了

博聞財經(jīng)
2025-10-08 17:12:25
比亞迪突曝大消息:不裝了攤牌了,6.98萬王炸,油車集體失眠了!

比亞迪突曝大消息:不裝了攤牌了,6.98萬王炸,油車集體失眠了!

杜家科技
2025-10-07 08:37:11
錢多也沒用,中關(guān)村大佬肖慶平去世,好友透露死因,搶救都來不及

錢多也沒用,中關(guān)村大佬肖慶平去世,好友透露死因,搶救都來不及

銀河史記
2025-10-08 17:11:22
南部戰(zhàn)區(qū):中方參演部隊已從軍港出征

南部戰(zhàn)區(qū):中方參演部隊已從軍港出征

政知新媒體
2025-10-08 14:27:44
中方剛確認出席朝鮮80周年慶典,不到一天,就接到韓國外長電話

中方剛確認出席朝鮮80周年慶典,不到一天,就接到韓國外長電話

輝輝歷史記
2025-10-08 18:50:11
錢再多有什么用?67歲馮鞏去哥哥家過中秋,一句話讓我想抹眼淚

錢再多有什么用?67歲馮鞏去哥哥家過中秋,一句話讓我想抹眼淚

音樂時光的娛樂
2025-10-08 07:31:44
和對象做過最瘋狂的事是啥?網(wǎng)友:年輕人慎看,好像有點污

和對象做過最瘋狂的事是啥?網(wǎng)友:年輕人慎看,好像有點污

解讀熱點事件
2025-09-30 00:15:03
3位正廳級干部履新,他的前一任已升副部級

3位正廳級干部履新,他的前一任已升副部級

魯中晨報
2025-10-08 18:16:05
每體:皇馬致信政府要求阻止巴薩海外賽,稱對方因此不當獲利

每體:皇馬致信政府要求阻止巴薩海外賽,稱對方因此不當獲利

雷速體育
2025-10-08 14:34:06
在草原蒙古包過夜,若見女主人床頭系紅繩,千萬別好奇去碰

在草原蒙古包過夜,若見女主人床頭系紅繩,千萬別好奇去碰

秋風專欄
2025-09-30 13:46:10
哈馬斯無條件投降!加沙天晴了?最大贏家和輸家都是誰?

哈馬斯無條件投降!加沙天晴了?最大贏家和輸家都是誰?

大江看潮
2025-10-06 07:55:25
多款App無法完全適配? 華為鴻蒙5惹爭議,回應:有些群體別升級

多款App無法完全適配? 華為鴻蒙5惹爭議,回應:有些群體別升級

新浪財經(jīng)
2025-10-08 14:57:05
退役軍人深圳地鐵想免費乘坐被拒,網(wǎng)友:2年義務兵把自己當兵王

退役軍人深圳地鐵想免費乘坐被拒,網(wǎng)友:2年義務兵把自己當兵王

映射生活的身影
2025-10-07 13:10:36
王勵勤不看資歷!國乒男隊大洗牌:1人榮升三號主力,林高遠謝幕

王勵勤不看資歷!國乒男隊大洗牌:1人榮升三號主力,林高遠謝幕

體育見習官
2025-10-08 19:58:18
上海交大發(fā)現(xiàn):不吃醬油和味精的人,血壓馬上就降低了?真的嗎?

上海交大發(fā)現(xiàn):不吃醬油和味精的人,血壓馬上就降低了?真的嗎?

小舟談歷史
2025-10-07 14:18:28
美軍破防!多輪挑釁后發(fā)現(xiàn)對方只派殲-11出場!五角大樓罕見承認

美軍破防!多輪挑釁后發(fā)現(xiàn)對方只派殲-11出場!五角大樓罕見承認

李博世財經(jīng)
2025-10-08 14:11:24
宗馥莉越來越危險了!

宗馥莉越來越危險了!

麥杰遜
2025-10-08 13:19:53
64歲演員林俊賢景區(qū)“打工”,和游客熱情互動,曾被譽為“最帥李世民”,如今再次現(xiàn)身網(wǎng)友感嘆“變化太大”

64歲演員林俊賢景區(qū)“打工”,和游客熱情互動,曾被譽為“最帥李世民”,如今再次現(xiàn)身網(wǎng)友感嘆“變化太大”

極目新聞
2025-10-08 17:45:26
CCTV5播開拓者VS勇士,科爾全軍出擊,楊瀚森或首發(fā),女友引熱議

CCTV5播開拓者VS勇士,科爾全軍出擊,楊瀚森或首發(fā),女友引熱議

體育大學僧
2025-10-08 12:03:10
2025-10-09 07:20:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11418文章數(shù) 142470關(guān)注度
往期回顧 全部

科技要聞

2025年諾貝爾化學獎揭曉

頭條要聞

特朗普:加沙?;饏f(xié)議“非常接近達成” 本周末或去中東

頭條要聞

特朗普:加沙停火協(xié)議“非常接近達成” 本周末或去中東

體育要聞

阿爾巴退役,他是巴薩隊史第一左后衛(wèi)嗎

娛樂要聞

許凱復出拍戲 疑資本力保網(wǎng)友怒斥頭鐵

財經(jīng)要聞

假期外圍市場太熱鬧!A股明天怎么走?

汽車要聞

家用SUV的越級感 8萬級的全新博越就能擁有

態(tài)度原創(chuàng)

教育
游戲
藝術(shù)
時尚
本地

教育要聞

為什么說2026fall真心適合留學?

爽了!《心靈殺手2》PS+免費領(lǐng) 兩款dlc打骨折超便宜

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

到了秋天才知道,年紀大的女人要告別“小腳褲”,這樣穿顯瘦

本地新聞

讀港校想省錢,社恐輸在起跑線

無障礙瀏覽 進入關(guān)懷版 亚洲AV无码成人片| 玖玖精品无码草草| 亚洲色最新高清AV网站| 欧美视频xxxxx| 亚洲AV狠狠入| 成 人色 网 站 欧美大片| 麻豆精产国品| 一区二三国产好的精华液| 强行糟蹋人妻hd中文| 小BBBBB嫩BBBBB| 亚洲精品成人综合色在线 | 亚洲成av人片在线观看www| 黑人巨大ⅤS亚洲女人| 亚洲人成绝费网站色www| 国产精品久久久久7777| 国产对白老熟女正在播放| 日韩性生交XXXXXX无码| 久久综合九色综合97欧美| 久久久久99精品成人片毛片| 日本免码VA在线看免费最新| 超碰亚洲98| 欧美一区二区三区四区五区久久9 偷偷要色偷偷中文无码 | 日本免费一区二区三区久久| 久久tv中文字幕首页| 精品熟女少妇av免费久久| 国产免费观看久久黄AV片涩AV | 人妻aⅴ中文字幕无码| 午夜国产理论大片高清| 久久精品国产9久久综合| 高大丰满熟妇丰满的大白屁股| seav一区二区三区| 激情综合五月| 国产偷国产偷亚洲高清人| 国产96在线 | 欧美| 日韩人妻一区二区三区免费| 亚洲综合一区二区三区不卡| 国产欧美在线一区二区三| 亚洲丰满熟女一区二区哦| 精品国产偷窥一区二区| 国韩AV高清不卡一区| 色播影音先锋|