機器之心報道
編輯:Panda
對于大型語言模型而言,生成更長、更復雜的推理鏈,往往意味著巨大的計算成本。為了解決這一難題,田淵棟團隊在 2024 年提出的「連續(xù)思維鏈」 (Coconut) 提供了一種全新的范式,它將推理軌跡保留在連續(xù)的隱空間中,而非離散的文字符號?,F(xiàn)在,他們與 Stuart Russell 團隊的最新合作研究則從理論上回答了一個核心問題:這種高效的推理范式是如何在訓練中自發(fā)產(chǎn)生的?答案指向了一種關(guān)鍵機制——疊加的涌現(xiàn) 。
大型語言模型(LLM)在許多復雜任務上展現(xiàn)出了強大的推理能力,尤其是在引入思維鏈(CoT)之后。然而,長思維鏈在復雜任務中的推理成本極高,因此,近期有不少研究在嘗試尋找更高效的測試時擴展方法,以期望更高效地提升模型的推理能力。
一種前景較為可觀的方法是田淵棟團隊在 2024 年提出的「連續(xù)思維鏈」(Chain-of-Continuous-Thought,簡稱 Coconut)。與傳統(tǒng)的 CoT 不同,連續(xù)思維鏈是將模型的推理軌跡保存在連續(xù)隱空間中,而非回投到離散的 token 空間。這種做法不僅在理論上具有多項優(yōu)勢,在實驗中也帶來了顯著性能提升。參閱我們之前的報道《田淵棟團隊論文火了!連續(xù)思維鏈優(yōu)于 CoT,打開 LLM 推理新范式》。
然而,若要讓連續(xù)思維鏈更高效、更穩(wěn)定地擴展到更復雜的推理任務,就必須更深入地理解它的內(nèi)部機制。
該團隊 2025 年的研究《Reasoning by superposition: A theoretical perspective on chain of continuous thought》已從理論上指出,連續(xù)思維鏈的一個關(guān)鍵優(yōu)勢在于它能使模型在疊加(superposition)狀態(tài)下進行推理:當模型面對多個可能的推理路徑而無法確定哪一個是正確時,它可以在連續(xù)空間中并行地保留所有可能的路徑,而不像離散 token 那樣必須選擇單一路徑。
具體來說,該研究將一類推理任務抽象為有向圖可達性(a directed graph reachability)問題 —— 即判斷從給定起點節(jié)點能否到達目標節(jié)點。
他們進一步證明,只需一個兩層 Transformer,經(jīng)過 O (n) 次連續(xù)思維解碼(其中 n 為圖中節(jié)點數(shù)量),即可通過特定參數(shù)構(gòu)造有效地解決該問題。
因此,一個自然的問題隨之而來:梯度下降訓練能否自然地收斂出這種結(jié)構(gòu)?我們能否在理論上證明這一點?
近日,田淵棟與 Stuart Russell 兩個團隊合力,發(fā)表了論文《疊加的涌現(xiàn)》,對這個問題給出正面回答。本論文一作 Hanlin Zhu(竺涵林)為加利福尼亞大學伯克利分校(UC Berkeley)電子工程與計算機科學系博士生,此前畢業(yè)于清華大學姚班。
- 論文標題:Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought
- Paper:https://arxiv.org/abs/2509.23365v1
具體來說,他們通過對一個簡化的兩層 Transformer 在「圖可達性問題」上的訓練動態(tài)進行理論分析,將訓練過程劃分為兩個階段:
- 思維生成(thought generation)階段:模型自回歸地生成一條連續(xù)思維鏈;
- 預測(prediction)階段:模型利用已生成的思維進行最終預測。
值得注意的是,通過對思維生成階段進行分析,該團隊揭示了一個重要現(xiàn)象:即便每個訓練樣本只包含一個演示樣例,疊加(superposition)仍然會在訓練中自發(fā)涌現(xiàn)。
他們的理論分析與實驗結(jié)果均表明,當采用連續(xù)思維訓練(Coconut 方法)時,索引匹配 logit(index-matching logit)(衡量模型局部搜索能力強度的一個關(guān)鍵指標)在溫和假設(shè)下保持有界(bounded)。這與傳統(tǒng) Transformer 分析截然不同 —— 后者在無連續(xù)思維的情況下,logit 會呈對數(shù)增長并趨于無界。
一個有界的索引匹配 logit,能在「探索」與「利用」之間維持動態(tài)平衡:
- 若 logit 過小,模型無法有效進行局部搜索,下一步幾乎只能隨機猜測;
- 若 logit 過大,模型則會過度自信地鎖定某一條局部路徑(例如僅憑節(jié)點入度等局部特征),從而過早排除真正正確的路徑。
而當 logit 保持在適度范圍內(nèi)時,模型既能利用局部結(jié)構(gòu),又能為多條合理路徑分配相近的權(quán)重,這便自然形成了疊加式推理(superposition reasoning)。這也回答了之前論文未能解答的問題 —— 為何疊加態(tài)會在訓練中自發(fā)涌現(xiàn)。
這里我們就不深入其理論證明部分了,感興趣的讀者請查看原論文。下面簡單看看其實驗部分。
實驗與結(jié)果
為了驗證其理論分析的結(jié)果,該團隊使用了一個 GPT-2 式解碼器進行實驗,其包含兩層 Transformer(d_model=768, n_heads=8)。
該模型是從零開始訓練的,優(yōu)化器為 AdamW(β?=0.9,β?=0.95,權(quán)重衰減 10?2),學習率固定為 1×10??,全局 batch size 為 256。數(shù)據(jù)集則來自 ProsQA 的一個子集。
訓練策略方面,按照之前的方法,他們采用多階段訓練,并使用思維鏈示范進行監(jiān)督。
- 在階段 c,模型學習在預測推理路徑上第 c 個節(jié)點之前使用 c 個連續(xù)思維(即思維生成階段)。
- 當 c > l(思維鏈長度)時,模型在生成 l 個連續(xù)思維及 標記后,預測最終答案(即預測階段)。
訓練共 350 個 epoch:階段 1 訓練 150 個 epoch,后續(xù)每階段 25 個 epoch。在每個階段中,以 0.1 的概率混入之前階段的數(shù)據(jù),以防遺忘。最終模型在測試集上的準確度為 96.2%。
思維生成階段
為分析 L^coco 下 μ_v 的訓練動態(tài),該團隊追蹤了第二層注意力的 logit 變化。當模型生成第 c 個連續(xù)思維時,μ_v 對應于源節(jié)點位于 N_c 的邊 token
的 logit。
在實踐中,L^coco 會鼓勵模型聚焦于當前搜索前沿,而非已探索的節(jié)點,因此注意力主要集中在「前沿邊 (frontier edges)」上,即源節(jié)點位于 N_c \ N_{c?1} 的邊。
為簡化理論分析,該團隊假設(shè) μ?=0,但在實際訓練中,模型會對其他邊也賦予非零注意力。因此該團隊報告的是測試集上前沿邊與非前沿邊之間的 logit 差值,以更準確反映 μ_v 的有效變化。
結(jié)果見圖 2。
在階段 1(藍色背景)中,模型在預測第一個連續(xù)思維(c=1)時,逐步學會了關(guān)注前沿邊。logit 差值穩(wěn)步上升,并在約 125 個 epoch 后穩(wěn)定于 60 附近,與定理 1 的理論預測一致:在 L^coco 下,μ_v 先增長后趨于穩(wěn)定且有界。
當切換到階段 2(紫色背景)時,模型在生成第二個連續(xù)思維(c=2)時所需的收斂 epoch 大幅減少。更有趣的是,這種模式可推廣至 c=3 和 c=4,盡管模型從未顯式訓練生成超過兩個思維。
這種「長度泛化(length generalization)」表明:一旦疊加態(tài)在早期階段涌現(xiàn),后續(xù)階段便能快速復用它,進一步拓展搜索前沿。
該團隊還使用了 L^BFS 的變體(COCONUT-BFS 方法)進行對比。與 L^coco 不同,在 c=1 時,注意力 logit 差值沒有飽和,而是持續(xù)增長到更高水平,這與定理 1 的分析一致。
答案預測階段
接下來該團隊分析了模型如何預測最終答案。根據(jù)引理 2,預測依賴兩個信號:
- 殘差信號(residual carryover),它將最后一個思維 [t_C] 中已探索的節(jié)點以強度 μ_A 傳遞至答案 token 。具體來說,這對應于第一層從 到 [t_C] 的注意力,用于復制可達節(jié)點的疊加狀態(tài)。
- 候選提升信號(candidate lift),它以強度 μ_R 提升兩個候選節(jié)點的 logit。由于 到
- 在第一層中復制候選節(jié)點,因此第二層從
- 的注意力可視為 μ_R 的智能體。
圖 3 展示了兩者的訓練動態(tài)。
一旦進入預測階段,μ_A 與 μ_R 都迅速上升,并在約 5 個 epoch 后趨于穩(wěn)定。這與定理 3 的結(jié)論一致:μ_A 與 μ_R 以相似速率增長,確保正確候選 c? 的 logit 最高。
與理論中的無界增長不同,該團隊在實踐中觀察到 logit 實際上會趨于平臺期。這可能是因為實際訓練中,預測階段仍與思維生成階段相互作用,而理論假設(shè)思維分布固定,以便單獨分析 μ_R 與 μ_A 的關(guān)系。該團隊將這一差異留待了未來研究。
總結(jié)
本文研究了在連續(xù)思維鏈訓練中疊加態(tài)的自發(fā)涌現(xiàn)機制。該團隊對一個簡化的兩層 Transformer 在有向圖可達性任務上的訓練動態(tài)進行了系統(tǒng)的理論分析。
結(jié)果顯示,在溫和假設(shè)下,索引匹配 logit(衡量模型局部搜索能力的關(guān)鍵指標)在訓練過程中會保持有界。
一個有界的 logit 能有效平衡「探索」與「利用」,從而讓模型在推理中實現(xiàn)隱式的并行思考,自然產(chǎn)生疊加現(xiàn)象。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.