本文作者來(lái)自亞利桑那州立大學(xué)數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)實(shí)驗(yàn)室 (Data Mining and Machine Learning Lab),包括博士研究生趙成帥、譚箴、馬平川、李大衛(wèi)、蔣博涵以及指導(dǎo)老師劉歡教授。Statistical Deep Learning Lab 王硯丞、楊穎振教授。
思維鏈 (CoT) 提示技術(shù)常被認(rèn)為是讓大模型分步思考的關(guān)鍵手段,通過(guò)在輸入中加入「Let’s think step by step」等提示,模型會(huì)生成類似人類的中間推理步驟,顯著提升復(fù)雜任務(wù)的表現(xiàn)。然而,這些流暢的推理鏈條是否真的反映了模型的推理能力?
亞利桑那州立大學(xué)的一項(xiàng)最新研究卻發(fā)現(xiàn),CoT 推理可能并不是真正的推理,而更像是對(duì)訓(xùn)練數(shù)據(jù)分布內(nèi)模式的復(fù)現(xiàn)。一旦輸入任務(wù)與訓(xùn)練數(shù)據(jù)分布存在差異,這種看似穩(wěn)固的推理鏈條就會(huì)迅速失效,呈現(xiàn)出類似「海市蜃樓」的脆弱性。
- 論文標(biāo)題:Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
- 論文鏈接:
- https://arxiv.org/pdf/2508.01191
- 項(xiàng)目開源:
- https://github.com/ChengshuaiZhao0/DataAlchemy
- 推特討論:https://x.com/ChengshuaiZhao/status/1953291261999497258
- 領(lǐng)英推廣:
- https://www.linkedin.com/feed/update/urn:li:activity:7359056339228090368/
在這篇工作里作者探究了 CoT 的泛化性和 Out-of-Distribution (OOD) 問(wèn)題,馬斯克看當(dāng)場(chǎng)測(cè)試 Grok 是否會(huì)生成 OOD 的內(nèi)容,直接「強(qiáng)迫」Grok 生成粗俗的臟話銳評(píng),節(jié)目效果拉滿!
推理的「幻象」
研究團(tuán)隊(duì)在論文開頭給出了一個(gè)典型的例子:?jiǎn)栴}是:「美國(guó)建國(guó)年是閏年還是平年?」,模型的回答是:「美國(guó)建于 1776 年,1776 能被 4 整除,又不是世紀(jì)年,所以是閏年。因此,美國(guó)建國(guó)那一年是平年。」這一回答中的推理步驟和知識(shí)點(diǎn)看似正確,但結(jié)論卻與前提自相矛盾。這表明模型雖然會(huì)復(fù)述邏輯規(guī)則,卻未必真的用這些規(guī)則來(lái)推導(dǎo)答案。
事實(shí)上,已有相關(guān)研究表明,CoT 的性能提升往往源于表層語(yǔ)義匹配。一旦問(wèn)題稍作改寫,或者引入與結(jié)論無(wú)關(guān)的內(nèi)容,模型的表現(xiàn)便會(huì)顯著下降。
數(shù)據(jù)分布視角下的 CoT 假設(shè)
在這項(xiàng)研究中,作者提出了一個(gè)新的解釋框架,即從數(shù)據(jù)分布的角度來(lái)理解 CoT。他們認(rèn)為,CoT 的有效性主要來(lái)源于模型在訓(xùn)練分布內(nèi)學(xué)到的「結(jié)構(gòu)性歸納偏差」(structured inductive bias)。
換句話說(shuō),所謂的推理鏈只是對(duì)訓(xùn)練數(shù)據(jù)中常見模式的復(fù)現(xiàn),而非真正的邏輯推演。當(dāng)測(cè)試任務(wù)與訓(xùn)練數(shù)據(jù)之間的分布差異增大時(shí),這種「推理」表現(xiàn)會(huì)迅速崩塌。
研究團(tuán)隊(duì)還用理論公式刻畫了這種關(guān)系,并引入了一個(gè)可計(jì)算的分布差異指標(biāo),從而能夠在實(shí)驗(yàn)中估計(jì)分布偏移對(duì)推理性能的影響。
可控實(shí)驗(yàn)平臺(tái):數(shù)據(jù)煉金術(shù)
為了避免大規(guī)模預(yù)訓(xùn)練模型中復(fù)雜因素的干擾,團(tuán)隊(duì)選擇從零訓(xùn)練語(yǔ)言模型,并搭建了一個(gè)名為數(shù)據(jù)煉金術(shù) (DataAlchemy) 的可控實(shí)驗(yàn)環(huán)境。
在該框架中,作者將廣泛意義上的各種 NLP 下游任務(wù)抽象成不同「元素」和「變換」的組合?;尽冈亍故怯?26 個(gè)字母原子組成的固定長(zhǎng)度序列。作者設(shè)計(jì)了兩種基本「變換」:一種是 ROT 變換,即將字母表循環(huán)位移若干位;另一種是循環(huán)位置平移,將序列整體向右移動(dòng)指定位置。
在此基礎(chǔ)上,他們構(gòu)造了各種組合變換,通過(guò)將不同變換按順序和參數(shù)串聯(lián),形成推理鏈。每個(gè)任務(wù)的正確推理鏈可以被精確生成,這使得模型輸出與標(biāo)準(zhǔn)答案之間的差異能夠被逐步對(duì)照評(píng)估。
三類泛化實(shí)驗(yàn)的發(fā)現(xiàn)
首先在「任務(wù)泛化」方面,作者分別考察了「變換泛化」和「元素泛化」兩種情形。「變換泛化」測(cè)試了模型在面對(duì)新的變換組合,甚至完全陌生的變換類型時(shí)的表現(xiàn);「元素泛化」則涉及模型遇到新的字母組合,或者訓(xùn)練過(guò)程中從未見過(guò)的字母。
在分布內(nèi)的情況下,模型的準(zhǔn)確率接近 100%。然而,只要分布稍有偏移,例如變換順序被重新組合,準(zhǔn)確率便會(huì)驟降至 0.01%;當(dāng)測(cè)試中出現(xiàn)全新「變換」時(shí),性能更是幾乎完全喪失。
作者還發(fā)現(xiàn),雖然在少量新數(shù)據(jù)上進(jìn)行監(jiān)督微調(diào) (SFT) 可以迅速恢復(fù)性能,但這只是在原有分布邊界上做了擴(kuò)展,并未真正提升模型的抽象泛化能力。
在「長(zhǎng)度泛化」方面,研究團(tuán)隊(duì)分別考察了「文本長(zhǎng)度」變化和「推理步數(shù)」變化的影響。實(shí)驗(yàn)結(jié)果表明,即使輸入序列長(zhǎng)度僅比訓(xùn)練時(shí)多或少一個(gè)單位,模型的表現(xiàn)也會(huì)顯著下降。它往往會(huì)生成與訓(xùn)練長(zhǎng)度一致的推理鏈,并通過(guò)添加或刪除詞元來(lái)「湊長(zhǎng)度」。當(dāng)推理步數(shù)與訓(xùn)練設(shè)置不一致時(shí),模型幾乎完全無(wú)法泛化,除非它在訓(xùn)練中顯式地見過(guò)相應(yīng)步數(shù)的樣例。
在「格式泛化」方面,作者通過(guò)插入、刪除、替換等方式擾動(dòng)輸入提示,以模擬現(xiàn)實(shí)場(chǎng)景中的多樣的格式。他們發(fā)現(xiàn),模型對(duì)格式的變化極為敏感,尤其是當(dāng)變化發(fā)生在「元素」或「變換」部分時(shí),即使邏輯內(nèi)容不變,僅僅提示形式不同,也可能導(dǎo)致推理徹底失敗。
溫度、規(guī)模與泛化脆弱性的普遍性
作者進(jìn)一步測(cè)試了不同采樣溫度和模型規(guī)模下的表現(xiàn)。在合理的溫度范圍內(nèi),CoT 的脆弱性模式保持一致。模型規(guī)模的變化同樣不影響這一趨勢(shì)。這表明,這種對(duì)分布偏移的敏感性并非個(gè)別模型的特性,而是一種普遍現(xiàn)象。
研究的現(xiàn)實(shí)意義
這項(xiàng)研究對(duì)實(shí)際應(yīng)用提出了多項(xiàng)警示。
首先,在醫(yī)療、金融和法律等高風(fēng)險(xiǎn)領(lǐng)域,不能盲目依賴 CoT 作為穩(wěn)健推理的保證。流暢但邏輯有誤的推理鏈可能比直接給出錯(cuò)誤答案更具誤導(dǎo)性。
其次,現(xiàn)有的評(píng)測(cè)方法往往依賴與訓(xùn)練分布高度一致的驗(yàn)證集,這會(huì)嚴(yán)重高估模型的魯棒性。為了更準(zhǔn)確地評(píng)估系統(tǒng)性能,必須引入嚴(yán)格的分布外測(cè)試。
最后,雖然在少量新數(shù)據(jù)上進(jìn)行監(jiān)督微調(diào)可以迅速提升特定任務(wù)下的表現(xiàn),但這種方法只是對(duì)原有分布的局部擴(kuò)展,不能賦予模型真正的抽象推理能力。
結(jié)論
通過(guò)數(shù)據(jù)分布的視角,這項(xiàng)研究揭示了 CoT 推理的本質(zhì):它更像是對(duì)訓(xùn)練中出現(xiàn)過(guò)的模式的結(jié)構(gòu)化復(fù)現(xiàn),而不是真正的邏輯推理。一旦任務(wù)結(jié)構(gòu)、推理鏈長(zhǎng)度或輸入格式超出了訓(xùn)練分布的范圍,模型的表現(xiàn)便會(huì)迅速崩潰。
在未來(lái)的發(fā)展中,研究者和工程師需要在充分利用 CoT 在分布內(nèi)的優(yōu)勢(shì)的同時(shí),正視其在泛化能力上的瓶頸,并在評(píng)測(cè)和部署中保持足夠的謹(jǐn)慎。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.