人大&騰訊團(tuán)隊(duì)用信息論揭示：什么時(shí)候該想、什么時(shí)候別想

2025-12-19 14:59:28　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

本文的第一作者雍希賢是來中國人民大學(xué)的博士生，研究方向聚焦于 Humanoid AI，LLM Coginition & Reasoning。通訊作者為中國人民大學(xué)的周驍副教授以及騰訊天衍實(shí)驗(yàn)室的吳賢。

當(dāng)前，大模型的「推理能力」幾乎成為行業(yè)最熱詞。o1、R1、QwQ 類強(qiáng)化學(xué)習(xí)（RL）推理模型，讓模型會(huì)「想」、會(huì)解析復(fù)雜問題，甚至能像人一樣寫長長的推理過程（Chain-of-Thought，CoT），在數(shù)學(xué)、邏輯與常識(shí)等領(lǐng)域任務(wù)中展現(xiàn)出強(qiáng)大的多步推理能力。

看上去很強(qiáng)，但問題也隨之出現(xiàn)：

這些模型真的需要思考那么久嗎？
長推理鏈條，是幫助模型正確，還是讓它越繞越遠(yuǎn)？

如果你用過這些模型，就會(huì)感受到：

很多題模型似乎「一眼就能猜中八成」，但它還是堅(jiān)持把推理寫到幾百、幾千 token，有時(shí)甚至越寫越亂、越想越錯(cuò)。

來自中國人民大學(xué)、騰訊 Jarvis Lab、西湖大學(xué)的研究團(tuán)隊(duì)，看到了這背后的核心：

當(dāng)前大模型的「推理機(jī)制」其實(shí)非常低效，甚至常常在自我制造噪聲。

于是研究團(tuán)隊(duì)從另一個(gè)視角切入 ——信息論

通過「熵（entropy）」與「互信息（mutual information）」等底層信息指標(biāo)，重新衡量模型思考的價(jià)值。

最終，他們提出了一個(gè)極其實(shí)用的機(jī)制：Adaptive Think——讓模型在「自信夠了」時(shí)自動(dòng)停止推理

不用訓(xùn)練，用現(xiàn)有模型就能直接部署。

這項(xiàng)工作已被 NeurIPS 2025 選為 Spotlight。

論文標(biāo)題： Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens
論文鏈接：https://arxiv.org/abs/2505.18237
代碼地址：https://github.com/chicosirius/think-or-not

首先，研究團(tuán)隊(duì)借鑒了香農(nóng)提出的通信三層模型，從技術(shù)、語義和實(shí)踐三個(gè)維度觀察大模型「過度思考」的本質(zhì)。

圖 1：基于 Shannon & Weaver 通信模型，研究發(fā)現(xiàn)推理過長不僅信息增益逐漸減弱，還可能帶來偏差并降低最終準(zhǔn)確率。

在技術(shù)層面（Technical Level），長推理鏈就像在一個(gè)噪聲信道里不斷添加冗余比特。適度的冗余可以增強(qiáng)魯棒性，但一旦超過模型的「推理容量」，額外的推理反而可能會(huì)帶來錯(cuò)誤的積累和偏差。
在語義層面（Semantic Level），每一步推理應(yīng)該減少答案的不確定性。但結(jié)果顯示，隨著推理鏈延長，單步推理帶來的信息增益迅速遞減，冗余步驟更多地在制造噪聲，而不是幫助模型更接近正確答案。
在實(shí)踐層面（Pragmatic Level），更長的推理鏈并不一定帶來更好的結(jié)果。跨多個(gè)任務(wù)和模型，推理長度的增加常常導(dǎo)致邊際收益下降，甚至出現(xiàn)「思考越久、答得越差」的情況。同時(shí)，冗長的推理鏈帶來更多 token 消耗、更高延遲和更大算力開銷，使得長推理在實(shí)際應(yīng)用中既昂貴又不可靠。

模型推理為什么會(huì)「越想越偏」？

為了進(jìn)一步量化模型「思考效率」，研究團(tuán)隊(duì)從兩個(gè)層面構(gòu)建了一個(gè)系統(tǒng)評(píng)價(jià)框架。

1. 全局視角：InfoBias（信息偏差）

將模型的推理鏈與理想推理路徑比對，使用互信息估計(jì)偏差：

偏差越大，說明模型「越想越偏」。

在 GSM8K 數(shù)據(jù)集上的實(shí)驗(yàn)清晰地展示了這一規(guī)律：錯(cuò)誤答案往往伴隨更長的推理鏈和更高的 InfoBias。越是錯(cuò)誤的答案，模型往往輸出更多的 token。

圖 2：在 GSM8K 數(shù)據(jù)集上，不同模型的平均推理長度與歸一化后的每個(gè) token 信息偏差關(guān)系。

2. 局部視角：InfoGain（信息增益）

定義每個(gè)推理步驟降低答案空間熵的量：

如果某一步?jīng)]降低不確定性，說明它提供的不是「有效推理」，而是「填充字?jǐn)?shù)」。

實(shí)驗(yàn)分析表明，模型在推理過程中表現(xiàn)出逐步降低不確定性和提高對正確答案的信心的趨勢，即有效推理可以逐步過濾不確定性并增強(qiáng)預(yù)測。

即使在推理開始前，模型在知識(shí)密集型任務(wù)上也顯示出初始直覺偏向正確答案，而不同任務(wù)的推理動(dòng)態(tài)存在差異

圖 3：QwQ-32B 在不同推理基準(zhǔn)下的不確定性動(dòng)態(tài)

Adaptive Think

讓模型「有必要才深思，無必要就直答」

在發(fā)現(xiàn)過度思考可能降低推理效率后，研究團(tuán)隊(duì)提出了Adaptive Think策略。其核心理念是通過熵來衡量模型在推理過程中的不確定性，并在模型達(dá)到足夠置信度時(shí)主動(dòng)終止推理。

讓模型進(jìn)行「自我監(jiān)控式推理」

在這一框架下，每完成一步推理，模型都會(huì)計(jì)算答案分布的平均熵。當(dāng)熵低于預(yù)設(shè)閾值 α 時(shí)，表明模型已經(jīng)具備較高的自信，此時(shí)即可停止推理并輸出答案。該機(jī)制使模型能夠根據(jù)任務(wù)難度靈活調(diào)整思考深度：

對于簡單的常識(shí)類問題，僅需少量推理步驟即可得到答案，從而節(jié)省計(jì)算資源；
對于復(fù)雜的數(shù)學(xué)或邏輯問題，則會(huì)繼續(xù)深入推理，直至置信度達(dá)到足夠高的水平才終止。

圖 4：四種思考方式的示意圖

該策略體現(xiàn)了模型對自身信心的動(dòng)態(tài)感知能力，使其能夠在不同任務(wù)類型間自適應(yīng)調(diào)整推理深度，從而兼顧速度與可靠性。

實(shí)驗(yàn)結(jié)果

更準(zhǔn)、更省、更快

最后，研究團(tuán)隊(duì)在 8 個(gè)大模型（包括 5 個(gè)非推理和 3 個(gè)推理模型）、6 個(gè)不同推理類型的 benchmark 上進(jìn)行了完整評(píng)估。

在數(shù)學(xué)任務(wù) GSM8K 與 AIME2025 上，Adaptive Think 在保持準(zhǔn)確率的同時(shí)，將平均 Token 消耗減少了一半以上（40.01%-68.25）。例如，在 QwQ-32B 模型上，相比傳統(tǒng)的 Vanilla Think 模式，Adaptive Think 在 AIME2025 上將 Token 使用量減少了 68.25%，而準(zhǔn)確率還提高了 0.93%。這說明模型本身早早就「知道正確答案」，冗余的只是大量驗(yàn)證性推理。

表 1：在兩個(gè)數(shù)學(xué)推理基準(zhǔn)上的性能與效率對比

在知識(shí)、邏輯、常識(shí)等任務(wù)上，Adaptive Think 同樣表現(xiàn)優(yōu)異。在 MMLU-Pro、CommonsenseQA、ProntoQA、MuSR 等多個(gè)數(shù)據(jù)集上觀察到：QwQ-32B 的平均準(zhǔn)確率提升 1.23%，平均 token 減少 42.52%。

在 CommonsenseQA 這種靠直覺的任務(wù)最顯著，DeepSeek-R1-32B 模型采用 Adaptive Think 后，準(zhǔn)確率幾乎不變，但 Token 消耗減少了超過 80%。這表明對于依賴常識(shí)直覺的問題，Adaptive Think 能夠快速終止冗余推理，極大地提升效率

表 2：在知識(shí)、邏輯、常識(shí)推理基準(zhǔn)上的性能與效率對比

這些實(shí)驗(yàn)驗(yàn)證了一個(gè)關(guān)鍵結(jié)論：大模型的長推理鏈并非必要，很多時(shí)候它們只需要「少想幾步」

什么時(shí)候應(yīng)該「多想」，

什么時(shí)候應(yīng)該「少想」？

研究團(tuán)隊(duì)進(jìn)一步分析不同任務(wù)的「推理需求」，例如：

數(shù)學(xué)題（AIME2025）→ 需要更深的推理鏈
常識(shí)題（CQA）→ 模型幾乎一開始就知道正確答案
多步軟推理（MuSR）→ 有效推理集中在前半段

圖 5&6：Adaptive Think 輸出 token 數(shù)量與題目難度的關(guān)系（左）；閾值 α 對準(zhǔn)確率和 token 數(shù)量的影響，揭示了推理性能與計(jì)算效率之間的權(quán)衡（右）。

這意味著：

真正成熟的推理大模型，不是輸出固定長度的推理，而是能夠「自動(dòng)匹配任務(wù)難度」。

總結(jié)

這篇論文給我們帶來一個(gè)很重要的理念：AI 推理的未來不在「更長」，而在「更聰明」

未來的大模型應(yīng)該：1）在需要深度邏輯時(shí)能推理得足夠嚴(yán)謹(jǐn)；2）在只需直覺判斷時(shí)不浪費(fèi) token；3）能動(dòng)態(tài)適應(yīng)任務(wù)難度；4）在推理過程中實(shí)時(shí)自我評(píng)估，隨時(shí)剎車。

這項(xiàng)工作既解釋了「為什么模型會(huì)過度推理」，也告訴我們「如何簡單有效地解決」。

如果說強(qiáng)化學(xué)習(xí)讓模型學(xué)會(huì)了「怎么想」，那么 Adaptive Think 讓模型學(xué)會(huì)了「想多久」。

這是推理大模型走向成熟的關(guān)鍵一步。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.