人大&騰訊團隊用信息論揭示：什么時候該想、什么時候別想

2025-12-19 14:59:28　來源: 機器之心Pro

河北舉報

分享至

本文的第一作者雍希賢是來中國人民大學(xué)的博士生，研究方向聚焦于 Humanoid AI，LLM Coginition & Reasoning。通訊作者為中國人民大學(xué)的周驍副教授以及騰訊天衍實驗室的吳賢。

當前，大模型的「推理能力」幾乎成為行業(yè)最熱詞。o1、R1、QwQ 類強化學(xué)習(xí)（RL）推理模型，讓模型會「想」、會解析復(fù)雜問題，甚至能像人一樣寫長長的推理過程（Chain-of-Thought，CoT），在數(shù)學(xué)、邏輯與常識等領(lǐng)域任務(wù)中展現(xiàn)出強大的多步推理能力。

看上去很強，但問題也隨之出現(xiàn)：

這些模型真的需要思考那么久嗎？
長推理鏈條，是幫助模型正確，還是讓它越繞越遠？

如果你用過這些模型，就會感受到：

很多題模型似乎「一眼就能猜中八成」，但它還是堅持把推理寫到幾百、幾千 token，有時甚至越寫越亂、越想越錯。

來自中國人民大學(xué)、騰訊 Jarvis Lab、西湖大學(xué)的研究團隊，看到了這背后的核心：

當前大模型的「推理機制」其實非常低效，甚至常常在自我制造噪聲。

于是研究團隊從另一個視角切入 ——信息論

通過「熵（entropy）」與「互信息（mutual information）」等底層信息指標，重新衡量模型思考的價值。

最終，他們提出了一個極其實用的機制：Adaptive Think——讓模型在「自信夠了」時自動停止推理

不用訓(xùn)練，用現(xiàn)有模型就能直接部署。

這項工作已被 NeurIPS 2025 選為 Spotlight。

論文標題： Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens
論文鏈接：https://arxiv.org/abs/2505.18237
代碼地址：https://github.com/chicosirius/think-or-not

首先，研究團隊借鑒了香農(nóng)提出的通信三層模型，從技術(shù)、語義和實踐三個維度觀察大模型「過度思考」的本質(zhì)。

圖 1：基于 Shannon & Weaver 通信模型，研究發(fā)現(xiàn)推理過長不僅信息增益逐漸減弱，還可能帶來偏差并降低最終準確率。

在技術(shù)層面（Technical Level），長推理鏈就像在一個噪聲信道里不斷添加冗余比特。適度的冗余可以增強魯棒性，但一旦超過模型的「推理容量」，額外的推理反而可能會帶來錯誤的積累和偏差。
在語義層面（Semantic Level），每一步推理應(yīng)該減少答案的不確定性。但結(jié)果顯示，隨著推理鏈延長，單步推理帶來的信息增益迅速遞減，冗余步驟更多地在制造噪聲，而不是幫助模型更接近正確答案。
在實踐層面（Pragmatic Level），更長的推理鏈并不一定帶來更好的結(jié)果?？缍鄠€任務(wù)和模型，推理長度的增加常常導(dǎo)致邊際收益下降，甚至出現(xiàn)「思考越久、答得越差」的情況。同時，冗長的推理鏈帶來更多 token 消耗、更高延遲和更大算力開銷，使得長推理在實際應(yīng)用中既昂貴又不可靠。

模型推理為什么會「越想越偏」？

為了進一步量化模型「思考效率」，研究團隊從兩個層面構(gòu)建了一個系統(tǒng)評價框架。

1. 全局視角：InfoBias（信息偏差）

將模型的推理鏈與理想推理路徑比對，使用互信息估計偏差：

偏差越大，說明模型「越想越偏」。

在 GSM8K 數(shù)據(jù)集上的實驗清晰地展示了這一規(guī)律：錯誤答案往往伴隨更長的推理鏈和更高的 InfoBias。越是錯誤的答案，模型往往輸出更多的 token。

圖 2：在 GSM8K 數(shù)據(jù)集上，不同模型的平均推理長度與歸一化后的每個 token 信息偏差關(guān)系。

2. 局部視角：InfoGain（信息增益）

定義每個推理步驟降低答案空間熵的量：

如果某一步?jīng)]降低不確定性，說明它提供的不是「有效推理」，而是「填充字數(shù)」。

實驗分析表明，模型在推理過程中表現(xiàn)出逐步降低不確定性和提高對正確答案的信心的趨勢，即有效推理可以逐步過濾不確定性并增強預(yù)測。

即使在推理開始前，模型在知識密集型任務(wù)上也顯示出初始直覺偏向正確答案，而不同任務(wù)的推理動態(tài)存在差異

圖 3：QwQ-32B 在不同推理基準下的不確定性動態(tài)

Adaptive Think

讓模型「有必要才深思，無必要就直答」

在發(fā)現(xiàn)過度思考可能降低推理效率后，研究團隊提出了Adaptive Think策略。其核心理念是通過熵來衡量模型在推理過程中的不確定性，并在模型達到足夠置信度時主動終止推理。

讓模型進行「自我監(jiān)控式推理」

在這一框架下，每完成一步推理，模型都會計算答案分布的平均熵。當熵低于預(yù)設(shè)閾值 α 時，表明模型已經(jīng)具備較高的自信，此時即可停止推理并輸出答案。該機制使模型能夠根據(jù)任務(wù)難度靈活調(diào)整思考深度：

對于簡單的常識類問題，僅需少量推理步驟即可得到答案，從而節(jié)省計算資源；
對于復(fù)雜的數(shù)學(xué)或邏輯問題，則會繼續(xù)深入推理，直至置信度達到足夠高的水平才終止。

圖 4：四種思考方式的示意圖

該策略體現(xiàn)了模型對自身信心的動態(tài)感知能力，使其能夠在不同任務(wù)類型間自適應(yīng)調(diào)整推理深度，從而兼顧速度與可靠性。

實驗結(jié)果

更準、更省、更快

最后，研究團隊在 8 個大模型（包括 5 個非推理和 3 個推理模型）、6 個不同推理類型的 benchmark 上進行了完整評估。

在數(shù)學(xué)任務(wù) GSM8K 與 AIME2025 上，Adaptive Think 在保持準確率的同時，將平均 Token 消耗減少了一半以上（40.01%-68.25）。例如，在 QwQ-32B 模型上，相比傳統(tǒng)的 Vanilla Think 模式，Adaptive Think 在 AIME2025 上將 Token 使用量減少了 68.25%，而準確率還提高了 0.93%。這說明模型本身早早就「知道正確答案」，冗余的只是大量驗證性推理。

表 1：在兩個數(shù)學(xué)推理基準上的性能與效率對比

在知識、邏輯、常識等任務(wù)上，Adaptive Think 同樣表現(xiàn)優(yōu)異。在 MMLU-Pro、CommonsenseQA、ProntoQA、MuSR 等多個數(shù)據(jù)集上觀察到：QwQ-32B 的平均準確率提升 1.23%，平均 token 減少 42.52%。

在 CommonsenseQA 這種靠直覺的任務(wù)最顯著，DeepSeek-R1-32B 模型采用 Adaptive Think 后，準確率幾乎不變，但 Token 消耗減少了超過 80%。這表明對于依賴常識直覺的問題，Adaptive Think 能夠快速終止冗余推理，極大地提升效率

表 2：在知識、邏輯、常識推理基準上的性能與效率對比

這些實驗驗證了一個關(guān)鍵結(jié)論：大模型的長推理鏈并非必要，很多時候它們只需要「少想幾步」

什么時候應(yīng)該「多想」，

什么時候應(yīng)該「少想」？

研究團隊進一步分析不同任務(wù)的「推理需求」，例如：

數(shù)學(xué)題（AIME2025）→ 需要更深的推理鏈
常識題（CQA）→ 模型幾乎一開始就知道正確答案
多步軟推理（MuSR）→ 有效推理集中在前半段

圖 5&6：Adaptive Think 輸出 token 數(shù)量與題目難度的關(guān)系（左）；閾值 α 對準確率和 token 數(shù)量的影響，揭示了推理性能與計算效率之間的權(quán)衡（右）。

這意味著：

真正成熟的推理大模型，不是輸出固定長度的推理，而是能夠「自動匹配任務(wù)難度」。

總結(jié)

這篇論文給我們帶來一個很重要的理念：AI 推理的未來不在「更長」，而在「更聰明」

未來的大模型應(yīng)該：1）在需要深度邏輯時能推理得足夠嚴謹；2）在只需直覺判斷時不浪費 token；3）能動態(tài)適應(yīng)任務(wù)難度；4）在推理過程中實時自我評估，隨時剎車。

這項工作既解釋了「為什么模型會過度推理」，也告訴我們「如何簡單有效地解決」。

如果說強化學(xué)習(xí)讓模型學(xué)會了「怎么想」，那么 Adaptive Think 讓模型學(xué)會了「想多久」。

這是推理大模型走向成熟的關(guān)鍵一步。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.