夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

人大&騰訊團隊用信息論揭示:什么時候該想、什么時候別想

0
分享至



本文的第一作者雍希賢是來中國人民大學(xué)的博士生,研究方向聚焦于 Humanoid AI,LLM Coginition & Reasoning。通訊作者為中國人民大學(xué)的周驍副教授以及騰訊天衍實驗室的吳賢。

當前,大模型的「推理能力」幾乎成為行業(yè)最熱詞。o1、R1、QwQ 類強化學(xué)習(xí)(RL)推理模型,讓模型會「想」、會解析復(fù)雜問題,甚至能像人一樣寫長長的推理過程(Chain-of-Thought,CoT),在數(shù)學(xué)、邏輯與常識等領(lǐng)域任務(wù)中展現(xiàn)出強大的多步推理能力。

看上去很強,但問題也隨之出現(xiàn):

  • 這些模型真的需要思考那么久嗎?
  • 長推理鏈條,是幫助模型正確,還是讓它越繞越遠?

如果你用過這些模型,就會感受到:

很多題模型似乎「一眼就能猜中八成」,但它還是堅持把推理寫到幾百、幾千 token,有時甚至越寫越亂、越想越錯。

來自中國人民大學(xué)、騰訊 Jarvis Lab、西湖大學(xué)的研究團隊,看到了這背后的核心:

當前大模型的「推理機制」其實非常低效,甚至常常在自我制造噪聲。

于是研究團隊從另一個視角切入 ——信息論

通過「熵(entropy)」與「互信息(mutual information)」等底層信息指標,重新衡量模型思考的價值。

最終,他們提出了一個極其實用的機制:Adaptive Think——讓模型在「自信夠了」時自動停止推理

不用訓(xùn)練,用現(xiàn)有模型就能直接部署。

這項工作已被 NeurIPS 2025 選為 Spotlight。



  • 論文標題: Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens
  • 論文鏈接:https://arxiv.org/abs/2505.18237
  • 代碼地址:https://github.com/chicosirius/think-or-not

首先,研究團隊借鑒了香農(nóng)提出的通信三層模型,從技術(shù)、語義和實踐三個維度觀察大模型「過度思考」的本質(zhì)。



圖 1:基于 Shannon & Weaver 通信模型,研究發(fā)現(xiàn)推理過長不僅信息增益逐漸減弱,還可能帶來偏差并降低最終準確率。

  • 在技術(shù)層面(Technical Level),長推理鏈就像在一個噪聲信道里不斷添加冗余比特。適度的冗余可以增強魯棒性,但一旦超過模型的「推理容量」,額外的推理反而可能會帶來錯誤的積累和偏差。
  • 在語義層面(Semantic Level),每一步推理應(yīng)該減少答案的不確定性。但結(jié)果顯示,隨著推理鏈延長,單步推理帶來的信息增益迅速遞減,冗余步驟更多地在制造噪聲,而不是幫助模型更接近正確答案。
  • 在實踐層面(Pragmatic Level),更長的推理鏈并不一定帶來更好的結(jié)果??缍鄠€任務(wù)和模型,推理長度的增加常常導(dǎo)致邊際收益下降,甚至出現(xiàn)「思考越久、答得越差」的情況。同時,冗長的推理鏈帶來更多 token 消耗、更高延遲和更大算力開銷,使得長推理在實際應(yīng)用中既昂貴又不可靠。

模型推理為什么會「越想越偏」?

為了進一步量化模型「思考效率」,研究團隊從兩個層面構(gòu)建了一個系統(tǒng)評價框架。

1. 全局視角:InfoBias(信息偏差)

將模型的推理鏈與理想推理路徑比對,使用互信息估計偏差:

偏差越大,說明模型「越想越偏」。

在 GSM8K 數(shù)據(jù)集上的實驗清晰地展示了這一規(guī)律:錯誤答案往往伴隨更長的推理鏈和更高的 InfoBias。越是錯誤的答案,模型往往輸出更多的 token。



圖 2:在 GSM8K 數(shù)據(jù)集上,不同模型的平均推理長度與歸一化后的每個 token 信息偏差關(guān)系。

2. 局部視角:InfoGain(信息增益)

定義每個推理步驟降低答案空間熵的量:



如果某一步?jīng)]降低不確定性,說明它提供的不是「有效推理」,而是「填充字數(shù)」。

實驗分析表明,模型在推理過程中表現(xiàn)出逐步降低不確定性和提高對正確答案的信心的趨勢,即有效推理可以逐步過濾不確定性并增強預(yù)測。

即使在推理開始前,模型在知識密集型任務(wù)上也顯示出初始直覺偏向正確答案,而不同任務(wù)的推理動態(tài)存在差異



圖 3:QwQ-32B 在不同推理基準下的不確定性動態(tài)

Adaptive Think

讓模型「有必要才深思,無必要就直答」

在發(fā)現(xiàn)過度思考可能降低推理效率后,研究團隊提出了Adaptive Think策略。其核心理念是通過熵來衡量模型在推理過程中的不確定性,并在模型達到足夠置信度時主動終止推理。

讓模型進行「自我監(jiān)控式推理」

在這一框架下,每完成一步推理,模型都會計算答案分布的平均熵。當熵低于預(yù)設(shè)閾值 α 時,表明模型已經(jīng)具備較高的自信,此時即可停止推理并輸出答案。該機制使模型能夠根據(jù)任務(wù)難度靈活調(diào)整思考深度:

  • 對于簡單的常識類問題,僅需少量推理步驟即可得到答案,從而節(jié)省計算資源;
  • 對于復(fù)雜的數(shù)學(xué)或邏輯問題,則會繼續(xù)深入推理,直至置信度達到足夠高的水平才終止。



圖 4:四種思考方式的示意圖

該策略體現(xiàn)了模型對自身信心的動態(tài)感知能力,使其能夠在不同任務(wù)類型間自適應(yīng)調(diào)整推理深度,從而兼顧速度與可靠性。

實驗結(jié)果

更準、更省、更快

最后,研究團隊在 8 個大模型(包括 5 個非推理和 3 個推理模型)、6 個不同推理類型的 benchmark 上進行了完整評估。

在數(shù)學(xué)任務(wù) GSM8K 與 AIME2025 上,Adaptive Think 在保持準確率的同時,將平均 Token 消耗減少了一半以上(40.01%-68.25)。例如,在 QwQ-32B 模型上,相比傳統(tǒng)的 Vanilla Think 模式,Adaptive Think 在 AIME2025 上將 Token 使用量減少了 68.25%,而準確率還提高了 0.93%。這說明模型本身早早就「知道正確答案」,冗余的只是大量驗證性推理。



表 1:在兩個數(shù)學(xué)推理基準上的性能與效率對比

在知識、邏輯、常識等任務(wù)上,Adaptive Think 同樣表現(xiàn)優(yōu)異。在 MMLU-Pro、CommonsenseQA、ProntoQA、MuSR 等多個數(shù)據(jù)集上觀察到:QwQ-32B 的平均準確率提升 1.23%,平均 token 減少 42.52%。

在 CommonsenseQA 這種靠直覺的任務(wù)最顯著,DeepSeek-R1-32B 模型采用 Adaptive Think 后,準確率幾乎不變,但 Token 消耗減少了超過 80%。這表明對于依賴常識直覺的問題,Adaptive Think 能夠快速終止冗余推理,極大地提升效率



表 2:在知識、邏輯、常識推理基準上的性能與效率對比

這些實驗驗證了一個關(guān)鍵結(jié)論:大模型的長推理鏈并非必要,很多時候它們只需要「少想幾步」

什么時候應(yīng)該「多想」,

什么時候應(yīng)該「少想」?

研究團隊進一步分析不同任務(wù)的「推理需求」,例如:

  • 數(shù)學(xué)題(AIME2025)→ 需要更深的推理鏈
  • 常識題(CQA)→ 模型幾乎一開始就知道正確答案
  • 多步軟推理(MuSR)→ 有效推理集中在前半段



圖 5&6:Adaptive Think 輸出 token 數(shù)量與題目難度的關(guān)系(左);閾值 α 對準確率和 token 數(shù)量的影響,揭示了 推理性能與計算效率之間的權(quán)衡(右)。

這意味著:

真正成熟的推理大模型,不是輸出固定長度的推理,而是能夠「自動匹配任務(wù)難度」。

總結(jié)

這篇論文給我們帶來一個很重要的理念:AI 推理的未來不在「更長」,而在「更聰明」

未來的大模型應(yīng)該:1)在需要深度邏輯時能推理得足夠嚴謹;2)在只需直覺判斷時不浪費 token;3)能動態(tài)適應(yīng)任務(wù)難度;4)在推理過程中實時自我評估,隨時剎車。

這項工作既解釋了「為什么模型會過度推理」,也告訴我們「如何簡單有效地解決」。

如果說強化學(xué)習(xí)讓模型學(xué)會了「怎么想」,那么 Adaptive Think 讓模型學(xué)會了 「想多久」。

這是推理大模型走向成熟的關(guān)鍵一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
火箭3人入選!美媒更新25歲以下25大新星:申京4阿門14謝潑德無緣

火箭3人入選!美媒更新25歲以下25大新星:申京4阿門14謝潑德無緣

鍋子籃球
2025-12-21 10:39:30
伊薩克進球 利物浦客場2-1險勝九人熱刺

伊薩克進球 利物浦客場2-1險勝九人熱刺

環(huán)球體壇啄木鳥
2025-12-21 11:29:20
突然拉升!加密貨幣超6萬人爆倉,發(fā)生了什么?

突然拉升!加密貨幣超6萬人爆倉,發(fā)生了什么?

每日經(jīng)濟新聞
2025-12-21 09:15:15
西甲第17輪姆巴佩點射進球 皇馬2-0擊敗塞維利亞 姆巴佩打進411球

西甲第17輪姆巴佩點射進球 皇馬2-0擊敗塞維利亞 姆巴佩打進411球

環(huán)球體壇啄木鳥
2025-12-21 11:25:53
火箭大勝掘金!烏度卡火線變陣:8人輪換出爐,31歲高塔遭雪藏

火箭大勝掘金!烏度卡火線變陣:8人輪換出爐,31歲高塔遭雪藏

熊哥愛籃球
2025-12-21 12:11:59
西方媒體:哪怕中國全力以赴,也不可能按時建成這樣龐大的工程

西方媒體:哪怕中國全力以赴,也不可能按時建成這樣龐大的工程

樂天閑聊
2025-12-20 10:59:49
王炸開局!新機官宣:1月1日,正式發(fā)售上市!

王炸開局!新機官宣:1月1日,正式發(fā)售上市!

科技堡壘
2025-12-21 11:33:39
房子貶值后才想通:那幾百萬不是憑空消失了,是被偷走了...

房子貶值后才想通:那幾百萬不是憑空消失了,是被偷走了...

深度報
2025-12-19 23:14:12
申花中衛(wèi)離隊!原以為會被中超俱樂部搶著要,結(jié)果只收到中甲邀約

申花中衛(wèi)離隊!原以為會被中超俱樂部搶著要,結(jié)果只收到中甲邀約

振剛說足球
2025-12-21 10:31:32
南陽兩地發(fā)布關(guān)于禁售禁放煙花爆竹的通告

南陽兩地發(fā)布關(guān)于禁售禁放煙花爆竹的通告

大象新聞
2025-12-21 09:53:02
花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過半年或有6好處

花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過半年或有6好處

蜉蝣說
2025-11-20 14:40:39
血戰(zhàn)石城:那場動搖大明江山的土達叛亂

血戰(zhàn)石城:那場動搖大明江山的土達叛亂

無心鏡
2025-12-20 08:06:47
林峯撞臉西安兵馬俑事件,回應(yīng)直言有點嚇到

林峯撞臉西安兵馬俑事件,回應(yīng)直言有點嚇到

TVB的四小花
2025-12-21 04:50:34
26歲女子顏值秒殺女明星,男子相中才知東莞工作,要求男方月薪1.5w

26歲女子顏值秒殺女明星,男子相中才知東莞工作,要求男方月薪1.5w

趣筆談
2025-12-16 22:57:31
5天榜首3次易主!孫穎莎重回體壇第一,王楚欽落后樊振東1029萬票

5天榜首3次易主!孫穎莎重回體壇第一,王楚欽落后樊振東1029萬票

侃球熊弟
2025-12-21 11:27:46
我?guī)褪组L擋下了兩槍后,負傷退伍,在我交出軍官證時女文員卻鎖上門

我?guī)褪组L擋下了兩槍后,負傷退伍,在我交出軍官證時女文員卻鎖上門

如煙若夢
2025-12-16 16:32:17
英超第17輪結(jié)束了8場比賽,最新積分榜如下!

英超第17輪結(jié)束了8場比賽,最新積分榜如下!

薇說體育
2025-12-21 11:33:41
張學(xué)良三個兒子瘋的瘋,死的死,都以為張家就要絕后,結(jié)局如何?

張學(xué)良三個兒子瘋的瘋,死的死,都以為張家就要絕后,結(jié)局如何?

古書記史
2025-12-12 11:32:56
事實證明!放棄回國嫁給撒貝寧的李白,做出了人生中最正確的決定

事實證明!放棄回國嫁給撒貝寧的李白,做出了人生中最正確的決定

可樂談情感
2025-12-21 09:12:21
3100萬稀土訂單談妥了,蒙古想要空運直達美?中方:上天也運不走

3100萬稀土訂單談妥了,蒙古想要空運直達美?中方:上天也運不走

愛吃醋的貓咪
2025-12-20 20:58:15
2025-12-21 12:24:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個應(yīng)用

頭條要聞

山西宣布廢除煙花爆竹"禁放令" 網(wǎng)友:年味回來了

頭條要聞

山西宣布廢除煙花爆竹"禁放令" 網(wǎng)友:年味回來了

體育要聞

送快船西部墊底!鵜鶘大勝步行者獲4連勝

娛樂要聞

鹿晗關(guān)曉彤戀愛期間毫不避諱?

財經(jīng)要聞

百年老店陷貼牌爭議 同仁堂必須作出取舍

汽車要聞

-30℃,標致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

時尚
數(shù)碼
藝術(shù)
健康
教育

中年女人,冬天這么穿羽絨服、大衣,優(yōu)雅都藏在這3個細節(jié)里

數(shù)碼要聞

三年耐用性測試揭示:OLED電視可靠性明顯高于LCD

藝術(shù)要聞

懸崖頂上藏了只“天眼”?廣西這個村,看一眼就忘不掉!

這些新療法,讓化療不再那么痛苦

教育要聞

從“招生困難”到“火爆教育圈”,范家小學(xué)做對了什么?

無障礙瀏覽 進入關(guān)懷版 国产亚洲精品精华液| 天天干人人摸| 爆乳熟妇一区二区三区霸乳视频| 丰满少妇被猛烈进入无码视频| 免费观看18禁无遮挡真人网站| 国产亚洲经典视频| 国产农村妇女精品一二区| 人人爽人人瓜在线观看免费| 久久99国产综合精品尤物| gg14.com在线视频观看| 国产肉体xxxx裸体137大胆| 精品熟妇视频一区二区三区| 久一久热免费视频| 人妻解禁av网| 欧美综合天天夜夜久久| 亚洲va中文字幕无码毛片| 超级精品碰碰视频| 后入大屁股日韩| 色欲av一区二区三| 亚洲都市日本激情小说| 国内偷窥一区二区三区视频| 久久国产劲爆∧v内射-百度| 午夜成人精品不卡影院| 对白脏话肉麻粗话av| 日本做受高潮好舒服视频| 在线观看国产小视频| 老女逼碰论一区| 色综合一本到久久亚洲91| 欧美黄片一区二区三区 | 欧美尤物国产精品激情在线| 多个黑人残虐女人性器| 谁有毛片网站| 东京热人妻丝袜无码AV一二三区观| 亚洲成人AV一区| 久久亚洲小电影一区二区| 玩弄寡妇丰满肉体视频| 人妻无码中文字幕第一区| 色888久久久综合影院| 国产精品久久久久久人妻无| 18禁无遮挡羞羞污污污污网站| 美女少妇毛茸茸系列|