夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

人大&騰訊團(tuán)隊(duì)用信息論揭示:什么時(shí)候該想、什么時(shí)候別想

0
分享至



本文的第一作者雍希賢是來中國人民大學(xué)的博士生,研究方向聚焦于 Humanoid AI,LLM Coginition & Reasoning。通訊作者為中國人民大學(xué)的周驍副教授以及騰訊天衍實(shí)驗(yàn)室的吳賢。

當(dāng)前,大模型的「推理能力」幾乎成為行業(yè)最熱詞。o1、R1、QwQ 類強(qiáng)化學(xué)習(xí)(RL)推理模型,讓模型會(huì)「想」、會(huì)解析復(fù)雜問題,甚至能像人一樣寫長長的推理過程(Chain-of-Thought,CoT),在數(shù)學(xué)、邏輯與常識(shí)等領(lǐng)域任務(wù)中展現(xiàn)出強(qiáng)大的多步推理能力。

看上去很強(qiáng),但問題也隨之出現(xiàn):

  • 這些模型真的需要思考那么久嗎?
  • 長推理鏈條,是幫助模型正確,還是讓它越繞越遠(yuǎn)?

如果你用過這些模型,就會(huì)感受到:

很多題模型似乎「一眼就能猜中八成」,但它還是堅(jiān)持把推理寫到幾百、幾千 token,有時(shí)甚至越寫越亂、越想越錯(cuò)。

來自中國人民大學(xué)、騰訊 Jarvis Lab、西湖大學(xué)的研究團(tuán)隊(duì),看到了這背后的核心:

當(dāng)前大模型的「推理機(jī)制」其實(shí)非常低效,甚至常常在自我制造噪聲。

于是研究團(tuán)隊(duì)從另一個(gè)視角切入 ——信息論

通過「熵(entropy)」與「互信息(mutual information)」等底層信息指標(biāo),重新衡量模型思考的價(jià)值。

最終,他們提出了一個(gè)極其實(shí)用的機(jī)制:Adaptive Think——讓模型在「自信夠了」時(shí)自動(dòng)停止推理

不用訓(xùn)練,用現(xiàn)有模型就能直接部署。

這項(xiàng)工作已被 NeurIPS 2025 選為 Spotlight。



  • 論文標(biāo)題: Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens
  • 論文鏈接:https://arxiv.org/abs/2505.18237
  • 代碼地址:https://github.com/chicosirius/think-or-not

首先,研究團(tuán)隊(duì)借鑒了香農(nóng)提出的通信三層模型,從技術(shù)、語義和實(shí)踐三個(gè)維度觀察大模型「過度思考」的本質(zhì)。



圖 1:基于 Shannon & Weaver 通信模型,研究發(fā)現(xiàn)推理過長不僅信息增益逐漸減弱,還可能帶來偏差并降低最終準(zhǔn)確率。

  • 在技術(shù)層面(Technical Level),長推理鏈就像在一個(gè)噪聲信道里不斷添加冗余比特。適度的冗余可以增強(qiáng)魯棒性,但一旦超過模型的「推理容量」,額外的推理反而可能會(huì)帶來錯(cuò)誤的積累和偏差。
  • 在語義層面(Semantic Level),每一步推理應(yīng)該減少答案的不確定性。但結(jié)果顯示,隨著推理鏈延長,單步推理帶來的信息增益迅速遞減,冗余步驟更多地在制造噪聲,而不是幫助模型更接近正確答案。
  • 在實(shí)踐層面(Pragmatic Level),更長的推理鏈并不一定帶來更好的結(jié)果。跨多個(gè)任務(wù)和模型,推理長度的增加常常導(dǎo)致邊際收益下降,甚至出現(xiàn)「思考越久、答得越差」的情況。同時(shí),冗長的推理鏈帶來更多 token 消耗、更高延遲和更大算力開銷,使得長推理在實(shí)際應(yīng)用中既昂貴又不可靠。

模型推理為什么會(huì)「越想越偏」?

為了進(jìn)一步量化模型「思考效率」,研究團(tuán)隊(duì)從兩個(gè)層面構(gòu)建了一個(gè)系統(tǒng)評(píng)價(jià)框架。

1. 全局視角:InfoBias(信息偏差)

將模型的推理鏈與理想推理路徑比對,使用互信息估計(jì)偏差:

偏差越大,說明模型「越想越偏」。

在 GSM8K 數(shù)據(jù)集上的實(shí)驗(yàn)清晰地展示了這一規(guī)律:錯(cuò)誤答案往往伴隨更長的推理鏈和更高的 InfoBias。越是錯(cuò)誤的答案,模型往往輸出更多的 token。



圖 2:在 GSM8K 數(shù)據(jù)集上,不同模型的平均推理長度與歸一化后的每個(gè) token 信息偏差關(guān)系。

2. 局部視角:InfoGain(信息增益)

定義每個(gè)推理步驟降低答案空間熵的量:



如果某一步?jīng)]降低不確定性,說明它提供的不是「有效推理」,而是「填充字?jǐn)?shù)」。

實(shí)驗(yàn)分析表明,模型在推理過程中表現(xiàn)出逐步降低不確定性和提高對正確答案的信心的趨勢,即有效推理可以逐步過濾不確定性并增強(qiáng)預(yù)測。

即使在推理開始前,模型在知識(shí)密集型任務(wù)上也顯示出初始直覺偏向正確答案,而不同任務(wù)的推理動(dòng)態(tài)存在差異



圖 3:QwQ-32B 在不同推理基準(zhǔn)下的不確定性動(dòng)態(tài)

Adaptive Think

讓模型「有必要才深思,無必要就直答」

在發(fā)現(xiàn)過度思考可能降低推理效率后,研究團(tuán)隊(duì)提出了Adaptive Think策略。其核心理念是通過熵來衡量模型在推理過程中的不確定性,并在模型達(dá)到足夠置信度時(shí)主動(dòng)終止推理。

讓模型進(jìn)行「自我監(jiān)控式推理」

在這一框架下,每完成一步推理,模型都會(huì)計(jì)算答案分布的平均熵。當(dāng)熵低于預(yù)設(shè)閾值 α 時(shí),表明模型已經(jīng)具備較高的自信,此時(shí)即可停止推理并輸出答案。該機(jī)制使模型能夠根據(jù)任務(wù)難度靈活調(diào)整思考深度:

  • 對于簡單的常識(shí)類問題,僅需少量推理步驟即可得到答案,從而節(jié)省計(jì)算資源;
  • 對于復(fù)雜的數(shù)學(xué)或邏輯問題,則會(huì)繼續(xù)深入推理,直至置信度達(dá)到足夠高的水平才終止。



圖 4:四種思考方式的示意圖

該策略體現(xiàn)了模型對自身信心的動(dòng)態(tài)感知能力,使其能夠在不同任務(wù)類型間自適應(yīng)調(diào)整推理深度,從而兼顧速度與可靠性。

實(shí)驗(yàn)結(jié)果

更準(zhǔn)、更省、更快

最后,研究團(tuán)隊(duì)在 8 個(gè)大模型(包括 5 個(gè)非推理和 3 個(gè)推理模型)、6 個(gè)不同推理類型的 benchmark 上進(jìn)行了完整評(píng)估。

在數(shù)學(xué)任務(wù) GSM8K 與 AIME2025 上,Adaptive Think 在保持準(zhǔn)確率的同時(shí),將平均 Token 消耗減少了一半以上(40.01%-68.25)。例如,在 QwQ-32B 模型上,相比傳統(tǒng)的 Vanilla Think 模式,Adaptive Think 在 AIME2025 上將 Token 使用量減少了 68.25%,而準(zhǔn)確率還提高了 0.93%。這說明模型本身早早就「知道正確答案」,冗余的只是大量驗(yàn)證性推理。



表 1:在兩個(gè)數(shù)學(xué)推理基準(zhǔn)上的性能與效率對比

在知識(shí)、邏輯、常識(shí)等任務(wù)上,Adaptive Think 同樣表現(xiàn)優(yōu)異。在 MMLU-Pro、CommonsenseQA、ProntoQA、MuSR 等多個(gè)數(shù)據(jù)集上觀察到:QwQ-32B 的平均準(zhǔn)確率提升 1.23%,平均 token 減少 42.52%。

在 CommonsenseQA 這種靠直覺的任務(wù)最顯著,DeepSeek-R1-32B 模型采用 Adaptive Think 后,準(zhǔn)確率幾乎不變,但 Token 消耗減少了超過 80%。這表明對于依賴常識(shí)直覺的問題,Adaptive Think 能夠快速終止冗余推理,極大地提升效率



表 2:在知識(shí)、邏輯、常識(shí)推理基準(zhǔn)上的性能與效率對比

這些實(shí)驗(yàn)驗(yàn)證了一個(gè)關(guān)鍵結(jié)論:大模型的長推理鏈并非必要,很多時(shí)候它們只需要「少想幾步」

什么時(shí)候應(yīng)該「多想」,

什么時(shí)候應(yīng)該「少想」?

研究團(tuán)隊(duì)進(jìn)一步分析不同任務(wù)的「推理需求」,例如:

  • 數(shù)學(xué)題(AIME2025)→ 需要更深的推理鏈
  • 常識(shí)題(CQA)→ 模型幾乎一開始就知道正確答案
  • 多步軟推理(MuSR)→ 有效推理集中在前半段



圖 5&6:Adaptive Think 輸出 token 數(shù)量與題目難度的關(guān)系(左);閾值 α 對準(zhǔn)確率和 token 數(shù)量的影響,揭示了 推理性能與計(jì)算效率之間的權(quán)衡(右)。

這意味著:

真正成熟的推理大模型,不是輸出固定長度的推理,而是能夠「自動(dòng)匹配任務(wù)難度」。

總結(jié)

這篇論文給我們帶來一個(gè)很重要的理念:AI 推理的未來不在「更長」,而在「更聰明」

未來的大模型應(yīng)該:1)在需要深度邏輯時(shí)能推理得足夠嚴(yán)謹(jǐn);2)在只需直覺判斷時(shí)不浪費(fèi) token;3)能動(dòng)態(tài)適應(yīng)任務(wù)難度;4)在推理過程中實(shí)時(shí)自我評(píng)估,隨時(shí)剎車。

這項(xiàng)工作既解釋了「為什么模型會(huì)過度推理」,也告訴我們「如何簡單有效地解決」。

如果說強(qiáng)化學(xué)習(xí)讓模型學(xué)會(huì)了「怎么想」,那么 Adaptive Think 讓模型學(xué)會(huì)了 「想多久」。

這是推理大模型走向成熟的關(guān)鍵一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
剪發(fā)、玩手機(jī)、拒交流!小玥兒這波“無聲反抗”,狠狠打誰的臉?

剪發(fā)、玩手機(jī)、拒交流!小玥兒這波“無聲反抗”,狠狠打誰的臉?

阿廢冷眼觀察所
2025-12-29 03:51:04
蔣萬安25年婚姻太好嗑!啦啦隊(duì)結(jié)緣,三胎全是兒子還想追女兒

蔣萬安25年婚姻太好嗑!啦啦隊(duì)結(jié)緣,三胎全是兒子還想追女兒

陳意小可愛
2025-12-29 12:36:21
日本右翼終于閉嘴了!解放軍給美軍前所未有的待遇,把高市看懵了

日本右翼終于閉嘴了!解放軍給美軍前所未有的待遇,把高市看懵了

你的雷達(dá)站
2025-12-31 07:59:19
抖音豆包拿下春晚,張一鳴贏麻了

抖音豆包拿下春晚,張一鳴贏麻了

電商派Pro
2025-12-24 10:15:55
新一代奧迪A6L現(xiàn)身街頭,大過奔馳E級(jí),全新3.0T V6動(dòng)力+367馬力

新一代奧迪A6L現(xiàn)身街頭,大過奔馳E級(jí),全新3.0T V6動(dòng)力+367馬力

燕趙女司機(jī)
2025-12-30 11:41:39
林強(qiáng)涉案989億被抓!生活奢華超過中東富豪,超5萬百姓血本無歸

林強(qiáng)涉案989億被抓!生活奢華超過中東富豪,超5萬百姓血本無歸

千言娛樂記
2025-12-27 20:07:06
國乒教練競聘,出局第1人或鎖定,44歲,業(yè)績不達(dá)標(biāo),樊振東好友

國乒教練競聘,出局第1人或鎖定,44歲,業(yè)績不達(dá)標(biāo),樊振東好友

樂聊球
2025-12-30 10:13:11
美首次對委境內(nèi)發(fā)動(dòng)軍事打擊!特朗普:他們給船只裝載毒品的碼頭區(qū)不復(fù)存在了

美首次對委境內(nèi)發(fā)動(dòng)軍事打擊!特朗普:他們給船只裝載毒品的碼頭區(qū)不復(fù)存在了

紅星新聞
2025-12-30 15:00:20
今夜在風(fēng)雨中跨年

今夜在風(fēng)雨中跨年

脊梁in上海
2025-12-31 08:20:06
緊急!中國“史上最嚴(yán)格”跨境匯款新規(guī)2天內(nèi)生效!要換抓緊!單筆超5000元就要查

緊急!中國“史上最嚴(yán)格”跨境匯款新規(guī)2天內(nèi)生效!要換抓緊!單筆超5000元就要查

澳洲紅領(lǐng)巾
2025-12-30 13:31:21
羅杰斯:阿森納實(shí)在太高效了,首開記錄后勢頭完全倒向他們

羅杰斯:阿森納實(shí)在太高效了,首開記錄后勢頭完全倒向他們

懂球帝
2025-12-31 07:31:38
羅體:憑借近兩個(gè)月的優(yōu)秀表現(xiàn),澤林斯基已成為國米的非賣品

羅體:憑借近兩個(gè)月的優(yōu)秀表現(xiàn),澤林斯基已成為國米的非賣品

懂球帝
2025-12-30 22:05:21
媒體:請立即停止你的“自我牛馬化”,要在勞動(dòng)本身中尋找意義

媒體:請立即停止你的“自我牛馬化”,要在勞動(dòng)本身中尋找意義

映射生活的身影
2025-12-30 23:33:37
難以置信!網(wǎng)傳河北某行食堂被叫停,網(wǎng)友哭訴效益不好,沒有錢了

難以置信!網(wǎng)傳河北某行食堂被叫停,網(wǎng)友哭訴效益不好,沒有錢了

火山詩話
2025-12-30 19:38:00
外媒:向朝鮮運(yùn)輸潛艇核反應(yīng)堆的俄羅斯貨船被擊沉!

外媒:向朝鮮運(yùn)輸潛艇核反應(yīng)堆的俄羅斯貨船被擊沉!

劍道萬古似長夜
2025-12-29 14:29:57
這個(gè)印度小伙,因?yàn)殚L得像中國人,被活活打死

這個(gè)印度小伙,因?yàn)殚L得像中國人,被活活打死

娛樂帝皇丸
2025-12-31 03:38:55
現(xiàn)貨白銀跌破75美元

現(xiàn)貨白銀跌破75美元

每日經(jīng)濟(jì)新聞
2025-12-31 07:39:05
降費(fèi)潮來了!物業(yè),躺著賺錢的日子徹底到頭了

降費(fèi)潮來了!物業(yè),躺著賺錢的日子徹底到頭了

鳳凰網(wǎng)財(cái)經(jīng)
2025-12-29 21:38:09
暴雷!2.7億年薪打工皇帝,恒大“二號(hào)人物”夏海鈞被最后通牒!

暴雷!2.7億年薪打工皇帝,恒大“二號(hào)人物”夏海鈞被最后通牒!

歷史偉人錄
2025-12-16 11:21:40
【數(shù)讀IPO】今日2只新股上市,涉及光通信概念股等

【數(shù)讀IPO】今日2只新股上市,涉及光通信概念股等

新浪財(cái)經(jīng)
2025-12-31 07:32:22
2025-12-31 08:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12022文章數(shù) 142523關(guān)注度
往期回顧 全部

科技要聞

估值150億的智元,開始批量"制造"小獨(dú)角獸

頭條要聞

70后飛行員翻臉將22歲情人告上法庭 讓其歸還700多萬

頭條要聞

70后飛行員翻臉將22歲情人告上法庭 讓其歸還700多萬

體育要聞

聯(lián)盟第一人倒下了!掘金還有底牌嗎?

娛樂要聞

林俊杰女友被扒 父親涉經(jīng)濟(jì)案卷款13億?

財(cái)經(jīng)要聞

朱光耀:美關(guān)稅政策正使WTO名存實(shí)亡

汽車要聞

標(biāo)配華為乾崑ADS 4 Pro 華境S明年上半年上市

態(tài)度原創(chuàng)

數(shù)碼
教育
藝術(shù)
房產(chǎn)
公開課

數(shù)碼要聞

蘋果的供應(yīng)鏈護(hù)城河:為何在內(nèi)存漲價(jià)潮中,它比對手更從容?

教育要聞

義務(wù)教育優(yōu)質(zhì)均衡,究竟要“優(yōu)”什么?“均”什么?

藝術(shù)要聞

毛主席書法手稿揭示:古帖與現(xiàn)代字帖該如何選擇?

房產(chǎn)要聞

瘋了!2025海南拿地榜巨變:榜首狂砸80億,民企火力全開!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 一区二区三区精密机械| 夜夜精品无码一区二区三区| 亚洲午夜中文字幕| 日韩亚av无码一区二区三区 | 国内永久福利在线视频| 国内精品久久久久影院老司机| 久久中文精品无码中文字幕| 天天躁日日躁狠狠躁性色AⅤ视频| 99久热这里只有精品免费 | 国产熟女一区二区三区五| 国产老熟妇精品观看| 人伦片无码中文字| 国产欧美另类久久精品蜜芽| 亚洲精品偷情45P| 99在线精品国自产拍| 人体福利视频| 沈阳老熟女高潮45分钟| 好男人www免费高清视频在线观看| 菠萝菠萝蜜午夜视频在线播放观看| 好吊日妞干网| 操老熟女操老女人| 人人操人人看人人| 久久伊人亚洲精品| 国内精品久久人妻无| 国产极品粉嫩馒头一线天AV| 水蜜桃国产精品欧美日韩一区不卡| 中文字幕乱码人妻| 中文字幕5S在线观看| 久久久久夜色精品波多野结衣| 久久久Av网站| 亚洲乱码无码永久不卡在线| 日韩无码丝袜人妻视频| 991一区二区三区无人区免费伦理电影 | 国产精品无码高潮流白浆| AV无码观看在线| 四虎av永久在线精品免费观看| 国产1区在线观看| 99福利资源久久福利资源| 在线无码专区AV| 亚洲精品久久无码av片| 久久久久久中文字幕一区|