夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

推理時擾動高熵詞,增強LLM性能

0
分享至



本文第一作者楊震,香港科技大學(廣州)博士生,研究方向是多模態(tài)理解與生成等。本文通訊作者陳穎聰,香港科技大學(廣州)助理教授,主要研究課題包括生成模型、具身智能等。

隨著對大語言模型的研究越來越深入,關于測試時間擴展 (test-time scaling) 的相關研究正迅速嶄露頭角。研究團隊重新審視測試時行為,發(fā)現了一個簡單但尚未得到充分探索的現象:LLM 推理時的不確定性高度局部化 —— 一小部分高熵詞會顯著影響輸出的正確性。



正是基于這一關鍵觀察,來自香港科技大學(廣州)的研究團隊提出了 Minimal Test-Time Intervention (MTI),其主要包含了 Selective CFG intervention 與 Lightweight negative-prompt guidance 兩種方法。MTI 能夠在推理階段無需額外訓練,就提升大型語言模型的推理能力。



  • 論文標題:Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
  • 論文地址:https://arxiv.org/abs/2510.13940
  • Github(代碼已開源):https://github.com/EnVision-Research/MTI
  • Huggingface Paper:https://huggingface.co/papers/2510.13940



Selective CFG intervention:

減弱高熵詞的不確定性


LLM 在多步推理中經常表現出鏈式不穩(wěn)定性:幾個步驟中的不確定性會放大并導致整個答案偏離軌道。為了找到這種不穩(wěn)定性的原因,研究團隊分析了 LLM 回答錯誤的問題,并發(fā)現錯誤回答的熵更高,而這主要是由回答中的高熵詞導致的。為此,研究團隊提出在高熵詞上使用 Classifier-free Guidance (CFG) 以在降低不確定性的同時穩(wěn)定推理過程,并能在保持高效率的同時提高性能。

Lightweight negative-prompt guidance:

復用 KV cache 并注入負向詞,節(jié)省顯存分配的同時維護更優(yōu)的無條件空間


研究團隊觀察到,盡管 Selective CFG intervention 僅對高熵詞進行操作,但是仍需為無條件預測支路分配一個新的 KV 緩存,這大大降低了現代 LLM 推理加速器的效率。比如,維護雙 KV 緩存會削弱諸如 vllm 等框架的長上下文處理能力。此外,CFG 源自計算機視覺,其會在訓練過程中引入無條件標簽來學習全局數據分布。相比之下,LLM 中的 CFG 并未訓練建模全局文本分布的能力。因此,研究團隊認為無條件分支應該被視為一個負向提示通道:條件分支專注于生成正確的詞,而無條件分支則被鼓勵生成錯誤的詞。為此,研究團隊重用了條件分支的 KV 緩存,并附加了一條用于引出錯誤詞的短指令,最終實現了在維護更優(yōu)無條件空間的同時節(jié)省了 KV 緩存分配。此外,注入的短語非常靈活,比如研究團隊發(fā)現 “OUTPUT ERROR” 就已經產生了優(yōu)良的效果。

實驗結果


研究團隊在多個任務上進行了測試,其中包括通用任務(Winogrande,MMLU-Pro),代碼任務(Humaneval,Humaneval_plus,LiveCodeBench),數學與科學任務(GPQA-Diamond,MATH500)上進行了系統測試。結果顯示僅在很少的高熵詞上使用 MTI,就能在多個數據集上穩(wěn)定帶來性能提升,驗證了方法的有效性。比如在 Qwen3-14B-Reasoning 上,僅對 3.5% 的詞執(zhí)行 MTI,可以為所有任務平均提點 1.58。



從 AIME2024 的實驗中也發(fā)現,MTI 方法具備顯著的優(yōu)勢。比如在 Qwen3-8B-Reasoning 模型中,僅需對 1.9% 的詞執(zhí)行 CFG,就可以為準確性帶來 4.9% 的增長,證明了 MTI 在維護高效率的同時,也改進了性能。



分析實驗



研究團隊發(fā)現,一些低熵詞很難被 CFG 所改變,這是由于 LLM 在低熵詞上對自己的輸出非常確信,所以很難被 CFG 改變,而這些失敗的 CFG 操作便降低了效率。CFG 所能改變的預測主要集中在高熵詞部分,這是由于模型對自己的預測并不自信,因此 CFG 可以修正它。這些發(fā)現也從側面反映并非所有的詞都需要使用 CFG。



研究團隊發(fā)現對于基礎模型,詞云中的一些低信息量占位符(例如 **)被語義上更有意義的詞語所取代,從而創(chuàng)造了更豐富的推理分支,并最終提高了準確率。對于推理模型,研究團隊觀察到從單一連接詞(例如 so)向更多樣化的連接詞(例如 however、if、perhaps、alternatively、wait)的轉變。這有助于模型摒棄錯誤的先驗推理鏈,并開啟新的思路,最終得出正確的推理??傮w而言,應用該方法可以產生更加多樣化和平衡的詞匯,擴展更多的假設和推理軌跡,最終獲得更好的結果。

總結


總的來看,這項工作揭示了 LLM 在推理階段的一少部分高熵詞會顯著影響輸出正確性,并提出了 Minimal Test-Time Intervention (MTI),其中包含 Selective CFG intervention 和 Lightweight negative-prompt guidance。該方法無需訓練并即插即用,易于與現代加速框架和各種解碼策略或測試時擴展方法進行結合。該方法利用對推理階段高熵詞的擾動,不僅顯著提升了模型在大量任務上的表現,也為未來挖掘 LLM 推理階段的潛力提供了全新的思路。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
沒有這種食物,你的肌肉將消失!醫(yī)生:53歲后恢復肌力的7種食物

沒有這種食物,你的肌肉將消失!醫(yī)生:53歲后恢復肌力的7種食物

小舟談歷史
2025-10-09 11:28:59
水洗貂皮退貨后續(xù)!商家曝全過程,顧客買的特價貂,第7天無理由

水洗貂皮退貨后續(xù)!商家曝全過程,顧客買的特價貂,第7天無理由

奇思妙想草葉君
2025-11-05 23:48:44
天啊!嚴重車禍致雙小腿截肢!2米29的NBA巨人,癱瘓了!

天??!嚴重車禍致雙小腿截肢!2米29的NBA巨人,癱瘓了!

野球帝
2025-11-06 11:17:31
與小米分道揚鑣后,美的董事長方洪波言論刷屏,十幾萬字研究小米

與小米分道揚鑣后,美的董事長方洪波言論刷屏,十幾萬字研究小米

說故事的阿襲
2025-11-07 01:28:49
湖南醫(yī)生17分鐘“桃色”事件:他們醫(yī)術高超,造?;颊吒鼞魂P注

湖南醫(yī)生17分鐘“桃色”事件:他們醫(yī)術高超,造?;颊吒鼞魂P注

漢史趣聞
2025-11-06 09:32:22
商務部:中國政府高度重視、積極推進加入CPTPP相關工作

商務部:中國政府高度重視、積極推進加入CPTPP相關工作

界面新聞
2025-11-06 15:54:38
為什么說愛因斯坦,在科學綜合能力方面,是遠不如大神牛頓的?

為什么說愛因斯坦,在科學綜合能力方面,是遠不如大神牛頓的?

林子說事
2025-10-28 00:16:18
浙江女子全款買下1800萬二手精裝房,現在因為這個,搬家計劃要泡湯?

浙江女子全款買下1800萬二手精裝房,現在因為這個,搬家計劃要泡湯?

極目新聞
2025-11-06 11:37:33
所以,江浙滬也沒錢了嗎?

所以,江浙滬也沒錢了嗎?

老白讀書
2025-11-06 12:10:39
“華人圈最紅女優(yōu)”被全網“開盒”蕩婦羞辱,她卻用惡評賺6000萬

“華人圈最紅女優(yōu)”被全網“開盒”蕩婦羞辱,她卻用惡評賺6000萬

詩意世界
2025-11-07 10:23:31
終于見到莎莎了,在香港轉機,跟哥是一前一后,兩人這距離好安心

終于見到莎莎了,在香港轉機,跟哥是一前一后,兩人這距離好安心

黃小仙的搞笑視頻
2025-10-11 10:40:27
風云突變!鄭麗文“重拳”落下,盧秀燕緊急發(fā)聲,吳敦義、王鴻薇又有何動作?

風云突變!鄭麗文“重拳”落下,盧秀燕緊急發(fā)聲,吳敦義、王鴻薇又有何動作?

娛樂督察中
2025-11-07 05:55:24
今日立冬,上海未來三天陰雨連綿

今日立冬,上海未來三天陰雨連綿

魯中晨報
2025-11-07 07:11:02
汪小菲回京零預熱!重慶行程藏滿秘密,馬筱梅直播僅兩千人!

汪小菲回京零預熱!重慶行程藏滿秘密,馬筱梅直播僅兩千人!

鄭丁嘉話
2025-11-07 11:06:05
美軍在南海出事后,發(fā)現了一個驚人事實:解放軍從頭到尾全程目睹

美軍在南海出事后,發(fā)現了一個驚人事實:解放軍從頭到尾全程目睹

云上烏托邦
2025-11-06 10:41:38
一場3-0!讓邵佳一吃下定心丸,找到國足建隊核心+王鈺棟最佳搭檔

一場3-0!讓邵佳一吃下定心丸,找到國足建隊核心+王鈺棟最佳搭檔

球場新視角1號
2025-11-07 09:06:42
殘忍的基因選擇:父母如果有這7種疾病,后代的基因大概率會復制

殘忍的基因選擇:父母如果有這7種疾病,后代的基因大概率會復制

男女那點事兒兒
2025-11-06 13:05:34
西部倒一!弗拉格練級失敗,獨行俠該如何調整?

西部倒一!弗拉格練級失敗,獨行俠該如何調整?

籃球實錄
2025-11-06 13:42:05
害死吳石的谷正文,晚年性情大變?1990年他揚言:殺李登輝很容易

害死吳石的谷正文,晚年性情大變?1990年他揚言:殺李登輝很容易

文史達觀
2025-11-05 17:36:09
U17世界杯:日本晉級,東亞三強贏球,國足苦手0分,西亞集體低迷

U17世界杯:日本晉級,東亞三強贏球,國足苦手0分,西亞集體低迷

湖北的老球迷
2025-11-07 10:54:10
2025-11-07 11:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11666文章數 142499關注度
往期回顧 全部

科技要聞

75%贊成!特斯拉股東同意馬斯克天價薪酬

頭條要聞

美國試射洲際彈道導彈后 俄方幾乎整個領導層齊聚克宮

頭條要聞

美國試射洲際彈道導彈后 俄方幾乎整個領導層齊聚克宮

體育要聞

是天才更是強者,18歲的全紅嬋邁過三道坎

娛樂要聞

白百何回應東京電影節(jié)爭議

財經要聞

老登們的社交貨幣全崩了

汽車要聞

小鵬X9增程版綜合續(xù)航1606公里 有底氣挑戰(zhàn)賽那?

態(tài)度原創(chuàng)

時尚
數碼
房產
藝術
公開課

美拉德失寵了?今年冬天最流行的3個顏色,誰穿誰好看!

數碼要聞

注意!超值又靠譜的千元級板U套裝就看這些

房產要聞

錨定居住新趨勢!廣佛新世界重構灣區(qū)“理想生活投資學”

藝術要聞

砸30億!酷狗給音樂蓋了座“聲波大樓”,正在穿玻璃外衣!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 91精品久久久久久久无码| 在线网址你懂的| 国产乱子伦精品免费女| 成人女子久久久| 丰满无码人妻热妇无码区| 国产嗯xxx| 亚洲色无码专线精品观看| 国自产拍精品偷拍农村妇女| 无码av免费永久免费永久专区| 黑人刚破完处就三p| 国产三级韩国三级日产三级| 老熟女搡小伙子HD另类| 激情欧美一区二区三区黑长吊| 亚洲有码人妻| 18禁勿入免费网站入口不卡| 忘忧草视频在线观看免费| 老熟女视频一区二区三区| 赤裸人妻撅起肥白大屁股 | 色婷婷色聚聚色婷婷| 国产精品中文字幕综合| а天堂中文官网| 亚洲国产精品久久久久4婷婷| 国产影片中文字幕| 国产精品一线二线三线区| 人妻少妇精品中文字幕专区视频| 亚洲精品国产精品国产自2022| 亚洲中文字幕无码永久| 亚洲久悠悠色悠在线播放| 日本一区二区三区四| 好吊av强力打造| 蜜臀av一区二区国产在线 | 亚洲熟好一区二区三区| 少妇喷水又粗又长| 50岁国产熟女狂高潮无套| 农村亲妺妺性视频| 蜜芽亚洲一区| 另类极品国产一区二区| 国产成+人+综合+亚洲 欧美| 丁香啪啪六月天| 免费无遮挡在线观看网站| 国产妞干网妞干网妞干网|