網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Meta AI 推理新論文：模型記住套路，推理 token 砍半

2025-10-16 16:59:20　來源: 人工智能學(xué)家

北京舉報(bào)

分享至

來源：大數(shù)據(jù)文摘出品

Meta 又一次在 AI 推理上“開了掛”。

一份新論文顯示，Meta 的研究團(tuán)隊(duì)找到一種讓大模型“用更少思維，想得更清楚”的辦法。

這篇論文名為《Metacognitive Reuse: Turning Recurring LLM Reasoning Into Concise Behaviors》，發(fā)表于 2025 年 9 月 17 日，來自 Meta 團(tuán)隊(duì)與普林斯頓大學(xué)、蒙特利爾大學(xué)聯(lián)合研究。

作者包括 Aniket Didolkar、Nicolas Ballas、Anirudh Goyal 與 Sanjeev Arora。

論文地址： https://arxiv.org/abs/2509.13237

論文提出一個(gè)新機(jī)制，讓大語言模型（LLM）能在每次推理后，總結(jié)自己重復(fù)用到的步驟，并把它們存為簡(jiǎn)短指令，稱為“行為（Behavior）”。

下一次遇到類似問題，模型不再重復(fù)推，而是直接調(diào)用這些“行為”。

效果驚人。

在數(shù)學(xué)推理任務(wù)上，Meta 團(tuán)隊(duì)實(shí)測(cè)：模型在準(zhǔn)確率不下降的前提下，推理所需的 token 數(shù)量最多減少 46%。

也就是說，同樣一道題，模型少想一半，卻答得一樣準(zhǔn)。

研究團(tuán)隊(duì)稱，這讓模型“學(xué)會(huì)記得自己怎么思考”，相當(dāng)于給 LLM 裝上了“思維緩存”。

思維有手冊(cè)：AI的“行為記憶術(shù)”

“行為復(fù)用”（Metacognitive Reuse）框架

Meta 把這個(gè)機(jī)制叫做“行為手冊(cè)（Behavior Handbook）”。

當(dāng)模型解決問題時(shí)，它會(huì)記錄下自己的整個(gè)推理過程。

然后再回頭反思，分析哪些步驟是常見套路，比如“容斥原理”“有理化分母”“代入后先化簡(jiǎn)”。

模型會(huì)為這些套路起名、寫說明，變成一條條“行為指令”。

這些指令被收進(jìn)一本不斷擴(kuò)充的手冊(cè)里。

論文把這種機(jī)制稱為“元認(rèn)知路徑（Metacognitive Pathway）”，意思是模型在“思考自己的思考”。

舉個(gè)例子：當(dāng)模型遇到一道擲骰子概率題，它可能調(diào)用behavior_total_outcomes（計(jì)算所有可能結(jié)果）和 behavior_inclusion_exclusion（用容斥原理避免重復(fù)計(jì)數(shù)）。

調(diào)用完就不再多說廢話，答案照出。

所以，每個(gè)行為是一段壓縮的思維過程。它把原本要幾十步才能重建的推導(dǎo)，濃縮成一句話。

論文展示了多個(gè)實(shí)驗(yàn)結(jié)果。在 MATH 數(shù)據(jù)集上，行為調(diào)節(jié)推理（Behavior-conditioned Inference）讓模型的推理token平均減少近一半；在 AIME–24/25 高難數(shù)學(xué)題上，模型在低預(yù)算（2048–8192 tokens）下仍保持穩(wěn)定精度。

自我復(fù)盤，像人一樣“省思考”

長(zhǎng)期以來，大模型被詬病“啰嗦”：每解一道題，都要展開冗長(zhǎng)的 chain-of-thought，把所有中間步驟重新鋪一遍。

這不僅浪費(fèi) token，也拉低了模型吞吐量。Meta 讓模型自己反思，自己提煉，自己精簡(jiǎn)。

行為提取提示設(shè)計(jì)

論文設(shè)計(jì)了三種模式：

第一種，是“行為調(diào)節(jié)推理”（Behavior-conditioned Inference）。模型從手冊(cè)里調(diào)出相關(guān)行為提示，帶著它們?nèi)ソ忸}。
結(jié)果：少寫46%的token，準(zhǔn)確率不降反升。

第二種，是“行為引導(dǎo)自我改進(jìn)”（Behavior-guided Self-improvement）。模型用自己總結(jié)的行為來指導(dǎo)下次推理。
結(jié)果：正確率比普通“自我批改”提升10%。

第三種，是“行為調(diào)節(jié)監(jiān)督微調(diào)”（Behavior-conditioned SFT）。Meta 研究者用帶有行為提示的推理數(shù)據(jù)去訓(xùn)練學(xué)生模型。
結(jié)果：學(xué)生模型學(xué)會(huì)推理，比傳統(tǒng)微調(diào)版本更聰明、更高效。

實(shí)驗(yàn)中，Meta 使用了 R1-Llama-70B 作為“元認(rèn)知策略師”，并測(cè)試了 Qwen3-32B、Llama-3.1-8B 等多個(gè)學(xué)生模型。

幾乎所有模型都出現(xiàn)了相同現(xiàn)象：推理token直線下滑，性能保持平穩(wěn)。

研究者把這一現(xiàn)象形容為：“模型從慢推導(dǎo)變成快反應(yīng)?！彼辉倜看味贾貙懰季S，而是像人一樣，學(xué)會(huì)了用經(jīng)驗(yàn)來省思考。

注：頭圖AI生成

閱讀最新前沿科技趨勢(shì)報(bào)告，請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫”

https://wx.zsxq.com/group/454854145828

未來知識(shí)庫是“ 歐米伽未來研究所”建立的在線知識(shí)庫平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828 進(jìn)入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.