機(jī)器之心報(bào)道
編輯:冷貓
Training Small, Thinking Big.
大模型的推理架構(gòu)顛覆的未免有些太快了。
今年 6 月,來(lái)自 Sapient Intelligence 的研究者提出了分層推理模型(HRM),用循環(huán)架構(gòu)打破了傳統(tǒng)思維鏈(CoT)的架構(gòu)限制,對(duì)大模型推理結(jié)構(gòu)產(chǎn)生了重大的影響。HRM 僅包含 2700 萬(wàn)個(gè)參數(shù)(大約比最小的 Qwen3 0.6B 模型小 22 倍),僅使用 1000 個(gè)訓(xùn)練樣本,便在復(fù)雜的推理任務(wù)上取得了卓越的性能。
對(duì) HRM 感興趣的讀者可以參考我們之前的報(bào)道。
僅僅過(guò)了四個(gè)月,HRM 的架構(gòu)就徹底不夠看了。
來(lái)自加拿大蒙特利爾三星先進(jìn)技術(shù)研究所(SAIT)的高級(jí) AI 研究員 Alexia Jolicoeur-Martineau 介紹了微型遞歸模型(TRM)。
這個(gè) TRM 有多離譜呢?一個(gè)僅包含 700 萬(wàn)個(gè)參數(shù)(比 HRM 還要小 4 倍)的網(wǎng)絡(luò),在某些最困難的推理基準(zhǔn)測(cè)試中,其參數(shù)數(shù)量與 o3-mini 和 Gemini 2.5 Pro 等尖端語(yǔ)言模型相比,甚至可以超越它們,盡管這些模型的參數(shù)數(shù)量是 TRM 的 10,000 倍。
這一結(jié)果讓很多業(yè)內(nèi)人士大呼不可思議。
論文作者 Jolicoeur-Martineau 說(shuō):「通過(guò)遞歸推理,結(jié)果證明 『少即是多』。一個(gè)從頭開(kāi)始預(yù)訓(xùn)練的小模型,通過(guò)遞歸自身并在時(shí)間推移中更新答案,可以在不超出預(yù)算的情況下取得很大成果?!?/p>
- 論文標(biāo)題:Less is More: Recursive Reasoning with Tiny Networks
- 論文鏈接:arxiv.org/abs/2510.04871v1
簡(jiǎn)而言之,TRM 的工作原理如下:
1.起草初始答案:不同于逐字生成的普通大語(yǔ)言模型(LLM),TRM 首先會(huì)快速生成一個(gè)完整的「草稿答案」,可以理解為它的第一次粗略猜測(cè)。
2.創(chuàng)建「思維草稿區(qū)」:接著,它會(huì)開(kāi)辟一個(gè)獨(dú)立的內(nèi)部空間,用于儲(chǔ)存潛在推理的「草稿板」。
3.深入自我審查:模型進(jìn)入一個(gè)高強(qiáng)度的內(nèi)循環(huán)。它不斷將草稿答案與原始問(wèn)題進(jìn)行對(duì)比,在草稿板上反復(fù)(連續(xù) 6 次)推敲和修正推理邏輯,不斷自問(wèn):「我的邏輯是否成立?錯(cuò)誤在哪里?」
4.修訂答案:經(jīng)過(guò)這段專(zhuān)注的「思考」后,模型會(huì)利用在草稿板中改進(jìn)后的邏輯,重新生成一個(gè)全新的、更高質(zhì)量的最終答案草稿。
5.循環(huán)至自信為止:整個(gè)「起草 — 思考 — 修訂」的過(guò)程最多可重復(fù) 16 次。每一輪迭代都讓模型更接近一個(gè)正確且邏輯嚴(yán)密的解決方案。
Tiny Recursion Model(TRM) 遞歸結(jié)構(gòu)圖
少即是多
不再需要不動(dòng)點(diǎn)定理
HRM 假設(shè)其遞歸過(guò)程在 z_L 和 z_H 上都會(huì)收斂到某個(gè)不動(dòng)點(diǎn),以便使用 一步梯度近似(1-step gradient approximation)為了繞開(kāi)這種理論上的約束,TRM 重新定義了「完整的遞歸過(guò)程」:
在訓(xùn)練中,先運(yùn)行 T?1 次無(wú)梯度的遞歸過(guò)程 來(lái)改進(jìn) (z_L, z_H),然后再運(yùn)行一次帶反向傳播的遞歸過(guò)程。
換句話說(shuō),不再使用一步梯度近似,而是采用包含 n 次 f_L 與一次 f_H 的完整遞歸更新,從而完全消除了對(duì)不動(dòng)點(diǎn)假設(shè)和隱函數(shù)定理(IFT)的一步梯度近似的依賴(lài)。
單網(wǎng)絡(luò)
HRM(分層遞歸模型)使用了兩個(gè)網(wǎng)絡(luò):
- 一個(gè)低層模塊 f_L,被頻繁調(diào)用;
- 一個(gè)高層模塊 f_H,被較少調(diào)用。
這種設(shè)計(jì)使得模型的參數(shù)量約為常規(guī)單網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)的兩倍。
基于這一觀察,研究者嘗試用一個(gè)單一網(wǎng)絡(luò)來(lái)同時(shí)完成這兩個(gè)任務(wù),而不是分開(kāi)訓(xùn)練兩個(gè)網(wǎng)絡(luò)。
少層數(shù)
研究者嘗試通過(guò)增加層數(shù)來(lái)擴(kuò)大模型容量,以實(shí)現(xiàn)模型的可擴(kuò)展性。
然而,結(jié)果令人意外 —— 增加層數(shù)反而降低了泛化能力,原因在于模型出現(xiàn)了過(guò)擬合。
于是研究者們反向?qū)嶒?yàn):
在保持總計(jì)算量和 「等效深度」大致不變的情況下,減少網(wǎng)絡(luò)層數(shù),同時(shí)按比例增加遞歸次數(shù) n。
結(jié)果發(fā)現(xiàn),使用 2 層(而非 4 層)時(shí),泛化性能達(dá)到最優(yōu)。
無(wú)注意力架構(gòu)
自注意力機(jī)制(Self-Attention)在長(zhǎng)上下文場(chǎng)景表現(xiàn)出色,因?yàn)樗恍枰粋€(gè)形狀為 [D, 3D] 的參數(shù)矩陣,卻能建模整個(gè)序列的全局依賴(lài)。
然而,在短上下文任務(wù)中,使用線性層(Linear Layer)更加高效,僅需一個(gè)形狀為 [L, L] 的參數(shù)矩陣即可完成建模。
受到 MLP-Mixer 的啟發(fā),將自注意力層替換為作用于序列維度上的多層感知機(jī)(MLP)。
實(shí)驗(yàn)結(jié)果
研究者們?cè)谝韵聰?shù)據(jù)集上評(píng)估方法:Sudoku-Extreme、Maze-Hard、ARC-AGI-1 以及 ARC-AGI-2。
在 Sudoku-Extreme 數(shù)據(jù)集上的測(cè)試準(zhǔn)確率(%)。在每個(gè)監(jiān)督步驟的等效深度(T (n + 1) × n_layers)相同的條件下,對(duì)比 HRM(Hierarchical Reasoning Model) 與 TRM(Tiny Recursion Model) 的性能。
在謎題類(lèi)基準(zhǔn)測(cè)試(Sudoku-Extreme 和 Maze-Hard)上的測(cè)試準(zhǔn)確率(%)。
在 ARC-AGI 基準(zhǔn)測(cè)試(嘗試 2 次)上的測(cè)試準(zhǔn)確率(%)。
從實(shí)驗(yàn)結(jié)果可以看出,不帶自注意力機(jī)制的 TRM 在 Sudoku-Extreme 上表現(xiàn)最佳,測(cè)試準(zhǔn)確率達(dá) 87.4%。而 帶自注意力機(jī)制的 TRM 在其他任務(wù)上泛化效果更好。
帶自注意力機(jī)制的 TRM 在 Maze-Hard、ARC-AGI-1、ARC-AGI-2 上的準(zhǔn)確率分別為 85.3%、44.6% 和 7.8%,模型規(guī)模為 700 萬(wàn)參數(shù)。
相比之下,使用 4 倍參數(shù)量(2700 萬(wàn)) 的 HRM 模型僅達(dá)到 74.5%、40.3% 和 5.0% 的準(zhǔn)確率,顯示出 TRM 在參數(shù)效率與泛化能力上的顯著優(yōu)勢(shì)。
更多信息請(qǐng)參閱原論文。
https://venturebeat.com/ai/samsung-ai-researchers-new-open-reasoning-model-trm-outperforms-models-10
https://x.com/JacksonAtkinsX/status/1975556245617512460
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.