網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

700萬(wàn)參數(shù)擊敗DeepSeek R1等,三星一人獨(dú)作爆火,遞歸顛覆模型推理

2025-10-09 14:08:03　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

編輯：冷貓

Training Small, Thinking Big.

大模型的推理架構(gòu)顛覆的未免有些太快了。

今年 6 月，來(lái)自 Sapient Intelligence 的研究者提出了分層推理模型（HRM），用循環(huán)架構(gòu)打破了傳統(tǒng)思維鏈（CoT）的架構(gòu)限制，對(duì)大模型推理結(jié)構(gòu)產(chǎn)生了重大的影響。HRM 僅包含 2700 萬(wàn)個(gè)參數(shù)（大約比最小的 Qwen3 0.6B 模型小 22 倍），僅使用 1000 個(gè)訓(xùn)練樣本，便在復(fù)雜的推理任務(wù)上取得了卓越的性能。

對(duì) HRM 感興趣的讀者可以參考我們之前的報(bào)道。

僅僅過(guò)了四個(gè)月，HRM 的架構(gòu)就徹底不夠看了。

來(lái)自加拿大蒙特利爾三星先進(jìn)技術(shù)研究所（SAIT）的高級(jí) AI 研究員 Alexia Jolicoeur-Martineau 介紹了微型遞歸模型（TRM）。

這個(gè) TRM 有多離譜呢？一個(gè)僅包含 700 萬(wàn)個(gè)參數(shù)（比 HRM 還要小 4 倍）的網(wǎng)絡(luò)，在某些最困難的推理基準(zhǔn)測(cè)試中，其參數(shù)數(shù)量與 o3-mini 和 Gemini 2.5 Pro 等尖端語(yǔ)言模型相比，甚至可以超越它們，盡管這些模型的參數(shù)數(shù)量是 TRM 的 10,000 倍。

這一結(jié)果讓很多業(yè)內(nèi)人士大呼不可思議。

論文作者 Jolicoeur-Martineau 說(shuō)：「通過(guò)遞歸推理，結(jié)果證明『少即是多』。一個(gè)從頭開(kāi)始預(yù)訓(xùn)練的小模型，通過(guò)遞歸自身并在時(shí)間推移中更新答案，可以在不超出預(yù)算的情況下取得很大成果?！?/p>

論文標(biāo)題：Less is More: Recursive Reasoning with Tiny Networks
論文鏈接：arxiv.org/abs/2510.04871v1

簡(jiǎn)而言之，TRM 的工作原理如下：

1.起草初始答案：不同于逐字生成的普通大語(yǔ)言模型（LLM），TRM 首先會(huì)快速生成一個(gè)完整的「草稿答案」，可以理解為它的第一次粗略猜測(cè)。

2.創(chuàng)建「思維草稿區(qū)」：接著，它會(huì)開(kāi)辟一個(gè)獨(dú)立的內(nèi)部空間，用于儲(chǔ)存潛在推理的「草稿板」。

3.深入自我審查：模型進(jìn)入一個(gè)高強(qiáng)度的內(nèi)循環(huán)。它不斷將草稿答案與原始問(wèn)題進(jìn)行對(duì)比，在草稿板上反復(fù)（連續(xù) 6 次）推敲和修正推理邏輯，不斷自問(wèn)：「我的邏輯是否成立？錯(cuò)誤在哪里？」

4.修訂答案：經(jīng)過(guò)這段專(zhuān)注的「思考」后，模型會(huì)利用在草稿板中改進(jìn)后的邏輯，重新生成一個(gè)全新的、更高質(zhì)量的最終答案草稿。

5.循環(huán)至自信為止：整個(gè)「起草 — 思考 — 修訂」的過(guò)程最多可重復(fù) 16 次。每一輪迭代都讓模型更接近一個(gè)正確且邏輯嚴(yán)密的解決方案。

Tiny Recursion Model（TRM）遞歸結(jié)構(gòu)圖

少即是多

不再需要不動(dòng)點(diǎn)定理

HRM 假設(shè)其遞歸過(guò)程在 z_L 和 z_H 上都會(huì)收斂到某個(gè)不動(dòng)點(diǎn)，以便使用一步梯度近似（1-step gradient approximation）為了繞開(kāi)這種理論上的約束，TRM 重新定義了「完整的遞歸過(guò)程」：

在訓(xùn)練中，先運(yùn)行 T?1 次無(wú)梯度的遞歸過(guò)程來(lái)改進(jìn) (z_L, z_H)，然后再運(yùn)行一次帶反向傳播的遞歸過(guò)程。

換句話說(shuō)，不再使用一步梯度近似，而是采用包含 n 次 f_L 與一次 f_H 的完整遞歸更新，從而完全消除了對(duì)不動(dòng)點(diǎn)假設(shè)和隱函數(shù)定理（IFT）的一步梯度近似的依賴(lài)。

單網(wǎng)絡(luò)

HRM（分層遞歸模型）使用了兩個(gè)網(wǎng)絡(luò)：

一個(gè)低層模塊 f_L，被頻繁調(diào)用；
一個(gè)高層模塊 f_H，被較少調(diào)用。

這種設(shè)計(jì)使得模型的參數(shù)量約為常規(guī)單網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)的兩倍。

基于這一觀察，研究者嘗試用一個(gè)單一網(wǎng)絡(luò)來(lái)同時(shí)完成這兩個(gè)任務(wù)，而不是分開(kāi)訓(xùn)練兩個(gè)網(wǎng)絡(luò)。

少層數(shù)

研究者嘗試通過(guò)增加層數(shù)來(lái)擴(kuò)大模型容量，以實(shí)現(xiàn)模型的可擴(kuò)展性。

然而，結(jié)果令人意外 —— 增加層數(shù)反而降低了泛化能力，原因在于模型出現(xiàn)了過(guò)擬合。

于是研究者們反向?qū)嶒?yàn)：

在保持總計(jì)算量和「等效深度」大致不變的情況下，減少網(wǎng)絡(luò)層數(shù)，同時(shí)按比例增加遞歸次數(shù) n。

結(jié)果發(fā)現(xiàn)，使用 2 層（而非 4 層）時(shí)，泛化性能達(dá)到最優(yōu)。

無(wú)注意力架構(gòu)

自注意力機(jī)制（Self-Attention）在長(zhǎng)上下文場(chǎng)景表現(xiàn)出色，因?yàn)樗恍枰粋€(gè)形狀為 [D, 3D] 的參數(shù)矩陣，卻能建模整個(gè)序列的全局依賴(lài)。

然而，在短上下文任務(wù)中，使用線性層（Linear Layer）更加高效，僅需一個(gè)形狀為 [L, L] 的參數(shù)矩陣即可完成建模。

受到 MLP-Mixer 的啟發(fā)，將自注意力層替換為作用于序列維度上的多層感知機(jī)（MLP）。

實(shí)驗(yàn)結(jié)果

研究者們?cè)谝韵聰?shù)據(jù)集上評(píng)估方法：Sudoku-Extreme、Maze-Hard、ARC-AGI-1 以及 ARC-AGI-2。

在 Sudoku-Extreme 數(shù)據(jù)集上的測(cè)試準(zhǔn)確率（%）。在每個(gè)監(jiān)督步驟的等效深度（T (n + 1) × n_layers）相同的條件下，對(duì)比 HRM（Hierarchical Reasoning Model）與 TRM（Tiny Recursion Model）的性能。

在謎題類(lèi)基準(zhǔn)測(cè)試（Sudoku-Extreme 和 Maze-Hard）上的測(cè)試準(zhǔn)確率（%）。

在 ARC-AGI 基準(zhǔn)測(cè)試（嘗試 2 次）上的測(cè)試準(zhǔn)確率（%）。

從實(shí)驗(yàn)結(jié)果可以看出，不帶自注意力機(jī)制的 TRM 在 Sudoku-Extreme 上表現(xiàn)最佳，測(cè)試準(zhǔn)確率達(dá) 87.4%。而帶自注意力機(jī)制的 TRM 在其他任務(wù)上泛化效果更好。

帶自注意力機(jī)制的 TRM 在 Maze-Hard、ARC-AGI-1、ARC-AGI-2 上的準(zhǔn)確率分別為 85.3%、44.6% 和 7.8%，模型規(guī)模為 700 萬(wàn)參數(shù)。

相比之下，使用 4 倍參數(shù)量（2700 萬(wàn)）的 HRM 模型僅達(dá)到 74.5%、40.3% 和 5.0% 的準(zhǔn)確率，顯示出 TRM 在參數(shù)效率與泛化能力上的顯著優(yōu)勢(shì)。

更多信息請(qǐng)參閱原論文。

https://venturebeat.com/ai/samsung-ai-researchers-new-open-reasoning-model-trm-outperforms-models-10

https://x.com/JacksonAtkinsX/status/1975556245617512460

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.