夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

700萬(wàn)參數(shù)擊敗DeepSeek R1等,三星一人獨(dú)作爆火,遞歸顛覆模型推理

0
分享至



機(jī)器之心報(bào)道

編輯:冷貓

Training Small, Thinking Big.

大模型的推理架構(gòu)顛覆的未免有些太快了。

今年 6 月,來(lái)自 Sapient Intelligence 的研究者提出了分層推理模型(HRM),用循環(huán)架構(gòu)打破了傳統(tǒng)思維鏈(CoT)的架構(gòu)限制,對(duì)大模型推理結(jié)構(gòu)產(chǎn)生了重大的影響。HRM 僅包含 2700 萬(wàn)個(gè)參數(shù)(大約比最小的 Qwen3 0.6B 模型小 22 倍),僅使用 1000 個(gè)訓(xùn)練樣本,便在復(fù)雜的推理任務(wù)上取得了卓越的性能。

對(duì) HRM 感興趣的讀者可以參考我們之前的報(bào)道。

僅僅過(guò)了四個(gè)月,HRM 的架構(gòu)就徹底不夠看了。

來(lái)自加拿大蒙特利爾三星先進(jìn)技術(shù)研究所(SAIT)的高級(jí) AI 研究員 Alexia Jolicoeur-Martineau 介紹了微型遞歸模型(TRM)。

這個(gè) TRM 有多離譜呢?一個(gè)僅包含 700 萬(wàn)個(gè)參數(shù)(比 HRM 還要小 4 倍)的網(wǎng)絡(luò),在某些最困難的推理基準(zhǔn)測(cè)試中,其參數(shù)數(shù)量與 o3-mini 和 Gemini 2.5 Pro 等尖端語(yǔ)言模型相比,甚至可以超越它們,盡管這些模型的參數(shù)數(shù)量是 TRM 的 10,000 倍。

這一結(jié)果讓很多業(yè)內(nèi)人士大呼不可思議。





論文作者 Jolicoeur-Martineau 說(shuō):「通過(guò)遞歸推理,結(jié)果證明 『少即是多』。一個(gè)從頭開(kāi)始預(yù)訓(xùn)練的小模型,通過(guò)遞歸自身并在時(shí)間推移中更新答案,可以在不超出預(yù)算的情況下取得很大成果?!?/p>



  • 論文標(biāo)題:Less is More: Recursive Reasoning with Tiny Networks
  • 論文鏈接:arxiv.org/abs/2510.04871v1

簡(jiǎn)而言之,TRM 的工作原理如下:

1.起草初始答案:不同于逐字生成的普通大語(yǔ)言模型(LLM),TRM 首先會(huì)快速生成一個(gè)完整的「草稿答案」,可以理解為它的第一次粗略猜測(cè)。

2.創(chuàng)建「思維草稿區(qū)」:接著,它會(huì)開(kāi)辟一個(gè)獨(dú)立的內(nèi)部空間,用于儲(chǔ)存潛在推理的「草稿板」。

3.深入自我審查:模型進(jìn)入一個(gè)高強(qiáng)度的內(nèi)循環(huán)。它不斷將草稿答案與原始問(wèn)題進(jìn)行對(duì)比,在草稿板上反復(fù)(連續(xù) 6 次)推敲和修正推理邏輯,不斷自問(wèn):「我的邏輯是否成立?錯(cuò)誤在哪里?」

4.修訂答案:經(jīng)過(guò)這段專(zhuān)注的「思考」后,模型會(huì)利用在草稿板中改進(jìn)后的邏輯,重新生成一個(gè)全新的、更高質(zhì)量的最終答案草稿。

5.循環(huán)至自信為止:整個(gè)「起草 — 思考 — 修訂」的過(guò)程最多可重復(fù) 16 次。每一輪迭代都讓模型更接近一個(gè)正確且邏輯嚴(yán)密的解決方案。



Tiny Recursion Model(TRM) 遞歸結(jié)構(gòu)圖

少即是多

不再需要不動(dòng)點(diǎn)定理

HRM 假設(shè)其遞歸過(guò)程在 z_L 和 z_H 上都會(huì)收斂到某個(gè)不動(dòng)點(diǎn),以便使用 一步梯度近似(1-step gradient approximation)為了繞開(kāi)這種理論上的約束,TRM 重新定義了「完整的遞歸過(guò)程」:

在訓(xùn)練中,先運(yùn)行 T?1 次無(wú)梯度的遞歸過(guò)程 來(lái)改進(jìn) (z_L, z_H),然后再運(yùn)行一次帶反向傳播的遞歸過(guò)程。

換句話說(shuō),不再使用一步梯度近似,而是采用包含 n 次 f_L 與一次 f_H 的完整遞歸更新,從而完全消除了對(duì)不動(dòng)點(diǎn)假設(shè)和隱函數(shù)定理(IFT)的一步梯度近似的依賴(lài)。

單網(wǎng)絡(luò)

HRM(分層遞歸模型)使用了兩個(gè)網(wǎng)絡(luò):

  • 一個(gè)低層模塊 f_L,被頻繁調(diào)用;
  • 一個(gè)高層模塊 f_H,被較少調(diào)用。

這種設(shè)計(jì)使得模型的參數(shù)量約為常規(guī)單網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)的兩倍。

基于這一觀察,研究者嘗試用一個(gè)單一網(wǎng)絡(luò)來(lái)同時(shí)完成這兩個(gè)任務(wù),而不是分開(kāi)訓(xùn)練兩個(gè)網(wǎng)絡(luò)。

少層數(shù)

研究者嘗試通過(guò)增加層數(shù)來(lái)擴(kuò)大模型容量,以實(shí)現(xiàn)模型的可擴(kuò)展性。

然而,結(jié)果令人意外 —— 增加層數(shù)反而降低了泛化能力,原因在于模型出現(xiàn)了過(guò)擬合。

于是研究者們反向?qū)嶒?yàn):

在保持總計(jì)算量和 「等效深度」大致不變的情況下,減少網(wǎng)絡(luò)層數(shù),同時(shí)按比例增加遞歸次數(shù) n。

結(jié)果發(fā)現(xiàn),使用 2 層(而非 4 層)時(shí),泛化性能達(dá)到最優(yōu)。

無(wú)注意力架構(gòu)

自注意力機(jī)制(Self-Attention)在長(zhǎng)上下文場(chǎng)景表現(xiàn)出色,因?yàn)樗恍枰粋€(gè)形狀為 [D, 3D] 的參數(shù)矩陣,卻能建模整個(gè)序列的全局依賴(lài)。

然而,在短上下文任務(wù)中,使用線性層(Linear Layer)更加高效,僅需一個(gè)形狀為 [L, L] 的參數(shù)矩陣即可完成建模。

受到 MLP-Mixer 的啟發(fā),將自注意力層替換為作用于序列維度上的多層感知機(jī)(MLP)。

實(shí)驗(yàn)結(jié)果

研究者們?cè)谝韵聰?shù)據(jù)集上評(píng)估方法:Sudoku-Extreme、Maze-Hard、ARC-AGI-1 以及 ARC-AGI-2。



在 Sudoku-Extreme 數(shù)據(jù)集上的測(cè)試準(zhǔn)確率(%)。在每個(gè)監(jiān)督步驟的等效深度(T (n + 1) × n_layers)相同的條件下,對(duì)比 HRM(Hierarchical Reasoning Model) 與 TRM(Tiny Recursion Model) 的性能。



在謎題類(lèi)基準(zhǔn)測(cè)試(Sudoku-Extreme 和 Maze-Hard)上的測(cè)試準(zhǔn)確率(%)。



在 ARC-AGI 基準(zhǔn)測(cè)試(嘗試 2 次)上的測(cè)試準(zhǔn)確率(%)。

從實(shí)驗(yàn)結(jié)果可以看出,不帶自注意力機(jī)制的 TRM 在 Sudoku-Extreme 上表現(xiàn)最佳,測(cè)試準(zhǔn)確率達(dá) 87.4%。而 帶自注意力機(jī)制的 TRM 在其他任務(wù)上泛化效果更好。

帶自注意力機(jī)制的 TRM 在 Maze-Hard、ARC-AGI-1、ARC-AGI-2 上的準(zhǔn)確率分別為 85.3%、44.6% 和 7.8%,模型規(guī)模為 700 萬(wàn)參數(shù)。

相比之下,使用 4 倍參數(shù)量(2700 萬(wàn)) 的 HRM 模型僅達(dá)到 74.5%、40.3% 和 5.0% 的準(zhǔn)確率,顯示出 TRM 在參數(shù)效率與泛化能力上的顯著優(yōu)勢(shì)。

更多信息請(qǐng)參閱原論文。

https://venturebeat.com/ai/samsung-ai-researchers-new-open-reasoning-model-trm-outperforms-models-10

https://x.com/JacksonAtkinsX/status/1975556245617512460

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
朱芳雨賭對(duì)了!廣東隊(duì)“3換2”含金量大增,男籃頂級(jí)鋒線打服杜鋒

朱芳雨賭對(duì)了!廣東隊(duì)“3換2”含金量大增,男籃頂級(jí)鋒線打服杜鋒

緋雨兒
2025-10-11 13:16:08
廣東小伙娶河南女子,連累大半個(gè)村民被騙數(shù)萬(wàn),如今他成流浪漢

廣東小伙娶河南女子,連累大半個(gè)村民被騙數(shù)萬(wàn),如今他成流浪漢

禾寒?dāng)?/span>
2025-10-08 16:08:04
每一口外賣(mài)、瓶裝水或都與癌癥相關(guān)!首個(gè)人體樣本研究,微塑料會(huì)改變腸道菌群,與癌癥模式相似

每一口外賣(mài)、瓶裝水或都與癌癥相關(guān)!首個(gè)人體樣本研究,微塑料會(huì)改變腸道菌群,與癌癥模式相似

醫(yī)諾維
2025-10-10 17:12:29
北京靈活就業(yè)人員只要被認(rèn)定為就業(yè)困難人員,每月就可以享受補(bǔ)助

北京靈活就業(yè)人員只要被認(rèn)定為就業(yè)困難人員,每月就可以享受補(bǔ)助

歲月有情1314
2025-10-11 15:12:54
1-0,澳大利亞掀翻2026世界杯東道主,19歲新星伊蘭昆達(dá)一劍封喉

1-0,澳大利亞掀翻2026世界杯東道主,19歲新星伊蘭昆達(dá)一劍封喉

側(cè)身凌空斬
2025-10-11 09:36:05
瘋了!繼《沉默的榮耀》后央視再放大招,于和偉要霸屏了!

瘋了!繼《沉默的榮耀》后央視再放大招,于和偉要霸屏了!

東方不敗然多多
2025-10-11 00:43:16
讓生命帶著尊嚴(yán)謝幕 深圳已建成70家安寧療護(hù)試點(diǎn)單位

讓生命帶著尊嚴(yán)謝幕 深圳已建成70家安寧療護(hù)試點(diǎn)單位

深圳晚報(bào)
2025-10-11 08:19:12
阿根廷人士期待全球婦女峰會(huì)成為婦女進(jìn)步事業(yè)新的里程碑

阿根廷人士期待全球婦女峰會(huì)成為婦女進(jìn)步事業(yè)新的里程碑

國(guó)際在線
2025-10-11 16:41:04
為了討好美國(guó),出賣(mài)中國(guó)和孟晚舟的元兇,最終遭到了哪些報(bào)應(yīng)?

為了討好美國(guó),出賣(mài)中國(guó)和孟晚舟的元兇,最終遭到了哪些報(bào)應(yīng)?

伴史緣
2025-10-05 19:55:02
法國(guó)陸軍參謀長(zhǎng)警告:24小時(shí)內(nèi)逮捕中方船長(zhǎng),需做好戰(zhàn)爭(zhēng)準(zhǔn)備

法國(guó)陸軍參謀長(zhǎng)警告:24小時(shí)內(nèi)逮捕中方船長(zhǎng),需做好戰(zhàn)爭(zhēng)準(zhǔn)備

章幃戶外
2025-10-08 18:15:26
中方記者發(fā)布印度亞錦賽照片,用“觸目驚心”4個(gè)字感嘆居住環(huán)境

中方記者發(fā)布印度亞錦賽照片,用“觸目驚心”4個(gè)字感嘆居住環(huán)境

十點(diǎn)街球體育
2025-10-10 22:39:21
想不通!一個(gè)二輪秀中鋒,才打了一年,為什么能軍訓(xùn)楊瀚森

想不通!一個(gè)二輪秀中鋒,才打了一年,為什么能軍訓(xùn)楊瀚森

球毛鬼胎
2025-10-10 18:17:44
短短10天,2名女子大鬧上海大師賽看臺(tái):大喊東亞病夫 不講理挑釁

短短10天,2名女子大鬧上海大師賽看臺(tái):大喊東亞病夫 不講理挑釁

風(fēng)過(guò)鄉(xiāng)
2025-10-11 08:45:10
許家印家族33家公司、多個(gè)境外銀行賬戶被接管或凍結(jié) 涉及資產(chǎn)最高達(dá)77億美元

許家印家族33家公司、多個(gè)境外銀行賬戶被接管或凍結(jié) 涉及資產(chǎn)最高達(dá)77億美元

每日經(jīng)濟(jì)新聞
2025-10-10 18:38:04
五星巴西5-0打爆韓國(guó)!66歲安帥封神:孫興慜看傻 努力被天賦擊穿

五星巴西5-0打爆韓國(guó)!66歲安帥封神:孫興慜看傻 努力被天賦擊穿

風(fēng)過(guò)鄉(xiāng)
2025-10-10 21:37:26
俄軍疑似擊落首枚“火烈鳥(niǎo)”!徹底摧毀,三發(fā)兩中炸出15米大坑

俄軍疑似擊落首枚“火烈鳥(niǎo)”!徹底摧毀,三發(fā)兩中炸出15米大坑

鷹眼Defence
2025-10-10 16:42:08
小縣城的留守婦女,到底有多缺錢(qián)?

小縣城的留守婦女,到底有多缺錢(qián)?

英軍眼
2025-07-30 14:55:01
NBA中國(guó)賽中斷6年后回歸:阿里“三巨頭”馬云蔡崇信吳泳銘罕見(jiàn)同框!門(mén)票炒至5倍VIP票遇冷,姚明奧尼爾成龍加持

NBA中國(guó)賽中斷6年后回歸:阿里“三巨頭”馬云蔡崇信吳泳銘罕見(jiàn)同框!門(mén)票炒至5倍VIP票遇冷,姚明奧尼爾成龍加持

和訊網(wǎng)
2025-10-11 17:07:01
湖北這座長(zhǎng)江大橋?qū)⒉鸪亟?,投資31億,計(jì)劃年底開(kāi)工,工期4年

湖北這座長(zhǎng)江大橋?qū)⒉鸪亟ǎ顿Y31億,計(jì)劃年底開(kāi)工,工期4年

墨印齋
2025-10-11 10:37:16
和徐帆離婚傳聞?wù)嫦啻蟀變H2個(gè)月,馮小剛近況曝出,一點(diǎn)都不意外

和徐帆離婚傳聞?wù)嫦啻蟀變H2個(gè)月,馮小剛近況曝出,一點(diǎn)都不意外

好叫好伐
2025-10-11 15:33:23
2025-10-11 17:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11437文章數(shù) 142477關(guān)注度
往期回顧 全部

科技要聞

在中國(guó)打不贏,還想在全球贏?

頭條要聞

男子中獎(jiǎng)1000萬(wàn)出軌女主播 給妻子300萬(wàn)銀行卡是空的

頭條要聞

男子中獎(jiǎng)1000萬(wàn)出軌女主播 給妻子300萬(wàn)銀行卡是空的

體育要聞

王牌對(duì)王牌,阿德巴約終究還是高攀了

娛樂(lè)要聞

《向往》收視創(chuàng)新低!節(jié)目氛圍遭吐槽

財(cái)經(jīng)要聞

從稀土到高通 中國(guó)72小時(shí)連出10記重拳

汽車(chē)要聞

純電續(xù)航215km 全新阿爾法T5增程版10月底將上市

態(tài)度原創(chuàng)

本地
家居
教育
游戲
公開(kāi)課

本地新聞

“閩東利劍·惠民安商”首期緝車(chē)聯(lián)動(dòng)執(zhí)行

家居要聞

空間藝術(shù) 星河宇宙之旅

教育要聞

案例分享三十三|志愿巧規(guī)劃、圓夢(mèng)好前程、適合的和喜歡的抉擇

《街頭霸王6》卡普空杯大賽調(diào)整規(guī)則 更具觀賞性

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 波多野结衣电影网站免费观看视频 | 国产色欲精品一区| 天堂精品国产AⅤ综合| 精品福利视频导航| 午夜性刺激免费在线| 久久九色综合九色99伊人| 亚洲综合AV色婷婷国产野外| avtt2014天堂网东京热| AV极品无码| 亚洲人成色77777在线观看| 国产精品无码av在线播放 | 人人爱人人摸人人舔人人操| 国产极品久久久| 国产午夜福利小视频合集| 美女久久久久av| 高清偷自拍亚洲精品三区| 欧美精品第一页| 综合亚洲另类欧美久久成人精品| 亚洲自拍偷拍福利小视频| 俺也去噜色AV| 久久精品国产免费观看频道| 欧美xxxxx在线观看| 又硬又粗又长又爽免费看| 五月丁香六月婷婷色色| 操逼不卡网站| 好爽毛片一区二区三区四| 亚洲无码巨大| 日本少妇毛茸茸高潮| 大陆精大陆国产国语精品| 成人网站99在线| 日本道精品一区二区三区| 人人妻人人澡人人爽va| 人人妻人人澡人人爽欧美| 国产激情久久久久影院小草| 四虎影视永久地址www成人| 91精品人妻一区二区三区不卡| 精品人妻无码一区二区三区| 欧美浓毛大bbwbbw| 日韩亚洲国产激情一区浪潮av| 亚洲精品国产av成拍色拍 | 一本加勒比HEZYO波多野结衣|