又是王冠：27M小模型超越o3-mini！拒絕馬斯克的00后果然不同

2025-08-10 13:30:59　來源: 量子位

北京舉報(bào)

分享至

聞樂發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

27M小模型超越o3-mini-high和DeepSeek-R1！推理還不靠思維鏈。

開發(fā)者是那位拒絕了馬斯克、還要挑戰(zhàn)Transformer的00后清華校友，Sapient Intelligence的創(chuàng)始人王冠

這個(gè)27M小模型就是Sapient最新提出的開源可復(fù)現(xiàn)的分層推理模型Hierarchical Reasoning Model（下面簡稱HRM），模仿大腦的分層處理與多時(shí)間尺度運(yùn)作機(jī)制，克服了標(biāo)準(zhǔn)Transfomer的計(jì)算局限。

2700萬參數(shù)，就實(shí)現(xiàn)了對(duì)現(xiàn)有大模型的精準(zhǔn)超車。

不用預(yù)訓(xùn)練補(bǔ)課，還不靠思維鏈打草稿，僅憑1000個(gè)訓(xùn)練樣本，就把極端數(shù)獨(dú)、30x30迷宮玩得明明白白。

甚至連衡量通用智能的ARC-AGI測試都能碾壓一眾參數(shù)規(guī)模更大、上下文更長的Claude 3.7等“大前輩”。

有網(wǎng)友感嘆，這就像四兩撥千斤AI版……

所以，HRM這個(gè)小模型是如何做到的？

核心是仿腦的雙層循環(huán)模塊設(shè)計(jì)

HRM之所以能有如此出色的表現(xiàn)，源于其五項(xiàng)核心技術(shù)的巧妙設(shè)計(jì)。

首先是分層循環(huán)模塊與時(shí)間尺度分離

HRM受大腦皮層區(qū)域分層處理和時(shí)間分離機(jī)制啟發(fā)，設(shè)計(jì)了兩個(gè)相互配合的循環(huán)模塊：一個(gè)高層模塊負(fù)責(zé)慢節(jié)奏的抽象規(guī)劃，一個(gè)低層模塊處理快節(jié)奏的細(xì)節(jié)計(jì)算，不用明確監(jiān)督中間過程，一次就能完成推理。

兩者在不同時(shí)間尺度上協(xié)同工作。低階模塊在每個(gè)高階周期內(nèi)完成多次計(jì)算并達(dá)到臨時(shí)穩(wěn)定狀態(tài)后，高階模塊才會(huì)更新決策，隨后低階模塊重置并開啟新一輪計(jì)算。

這種設(shè)計(jì)既保證了全局方向的正確性，又提升了局部執(zhí)行的效率。

比如，在需要大量樹搜索和回溯的Sudoku-Extreme Full任務(wù)上，增加Transformer的寬度不能提升性能，增加深度才是關(guān)鍵，而標(biāo)準(zhǔn)架構(gòu)會(huì)出現(xiàn)性能飽和，無法從深度增加中獲益。

HRM則克服了這一限制，能有效利用計(jì)算深度實(shí)現(xiàn)近乎完美的準(zhǔn)確率。

其次是分層收斂機(jī)制

普通的循環(huán)神經(jīng)網(wǎng)絡(luò)常出現(xiàn)過早收斂的問題——計(jì)算幾步就陷入穩(wěn)定狀態(tài)，后續(xù)再復(fù)雜的任務(wù)也無法推進(jìn)。

而HRM中，低階模塊在每輪計(jì)算中會(huì)收斂到基于當(dāng)前高階狀態(tài)的局部結(jié)果，但高階模塊更新后，會(huì)給低階模塊設(shè)定新的目標(biāo)，使其進(jìn)入新的收斂周期。

這就像完成項(xiàng)目時(shí)，先攻克一個(gè)子任務(wù)，再根據(jù)整體進(jìn)度調(diào)整目標(biāo)，確保持續(xù)推進(jìn)不偷懶。

第三項(xiàng)是近似梯度技術(shù)

傳統(tǒng)循環(huán)模型訓(xùn)練時(shí)，需要存儲(chǔ)所有中間狀態(tài)并反向追溯，類似復(fù)盤時(shí)要回看每一步操作，既耗內(nèi)存又低效。

HRM則采用一步梯度近似，只需根據(jù)最終狀態(tài)反推優(yōu)化方向，如同根據(jù)考試結(jié)果直接定位薄弱知識(shí)點(diǎn)，內(nèi)存需求恒定且計(jì)算高效，更符合生物大腦的學(xué)習(xí)規(guī)律。

第四是深度監(jiān)督機(jī)制

它受大腦中神經(jīng)振蕩調(diào)節(jié)學(xué)習(xí)節(jié)奏的啟發(fā)，引入了階段性測試。

模型在學(xué)習(xí)過程中被分成多個(gè)階段，每個(gè)階段結(jié)束后立即評(píng)估并調(diào)整參數(shù)，且前后階段的計(jì)算互不干擾。

這種方式能及時(shí)糾正偏差，就像學(xué)生每學(xué)一單元就測試鞏固，比期末一次性考試的學(xué)習(xí)效果更扎實(shí)。

自適應(yīng)計(jì)算時(shí)間讓HRM能像人一樣靈活分配思考時(shí)間

它通過類似評(píng)估收益的算法（Q學(xué)習(xí)），動(dòng)態(tài)決定是否繼續(xù)計(jì)算，在保證準(zhǔn)確率的同時(shí)避免算力浪費(fèi)，推理時(shí)還能通過增加計(jì)算資源進(jìn)一步提升表現(xiàn)。

比如，簡單任務(wù)如簡單迷宮快速給出答案，復(fù)雜任務(wù)如高難度數(shù)獨(dú)則延長計(jì)算時(shí)間。

這些技術(shù)的融合，讓HRM在多項(xiàng)測試中表現(xiàn)不凡。

下圖通過可視化中間步驟，驗(yàn)證了HRM的分層推理機(jī)制能夠有效拆解復(fù)雜任務(wù)，通過漸進(jìn)式計(jì)算逼近正確結(jié)果，而非依賴黑箱式的一次性輸出。

在衡量AI通用推理能力的ARC-AGI挑戰(zhàn)中，HRM僅用2700萬參數(shù)和1000個(gè)訓(xùn)練樣本，就達(dá)到40.3%的準(zhǔn)確率，超過了參數(shù)規(guī)模更大的o3-mini-high（34.5%）和Claude 3.7 8K（21.2%）。

對(duì)于需要反復(fù)試錯(cuò)的9x9極端數(shù)獨(dú)，現(xiàn)有思維鏈模型完全無法解決（準(zhǔn)確率0%），即便是結(jié)構(gòu)相似的Transformer模型，用同樣數(shù)據(jù)訓(xùn)練也毫無頭緒。而HRM幾乎能全部做對(duì)。

在30x30復(fù)雜迷宮的最優(yōu)路徑尋找任務(wù)中，HRM表現(xiàn)穩(wěn)定，而1.75億參數(shù)的大型Transformer模型準(zhǔn)確率不足20%。

雖然，HRM被指參數(shù)太小、訓(xùn)練范圍有限，只針對(duì)特定領(lǐng)域表現(xiàn)好，無法泛化到領(lǐng)域外，并不通用。但有人認(rèn)為小而精的模型或許在某些角度上更智能。

人工智能的飛躍在于創(chuàng)造性。

也有人認(rèn)為HRM的前景更在于“仿腦”，通過精心設(shè)計(jì)的高低兩個(gè)模塊避免過早收斂，對(duì)過擬合具有極強(qiáng)的抵抗力

甚至有人相當(dāng)樂觀，認(rèn)為這種新架構(gòu)是神經(jīng)網(wǎng)絡(luò)一個(gè)巨大的進(jìn)步。有可能是超越Transformer的時(shí)刻。

拒絕馬斯克，挑戰(zhàn)Transfomer

論文的第一作者王冠是一位00后，8歲開始學(xué)習(xí)編程，后保送至清華大學(xué)計(jì)算機(jī)系。

他是GitHub攬星5.1k開源項(xiàng)目OpenChat的獨(dú)立開發(fā)者，獨(dú)立完成了OpenChat全部版本的模型開發(fā)和訓(xùn)練框架搭建。

也正是因?yàn)镺penChat這個(gè)項(xiàng)目，他和馬斯克產(chǎn)生了交集。

但他算得上是一個(gè)拒絕了馬斯克的男人——此前，王冠多次拒絕了xAI等一線機(jī)構(gòu)創(chuàng)始人的加入邀請。

原因是他認(rèn)為自己要做的是顛覆Transfomer

2024年，王冠和聯(lián)合創(chuàng)始人Austin創(chuàng)辦了Sapient Intelligence，并成功融資數(shù)千萬美元。致力于打造“真正具有復(fù)雜推理和規(guī)劃能力的全新大模型架構(gòu)”。

論文地址：https://arxiv.org/abs/2506.21734
代碼地址：https://github.com/sapientinc/HRM

[1]https://x.com/casper_hansen_/status/1951656675250684163
[2]https://x.com/deedydas/status/1951677875004100814
[3]https://x.com/omarsar0/status/1951751651729060081

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.