聞樂 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
27M小模型超越o3-mini-high和DeepSeek-R1!推理還不靠思維鏈。
開發(fā)者是那位拒絕了馬斯克、還要挑戰(zhàn)Transformer的00后清華校友,Sapient Intelligence的創(chuàng)始人王冠
這個(gè)27M小模型就是Sapient最新提出的開源可復(fù)現(xiàn)的分層推理模型Hierarchical Reasoning Model(下面簡稱HRM),模仿大腦的分層處理與多時(shí)間尺度運(yùn)作機(jī)制,克服了標(biāo)準(zhǔn)Transfomer的計(jì)算局限。
2700萬參數(shù),就實(shí)現(xiàn)了對(duì)現(xiàn)有大模型的精準(zhǔn)超車。
不用預(yù)訓(xùn)練補(bǔ)課,還不靠思維鏈打草稿,僅憑1000個(gè)訓(xùn)練樣本,就把極端數(shù)獨(dú)、30x30迷宮玩得明明白白。
甚至連衡量通用智能的ARC-AGI測試都能碾壓一眾參數(shù)規(guī)模更大、上下文更長的Claude 3.7等“大前輩”。
有網(wǎng)友感嘆,這就像四兩撥千斤AI版……
所以,HRM這個(gè)小模型是如何做到的?
核心是仿腦的雙層循環(huán)模塊設(shè)計(jì)
HRM之所以能有如此出色的表現(xiàn),源于其五項(xiàng)核心技術(shù)的巧妙設(shè)計(jì)。
首先是分層循環(huán)模塊與時(shí)間尺度分離
HRM受大腦皮層區(qū)域分層處理和時(shí)間分離機(jī)制啟發(fā),設(shè)計(jì)了兩個(gè)相互配合的循環(huán)模塊:一個(gè)高層模塊負(fù)責(zé)慢節(jié)奏的抽象規(guī)劃,一個(gè)低層模塊處理快節(jié)奏的細(xì)節(jié)計(jì)算,不用明確監(jiān)督中間過程,一次就能完成推理。
兩者在不同時(shí)間尺度上協(xié)同工作。低階模塊在每個(gè)高階周期內(nèi)完成多次計(jì)算并達(dá)到臨時(shí)穩(wěn)定狀態(tài)后,高階模塊才會(huì)更新決策,隨后低階模塊重置并開啟新一輪計(jì)算。
這種設(shè)計(jì)既保證了全局方向的正確性,又提升了局部執(zhí)行的效率。
比如,在需要大量樹搜索和回溯的Sudoku-Extreme Full任務(wù)上,增加Transformer的寬度不能提升性能,增加深度才是關(guān)鍵,而標(biāo)準(zhǔn)架構(gòu)會(huì)出現(xiàn)性能飽和,無法從深度增加中獲益。
HRM則克服了這一限制,能有效利用計(jì)算深度實(shí)現(xiàn)近乎完美的準(zhǔn)確率。
其次是分層收斂機(jī)制
普通的循環(huán)神經(jīng)網(wǎng)絡(luò)常出現(xiàn)過早收斂的問題——計(jì)算幾步就陷入穩(wěn)定狀態(tài),后續(xù)再復(fù)雜的任務(wù)也無法推進(jìn)。
而HRM中,低階模塊在每輪計(jì)算中會(huì)收斂到基于當(dāng)前高階狀態(tài)的局部結(jié)果,但高階模塊更新后,會(huì)給低階模塊設(shè)定新的目標(biāo),使其進(jìn)入新的收斂周期。
這就像完成項(xiàng)目時(shí),先攻克一個(gè)子任務(wù),再根據(jù)整體進(jìn)度調(diào)整目標(biāo),確保持續(xù)推進(jìn)不偷懶。
第三項(xiàng)是近似梯度技術(shù)
傳統(tǒng)循環(huán)模型訓(xùn)練時(shí),需要存儲(chǔ)所有中間狀態(tài)并反向追溯,類似復(fù)盤時(shí)要回看每一步操作,既耗內(nèi)存又低效。
HRM則采用一步梯度近似,只需根據(jù)最終狀態(tài)反推優(yōu)化方向,如同根據(jù)考試結(jié)果直接定位薄弱知識(shí)點(diǎn),內(nèi)存需求恒定且計(jì)算高效,更符合生物大腦的學(xué)習(xí)規(guī)律。
第四是深度監(jiān)督機(jī)制
它受大腦中神經(jīng)振蕩調(diào)節(jié)學(xué)習(xí)節(jié)奏的啟發(fā),引入了階段性測試。
模型在學(xué)習(xí)過程中被分成多個(gè)階段,每個(gè)階段結(jié)束后立即評(píng)估并調(diào)整參數(shù),且前后階段的計(jì)算互不干擾。
這種方式能及時(shí)糾正偏差,就像學(xué)生每學(xué)一單元就測試鞏固,比期末一次性考試的學(xué)習(xí)效果更扎實(shí)。
自適應(yīng)計(jì)算時(shí)間讓HRM能像人一樣靈活分配思考時(shí)間
它通過類似評(píng)估收益的算法(Q學(xué)習(xí)),動(dòng)態(tài)決定是否繼續(xù)計(jì)算,在保證準(zhǔn)確率的同時(shí)避免算力浪費(fèi),推理時(shí)還能通過增加計(jì)算資源進(jìn)一步提升表現(xiàn)。
比如,簡單任務(wù)如簡單迷宮快速給出答案,復(fù)雜任務(wù)如高難度數(shù)獨(dú)則延長計(jì)算時(shí)間。
這些技術(shù)的融合,讓HRM在多項(xiàng)測試中表現(xiàn)不凡。
下圖通過可視化中間步驟,驗(yàn)證了HRM的分層推理機(jī)制能夠有效拆解復(fù)雜任務(wù),通過漸進(jìn)式計(jì)算逼近正確結(jié)果,而非依賴黑箱式的一次性輸出。
在衡量AI通用推理能力的ARC-AGI挑戰(zhàn)中,HRM僅用2700萬參數(shù)和1000個(gè)訓(xùn)練樣本,就達(dá)到40.3%的準(zhǔn)確率,超過了參數(shù)規(guī)模更大的o3-mini-high(34.5%)和Claude 3.7 8K(21.2%)。
對(duì)于需要反復(fù)試錯(cuò)的9x9極端數(shù)獨(dú),現(xiàn)有思維鏈模型完全無法解決(準(zhǔn)確率0%),即便是結(jié)構(gòu)相似的Transformer模型,用同樣數(shù)據(jù)訓(xùn)練也毫無頭緒。而HRM幾乎能全部做對(duì)。
在30x30復(fù)雜迷宮的最優(yōu)路徑尋找任務(wù)中,HRM表現(xiàn)穩(wěn)定,而1.75億參數(shù)的大型Transformer模型準(zhǔn)確率不足20%。
雖然,HRM被指參數(shù)太小、訓(xùn)練范圍有限,只針對(duì)特定領(lǐng)域表現(xiàn)好,無法泛化到領(lǐng)域外,并不通用。但有人認(rèn)為小而精的模型或許在某些角度上更智能。
人工智能的飛躍在于創(chuàng)造性。
也有人認(rèn)為HRM的前景更在于“仿腦”,通過精心設(shè)計(jì)的高低兩個(gè)模塊避免過早收斂,對(duì)過擬合具有極強(qiáng)的抵抗力
甚至有人相當(dāng)樂觀,認(rèn)為這種新架構(gòu)是神經(jīng)網(wǎng)絡(luò)一個(gè)巨大的進(jìn)步。有可能是超越Transformer的時(shí)刻。
拒絕馬斯克,挑戰(zhàn)Transfomer
論文的第一作者王冠是一位00后,8歲開始學(xué)習(xí)編程,后保送至清華大學(xué)計(jì)算機(jī)系。
他是GitHub攬星5.1k開源項(xiàng)目OpenChat的獨(dú)立開發(fā)者,獨(dú)立完成了OpenChat全部版本的模型開發(fā)和訓(xùn)練框架搭建。
也正是因?yàn)镺penChat這個(gè)項(xiàng)目,他和馬斯克產(chǎn)生了交集。
但他算得上是一個(gè)拒絕了馬斯克的男人——此前,王冠多次拒絕了xAI等一線機(jī)構(gòu)創(chuàng)始人的加入邀請。
原因是他認(rèn)為自己要做的是顛覆Transfomer
2024年,王冠和聯(lián)合創(chuàng)始人Austin創(chuàng)辦了Sapient Intelligence,并成功融資數(shù)千萬美元。致力于打造“真正具有復(fù)雜推理和規(guī)劃能力的全新大模型架構(gòu)”。
論文地址:https://arxiv.org/abs/2506.21734
代碼地址:https://github.com/sapientinc/HRM
[1]https://x.com/casper_hansen_/status/1951656675250684163
[2]https://x.com/deedydas/status/1951677875004100814
[3]https://x.com/omarsar0/status/1951751651729060081
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.