夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

又是王冠:27M小模型超越o3-mini!拒絕馬斯克的00后果然不同

0
分享至

聞樂 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

27M小模型超越o3-mini-high和DeepSeek-R1!推理還不靠思維鏈。

開發(fā)者是那位拒絕了馬斯克、還要挑戰(zhàn)Transformer的00后清華校友,Sapient Intelligence的創(chuàng)始人王冠



這個(gè)27M小模型就是Sapient最新提出的開源可復(fù)現(xiàn)的分層推理模型Hierarchical Reasoning Model(下面簡稱HRM),模仿大腦的分層處理與多時(shí)間尺度運(yùn)作機(jī)制,克服了標(biāo)準(zhǔn)Transfomer的計(jì)算局限。



2700萬參數(shù),就實(shí)現(xiàn)了對(duì)現(xiàn)有大模型的精準(zhǔn)超車。

不用預(yù)訓(xùn)練補(bǔ)課,還不靠思維鏈打草稿,僅憑1000個(gè)訓(xùn)練樣本,就把極端數(shù)獨(dú)、30x30迷宮玩得明明白白。

甚至連衡量通用智能的ARC-AGI測試都能碾壓一眾參數(shù)規(guī)模更大、上下文更長的Claude 3.7等“大前輩”。

有網(wǎng)友感嘆,這就像四兩撥千斤AI版……



所以,HRM這個(gè)小模型是如何做到的?

核心是仿腦的雙層循環(huán)模塊設(shè)計(jì)

HRM之所以能有如此出色的表現(xiàn),源于其五項(xiàng)核心技術(shù)的巧妙設(shè)計(jì)。

首先是分層循環(huán)模塊與時(shí)間尺度分離

HRM受大腦皮層區(qū)域分層處理和時(shí)間分離機(jī)制啟發(fā),設(shè)計(jì)了兩個(gè)相互配合的循環(huán)模塊:一個(gè)高層模塊負(fù)責(zé)慢節(jié)奏的抽象規(guī)劃,一個(gè)低層模塊處理快節(jié)奏的細(xì)節(jié)計(jì)算,不用明確監(jiān)督中間過程,一次就能完成推理。



兩者在不同時(shí)間尺度上協(xié)同工作。低階模塊在每個(gè)高階周期內(nèi)完成多次計(jì)算并達(dá)到臨時(shí)穩(wěn)定狀態(tài)后,高階模塊才會(huì)更新決策,隨后低階模塊重置并開啟新一輪計(jì)算。

這種設(shè)計(jì)既保證了全局方向的正確性,又提升了局部執(zhí)行的效率。

比如,在需要大量樹搜索和回溯的Sudoku-Extreme Full任務(wù)上,增加Transformer的寬度不能提升性能,增加深度才是關(guān)鍵,而標(biāo)準(zhǔn)架構(gòu)會(huì)出現(xiàn)性能飽和,無法從深度增加中獲益。

HRM則克服了這一限制,能有效利用計(jì)算深度實(shí)現(xiàn)近乎完美的準(zhǔn)確率。



其次是分層收斂機(jī)制

普通的循環(huán)神經(jīng)網(wǎng)絡(luò)常出現(xiàn)過早收斂的問題——計(jì)算幾步就陷入穩(wěn)定狀態(tài),后續(xù)再復(fù)雜的任務(wù)也無法推進(jìn)。

而HRM中,低階模塊在每輪計(jì)算中會(huì)收斂到基于當(dāng)前高階狀態(tài)的局部結(jié)果,但高階模塊更新后,會(huì)給低階模塊設(shè)定新的目標(biāo),使其進(jìn)入新的收斂周期。



這就像完成項(xiàng)目時(shí),先攻克一個(gè)子任務(wù),再根據(jù)整體進(jìn)度調(diào)整目標(biāo),確保持續(xù)推進(jìn)不偷懶。

第三項(xiàng)是近似梯度技術(shù)

傳統(tǒng)循環(huán)模型訓(xùn)練時(shí),需要存儲(chǔ)所有中間狀態(tài)并反向追溯,類似復(fù)盤時(shí)要回看每一步操作,既耗內(nèi)存又低效。

HRM則采用一步梯度近似,只需根據(jù)最終狀態(tài)反推優(yōu)化方向,如同根據(jù)考試結(jié)果直接定位薄弱知識(shí)點(diǎn),內(nèi)存需求恒定且計(jì)算高效,更符合生物大腦的學(xué)習(xí)規(guī)律。



第四是深度監(jiān)督機(jī)制

它受大腦中神經(jīng)振蕩調(diào)節(jié)學(xué)習(xí)節(jié)奏的啟發(fā),引入了階段性測試。

模型在學(xué)習(xí)過程中被分成多個(gè)階段,每個(gè)階段結(jié)束后立即評(píng)估并調(diào)整參數(shù),且前后階段的計(jì)算互不干擾。



這種方式能及時(shí)糾正偏差,就像學(xué)生每學(xué)一單元就測試鞏固,比期末一次性考試的學(xué)習(xí)效果更扎實(shí)。

自適應(yīng)計(jì)算時(shí)間讓HRM能像人一樣靈活分配思考時(shí)間

它通過類似評(píng)估收益的算法(Q學(xué)習(xí)),動(dòng)態(tài)決定是否繼續(xù)計(jì)算,在保證準(zhǔn)確率的同時(shí)避免算力浪費(fèi),推理時(shí)還能通過增加計(jì)算資源進(jìn)一步提升表現(xiàn)。



比如,簡單任務(wù)如簡單迷宮快速給出答案,復(fù)雜任務(wù)如高難度數(shù)獨(dú)則延長計(jì)算時(shí)間。

這些技術(shù)的融合,讓HRM在多項(xiàng)測試中表現(xiàn)不凡。

下圖通過可視化中間步驟,驗(yàn)證了HRM的分層推理機(jī)制能夠有效拆解復(fù)雜任務(wù),通過漸進(jìn)式計(jì)算逼近正確結(jié)果,而非依賴黑箱式的一次性輸出。



在衡量AI通用推理能力的ARC-AGI挑戰(zhàn)中,HRM僅用2700萬參數(shù)和1000個(gè)訓(xùn)練樣本,就達(dá)到40.3%的準(zhǔn)確率,超過了參數(shù)規(guī)模更大的o3-mini-high(34.5%)和Claude 3.7 8K(21.2%)。

對(duì)于需要反復(fù)試錯(cuò)的9x9極端數(shù)獨(dú),現(xiàn)有思維鏈模型完全無法解決(準(zhǔn)確率0%),即便是結(jié)構(gòu)相似的Transformer模型,用同樣數(shù)據(jù)訓(xùn)練也毫無頭緒。而HRM幾乎能全部做對(duì)。



在30x30復(fù)雜迷宮的最優(yōu)路徑尋找任務(wù)中,HRM表現(xiàn)穩(wěn)定,而1.75億參數(shù)的大型Transformer模型準(zhǔn)確率不足20%。

雖然,HRM被指參數(shù)太小、訓(xùn)練范圍有限,只針對(duì)特定領(lǐng)域表現(xiàn)好,無法泛化到領(lǐng)域外,并不通用。但有人認(rèn)為小而精的模型或許在某些角度上更智能。



人工智能的飛躍在于創(chuàng)造性。



也有人認(rèn)為HRM的前景更在于“仿腦”,通過精心設(shè)計(jì)的高低兩個(gè)模塊避免過早收斂,對(duì)過擬合具有極強(qiáng)的抵抗力

甚至有人相當(dāng)樂觀,認(rèn)為這種新架構(gòu)是神經(jīng)網(wǎng)絡(luò)一個(gè)巨大的進(jìn)步。有可能是超越Transformer的時(shí)刻。



拒絕馬斯克,挑戰(zhàn)Transfomer

論文的第一作者王冠是一位00后,8歲開始學(xué)習(xí)編程,后保送至清華大學(xué)計(jì)算機(jī)系。



他是GitHub攬星5.1k開源項(xiàng)目OpenChat的獨(dú)立開發(fā)者,獨(dú)立完成了OpenChat全部版本的模型開發(fā)和訓(xùn)練框架搭建。

也正是因?yàn)镺penChat這個(gè)項(xiàng)目,他和馬斯克產(chǎn)生了交集。

但他算得上是一個(gè)拒絕了馬斯克的男人——此前,王冠多次拒絕了xAI等一線機(jī)構(gòu)創(chuàng)始人的加入邀請。

原因是他認(rèn)為自己要做的是顛覆Transfomer

2024年,王冠和聯(lián)合創(chuàng)始人Austin創(chuàng)辦了Sapient Intelligence,并成功融資數(shù)千萬美元。致力于打造“真正具有復(fù)雜推理和規(guī)劃能力的全新大模型架構(gòu)”。

論文地址:https://arxiv.org/abs/2506.21734
代碼地址:https://github.com/sapientinc/HRM


[1]https://x.com/casper_hansen_/status/1951656675250684163
[2]https://x.com/deedydas/status/1951677875004100814
[3]https://x.com/omarsar0/status/1951751651729060081

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
停車位被霸占,物業(yè)卻說自行解決,我一聲不吭,第二天對(duì)方愣住

停車位被霸占,物業(yè)卻說自行解決,我一聲不吭,第二天對(duì)方愣住

白云故事
2025-08-07 21:15:03
華為出其不意,給英偉達(dá)的CUDA補(bǔ)了致命一刀!

華為出其不意,給英偉達(dá)的CUDA補(bǔ)了致命一刀!

大白聊IT
2025-08-10 14:26:55
4-5!1.2億超巨啞火,2大新援閃耀,利物浦爆冷無緣賽季首冠

4-5!1.2億超巨啞火,2大新援閃耀,利物浦爆冷無緣賽季首冠

我的護(hù)球最獨(dú)特
2025-08-11 00:23:19
楊景媛欺騙了大家,真相曝光:一切都是她精心布局

楊景媛欺騙了大家,真相曝光:一切都是她精心布局

平老師666
2025-08-10 22:41:45
普京到底還能撐多久:烏克蘭戰(zhàn)場上,俄軍每天要燒掉200億美元?

普京到底還能撐多久:烏克蘭戰(zhàn)場上,俄軍每天要燒掉200億美元?

顧史
2025-08-08 22:26:13
本田圭佑此前否認(rèn)南京大屠殺,但查資料后又改變了看法

本田圭佑此前否認(rèn)南京大屠殺,但查資料后又改變了看法

懂球帝
2025-08-10 15:29:09
楊蘭蘭的父親,到底是誰?幾種最接近事實(shí)的“胡猜版”推測

楊蘭蘭的父親,到底是誰?幾種最接近事實(shí)的“胡猜版”推測

李昕言溫度空間
2025-08-10 14:18:23
軍事 | 小心,日本!

軍事 | 小心,日本!

新民周刊
2025-08-11 09:10:23
坐火車你遇到最離譜的事是什么?網(wǎng)友:遇到那種穿灰絲拖鞋的咋辦

坐火車你遇到最離譜的事是什么?網(wǎng)友:遇到那種穿灰絲拖鞋的咋辦

解讀熱點(diǎn)事件
2025-05-07 01:30:03
比少林寺更黑暗的“尼姑庵”,平均年齡不到24,香客半夜人來人往

比少林寺更黑暗的“尼姑庵”,平均年齡不到24,香客半夜人來人往

不八卦掌門人
2025-08-05 20:33:14
教育部新批復(fù)河南組建一所新大學(xué)!

教育部新批復(fù)河南組建一所新大學(xué)!

大象新聞
2025-08-10 15:51:06
林毅夫認(rèn)為,如果中美不再進(jìn)行貿(mào)易,中國不會(huì)購買美國高科技產(chǎn)品

林毅夫認(rèn)為,如果中美不再進(jìn)行貿(mào)易,中國不會(huì)購買美國高科技產(chǎn)品

南權(quán)先生
2025-08-11 10:31:37
龔玥菲拒絕和龐麥郎結(jié)婚!他有抑郁癥,滋潤不了我,我會(huì)獨(dú)守空房

龔玥菲拒絕和龐麥郎結(jié)婚!他有抑郁癥,滋潤不了我,我會(huì)獨(dú)守空房

談史論天地
2025-08-11 08:45:59
危害中國幾百年的白蓮教,到底是個(gè)什么樣的組織?別被電影給騙了

危害中國幾百年的白蓮教,到底是個(gè)什么樣的組織?別被電影給騙了

浩舞默畫
2025-08-10 03:55:04
23歲女孩遠(yuǎn)嫁阿聯(lián)酋,為第7房老婆,嫁去當(dāng)晚被家族規(guī)矩整崩潰了

23歲女孩遠(yuǎn)嫁阿聯(lián)酋,為第7房老婆,嫁去當(dāng)晚被家族規(guī)矩整崩潰了

紅豆講堂
2025-07-30 17:50:06
女子想學(xué)游泳又嫌私教課貴,花錢讓小孩哥來教游泳:每節(jié)課5元,3節(jié)課學(xué)會(huì)了劃水、換氣等

女子想學(xué)游泳又嫌私教課貴,花錢讓小孩哥來教游泳:每節(jié)課5元,3節(jié)課學(xué)會(huì)了劃水、換氣等

觀威海
2025-08-10 18:14:18
萬萬沒想到,老夫少妻的“殘酷現(xiàn)實(shí)”,在59歲的鞏俐身上應(yīng)驗(yàn)了

萬萬沒想到,老夫少妻的“殘酷現(xiàn)實(shí)”,在59歲的鞏俐身上應(yīng)驗(yàn)了

洲洲影視娛評(píng)
2025-08-08 19:43:09
《陳涉世家》被移出教材,原因是6個(gè)字,一篇“新文章”來了

《陳涉世家》被移出教材,原因是6個(gè)字,一篇“新文章”來了

熙熙說教
2025-08-08 20:34:48
新央企董事長赴深圳拜訪任正非

新央企董事長赴深圳拜訪任正非

政知新媒體
2025-08-11 07:29:32
4個(gè)老師弄丟1個(gè)自閉癥男孩!萬元夏令營竟成生死劫?

4個(gè)老師弄丟1個(gè)自閉癥男孩!萬元夏令營竟成生死劫?

林子說事
2025-08-11 08:57:45
2025-08-11 13:03:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11074文章數(shù) 176225關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)對(duì)華出口H20獲批 15%收入需上交美國

頭條要聞

男子發(fā)12字評(píng)論被拘 時(shí)任縣委書記、公安局長已被查

頭條要聞

男子發(fā)12字評(píng)論被拘 時(shí)任縣委書記、公安局長已被查

體育要聞

吉迪庫明加互換?要不吉迪庫明加聯(lián)手?

娛樂要聞

單飛8年后 王源終究走上陳志朋的老路

財(cái)經(jīng)要聞

“任性”的百果園,被現(xiàn)實(shí)教育

汽車要聞

綜合續(xù)航超1500km 智己LS9續(xù)航信息曝光

態(tài)度原創(chuàng)

時(shí)尚
藝術(shù)
教育
數(shù)碼
本地

60歲的媽媽夏天如何打扮?穿衣要不老氣、不裝嫩,得體又優(yōu)雅

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

大冰雹 中考作文 科普書

數(shù)碼要聞

199元!小米智能攝像機(jī)4C 3.5K首銷:首次600萬像素、支持本地AI

本地新聞

非遺里的天津|讓盛唐的榮華,在蠶絲銅絲間復(fù)活

無障礙瀏覽 進(jìn)入關(guān)懷版 久久精品成人免费国产片小草| 麻豆产精国品一二三产区区| china内射骚妇| 色欲色欲久久综合网| 国产亚洲精品中文字幕| 欧美R级高清无删节整片在线观看| s788.cn| 亚洲国产亚洲国产路线久久| 午夜精品一区二区三区在线观看| 亚洲无码爱爱| 欧美性xxxxx极品少妇| 日韩av激情在线观看| 亚洲欧美偷自乱图片| 中文字幕无码久久一区| 欧美精品最大第一页| 色欲香天天综合网站| 精品人妻伦一二三区久久| 久久一日本道色综合久久 | 亚洲综合最新无码2020av| 成人片免费视频| 国产绳艺sm调教室论坛| 欧美性群另类交| 饥渴人妻欲求不满在线| 野花日本免费观看大全3| 华人在线亚洲欧美精品| 爆乳熟妇一区二区三区霸乳 | 精品动漫一区二区三区在线观看| 日本 片 成人 在线| 夜夜久久AV| 成人午夜在线观看刺激| 精品人妻av区| 三级成人网站| 国内精品无码一区二区三区| 日本中文一区二区三区亚洲| 久久久久亚洲Av片无码ⅴ| 天天操夜夜操| 精品综合久久久久久97超人 | 暴力调教一区二区三区| 欧美日韩777| 久久精品区99| 无码国内精品久久人妻 |