夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

字節(jié)Seed團(tuán)隊發(fā)布循環(huán)語言模型Ouro,在預(yù)訓(xùn)練階段直接「思考」

0
分享至



機(jī)器之心報道

機(jī)器之心編輯部

現(xiàn)代 LLM 通常依賴顯式的文本生成過程(例如「思維鏈」)來進(jìn)行「思考」訓(xùn)練。這種策略將推理任務(wù)推遲到訓(xùn)練后的階段,未能充分挖掘預(yù)訓(xùn)練數(shù)據(jù)中的潛力。

為解決這一問題,字節(jié) Seed 團(tuán)隊聯(lián)合多家機(jī)構(gòu)推出了Ouro,一類被稱為循環(huán)語言模型(Looped Language Models)的新型預(yù)訓(xùn)練模型,其名稱源于象征循環(huán)與自我吞噬的「銜尾蛇」(Ouroboros)。

Ouro 另辟蹊徑通過(i)在潛在空間中進(jìn)行迭代計算,(ii)采用熵正則化目標(biāo)以實現(xiàn)學(xué)習(xí)型深度分配,以及(iii)擴(kuò)展至 7.7T tokens 的數(shù)據(jù)規(guī)模,將推理能力直接構(gòu)建到了預(yù)訓(xùn)練階段。 這些設(shè)計使得模型能夠在預(yù)訓(xùn)練階段直接學(xué)習(xí)和構(gòu)建推理能力,而非僅依賴后期微調(diào)。



  • 論文標(biāo)題:Scaling Latent Reasoning via Looped Language Models
  • 論文地址:https://arxiv.org/pdf/2510.25741
  • 項目主頁:https://ouro-llm.github.io/
  • HuggingFace:https://huggingface.co/collections/ByteDance/ouro

通過對照實驗,研究者發(fā)現(xiàn) Ouro 的性能提升并非源于知識存儲量的增加,而是得益于其更高效的知識操控與推理能力。進(jìn)一步分析表明,Ouro 的潛在推理過程相比標(biāo)準(zhǔn) LLM,更接近真實的人類推理機(jī)制。



Ouro 循環(huán)語言模型的性能。(左)參數(shù)共享的循環(huán)架構(gòu)。(中與右)雷達(dá)圖比較了 Ouro 1.4B 與 2.6B 模型(均采用 4 個循環(huán)步,紅色)與單獨的 Transformer 基線模型。我們的模型表現(xiàn)出強(qiáng)勁性能,可與更大規(guī)模的基線模型相媲美,甚至在部分任務(wù)上超越它們。

最終,Ouro 的 1.4B 和 2.6B 參數(shù)規(guī)模的 LoopLM,分別能在幾乎所有基準(zhǔn)測試中達(dá)到與 4B 和 8B 標(biāo)準(zhǔn) Transformer 相當(dāng)?shù)男阅埽瑢崿F(xiàn)了 2–3 倍的參數(shù)效率提升,顯示了其在數(shù)據(jù)受限時代下作為一種新型擴(kuò)展路徑的潛力。



在高級推理基準(zhǔn)測試中的表現(xiàn)。Ouro-Thinking 系列模型與強(qiáng)大的基線模型(如 Qwen3 和 DeepSeek-Distill)進(jìn)行對比。Ouro-1.4B-Thinking R4 的性能可與 4B 規(guī)模模型相媲美,而 Ouro-2.6B-Thinking R4 在多個數(shù)學(xué)與科學(xué)數(shù)據(jù)集上的表現(xiàn)達(dá)到或超越了 8B 規(guī)模模型。

另外,LoopLM 架構(gòu)在 HEx-PHI 基準(zhǔn)上顯著降低了有害性,且隨著循環(huán)步數(shù)(包括外推步)增加,模型的安全性進(jìn)一步提升。與傳統(tǒng)的 CoT 方法不同,研究者的迭代潛變量更新機(jī)制產(chǎn)生的是因果一致的推理過程,而非事后的合理化解釋。

循環(huán)架構(gòu)

LoopLM 架構(gòu)的靈感來源于「通用 Transformer」。其核心思想是在一個固定的參數(shù)預(yù)算內(nèi)實現(xiàn)「動態(tài)計算」。具體而言,該架構(gòu)包含一個由 N 個共享權(quán)重層組成的「層堆?!?。

在模型的前向傳播過程中,這個共享的層堆棧會被循環(huán)應(yīng)用多次,即經(jīng)歷多個「循環(huán)步驟」。這種設(shè)計將模型的計算規(guī)模從「參數(shù)數(shù)量」解耦到了「計算深度」。

該架構(gòu)的關(guān)鍵特性是其自適應(yīng)計算能力。它集成了一個學(xué)習(xí)到的「退出門」,當(dāng)模型處理輸入時:簡單輸入可能會在經(jīng)歷較少的循環(huán)步驟后就提前退出,從而節(jié)省計算資源;復(fù)雜輸入則會自然地被分配更多的迭代次數(shù),以進(jìn)行更深層的處理。

這種迭代重用被視為一種「潛在推理」。與 CoT 在外部生成顯式文本步驟不同,LoopLM 是在模型的內(nèi)部隱藏狀態(tài)中構(gòu)建了一個「潛在思想鏈」。每一次循環(huán)都是對表征的逐步精煉,從而在不增加參數(shù)的情況下提升了模型的知識操縱能力。

訓(xùn)練流程

Ouro 的訓(xùn)練流程是一個多階段過程,總共使用了 7.7T tokens 的數(shù)據(jù)。

如圖 4 所示,該流程始于一個通用的預(yù)熱階段,隨后是使用 3T token 的初始穩(wěn)定訓(xùn)練階段。在此之后,模型通過「upcycling」策略分支為 1.4B 和 2.6B 兩種參數(shù)規(guī)模的變體。



兩種變體均獨立經(jīng)歷后續(xù)四個相同的訓(xùn)練階段:第二次穩(wěn)定訓(xùn)練(3T token)、CT 退火(CT Annealing, 1.4T token)、用于長上下文的 LongCT(20B token)以及中途訓(xùn)練(Mid-Training, 300B token)。

這個過程產(chǎn)生了 Ouro-1.4B 和 Ouro-2.6B 兩個基礎(chǔ)模型。最后,為了強(qiáng)化特定能力,模型還額外經(jīng)歷了一個專門的推理監(jiān)督微調(diào)階段,以創(chuàng)造出專注于推理的 Ouro-Thinking 系列模型。

在訓(xùn)練穩(wěn)定性方面,團(tuán)隊發(fā)現(xiàn)最初使用 8 個循環(huán)步驟會導(dǎo)致?lián)p失尖峰等不穩(wěn)定問題,因此在后續(xù)階段將循環(huán)步驟減少到 4,以此在計算深度和穩(wěn)定性之間取得了平衡。

為了讓模型學(xué)會何時「提前退出」,訓(xùn)練流程采用了新穎的兩階段目標(biāo):



循環(huán)語言模型架構(gòu)概覽。

左圖為訓(xùn)練階段。在訓(xùn)練過程中,模型使用共享參數(shù)的 N 層堆疊結(jié)構(gòu),并執(zhí)行 n 個循環(huán)步驟(R = 1 到 R = n)。在每個循環(huán)步驟 i,一個退出門預(yù)測退出概率 p?,而語言建模頭 L? 則計算對應(yīng)的任務(wù)損失。 訓(xùn)練目標(biāo)函數(shù)結(jié)合了所有循環(huán)步驟的期望任務(wù)損失,并加入熵正則化項 H(p?,…,p?),以鼓勵模型探索不同的計算深度。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
錢多有什么用?42歲離婚無兒無女的尼格買提,走上了另外一條道路

錢多有什么用?42歲離婚無兒無女的尼格買提,走上了另外一條道路

古事尋蹤記
2025-12-20 07:13:47
俄軍控制維爾恰,哈爾科夫東北鑰匙打開,大片平原唾手可得

俄軍控制維爾恰,哈爾科夫東北鑰匙打開,大片平原唾手可得

堅果甜瓜
2025-12-23 02:55:33
演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

大眼妹妹
2025-12-15 10:39:19
陳妍希帶兒子去海南,穿四萬夾克,又白又美!兒子活潑,陳曉翻版

陳妍希帶兒子去海南,穿四萬夾克,又白又美!兒子活潑,陳曉翻版

心靜物娛
2025-12-22 09:45:15
太絕了!這水果蒸完,喉嚨里的痰“嘩嘩”化,全家人都愛喝!

太絕了!這水果蒸完,喉嚨里的痰“嘩嘩”化,全家人都愛喝!

江江食研社
2025-12-16 08:30:06
海南封關(guān)運作后,就相當(dāng)于中國版的新加坡正式上線了。

海南封關(guān)運作后,就相當(dāng)于中國版的新加坡正式上線了。

流蘇晚晴
2025-12-21 16:05:12
深圳少年烤雞被質(zhì)疑用肉寶王和冷凍雞,帶火他的是李維剛

深圳少年烤雞被質(zhì)疑用肉寶王和冷凍雞,帶火他的是李維剛

映射生活的身影
2025-12-21 20:02:34
李湘帶王詩齡擠高端圈遇挫,穿搭太張揚(yáng)被安排到禮儀區(qū),尷尬拉滿

李湘帶王詩齡擠高端圈遇挫,穿搭太張揚(yáng)被安排到禮儀區(qū),尷尬拉滿

巧妹電影
2025-12-21 14:42:39
總有人納悶,王健林就算只剩100億,為啥王思聰花錢還是那么大方

總有人納悶,王健林就算只剩100億,為啥王思聰花錢還是那么大方

小光侃娛樂
2025-12-10 22:10:04
3 年后應(yīng)驗!C 羅當(dāng)年被罵慘,如今阿莫林親口證實:他沒說錯

3 年后應(yīng)驗!C 羅當(dāng)年被罵慘,如今阿莫林親口證實:他沒說錯

瀾歸序
2025-12-20 08:33:55
主板存嚴(yán)重漏洞用于作弊:拳頭封殺所有未更新BIOS玩家!

主板存嚴(yán)重漏洞用于作弊:拳頭封殺所有未更新BIOS玩家!

快科技
2025-12-21 18:33:05
Stein:哈登有可能在交易截止日前進(jìn)入交易市場

Stein:哈登有可能在交易截止日前進(jìn)入交易市場

北青網(wǎng)-北京青年報
2025-12-22 07:35:03
你敢斷供,我就換供應(yīng)商,安世中國話音剛落,新供應(yīng)鏈突然上馬!

你敢斷供,我就換供應(yīng)商,安世中國話音剛落,新供應(yīng)鏈突然上馬!

古事尋蹤記
2025-12-22 07:11:18
雷軍高調(diào)宣布,小米YU7獲“五星健康車”認(rèn)證,遙遙領(lǐng)先

雷軍高調(diào)宣布,小米YU7獲“五星健康車”認(rèn)證,遙遙領(lǐng)先

胡嚴(yán)亂語
2025-12-20 16:16:55
重賞之下必有勇夫,烏克蘭人進(jìn)攻烏克蘭,烏克蘭怒斥俄不講武德,烏克蘭當(dāng)局咎由自取,如果善待這些地區(qū)親俄的烏克蘭百姓,也不至于此

重賞之下必有勇夫,烏克蘭人進(jìn)攻烏克蘭,烏克蘭怒斥俄不講武德,烏克蘭當(dāng)局咎由自取,如果善待這些地區(qū)親俄的烏克蘭百姓,也不至于此

軍霆說
2025-12-23 02:40:23
10050mAh!新機(jī)官宣:12月25日,正式上市!

10050mAh!新機(jī)官宣:12月25日,正式上市!

科技堡壘
2025-12-22 17:32:05
埃爾多安覺得俄羅斯不行了?當(dāng)面叫板普京,打碎了牙往肚里咽?

埃爾多安覺得俄羅斯不行了?當(dāng)面叫板普京,打碎了牙往肚里咽?

一口娛樂
2025-12-23 02:37:23
中國高鐵第一大省易主 廣東奪回全國第一

中國高鐵第一大省易主 廣東奪回全國第一

雙色球的方向舵
2025-12-22 19:51:37
降息,突傳重磅!黃金狂飆!美股、中概股,全線拉升!

降息,突傳重磅!黃金狂飆!美股、中概股,全線拉升!

證券時報e公司
2025-12-22 23:35:16
1979年,楊顯東參觀完大寨后怒批陳永貴:他騙全國人民,騙黨中央

1979年,楊顯東參觀完大寨后怒批陳永貴:他騙全國人民,騙黨中央

帝哥說史
2025-12-19 06:25:03
2025-12-23 04:03:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11971文章數(shù) 142516關(guān)注度
往期回顧 全部

科技要聞

商湯聯(lián)創(chuàng)親自下場 痛批主流機(jī)器人技術(shù)大錯

頭條要聞

高市早苗政府創(chuàng)下一項27年來最差紀(jì)錄

頭條要聞

高市早苗政府創(chuàng)下一項27年來最差紀(jì)錄

體育要聞

戴琳,中國足球的反向代言人

娛樂要聞

張柏芝不再隱瞞,三胎生父早有答案?

財經(jīng)要聞

央行信用新政:為失信者提供"糾錯"通道

汽車要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開啟盲訂

態(tài)度原創(chuàng)

親子
本地
時尚
房產(chǎn)
公開課

親子要聞

小孩便秘,家長很苦惱?!中醫(yī)分享豬油洗澡

本地新聞

云游安徽|走進(jìn)銅陵,照見三千年不滅的爐火

珍珠配美人,最老派也最高級的時髦

房產(chǎn)要聞

重磅!海南發(fā)布島內(nèi)居民免稅商品經(jīng)營主體及免稅店管理辦法征求意見稿!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲欧美丝袜精品久久中文字幕 | 日本加勒比在线| 成人片在线看无码不卡| 久久99亚洲国产无毛欧| 欧美国产国产综合视频| 日韩av 丝袜人妻| 无码综合天天久久综合网色吧影院| 操老熟妇亚洲| 91网址在线播放| 亚洲AV综合色不卡| 亚洲男人av| 开心五月激情综合久久爱| 欧美亚洲高清国产| 亚洲一二三区成人| 十八禁视频在线观看免费无码无遮挡骂过 | 天天噜噜日日久久综合网| 久久久久亚洲精品国产| 曰韩一级无码| 国产精品爽爽v在线观看无码| 欧美成人两性网站| 亚洲无码电影| 男女性杂交内射女bbwxz| 毛片无码免费在线观看| 亚洲熟妇熟女久久精品综合| 最新版天堂资源中文官网| 久久AV一区二区三区无码| 玩弄淫荡少妇| 久久先锋男人av资源网站| 亚洲av无码乱码国产一区二区| 色先锋影视资源| 污网站在线观看视频| 国产精品久久久久久亚洲AV瑜伽 | 人人妻人人狠人人爽天天综合网| 亚洲AV网站大全| 黑人巨鞭大战人妻H| 操逼喷水啊啊啊视频| 国产又色又爽又黄的视频在线观看| 激情av一区二区| 国产99久久九九精品无码| 麻豆人妻少妇精品无码专区2| 国产精品国产免费无码专区不卡|