夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

算力成本大降!馬爾可夫思考機來了,LLM推理成本直接降為線性

0
分享至



機器之心報道

編輯:Panda

用強化學(xué)習(xí)讓 LLM 具備推理(reasoning)能力確實很有效,但耗費頗高。

這類模型在回答問題前會生成一長串的思維鏈(LongCoT);并且增加「思考 token」 的數(shù)量能夠提升模型的能力。與任何強化學(xué)習(xí)問題一樣,它存在一個決定軌跡如何生成的環(huán)境。

對于推理 LLM 而言,這個環(huán)境相當(dāng)簡單,以至于常常被忽略:狀態(tài)(state)是由提示詞(prompt)與截至目前已生成的推理 token 拼接而成,而動作(action)則是從策略(即推理 LLM)中采樣的下一個 token。

這種設(shè)計看似輕巧,但卻可能導(dǎo)致狀態(tài)的大小沒有邊界 —— 會隨著思考過程的加長而不斷增長。對于基于注意力機制的策略來說,這意味著整個過程中的計算量會面臨令人望而卻步的二次級增長。

為了降低推理 LLM 長思考的計算量,人們已經(jīng)提出了許多方法,包括使用帶有長度正則化的目標(biāo)函數(shù)、剪枝或早停方法等。

而近日,Mila 和微軟研究院等多家機構(gòu)的一個聯(lián)合研究團隊卻另辟蹊徑,提出了一個不同的問題:如果環(huán)境從一開始就不會造成計算量的二次級增長呢?

他們提出了一種新的范式,其中策略會在基于一個固定大小的狀態(tài)上進行推理。他們將這樣的策略命名為馬爾可夫式思考機(Markovian Thinker)



  • 論文標(biāo)題:The Markovian Thinker
  • 論文地址:https://arxiv.org/abs/2510.06557v1
  • 模型地址:https://huggingface.co/collections/McGill-NLP/the-markovian-thinker-68debd2919c4ae47f50706cd
  • 代碼倉庫:https://github.com/McGill-NLP/the-markovian-thinker

這項研究的三位共一作者之一的 Amirhossein Kazemnejad 在 上表示,Delethink 的有效性開啟了強化學(xué)習(xí)思維環(huán)境的創(chuàng)新。此外,馬爾可夫思維的程度及其有效性表明,推理 LLM 可以以不同的方式構(gòu)建,或許可以采用非二次架構(gòu)



馬爾可夫式思考機

馬爾可夫式思考機的核心思想是重構(gòu)強化學(xué)習(xí)的構(gòu)成形式,使得無論總思考長度如何,策略讀取的有效狀態(tài)大小都是有界的。其直接效果是深遠的:更長的思考過程僅需線性的計算量和恒定的內(nèi)存,這與思考長度有關(guān),從而將「模型思考多久」與「它必須處理多少上下文」這兩個問題解耦。

他們通過Delethink這一范式對思想進行了實例化。它是一個強化學(xué)習(xí)環(huán)境,通過將推理過程組織成一系列固定大小的區(qū)塊(chunk)來引導(dǎo)馬爾可夫行為。



Delethink 將思維強化學(xué)習(xí)環(huán)境重新定義為一個分塊的、馬爾可夫式的過程:其生成過程以固定大小的區(qū)塊 (chunk) 進行,在每個區(qū)塊的邊界處,環(huán)境會將上下文 (context) 重置為一個全新的提示詞,該提示詞包含原始查詢以及一小段來自前一個區(qū)塊的延續(xù)內(nèi)容。

這會迫使策略 (policy) 必須學(xué)會通過維持一個文本狀態(tài)來跨區(qū)塊推進思考,從而創(chuàng)建一個「馬爾可夫式思考機」 (Markovian Thinker)。

相比之下,LongCoT 環(huán)境會無限制地拼接 token,因此其狀態(tài)(以及模型上下文)會隨著軌跡 (trace) 的延長而不斷增長。

算法 1 的偽代碼展示了對單個查詢的訓(xùn)練過程。



更多細節(jié)請訪問原論文??傊?jīng)過這樣的設(shè)計,在 Delethink 中的生成和用于更新策略的反向傳播兩個階段都是線性 scaling 的,而在 LongCoT 中則是二次級的。下圖展示了當(dāng)思考長度從 n token 增長到 nS token 時,LongCoT 和 Delethink 的 FLOP、內(nèi)存、反向傳播時間、生成時間的變化情況。



效果顯著

該團隊進行了實驗:Delethink 的效果非常顯著。即便以 8K 大小的區(qū)塊進行推理,使用 Delethink 訓(xùn)練的 DeepSeek R1-Distill 1.5B 模型依然可以思考長達 24K token,在相同的 24K 思考預(yù)算下,其在數(shù)學(xué)基準(zhǔn)測試上的表現(xiàn)能達到并超過 LongCoT-RL。





在測試時擴展方面,Delethink 在 LongCoT-RL 性能飽和時仍能持續(xù)提升,帶來了額外的增益。



更進一步,他們使用 Delethink 訓(xùn)練 R1-Distill 1.5B 模型進行長達 96K token 的思考;僅需少量額外的訓(xùn)練步驟,它就在 AIME’24 上達到了 49% 的準(zhǔn)確度,其解題過程平均長度為 36K token。



線性計算帶來的效果是顯著的:他們根據(jù)實驗數(shù)據(jù)估計,對于平均 94K 的思考長度,LongCoT-RL 訓(xùn)練需要 27 個 H100 - 月,而使用 Delethink 則僅需 7 個 H100 - 月。

為什么有效?

為了探究 Delethink 訓(xùn)練有效的原因,他們還分析了模型在強化學(xué)習(xí)初始化階段的表現(xiàn)。

他們觀察到,R1-Distill 系列模型(1.5B-14B) 在沒有任何額外訓(xùn)練或提示的情況下已經(jīng)能夠零樣本(zero-shot)地采樣出馬爾可夫式的軌跡,甚至恢復(fù)了大部分標(biāo)準(zhǔn) LongCoT 的性能。



這種強大的初始化(即大量符合期望行為的、分布內(nèi)的正向樣本)為強化學(xué)習(xí)提供了一個有利的起點。

他們進一步在 Delethink 環(huán)境中研究了參數(shù)量高達 120B 的推理模型。例如,GPT-OSS 120B(Agarwal et al., 2025)在博士水平問題、編程任務(wù)、數(shù)學(xué)競賽和填字游戲等多個領(lǐng)域都表現(xiàn)出穩(wěn)健的馬爾可夫式思考能力。

這些結(jié)果共同表明,Delethink 能與最先進的模型兼容,并能隨之?dāng)U展。

結(jié)語

馬爾可夫式思考的成功表明,將思考長度與上下文大小解耦原則上可以讓下一代推理模型進行數(shù)百萬 token 的思考。它凸顯了通常被視為固定不變的強化學(xué)習(xí)環(huán)境,實際上是推動進步的強大杠桿。

這也表明,非二次級復(fù)雜度的序列架構(gòu)可能會讓推理模型受益尤多,因為思考過程可以被有效地轉(zhuǎn)化為馬爾可夫式的。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特朗普威脅對中國大幅加征關(guān)稅,美股全面跳水

特朗普威脅對中國大幅加征關(guān)稅,美股全面跳水

觀察者網(wǎng)
2025-10-11 00:58:04
心愛的硅膠娃娃被室友鎖上門猛干,男子“抓奸在床”氣哭報警獲賠7766元

心愛的硅膠娃娃被室友鎖上門猛干,男子“抓奸在床”氣哭報警獲賠7766元

可達鴨面面觀
2025-10-11 15:09:06
“實力派”冷空氣下周到!廣東即將入秋?

“實力派”冷空氣下周到!廣東即將入秋?

廣東發(fā)布
2025-10-11 13:34:04
張家界“愛國賊事件”

張家界“愛國賊事件”

難得君
2025-10-11 15:09:15
美第一夫人:普京給我回了信,我們一直保持開放的溝通渠道

美第一夫人:普京給我回了信,我們一直保持開放的溝通渠道

環(huán)球網(wǎng)資訊
2025-10-11 16:23:54
萬科董事長辛杰已失聯(lián)

萬科董事長辛杰已失聯(lián)

土樓研究所
2025-10-11 17:09:57
溫差20℃!四川繼續(xù)發(fā)布暴雨藍色預(yù)警 明起盆地“鴛鴦鍋”將終結(jié)

溫差20℃!四川繼續(xù)發(fā)布暴雨藍色預(yù)警 明起盆地“鴛鴦鍋”將終結(jié)

封面新聞
2025-10-11 18:05:02
馬光遠:辭職是宗馥莉最好且唯一的選擇

馬光遠:辭職是宗馥莉最好且唯一的選擇

新浪財經(jīng)
2025-10-11 00:51:55
我懷疑,這部片來自暗網(wǎng)

我懷疑,這部片來自暗網(wǎng)

每日一見
2025-10-09 23:56:13
壽宴上遭惡意糾纏拍攝視頻、合影,101歲院士發(fā)聲明維權(quán)

壽宴上遭惡意糾纏拍攝視頻、合影,101歲院士發(fā)聲明維權(quán)

南方都市報
2025-10-11 16:29:28
比贏球更可怕的是賽后主教練的一席話:楊瀚森表現(xiàn)不如新秀

比贏球更可怕的是賽后主教練的一席話:楊瀚森表現(xiàn)不如新秀

王衜曉
2025-10-11 15:12:53
獨家 | 宗慶后之弟宗澤后推出“娃小智”品牌:已簽約153家經(jīng)銷商,全面對打宗馥莉的“娃小宗”

獨家 | 宗慶后之弟宗澤后推出“娃小智”品牌:已簽約153家經(jīng)銷商,全面對打宗馥莉的“娃小宗”

藍鯨新聞
2025-10-11 15:07:09
宗馥莉辭去董事長,三位同父異母弟妹21億美元信托還有戲嗎?

宗馥莉辭去董事長,三位同父異母弟妹21億美元信托還有戲嗎?

雷達財經(jīng)
2025-10-11 17:06:10
喜事!鐵路部門新規(guī):60歲以上,乘坐火車高鐵,可享受這4大福利

喜事!鐵路部門新規(guī):60歲以上,乘坐火車高鐵,可享受這4大福利

小談食刻美食
2025-10-11 15:37:05
賣掉開了8年的燃油車,花35萬買了一輛理想L8,開了6個月終于明白

賣掉開了8年的燃油車,花35萬買了一輛理想L8,開了6個月終于明白

周哥一影視
2025-10-11 11:19:34
驢友徒步未開發(fā)古道溺亡,父母起訴“搭子”等索賠85萬,一二審均敗訴

驢友徒步未開發(fā)古道溺亡,父母起訴“搭子”等索賠85萬,一二審均敗訴

紅星新聞
2025-10-11 14:02:13
唐屹峰,升任廣東省副省長

唐屹峰,升任廣東省副省長

極目新聞
2025-10-11 17:59:34
美媒:若中國不償還百年前的債務(wù),美國也將不承認欠華8600億美元

美媒:若中國不償還百年前的債務(wù),美國也將不承認欠華8600億美元

大國紀(jì)錄
2025-10-11 11:10:38
外交努力被普京認可,特朗普回應(yīng):感謝

外交努力被普京認可,特朗普回應(yīng):感謝

環(huán)球時報國際
2025-10-11 13:58:36
廣東江門一輛摩托疑現(xiàn)“死亡搖擺”,撞上花壇后駕駛員不幸身亡

廣東江門一輛摩托疑現(xiàn)“死亡搖擺”,撞上花壇后駕駛員不幸身亡

大風(fēng)新聞
2025-10-11 12:58:02
2025-10-11 20:11:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11437文章數(shù) 142477關(guān)注度
往期回顧 全部

科技要聞

在中國打不贏,還想在全球贏?

頭條要聞

宗澤后:一手好牌被打個稀爛 娃哈哈栽在宗馥莉手里了

頭條要聞

宗澤后:一手好牌被打個稀爛 娃哈哈栽在宗馥莉手里了

體育要聞

王牌對王牌,阿德巴約終究還是高攀了

娛樂要聞

《向往》收視創(chuàng)新低!節(jié)目氛圍遭吐槽

財經(jīng)要聞

從稀土到高通 中國72小時連出10記重拳

汽車要聞

純電續(xù)航215km 全新阿爾法T5增程版10月底將上市

態(tài)度原創(chuàng)

游戲
教育
親子
公開課
軍事航空

外媒吐槽《虛實萬象》男主"話太密":臺詞老套又無聊

教育要聞

面談問題生家長,全流程公開,供新老師參考!

親子要聞

卵巢早衰能懷孕了嗎?卵巢早衰不來月經(jīng)了怎么辦?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

朝鮮舉行盛大閱兵式 高清大圖來了

無障礙瀏覽 進入關(guān)懷版 精品视频第一页| 国产爆乳网站| 欧美爱爱网站| 亚洲AV无码日韩AV无码中文| 囯产精品久久久久久| 在线观看最新av网址| 亚洲AV无码国产毛片久久春色| 丁香五月亚洲综合在线国内自拍 | 国产视频无码在线观看| 九九热爱视频精品| 高清熟女国产一区二区三区| 人人妻人人澡人人爽欧美二区| 中国丰满熟妇XXXXPPT| 久久精品国产99久久美女| 自拍偷区亚洲综合美利坚| 国产综合无码一区二区辣椒| 亚洲AV旡码AV日韩精品毛片| av最新地址| 偷偷好色偷偷要色| 欧美大尺度一区二区三区精品| 人妻系列无码专区免费| A级大片免费看| 日韩一二三无码专区| 国产成人精品123区免费视频| 国产成+人+综合+亚洲专区| 美女张开腿让男人桶爽| 亚洲国产日韩成人a在线欧美| 人人摸日日操夜夜操| 久久性感美女视频| 亚洲性色图片| 精品一区无码| 亚洲AV成人中文无码专区| 国产精品第三页| 久久精品国产亚洲av天海翼| 国产精品久久久久久婷婷不卡 | 亚洲国产欧美在线人成| 美女诱惑在线一区二区| 中文字幕久久精品一二三区 | 18AV在线免费观看| 激情小说 亚洲热图| 狠狠躁天天躁夜夜躁婷婷老牛影视|