機器之心報道
編輯:Panda
用強化學(xué)習(xí)讓 LLM 具備推理(reasoning)能力確實很有效,但耗費頗高。
這類模型在回答問題前會生成一長串的思維鏈(LongCoT);并且增加「思考 token」 的數(shù)量能夠提升模型的能力。與任何強化學(xué)習(xí)問題一樣,它存在一個決定軌跡如何生成的環(huán)境。
對于推理 LLM 而言,這個環(huán)境相當(dāng)簡單,以至于常常被忽略:狀態(tài)(state)是由提示詞(prompt)與截至目前已生成的推理 token 拼接而成,而動作(action)則是從策略(即推理 LLM)中采樣的下一個 token。
這種設(shè)計看似輕巧,但卻可能導(dǎo)致狀態(tài)的大小沒有邊界 —— 會隨著思考過程的加長而不斷增長。對于基于注意力機制的策略來說,這意味著整個過程中的計算量會面臨令人望而卻步的二次級增長。
為了降低推理 LLM 長思考的計算量,人們已經(jīng)提出了許多方法,包括使用帶有長度正則化的目標(biāo)函數(shù)、剪枝或早停方法等。
而近日,Mila 和微軟研究院等多家機構(gòu)的一個聯(lián)合研究團隊卻另辟蹊徑,提出了一個不同的問題:如果環(huán)境從一開始就不會造成計算量的二次級增長呢?
他們提出了一種新的范式,其中策略會在基于一個固定大小的狀態(tài)上進行推理。他們將這樣的策略命名為馬爾可夫式思考機(Markovian Thinker)
- 論文標(biāo)題:The Markovian Thinker
- 論文地址:https://arxiv.org/abs/2510.06557v1
- 模型地址:https://huggingface.co/collections/McGill-NLP/the-markovian-thinker-68debd2919c4ae47f50706cd
- 代碼倉庫:https://github.com/McGill-NLP/the-markovian-thinker
這項研究的三位共一作者之一的 Amirhossein Kazemnejad 在 上表示,Delethink 的有效性開啟了強化學(xué)習(xí)思維環(huán)境的創(chuàng)新。此外,馬爾可夫思維的程度及其有效性表明,推理 LLM 可以以不同的方式構(gòu)建,或許可以采用非二次架構(gòu)
馬爾可夫式思考機
馬爾可夫式思考機的核心思想是重構(gòu)強化學(xué)習(xí)的構(gòu)成形式,使得無論總思考長度如何,策略讀取的有效狀態(tài)大小都是有界的。其直接效果是深遠的:更長的思考過程僅需線性的計算量和恒定的內(nèi)存,這與思考長度有關(guān),從而將「模型思考多久」與「它必須處理多少上下文」這兩個問題解耦。
他們通過Delethink這一范式對思想進行了實例化。它是一個強化學(xué)習(xí)環(huán)境,通過將推理過程組織成一系列固定大小的區(qū)塊(chunk)來引導(dǎo)馬爾可夫行為。
Delethink 將思維強化學(xué)習(xí)環(huán)境重新定義為一個分塊的、馬爾可夫式的過程:其生成過程以固定大小的區(qū)塊 (chunk) 進行,在每個區(qū)塊的邊界處,環(huán)境會將上下文 (context) 重置為一個全新的提示詞,該提示詞包含原始查詢以及一小段來自前一個區(qū)塊的延續(xù)內(nèi)容。
這會迫使策略 (policy) 必須學(xué)會通過維持一個文本狀態(tài)來跨區(qū)塊推進思考,從而創(chuàng)建一個「馬爾可夫式思考機」 (Markovian Thinker)。
相比之下,LongCoT 環(huán)境會無限制地拼接 token,因此其狀態(tài)(以及模型上下文)會隨著軌跡 (trace) 的延長而不斷增長。
算法 1 的偽代碼展示了對單個查詢的訓(xùn)練過程。
更多細節(jié)請訪問原論文??傊?jīng)過這樣的設(shè)計,在 Delethink 中的生成和用于更新策略的反向傳播兩個階段都是線性 scaling 的,而在 LongCoT 中則是二次級的。下圖展示了當(dāng)思考長度從 n token 增長到 nS token 時,LongCoT 和 Delethink 的 FLOP、內(nèi)存、反向傳播時間、生成時間的變化情況。
效果顯著
該團隊進行了實驗:Delethink 的效果非常顯著。即便以 8K 大小的區(qū)塊進行推理,使用 Delethink 訓(xùn)練的 DeepSeek R1-Distill 1.5B 模型依然可以思考長達 24K token,在相同的 24K 思考預(yù)算下,其在數(shù)學(xué)基準(zhǔn)測試上的表現(xiàn)能達到并超過 LongCoT-RL。
在測試時擴展方面,Delethink 在 LongCoT-RL 性能飽和時仍能持續(xù)提升,帶來了額外的增益。
更進一步,他們使用 Delethink 訓(xùn)練 R1-Distill 1.5B 模型進行長達 96K token 的思考;僅需少量額外的訓(xùn)練步驟,它就在 AIME’24 上達到了 49% 的準(zhǔn)確度,其解題過程平均長度為 36K token。
線性計算帶來的效果是顯著的:他們根據(jù)實驗數(shù)據(jù)估計,對于平均 94K 的思考長度,LongCoT-RL 訓(xùn)練需要 27 個 H100 - 月,而使用 Delethink 則僅需 7 個 H100 - 月。
為什么有效?
為了探究 Delethink 訓(xùn)練有效的原因,他們還分析了模型在強化學(xué)習(xí)初始化階段的表現(xiàn)。
他們觀察到,R1-Distill 系列模型(1.5B-14B) 在沒有任何額外訓(xùn)練或提示的情況下已經(jīng)能夠零樣本(zero-shot)地采樣出馬爾可夫式的軌跡,甚至恢復(fù)了大部分標(biāo)準(zhǔn) LongCoT 的性能。
這種強大的初始化(即大量符合期望行為的、分布內(nèi)的正向樣本)為強化學(xué)習(xí)提供了一個有利的起點。
他們進一步在 Delethink 環(huán)境中研究了參數(shù)量高達 120B 的推理模型。例如,GPT-OSS 120B(Agarwal et al., 2025)在博士水平問題、編程任務(wù)、數(shù)學(xué)競賽和填字游戲等多個領(lǐng)域都表現(xiàn)出穩(wěn)健的馬爾可夫式思考能力。
這些結(jié)果共同表明,Delethink 能與最先進的模型兼容,并能隨之?dāng)U展。
結(jié)語
馬爾可夫式思考的成功表明,將思考長度與上下文大小解耦原則上可以讓下一代推理模型進行數(shù)百萬 token 的思考。它凸顯了通常被視為固定不變的強化學(xué)習(xí)環(huán)境,實際上是推動進步的強大杠桿。
這也表明,非二次級復(fù)雜度的序列架構(gòu)可能會讓推理模型受益尤多,因為思考過程可以被有效地轉(zhuǎn)化為馬爾可夫式的。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.