網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

算力成本大降！馬爾可夫思考機來了，LLM推理成本直接降為線性

2025-10-10 15:01:30　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：Panda

用強化學(xué)習(xí)讓 LLM 具備推理（reasoning）能力確實很有效，但耗費頗高。

這類模型在回答問題前會生成一長串的思維鏈（LongCoT）；并且增加「思考 token」的數(shù)量能夠提升模型的能力。與任何強化學(xué)習(xí)問題一樣，它存在一個決定軌跡如何生成的環(huán)境。

對于推理 LLM 而言，這個環(huán)境相當(dāng)簡單，以至于常常被忽略：狀態(tài)（state）是由提示詞（prompt）與截至目前已生成的推理 token 拼接而成，而動作（action）則是從策略（即推理 LLM）中采樣的下一個 token。

這種設(shè)計看似輕巧，但卻可能導(dǎo)致狀態(tài)的大小沒有邊界 —— 會隨著思考過程的加長而不斷增長。對于基于注意力機制的策略來說，這意味著整個過程中的計算量會面臨令人望而卻步的二次級增長。

為了降低推理 LLM 長思考的計算量，人們已經(jīng)提出了許多方法，包括使用帶有長度正則化的目標(biāo)函數(shù)、剪枝或早停方法等。

而近日，Mila 和微軟研究院等多家機構(gòu)的一個聯(lián)合研究團隊卻另辟蹊徑，提出了一個不同的問題：如果環(huán)境從一開始就不會造成計算量的二次級增長呢？

他們提出了一種新的范式，其中策略會在基于一個固定大小的狀態(tài)上進行推理。他們將這樣的策略命名為馬爾可夫式思考機（Markovian Thinker)

論文標(biāo)題：The Markovian Thinker
論文地址：https://arxiv.org/abs/2510.06557v1
模型地址：https://huggingface.co/collections/McGill-NLP/the-markovian-thinker-68debd2919c4ae47f50706cd
代碼倉庫：https://github.com/McGill-NLP/the-markovian-thinker

這項研究的三位共一作者之一的 Amirhossein Kazemnejad 在上表示，Delethink 的有效性開啟了強化學(xué)習(xí)思維環(huán)境的創(chuàng)新。此外，馬爾可夫思維的程度及其有效性表明，推理 LLM 可以以不同的方式構(gòu)建，或許可以采用非二次架構(gòu)

馬爾可夫式思考機

馬爾可夫式思考機的核心思想是重構(gòu)強化學(xué)習(xí)的構(gòu)成形式，使得無論總思考長度如何，策略讀取的有效狀態(tài)大小都是有界的。其直接效果是深遠的：更長的思考過程僅需線性的計算量和恒定的內(nèi)存，這與思考長度有關(guān)，從而將「模型思考多久」與「它必須處理多少上下文」這兩個問題解耦。

他們通過Delethink這一范式對思想進行了實例化。它是一個強化學(xué)習(xí)環(huán)境，通過將推理過程組織成一系列固定大小的區(qū)塊（chunk）來引導(dǎo)馬爾可夫行為。

Delethink 將思維強化學(xué)習(xí)環(huán)境重新定義為一個分塊的、馬爾可夫式的過程：其生成過程以固定大小的區(qū)塊 (chunk) 進行，在每個區(qū)塊的邊界處，環(huán)境會將上下文 (context) 重置為一個全新的提示詞，該提示詞包含原始查詢以及一小段來自前一個區(qū)塊的延續(xù)內(nèi)容。

這會迫使策略 (policy) 必須學(xué)會通過維持一個文本狀態(tài)來跨區(qū)塊推進思考，從而創(chuàng)建一個「馬爾可夫式思考機」 (Markovian Thinker)。

相比之下，LongCoT 環(huán)境會無限制地拼接 token，因此其狀態(tài)（以及模型上下文）會隨著軌跡 (trace) 的延長而不斷增長。

算法 1 的偽代碼展示了對單個查詢的訓(xùn)練過程。

更多細節(jié)請訪問原論文?？傊?jīng)過這樣的設(shè)計，在 Delethink 中的生成和用于更新策略的反向傳播兩個階段都是線性 scaling 的，而在 LongCoT 中則是二次級的。下圖展示了當(dāng)思考長度從 n token 增長到 nS token 時，LongCoT 和 Delethink 的 FLOP、內(nèi)存、反向傳播時間、生成時間的變化情況。

效果顯著

該團隊進行了實驗：Delethink 的效果非常顯著。即便以 8K 大小的區(qū)塊進行推理，使用 Delethink 訓(xùn)練的 DeepSeek R1-Distill 1.5B 模型依然可以思考長達 24K token，在相同的 24K 思考預(yù)算下，其在數(shù)學(xué)基準(zhǔn)測試上的表現(xiàn)能達到并超過 LongCoT-RL。

在測試時擴展方面，Delethink 在 LongCoT-RL 性能飽和時仍能持續(xù)提升，帶來了額外的增益。

更進一步，他們使用 Delethink 訓(xùn)練 R1-Distill 1.5B 模型進行長達 96K token 的思考；僅需少量額外的訓(xùn)練步驟，它就在 AIME’24 上達到了 49% 的準(zhǔn)確度，其解題過程平均長度為 36K token。

線性計算帶來的效果是顯著的：他們根據(jù)實驗數(shù)據(jù)估計，對于平均 94K 的思考長度，LongCoT-RL 訓(xùn)練需要 27 個 H100 - 月，而使用 Delethink 則僅需 7 個 H100 - 月。

為什么有效？

為了探究 Delethink 訓(xùn)練有效的原因，他們還分析了模型在強化學(xué)習(xí)初始化階段的表現(xiàn)。

他們觀察到，R1-Distill 系列模型（1.5B-14B) 在沒有任何額外訓(xùn)練或提示的情況下已經(jīng)能夠零樣本（zero-shot）地采樣出馬爾可夫式的軌跡，甚至恢復(fù)了大部分標(biāo)準(zhǔn) LongCoT 的性能。

這種強大的初始化（即大量符合期望行為的、分布內(nèi)的正向樣本）為強化學(xué)習(xí)提供了一個有利的起點。

他們進一步在 Delethink 環(huán)境中研究了參數(shù)量高達 120B 的推理模型。例如，GPT-OSS 120B（Agarwal et al., 2025）在博士水平問題、編程任務(wù)、數(shù)學(xué)競賽和填字游戲等多個領(lǐng)域都表現(xiàn)出穩(wěn)健的馬爾可夫式思考能力。

這些結(jié)果共同表明，Delethink 能與最先進的模型兼容，并能隨之?dāng)U展。

結(jié)語

馬爾可夫式思考的成功表明，將思考長度與上下文大小解耦原則上可以讓下一代推理模型進行數(shù)百萬 token 的思考。它凸顯了通常被視為固定不變的強化學(xué)習(xí)環(huán)境，實際上是推動進步的強大杠桿。

這也表明，非二次級復(fù)雜度的序列架構(gòu)可能會讓推理模型受益尤多，因為思考過程可以被有效地轉(zhuǎn)化為馬爾可夫式的。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.