突破單鏈思考上限，清華團(tuán)隊提出原生「并行思考」scale范式

2025-09-17 13:00:23　來源: 機(jī)器之心Pro

北京舉報

分享至

近年來，大語言模型（LLMs）在復(fù)雜推理任務(wù)上的能力突飛猛進(jìn)，這在很大程度上得益于深度思考的策略，即通過增加測試時（test-time）的計算量，讓模型生成更長的思維鏈（Chain-of-Thought）。

然而，這條路徑正面臨著一個明顯的瓶頸：隨著計算資源的持續(xù)投入，性能提升變得微乎其微，甚至陷入停滯。

來自清華大學(xué) AIR 的一篇最新研究論文《ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute》對這一瓶頸發(fā)起了挑戰(zhàn) 。

該研究一針見血地指出，這個單鏈 test time scaling 的天花板并非模型能力的固有極限，而是源于當(dāng)前順序推理策略的根本缺陷 —— 一種被研究者稱為「隧道視野」（Tunnel Vision）的現(xiàn)象。

為此，團(tuán)隊提出了模型原生的并行化思考方案，訓(xùn)練 LLM 在一次推理中同時生成和綜合多個不同的推理路徑，從而有效規(guī)避「隧道視野」問題，解鎖模型潛在的推理能力。

該研究證明，與串行擴(kuò)展計算深度相比，并行擴(kuò)展計算寬度是一種更有效、更高效的推理策略。

論文標(biāo)題：
ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute
作者：Hao Wen*, Yifan Su*, Feifei Zhang, Yunxin Liu, Yunhao Liu, Ya-Qin Zhang, Yuanchun Li (*Equal Contribution)
機(jī)構(gòu)：清華大學(xué)
論文地址：https://arxiv.org/pdf/2509.04475

隧道視野：深度思考的阿喀琉斯之踵

擴(kuò)展瓶頸（Scaling Bottleneck）：如下圖所示，對于單個推理路徑（P=1），當(dāng)投入的計算資源（即 Token 預(yù)算）超過一定限度后，模型準(zhǔn)確率便不再提升，甚至可能下降，這表明「想得更久」并不能持續(xù)帶來回報。

隧道視野（Tunnel Vision）：LLM 在生成思維鏈的初期，一旦邁出有瑕疵的第一步，就很容易被鎖定在一條次優(yōu)的推理路徑上，難以在后續(xù)步驟中糾正或發(fā)現(xiàn)更優(yōu)的解法。模型仿佛走進(jìn)了一條狹窄的隧道，無論走多遠(yuǎn)，都無法擺脫最初錯誤方向的束縛。

如下圖 (b) 所示，研究者進(jìn)行了一項實驗：他們故意讓模型從一個錯誤的推理前綴開始繼續(xù)生成答案。結(jié)果顯示，錯誤的前綴越長，模型最終能夠 “撥亂反正” 得到正確答案的概率就越低。這證明了 LLM 一旦陷入錯誤的思維定式，就很難自行跳出。

新范式：從「深度」到「廣度」

原生并行思考（Native Parallel Thinking）的核心思想是，與其讓模型在一條路徑上「死磕」，不如讓它同時探索多條不同思路的推理路徑，最后再綜合提煉出最優(yōu)答案。

為此，研究團(tuán)隊推出了一個名為 ParaThinker 的端到端框架。該框架能夠訓(xùn)練 LLM 在一個統(tǒng)一的前向傳播過程中，并行生成多個多樣化的推理路徑，并將它們?nèi)诤铣梢粋€更高質(zhì)量的最終答案。

ParaThinker 的實現(xiàn)主要依靠三大核心創(chuàng)新：

此外，一個關(guān)鍵的工程優(yōu)勢在于，ParaThinker 在匯總階段能夠重用并行推理過程中生成的 KV 緩存。這極大地節(jié)省了計算資源，避免了昂貴的重新計算（re-prefilling），使得整個過程的延遲開銷極小。

超越 Majority Voting 與簡單任務(wù)分解

并行推理并非一個全新的概念，類似「多數(shù)投票」（Majority Voting）的方法早已被用于提升模型在選擇題或數(shù)值計算等任務(wù)上的表現(xiàn)。但這類方法的局限性也十分明顯：它們依賴于可被輕易量化和驗證的答案格式，而對于代碼生成、數(shù)學(xué)證明、復(fù)雜智能體工作流等開放式、生成式的任務(wù)則束手無策。

ParaThinker 的優(yōu)越性正在于此。它不是簡單地對多個獨(dú)立結(jié)果進(jìn)行投票，而是學(xué)習(xí)如何智能地「整合」與「提煉」來自不同推理過程的信息。這使其成為一種更通用、更強(qiáng)大的并行推理框架，能夠處理無法被簡單投票的復(fù)雜任務(wù)，真正釋放了并行思考的潛力。

在并行推理的探索道路上，除了 ParaThinker，近年來也涌現(xiàn)出其他值得關(guān)注的思路，例如以 Multiverse（https://arxiv.org/abs/2506.09991）為代表的工作，但其主要目標(biāo)側(cè)重效率：根據(jù)原文分析，這些方法的主要目標(biāo)是加速生成過程，即讓模型「做得快」，而不是直接致力于提升最終答案的準(zhǔn)確性。

此外，其任務(wù)分解依賴任務(wù)結(jié)構(gòu)：它們的成功很大程度上依賴于任務(wù)本身是否適合被顯式地分解。對于許多不可分解的、需要整體性思維的復(fù)雜問題，這種方法的適用性便會受限。

相比之下，ParaThinker 提供了一種更具普適性的并行范式。它不假設(shè)任何子任務(wù)結(jié)構(gòu)，也不試圖對問題進(jìn)行拆解。ParaThinker 的核心目標(biāo)是通過思維的多樣性來提升準(zhǔn)確性。

實驗結(jié)果：正確率隨思維廣度有效提升

在 AIME、AMC、MATH-500 等難度基準(zhǔn)上，1.5B 參數(shù)模型用 8 條并行路徑，平均準(zhǔn)確率提升12.3%；7B 模型提升7.5%

延遲開銷較低：推理延遲并不隨著同時思維鏈數(shù)而線性增長，在 batch size=1 時，并行路徑數(shù)增加了 8 倍，但延遲僅增加了約 10%，這體現(xiàn)了并行計算在硬件層面的巨大優(yōu)勢。

與多數(shù)投票（Majority Voting）的結(jié)合

ParaThinker 與 majority voting 策略（即生成 k 個獨(dú)立答案，選擇出現(xiàn)次數(shù)最多的那個）并不沖突，兩者疊加可以達(dá)到更高的正確率。

ParaThinker 教會大模型像人類一樣「頭腦風(fēng)暴」，并行探索多種思路，再整合成最優(yōu)答案。它預(yù)示著未來 LLM 的規(guī)?；l(fā)展之路，將從單純的「深度」擴(kuò)展轉(zhuǎn)向更有效的「廣度」擴(kuò)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.