近年來,大語言模型(LLMs)在復(fù)雜推理任務(wù)上的能力突飛猛進(jìn),這在很大程度上得益于深度思考的策略,即通過增加測試時(test-time)的計算量,讓模型生成更長的思維鏈(Chain-of-Thought)。
然而,這條路徑正面臨著一個明顯的瓶頸:隨著計算資源的持續(xù)投入,性能提升變得微乎其微,甚至陷入停滯。
來自清華大學(xué) AIR 的一篇最新研究論文《ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute》對這一瓶頸發(fā)起了挑戰(zhàn) 。
該研究一針見血地指出,這個單鏈 test time scaling 的天花板并非模型能力的固有極限,而是源于當(dāng)前順序推理策略的根本缺陷 —— 一種被研究者稱為「隧道視野」(Tunnel Vision)的現(xiàn)象。
為此,團(tuán)隊提出了模型原生的并行化思考方案,訓(xùn)練 LLM 在一次推理中同時生成和綜合多個不同的推理路徑,從而有效規(guī)避「隧道視野」問題,解鎖模型潛在的推理能力。
該研究證明,與串行擴(kuò)展計算深度相比,并行擴(kuò)展計算寬度是一種更有效、更高效的推理策略。
- 論文標(biāo)題:
- ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute
- 作者:Hao Wen*, Yifan Su*, Feifei Zhang, Yunxin Liu, Yunhao Liu, Ya-Qin Zhang, Yuanchun Li (*Equal Contribution)
- 機(jī)構(gòu):清華大學(xué)
- 論文地址:https://arxiv.org/pdf/2509.04475
隧道視野:深度思考的阿喀琉斯之踵
擴(kuò)展瓶頸(Scaling Bottleneck):如下圖所示,對于單個推理路徑(P=1),當(dāng)投入的計算資源(即 Token 預(yù)算)超過一定限度后,模型準(zhǔn)確率便不再提升,甚至可能下降,這表明「想得更久」并不能持續(xù)帶來回報。
隧道視野(Tunnel Vision):LLM 在生成思維鏈的初期,一旦邁出有瑕疵的第一步,就很容易被鎖定在一條次優(yōu)的推理路徑上,難以在后續(xù)步驟中糾正或發(fā)現(xiàn)更優(yōu)的解法 。模型仿佛走進(jìn)了一條狹窄的隧道,無論走多遠(yuǎn),都無法擺脫最初錯誤方向的束縛。
如下圖 (b) 所示,研究者進(jìn)行了一項實驗:他們故意讓模型從一個錯誤的推理前綴開始繼續(xù)生成答案。結(jié)果顯示,錯誤的前綴越長,模型最終能夠 “撥亂反正” 得到正確答案的概率就越低。這證明了 LLM 一旦陷入錯誤的思維定式,就很難自行跳出。
新范式:從「深度」到「廣度」
原生并行思考(Native Parallel Thinking)的核心思想是,與其讓模型在一條路徑上「死磕」,不如讓它同時探索多條不同思路的推理路徑,最后再綜合提煉出最優(yōu)答案。
為此,研究團(tuán)隊推出了一個名為 ParaThinker 的端到端框架。該框架能夠訓(xùn)練 LLM 在一個統(tǒng)一的前向傳播過程中,并行生成多個多樣化的推理路徑,并將它們?nèi)诤铣梢粋€更高質(zhì)量的最終答案。
ParaThinker 的實現(xiàn)主要依靠三大核心創(chuàng)新:
此外,一個關(guān)鍵的工程優(yōu)勢在于,ParaThinker 在匯總階段能夠重用并行推理過程中生成的 KV 緩存。這極大地節(jié)省了計算資源,避免了昂貴的重新計算(re-prefilling),使得整個過程的延遲開銷極小。
超越 Majority Voting 與簡單任務(wù)分解
并行推理并非一個全新的概念,類似「多數(shù)投票」(Majority Voting)的方法早已被用于提升模型在選擇題或數(shù)值計算等任務(wù)上的表現(xiàn)。但這類方法的局限性也十分明顯:它們依賴于可被輕易量化和驗證的答案格式,而對于代碼生成、數(shù)學(xué)證明、復(fù)雜智能體工作流等開放式、生成式的任務(wù)則束手無策。
ParaThinker 的優(yōu)越性正在于此。它不是簡單地對多個獨(dú)立結(jié)果進(jìn)行投票,而是學(xué)習(xí)如何智能地「整合」與「提煉」來自不同推理過程的信息。這使其成為一種更通用、更強(qiáng)大的并行推理框架,能夠處理無法被簡單投票的復(fù)雜任務(wù),真正釋放了并行思考的潛力。
在并行推理的探索道路上,除了 ParaThinker,近年來也涌現(xiàn)出其他值得關(guān)注的思路,例如以 Multiverse(https://arxiv.org/abs/2506.09991)為代表的工作,但其主要目標(biāo)側(cè)重效率:根據(jù)原文分析,這些方法的主要目標(biāo)是加速生成過程,即讓模型「做得快」,而不是直接致力于提升最終答案的準(zhǔn)確性。
此外,其任務(wù)分解依賴任務(wù)結(jié)構(gòu):它們的成功很大程度上依賴于任務(wù)本身是否適合被顯式地分解。對于許多不可分解的、需要整體性思維的復(fù)雜問題,這種方法的適用性便會受限。
相比之下,ParaThinker 提供了一種更具普適性的并行范式。它不假設(shè)任何子任務(wù)結(jié)構(gòu),也不試圖對問題進(jìn)行拆解。ParaThinker 的核心目標(biāo)是通過思維的多樣性來提升準(zhǔn)確性。
實驗結(jié)果:正確率隨思維廣度有效提升
在 AIME、AMC、MATH-500 等難度基準(zhǔn)上,1.5B 參數(shù)模型用 8 條并行路徑,平均準(zhǔn)確率提升12.3%;7B 模型提升7.5%
延遲開銷較低:推理延遲并不隨著同時思維鏈數(shù)而線性增長,在 batch size=1 時,并行路徑數(shù)增加了 8 倍,但延遲僅增加了約 10%,這體現(xiàn)了并行計算在硬件層面的巨大優(yōu)勢。
與多數(shù)投票(Majority Voting)的結(jié)合
ParaThinker 與 majority voting 策略(即生成 k 個獨(dú)立答案,選擇出現(xiàn)次數(shù)最多的那個)并不沖突,兩者疊加可以達(dá)到更高的正確率。
ParaThinker 教會大模型像人類一樣「頭腦風(fēng)暴」,并行探索多種思路,再整合成最優(yōu)答案。它預(yù)示著未來 LLM 的規(guī)?;l(fā)展之路,將從單純的「深度」擴(kuò)展轉(zhuǎn)向更有效的「廣度」擴(kuò)展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.