網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

誰(shuí)說Scaling Law到頭了?新研究:每一步微小提升會(huì)帶來指數(shù)級(jí)增長(zhǎng)

2025-09-16 14:09:27　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

編輯：張倩

很多人認(rèn)為，Scaling Law 正在面臨收益遞減，因此繼續(xù)擴(kuò)大計(jì)算規(guī)模訓(xùn)練模型的做法正在被質(zhì)疑。最近的觀察給出了不一樣的結(jié)論。研究發(fā)現(xiàn)，哪怕模型在「單步任務(wù)」上的準(zhǔn)確率提升越來越慢，這些小小的進(jìn)步疊加起來，也能讓模型完成的任務(wù)長(zhǎng)度實(shí)現(xiàn)「指數(shù)級(jí)增長(zhǎng)」，而這一點(diǎn)可能在現(xiàn)實(shí)中更有經(jīng)濟(jì)價(jià)值。

如果繼續(xù)擴(kuò)大計(jì)算規(guī)模，邊際收益卻在遞減，企業(yè)繼續(xù)真金白銀投入更大模型的訓(xùn)練是否還是一個(gè)合理的選擇？大概從去年開始，AI 領(lǐng)域就在爭(zhēng)論這一問題。

最近，有篇論文給出了一個(gè)有意思的觀點(diǎn)：雖然 scaling law 顯示 LLM 在測(cè)試損失等指標(biāo)上存在收益遞減，但模型在現(xiàn)實(shí)世界的價(jià)值往往源于一個(gè)智能體能夠完成任務(wù)的長(zhǎng)度。從這個(gè)角度來看，更大的模型非但沒有收益遞減，反而能將單步準(zhǔn)確率的微小提升復(fù)合放大，在任務(wù)完成長(zhǎng)度上實(shí)現(xiàn)指數(shù)級(jí)躍升。

論文標(biāo)題：The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs
論文鏈接：https://arxiv.org/pdf/2509.09677
代碼鏈接：https://github.com/long-horizon-execution/measuring-execution
數(shù)據(jù)集鏈接：https://huggingface.co/datasets/arvindh75/Long-Horizon-Execution

這篇論文來自劍橋大學(xué)等機(jī)構(gòu)。論文指出，長(zhǎng)期以來，完成長(zhǎng)程任務(wù)一直是深度學(xué)習(xí)的致命弱點(diǎn)。自動(dòng)駕駛 demo 很炫酷，但要真正上路跑長(zhǎng)途，用了十多年才實(shí)現(xiàn)。AI 能生成驚艷的圖片，但拍一段連貫、一致的長(zhǎng)視頻至今仍是難題?，F(xiàn)在企業(yè)都想要 AI 幫忙處理整個(gè)項(xiàng)目，而不只是回答零散問題。但這里有個(gè)核心疑問：我們?cè)撊绾魏饬?LLM 能可靠執(zhí)行多少步的工作？

LLM 在簡(jiǎn)單長(zhǎng)任務(wù)上的失敗被認(rèn)為是推理能力的根本缺陷。盡管 LLM 在復(fù)雜推理基準(zhǔn)測(cè)試上有了巨大改進(jìn)，依然有論文聲稱思考模型只是給出了「思考的幻覺」（arXiv:2506.06941），因?yàn)楫?dāng)任務(wù)變得更長(zhǎng)時(shí)，它們最終會(huì)失敗。

這些結(jié)果在社區(qū)中引發(fā)了很多爭(zhēng)論。但本文作者認(rèn)為，我們可以通過解耦推理或智能體任務(wù)中規(guī)劃（planning）和執(zhí)行（execution）的需求來解決這個(gè)問題。

規(guī)劃涉及決定檢索什么信息或使用什么工具以及使用順序，而執(zhí)行就是讓規(guī)劃變成現(xiàn)實(shí)。在《思考的幻覺》論文中，LLM 顯然知道規(guī)劃，因?yàn)樗畛跽_地執(zhí)行了許多步驟。本文研究者認(rèn)為，最終的失敗在于執(zhí)行 —— 隨著任務(wù)變長(zhǎng)，模型在執(zhí)行規(guī)劃時(shí)更容易犯錯(cuò)。盡管人們非常關(guān)注 LLM 的規(guī)劃能力，但執(zhí)行仍然是一個(gè)研究不足的挑戰(zhàn)。隨著 LLM 開始用于長(zhǎng)推理和智能體任務(wù)，這一方向變得越來越重要。

在這篇論文中，作者在受控環(huán)境中測(cè)量了 LLM 的長(zhǎng)程執(zhí)行能力。他們通過顯式提供所需的知識(shí)和規(guī)劃來隔離 LLM 的執(zhí)行能力。通過控制輪數(shù)和每輪的步驟數(shù)（它們共同構(gòu)成任務(wù)長(zhǎng)度），他們揭示了關(guān)于 LLM 長(zhǎng)程任務(wù)執(zhí)行能力的見解：

1、Scaling 是否存在收益遞減？

作者觀察到，雖然單步準(zhǔn)確率的提升幅度在減小，但準(zhǔn)確率的微小提升可以復(fù)合放大，進(jìn)而導(dǎo)致模型能夠完成的任務(wù)長(zhǎng)度呈指數(shù)級(jí)增長(zhǎng)。

過去大家覺得，scaling 模型大小之所以會(huì)有用，是因?yàn)檫@會(huì)提高模型存儲(chǔ)參數(shù)化知識(shí)或搜索規(guī)劃的能力。

然而，作者在實(shí)驗(yàn)中發(fā)現(xiàn)，在顯式提供了所需的知識(shí)和規(guī)劃后，scaling 模型大小仍能顯著提高模型成功執(zhí)行的輪次數(shù)量。這說明 scaling 模型的價(jià)值不僅體現(xiàn)在能讓模型記住更多知識(shí)或更會(huì)尋找問題解答上。

2、Self-Conditioning 效應(yīng)

人們可能會(huì)認(rèn)為，長(zhǎng)任務(wù)中的失敗僅僅是由于小而恒定的每步錯(cuò)誤率不斷累積造成的。然而，作者發(fā)現(xiàn)，隨著任務(wù)的推進(jìn)，每步錯(cuò)誤率本身會(huì)上升。這與人類形成了對(duì)比，人類在執(zhí)行任務(wù)時(shí)通常會(huì)通過練習(xí)而進(jìn)步。

作者推測(cè)，由于模型訓(xùn)練的很大一部分是根據(jù)上下文預(yù)測(cè)最可能的下一個(gè) token，因此讓模型以自身容易出錯(cuò)的歷史為條件會(huì)增加未來出錯(cuò)的可能性。他們通過控制展示給模型的歷史中的錯(cuò)誤率來對(duì)此進(jìn)行測(cè)試。隨著歷史中的錯(cuò)誤率升高，他們觀察到后續(xù)步驟的準(zhǔn)確率急劇下降，這驗(yàn)證了模型會(huì)進(jìn)行 self-condition 設(shè)定。

作者表明，除了先前已發(fā)現(xiàn)的長(zhǎng)上下文問題外，self-conditioning 設(shè)定還會(huì)導(dǎo)致模型在長(zhǎng)程任務(wù)中的性能下降，而且與長(zhǎng)上下文問題不同的是，這種性能下降并不會(huì)通過增大模型規(guī)模而得到緩解。

3、思考的影響

作者發(fā)現(xiàn)近期的思考模型不會(huì)受到先前錯(cuò)誤的影響，能夠修正 self-conditioning 限制。此外，順序測(cè)試時(shí)計(jì)算量（sequential test time compute）的顯著提升了模型在單輪對(duì)話中可完成任務(wù)的長(zhǎng)度。在沒有思維鏈（CoT）的情況下，像 DeepSeek V3 這樣的前沿大語(yǔ)言模型甚至連兩步執(zhí)行都無法完成，而其具備思考能力的版本 R1 則能執(zhí)行 200 步，這凸顯了行動(dòng)前進(jìn)行推理的重要性。

作者對(duì)前沿思考模型進(jìn)行了基準(zhǔn)測(cè)試，發(fā)現(xiàn) GPT-5 的思考版本（代號(hào) Horizon）能夠執(zhí)行超過 1000 步，遠(yuǎn)超緊隨其后的競(jìng)爭(zhēng)對(duì)手 —— 能執(zhí)行 432 步的 Claude-4-Sonnet。

LLM 能力的「參差不齊」既令人著迷又讓人困惑。與傳統(tǒng)機(jī)器不同，大語(yǔ)言模型在執(zhí)行重復(fù)性任務(wù)時(shí)更容易出現(xiàn)故障。因此，作者認(rèn)為，長(zhǎng)任務(wù)中的執(zhí)行失敗不應(yīng)被誤解為缺乏推理或規(guī)劃能力。他們發(fā)現(xiàn)，通過擴(kuò)大模型規(guī)模和增加順序測(cè)試時(shí)間的計(jì)算量，模型長(zhǎng)程執(zhí)行能力會(huì)得到顯著提升。如果一個(gè)模型能夠完成的任務(wù)長(zhǎng)度表明其經(jīng)濟(jì)價(jià)值，那么持續(xù)投入以增加計(jì)算量可能是值得的，即便短任務(wù)基準(zhǔn)測(cè)試給人一種進(jìn)展放緩的錯(cuò)覺。

這篇論文讓很多人感覺深受啟發(fā)，還有人提出我們應(yīng)該設(shè)計(jì)更多針對(duì)模型執(zhí)行深度方面的基準(zhǔn)測(cè)試，以更好地衡量模型 scaling 所帶來的收益。

以下是論文的詳細(xì)內(nèi)容。

論文方法詳解

在論文中，作者詳細(xì)介紹了他們的每一個(gè)結(jié)論是怎么得出來的。

雖然單步準(zhǔn)確率收益遞減，但 scaling 仍有價(jià)值

作者首先分析了模型的單步準(zhǔn)確率與其預(yù)測(cè)范圍長(zhǎng)度之間的關(guān)系。為了得出數(shù)學(xué)關(guān)系，他們做出了兩個(gè)類似于 LeCun (2023) 的簡(jiǎn)化假設(shè)。第一，他們假設(shè)模型的步準(zhǔn)確率在任務(wù)過程中保持恒定。第二，他們假設(shè)模型不會(huì)自我修正，這意味著任何單一錯(cuò)誤都會(huì)導(dǎo)致任務(wù)失敗。他們僅在此次分析中做這樣的假設(shè)，該分析能提供有用的直覺。他們的實(shí)證分析則更進(jìn)一步，還研究了 LLM 在實(shí)際情況中如何在長(zhǎng)程任務(wù)執(zhí)行時(shí)不表現(xiàn)出穩(wěn)定的步驟準(zhǔn)確率，以及它們可能如何糾正錯(cuò)誤。

命題 1：假設(shè)步驟準(zhǔn)確率 p 恒定且無自校正，模型達(dá)到成功率 s 時(shí)的任務(wù)長(zhǎng)度 H 由下式給出：

作者在圖 2 中繪制了 s=0.5 時(shí)的這一增長(zhǎng)函數(shù)。注意，當(dāng)步驟準(zhǔn)確率超過 70% 后，步驟準(zhǔn)確率的微小提升會(huì)帶來比指數(shù)級(jí)更快的任務(wù)長(zhǎng)度改善。這一推導(dǎo)表明，即使在通常包含短任務(wù)的問答基準(zhǔn)測(cè)試中，準(zhǔn)確率的提升似乎放緩，但從數(shù)學(xué)角度而言，人們?nèi)钥善诖诟L(zhǎng)的任務(wù)上取得顯著收益。

作者注意到，人類勞動(dòng)的報(bào)酬往往是按時(shí)間計(jì)算的。如果一個(gè)智能體的經(jīng)濟(jì)價(jià)值也源于它能夠完成的任務(wù)時(shí)長(zhǎng)，那么單輪或短任務(wù)基準(zhǔn)可能并非評(píng)估進(jìn)一步投資于大語(yǔ)言模型計(jì)算資源所帶來收益的可靠參考。這些基準(zhǔn)可能會(huì)讓人產(chǎn)生進(jìn)展放緩的錯(cuò)覺，而作者認(rèn)為，更能體現(xiàn)經(jīng)濟(jì)價(jià)值的指標(biāo) —— 模型能夠完成的任務(wù)時(shí)長(zhǎng)，實(shí)際上仍在快速增長(zhǎng)。

通過解耦規(guī)劃和知識(shí)來隔離執(zhí)行

接下來，作者描述了如何通過實(shí)證方法衡量模型的長(zhǎng)程任務(wù)執(zhí)行能力。

首先，團(tuán)隊(duì)給出了一個(gè)很有啟發(fā)性的例子：一個(gè)用于熱門且具有經(jīng)濟(jì)價(jià)值的航班預(yù)訂任務(wù)的智能體。

在接收到搜索結(jié)果后，它必須對(duì)顯示的航班進(jìn)行評(píng)估，以確定要預(yù)訂哪一個(gè)。評(píng)估單個(gè)航班選項(xiàng)的計(jì)劃可能包括一系列操作，例如查看詳細(xì)信息，核實(shí)航班時(shí)間、行李限額和航空公司評(píng)價(jià)是否符合用戶偏好，應(yīng)用任何可用的折扣或獎(jiǎng)勵(lì)計(jì)劃，以及最終根據(jù)成本和行程時(shí)間做出選擇。這些獨(dú)立步驟中的每一步都需要檢索一些信息，并將其與現(xiàn)有的信息狀態(tài)相結(jié)合，以最終評(píng)估一個(gè)航班選項(xiàng)，而這兩項(xiàng)操作都需要知識(shí)。對(duì)多個(gè)航班選項(xiàng)的成功評(píng)估構(gòu)成了該規(guī)劃的執(zhí)行過程，直至做出最終的預(yù)訂決定。

這篇論文聚焦于執(zhí)行環(huán)節(jié)，因?yàn)樽髡哒J(rèn)為它是長(zhǎng)程任務(wù)完成能力的關(guān)鍵組成部分。傳統(tǒng)上，執(zhí)行環(huán)節(jié)受到的關(guān)注少于推理、規(guī)劃和世界知識(shí)等能力，而這些能力一直是 LLM 能力討論的主要焦點(diǎn)。這種相對(duì)的忽視是很重要的，因?yàn)閳?zhí)行中的失敗被錯(cuò)誤地歸因于推理或規(guī)劃能力的局限。這種看法可能源于一種觀點(diǎn)，即執(zhí)行是一項(xiàng)簡(jiǎn)單或平凡的任務(wù)。畢竟，這是機(jī)器歷來擅長(zhǎng)的事情。人類一旦學(xué)會(huì)如何完成一項(xiàng)任務(wù)，在執(zhí)行時(shí)也相當(dāng)可靠，甚至?xí)ㄟ^練習(xí)得到提高。然而，由于 LLM 并不具備正確性保證，作者假設(shè)，在長(zhǎng)時(shí)程任務(wù)中，執(zhí)行對(duì) LLM 而言可能會(huì)出人意料地具有挑戰(zhàn)性。他們推測(cè)：

即使推理、規(guī)劃和世界知識(shí)都得到完善，LLM 在長(zhǎng)期執(zhí)行過程中仍會(huì)出錯(cuò)。

為了證明這一點(diǎn)，他們通過顯式提供必要的知識(shí)和規(guī)劃來隔離執(zhí)行失敗的情況。他們將前述航班選擇智能體示例中提出的「先檢索后組合」步驟串聯(lián)起來。每個(gè)步驟都包括檢索相關(guān)信息或規(guī)劃中指定的工具，然后組合其輸出以更新當(dāng)前狀態(tài)。規(guī)劃負(fù)責(zé)決定檢索什么以及如何組合，而執(zhí)行則是實(shí)際執(zhí)行這些操作。這符合一種自然的抽象 —— 鍵值（key-value）詞典。鍵作為規(guī)劃的一個(gè)步驟，指定要檢索的知識(shí)或要調(diào)用的工具，而值則代表知識(shí)或工具的輸出，隨后需要將其與當(dāng)前狀態(tài)組合。

在這項(xiàng)研究中，作者將規(guī)劃作為每個(gè)查詢中的鍵提供，從而消除了 LLM 對(duì)規(guī)劃能力的需求。他們還在上下文中提供鍵值詞典，消除了對(duì)模型參數(shù)知識(shí)的任何依賴。通過這種設(shè)計(jì)，作者直接控制兩個(gè)重要的維度，它們相乘可得到任務(wù)長(zhǎng)度（「先檢索后組合」步驟的數(shù)量）：輪次數(shù)量和輪次復(fù)雜度（K）。輪次復(fù)雜度可以通過改變每輪查詢的鍵的數(shù)量來調(diào)整。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)部分，作者得出了以下幾個(gè)核心結(jié)論：

長(zhǎng)程任務(wù)執(zhí)行具有挑戰(zhàn)性。顯著增大模型規(guī)模會(huì)大幅增加模型能夠正確執(zhí)行的輪次數(shù)量。
模型會(huì)把自己上一步犯的錯(cuò)誤當(dāng)成新上下文繼續(xù)學(xué)（self-conditioning），這導(dǎo)致每一步的準(zhǔn)確率下降。增大模型規(guī)模并不足以緩解這一問題。
思考模型能解決 self-conditioning 限制的問題，還能在單輪中執(zhí)行明顯更長(zhǎng)的任務(wù)。

增加輪次的影響

作者首先驗(yàn)證了一個(gè)假設(shè) —— 即使在不需要世界知識(shí)和規(guī)劃的任務(wù)中，長(zhǎng)時(shí)程任務(wù)執(zhí)行也可能具有挑戰(zhàn)性。然后，他們研究了增大模型規(guī)模對(duì)長(zhǎng)時(shí)程任務(wù)執(zhí)行的益處。

作者在圖 4 中展示了結(jié)果。除了 Gemma3-4B 和 Qwen3-4B 之外，所有模型在第一步都達(dá)到了 100% 的準(zhǔn)確率，這凸顯出它們具備完美完成任務(wù)中單個(gè)步驟所需的知識(shí)和推理能力。然而，任務(wù)準(zhǔn)確率在后續(xù)回合中迅速下降。即使是表現(xiàn)最佳的模型（Qwen3-32B），其準(zhǔn)確率在 15 個(gè)輪次內(nèi)也降至 50% 以下。這證實(shí)了作者的假設(shè)：即使去除了規(guī)劃和知識(shí)方面的要求，長(zhǎng)時(shí)程任務(wù)執(zhí)行對(duì) LLM 而言仍可能具有挑戰(zhàn)性。

如圖 4（a）所示，更大的模型在更多輪次中保持更高的任務(wù)準(zhǔn)確率，導(dǎo)致在任務(wù)長(zhǎng)度上呈現(xiàn)明顯的 scaling 趨勢(shì)（圖 4（c））。

為什么每輪準(zhǔn)確率會(huì)下降？是 self-conditioning 在作怪

人們可能會(huì)認(rèn)為模型的每輪表現(xiàn)會(huì)保持穩(wěn)定。然而，圖 4（b）顯示，隨著輪次數(shù)量的增加，各輪次的準(zhǔn)確率在穩(wěn)步下降。對(duì)此，作者研究了兩個(gè)相互對(duì)立的假設(shè)：

模型的性能會(huì)僅僅因?yàn)樯舷挛拈L(zhǎng)度的增加而下降，與內(nèi)容無關(guān)；
模型會(huì)以自身過去的錯(cuò)誤為條件（self-conditioning）。在觀察到自己在之前回合中的錯(cuò)誤后，它犯錯(cuò)誤的可能性會(huì)更大。

結(jié)果顯示，self-conditioning 會(huì)導(dǎo)致輪次準(zhǔn)確率在長(zhǎng)上下文之外進(jìn)一步下降。

圖 5（a）中的結(jié)果表明，長(zhǎng)上下文和 self-conditioning 都會(huì)導(dǎo)致準(zhǔn)確率下降。當(dāng)以無錯(cuò)誤的歷史為條件（誘導(dǎo)錯(cuò)誤率 = 0.00）時(shí)，模型在第 100 輪的輪次準(zhǔn)確率低于其初始值，這與之前關(guān)于長(zhǎng)上下文退化的觀察結(jié)果一致。更有趣的是，隨著上下文中注入錯(cuò)誤的比例的提高，第 100 輪的準(zhǔn)確率持續(xù)下降。這證明了 self-conditioning 效應(yīng) —— 隨著模型出錯(cuò)，它們更有可能犯更多錯(cuò)誤，從而導(dǎo)致整個(gè)輸出軌跡中的每輪準(zhǔn)確率持續(xù)下降，如圖 5（b）所示。

此外，與長(zhǎng)上下文不同，擴(kuò)大模型規(guī)模并不能緩解 self-conditioning 效應(yīng)。請(qǐng)注意，在誘導(dǎo)錯(cuò)誤率為 0 的情況下，第 100 輪的準(zhǔn)確率會(huì)隨著模型規(guī)模的增大而持續(xù)提高。

如圖 5（c）所示，將模型擴(kuò)展到前沿水平（2000 億以上參數(shù)），如 Kimi-K2、DeepSeek-V3 和 Qwen3-235B Instruct-2507，在多達(dá) 100 輪的對(duì)話中基本解決了長(zhǎng)上下文退化問題，在修復(fù)后的歷史對(duì)話上實(shí)現(xiàn)了近乎完美的準(zhǔn)確率。

然而，即使是這些大型模型仍然容易受到 self-conditioning 作用的影響，因?yàn)殡S著其歷史對(duì)話中誘導(dǎo)錯(cuò)誤率的增加，它們的性能會(huì)持續(xù)下降。這可能與最近的研究結(jié)果類似，即大型模型在多輪對(duì)話中會(huì)出現(xiàn)性格轉(zhuǎn)變。而在本文的案例中，這種轉(zhuǎn)變是朝著容易出錯(cuò)的「性格」方向發(fā)展。

在圖 6 中，作者清晰地發(fā)現(xiàn) Qwen3 thinking 模型不會(huì)進(jìn)行 self-condition—— 無論其上下文中的錯(cuò)誤率如何，模型在第 100 輪的準(zhǔn)確率都保持穩(wěn)定。這可能源于兩個(gè)原因：

強(qiáng)化學(xué)習(xí)訓(xùn)練能夠減少語(yǔ)言模型最可能的下一個(gè) token 預(yù)測(cè)行為，使它們更傾向于任務(wù)成功而非延續(xù)上下文。
移除先前輪次的思維軌跡可能會(huì)降低先前輪次對(duì)模型輸出的影響，因?yàn)槟Ｐ蜁?huì)獨(dú)立思考新的輪次。

通過檢查模型的思維軌跡，作者觀察到它們?cè)谒季S鏈中不會(huì)回溯到先前的輪次。此外，作者通過明確移除先前歷史作為一種潛在的修正方法進(jìn)行了上下文管理實(shí)驗(yàn)，發(fā)現(xiàn)這確實(shí)減輕了 self-conditioning。

模型在單個(gè)輪次中能夠完成的任務(wù)有多長(zhǎng)？

模型能夠處理的總?cè)蝿?wù)長(zhǎng)度是輪次數(shù)量和每輪需要執(zhí)行的步驟數(shù)量共同作用的結(jié)果。作者也在實(shí)驗(yàn)中測(cè)量了后一個(gè)維度：模型每輪能夠執(zhí)行的最大步驟數(shù)量。

實(shí)驗(yàn)結(jié)果顯示，在沒有思維鏈的情況下，不具備思考能力的模型難以在單輪中完成哪怕兩個(gè)步驟的銜接。

在圖 12（左）中，作者首先發(fā)現(xiàn)，當(dāng)被提示直接作答且不使用思維鏈時(shí)，更大規(guī)模的 Qwen3 32B、Gemma3 27B，以及像 DeepSeek-V3（670B）和 Kimi K2（1026B）這樣的前沿非思考型模型，連復(fù)雜度為 2 的單輪任務(wù)都無法完成。這與先前的研究結(jié)果一致，即對(duì)于 Transformer 模型執(zhí)行序列任務(wù)而言，思考 token 是必不可少的。

作者強(qiáng)調(diào)這一點(diǎn)是因?yàn)?，許多智能體工作流為了在上下文窗口中容納更多動(dòng)作，會(huì)直接要求模型行動(dòng)而不使用思維鏈。作者發(fā)現(xiàn)，借助思維鏈，模型在單輪中能夠執(zhí)行的步驟數(shù)量顯著增加。這表明，對(duì)于智能體而言，行動(dòng)前先進(jìn)行推理至關(guān)重要。在附錄 B 中，作者還展示了諸如多數(shù)投票之類的并行測(cè)試時(shí)計(jì)算，僅能在單輪執(zhí)行長(zhǎng)度和輪次數(shù)量上帶來微小提升。這為以下觀點(diǎn)提供了初步證據(jù)：對(duì)于長(zhǎng)時(shí)程執(zhí)行任務(wù)，順序性的測(cè)試時(shí)計(jì)算更為有效。

在圖 12（右側(cè)）中，作者就前沿模型在單輪對(duì)話中能夠執(zhí)行的任務(wù)長(zhǎng)度進(jìn)行了基準(zhǔn)測(cè)試。他們發(fā)現(xiàn) GPT-5（代號(hào) Horizon）與其他模型（如 Gemini 2.5 Pro、Grok 4 和 DeepSeek R1）之間存在驚人的巨大差距。他們還發(fā)現(xiàn)，經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的思維模型 DeepSeek R1 的性能顯著優(yōu)于其經(jīng)指令微調(diào)的對(duì)應(yīng)模型 DeepSeek-V3。

總體而言，長(zhǎng)時(shí)程執(zhí)行是一項(xiàng)挑戰(zhàn)，開源權(quán)重模型在這方面仍在追趕那些僅通過 API 提供的模型，這凸顯了未來研究的機(jī)遇。

作者的實(shí)驗(yàn)部分寫得非常翔實(shí)，不過有人質(zhì)疑這些實(shí)驗(yàn)是否符合長(zhǎng)時(shí)程任務(wù)的標(biāo)準(zhǔn)。感興趣的讀者可以去仔細(xì)看一下。

更多細(xì)節(jié)請(qǐng)參見原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.