機(jī)器之心報(bào)道
編輯:張倩
很多人認(rèn)為,Scaling Law 正在面臨收益遞減,因此繼續(xù)擴(kuò)大計(jì)算規(guī)模訓(xùn)練模型的做法正在被質(zhì)疑。最近的觀察給出了不一樣的結(jié)論。研究發(fā)現(xiàn),哪怕模型在「單步任務(wù)」上的準(zhǔn)確率提升越來越慢,這些小小的進(jìn)步疊加起來,也能讓模型完成的任務(wù)長(zhǎng)度實(shí)現(xiàn)「指數(shù)級(jí)增長(zhǎng)」,而這一點(diǎn)可能在現(xiàn)實(shí)中更有經(jīng)濟(jì)價(jià)值。
如果繼續(xù)擴(kuò)大計(jì)算規(guī)模,邊際收益卻在遞減,企業(yè)繼續(xù)真金白銀投入更大模型的訓(xùn)練是否還是一個(gè)合理的選擇?大概從去年開始,AI 領(lǐng)域就在爭(zhēng)論這一問題。
最近,有篇論文給出了一個(gè)有意思的觀點(diǎn):雖然 scaling law 顯示 LLM 在測(cè)試損失等指標(biāo)上存在收益遞減,但模型在現(xiàn)實(shí)世界的價(jià)值往往源于一個(gè)智能體能夠完成任務(wù)的長(zhǎng)度。從這個(gè)角度來看,更大的模型非但沒有收益遞減,反而能將單步準(zhǔn)確率的微小提升復(fù)合放大,在任務(wù)完成長(zhǎng)度上實(shí)現(xiàn)指數(shù)級(jí)躍升。
- 論文標(biāo)題:The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs
- 論文鏈接:https://arxiv.org/pdf/2509.09677
- 代碼鏈接:https://github.com/long-horizon-execution/measuring-execution
- 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/arvindh75/Long-Horizon-Execution
這篇論文來自劍橋大學(xué)等機(jī)構(gòu)。論文指出,長(zhǎng)期以來,完成長(zhǎng)程任務(wù)一直是深度學(xué)習(xí)的致命弱點(diǎn)。自動(dòng)駕駛 demo 很炫酷,但要真正上路跑長(zhǎng)途,用了十多年才實(shí)現(xiàn)。AI 能生成驚艷的圖片,但拍一段連貫、一致的長(zhǎng)視頻至今仍是難題?,F(xiàn)在企業(yè)都想要 AI 幫忙處理整個(gè)項(xiàng)目,而不只是回答零散問題。但這里有個(gè)核心疑問:我們?cè)撊绾魏饬?LLM 能可靠執(zhí)行多少步的工作?
LLM 在簡(jiǎn)單長(zhǎng)任務(wù)上的失敗被認(rèn)為是推理能力的根本缺陷。盡管 LLM 在復(fù)雜推理基準(zhǔn)測(cè)試上有了巨大改進(jìn),依然有論文聲稱思考模型只是給出了「思考的幻覺」(arXiv:2506.06941),因?yàn)楫?dāng)任務(wù)變得更長(zhǎng)時(shí),它們最終會(huì)失敗。
這些結(jié)果在社區(qū)中引發(fā)了很多爭(zhēng)論。但本文作者認(rèn)為,我們可以通過解耦推理或智能體任務(wù)中規(guī)劃(planning)和執(zhí)行(execution)的需求來解決這個(gè)問題。
規(guī)劃涉及決定檢索什么信息或使用什么工具以及使用順序,而執(zhí)行就是讓規(guī)劃變成現(xiàn)實(shí)。在《思考的幻覺》論文中,LLM 顯然知道規(guī)劃,因?yàn)樗畛跽_地執(zhí)行了許多步驟。本文研究者認(rèn)為,最終的失敗在于執(zhí)行 —— 隨著任務(wù)變長(zhǎng),模型在執(zhí)行規(guī)劃時(shí)更容易犯錯(cuò)。盡管人們非常關(guān)注 LLM 的規(guī)劃能力,但執(zhí)行仍然是一個(gè)研究不足的挑戰(zhàn)。隨著 LLM 開始用于長(zhǎng)推理和智能體任務(wù),這一方向變得越來越重要。
在這篇論文中,作者在受控環(huán)境中測(cè)量了 LLM 的長(zhǎng)程執(zhí)行能力。他們通過顯式提供所需的知識(shí)和規(guī)劃來隔離 LLM 的執(zhí)行能力。通過控制輪數(shù)和每輪的步驟數(shù)(它們共同構(gòu)成任務(wù)長(zhǎng)度),他們揭示了關(guān)于 LLM 長(zhǎng)程任務(wù)執(zhí)行能力的見解:
1、Scaling 是否存在收益遞減?
作者觀察到,雖然單步準(zhǔn)確率的提升幅度在減小,但準(zhǔn)確率的微小提升可以復(fù)合放大,進(jìn)而導(dǎo)致模型能夠完成的任務(wù)長(zhǎng)度呈指數(shù)級(jí)增長(zhǎng)。
過去大家覺得,scaling 模型大小之所以會(huì)有用,是因?yàn)檫@會(huì)提高模型存儲(chǔ)參數(shù)化知識(shí)或搜索規(guī)劃的能力。
然而,作者在實(shí)驗(yàn)中發(fā)現(xiàn),在顯式提供了所需的知識(shí)和規(guī)劃后,scaling 模型大小仍能顯著提高模型成功執(zhí)行的輪次數(shù)量。這說明 scaling 模型的價(jià)值不僅體現(xiàn)在能讓模型記住更多知識(shí)或更會(huì)尋找問題解答上。
2、Self-Conditioning 效應(yīng)
人們可能會(huì)認(rèn)為,長(zhǎng)任務(wù)中的失敗僅僅是由于小而恒定的每步錯(cuò)誤率不斷累積造成的。然而,作者發(fā)現(xiàn),隨著任務(wù)的推進(jìn),每步錯(cuò)誤率本身會(huì)上升。這與人類形成了對(duì)比,人類在執(zhí)行任務(wù)時(shí)通常會(huì)通過練習(xí)而進(jìn)步。
作者推測(cè),由于模型訓(xùn)練的很大一部分是根據(jù)上下文預(yù)測(cè)最可能的下一個(gè) token,因此讓模型以自身容易出錯(cuò)的歷史為條件會(huì)增加未來出錯(cuò)的可能性。他們通過控制展示給模型的歷史中的錯(cuò)誤率來對(duì)此進(jìn)行測(cè)試。隨著歷史中的錯(cuò)誤率升高,他們觀察到后續(xù)步驟的準(zhǔn)確率急劇下降,這驗(yàn)證了模型會(huì)進(jìn)行 self-condition 設(shè)定。
作者表明,除了先前已發(fā)現(xiàn)的長(zhǎng)上下文問題外,self-conditioning 設(shè)定還會(huì)導(dǎo)致模型在長(zhǎng)程任務(wù)中的性能下降,而且與長(zhǎng)上下文問題不同的是,這種性能下降并不會(huì)通過增大模型規(guī)模而得到緩解。
3、思考的影響
作者發(fā)現(xiàn)近期的思考模型不會(huì)受到先前錯(cuò)誤的影響,能夠修正 self-conditioning 限制。此外,順序測(cè)試時(shí)計(jì)算量(sequential test time compute)的顯著提升了模型在單輪對(duì)話中可完成任務(wù)的長(zhǎng)度。在沒有思維鏈(CoT)的情況下,像 DeepSeek V3 這樣的前沿大語(yǔ)言模型甚至連兩步執(zhí)行都無法完成,而其具備思考能力的版本 R1 則能執(zhí)行 200 步,這凸顯了行動(dòng)前進(jìn)行推理的重要性。
作者對(duì)前沿思考模型進(jìn)行了基準(zhǔn)測(cè)試,發(fā)現(xiàn) GPT-5 的思考版本(代號(hào) Horizon)能夠執(zhí)行超過 1000 步,遠(yuǎn)超緊隨其后的競(jìng)爭(zhēng)對(duì)手 —— 能執(zhí)行 432 步的 Claude-4-Sonnet。
LLM 能力的「參差不齊」既令人著迷又讓人困惑。與傳統(tǒng)機(jī)器不同,大語(yǔ)言模型在執(zhí)行重復(fù)性任務(wù)時(shí)更容易出現(xiàn)故障。因此,作者認(rèn)為,長(zhǎng)任務(wù)中的執(zhí)行失敗不應(yīng)被誤解為缺乏推理或規(guī)劃能力。他們發(fā)現(xiàn),通過擴(kuò)大模型規(guī)模和增加順序測(cè)試時(shí)間的計(jì)算量,模型長(zhǎng)程執(zhí)行能力會(huì)得到顯著提升。如果一個(gè)模型能夠完成的任務(wù)長(zhǎng)度表明其經(jīng)濟(jì)價(jià)值,那么持續(xù)投入以增加計(jì)算量可能是值得的,即便短任務(wù)基準(zhǔn)測(cè)試給人一種進(jìn)展放緩的錯(cuò)覺。
這篇論文讓很多人感覺深受啟發(fā),還有人提出我們應(yīng)該設(shè)計(jì)更多針對(duì)模型執(zhí)行深度方面的基準(zhǔn)測(cè)試,以更好地衡量模型 scaling 所帶來的收益。
以下是論文的詳細(xì)內(nèi)容。
論文方法詳解
在論文中,作者詳細(xì)介紹了他們的每一個(gè)結(jié)論是怎么得出來的。
雖然單步準(zhǔn)確率收益遞減,但 scaling 仍有價(jià)值
作者首先分析了模型的單步準(zhǔn)確率與其預(yù)測(cè)范圍長(zhǎng)度之間的關(guān)系。為了得出數(shù)學(xué)關(guān)系,他們做出了兩個(gè)類似于 LeCun (2023) 的簡(jiǎn)化假設(shè)。第一,他們假設(shè)模型的步準(zhǔn)確率在任務(wù)過程中保持恒定。第二,他們假設(shè)模型不會(huì)自我修正,這意味著任何單一錯(cuò)誤都會(huì)導(dǎo)致任務(wù)失敗。他們僅在此次分析中做這樣的假設(shè),該分析能提供有用的直覺。他們的實(shí)證分析則更進(jìn)一步,還研究了 LLM 在實(shí)際情況中如何在長(zhǎng)程任務(wù)執(zhí)行時(shí)不表現(xiàn)出穩(wěn)定的步驟準(zhǔn)確率,以及它們可能如何糾正錯(cuò)誤。
命題 1:假設(shè)步驟準(zhǔn)確率 p 恒定且無自校正,模型達(dá)到成功率 s 時(shí)的任務(wù)長(zhǎng)度 H 由下式給出:
作者在圖 2 中繪制了 s=0.5 時(shí)的這一增長(zhǎng)函數(shù)。注意,當(dāng)步驟準(zhǔn)確率超過 70% 后,步驟準(zhǔn)確率的微小提升會(huì)帶來比指數(shù)級(jí)更快的任務(wù)長(zhǎng)度改善。這一推導(dǎo)表明,即使在通常包含短任務(wù)的問答基準(zhǔn)測(cè)試中,準(zhǔn)確率的提升似乎放緩,但從數(shù)學(xué)角度而言,人們?nèi)钥善诖诟L(zhǎng)的任務(wù)上取得顯著收益。
作者注意到,人類勞動(dòng)的報(bào)酬往往是按時(shí)間計(jì)算的。如果一個(gè)智能體的經(jīng)濟(jì)價(jià)值也源于它能夠完成的任務(wù)時(shí)長(zhǎng),那么單輪或短任務(wù)基準(zhǔn)可能并非評(píng)估進(jìn)一步投資于大語(yǔ)言模型計(jì)算資源所帶來收益的可靠參考。這些基準(zhǔn)可能會(huì)讓人產(chǎn)生進(jìn)展放緩的錯(cuò)覺,而作者認(rèn)為,更能體現(xiàn)經(jīng)濟(jì)價(jià)值的指標(biāo) —— 模型能夠完成的任務(wù)時(shí)長(zhǎng),實(shí)際上仍在快速增長(zhǎng)。
通過解耦規(guī)劃和知識(shí)來隔離執(zhí)行
接下來,作者描述了如何通過實(shí)證方法衡量模型的長(zhǎng)程任務(wù)執(zhí)行能力。
首先,團(tuán)隊(duì)給出了一個(gè)很有啟發(fā)性的例子:一個(gè)用于熱門且具有經(jīng)濟(jì)價(jià)值的航班預(yù)訂任務(wù)的智能體。
在接收到搜索結(jié)果后,它必須對(duì)顯示的航班進(jìn)行評(píng)估,以確定要預(yù)訂哪一個(gè)。評(píng)估單個(gè)航班選項(xiàng)的計(jì)劃可能包括一系列操作,例如查看詳細(xì)信息,核實(shí)航班時(shí)間、行李限額和航空公司評(píng)價(jià)是否符合用戶偏好,應(yīng)用任何可用的折扣或獎(jiǎng)勵(lì)計(jì)劃,以及最終根據(jù)成本和行程時(shí)間做出選擇。這些獨(dú)立步驟中的每一步都需要檢索一些信息,并將其與現(xiàn)有的信息狀態(tài)相結(jié)合,以最終評(píng)估一個(gè)航班選項(xiàng),而這兩項(xiàng)操作都需要知識(shí)。對(duì)多個(gè)航班選項(xiàng)的成功評(píng)估構(gòu)成了該規(guī)劃的執(zhí)行過程,直至做出最終的預(yù)訂決定。
這篇論文聚焦于執(zhí)行環(huán)節(jié),因?yàn)樽髡哒J(rèn)為它是長(zhǎng)程任務(wù)完成能力的關(guān)鍵組成部分。傳統(tǒng)上,執(zhí)行環(huán)節(jié)受到的關(guān)注少于推理、規(guī)劃和世界知識(shí)等能力,而這些能力一直是 LLM 能力討論的主要焦點(diǎn)。這種相對(duì)的忽視是很重要的,因?yàn)閳?zhí)行中的失敗被錯(cuò)誤地歸因于推理或規(guī)劃能力的局限。這種看法可能源于一種觀點(diǎn),即執(zhí)行是一項(xiàng)簡(jiǎn)單或平凡的任務(wù)。畢竟,這是機(jī)器歷來擅長(zhǎng)的事情。人類一旦學(xué)會(huì)如何完成一項(xiàng)任務(wù),在執(zhí)行時(shí)也相當(dāng)可靠,甚至?xí)ㄟ^練習(xí)得到提高。然而,由于 LLM 并不具備正確性保證,作者假設(shè),在長(zhǎng)時(shí)程任務(wù)中,執(zhí)行對(duì) LLM 而言可能會(huì)出人意料地具有挑戰(zhàn)性。他們推測(cè):
即使推理、規(guī)劃和世界知識(shí)都得到完善,LLM 在長(zhǎng)期執(zhí)行過程中仍會(huì)出錯(cuò)。
為了證明這一點(diǎn),他們通過顯式提供必要的知識(shí)和規(guī)劃來隔離執(zhí)行失敗的情況。他們將前述航班選擇智能體示例中提出的「先檢索后組合」步驟串聯(lián)起來。每個(gè)步驟都包括檢索相關(guān)信息或規(guī)劃中指定的工具,然后組合其輸出以更新當(dāng)前狀態(tài)。規(guī)劃負(fù)責(zé)決定檢索什么以及如何組合,而執(zhí)行則是實(shí)際執(zhí)行這些操作。這符合一種自然的抽象 —— 鍵值(key-value)詞典。鍵作為規(guī)劃的一個(gè)步驟,指定要檢索的知識(shí)或要調(diào)用的工具,而值則代表知識(shí)或工具的輸出,隨后需要將其與當(dāng)前狀態(tài)組合。
在這項(xiàng)研究中,作者將規(guī)劃作為每個(gè)查詢中的鍵提供,從而消除了 LLM 對(duì)規(guī)劃能力的需求。他們還在上下文中提供鍵值詞典,消除了對(duì)模型參數(shù)知識(shí)的任何依賴。通過這種設(shè)計(jì),作者直接控制兩個(gè)重要的維度,它們相乘可得到任務(wù)長(zhǎng)度(「先檢索后組合」步驟的數(shù)量):輪次數(shù)量和輪次復(fù)雜度(K)。輪次復(fù)雜度可以通過改變每輪查詢的鍵的數(shù)量來調(diào)整。
實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)部分,作者得出了以下幾個(gè)核心結(jié)論:
- 長(zhǎng)程任務(wù)執(zhí)行具有挑戰(zhàn)性。顯著增大模型規(guī)模會(huì)大幅增加模型能夠正確執(zhí)行的輪次數(shù)量。
- 模型會(huì)把自己上一步犯的錯(cuò)誤當(dāng)成新上下文繼續(xù)學(xué)(self-conditioning),這導(dǎo)致每一步的準(zhǔn)確率下降。增大模型規(guī)模并不足以緩解這一問題。
- 思考模型能解決 self-conditioning 限制的問題,還能在單輪中執(zhí)行明顯更長(zhǎng)的任務(wù)。
增加輪次的影響
作者首先驗(yàn)證了一個(gè)假設(shè) —— 即使在不需要世界知識(shí)和規(guī)劃的任務(wù)中,長(zhǎng)時(shí)程任務(wù)執(zhí)行也可能具有挑戰(zhàn)性。然后,他們研究了增大模型規(guī)模對(duì)長(zhǎng)時(shí)程任務(wù)執(zhí)行的益處。
作者在圖 4 中展示了結(jié)果。除了 Gemma3-4B 和 Qwen3-4B 之外,所有模型在第一步都達(dá)到了 100% 的準(zhǔn)確率,這凸顯出它們具備完美完成任務(wù)中單個(gè)步驟所需的知識(shí)和推理能力。然而,任務(wù)準(zhǔn)確率在后續(xù)回合中迅速下降。即使是表現(xiàn)最佳的模型(Qwen3-32B),其準(zhǔn)確率在 15 個(gè)輪次內(nèi)也降至 50% 以下。這證實(shí)了作者的假設(shè):即使去除了規(guī)劃和知識(shí)方面的要求,長(zhǎng)時(shí)程任務(wù)執(zhí)行對(duì) LLM 而言仍可能具有挑戰(zhàn)性。
如圖 4(a)所示,更大的模型在更多輪次中保持更高的任務(wù)準(zhǔn)確率,導(dǎo)致在任務(wù)長(zhǎng)度上呈現(xiàn)明顯的 scaling 趨勢(shì)(圖 4(c))。
為什么每輪準(zhǔn)確率會(huì)下降?是 self-conditioning 在作怪
人們可能會(huì)認(rèn)為模型的每輪表現(xiàn)會(huì)保持穩(wěn)定。然而,圖 4(b)顯示,隨著輪次數(shù)量的增加,各輪次的準(zhǔn)確率在穩(wěn)步下降。對(duì)此,作者研究了兩個(gè)相互對(duì)立的假設(shè):
- 模型的性能會(huì)僅僅因?yàn)樯舷挛拈L(zhǎng)度的增加而下降,與內(nèi)容無關(guān);
- 模型會(huì)以自身過去的錯(cuò)誤為條件(self-conditioning)。在觀察到自己在之前回合中的錯(cuò)誤后,它犯錯(cuò)誤的可能性會(huì)更大。
結(jié)果顯示,self-conditioning 會(huì)導(dǎo)致輪次準(zhǔn)確率在長(zhǎng)上下文之外進(jìn)一步下降。
圖 5(a)中的結(jié)果表明,長(zhǎng)上下文和 self-conditioning 都會(huì)導(dǎo)致準(zhǔn)確率下降。當(dāng)以無錯(cuò)誤的歷史為條件(誘導(dǎo)錯(cuò)誤率 = 0.00)時(shí),模型在第 100 輪的輪次準(zhǔn)確率低于其初始值,這與之前關(guān)于長(zhǎng)上下文退化的觀察結(jié)果一致。更有趣的是,隨著上下文中注入錯(cuò)誤的比例的提高,第 100 輪的準(zhǔn)確率持續(xù)下降。這證明了 self-conditioning 效應(yīng) —— 隨著模型出錯(cuò),它們更有可能犯更多錯(cuò)誤,從而導(dǎo)致整個(gè)輸出軌跡中的每輪準(zhǔn)確率持續(xù)下降,如圖 5(b)所示。
此外,與長(zhǎng)上下文不同,擴(kuò)大模型規(guī)模并不能緩解 self-conditioning 效應(yīng)。請(qǐng)注意,在誘導(dǎo)錯(cuò)誤率為 0 的情況下,第 100 輪的準(zhǔn)確率會(huì)隨著模型規(guī)模的增大而持續(xù)提高。
如圖 5(c)所示,將模型擴(kuò)展到前沿水平(2000 億以上參數(shù)),如 Kimi-K2、DeepSeek-V3 和 Qwen3-235B Instruct-2507,在多達(dá) 100 輪的對(duì)話中基本解決了長(zhǎng)上下文退化問題,在修復(fù)后的歷史對(duì)話上實(shí)現(xiàn)了近乎完美的準(zhǔn)確率。
然而,即使是這些大型模型仍然容易受到 self-conditioning 作用的影響,因?yàn)殡S著其歷史對(duì)話中誘導(dǎo)錯(cuò)誤率的增加,它們的性能會(huì)持續(xù)下降。這可能與最近的研究結(jié)果類似,即大型模型在多輪對(duì)話中會(huì)出現(xiàn)性格轉(zhuǎn)變。而在本文的案例中,這種轉(zhuǎn)變是朝著容易出錯(cuò)的「性格」方向發(fā)展。
在圖 6 中,作者清晰地發(fā)現(xiàn) Qwen3 thinking 模型不會(huì)進(jìn)行 self-condition—— 無論其上下文中的錯(cuò)誤率如何,模型在第 100 輪的準(zhǔn)確率都保持穩(wěn)定。這可能源于兩個(gè)原因:
- 強(qiáng)化學(xué)習(xí)訓(xùn)練能夠減少語(yǔ)言模型最可能的下一個(gè) token 預(yù)測(cè)行為,使它們更傾向于任務(wù)成功而非延續(xù)上下文。
- 移除先前輪次的思維軌跡可能會(huì)降低先前輪次對(duì)模型輸出的影響,因?yàn)槟P蜁?huì)獨(dú)立思考新的輪次。
通過檢查模型的思維軌跡,作者觀察到它們?cè)谒季S鏈中不會(huì)回溯到先前的輪次。此外,作者通過明確移除先前歷史作為一種潛在的修正方法進(jìn)行了上下文管理實(shí)驗(yàn),發(fā)現(xiàn)這確實(shí)減輕了 self-conditioning。
模型在單個(gè)輪次中能夠完成的任務(wù)有多長(zhǎng)?
模型能夠處理的總?cè)蝿?wù)長(zhǎng)度是輪次數(shù)量和每輪需要執(zhí)行的步驟數(shù)量共同作用的結(jié)果。作者也在實(shí)驗(yàn)中測(cè)量了后一個(gè)維度:模型每輪能夠執(zhí)行的最大步驟數(shù)量。
實(shí)驗(yàn)結(jié)果顯示,在沒有思維鏈的情況下,不具備思考能力的模型難以在單輪中完成哪怕兩個(gè)步驟的銜接。
在圖 12(左)中,作者首先發(fā)現(xiàn),當(dāng)被提示直接作答且不使用思維鏈時(shí),更大規(guī)模的 Qwen3 32B、Gemma3 27B,以及像 DeepSeek-V3(670B)和 Kimi K2(1026B)這樣的前沿非思考型模型,連復(fù)雜度為 2 的單輪任務(wù)都無法完成。這與先前的研究結(jié)果一致,即對(duì)于 Transformer 模型執(zhí)行序列任務(wù)而言,思考 token 是必不可少的。
作者強(qiáng)調(diào)這一點(diǎn)是因?yàn)?,許多智能體工作流為了在上下文窗口中容納更多動(dòng)作,會(huì)直接要求模型行動(dòng)而不使用思維鏈。作者發(fā)現(xiàn),借助思維鏈,模型在單輪中能夠執(zhí)行的步驟數(shù)量顯著增加。這表明,對(duì)于智能體而言,行動(dòng)前先進(jìn)行推理至關(guān)重要。在附錄 B 中,作者還展示了諸如多數(shù)投票之類的并行測(cè)試時(shí)計(jì)算,僅能在單輪執(zhí)行長(zhǎng)度和輪次數(shù)量上帶來微小提升。這為以下觀點(diǎn)提供了初步證據(jù):對(duì)于長(zhǎng)時(shí)程執(zhí)行任務(wù),順序性的測(cè)試時(shí)計(jì)算更為有效。
在圖 12(右側(cè))中,作者就前沿模型在單輪對(duì)話中能夠執(zhí)行的任務(wù)長(zhǎng)度進(jìn)行了基準(zhǔn)測(cè)試。他們發(fā)現(xiàn) GPT-5(代號(hào) Horizon)與其他模型(如 Gemini 2.5 Pro、Grok 4 和 DeepSeek R1)之間存在驚人的巨大差距。他們還發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的思維模型 DeepSeek R1 的性能顯著優(yōu)于其經(jīng)指令微調(diào)的對(duì)應(yīng)模型 DeepSeek-V3。
總體而言,長(zhǎng)時(shí)程執(zhí)行是一項(xiàng)挑戰(zhàn),開源權(quán)重模型在這方面仍在追趕那些僅通過 API 提供的模型,這凸顯了未來研究的機(jī)遇。
作者的實(shí)驗(yàn)部分寫得非常翔實(shí),不過有人質(zhì)疑這些實(shí)驗(yàn)是否符合長(zhǎng)時(shí)程任務(wù)的標(biāo)準(zhǔn)。感興趣的讀者可以去仔細(xì)看一下。
更多細(xì)節(jié)請(qǐng)參見原論文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.