夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

誰(shuí)說Scaling Law到頭了?新研究:每一步微小提升會(huì)帶來指數(shù)級(jí)增長(zhǎng)

0
分享至



機(jī)器之心報(bào)道

編輯:張倩

很多人認(rèn)為,Scaling Law 正在面臨收益遞減,因此繼續(xù)擴(kuò)大計(jì)算規(guī)模訓(xùn)練模型的做法正在被質(zhì)疑。最近的觀察給出了不一樣的結(jié)論。研究發(fā)現(xiàn),哪怕模型在「單步任務(wù)」上的準(zhǔn)確率提升越來越慢,這些小小的進(jìn)步疊加起來,也能讓模型完成的任務(wù)長(zhǎng)度實(shí)現(xiàn)「指數(shù)級(jí)增長(zhǎng)」,而這一點(diǎn)可能在現(xiàn)實(shí)中更有經(jīng)濟(jì)價(jià)值。



如果繼續(xù)擴(kuò)大計(jì)算規(guī)模,邊際收益卻在遞減,企業(yè)繼續(xù)真金白銀投入更大模型的訓(xùn)練是否還是一個(gè)合理的選擇?大概從去年開始,AI 領(lǐng)域就在爭(zhēng)論這一問題。

最近,有篇論文給出了一個(gè)有意思的觀點(diǎn):雖然 scaling law 顯示 LLM 在測(cè)試損失等指標(biāo)上存在收益遞減,但模型在現(xiàn)實(shí)世界的價(jià)值往往源于一個(gè)智能體能夠完成任務(wù)的長(zhǎng)度。從這個(gè)角度來看,更大的模型非但沒有收益遞減,反而能將單步準(zhǔn)確率的微小提升復(fù)合放大,在任務(wù)完成長(zhǎng)度上實(shí)現(xiàn)指數(shù)級(jí)躍升。



  • 論文標(biāo)題:The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs
  • 論文鏈接:https://arxiv.org/pdf/2509.09677
  • 代碼鏈接:https://github.com/long-horizon-execution/measuring-execution
  • 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/arvindh75/Long-Horizon-Execution

這篇論文來自劍橋大學(xué)等機(jī)構(gòu)。論文指出,長(zhǎng)期以來,完成長(zhǎng)程任務(wù)一直是深度學(xué)習(xí)的致命弱點(diǎn)。自動(dòng)駕駛 demo 很炫酷,但要真正上路跑長(zhǎng)途,用了十多年才實(shí)現(xiàn)。AI 能生成驚艷的圖片,但拍一段連貫、一致的長(zhǎng)視頻至今仍是難題?,F(xiàn)在企業(yè)都想要 AI 幫忙處理整個(gè)項(xiàng)目,而不只是回答零散問題。但這里有個(gè)核心疑問:我們?cè)撊绾魏饬?LLM 能可靠執(zhí)行多少步的工作?

LLM 在簡(jiǎn)單長(zhǎng)任務(wù)上的失敗被認(rèn)為是推理能力的根本缺陷。盡管 LLM 在復(fù)雜推理基準(zhǔn)測(cè)試上有了巨大改進(jìn),依然有論文聲稱思考模型只是給出了「思考的幻覺」(arXiv:2506.06941),因?yàn)楫?dāng)任務(wù)變得更長(zhǎng)時(shí),它們最終會(huì)失敗。

這些結(jié)果在社區(qū)中引發(fā)了很多爭(zhēng)論。但本文作者認(rèn)為,我們可以通過解耦推理或智能體任務(wù)中規(guī)劃(planning)和執(zhí)行(execution)的需求來解決這個(gè)問題。

規(guī)劃涉及決定檢索什么信息或使用什么工具以及使用順序,而執(zhí)行就是讓規(guī)劃變成現(xiàn)實(shí)。在《思考的幻覺》論文中,LLM 顯然知道規(guī)劃,因?yàn)樗畛跽_地執(zhí)行了許多步驟。本文研究者認(rèn)為,最終的失敗在于執(zhí)行 —— 隨著任務(wù)變長(zhǎng),模型在執(zhí)行規(guī)劃時(shí)更容易犯錯(cuò)。盡管人們非常關(guān)注 LLM 的規(guī)劃能力,但執(zhí)行仍然是一個(gè)研究不足的挑戰(zhàn)。隨著 LLM 開始用于長(zhǎng)推理和智能體任務(wù),這一方向變得越來越重要。

在這篇論文中,作者在受控環(huán)境中測(cè)量了 LLM 的長(zhǎng)程執(zhí)行能力。他們通過顯式提供所需的知識(shí)和規(guī)劃來隔離 LLM 的執(zhí)行能力。通過控制輪數(shù)和每輪的步驟數(shù)(它們共同構(gòu)成任務(wù)長(zhǎng)度),他們揭示了關(guān)于 LLM 長(zhǎng)程任務(wù)執(zhí)行能力的見解:

1、Scaling 是否存在收益遞減?

作者觀察到,雖然單步準(zhǔn)確率的提升幅度在減小,但準(zhǔn)確率的微小提升可以復(fù)合放大,進(jìn)而導(dǎo)致模型能夠完成的任務(wù)長(zhǎng)度呈指數(shù)級(jí)增長(zhǎng)。

過去大家覺得,scaling 模型大小之所以會(huì)有用,是因?yàn)檫@會(huì)提高模型存儲(chǔ)參數(shù)化知識(shí)或搜索規(guī)劃的能力。

然而,作者在實(shí)驗(yàn)中發(fā)現(xiàn),在顯式提供了所需的知識(shí)和規(guī)劃后,scaling 模型大小仍能顯著提高模型成功執(zhí)行的輪次數(shù)量。這說明 scaling 模型的價(jià)值不僅體現(xiàn)在能讓模型記住更多知識(shí)或更會(huì)尋找問題解答上。

2、Self-Conditioning 效應(yīng)

人們可能會(huì)認(rèn)為,長(zhǎng)任務(wù)中的失敗僅僅是由于小而恒定的每步錯(cuò)誤率不斷累積造成的。然而,作者發(fā)現(xiàn),隨著任務(wù)的推進(jìn),每步錯(cuò)誤率本身會(huì)上升。這與人類形成了對(duì)比,人類在執(zhí)行任務(wù)時(shí)通常會(huì)通過練習(xí)而進(jìn)步。

作者推測(cè),由于模型訓(xùn)練的很大一部分是根據(jù)上下文預(yù)測(cè)最可能的下一個(gè) token,因此讓模型以自身容易出錯(cuò)的歷史為條件會(huì)增加未來出錯(cuò)的可能性。他們通過控制展示給模型的歷史中的錯(cuò)誤率來對(duì)此進(jìn)行測(cè)試。隨著歷史中的錯(cuò)誤率升高,他們觀察到后續(xù)步驟的準(zhǔn)確率急劇下降,這驗(yàn)證了模型會(huì)進(jìn)行 self-condition 設(shè)定。

作者表明,除了先前已發(fā)現(xiàn)的長(zhǎng)上下文問題外,self-conditioning 設(shè)定還會(huì)導(dǎo)致模型在長(zhǎng)程任務(wù)中的性能下降,而且與長(zhǎng)上下文問題不同的是,這種性能下降并不會(huì)通過增大模型規(guī)模而得到緩解。

3、思考的影響

作者發(fā)現(xiàn)近期的思考模型不會(huì)受到先前錯(cuò)誤的影響,能夠修正 self-conditioning 限制。此外,順序測(cè)試時(shí)計(jì)算量(sequential test time compute)的顯著提升了模型在單輪對(duì)話中可完成任務(wù)的長(zhǎng)度。在沒有思維鏈(CoT)的情況下,像 DeepSeek V3 這樣的前沿大語(yǔ)言模型甚至連兩步執(zhí)行都無法完成,而其具備思考能力的版本 R1 則能執(zhí)行 200 步,這凸顯了行動(dòng)前進(jìn)行推理的重要性。

作者對(duì)前沿思考模型進(jìn)行了基準(zhǔn)測(cè)試,發(fā)現(xiàn) GPT-5 的思考版本(代號(hào) Horizon)能夠執(zhí)行超過 1000 步,遠(yuǎn)超緊隨其后的競(jìng)爭(zhēng)對(duì)手 —— 能執(zhí)行 432 步的 Claude-4-Sonnet。

LLM 能力的「參差不齊」既令人著迷又讓人困惑。與傳統(tǒng)機(jī)器不同,大語(yǔ)言模型在執(zhí)行重復(fù)性任務(wù)時(shí)更容易出現(xiàn)故障。因此,作者認(rèn)為,長(zhǎng)任務(wù)中的執(zhí)行失敗不應(yīng)被誤解為缺乏推理或規(guī)劃能力。他們發(fā)現(xiàn),通過擴(kuò)大模型規(guī)模和增加順序測(cè)試時(shí)間的計(jì)算量,模型長(zhǎng)程執(zhí)行能力會(huì)得到顯著提升。如果一個(gè)模型能夠完成的任務(wù)長(zhǎng)度表明其經(jīng)濟(jì)價(jià)值,那么持續(xù)投入以增加計(jì)算量可能是值得的,即便短任務(wù)基準(zhǔn)測(cè)試給人一種進(jìn)展放緩的錯(cuò)覺。

這篇論文讓很多人感覺深受啟發(fā),還有人提出我們應(yīng)該設(shè)計(jì)更多針對(duì)模型執(zhí)行深度方面的基準(zhǔn)測(cè)試,以更好地衡量模型 scaling 所帶來的收益。





以下是論文的詳細(xì)內(nèi)容。

論文方法詳解

在論文中,作者詳細(xì)介紹了他們的每一個(gè)結(jié)論是怎么得出來的。

雖然單步準(zhǔn)確率收益遞減,但 scaling 仍有價(jià)值

作者首先分析了模型的單步準(zhǔn)確率與其預(yù)測(cè)范圍長(zhǎng)度之間的關(guān)系。為了得出數(shù)學(xué)關(guān)系,他們做出了兩個(gè)類似于 LeCun (2023) 的簡(jiǎn)化假設(shè)。第一,他們假設(shè)模型的步準(zhǔn)確率在任務(wù)過程中保持恒定。第二,他們假設(shè)模型不會(huì)自我修正,這意味著任何單一錯(cuò)誤都會(huì)導(dǎo)致任務(wù)失敗。他們僅在此次分析中做這樣的假設(shè),該分析能提供有用的直覺。他們的實(shí)證分析則更進(jìn)一步,還研究了 LLM 在實(shí)際情況中如何在長(zhǎng)程任務(wù)執(zhí)行時(shí)不表現(xiàn)出穩(wěn)定的步驟準(zhǔn)確率,以及它們可能如何糾正錯(cuò)誤。

命題 1:假設(shè)步驟準(zhǔn)確率 p 恒定且無自校正,模型達(dá)到成功率 s 時(shí)的任務(wù)長(zhǎng)度 H 由下式給出:



作者在圖 2 中繪制了 s=0.5 時(shí)的這一增長(zhǎng)函數(shù)。注意,當(dāng)步驟準(zhǔn)確率超過 70% 后,步驟準(zhǔn)確率的微小提升會(huì)帶來比指數(shù)級(jí)更快的任務(wù)長(zhǎng)度改善。這一推導(dǎo)表明,即使在通常包含短任務(wù)的問答基準(zhǔn)測(cè)試中,準(zhǔn)確率的提升似乎放緩,但從數(shù)學(xué)角度而言,人們?nèi)钥善诖诟L(zhǎng)的任務(wù)上取得顯著收益。







作者注意到,人類勞動(dòng)的報(bào)酬往往是按時(shí)間計(jì)算的。如果一個(gè)智能體的經(jīng)濟(jì)價(jià)值也源于它能夠完成的任務(wù)時(shí)長(zhǎng),那么單輪或短任務(wù)基準(zhǔn)可能并非評(píng)估進(jìn)一步投資于大語(yǔ)言模型計(jì)算資源所帶來收益的可靠參考。這些基準(zhǔn)可能會(huì)讓人產(chǎn)生進(jìn)展放緩的錯(cuò)覺,而作者認(rèn)為,更能體現(xiàn)經(jīng)濟(jì)價(jià)值的指標(biāo) —— 模型能夠完成的任務(wù)時(shí)長(zhǎng),實(shí)際上仍在快速增長(zhǎng)。

通過解耦規(guī)劃和知識(shí)來隔離執(zhí)行

接下來,作者描述了如何通過實(shí)證方法衡量模型的長(zhǎng)程任務(wù)執(zhí)行能力。

首先,團(tuán)隊(duì)給出了一個(gè)很有啟發(fā)性的例子:一個(gè)用于熱門且具有經(jīng)濟(jì)價(jià)值的航班預(yù)訂任務(wù)的智能體。

在接收到搜索結(jié)果后,它必須對(duì)顯示的航班進(jìn)行評(píng)估,以確定要預(yù)訂哪一個(gè)。評(píng)估單個(gè)航班選項(xiàng)的計(jì)劃可能包括一系列操作,例如查看詳細(xì)信息,核實(shí)航班時(shí)間、行李限額和航空公司評(píng)價(jià)是否符合用戶偏好,應(yīng)用任何可用的折扣或獎(jiǎng)勵(lì)計(jì)劃,以及最終根據(jù)成本和行程時(shí)間做出選擇。這些獨(dú)立步驟中的每一步都需要檢索一些信息,并將其與現(xiàn)有的信息狀態(tài)相結(jié)合,以最終評(píng)估一個(gè)航班選項(xiàng),而這兩項(xiàng)操作都需要知識(shí)。對(duì)多個(gè)航班選項(xiàng)的成功評(píng)估構(gòu)成了該規(guī)劃的執(zhí)行過程,直至做出最終的預(yù)訂決定。

這篇論文聚焦于執(zhí)行環(huán)節(jié),因?yàn)樽髡哒J(rèn)為它是長(zhǎng)程任務(wù)完成能力的關(guān)鍵組成部分。傳統(tǒng)上,執(zhí)行環(huán)節(jié)受到的關(guān)注少于推理、規(guī)劃和世界知識(shí)等能力,而這些能力一直是 LLM 能力討論的主要焦點(diǎn)。這種相對(duì)的忽視是很重要的,因?yàn)閳?zhí)行中的失敗被錯(cuò)誤地歸因于推理或規(guī)劃能力的局限。這種看法可能源于一種觀點(diǎn),即執(zhí)行是一項(xiàng)簡(jiǎn)單或平凡的任務(wù)。畢竟,這是機(jī)器歷來擅長(zhǎng)的事情。人類一旦學(xué)會(huì)如何完成一項(xiàng)任務(wù),在執(zhí)行時(shí)也相當(dāng)可靠,甚至?xí)ㄟ^練習(xí)得到提高。然而,由于 LLM 并不具備正確性保證,作者假設(shè),在長(zhǎng)時(shí)程任務(wù)中,執(zhí)行對(duì) LLM 而言可能會(huì)出人意料地具有挑戰(zhàn)性。他們推測(cè):

即使推理、規(guī)劃和世界知識(shí)都得到完善,LLM 在長(zhǎng)期執(zhí)行過程中仍會(huì)出錯(cuò)。

為了證明這一點(diǎn),他們通過顯式提供必要的知識(shí)和規(guī)劃來隔離執(zhí)行失敗的情況。他們將前述航班選擇智能體示例中提出的「先檢索后組合」步驟串聯(lián)起來。每個(gè)步驟都包括檢索相關(guān)信息或規(guī)劃中指定的工具,然后組合其輸出以更新當(dāng)前狀態(tài)。規(guī)劃負(fù)責(zé)決定檢索什么以及如何組合,而執(zhí)行則是實(shí)際執(zhí)行這些操作。這符合一種自然的抽象 —— 鍵值(key-value)詞典。鍵作為規(guī)劃的一個(gè)步驟,指定要檢索的知識(shí)或要調(diào)用的工具,而值則代表知識(shí)或工具的輸出,隨后需要將其與當(dāng)前狀態(tài)組合。

在這項(xiàng)研究中,作者將規(guī)劃作為每個(gè)查詢中的鍵提供,從而消除了 LLM 對(duì)規(guī)劃能力的需求。他們還在上下文中提供鍵值詞典,消除了對(duì)模型參數(shù)知識(shí)的任何依賴。通過這種設(shè)計(jì),作者直接控制兩個(gè)重要的維度,它們相乘可得到任務(wù)長(zhǎng)度(「先檢索后組合」步驟的數(shù)量):輪次數(shù)量和輪次復(fù)雜度(K)。輪次復(fù)雜度可以通過改變每輪查詢的鍵的數(shù)量來調(diào)整。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)部分,作者得出了以下幾個(gè)核心結(jié)論:

  • 長(zhǎng)程任務(wù)執(zhí)行具有挑戰(zhàn)性。顯著增大模型規(guī)模會(huì)大幅增加模型能夠正確執(zhí)行的輪次數(shù)量。
  • 模型會(huì)把自己上一步犯的錯(cuò)誤當(dāng)成新上下文繼續(xù)學(xué)(self-conditioning),這導(dǎo)致每一步的準(zhǔn)確率下降。增大模型規(guī)模并不足以緩解這一問題。
  • 思考模型能解決 self-conditioning 限制的問題,還能在單輪中執(zhí)行明顯更長(zhǎng)的任務(wù)。

增加輪次的影響

作者首先驗(yàn)證了一個(gè)假設(shè) —— 即使在不需要世界知識(shí)和規(guī)劃的任務(wù)中,長(zhǎng)時(shí)程任務(wù)執(zhí)行也可能具有挑戰(zhàn)性。然后,他們研究了增大模型規(guī)模對(duì)長(zhǎng)時(shí)程任務(wù)執(zhí)行的益處。

作者在圖 4 中展示了結(jié)果。除了 Gemma3-4B 和 Qwen3-4B 之外,所有模型在第一步都達(dá)到了 100% 的準(zhǔn)確率,這凸顯出它們具備完美完成任務(wù)中單個(gè)步驟所需的知識(shí)和推理能力。然而,任務(wù)準(zhǔn)確率在后續(xù)回合中迅速下降。即使是表現(xiàn)最佳的模型(Qwen3-32B),其準(zhǔn)確率在 15 個(gè)輪次內(nèi)也降至 50% 以下。這證實(shí)了作者的假設(shè):即使去除了規(guī)劃和知識(shí)方面的要求,長(zhǎng)時(shí)程任務(wù)執(zhí)行對(duì) LLM 而言仍可能具有挑戰(zhàn)性。



如圖 4(a)所示,更大的模型在更多輪次中保持更高的任務(wù)準(zhǔn)確率,導(dǎo)致在任務(wù)長(zhǎng)度上呈現(xiàn)明顯的 scaling 趨勢(shì)(圖 4(c))。

為什么每輪準(zhǔn)確率會(huì)下降?是 self-conditioning 在作怪

人們可能會(huì)認(rèn)為模型的每輪表現(xiàn)會(huì)保持穩(wěn)定。然而,圖 4(b)顯示,隨著輪次數(shù)量的增加,各輪次的準(zhǔn)確率在穩(wěn)步下降。對(duì)此,作者研究了兩個(gè)相互對(duì)立的假設(shè):

  • 模型的性能會(huì)僅僅因?yàn)樯舷挛拈L(zhǎng)度的增加而下降,與內(nèi)容無關(guān);
  • 模型會(huì)以自身過去的錯(cuò)誤為條件(self-conditioning)。在觀察到自己在之前回合中的錯(cuò)誤后,它犯錯(cuò)誤的可能性會(huì)更大。

結(jié)果顯示,self-conditioning 會(huì)導(dǎo)致輪次準(zhǔn)確率在長(zhǎng)上下文之外進(jìn)一步下降。

圖 5(a)中的結(jié)果表明,長(zhǎng)上下文和 self-conditioning 都會(huì)導(dǎo)致準(zhǔn)確率下降。當(dāng)以無錯(cuò)誤的歷史為條件(誘導(dǎo)錯(cuò)誤率 = 0.00)時(shí),模型在第 100 輪的輪次準(zhǔn)確率低于其初始值,這與之前關(guān)于長(zhǎng)上下文退化的觀察結(jié)果一致。更有趣的是,隨著上下文中注入錯(cuò)誤的比例的提高,第 100 輪的準(zhǔn)確率持續(xù)下降。這證明了 self-conditioning 效應(yīng) —— 隨著模型出錯(cuò),它們更有可能犯更多錯(cuò)誤,從而導(dǎo)致整個(gè)輸出軌跡中的每輪準(zhǔn)確率持續(xù)下降,如圖 5(b)所示。



此外,與長(zhǎng)上下文不同,擴(kuò)大模型規(guī)模并不能緩解 self-conditioning 效應(yīng)。請(qǐng)注意,在誘導(dǎo)錯(cuò)誤率為 0 的情況下,第 100 輪的準(zhǔn)確率會(huì)隨著模型規(guī)模的增大而持續(xù)提高。

如圖 5(c)所示,將模型擴(kuò)展到前沿水平(2000 億以上參數(shù)),如 Kimi-K2、DeepSeek-V3 和 Qwen3-235B Instruct-2507,在多達(dá) 100 輪的對(duì)話中基本解決了長(zhǎng)上下文退化問題,在修復(fù)后的歷史對(duì)話上實(shí)現(xiàn)了近乎完美的準(zhǔn)確率。

然而,即使是這些大型模型仍然容易受到 self-conditioning 作用的影響,因?yàn)殡S著其歷史對(duì)話中誘導(dǎo)錯(cuò)誤率的增加,它們的性能會(huì)持續(xù)下降。這可能與最近的研究結(jié)果類似,即大型模型在多輪對(duì)話中會(huì)出現(xiàn)性格轉(zhuǎn)變。而在本文的案例中,這種轉(zhuǎn)變是朝著容易出錯(cuò)的「性格」方向發(fā)展。

在圖 6 中,作者清晰地發(fā)現(xiàn) Qwen3 thinking 模型不會(huì)進(jìn)行 self-condition—— 無論其上下文中的錯(cuò)誤率如何,模型在第 100 輪的準(zhǔn)確率都保持穩(wěn)定。這可能源于兩個(gè)原因:

  • 強(qiáng)化學(xué)習(xí)訓(xùn)練能夠減少語(yǔ)言模型最可能的下一個(gè) token 預(yù)測(cè)行為,使它們更傾向于任務(wù)成功而非延續(xù)上下文。
  • 移除先前輪次的思維軌跡可能會(huì)降低先前輪次對(duì)模型輸出的影響,因?yàn)槟P蜁?huì)獨(dú)立思考新的輪次。

通過檢查模型的思維軌跡,作者觀察到它們?cè)谒季S鏈中不會(huì)回溯到先前的輪次。此外,作者通過明確移除先前歷史作為一種潛在的修正方法進(jìn)行了上下文管理實(shí)驗(yàn),發(fā)現(xiàn)這確實(shí)減輕了 self-conditioning。



模型在單個(gè)輪次中能夠完成的任務(wù)有多長(zhǎng)?

模型能夠處理的總?cè)蝿?wù)長(zhǎng)度是輪次數(shù)量和每輪需要執(zhí)行的步驟數(shù)量共同作用的結(jié)果。作者也在實(shí)驗(yàn)中測(cè)量了后一個(gè)維度:模型每輪能夠執(zhí)行的最大步驟數(shù)量。

實(shí)驗(yàn)結(jié)果顯示,在沒有思維鏈的情況下,不具備思考能力的模型難以在單輪中完成哪怕兩個(gè)步驟的銜接。

在圖 12(左)中,作者首先發(fā)現(xiàn),當(dāng)被提示直接作答且不使用思維鏈時(shí),更大規(guī)模的 Qwen3 32B、Gemma3 27B,以及像 DeepSeek-V3(670B)和 Kimi K2(1026B)這樣的前沿非思考型模型,連復(fù)雜度為 2 的單輪任務(wù)都無法完成。這與先前的研究結(jié)果一致,即對(duì)于 Transformer 模型執(zhí)行序列任務(wù)而言,思考 token 是必不可少的。



作者強(qiáng)調(diào)這一點(diǎn)是因?yàn)?,許多智能體工作流為了在上下文窗口中容納更多動(dòng)作,會(huì)直接要求模型行動(dòng)而不使用思維鏈。作者發(fā)現(xiàn),借助思維鏈,模型在單輪中能夠執(zhí)行的步驟數(shù)量顯著增加。這表明,對(duì)于智能體而言,行動(dòng)前先進(jìn)行推理至關(guān)重要。在附錄 B 中,作者還展示了諸如多數(shù)投票之類的并行測(cè)試時(shí)計(jì)算,僅能在單輪執(zhí)行長(zhǎng)度和輪次數(shù)量上帶來微小提升。這為以下觀點(diǎn)提供了初步證據(jù):對(duì)于長(zhǎng)時(shí)程執(zhí)行任務(wù),順序性的測(cè)試時(shí)計(jì)算更為有效。

在圖 12(右側(cè))中,作者就前沿模型在單輪對(duì)話中能夠執(zhí)行的任務(wù)長(zhǎng)度進(jìn)行了基準(zhǔn)測(cè)試。他們發(fā)現(xiàn) GPT-5(代號(hào) Horizon)與其他模型(如 Gemini 2.5 Pro、Grok 4 和 DeepSeek R1)之間存在驚人的巨大差距。他們還發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的思維模型 DeepSeek R1 的性能顯著優(yōu)于其經(jīng)指令微調(diào)的對(duì)應(yīng)模型 DeepSeek-V3。

總體而言,長(zhǎng)時(shí)程執(zhí)行是一項(xiàng)挑戰(zhàn),開源權(quán)重模型在這方面仍在追趕那些僅通過 API 提供的模型,這凸顯了未來研究的機(jī)遇。

作者的實(shí)驗(yàn)部分寫得非常翔實(shí),不過有人質(zhì)疑這些實(shí)驗(yàn)是否符合長(zhǎng)時(shí)程任務(wù)的標(biāo)準(zhǔn)。感興趣的讀者可以去仔細(xì)看一下。



更多細(xì)節(jié)請(qǐng)參見原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
金正恩訪華后,中朝邊境一夜變樣

金正恩訪華后,中朝邊境一夜變樣

詩(shī)意世界
2025-09-20 10:47:21
2025年退休人員的苦日子,可能真的要來了!這4大征兆已經(jīng)凸顯

2025年退休人員的苦日子,可能真的要來了!這4大征兆已經(jīng)凸顯

瓜哥的動(dòng)物日記
2025-09-20 10:58:46
翟欣欣蘇享茂離婚協(xié)議現(xiàn)場(chǎng)曝光?簽字后他長(zhǎng)舒一口氣,滿臉的無奈

翟欣欣蘇享茂離婚協(xié)議現(xiàn)場(chǎng)曝光?簽字后他長(zhǎng)舒一口氣,滿臉的無奈

談史論天地
2025-09-19 17:15:09
北大最孤獨(dú)專業(yè):9年6代單傳,一人曠課全系放假,畢業(yè)照就一個(gè)人

北大最孤獨(dú)專業(yè):9年6代單傳,一人曠課全系放假,畢業(yè)照就一個(gè)人

禾寒?dāng)?/span>
2025-09-07 12:20:19
楊某媛又被爆3件往事:剪頭發(fā)能上校內(nèi)媒體被狠夸,信息量太大了

楊某媛又被爆3件往事:剪頭發(fā)能上校內(nèi)媒體被狠夸,信息量太大了

史書無明
2025-08-01 07:24:14
武大楊某媛的調(diào)查結(jié)果終于出來了

武大楊某媛的調(diào)查結(jié)果終于出來了

大張的自留地
2025-09-20 13:14:25
“老婆,我媽老了就得睡主臥”妻子:滾,我家不歡迎你們

“老婆,我媽老了就得睡主臥”妻子:滾,我家不歡迎你們

多久情感
2025-09-21 07:09:45
幫戰(zhàn)友全家15人訂五星度假酒店,付款時(shí)對(duì)方耍賴,我一招他們傻眼

幫戰(zhàn)友全家15人訂五星度假酒店,付款時(shí)對(duì)方耍賴,我一招他們傻眼

紅豆講堂
2025-09-02 07:40:03
返回中國(guó),上任女排?亮相北京,郎平官宣,丈夫陪同,賴亞文看懂

返回中國(guó),上任女排?亮相北京,郎平官宣,丈夫陪同,賴亞文看懂

樂聊球
2025-09-20 11:13:58
我媽的閨蜜終生不婚,每周都來我家吃幾頓飯,有一天我爸說漏了嘴

我媽的閨蜜終生不婚,每周都來我家吃幾頓飯,有一天我爸說漏了嘴

黑貓故事所
2025-09-19 20:42:16
他信獄中掉發(fā)難眠,女兒存3351元解急,佩通坦帶娃闖黨會(huì)!

他信獄中掉發(fā)難眠,女兒存3351元解急,佩通坦帶娃闖黨會(huì)!

你猜呀網(wǎng)友
2025-09-20 22:04:14
川超揭幕戰(zhàn)-成都領(lǐng)克6-0遂寧舍得干 全興名宿亮相開幕韓紅獻(xiàn)唱

川超揭幕戰(zhàn)-成都領(lǐng)克6-0遂寧舍得干 全興名宿亮相開幕韓紅獻(xiàn)唱

直播吧
2025-09-20 23:24:37
看懂了敘利亞變天,也就懂了波蘭為何阻斷中歐班列,無非兩點(diǎn)原因

看懂了敘利亞變天,也就懂了波蘭為何阻斷中歐班列,無非兩點(diǎn)原因

時(shí)時(shí)有聊
2025-09-20 19:48:05
我國(guó)少數(shù)民族中,與外國(guó)哪個(gè)民族同族,哪個(gè)又是外國(guó)的主體民族?

我國(guó)少數(shù)民族中,與外國(guó)哪個(gè)民族同族,哪個(gè)又是外國(guó)的主體民族?

夢(mèng)沉古道
2025-09-20 20:25:49
媒體人:奧斯卡-加西亞已經(jīng)向中國(guó)足協(xié)提交國(guó)足主帥申請(qǐng)資料

媒體人:奧斯卡-加西亞已經(jīng)向中國(guó)足協(xié)提交國(guó)足主帥申請(qǐng)資料

懂球帝
2025-09-20 15:15:07
林峯為張馨月慶祝35歲生日,朱亞文等人現(xiàn)身,張馨月大秀馬甲線

林峯為張馨月慶祝35歲生日,朱亞文等人現(xiàn)身,張馨月大秀馬甲線

史行途
2025-09-20 20:11:07
75歲老人直言:歲數(shù)大了才發(fā)現(xiàn),有存款和退休金,也是一種負(fù)擔(dān)

75歲老人直言:歲數(shù)大了才發(fā)現(xiàn),有存款和退休金,也是一種負(fù)擔(dān)

多久情感
2025-09-21 07:09:01
盤點(diǎn)從俞敏洪手里出走的6位大佬,羅翔最讓人意外,羅永浩混最差

盤點(diǎn)從俞敏洪手里出走的6位大佬,羅翔最讓人意外,羅永浩混最差

戶外釣魚哥阿旱
2025-09-14 12:20:04
2025北京長(zhǎng)城文化節(jié)懷柔系列活動(dòng)國(guó)慶亮相黃花城水長(zhǎng)城

2025北京長(zhǎng)城文化節(jié)懷柔系列活動(dòng)國(guó)慶亮相黃花城水長(zhǎng)城

新京報(bào)
2025-09-19 13:56:13
心梗去世的人越來越多?醫(yī)生再次強(qiáng)調(diào):寧可打打牌,也別做這6事

心梗去世的人越來越多?醫(yī)生再次強(qiáng)調(diào):寧可打打牌,也別做這6事

荷蘭豆愛健康
2025-09-20 12:38:22
2025-09-21 07:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11323文章數(shù) 142453關(guān)注度
往期回顧 全部

科技要聞

蔚來全新ES8正式上市:售價(jià)40.68萬元起

頭條要聞

在贊比亞因尾礦泄漏被索賠800億美元 涉事中企回應(yīng)

頭條要聞

在贊比亞因尾礦泄漏被索賠800億美元 涉事中企回應(yīng)

體育要聞

利物浦1.36億新援尷尬?0射1黃+7場(chǎng)仍0球

娛樂要聞

柯淳公開向關(guān)曉彤表白,鹿晗躺槍

財(cái)經(jīng)要聞

美聯(lián)儲(chǔ)降息,全球連鎖反應(yīng)來襲

汽車要聞

全系華為+寧德時(shí)代 阿維塔07 26款售21.99萬元起

態(tài)度原創(chuàng)

房產(chǎn)
時(shí)尚
親子
手機(jī)
數(shù)碼

房產(chǎn)要聞

全民撐廣州,不止于賽場(chǎng)!與“有態(tài)度”者共筑城市驕傲

伊姐周六熱推:電視劇《不眠日》;電視劇《照鏡辭》......

親子要聞

試管嬰兒家長(zhǎng)維權(quán):因腎病綜合征起訴醫(yī)院索賠

手機(jī)要聞

iQOO15預(yù)約開啟,電競(jìng)性能大幅提升

數(shù)碼要聞

Meta發(fā)布全家桶,帶屏AI眼鏡登場(chǎng)

無障礙瀏覽 進(jìn)入關(guān)懷版 九九久久99综合一区二区| cytherea大战黑人| 欧美人伦dvd| 99久久精品国产熟女拳交| 无码人妻丝袜在线视频红杏| 亚洲精品无码不卡在线| 韩国的无码AV看免费大片在线| 最近中文字幕国产精选| 年轻的妺妺乱的性视频| 欧美在线996免费观看视频| se久久综合| 国产对白做受| 97国产精华| 欧美a级情欲片在线观看免费| 久久AV无码AV| 巨茎爆乳无码性色福利| 久久大香萑太香蕉av黄软件| 久久久久亚洲AV无码网址| 肏屄视频黄色肏屄视频网站| 久久久久中文字幕精品无码免费| 农村激情亂伦视频| 日本少妇视频网站| 蜜臀av一区二区国产在线| 亚洲黄色激情| 国产乱子伦一区二区二区三区三州大 | 99热精国产这里只有精品| 国产麻豆视频一区二区| 男人狂桶女人高潮嗷嗷| 蜜桃成人AV| 欧美亚洲网| 高清无码 一区| 九九热99精品视频在线| 日本成人电国产一区| 性色av一区二区三区精品| 精品日产无码| 精品国产免费一区二区三区| 亚洲欧美美女视频| 蜜美杏中文字幕一区二区| 亚洲人妻一区二区精品| 日韩国一区二区| 久久综合色天天久久综合图片|