夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

創(chuàng)智&交大發(fā)現(xiàn)AI能動(dòng)性新規(guī)律, 78樣本勝GPT5實(shí)現(xiàn)軟件+科研自動(dòng)化

0
分享至



AI 能動(dòng)性的時(shí)代要求系統(tǒng)不僅能思考,更要能干活:包括協(xié)同編程(人機(jī)協(xié)作開(kāi)發(fā))和自動(dòng)化科學(xué)研究。LIMI 僅用 78 個(gè)樣本就超越 GPT-5 達(dá) 14.1%,并發(fā)現(xiàn)了能動(dòng)性效率原則: AI 能動(dòng)性不僅來(lái)源于數(shù)據(jù)豐富性,更來(lái)自于戰(zhàn)略性構(gòu)建。

本文來(lái)自于上海創(chuàng)智學(xué)院和上海交大劉鵬飛老師團(tuán)隊(duì),團(tuán)隊(duì)專注于構(gòu)建最前沿 AI 系統(tǒng)。核心作者來(lái)自于香港理工大學(xué),上海交通大學(xué),以及中國(guó)科學(xué)技術(shù)大學(xué)。

從 ChatGPT 到 Claude,從 Codex 到 Claude Code,全球科技公司正在 "能動(dòng)性" 領(lǐng)域展開(kāi)激烈競(jìng)爭(zhēng)。這一趨勢(shì)反映了產(chǎn)業(yè)界的關(guān)鍵認(rèn)知:能動(dòng)性能力正成為 AI 系統(tǒng)的核心競(jìng)爭(zhēng)力,決定著 AI 能否從簡(jiǎn)單的對(duì)話工具演進(jìn)為真正的工作伙伴。具備能動(dòng)性的 AI 系統(tǒng)將重新定義人機(jī)協(xié)作模式,成為推動(dòng)各行各業(yè)智能化轉(zhuǎn)型的關(guān)鍵技術(shù)。

什么是 "能動(dòng)性"?它是 AI 系統(tǒng)主動(dòng)發(fā)現(xiàn)問(wèn)題、制定假設(shè),并通過(guò)與環(huán)境和工具的自主交互執(zhí)行解決方案的能力。這種能力的重要性在于,它使 AI 從被動(dòng)響應(yīng)工具轉(zhuǎn)變?yōu)橹鲃?dòng)執(zhí)行的智能助手,能夠獨(dú)立完成復(fù)雜的知識(shí)工作任務(wù)。例如,讓模型從零開(kāi)始開(kāi)發(fā)一個(gè)完整的五子棋游戲需要模型具備需求理解、架構(gòu)設(shè)計(jì)、代碼實(shí)現(xiàn)、調(diào)試優(yōu)化等完整的自主執(zhí)行能力。這種協(xié)作編程場(chǎng)景代表了現(xiàn)代知識(shí)工作的典型需求,而具備這種能力的 AI 系統(tǒng)將能夠承擔(dān)大量現(xiàn)實(shí)世界的復(fù)雜任務(wù)

同樣,在科研工作流程中,模型需要完成從文獻(xiàn)調(diào)研到實(shí)驗(yàn)設(shè)計(jì),從數(shù)據(jù)分析到洞察生成的完整鏈路。能動(dòng)性使 AI 能夠獨(dú)立推進(jìn)科學(xué)研究進(jìn)程,這對(duì)于加速科學(xué)發(fā)現(xiàn)具有重大意義。

能動(dòng)性能力的培養(yǎng)難度遠(yuǎn)超傳統(tǒng) AI 能力,因?yàn)樗竽P途邆溟L(zhǎng)期規(guī)劃、多步推理、工具協(xié)調(diào)和自主糾錯(cuò)等高階認(rèn)知能力。當(dāng)前主流方法普遍認(rèn)為復(fù)雜的能動(dòng)性能力需要大量訓(xùn)練數(shù)據(jù)支撐,遵循傳統(tǒng)的規(guī)模化定律。這導(dǎo)致了資源密集型的訓(xùn)練流程:收集數(shù)萬(wàn)甚至數(shù)十萬(wàn)個(gè)訓(xùn)練樣本,消耗大量計(jì)算資源,但效果往往不盡如人意。

LIMI 的研究結(jié)果表明,僅使用 78 個(gè)復(fù)雜多輪交互軌跡樣本,模型就能在能動(dòng)性基準(zhǔn)測(cè)試 AgencyBench 上達(dá)到開(kāi)源模型的最佳表現(xiàn),還超越了 GPT-5 的性能。相比使用 10,000 個(gè)樣本訓(xùn)練的模型,LIMI 實(shí)現(xiàn)了 53.7% 的性能提升,數(shù)據(jù)使用量卻僅為其 1/128。



視頻鏈接:https://mp.weixin.qq.com/s/cDlxo_4vz3do4PNUfImyMw

如圖展示了一個(gè)模型從頭開(kāi)發(fā)的完整可運(yùn)行的五子棋游戲,這種端到端的自主執(zhí)行能力正是未來(lái) AI 系統(tǒng)的核心價(jià)值所在,證明了其在實(shí)際工作場(chǎng)景中的巨大應(yīng)用潛力。

LIMI 的發(fā)現(xiàn)挑戰(zhàn)了 "數(shù)據(jù)規(guī)模決定能力上限" 的傳統(tǒng)認(rèn)知,提出了能動(dòng)性效率原則:模型能動(dòng)性的發(fā)展更依賴于對(duì)能動(dòng)性本質(zhì)的理解和高質(zhì)量數(shù)據(jù)的精準(zhǔn)構(gòu)造,而非簡(jiǎn)單的數(shù)據(jù)堆疊。這一發(fā)現(xiàn)為大規(guī)模部署具備真正工作能力的 AI 系統(tǒng)開(kāi)辟了可行路徑,表明理解能動(dòng)性的核心機(jī)制比盲目擴(kuò)大數(shù)據(jù)規(guī)模更為重要。





  • 論文標(biāo)題:LIMI: Less is More for Agency
  • 論文地址:https://arxiv.org/pdf/2509.17567
  • 代碼地址:https://github.com/GAIR-NLP/LIMI
  • 數(shù)據(jù)集地址:https://huggingface.co/datasets/GAIR/LIMI
  • 模型地址:https://huggingface.co/GAIR/LIMI
  • AgencyBench:https://agencybench.opensii.ai/
  • SII CLI:https://www.opensii.ai/cli/

從被動(dòng)響應(yīng)到主動(dòng)工作:能動(dòng)性能力時(shí)代的到來(lái)

能動(dòng)性大語(yǔ)言模型(Agentic LLMs)的出現(xiàn),那些能夠推理、行動(dòng)并自主交互的系統(tǒng),代表著從被動(dòng) AI 助手向具備主動(dòng)能力模型的范式轉(zhuǎn)變。研究團(tuán)隊(duì)將能動(dòng)性定義為 AI 系統(tǒng)作為自主代理運(yùn)作的新興能力:主動(dòng)發(fā)現(xiàn)問(wèn)題、制定假設(shè),并通過(guò)與環(huán)境和工具的自主交互執(zhí)行解決方案。

這一根本能力標(biāo)志著 "AI 能動(dòng)性時(shí)代" 的到來(lái),其驅(qū)動(dòng)力來(lái)自一個(gè)關(guān)鍵的行業(yè)轉(zhuǎn)變:迫切需要不僅會(huì)思考,更會(huì)工作的 AI 模型。雖然當(dāng)前 AI 在推理和生成響應(yīng)方面表現(xiàn)出色,但產(chǎn)業(yè)界需要能夠執(zhí)行任務(wù)、操作工具并推動(dòng)現(xiàn)實(shí)世界成果的能動(dòng)性模型。

然而,能動(dòng)性模型的訓(xùn)練面臨著關(guān)鍵挑戰(zhàn)。當(dāng)前方法普遍假設(shè)更多數(shù)據(jù)能讓模型產(chǎn)生更強(qiáng)的能動(dòng)性能力,遵循語(yǔ)言建模的傳統(tǒng)擴(kuò)展定律(scaling laws)。這種范式導(dǎo)致了日益復(fù)雜的訓(xùn)練流程和大量資源需求,但一個(gè)根本假設(shè)仍未得到檢驗(yàn):模型的能動(dòng)性能力是否真的需要接觸大量訓(xùn)練數(shù)據(jù),還是可以通過(guò)戰(zhàn)略性方法更高效地涌現(xiàn)?

相鄰領(lǐng)域的新興證據(jù)暗示了一個(gè)令人信服的替代范式。LIMA 僅用 1,000 個(gè)精心策劃的樣本就實(shí)現(xiàn)了有效的模型對(duì)齊,而 LIMO 證明復(fù)雜數(shù)學(xué)推理能力能夠從僅 817 個(gè)戰(zhàn)略性選擇的訓(xùn)練樣本中涌現(xiàn)。這些發(fā)現(xiàn)表明,戰(zhàn)略性數(shù)據(jù)構(gòu)造可能在培養(yǎng)復(fù)雜 AI 能力方面比數(shù)據(jù)集規(guī)模根本上更強(qiáng)大。

研究團(tuán)隊(duì)的 LIMI 給出了答案:模型的能動(dòng)性能力遵循著與傳統(tǒng)擴(kuò)展方法根本不同的發(fā)展原則。通過(guò)戰(zhàn)略性聚焦協(xié)作軟件開(kāi)發(fā)和科學(xué)研究工作流程,這些領(lǐng)域涵蓋了大多數(shù)知識(shí)工作場(chǎng)景,研究表明復(fù)雜的能動(dòng)性能力可以從少量但精心構(gòu)造的高質(zhì)量數(shù)據(jù)中涌現(xiàn)。

如圖 1 所示,LIMI 僅用 78 個(gè)訓(xùn)練樣本就讓模型在 AgencyBench 上達(dá)到 73.5% 的性能,不僅超越了所有基線模型,更令人震撼的是,相比使用 10,000 個(gè)樣本訓(xùn)練的模型實(shí)現(xiàn)了 53.7% 的性能提升,用 128 倍更少的數(shù)據(jù)讓模型獲得了卓越的能動(dòng)性能力,徹底顛覆了 "更多數(shù)據(jù) = 更強(qiáng)能動(dòng)性" 的傳統(tǒng)認(rèn)知。



核心領(lǐng)域聚焦:協(xié)作編程與科學(xué)研究工作流

為了驗(yàn)證 LIMI 提出的戰(zhàn)略性數(shù)據(jù)構(gòu)造方法,該研究聚焦于兩個(gè)需要完整能動(dòng)性能力譜系并涵蓋大多數(shù)知識(shí)工作場(chǎng)景的基本領(lǐng)域。

協(xié)作編程代表 LLMs 與人類開(kāi)發(fā)者在上下文豐富環(huán)境中協(xié)作的軟件開(kāi)發(fā)模式。這個(gè)領(lǐng)域需要:跨現(xiàn)有代碼庫(kù)的代碼理解和生成,通過(guò)復(fù)雜工具生態(tài)系統(tǒng)的開(kāi)發(fā)環(huán)境導(dǎo)航,通過(guò)調(diào)試和優(yōu)化循環(huán)的迭代問(wèn)題解決,以及技術(shù)協(xié)調(diào)的協(xié)作溝通。復(fù)雜性在于對(duì)開(kāi)發(fā)上下文的整體理解和在不斷變化需求下的原則性決策制定。

科學(xué)研究工作流程涵蓋復(fù)雜科學(xué)研究過(guò)程,包括文獻(xiàn)搜索、數(shù)據(jù)分析、實(shí)驗(yàn)設(shè)計(jì)和洞察生成。這些工作流程需要:對(duì)多樣化信息來(lái)源進(jìn)行綜合,采用適當(dāng)方法論的實(shí)驗(yàn)設(shè)計(jì),復(fù)雜結(jié)果的數(shù)據(jù)分析和解釋,以及跨不同利益相關(guān)者格式的知識(shí)溝通。

這些任務(wù)展現(xiàn)出顯著的時(shí)間復(fù)雜性,表現(xiàn)為需要連貫狀態(tài)跟蹤和累積推理的多輪交互。它們需要戰(zhàn)略規(guī)劃能力,將復(fù)雜目標(biāo)分解為可管理的子目標(biāo),同時(shí)基于環(huán)境反饋適應(yīng)性調(diào)整策略。工具編排能力變得至關(guān)重要,因?yàn)楝F(xiàn)實(shí)世界的能動(dòng)性任務(wù)需要模型協(xié)調(diào)調(diào)用多個(gè)不同工具來(lái)完成復(fù)雜任務(wù)。

如圖 2 所示的用戶查詢示例展現(xiàn)了單個(gè)查詢的巨大復(fù)雜性 —— 從基礎(chǔ)到專家級(jí)遞進(jìn)的五子棋開(kāi)發(fā)任務(wù)涵蓋 Web 前端開(kāi)發(fā)、數(shù)據(jù)過(guò)濾、狀態(tài)管理、規(guī)則啟發(fā)式 AI 和高級(jí)搜索算法等多個(gè)相互關(guān)聯(lián)的子任務(wù)。這種復(fù)雜性覆蓋了規(guī)劃、執(zhí)行和協(xié)作等維度,展現(xiàn)了高質(zhì)量演示中學(xué)習(xí)信號(hào)的密集性。



圖 2:用戶查詢示例,展示了單個(gè)查詢?nèi)绾卧谝?guī)劃、執(zhí)行和協(xié)作維度上包含多個(gè)相互關(guān)聯(lián)的子任務(wù),證明了高質(zhì)量數(shù)據(jù)中學(xué)習(xí)信號(hào)的密集性。

精準(zhǔn)數(shù)據(jù)構(gòu)建:戰(zhàn)略策劃的系統(tǒng)化方法

LIMI 方法的有效性根本依賴于戰(zhàn)略性數(shù)據(jù)構(gòu)造,通過(guò)真實(shí)世界協(xié)作任務(wù)捕捉本質(zhì)的能動(dòng)性行為。該研究團(tuán)隊(duì)圍繞能動(dòng)性交互的基本要素形式化數(shù)據(jù)構(gòu)建過(guò)程,將每個(gè)完整交互定義為元組< 用戶查詢,能動(dòng)性軌跡 >,其中用戶查詢啟動(dòng)協(xié)作工作流程,軌跡捕獲完整交互序列。

如圖 3 所示,LIMI 的訓(xùn)練數(shù)據(jù)展現(xiàn)了顯著的高質(zhì)量特征:軌跡長(zhǎng)度分布廣泛,平均達(dá)到 42.4k tokens,最長(zhǎng)可達(dá) 152k tokens,遠(yuǎn)超傳統(tǒng)訓(xùn)練樣本的長(zhǎng)度。右側(cè)的領(lǐng)域覆蓋圖顯示了數(shù)據(jù)在協(xié)作編程和科學(xué)研究工作流程兩個(gè)核心領(lǐng)域的廣泛分布,涵蓋了從前端開(kāi)發(fā)、調(diào)試、工具調(diào)用到論文搜索、深度學(xué)習(xí)、實(shí)驗(yàn)工作流程等多個(gè)細(xì)分方向。



圖 3:LIMI 訓(xùn)練數(shù)據(jù)的特征。左圖:軌跡長(zhǎng)度分布顯示交互復(fù)雜性(平均 42.4k tokens)。右圖:涵蓋 vibe 編程和研究工作流的全面覆蓋。

用戶查詢池構(gòu)建:真實(shí)性與系統(tǒng)性的結(jié)合

查詢收集策略系統(tǒng)性地結(jié)合真實(shí)世界場(chǎng)景與戰(zhàn)略性覆蓋擴(kuò)展,確保生態(tài)有效性和充足的訓(xùn)練多樣性。

真實(shí)世界用戶查詢收集: LIMI 從專業(yè)開(kāi)發(fā)者和研究者在協(xié)作環(huán)境中遇到的實(shí)際場(chǎng)景收集 60 個(gè)查詢。這些查詢代表跨兩個(gè)核心領(lǐng)域的真實(shí)挑戰(zhàn),具有自然復(fù)雜性和上下文豐富性。值得注意的是,大量研究查詢來(lái)自真實(shí)學(xué)術(shù)論文,確保收集的用戶查詢具有可信的代表性。

基于 GitHub PR 的查詢合成:為了在保持真實(shí)性的同時(shí)系統(tǒng)性擴(kuò)展查詢池,團(tuán)隊(duì)開(kāi)發(fā)了使用 GPT-5 從 GitHub Pull Requests 合成額外查詢的流水線。這種方法利用真實(shí)代碼更改的豐富上下文,采用 GPT-5 的先進(jìn)推理能力生成反映真實(shí)開(kāi)發(fā)需求的協(xié)作場(chǎng)景。

系統(tǒng)性策劃過(guò)程涉及多個(gè)質(zhì)量保證階段:

(1)選擇具有超過(guò) 10,000 GitHub stars 的高質(zhì)量代碼倉(cāng)庫(kù),(2)確保軟件開(kāi)發(fā)領(lǐng)域的綜合覆蓋,(3)基于復(fù)雜性和實(shí)質(zhì)性進(jìn)行過(guò)濾,(4)采用四名計(jì)算機(jī)科學(xué)博士生作為專家標(biāo)注員評(píng)估合成查詢的質(zhì)量,確保語(yǔ)義對(duì)齊和上下文準(zhǔn)確性。

通過(guò)這種系統(tǒng)化方法,團(tuán)隊(duì)最終構(gòu)建了包含 78 個(gè)高質(zhì)量用戶查詢的綜合池,每個(gè)查詢都代表來(lái)自協(xié)作編程或科學(xué)研究工作流程的真實(shí)協(xié)作場(chǎng)景。

軌跡收集:捕獲最優(yōu)能動(dòng)性行為

為了生成展示最優(yōu)能動(dòng)性行為的訓(xùn)練軌跡,研究需要能夠支持真實(shí)人機(jī)協(xié)作的復(fù)雜執(zhí)行環(huán)境。這個(gè)環(huán)境必須支持復(fù)雜工具交互、維護(hù)詳細(xì)交互日志,并提供現(xiàn)實(shí)能動(dòng)性智能評(píng)估所需的操作上下文。

團(tuán)隊(duì)選擇SII CLI作為執(zhí)行環(huán)境,基于其幾個(gè)關(guān)鍵優(yōu)勢(shì):(1)支持協(xié)作編程和研究工作流程的全面工具集成,(2)對(duì)高質(zhì)量訓(xùn)練數(shù)據(jù)收集至關(guān)重要的詳細(xì)軌跡日志能力,(3)啟用自然交互模式的靈活人機(jī)協(xié)作界面,(4)對(duì)需要協(xié)調(diào)工具使用的復(fù)雜多步任務(wù)的強(qiáng)大支持。

在 SII CLI 環(huán)境內(nèi),四名博士生標(biāo)注員作為人類協(xié)作者,與 GPT-5 作為能動(dòng)性模型協(xié)作,在真實(shí)協(xié)作場(chǎng)景中完成 78 個(gè)用戶查詢的軌跡收集。

對(duì)于每個(gè)查詢,采用迭代收集方法,持續(xù)收集軌跡直到任務(wù)成功完成。這種持續(xù)性方法確保收集的軌跡捕獲真實(shí)人機(jī)交互模式,包括自然的來(lái)回溝通、迭代細(xì)化過(guò)程和表征有效能動(dòng)性行為的協(xié)作問(wèn)題解決策略。

正如圖 3 左側(cè)軌跡長(zhǎng)度分布所示,這種方法產(chǎn)生了內(nèi)容極其豐富、交互高度復(fù)雜的高質(zhì)量訓(xùn)練軌跡數(shù)據(jù),平均長(zhǎng)度達(dá)到 42.4k tokens,遠(yuǎn)超常規(guī)訓(xùn)練數(shù)據(jù)的復(fù)雜度,為模型提供了密集的能動(dòng)性學(xué)習(xí)信號(hào)。

突破性實(shí)驗(yàn)結(jié)果:顛覆認(rèn)知的發(fā)現(xiàn)

實(shí)驗(yàn)設(shè)置與評(píng)估框架

為了驗(yàn)證 LIMI 假設(shè)并證明戰(zhàn)略性數(shù)據(jù)構(gòu)造方法的有效性,團(tuán)隊(duì)采用了全面的實(shí)驗(yàn)框架,跨多個(gè)評(píng)估維度將方法與強(qiáng)基線模型進(jìn)行比較。

基線模型評(píng)估:團(tuán)隊(duì)評(píng)估了多樣化的最先進(jìn)基礎(chǔ)模型,確保全面比較:GLM-4.5、GLM-4.5-Air、Qwen3-235B-A22B-Instruct、DeepSeek-V3.1、Kimi-K2-Instruct。這個(gè)選擇涵蓋了具有不同架構(gòu)設(shè)計(jì)和訓(xùn)練方法的開(kāi)源模型,支持對(duì)能動(dòng)性能力的嚴(yán)格評(píng)估。

模型訓(xùn)練與對(duì)比實(shí)驗(yàn):為了系統(tǒng)評(píng)估策劃訓(xùn)練數(shù)據(jù)的影響,團(tuán)隊(duì)使用收集的數(shù)據(jù)對(duì) GLM-4.5 和 GLM-4.5-Air 進(jìn)行微調(diào)。所有微調(diào)實(shí)驗(yàn)使用 slime 框架進(jìn)行,確保一致的訓(xùn)練條件、超參數(shù)優(yōu)化和公平比較。

此外,為了評(píng)估數(shù)據(jù)策劃策略的質(zhì)量和有效性,團(tuán)隊(duì)通過(guò)在三個(gè)替代數(shù)據(jù)集上微調(diào) GLM-4.5 進(jìn)行比較實(shí)驗(yàn):CC-Bench-trajectories、AFM-WebAgent-SFT-Dataset 和 AFM-CodeAgent-SFT-Dataset。這種實(shí)驗(yàn)設(shè)計(jì)支持戰(zhàn)略性策劃數(shù)據(jù)與現(xiàn)有大規(guī)模能動(dòng)性訓(xùn)練數(shù)據(jù)集的直接比較。

評(píng)估框架:評(píng)估包含兩個(gè)互補(bǔ)策略,全面驗(yàn)證 LIMI 方法的有效性:

(1)在 AgencyBench 上的主要評(píng)估,專門設(shè)計(jì)用于評(píng)估協(xié)作場(chǎng)景中的能動(dòng)性能力;(2)在涵蓋工具使用、編程和科學(xué)計(jì)算的多個(gè)基準(zhǔn)上的泛化能力評(píng)估,確保發(fā)現(xiàn)能夠泛化到核心領(lǐng)域之外。

AgencyBench 上的卓越表現(xiàn)

如表 1 所示,在 AgencyBench 基準(zhǔn)測(cè)試中,LIMI 取得了令人震撼的成績(jī):



表 1: LIMI 系列模型在 AgencyBench 上的綜合比較。模型按評(píng)估目的分組:基線比較、泛化能力評(píng)估和數(shù)據(jù)效率驗(yàn)證。

LIMI 達(dá)到了73.5% 的平均得分,顯著超越了所有基線模型:GLM-4.5(45.1%)、Kimi-K2-Instruct(24.1%)、DeepSeek-V3.1(11.9%)和 Qwen3-235B-A22B-Instruct(27.5%)。

性能差距在首輪功能完整性(FTFC)方面特別明顯,LIMI 達(dá)到 71.7%,相比 GLM-4.5 的最佳基線性能 37.8% 實(shí)現(xiàn)了顯著的 33.9 個(gè)百分點(diǎn)改進(jìn)。類似地,LIMI 以 74.6% 的成功率展示了卓越的任務(wù)完成可靠性,大幅超越了最強(qiáng)基線模型 GLM-4.5 的 47.4%。

數(shù)據(jù)效率的極致體現(xiàn)

最震撼的發(fā)現(xiàn)是數(shù)據(jù)效率對(duì)比結(jié)果,為核心 LIMI 假設(shè)提供了令人信服的實(shí)證證據(jù):戰(zhàn)略性數(shù)據(jù)策劃在開(kāi)發(fā)能動(dòng)性智能方面根本上比簡(jiǎn)單擴(kuò)展訓(xùn)練數(shù)據(jù)量更有效。

LIMI 使用僅 78 個(gè)精心策劃的訓(xùn)練樣本就達(dá)到了卓越性能,大幅超越了在數(shù)量級(jí)更大數(shù)據(jù)集上訓(xùn)練的模型。最引人注目的是與在 AFM-CodeAgent-SFT-Dataset 上訓(xùn)練的 GLM-4.5-Code 的比較:LIMI 的 73.5% 平均 AgencyBench 性能戲劇性地超越了大規(guī)模方法實(shí)現(xiàn)的 47.8%,盡管使用的數(shù)據(jù)集小 128 倍(78 vs. 10,000 樣本)。

關(guān)鍵數(shù)據(jù)效率對(duì)比

  • LIMI (78 樣本) vs GLM-4.5-Code (10,000 樣本):25.7 個(gè)百分點(diǎn)優(yōu)勢(shì),數(shù)據(jù)量?jī)H 1/128
  • LIMI vs GLM-4.5-Web (7,610 樣本):23.5 個(gè)百分點(diǎn)優(yōu)勢(shì),數(shù)據(jù)量?jī)H 1/97
  • LIMI vs GLM-4.5-CC (260 樣本):18.0 個(gè)百分點(diǎn)優(yōu)勢(shì),數(shù)據(jù)量?jī)H 30%

這些一致的改進(jìn)證明了戰(zhàn)略性數(shù)據(jù)策劃能夠比大規(guī)模數(shù)據(jù)收集實(shí)現(xiàn)更有效的能力遷移,確立了能動(dòng)性智能開(kāi)發(fā)中 "少即是多" 范式的廣泛適用性。

跨領(lǐng)域泛化驗(yàn)證

如表 2 所示,LIMI 的優(yōu)勢(shì)擴(kuò)展到涵蓋工具使用、編程和科學(xué)計(jì)算的多樣化基準(zhǔn)測(cè)試中,證明了方法的廣泛適用性。LIMI 達(dá)到57.2% 的平均性能,超越了所有基線模型,包括 GLM-4.5(43.0%)、Kimi-K2-Instruct(37.3%)、DeepSeek-V3.1(29.7%)和 Qwen3-235B-A22B-Instruct(36.7%)。

值得注意的是,LIMI 在關(guān)鍵編程基準(zhǔn)上達(dá)到了最高性能(EvalPlus-HumanEval:92.1%,EvalPlus-MBPP:82.3%),并在工具使用任務(wù)上展示了競(jìng)爭(zhēng)性結(jié)果(TAU2-bench-airline:34.0%,TAU2-bench-retail:45.6%)。

跨多樣化評(píng)估領(lǐng)域的一致性能優(yōu)勢(shì)證明了戰(zhàn)略性數(shù)據(jù)策劃方法產(chǎn)生的廣泛模型能力改進(jìn),確立了核心協(xié)作編程和研究工作流程之外強(qiáng)大的性能表現(xiàn),表明 LIMI 不是簡(jiǎn)單的任務(wù)記憶,而是真正掌握了可遷移的能動(dòng)性思維模式。



表 2:泛化基準(zhǔn)測(cè)試的綜合性能比較。HE 代表 EvalPlus-HumanEval,MP 和 SP 分別代表 SciCode 的主要問(wèn)題和子問(wèn)題指標(biāo)。平均值包含了 AgencyBench 的表現(xiàn)。

能動(dòng)性效率原則

基于實(shí)驗(yàn)結(jié)果,研究建立了能動(dòng)性效率原則

模型能動(dòng)性的涌現(xiàn)并非來(lái)自簡(jiǎn)單數(shù)據(jù)的堆砌,而是來(lái)自高質(zhì)量能動(dòng)性數(shù)據(jù)的精心構(gòu)造。

這一發(fā)現(xiàn)根本重塑了開(kāi)發(fā)能動(dòng)性大模型以及 AI Agent 的方式,表明掌握能動(dòng)性需要理解其本質(zhì),而不是簡(jiǎn)單的擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模。

LIMI 促成了能動(dòng)性訓(xùn)練范式的根本性轉(zhuǎn)換:從 "更多簡(jiǎn)單數(shù)據(jù)→更強(qiáng)能動(dòng)性" 的舊范式,轉(zhuǎn)向 "更高質(zhì)量的能動(dòng)性數(shù)據(jù)→更強(qiáng)能動(dòng)性" 的新范式。LIMI 認(rèn)為:能動(dòng)性本質(zhì)上是 "潛伏" 于預(yù)訓(xùn)練模型中的,關(guān)鍵挑戰(zhàn)不是訓(xùn)練新能力,而是找到激活路徑。

產(chǎn)業(yè)影響與未來(lái)展望

對(duì) AI 產(chǎn)業(yè)生態(tài)的重塑

LIMI 的發(fā)現(xiàn)對(duì)整個(gè) AI 產(chǎn)業(yè)生態(tài)具有深遠(yuǎn)影響:

研發(fā)效率革命:小團(tuán)隊(duì)?wèi){借精準(zhǔn)方法可以與大公司競(jìng)爭(zhēng),降低了能動(dòng)性技術(shù)的門檻,促進(jìn)更多創(chuàng)新性方法的涌現(xiàn)。

資源配置優(yōu)化:將投入重點(diǎn)從數(shù)據(jù)收集轉(zhuǎn)向高質(zhì)量樣本設(shè)計(jì)和生成,從 "資源競(jìng)賽" 轉(zhuǎn)向 "數(shù)據(jù)構(gòu)造方法競(jìng)賽"。

應(yīng)用落地加速:為實(shí)際能動(dòng)性系統(tǒng)的開(kāi)發(fā)提供了高效可行的路徑,在實(shí)際應(yīng)用中提供了具體的指導(dǎo)原則:專注核心場(chǎng)景、完整流程軌跡、質(zhì)量?jī)?yōu)先策略。

商業(yè)化前景與技術(shù)普惠

LIMI 方法的商業(yè)化前景廣闊:降低開(kāi)發(fā)成本,減少對(duì)大規(guī)模數(shù)據(jù)和計(jì)算資源的依賴;縮短開(kāi)發(fā)周期,通過(guò)精準(zhǔn)方法快速獲得能動(dòng)性突破;提高應(yīng)用效果,在特定領(lǐng)域達(dá)到更好的性能表現(xiàn);普惠化應(yīng)用,讓更多中小企業(yè)能夠負(fù)擔(dān)得起能動(dòng)性技術(shù)。

未來(lái)發(fā)展方向

雖然 LIMI 目前主要驗(yàn)證了協(xié)作軟件開(kāi)發(fā)和科學(xué)研究?jī)蓚€(gè)領(lǐng)域,但其原理有望擴(kuò)展到醫(yī)療診斷能動(dòng)性、教育輔導(dǎo)能動(dòng)性、商業(yè)分析能動(dòng)性等更廣闊的認(rèn)知領(lǐng)域。

未來(lái)的能動(dòng)性系統(tǒng)將發(fā)展為多模態(tài)能動(dòng)性,融合視覺(jué)、語(yǔ)言、行動(dòng)等多種模態(tài);自主學(xué)習(xí)能動(dòng)性,從被動(dòng)激活發(fā)展到主動(dòng)進(jìn)化;以及更完善的理論體系,建立能動(dòng)性激活的數(shù)學(xué)模型和評(píng)估框架。

結(jié)語(yǔ):開(kāi)啟能動(dòng)性新時(shí)代

LIMI 不僅是一項(xiàng)技術(shù)突破,更是 AI 發(fā)展理念的根本性轉(zhuǎn)變。它證明了在能動(dòng)性開(kāi)發(fā)中,理解本質(zhì)比擴(kuò)大規(guī)模更重要,質(zhì)量比數(shù)量更關(guān)鍵。

78 個(gè)精心設(shè)計(jì)的樣本擊敗萬(wàn)級(jí)數(shù)據(jù)的事實(shí),確立了能動(dòng)性發(fā)展的全新原則:模型能動(dòng)性來(lái)自精心構(gòu)造,而非數(shù)據(jù)堆砌。當(dāng)模型從思考型 AI 轉(zhuǎn)向工作型 AI 時(shí),LIMI 為真正能動(dòng)性的可持續(xù)培養(yǎng)提供了新范式,開(kāi)啟了能動(dòng)性發(fā)展的新紀(jì)元,未來(lái)充滿無(wú)限可能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美陸軍部長(zhǎng):如果中美打起來(lái),中國(guó)有先進(jìn)裝備,美國(guó)有鋼鐵般意志

美陸軍部長(zhǎng):如果中美打起來(lái),中國(guó)有先進(jìn)裝備,美國(guó)有鋼鐵般意志

時(shí)時(shí)有聊
2025-10-01 07:26:06
徹底爆了!昆明多家公司已停止接單

徹底爆了!昆明多家公司已停止接單

掌上春城
2025-09-30 22:13:23
小天賜,終為父母當(dāng)年的“沖動(dòng)”買了單,年僅6歲活得不像個(gè)小孩

小天賜,終為父母當(dāng)年的“沖動(dòng)”買了單,年僅6歲活得不像個(gè)小孩

禾寒?dāng)?/span>
2025-09-30 19:15:35
釋永信交代了全過(guò)程令人吃驚!你想象不到他的生活有多豪多豐富!

釋永信交代了全過(guò)程令人吃驚!你想象不到他的生活有多豪多豐富!

娛樂(lè)看阿敞
2025-09-20 10:30:24
喊上門按摩,發(fā)現(xiàn)是女同學(xué)媽媽,結(jié)束后她問(wèn)我:還要?jiǎng)e的服務(wù)嗎?

喊上門按摩,發(fā)現(xiàn)是女同學(xué)媽媽,結(jié)束后她問(wèn)我:還要?jiǎng)e的服務(wù)嗎?

凱裕說(shuō)故事
2025-09-03 16:59:48
來(lái)自吉利的銷冠教科書(shū)!連續(xù)月銷破4萬(wàn),星愿太狠了

來(lái)自吉利的銷冠教科書(shū)!連續(xù)月銷破4萬(wàn),星愿太狠了

汽車排行榜談
2025-09-28 20:32:56
遭騙貸33億的四川城商行,被薅走5年盈利、近3年追回966萬(wàn)績(jī)效

遭騙貸33億的四川城商行,被薅走5年盈利、近3年追回966萬(wàn)績(jī)效

湘財(cái)Plus
2025-09-30 21:19:38
原來(lái)我們都被騙了!官媒發(fā)文,揭開(kāi)18歲全紅嬋真實(shí)處境’誤會(huì)太深

原來(lái)我們都被騙了!官媒發(fā)文,揭開(kāi)18歲全紅嬋真實(shí)處境’誤會(huì)太深

行走的知識(shí)庫(kù)
2025-10-01 05:46:00
為什么黃種人、黑種人和白種人能自由交配,難道沒(méi)有生殖隔離嗎?

為什么黃種人、黑種人和白種人能自由交配,難道沒(méi)有生殖隔離嗎?

詩(shī)意世界
2025-08-08 17:27:02
俄羅斯和日本,為何都不承認(rèn)庫(kù)頁(yè)島屬于清朝?原因非常簡(jiǎn)單!

俄羅斯和日本,為何都不承認(rèn)庫(kù)頁(yè)島屬于清朝?原因非常簡(jiǎn)單!

通文知史
2025-09-30 17:45:03
中國(guó)從來(lái)不是移民國(guó)家!

中國(guó)從來(lái)不是移民國(guó)家!

特例的貓
2025-10-01 08:48:29
蘇專家透露:跟中國(guó)鬧掰是蘇聯(lián)目光短淺之舉,是蘇外交史最大失敗

蘇專家透露:跟中國(guó)鬧掰是蘇聯(lián)目光短淺之舉,是蘇外交史最大失敗

南書(shū)房
2025-09-30 16:45:14
若熱-熱蘇斯回應(yīng)C羅亞冠輪休:他已經(jīng)40歲了,我們擔(dān)心他受傷

若熱-熱蘇斯回應(yīng)C羅亞冠輪休:他已經(jīng)40歲了,我們擔(dān)心他受傷

懂球帝
2025-09-30 23:51:16
王楚欽發(fā)球遮擋,裁判爭(zhēng)議判罰!莎頭隨后回?fù)舴绞?,卻讓肖戰(zhàn)點(diǎn)頭

王楚欽發(fā)球遮擋,裁判爭(zhēng)議判罰!莎頭隨后回?fù)舴绞?,卻讓肖戰(zhàn)點(diǎn)頭

嘴炮體壇
2025-09-30 19:02:12
極目政情丨60歲江蘇省長(zhǎng)許昆林履新遼寧省委書(shū)記,他15歲上大學(xué),曾在國(guó)家部委工作30多年

極目政情丨60歲江蘇省長(zhǎng)許昆林履新遼寧省委書(shū)記,他15歲上大學(xué),曾在國(guó)家部委工作30多年

極目新聞
2025-09-30 18:02:29
劉亦菲和大佬聚餐撒嬌,轉(zhuǎn)頭對(duì)身邊人翻白眼,難怪向太說(shuō)她太愛(ài)裝

劉亦菲和大佬聚餐撒嬌,轉(zhuǎn)頭對(duì)身邊人翻白眼,難怪向太說(shuō)她太愛(ài)裝

小咪侃娛圈
2025-09-25 14:30:45
24小時(shí)連簽6人!美媒5角度詳解勇士隊(duì)全新陣容:首發(fā)五虎獲A替補(bǔ)C

24小時(shí)連簽6人!美媒5角度詳解勇士隊(duì)全新陣容:首發(fā)五虎獲A替補(bǔ)C

鍋?zhàn)踊@球
2025-09-30 22:50:04
俄“反侵略”之戰(zhàn)即將打響,普京簽下總統(tǒng)令,對(duì)中國(guó)只有一個(gè)要求

俄“反侵略”之戰(zhàn)即將打響,普京簽下總統(tǒng)令,對(duì)中國(guó)只有一個(gè)要求

阿芒娛樂(lè)說(shuō)
2025-09-30 11:06:50
杭州保姆縱火案通靈實(shí)錄:通靈人與被害人交流,得知朱小貞真實(shí)死因

杭州保姆縱火案通靈實(shí)錄:通靈人與被害人交流,得知朱小貞真實(shí)死因

可兒故事匯
2024-08-29 12:50:53
洛陽(yáng)考古大發(fā)現(xiàn)!沉睡1500年!規(guī)模超羅馬3倍,就在中國(guó)黃土之下

洛陽(yáng)考古大發(fā)現(xiàn)!沉睡1500年!規(guī)模超羅馬3倍,就在中國(guó)黃土之下

興趣知識(shí)
2025-09-16 15:24:16
2025-10-01 10:00:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11389文章數(shù) 142463關(guān)注度
往期回顧 全部

科技要聞

天問(wèn)二號(hào)最新影像!五星紅旗與地球同框

頭條要聞

牛彈琴:特朗普果然出手了 美國(guó)軍隊(duì)要有大變革

頭條要聞

牛彈琴:特朗普果然出手了 美國(guó)軍隊(duì)要有大變革

體育要聞

揭秘庫(kù)明加續(xù)約:勇士奢侈稅增7000萬(wàn)

娛樂(lè)要聞

和張藝謀離婚后,前妻肖華現(xiàn)狀

財(cái)經(jīng)要聞

這五大消費(fèi)趨勢(shì),有望貫穿國(guó)慶長(zhǎng)假

汽車要聞

升級(jí)端到端高快NOA 上汽大眾Pro家族2026款上市

態(tài)度原創(chuàng)

家居
健康
親子
數(shù)碼
軍事航空

家居要聞

市區(qū)綠洲 鏈接社區(qū)商業(yè)

內(nèi)分泌科專家破解身高八大謠言

親子要聞

我與國(guó)旗合個(gè)影:滑縣英才小學(xué)一一班丨河南安陽(yáng) 我與國(guó)旗合個(gè)影

數(shù)碼要聞

AMD下代顯卡光追和動(dòng)畫(huà)性能大提升!官方詳解將硬件級(jí)支持DGF

軍事要聞

美軍將領(lǐng)大會(huì)召開(kāi) 美防長(zhǎng)提出10項(xiàng)新指令

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 日韩AV资源| 国产乱码卡二卡三卡4| 朝鲜女人大白屁股ass| 日韩福利视频| 亚洲无码解锁专区| 久久精品国产91精品亚洲| 中出少妇一区二区三区| 中文字日产乱码六区中国有限公司| 日韩在线永久免费播放| 欧美一区二区三区婷婷五月| 色悠悠免费观看| 91精品乱码一区二区三区| 国产乱XXXXX79国语对白| 老年熟妇毛茸茸| 98re久久| 77777亚洲午夜久久多人| 亚洲中文无码AV永久不收费| 欧美性爱片网站| 精品国产亚洲av麻豆特色| 尤物最新网址| 天天躁夜夜躁狠狠喷水| 囗交口爆国产在线视频| 男人添女人囗交做爰视频| 欧美日本韩国内射美女| 国产午夜激无码av毛片| 欧美疯狂做受xxxx| 一本加勒比HEZYO黑人| 欧美性xxxx狂欢老少配| 欧美激性欧美激情在线五月| 都市激情欧美日韩| 肉色丝袜91| 欧美日韩综合一区二区三区| 国产精成人品日日拍夜夜| 操逼一二三区| av中文字幕潮喷人妻系列| 九色丨PORNY丨自拍无码| 国产麻豆剧传媒精品国产av| 青青热在线精品视频免费观看| 麻豆人人妻人人妻人人片AV| 精品亚洲成a人片在线观看少妇| 国产精品熟女|