夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型智能體如何突破規(guī)模化應用瓶頸,核心在于Agentic ROI

0
分享至



本文第一作者為上海交通大學計算機學院副教授劉衛(wèi)文,研究方向為大模型智能體,大語言模型,個性化算法等。

近年來,隨著大語言模型的快速發(fā)展,基于其構建的大模型智能體(LLM Agents)正逐步從技術演示走向?qū)嶋H應用部署。然而,真正實現(xiàn)規(guī)?;瘧萌悦媾R諸多瓶頸。使用范圍主要集中于專業(yè)領域,如代碼生成、科研輔助等。在大眾、高頻、日常的應用場景(如電商、個人助理)中,普及率依然較低。這一現(xiàn)象引發(fā)了一個關鍵問題:

當前制約大模型智能體實際可用性的真正原因是什么?

上海交通大學聯(lián)合中科大在本文中指出:現(xiàn)階段大模型智能體的主要障礙不在于模型能力不足,而在于其「Agentic ROI」尚未達到實用化門檻。



  • 論文題目:The Real Barrier to LLM Agent Usability is Agentic ROI
  • 論文鏈接:https://arxiv.org/pdf/2505.17767

Agentic ROI:大模型智能體實現(xiàn)規(guī)模化應用的關鍵瓶頸

研究團隊提出 Agentic ROI(Agentic Return on Investment)這一核心指標,用于衡量一個大模型智能體在真實使用場景中所帶來的「信息收益」與其「使用成本」之間的比值:



  • Information Quality:指智能體所生成的信息質(zhì)量,包括準確性、完整性等。
  • Quality Threshold:指最低可接受的信息質(zhì)量閾值(注:根據(jù)上下文推斷)。
  • Human Time和 Agent Time:分別指人類與智能體完成對應任務所需的時間。
  • Interaction Time:指用戶與智能體交互所需要的時間,如用戶進行任務描述、驗證結果過程中所消耗的時間。
  • Expense:指用戶經(jīng)濟成本,如模型調(diào)用、API 使用的開銷。

只有當信息質(zhì)量超過一定閾值,且智能體所節(jié)省的時間和成本之比足夠高時,智能體才真正具備可用性。



如上圖所示,當前大部分 LLM 智能體集中應用于人類任務時間成本高的信息密集型場景(如科研、編程),此類任務本身就需要大量人力投入,因此即便智能體部分替代也能顯著提高效率。然而,在用戶量龐大的日常場景中(如電商、搜索、助理等),任務本身較為簡單,交互成本低(如點擊、下滑操作),智能體提升的邊際價值不明顯,反而可能引入額外的交互成本和延遲,從而導致 Agentic ROI 較低。

因此,當前高用戶需求與低 Agentic ROI 之間的矛盾,反映了智能體在日常應用中的實用性不足,需進一步優(yōu)化信息價值、智能體任務完成時間、及交互時間以填補市場空白。

優(yōu)化 Agentic ROI 智能體發(fā)展的「之字形」軌跡

研究團隊提出,LLM 智能體的發(fā)展路徑并非線性增長,而是呈現(xiàn)出一種「先規(guī)?;?、后輕量化」的「之字形」發(fā)展模式:首先規(guī)?;╯caling up)參數(shù)規(guī)模、訓練數(shù)據(jù)、推理能力以提升信息質(zhì)量;之后在保證信息質(zhì)量的前提下,輕量化(scaling down)進行模型壓縮、蒸餾、推理優(yōu)化以減少智能體所用時間與調(diào)用成本。我們正處于智能體規(guī)模化發(fā)展的高峰階段,優(yōu)先提升信息質(zhì)量。

基礎模型如 OpenAI 系列模型的發(fā)展也體現(xiàn)了這一「之字形」發(fā)展趨勢:同系列模型如 o1-mini 到 o1 模型表現(xiàn)顯著增強,而新一代小模型如 o3-mini 則在持平 o1 性能的同時顯著降低了推理費用和延遲。



規(guī)?;嵘畔①|(zhì)量(Scaling Up)

預訓練規(guī)?;≒re-training Scaling)

預訓練階段通過擴大模型規(guī)模、數(shù)據(jù)量和計算資源,使智能體在語言理解、推理和世界知識等基礎能力方面獲得穩(wěn)步提升。而規(guī)?;褂冒蝿战Y構和操作流程的文檔數(shù)據(jù)(如操作手冊、工作流程指南)能夠幫助模型學習實際任務的分解邏輯和執(zhí)行順序。此外,隨著上下文窗口的擴展和記憶機制的引入,智能體可以處理更長的交互歷史和用戶偏好,從而提升多輪任務執(zhí)行的能力。

后訓練規(guī)?;≒ost-training Scaling)

后訓練階段(如監(jiān)督微調(diào)和強化學習)使智能體更貼近人類的需求與價值觀。同時,智能體性能提升還依賴于大規(guī)模復雜環(huán)境(網(wǎng)頁、API 接口)交互軌跡數(shù)據(jù),使用外部工具進行操作決策。此外,在真實部署中積累的用戶反饋、任務完成記錄和錯誤修復數(shù)據(jù),構成了智能體持續(xù)學習與演化的基礎,形成智能體的數(shù)據(jù)飛輪,使其在真實使用中不斷優(yōu)化行為。

推理時規(guī)?;═est-time Scaling)

推理時規(guī)?;ǎ?/p>

  • 規(guī)模化推理步驟(Scaling reasoning process),以應對復雜任務并生成更可靠的輸出;
  • 規(guī)?;嘀悄荏w系統(tǒng)(Scaling multi-agent system),通過協(xié)作完成任務分解與執(zhí)行;
  • 擴展工具調(diào)用(Scaling tool calling),通過多次工具調(diào)用使智能體能夠逐步驗證中間結果;
  • 擴展推理時訓練(Scaling test-time training),通過利用無標簽測試數(shù)據(jù)實時更新快速適應新任務或用戶需求
  • 有約束條件下直接優(yōu)化 Agentic ROI(Scaling towards Agentic ROI under budget constraints),智能體可在給定預算約束(如時間、API 成本)下動態(tài)評估每一步操作信息收益,直接整體優(yōu)化 Agentic ROI。

構建世界模型(Building World Model)

構建真實的「世界模型」對于實現(xiàn)真正規(guī)?;瘮?shù)據(jù)合成、智能體評估至關重要。世界模型應支持多模態(tài)交互(語言、圖像、文檔、音頻),具備處理多步驟、長時程任務的能力,并能模擬用戶的多樣化偏好與反饋機制。此外,它還應反映現(xiàn)實世界中的不確定性,例如信息不完全、用戶意圖變化、環(huán)境干擾等。

確保魯棒性與安全性(Ensuring Robustness & Security)

確保智能體行為的穩(wěn)健性與安全性也是提升信息質(zhì)量的重要一環(huán)。魯棒性方面,智能體應防止獎勵機制被利用,避免出現(xiàn)「獎勵黑客」現(xiàn)象;安全性方面,需要防范訓練數(shù)據(jù)污染、防止反饋被篡改和后門攻擊等。在運行過程中,智能體應配備異常檢測和事實核查能力,確保輸出內(nèi)容的準確性與一致性。同時,構建行為審計機制和可解釋性工具,可以提升智能體的可控性和可靠性。

輕量化降低智能體時間與成本(Scaling Down)

減少智能體任務完成時間

引入記憶機制:引入記憶機制是提高效率的重要手段。具備記憶能力的智能體可以跳過重復計算,直接調(diào)用以往任務中積累的知識,從而加快處理速度。這種方式模擬人類專家的行為,依靠經(jīng)驗而非實時推理來完成任務。

模型壓縮:通過模型壓縮或蒸餾來減少計算資源和推理延遲,是另一個核心方向。借助模型蒸餾等技術,可以將大模型的能力遷移到更小的模型中,從而在不顯著降低性能的前提下,顯著縮短響應時間、減少部署成本。

優(yōu)化推理策略:智能體的時間消耗不僅來源于計算,還受到推理鏈條長度的影響。如果推理過程過于復雜或冗余,例如頻繁的自我反思、遞歸規(guī)劃等,可能會延長任務完成時間而未帶來質(zhì)的提升。因此,更高效的智能體應具備「少而精」的思維能力,能夠通過最短路徑達成最優(yōu)解。

基礎設施優(yōu)化:硬件層面的升級,如 Groq 和 Cerebras 等新型 AI 芯片,以及軟件層面的優(yōu)化,如 vLLM 和 FlashAttention 等推理引擎,都能顯著提升模型運行速度。只有軟硬件協(xié)同進化,才能真正滿足低延遲、實時響應的實際需求,從而提升智能體的整體可用性。

降低成本

降低交互時間:當前的智能體往往要求用戶提供冗長、明確的指令,這帶來了較高的使用門檻與認知負擔。為此,智能體的交互方式應從被動解析輸入,轉(zhuǎn)向主動理解用戶意圖,具備一定程度的目標推理與任務自完成能力。這種轉(zhuǎn)變不僅可以減少用戶的操作負擔,也有助于提升整體使用體驗。此外,產(chǎn)品設計上的新范式也有助于進一步降低用戶交互時間。

降低開銷:智能體的運行費用可能因模型規(guī)模、推理深度、調(diào)用外部工具等因素而迅速上升。尤其在大規(guī)模部署或持續(xù)運行場景下,成本問題尤為突出。因此,未來的智能體需要更智能地管理上下文,合理控制推理復雜度與工具調(diào)用頻率,確保在保證性能的前提下,盡可能降低資源消耗與使用開銷。

Agentic ROI 提供了一個衡量智能體真實可用性的系統(tǒng)框架,幫助我們超越模型性能的單一維度,轉(zhuǎn)向「實際效益」導向的設計與評價邏輯。智能體的「可用性」不應僅以模型性能定義,而應以綜合效益衡量。在實際部署中,Agentic ROI 為我們提供了一個更貼近真實世界的評價維度,幫助我們識別系統(tǒng)中被忽視的「隱藏成本」,并指導我們構建真正高效、可用、可負擔的智能體系統(tǒng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
人民幣在朝鮮的購買力,超出了我的想象,平壤女售貨員的手在發(fā)抖

人民幣在朝鮮的購買力,超出了我的想象,平壤女售貨員的手在發(fā)抖

史閣
2025-10-10 10:54:33
8名間諜一窩端!勾結境外勢力,偷運軍工核心材料,作案手段炸裂

8名間諜一窩端!勾結境外勢力,偷運軍工核心材料,作案手段炸裂

杰絲聊古今
2025-10-13 15:45:32
動物交配六親不認,如果雄性遇上自己母親呢?真存在馬不欺母嗎?

動物交配六親不認,如果雄性遇上自己母親呢?真存在馬不欺母嗎?

答案在這兒
2025-09-27 17:43:08
45歲大姐在國外當保姆15年,雇主臨別塞信封,她拆開一看竟不是錢

45歲大姐在國外當保姆15年,雇主臨別塞信封,她拆開一看竟不是錢

蘭姐說故事
2025-09-23 05:05:07
一亮相嚇一跳,看到這些明星才明白啥叫斷崖式衰老!果真歲月不饒人

一亮相嚇一跳,看到這些明星才明白啥叫斷崖式衰老!果真歲月不饒人

白宸侃片
2025-10-16 13:17:57
背負31年拋棄妻子罵名的周野芒,揭穿奚美娟的風流丑聞自證清白

背負31年拋棄妻子罵名的周野芒,揭穿奚美娟的風流丑聞自證清白

觀察者海風
2025-10-12 09:53:25
國民黨主席選舉今日投開票,結果神預測

國民黨主席選舉今日投開票,結果神預測

蘭妮搞笑分享
2025-10-18 11:34:28
央八首播!43集諜戰(zhàn)大劇,剛播三集就爆了,王陽、王志文領銜主演

央八首播!43集諜戰(zhàn)大劇,剛播三集就爆了,王陽、王志文領銜主演

樂楓電影
2025-10-18 14:46:39
荷蘭發(fā)現(xiàn),凍結聞泰科技股權事件開始失控了!

荷蘭發(fā)現(xiàn),凍結聞泰科技股權事件開始失控了!

百態(tài)人間
2025-10-17 16:23:40
雷軍談米家空調(diào)10年免費包修細節(jié)!網(wǎng)友找茬:小字看不清……

雷軍談米家空調(diào)10年免費包修細節(jié)!網(wǎng)友找茬:小字看不清……

南財社V
2025-10-17 21:09:33
才明白,為何嫁大19歲劉強東,7年生3孩的章澤天,從未有怨言

才明白,為何嫁大19歲劉強東,7年生3孩的章澤天,從未有怨言

振華觀史
2025-10-17 18:25:56
“跳梁小丑”李玉剛跌落神壇,不再被世界寬容,他究竟做了什么

“跳梁小丑”李玉剛跌落神壇,不再被世界寬容,他究竟做了什么

小莜讀史
2025-10-16 18:04:30
南海進入混合戰(zhàn),中方剛打退菲船,不到24小時,美國找到出兵借口

南海進入混合戰(zhàn),中方剛打退菲船,不到24小時,美國找到出兵借口

書中自有顏如玉
2025-10-18 15:56:01
都反水了!ASML、荷蘭光刻機供應商相繼宣布,外媒:事情鬧大了

都反水了!ASML、荷蘭光刻機供應商相繼宣布,外媒:事情鬧大了

深析古今
2025-10-17 08:26:14
顏丙燕小20歲男友正臉曝光!185cm身高非常帥,打耳釘逛街牽著她

顏丙燕小20歲男友正臉曝光!185cm身高非常帥,打耳釘逛街牽著她

可樂談情感
2025-10-18 07:59:06
中國為什么不能支持哈馬斯,歷史上的血仇總要留下警惕

中國為什么不能支持哈馬斯,歷史上的血仇總要留下警惕

大國紀錄
2025-10-11 11:37:02
雷軍被格力朱磊點名了!追問有沒有對格力空調(diào)發(fā)起“水軍攻勢”…

雷軍被格力朱磊點名了!追問有沒有對格力空調(diào)發(fā)起“水軍攻勢”…

火山詩話
2025-10-18 09:05:00
大陸18份通緝令沒白發(fā),“臺獨”分子大倒苦水,小金庫被一鍋端

大陸18份通緝令沒白發(fā),“臺獨”分子大倒苦水,小金庫被一鍋端

健身狂人
2025-10-18 13:45:53
內(nèi)爆致5人遇難:泰坦號殘骸發(fā)現(xiàn)完好閃迪存儲卡!12張照片9段視頻

內(nèi)爆致5人遇難:泰坦號殘骸發(fā)現(xiàn)完好閃迪存儲卡!12張照片9段視頻

快科技
2025-10-17 15:13:14
又一家國企發(fā)文停發(fā)員工績效工資和獎勵…

又一家國企發(fā)文停發(fā)員工績效工資和獎勵…

微微熱評
2025-10-17 11:54:08
2025-10-18 17:11:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11494文章數(shù) 142486關注度
往期回顧 全部

科技要聞

物理學家楊振寧先生逝世

頭條要聞

女子患癌去世前被丈夫3次起訴離婚:要200元生活費被打

頭條要聞

女子患癌去世前被丈夫3次起訴離婚:要200元生活費被打

體育要聞

灰熊不可能梭哈,安安穩(wěn)穩(wěn)過日子才是真

娛樂要聞

陳偉霆何穗無預警官宣結婚生子

財經(jīng)要聞

特朗普軟了:對華高額關稅訛詐 不可持續(xù)

汽車要聞

全新領克03家族上市限時售價10.38萬起

態(tài)度原創(chuàng)

手機
時尚
教育
旅游
公開課

手機要聞

部分 iPhone 17 系列用戶反饋蘋果 CarPlay 故障

穿對馬丁靴,時髦整個秋天!

教育要聞

廣州五年級幾何壓軸題,求面積,不少人無從下手

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 伊人激情播播| 97人妻精品一区二区三区视频| 国产性色AⅤ高清在线观看| 国产中文视频| 99er在线| 最新av在线播放| 国产精品自在线拍国产手机版| 人妻人人爽澡人人爽欧美18| 中文在线一区| 久久久国产精品VA麻豆| 久久麻传媒亚洲av国产 | 无码www7777| 热久久免费视频| 在线观看老湿视频福利| 国产精鲁鲁网在线视频| 拔插拔插海外华人免费视频| 日本a级视频在线播放| 色偷偷一区| 久久疯狂浆XXXⅩ高潮| 亚洲老熟女乱伦| 国产福利99| 国产95在线 | 欧美| 人人操人人摸在线观看| 亚洲精品三区| 人妻熟妇乱又伦精品视频中文字幕| 国产av一区二区精品凹凸| 九九热热黄乀| 精品精品久久宅男的天堂| 在线欧美一区| 好屌妞国产欧美日韩| 久久久久久久久嫩草精品乱码| 国产本道久久一区二区三区| 东方aⅴ免费观看久久av| 欧美亚洲性爱| 亚洲 日本 欧洲 欧美 视频| 色婷婷日日躁夜夜躁| 亚洲一区二区三区有码| √天堂中文www官网在线| 国产99久久久国产四虎| 国产成人亚洲色就色| 国产在线岛国V片天堂|