大模型爆紅后,不少人都在高喊“AI Agent 才是未來”,連英偉達 CEO 黃仁勛也曾斷言,Agent 將催生萬億級新市場。然而在一線開發(fā)者眼中,現(xiàn)實遠沒那么樂觀。
近日,一位曾在開發(fā)、運維和數(shù)據(jù)運營等領域構建過 12 個以上生產(chǎn)級 AI Agent 系統(tǒng)的工程師發(fā)文,直言自己并不看好 2025 年這波 Agent 熱潮——他認為,當下關于“自主智能體”的設想在數(shù)學上根本走不通,真正能在生產(chǎn)環(huán)境中跑得穩(wěn)的 Agent,也完全不是現(xiàn)在市面上宣傳的那一套。
原文鏈接:https://utkarshkanwat.com/writing/betting-against-agents/
作者 | Utkarsh Kanwat 責編 | 蘇宓
出品 | CSDN(ID:CSDNnews)
很多人說“2025 是 AI agent 元年”。各種新聞文章標題都這么寫:
“AI agent 會徹底改變工作方式”
“Agent 是 AI 的下一個風口”
“未來是屬于 Agent”
而我卻剛剛花了一年時間搞清楚哪些 Agent 在生產(chǎn)環(huán)境里真的能用,也正因如此,我才不看好這股風。
我不是唱反調的人,我是真干過的
過去一年我做了十幾個上線的 Agent 系統(tǒng),覆蓋整個軟件開發(fā)流程,比如:
開發(fā)類 Agent:自然語言生成 React 組件、重構老代碼、自動維護 API 文檔、根據(jù)說明生成函數(shù)。
數(shù)據(jù)和基礎設施類 Agent:自動執(zhí)行復雜 SQL、搞定數(shù)據(jù)庫遷移、用 AI 管基礎設施代碼(IaC)并支持多云。
質量和流程類 Agent:AI 驅動的 CI/CD 流水線,自動修復 lint、生成測試、做代碼審查、寫 PR 描述。
這些系統(tǒng)確實能用,確實創(chuàng)造了實際價值,每天都能幫人省下好幾個小時的手動操作。也正因為如此,我才認為外界把 2025 稱作 “AI Agent 元年” 的說法,忽略了很多關鍵現(xiàn)實。
要點速覽:關于 AI Agent 的三個殘酷現(xiàn)實
在構建了 12 套以上的生產(chǎn)級系統(tǒng)之后,我得出以下幾點結論:
多步驟流程中的錯誤率會呈指數(shù)級放大。即便每一步的成功率有 95%,到第 20 步時整體成功率也只剩 36%。而生產(chǎn)環(huán)境的要求是 99.9% 起步。
上下文窗口帶來的 token 成本是二次增長的。對話越長,成本越高,規(guī)?;箝_銷驚人。
最大的難題不是 AI 本身的能力,而是如何設計 Agent 真正能用的工具和反饋系統(tǒng)。
一個沒人愿意面對的數(shù)學現(xiàn)實
所有做 AI Agent 的公司都在回避一個難以接受的事實:在生產(chǎn)級別的多步驟任務中,錯誤的累積讓“全自動智能體”在數(shù)學上根本行不通。
AI Agent 流程中的錯誤累積
咱們算算賬。如果一個 Agent 流程中每一步的可靠率是 95%(這對現(xiàn)在的大模型來說已經(jīng)很樂觀了),那么整體成功率就是:
5 步流程,成功率約為 77%
10 步流程,成功率約為 59%
20 步流程,成功率僅剩 36%
而生產(chǎn)環(huán)境要求的可靠率通常要達到 99.9% 以上。即使你奇跡般地讓每步成功率達到 99%(目前沒人做到),20 步的整體成功率也只有 82%。這不是提示詞設計的問題,也不是模型能力的問題,而是數(shù)學上的現(xiàn)實。
我做的 DevOps Agent 能用,正是因為它根本不是一個 20 步的全自動流程。它被拆分成 3-5 個獨立的、可以單獨驗證的操作,有明確的回滾點和人工確認環(huán)節(jié)。Agent 負責生成復雜的基礎設施代碼,但整個系統(tǒng)架構都是基于可靠性這個數(shù)學限制來設計的。
我做過的每一個成功 Sgent 系統(tǒng)都有相同的規(guī)律:有邊界清晰的上下文、可驗證的操作步驟,以及關鍵節(jié)點上的人工決策點。一旦你試圖讓智能體自主串聯(lián)起超過幾個步驟的復雜操作,數(shù)學就會讓你吃癟。
長對話意味著成本爆炸
還有一個數(shù)學現(xiàn)實是很多 AI agent 支持者故意忽略的:上下文窗口會導致 token 成本呈二次方增長,這讓基于對話的 Agent 在經(jīng)濟上根本不劃算。
具體來說,做一個“會聊天”的 Agent 會遇到這樣的問題:
每次新交互都得處理之前所有的上下文
token 消耗隨著對話長度成二次方增長
一場 100 輪的對話,僅 token 成本就可能高達 50 到 100 美元
用戶一多,成千上萬,這成本完全無法承受
我自己在做一個會話型數(shù)據(jù)庫 Agent 的原型時就深有體會。
剛開始幾次交互成本還低,但到了第 50 次請求時,每條回復花費已經(jīng)是幾美元,遠超它能帶來的價值。絕大多數(shù)場景下,這種經(jīng)濟模型根本行不通。
我做的函數(shù)生成 Agent 之所以成功,是因為它完全無狀態(tài):輸入描述-輸出函數(shù)-過程結束。沒有需要維護的上下文,也不用追蹤對話,避免了成本的爆炸。它不是“和代碼聊天”的體驗,而是專注解決具體問題的工具。
實際上,生產(chǎn)環(huán)境中最成功的 Agent 往往根本不依賴對話。他們是聰明而有邊界的工具,專注做好一件事,然后干凈利落地退出,不拖泥帶水。
最大難題不是模型能力,而是工具設計
你就算搞定了上面兩個數(shù)學問題,還得面對一個現(xiàn)實:AI 想用好工具,必須有合適的接口和反饋系統(tǒng)。但現(xiàn)在很多團隊都嚴重低估了這個挑戰(zhàn)。
現(xiàn)在的工具調用其實已經(jīng)相當精準了,真正的難點在于工具設計。每個工具都必須經(jīng)過精心打磨,既能給出合適的反饋,又不能讓上下文窗口被信息淹沒。你需要考慮:
Agent 怎么知道某個操作只是部分成功?怎么在不浪費大量 token 的情況下傳達復雜的狀態(tài)變化?
比如數(shù)據(jù)庫查詢可能返回 1 萬條數(shù)據(jù),但 Agent 只需要知道“查詢成功,1 萬條結果,這里是前 5 條”,設計這種抽象是一門藝術。
當工具失敗時,Agent 需要哪些信息來恢復?信息太少它會卡住,太多又浪費上下文資源。
怎么處理相互影響的操作?比如數(shù)據(jù)庫事務、文件鎖、資源依賴關系。
我做的數(shù)據(jù)庫 Agent 能用,不是因為工具調用不出錯,而是因為我花了幾周時間設計了能和 AI 有效溝通的工具接口。每個工具都會返回結構化的反饋,Agent 能真正用來做決策,而不是單純拿到一堆原始的 API 響應。
那些號稱“接上 API,Agent 就能搞定一切”的公司根本沒做過這方面的工程工作。他們把工具當成人機交互界面設計,而不是針對 AI 設計。結果是,雖然 Agent 表面上能成功調用 API,卻無法真正完成復雜流程,因為它根本沒弄懂發(fā)生了什么。
每個生產(chǎn)環(huán)境中的 Agent 系統(tǒng)背后有個不為人知的真相:AI 可能只做了 30% 的工作,其余 70% 是工具工程——設計反饋接口、高效管理上下文、處理部分失敗,以及構建 AI 能理解和利用的恢復機制。
整合現(xiàn)實考驗
假設你已經(jīng)解決了可靠性和經(jīng)濟性問題,接下來還得面對一個更大的挑戰(zhàn)——和現(xiàn)實世界系統(tǒng)的集成,而現(xiàn)實往往很復雜糟糕。
企業(yè)系統(tǒng)并不是一套干凈利落的 API,等著 AI agent 去協(xié)調。它們大多是遺留系統(tǒng),有各種怪癖、存在各種故障模式、隨時可能變動的認證流程、按時間變化的訪問頻率限制,還有一些合規(guī)要求,根本套不進簡單的提示模板里。
我的數(shù)據(jù)庫 Agent 不只是“自動執(zhí)行查詢”。它還得處理連接池管理、事務回滾、只讀副本、查詢超時,并且記錄所有操作以備審計。AI 負責生成查詢語句,其他一切都靠傳統(tǒng)系統(tǒng)編程。
那些吹噓“全自動 Agent 能無縫集成你整個技術?!钡墓荆刺珮酚^,要么根本沒真正在大規(guī)模生產(chǎn)環(huán)境試過。現(xiàn)實中,集成現(xiàn)實場景往往是 AI Agent 的墳墓。
什么才是真正可行的(以及原因)
做過十幾個覆蓋整個軟件開發(fā)生命周期的 Agent 系統(tǒng)后,我發(fā)現(xiàn)成功的項目都有共同特點:
我的 UI 生成 Agent 之所以能用,是因為每個界面都會有人審查后才上線。AI 負責將自然語言轉成可用的 React 組件,最終用戶體驗由人來把關。
我的數(shù)據(jù)庫 Agent 之所以可靠,是因為每次有破壞性的操作都會先確認。AI 負責把業(yè)務需求轉成 SQL,但數(shù)據(jù)完整性由人來保證。
我的函數(shù)生成 Agent 只在明確的邊界內(nèi)工作:給它一個規(guī)范,它輸出一個函數(shù)。沒有副作用,沒有狀態(tài)管理,也沒有復雜集成。
我的 DevOps 自動化 Agent 通過生成基礎設施即代碼(IaC)來工作,這些代碼可以審查、版本控制、回滾。AI 負責把需求轉成 Terraform 代碼,但部署流程有我們多年積累的安全機制。
我的 CI/CD Agent 有明確的成功標準和回滾機制。AI 負責分析代碼質量、生成修復建議,但最后合并與否由流水線控制。
總結一句話:
AI 負責處理復雜問題,人工負責掌控關鍵決策,傳統(tǒng)軟件工程保障系統(tǒng)穩(wěn)定可靠。
我的預測
以下是我對 2025 年哪些人將陷入困境的具體預測與判斷:
那些靠風險投資撐腰、打著“完全自主 Agent”旗號的初創(chuàng)公司,會最先碰到經(jīng)濟瓶頸。他們的 Demo 在五步以內(nèi)的流程還挺順,但客戶真正需要的是 20 步以上的復雜流程,這從數(shù)學上根本撐不住。為了解決這種不可能解決的可靠性問題,燒錢速度會飆升。
那些在已有企業(yè)軟件產(chǎn)品上硬塞“AI agent”的公司,用戶接受度會停滯不前。因為他們的 Agent 根本無法深入集成,處理不了真正的工作流程。
勝出者會是那些打造受限、面向特定領域的工具團隊,這些工具用 AI 處理難點,同時在人類控制或關鍵決策上保持嚴格邊界。換句話說,不是“全自動一切”,而是“能力超強且邊界清晰的助手”。
市場最終會學會區(qū)分“演示效果好”的 AI 和“真正穩(wěn)定可用”的 AI,而這個過程對許多公司來說代價會很高。
我并不是不看好 AI,而是對當前 Agent 架構的做法不看好。但我相信,未來會遠比現(xiàn)在的炒作更有價值。
正確的構建方式
如果你打算做 AI agent,先從這些原則開始:
明確界限:你的 Agent 到底能做什么,哪些部分交給人或確定性系統(tǒng)處理?
設計容錯:AI 出錯的情況可能占 20-40%,你怎么應對?有沒有回滾機制?
解決經(jīng)濟問題:每次交互花多少錢,隨著用戶增長成本怎么擴展?無狀態(tài)設計往往比有狀態(tài)劃算。
把可靠性放在自治前面:用戶更信賴穩(wěn)定好用的工具,而不是偶爾能搞出神操作的系統(tǒng)。
打好基礎:AI 負責難點(理解意圖、內(nèi)容生成),關鍵環(huán)節(jié)(執(zhí)行、錯誤處理、狀態(tài)管理)仍靠傳統(tǒng)軟件工程。
Agent 革命遲早會來,只是它絕不會像 2025 年的宣傳那樣光鮮炫目,正因為如此,它才更可能成功。
2025 全球產(chǎn)品經(jīng)理大會
8月15–16日·北京威斯汀酒店
互聯(lián)網(wǎng)大廠&AI 創(chuàng)業(yè)公司產(chǎn)品人齊聚
12 大專題,趨勢洞察 × 實戰(zhàn)拆解
掃碼領取大會 PPT,搶占 AI 產(chǎn)品新紅利
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.