2025 年,在 AI 業(yè)內(nèi),Agent 無疑是最熱的話題。模型側, 新一代 Agent Model 的能力大幅提升,支持更強大的長時規(guī)劃和工具調(diào)用。同樣,產(chǎn)品側, Agent 也正在從簡單的聊天助手進化為真實環(huán)境中持續(xù)交付的數(shù)字員工。
但真正實際好用的 Agent 產(chǎn)品屈指可數(shù),其實這也說明了Agent 的實際落地遠遠比我們預期中的更復雜。
做 Agent 的真正卡點在哪?是技術還沒到位嗎?在 Agent 創(chuàng)業(yè)中,有哪些真實的教訓和經(jīng)驗?現(xiàn)在做通用 Agent 產(chǎn)品,還有價值嗎?......
Atom Capital 近期組織了一場閉門沙龍,邀請了硅谷和大陸專注 Agent 前沿的創(chuàng)業(yè)者和大廠技術專家,圍繞 Agent 的這些難點進行了深入討論,全是來自一線的實戰(zhàn)心得、技術和業(yè)務洞察。
TLDR:
The Bitter lesson 依然生效,新一代Agent Model的"規(guī)劃"和"工具調(diào)用"能力的提升,取代了過去大量基于規(guī)則的工作流編排等外圍工程。
隱性知識的獲取是一個Agent的核心挑戰(zhàn),尤其在2B領域。
Context,即隱性知識和業(yè)務邏輯的好壞決定了大模型如何能夠在實際落地中完成任務,是否真正實現(xiàn)"可生產(chǎn)可交付"的價值。
Workflow跟自主編排Agent各有用武之地,會長期并行。但價值重心很明顯正在逐步向后者遷移。
通用Agent的留存與付費轉化偏弱,新客多、留存低成為常態(tài),更務實的做法是從"通用"轉向"垂直深耕"。即便在"通用"賽道,也先聚焦特定場景。
長期來看,真正的護城河在于幾個核心能力:深度的環(huán)境理解與操作能力、持續(xù)的學習記憶閉環(huán)、針對特定場景的模型優(yōu)化,以及多Agent間的協(xié)作標準。
超 12000 人的「AI 產(chǎn)品市集」社群!不錯過每一款有價值的 AI 應用。
邀請從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:
進群后,你有機會得到:
最新、最值得關注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準的AI產(chǎn)品曝光渠道
01熱潮背后:創(chuàng)業(yè)實踐的教訓、挑戰(zhàn)與調(diào)整
今年Agent真正從"目標"變成了"手段"——過去大家談論Agent更多是在描繪一個理想狀態(tài),現(xiàn)在則是在用它解決具體問題。隨著底層模型能力加速進化,嘉賓們分享了痛苦的教訓、面臨的主要挑戰(zhàn)以及相應的重心調(diào)整。
Bitter lesson:今年最大的Learning是什么?
之前做Agent的大量工程化工作都“交了學費”。一位嘉賓分享,兩年前他們開始做Agent的時候,模型能力還不夠,GPT-4雖然智商ok,但也有各種問題,包括工具調(diào)用、準確性、上下文長度、速度等。他們因此做了很多外圍的工程化,做了各種工具,去年他的產(chǎn)品在 SWE-Bench 測試中兩次拿到榜首??墒沁@樣的方案不具有通用性,也不穩(wěn)定。今年Claude Code出來后,他發(fā)現(xiàn),過去做的這些工作都沒有意義,都被大模型吃掉了。模型本身就是Agent,開發(fā)者只需要給它環(huán)境,這對他的沖擊非常大。
這個“交學費”的痛苦經(jīng)歷被多位嘉賓提及。教訓的背后,是因為新一代Agent Model的"規(guī)劃"和"工具調(diào)用"能力的提升,取代了過去大量基于規(guī)則的工作流編排等外圍工程。
Agent目前最主要的挑戰(zhàn)是什么?
隱性知識的獲取是一個核心挑戰(zhàn),尤其在2B領域。大模型能力不再是主要瓶頸,但是Agent如何能夠給到大模型足夠的context來實際落地,依然面臨幾個方面的挑戰(zhàn)。
一是默會知識。在真實世界真實場景中,有很多默會知識,而這些是沒有被記錄、AI不知道的。以廣告行業(yè)為例,什么樣的創(chuàng)意是好的創(chuàng)意,什么樣的slogan是好的slogan,行業(yè)內(nèi)人士可能需要梳理出一套規(guī)則給到AI。
二是協(xié)作需要的共識性知識。在真實的組織中,人和人之間的協(xié)作是口耳相傳的。一個大之下有小組織,每個小組也有自己的生態(tài)。以字節(jié)為例,大家都用Golang,但是每個小組用Go的方法都不一樣。這些組織內(nèi)部的共識性知識,目前是嚴重缺乏的。
三是企業(yè)內(nèi)部在長期實踐中形成的自定義規(guī)則。一位嘉賓分享了一個真實案例,很具有代表性。他在幫助客戶計算ACV(年度合同價值)指標時發(fā)現(xiàn),雖然業(yè)界有標準算法,但企業(yè)實際操作時卻面臨著各種復雜情況:哪些合同應該計算在內(nèi),哪些不算?合同截止時間能否延期?出于某些實際考慮,不在結算周期內(nèi)的合同需要如何特殊處理?每家企業(yè)的處理方式都不同。同樣一個指標,不同公司的計算方法可能完全不同。即便是看似標準的 Salesforce,不同企業(yè)對同一字段的定義也不盡相同。這些源自業(yè)務實踐的自定義規(guī)則與術語,都是外部難以直接感知的“隱性層”。
產(chǎn)生這些問題的本質(zhì),是AI完全改變了過去軟件的工作方式。以前軟件都是在做工具給人使用,因為工具直接解決問題的成本過高,問題由人來 解決 。在Agent時代,Agent需要直接解決問題,這就要求開發(fā)者把人腦如何解決問題的思路都做出來。這里包括默會知識、協(xié)作的共識性知識、各個企業(yè)內(nèi)部自定義的規(guī)則等等。目前,Agent開發(fā)者花了大量時間和精力來構建這些context。
創(chuàng)業(yè)者應該在哪里發(fā)力?
聚焦上下文工程來構建環(huán)境。因為大模型能力的迅速提升,Agent實施重點不再是模型與工具,而是如何構建環(huán)境讓大模型更好地落地。這個轉變很關鍵,因為"環(huán)境"很可能就是那層不會被大模型淹沒的地基。
這里的“環(huán)境”包含三要素:
執(zhí)行能力:讓 Agent 在真實界面、終端與移動端進行 Computer Use。
業(yè)務連接:把企業(yè)系統(tǒng)、數(shù)據(jù)與權限工具化、可調(diào)度化。
上下文載體:承載領域術語、企業(yè)知識與使用習慣等關鍵信息。
其中最核心的是context,即隱性知識和業(yè)務邏輯。Context的好壞決定了大模型如何能夠在實際落地中完成任務,是否真正實現(xiàn)"可生產(chǎn)可交付"的價值。
02創(chuàng)業(yè)者的抉擇:技術和商業(yè)化路線
Agent創(chuàng)業(yè)過程中面臨著很多選擇,討論下來,大家最關心的是其中兩個:
技術路線:Workflow or Agentic?
現(xiàn)在落地較好的Agent,不少還是Rule-based(或者叫Workflow-base Agent)。到底是通過工作流讓Agent按我們的預期完成任務,還是它能夠自主編排完成?Workflow-based和Agent-based這兩種技術路線的選擇,是嘉賓們熱烈討論的一個議題。
一個實用的選擇標準,是看客戶的工作是否天然由工作流驅(qū)動。對于企業(yè)里可以用非常強規(guī)則描述的工作,用Workflow去做,會更高效、準確,成本更低,合規(guī)性也更好。一位嘉賓分享了訂單處理的案例,雖然訂單格式千差萬別(從微信、郵件、系統(tǒng)提交等),但訂單收進來后,處理邏輯其實是一個固定的工作流。用Workflow做這種訂單處理效果非常好。有家制造業(yè)企業(yè)在部署訂單處理Agent后,一下子節(jié)省了十多個人的工作。
這一類工作,也可以讓自主編排的Agent去做,因為模型能力越來越強了。但是這樣每次都要做Planning,消耗很多Token,而且每次過程都不是事先規(guī)劃好的,對企業(yè)來講,它不一定合規(guī)。在真實的企業(yè)場景中,嘉賓們看到多數(shù)能落地的Agent還是Workflow-based。
需要多步驟、靈活操作的任務,則更適合交給自主編排Agent。比如數(shù)據(jù)分析,這種工作無法用Workflow描述,或通過一個簡單的功能解決。它要讀取數(shù)據(jù),讀完數(shù)據(jù)之后做分析,分析完之后可能還要做報告。在整個過程中,它還要反復地查詢數(shù)據(jù)。這是很典型的一種用Agentic loop來實現(xiàn)的場景。
很多2B領域的Agent公司過去兩年犯的一個錯誤,是在模型還沒有那么強、整個Agent的工具生態(tài)還沒有那么豐富的時候,把本來應該用Agentic解決的問題,簡單化地去用Workflow解決了。這就導致一個問題:用很局限的方式完成一個更復雜的任務,結果方案的靈活性、泛化性都不好。而當模型能力真正提升時,就有新的創(chuàng)業(yè)者利用大模型的能力、真正用Agentic方式來實現(xiàn)需求,相當于降維打擊了。
需要強調(diào)的是,兩條技術路線之間的轉換并不意味著完全推倒重來。企業(yè)過往積累的流程機器人、系統(tǒng)適配與集成連接,正好可以被"工具化",為Agent所用。比如,RPA公司沉淀的RPA資產(chǎn)可以轉化為MCP Server中的工具,企業(yè)原先接入的系統(tǒng)可以直接轉化為Agent落地的基礎設施優(yōu)勢。
Workflow跟自主編排Agent各有用武之地,會長期并行。但價值重心 很明顯 正在逐步向后者遷移。
商業(yè)化路線:KA or SMB?
對2B領域的Agent創(chuàng)業(yè)者而言,另一個重要決策是在客戶選擇上:先攻KA(大客戶)還是SMB(中小客戶)?
從營收看,大客戶確實更有吸引力——預算充足、付費意愿強、單個項目價值高。但KA市場有幾個不可忽視的挑戰(zhàn):實施成本高昂、決策鏈條冗長、各部門利益協(xié)調(diào)復雜。很多項目最終卡在"試點成功但無法推廣"的尷尬境地。
SMB市場則呈現(xiàn)出截然不同的機會。一位嘉賓分享了一個有趣的案例:許多中小企業(yè)CEO在看到他的Agent處理后的數(shù)據(jù)報告時,驚訝地感嘆:"這些數(shù)據(jù)我從來沒見過。" 原因很簡單:以前中小公司不可能雇傭?qū)iT的運營分析人員,成本太高。許多決策都是靠CEO的經(jīng)驗和直覺判斷。而現(xiàn)在,AI正在將過去只有大組織才配備的專業(yè)運營能力"民主化",讓標準化流程管理變得"即插即用"——這是企業(yè)級服務市場迎來的歷史性機遇。
理解了這兩個市場的不同特征后,更務實的做法是分層并進:用中小企業(yè)市場快速驗證產(chǎn)品價值和商業(yè)模式,積累標準化場景,打磨"低實施成本加標準SOP加輕量集成"的產(chǎn)品形態(tài);同時選擇性地用能量化價值的案例敲開關鍵大客戶的大門,建立標桿項目。
另外,現(xiàn)階段巨頭內(nèi)部對推進AI也有不同的擔心。比如,公司無法量化使用產(chǎn)品后生產(chǎn)力究竟提升了多少。現(xiàn)在主要是自下而上的員工有熱情,但決策層很難決定是否投入,因為無法證明生產(chǎn)力提升。另外,一些巨頭更關注實際的收入,對創(chuàng)新不是很感興趣,認為追趕是最有效的策略。
03通用Agent的靈魂拷問
"萬能工具"的困境
作為頭部通用Agent,Manus做得很出色。它是第一個出圈的通用Agent,營銷做得非常好。它的產(chǎn)品Demo很炫酷,特別是AI操作電腦和瀏覽器過程的可視化,以強烈的科幻感激發(fā)了用戶對AI的無限想象,從而吸引了大量用戶并顯著提升了品牌效應。
這類通用Agent的一個問題,是大家使用久了以后發(fā)現(xiàn),實際體驗往往難以達到預期。最大卡點在于"面面俱到,卻難以做到最好",在具體場景的深度與質(zhì)量上普遍"只到60分"。用戶在實際使用中,往往會轉向更專業(yè)的工具——做網(wǎng)站用專門生成器,寫代碼用編程助手,做調(diào)研用研究助手……導致通用Agent的留存與付費轉化偏弱,新客多、留存低成為常態(tài)。
聚焦垂直的價值——以PPT Agent為例
對資源有限的創(chuàng)業(yè)公司而言,更務實的做法是從"通用"轉向"垂直深耕"。即便在"通用"賽道,也先聚焦特定場景,在規(guī)劃自動化的基礎上引入專用模型與專業(yè)工具鏈,圍繞具體任務做深做透。
這里以一位頭部PPT Agent負責人所分享的經(jīng)驗為例:
如果用一個粗略的評分標準做參照:普通人做的PPT大概60分(剛及格),專業(yè)高手能到80分,喬布斯蘋果發(fā)布會那樣的頂級路演是100分;而目前通用大模型PPT 能力多在四五十分,只能“搭個架子”。
如何提升Agent的PPT 能力,讓大模型跨過這幾十分的差距?
拆解下來,PPT制作主要有三個環(huán)節(jié):
內(nèi)容生成: 這是第一步,也是基礎。用戶通常會給出指令,要求Agent收集相關信息。內(nèi)容的質(zhì)量、豐富度和準確性至關重要。如果內(nèi)容本身就不好,后面的環(huán)節(jié)都會受影響。這部分核心考驗的是Agent的強檢索與綜述能力,決定了PPT上限。
排版與視覺設計: 收集到內(nèi)容后,如何將其合理排版并呈現(xiàn)出良好的視覺效果,這是PPT區(qū)別于普通文檔的關鍵。
數(shù)據(jù)圖表可視化: PPT中經(jīng)常需要展示數(shù)據(jù)。原始數(shù)據(jù)多是文字或數(shù)字,需要將其恰當?shù)剞D化為曲線圖、柱狀圖、流程圖等可視化形式。
現(xiàn)階段,AI生成PPT的普遍做法是“模板 + 大模型適配”,并用代碼生成完成排版和視覺設計。但這種方法容易出現(xiàn)一些系統(tǒng)性瑕疵(寬高比不對、元素重疊、比例失調(diào)等),因為代碼生成的視覺和排版設計沿用了網(wǎng)頁生成的邏輯,缺乏針對PPT場景的優(yōu)化。
這位嘉賓所在團隊圍繞PPT場景做了深入優(yōu)化:在內(nèi)容檢索與排版視覺這兩個環(huán)節(jié)分別訓練了專用模型,通過糾錯與蒸餾提升模型在 PPT 領域的表現(xiàn);同時補齊多樣工作流(從“只美化現(xiàn)有 PPT”到“按既定大綱排版與制圖”)、對接個人歷史素材與企業(yè)知識庫、遵循組織模板與品牌規(guī)范等等。
結果也驗證了這條路徑的有效性:其產(chǎn)品生成PPT的質(zhì)量顯著優(yōu)于通用Agent。通用 Agent 的用戶留存率普遍只有約10%,而該PPT Agent可達到20%以上,在競爭中形成了清晰差異化。
04重新思考:人與Agent的交互
未來,Agent是否像人一樣操作電腦、還是API就行?
Agent通過GUI操作電腦的能力正在快速成熟。嘉賓們分享了很多令人印象深刻的實踐案例:QA測試Agent能夠像人一樣打開瀏覽器測試網(wǎng)站,小紅書發(fā)帖Agent可以批量操作圖片選擇、打標簽并發(fā)布內(nèi)容。o3模型幾乎不需要特殊定制就能直接使用,對常見UI界面的識別和操作能力已相當成熟……
但GUI操作的長期價值仍存在很大爭議:GUI本質(zhì)上是為人類認知優(yōu)化的界面,對Agent來說并非最優(yōu)路徑。當Agent能直接調(diào)用API、操作服務器甚至編寫代碼時,繞開GUI似乎是更優(yōu)解。在這種情況下,還有什么必要堅持GUI操作嗎?
我們有兩點考慮:一是現(xiàn)實世界過去幾十年積累了大量基于GUI的應用,短期內(nèi)完全繞過并不現(xiàn)實。而更深層的原因,在于GUI承載的不僅僅是操作功能,還有豐富的上下文信息。人類選擇GUI而非純語言操作,很大程度上是因為視覺能夠提供豐富的場景信息和認知優(yōu)勢。如果未來Agent在視覺理解上的能力獲得提升,甚至超越人類,GUI操作的價值可能會重新凸顯。
如何設計人與Agent交互的顆粒度?
Agent產(chǎn)品設計中最困難的問題之一是確定交互顆粒度:什么時候需要用戶確認?什么時候應該主動詢問更多信息?
以旅行規(guī)劃為例,這個看似簡單的場景實際上包含大量個人偏好。如果用戶要求Agent制作東京七天的旅行計劃,Agent直接去執(zhí)行可能無法滿足需求。實際上,Agent需要了解很多信息:用戶是否去過東京?喜歡什么風格的旅行?預算范圍如何?之前去過哪些地方,有什么特別喜歡的體驗可以作為參考?但如果過度詢問用戶偏好,又可能讓用戶感到繁瑣。
要解決好這個問題,關鍵在于Agent要具備判斷能力:什么情況下需要更多信息,什么情況下可以基于常識推進。最有潛力的方案是讓Agent在交互過程中逐步學習用戶偏好,記住修正和反饋,在后續(xù)交互中主動應用這些知識。 比如,LemonAI最近演示的產(chǎn)品,正在嘗試通過學習用戶的偏好來制定旅游計劃。
未來人與Agent將如何協(xié)作?——來自管理學的啟發(fā)
傳統(tǒng)管理學中的情境領導理論將管理模式分為四種:指導(Directing,明確告訴下屬每一步怎么做),教練(Coaching,與下屬充分討論,然后以管理者為主導來做決定),支持(Supporting,管理者提供建議但由下屬主導決策),授權(Delegate,完全放手讓下屬去做)。情境領導的核心,是管理者必須了解下屬的能力范圍,采取相應的管理模式。
利用這套框架來思考人與Agent的協(xié)作,會發(fā)現(xiàn)Agent與人的協(xié)作關系要復雜得多。Agent在不同維度的能力差異巨大:它可能在某些方面表現(xiàn)卓越,在另一些被認為是常識的領域卻會判斷錯誤。更具挑戰(zhàn)性的是,Agent可能會自主做出超出權限的決策,比如調(diào)用昂貴的API卻不考慮成本,或在需要人工審批的環(huán)節(jié)直接推進。這種能力分布的不均,要求對Agent采用更加精細化的管理策略。
實踐中最有效的方法是建立共享上下文機制。這不是簡單的信息同步,而是讓Agent理解它所處的工作環(huán)境、可用的工具和權限邊界、協(xié)作的規(guī)則以及核心目標,以及什么時候需要請求人工確認。
一個有趣的趨勢是,最先進的AI產(chǎn)品正在嘗試讓AI更主動地參與協(xié)作。Agent不再是被動的執(zhí)行工具,而是會主動提出建議,并在遇到困難時主動請求人工協(xié)助。
多Agent架構為何難以落地?
在多Agent協(xié)作的探索上,許多嘉賓也分享了在落地中遇到的挑戰(zhàn)。最核心的矛盾是:如果所有Agent共享全部上下文,并不是真正的 “多Agent協(xié)作”;但要從龐雜上下文里精準抽取每個Agent所需的部分,又是個極大的挑戰(zhàn)。抽取不準,交接就會立刻失?。还蚕磉^頭,又會退化成一個超長System Prompt的“單體Agent”。如何抽象出各個agent和所屬的context,還需要更多的實踐。
許多開發(fā)者嘗試多Agent協(xié)作的動機很樸素:上下文越長,大模型越“笨”。當問題變成幾十步、上百步,單體Agent容易在中途“繞回去”——前幾步還能跟上,越到后面就越容易進入自我循環(huán)。理論上,把超長的推理鏈路拆分成可管理的子問題,由多Agent來分別解決,可以緩解Context過長導致的模型變笨問題。但在真實業(yè)務中,何時切分子任務、如何調(diào)度合適的Agent,成為了最大卡點。
有效的路徑可能是采用任務分解加專家模型的組合:把復雜問題拆解成相對獨立的子任務,每個子任務由擅長該領域的Agent處理。整個流程類似MapReduce模式——調(diào)度分發(fā)、并行處理、結果歸并,關鍵是要做到可觀測和可回溯。
更進一步的思路是引入Agent-to-Agent的異步協(xié)作機制,把一致性、延遲和成本等工程約束納入系統(tǒng)設計。比如,某些子任務可以容忍一定的信息延遲,某些關鍵決策則需要實時同步。這樣既能保證協(xié)作效果,又能控制系統(tǒng)復雜度。
05大模型與Agent大模型會淹沒Agent嗎
隨著大模型公司紛紛推出Agent產(chǎn)品,"Agent是否會被大模型淹沒"再次成為縈繞在創(chuàng)業(yè)者心頭最大的疑問。一個具有代表性的對照案例,便是 Coding Agent 賽道中的 Cursor 與 Claude Code。
Claude Code代表了“大模型上探”的產(chǎn)品路徑:把“規(guī)劃—執(zhí)行—復盤”內(nèi)生到模型,強化長程規(guī)劃與連續(xù)Tool Use的能力,盡可能以一次對話承載更多自治工作。依托模型廠商的數(shù)據(jù)閉環(huán)與算力優(yōu)勢,強調(diào)“模型即Agent”的一體化體驗。
Cursor代表了“Agent下沉到環(huán)境”的路徑:通過IDE這一真實執(zhí)行環(huán)境,提供高質(zhì)量的上下文供給、工具與權限治理、成本與合規(guī)控制,強調(diào)把智能穩(wěn)定落在生產(chǎn)一線。
短期內(nèi),兩種路線會并行發(fā)展,但長期來看,真正的護城河在于幾個核心能力:深度的環(huán)境理解與操作能力、持續(xù)的學習記憶閉環(huán)、針對特定場景的模型優(yōu)化,以及多Agent間的協(xié)作標準。
創(chuàng)業(yè)者要提前關注模型哪些能力的提升?
面對大模型公司可能的降維打擊,Agent創(chuàng)業(yè)者需要提前布局/關注那些可能改變游戲規(guī)則的技術拐點。我們認為,大模型在如下四個領域的能力進展尤其值得創(chuàng)業(yè)者關注:
長期規(guī)劃與連續(xù)行動能力提升:以Claude Code為代表的一方Agent產(chǎn)品(大模型公司推出的Agent產(chǎn)品),能夠積累許多真實場景下的高質(zhì)量人機協(xié)作數(shù)據(jù),而一旦下一代的大模型訓練從這些數(shù)據(jù)中學會長任務策略,可能就意味著“模型即Agent”時代的到來,也意味著那些以復雜工作流編排為核心競爭力的Agent產(chǎn)品可能會遭遇降維打擊。
多模態(tài)深度融合:如果圖像、語音、自然語言深度整合到同一個模型中,AI能真正像人一樣同時"看、聽、說"時,交互方式將發(fā)生根本性變化。特別是在老人、兒童和跨語言場景中,這種突破意味著技術普惠的真正實現(xiàn),創(chuàng)造出巨大機會。誰能率先在這些細分場景做出差異化產(chǎn)品,就能建立先發(fā)優(yōu)勢。
界面自動生成:隨著模型意圖理解和視覺生成能力的提升,未來可能不再有標準化的界面設計。甚至可以想象,AI可以根據(jù)用戶當下的任務、心情甚至時間,實時生成最適合的界面布局。這將徹底改變?nèi)藗儗浖a(chǎn)品的認知,也是重新定義軟件產(chǎn)品的機會。創(chuàng)業(yè)者可以圍繞動態(tài)界面的設計理念和實現(xiàn)方案建立新的產(chǎn)品品類。
更成熟的Context Engineering與記憶機制:圍繞企業(yè)知識、規(guī)則與偏好,構建可持續(xù)沉淀與演進的上下文體系。企業(yè)級的上下文管理將成為新的競爭高地,這是大模型公司難以直接切入的專業(yè)化領域。
未來會是一個還是多個模型?
在實踐中,創(chuàng)業(yè)者們越來越清晰地感受到:不同模型在能力側重、風格取向與行為傾向上存在系統(tǒng)性差異,且這些差異并非簡單的“強弱”維度,而是“偏好-能力”的多軸分布。
嘉賓們分享的經(jīng)驗:
不同大模型的能力側重不同。ChatGPT在戰(zhàn)略思考與架構抽象上,更凝練、結構清晰、思考更深;Gemini覆蓋面廣但偏鋪陳、信息密度一般,更適合承接架構做詳細設計;Claude規(guī)劃能力最強,通用Agent的自主規(guī)劃基本都用它做,它的代碼能力也最強。
做成Agent后,各模型的“行動沖動”也有所不同:有的模型遇到模糊意圖時會立刻嘗試執(zhí)行,容易越權或忽視成本約束;有的則傾向先追問、再確認。
基于此,比起追求一個“無所不包、可瞬時切換人格”的超級模型,現(xiàn)階段更務實的做法是多模型分工與編排。利用這些大模型間的差異,把它們納入產(chǎn)品的不同流程,讓Agent在真實場景中更高效、可控且成本更低。
06下一個突破口:記憶和學習
學習能力是關鍵
從人與Agent的交互到多Agent協(xié)作,核心挑戰(zhàn)都指向了同一個方向:AI的學習能力。Agent需要在與用戶的交互過程中不斷學習用戶的偏好、工作習慣、決策模式,更要掌握業(yè)務流程中那些沒有明文規(guī)定的隱性規(guī)則。
這種學習遠不是簡單的參數(shù)微調(diào),而是對特定場景下上下文的深度理解和長期記憶。就好像一個優(yōu)秀秘書的價值在于比老板更懂老板的需求——知道什么時候該打斷會議,什么郵件需要優(yōu)先處理,哪些"緊急"任務其實可以緩一緩。Agent要達到這個水平,必須建立起基于場景的記憶和學習機制。
然而,當我們深入探討這種學習機制的具體實現(xiàn)時,會發(fā)現(xiàn)Agent的學習困難不僅僅是技術實現(xiàn)問題,要真正解決Agent的學習能力問題,我們需要回到最基礎的認知科學層面,重新審視記憶的本質(zhì)結構。
記憶的底層瓶頸
從認知科學角度看,人腦的記憶分為三種類型:Semantic Memory(概念記憶,存放“是什么”的知識與概念關系)、Episodic Memory(情景/場景記憶,按時間線記錄“在什么情境下、經(jīng)歷了哪些步驟、做過哪些嘗試、得到了什么反饋”的具體經(jīng)歷),以及 Procedural Memory(程序記憶,類似“肌肉記憶”,用于穩(wěn)定復現(xiàn)已掌握的技能動作,需要從情景記憶中反復提煉才能形成)。
當前AI系統(tǒng)在Semantic Memory方面已經(jīng)做得不錯,但在Episodic Memory方面幾乎是空白。這也解釋了為什么AI在編程領域表現(xiàn)突出、但在多數(shù)行業(yè)落地困難:代碼本身記錄了完整的"如何做"的過程,包括版本控制、失敗案例、調(diào)試過程等,為AI提供了豐富的Episodic Memory。而在其他領域,這種過程性數(shù)據(jù)極度稀缺,web語料說的是"什么“,是結果。企業(yè)很少公開分享失敗經(jīng)驗,即便分享也往往經(jīng)過美化。銷售如何失???項目為何延期?決策如何出錯?這些寶貴的學習素材很難在公開語料中找到。沒有持續(xù)學習與情景記憶,Agent很難快速適應復雜上下文,僅靠抽象規(guī)則難以維持穩(wěn)定表現(xiàn)。
Procedural Memory類似人的肌肉記憶。一個網(wǎng)球運動員在球打過來的時候,他的動作不是經(jīng)過思考的,是他在長期訓練過程中提煉的。所以他能夠重復低成本、可靠地復制。AI如何將知識沉淀下來、如何把經(jīng)驗真正變成程序記憶,目前還很遙遠。
情景記憶的探索方向
很遺憾,大模型在記憶和學習方面一直進展緩慢。情景記憶是提升學習能力很好的切入點,可能需要幾個方向的探索。
首先是過程數(shù)據(jù)的主動收集。傳統(tǒng)AI系統(tǒng)往往只關注最終結果,但情景記憶的核心在于記錄完整的決策鏈條。這意味著Agent在執(zhí)行任務時,需要詳細記錄每一步的決策邏輯、遇到的障礙、嘗試的解決方案,以及用戶的實時反饋。比如Cursor記錄的用戶行為(對Agent的建議是接受、修改還是拒絕等具體場景)對它的產(chǎn)品持續(xù)優(yōu)化就很有價值。
其次是人機協(xié)作軌跡的深度學習。最有價值的學習往往來自高質(zhì)量的人機協(xié)作案例。當用戶糾正Agent的錯誤、調(diào)整執(zhí)行策略或提供關鍵補充信息時,這些互動軌跡蘊含著豐富的隱性知識。Agent需要從這些協(xié)作模式中提取可復用的決策框架,而不是簡單地記住表面的操作步驟。
第三個方向是場景化學習機制的建立。不同情境下的最優(yōu)策略往往截然不同,Agent需要具備根據(jù)當前場景快速調(diào)用相關經(jīng)驗的能力。這要求系統(tǒng)能夠識別場景的關鍵特征,并建立場景與策略之間的動態(tài)映射關系。
最后是可持續(xù)的上下文演進能力。記憶不應該是靜態(tài)的存儲,而應該是一個隨著使用而不斷優(yōu)化的動態(tài)系統(tǒng)。Agent需要能夠識別哪些經(jīng)驗在新情境下仍然適用,哪些需要調(diào)整,哪些已經(jīng)過時需要淘汰。
一些前沿公司已經(jīng)開始在這個方向上探索。比如LemonAI在旅行規(guī)劃領域的嘗試,通過記錄用戶對初始計劃的修改和反饋,持續(xù)改進推薦算法的準確性。雖然這種方法還處在早期階段,但它代表了從結果導向轉向過程導向的重要思路轉變,為未來Agent的發(fā)展指明了方向。
轉載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.