中美 Agent 創(chuàng)業(yè)者閉門：一線創(chuàng)業(yè)者的教訓、抉擇與機會

2025-09-04 21:15:21　來源: FounderPark

北京舉報

分享至

2025 年，在 AI 業(yè)內(nèi)，Agent 無疑是最熱的話題。模型側，新一代 Agent Model 的能力大幅提升，支持更強大的長時規(guī)劃和工具調(diào)用。同樣，產(chǎn)品側， Agent 也正在從簡單的聊天助手進化為真實環(huán)境中持續(xù)交付的數(shù)字員工。

但真正實際好用的 Agent 產(chǎn)品屈指可數(shù)，其實這也說明了Agent 的實際落地遠遠比我們預期中的更復雜。

做 Agent 的真正卡點在哪？是技術還沒到位嗎？在 Agent 創(chuàng)業(yè)中，有哪些真實的教訓和經(jīng)驗？現(xiàn)在做通用 Agent 產(chǎn)品，還有價值嗎？......

Atom Capital 近期組織了一場閉門沙龍，邀請了硅谷和大陸專注 Agent 前沿的創(chuàng)業(yè)者和大廠技術專家，圍繞 Agent 的這些難點進行了深入討論，全是來自一線的實戰(zhàn)心得、技術和業(yè)務洞察。

TLDR：

The Bitter lesson 依然生效，新一代Agent Model的"規(guī)劃"和"工具調(diào)用"能力的提升，取代了過去大量基于規(guī)則的工作流編排等外圍工程。
隱性知識的獲取是一個Agent的核心挑戰(zhàn)，尤其在2B領域。
Context，即隱性知識和業(yè)務邏輯的好壞決定了大模型如何能夠在實際落地中完成任務，是否真正實現(xiàn)"可生產(chǎn)可交付"的價值。
Workflow跟自主編排Agent各有用武之地，會長期并行。但價值重心很明顯正在逐步向后者遷移。
通用Agent的留存與付費轉化偏弱，新客多、留存低成為常態(tài)，更務實的做法是從"通用"轉向"垂直深耕"。即便在"通用"賽道，也先聚焦特定場景。
長期來看，真正的護城河在于幾個核心能力：深度的環(huán)境理解與操作能力、持續(xù)的學習記憶閉環(huán)、針對特定場景的模型優(yōu)化，以及多Agent間的協(xié)作標準。

超 12000 人的「AI 產(chǎn)品市集」社群！不錯過每一款有價值的 AI 應用。

邀請從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者，飛書掃碼加群：

進群后，你有機會得到：

最新、最值得關注的 AI 新品資訊；
不定期贈送熱門新品的邀請碼、會員碼；
最精準的AI產(chǎn)品曝光渠道

01熱潮背后：創(chuàng)業(yè)實踐的教訓、挑戰(zhàn)與調(diào)整

今年Agent真正從"目標"變成了"手段"——過去大家談論Agent更多是在描繪一個理想狀態(tài)，現(xiàn)在則是在用它解決具體問題。隨著底層模型能力加速進化，嘉賓們分享了痛苦的教訓、面臨的主要挑戰(zhàn)以及相應的重心調(diào)整。

Bitter lesson：今年最大的Learning是什么？

之前做Agent的大量工程化工作都“交了學費”。一位嘉賓分享，兩年前他們開始做Agent的時候，模型能力還不夠，GPT-4雖然智商ok，但也有各種問題，包括工具調(diào)用、準確性、上下文長度、速度等。他們因此做了很多外圍的工程化，做了各種工具，去年他的產(chǎn)品在 SWE-Bench 測試中兩次拿到榜首?？墒沁@樣的方案不具有通用性，也不穩(wěn)定。今年Claude Code出來后，他發(fā)現(xiàn)，過去做的這些工作都沒有意義，都被大模型吃掉了。模型本身就是Agent，開發(fā)者只需要給它環(huán)境，這對他的沖擊非常大。

這個“交學費”的痛苦經(jīng)歷被多位嘉賓提及。教訓的背后，是因為新一代Agent Model的"規(guī)劃"和"工具調(diào)用"能力的提升，取代了過去大量基于規(guī)則的工作流編排等外圍工程。

Agent目前最主要的挑戰(zhàn)是什么？

隱性知識的獲取是一個核心挑戰(zhàn)，尤其在2B領域。大模型能力不再是主要瓶頸，但是Agent如何能夠給到大模型足夠的context來實際落地，依然面臨幾個方面的挑戰(zhàn)。

一是默會知識。在真實世界真實場景中，有很多默會知識，而這些是沒有被記錄、AI不知道的。以廣告行業(yè)為例，什么樣的創(chuàng)意是好的創(chuàng)意，什么樣的slogan是好的slogan，行業(yè)內(nèi)人士可能需要梳理出一套規(guī)則給到AI。

二是協(xié)作需要的共識性知識。在真實的組織中，人和人之間的協(xié)作是口耳相傳的。一個大之下有小組織，每個小組也有自己的生態(tài)。以字節(jié)為例，大家都用Golang，但是每個小組用Go的方法都不一樣。這些組織內(nèi)部的共識性知識，目前是嚴重缺乏的。

三是企業(yè)內(nèi)部在長期實踐中形成的自定義規(guī)則。一位嘉賓分享了一個真實案例，很具有代表性。他在幫助客戶計算ACV（年度合同價值）指標時發(fā)現(xiàn)，雖然業(yè)界有標準算法，但企業(yè)實際操作時卻面臨著各種復雜情況：哪些合同應該計算在內(nèi)，哪些不算？合同截止時間能否延期？出于某些實際考慮，不在結算周期內(nèi)的合同需要如何特殊處理？每家企業(yè)的處理方式都不同。同樣一個指標，不同公司的計算方法可能完全不同。即便是看似標準的 Salesforce，不同企業(yè)對同一字段的定義也不盡相同。這些源自業(yè)務實踐的自定義規(guī)則與術語，都是外部難以直接感知的“隱性層”。

產(chǎn)生這些問題的本質(zhì)，是AI完全改變了過去軟件的工作方式。以前軟件都是在做工具給人使用，因為工具直接解決問題的成本過高，問題由人來解決。在Agent時代，Agent需要直接解決問題，這就要求開發(fā)者把人腦如何解決問題的思路都做出來。這里包括默會知識、協(xié)作的共識性知識、各個企業(yè)內(nèi)部自定義的規(guī)則等等。目前，Agent開發(fā)者花了大量時間和精力來構建這些context。

創(chuàng)業(yè)者應該在哪里發(fā)力？

聚焦上下文工程來構建環(huán)境。因為大模型能力的迅速提升，Agent實施重點不再是模型與工具，而是如何構建環(huán)境讓大模型更好地落地。這個轉變很關鍵，因為"環(huán)境"很可能就是那層不會被大模型淹沒的地基。

這里的“環(huán)境”包含三要素：

執(zhí)行能力：讓 Agent 在真實界面、終端與移動端進行 Computer Use。
業(yè)務連接：把企業(yè)系統(tǒng)、數(shù)據(jù)與權限工具化、可調(diào)度化。
上下文載體：承載領域術語、企業(yè)知識與使用習慣等關鍵信息。

其中最核心的是context，即隱性知識和業(yè)務邏輯。Context的好壞決定了大模型如何能夠在實際落地中完成任務，是否真正實現(xiàn)"可生產(chǎn)可交付"的價值。

02創(chuàng)業(yè)者的抉擇：技術和商業(yè)化路線

Agent創(chuàng)業(yè)過程中面臨著很多選擇，討論下來，大家最關心的是其中兩個：

技術路線：Workflow or Agentic？

現(xiàn)在落地較好的Agent，不少還是Rule-based（或者叫Workflow-base Agent）。到底是通過工作流讓Agent按我們的預期完成任務，還是它能夠自主編排完成？Workflow-based和Agent-based這兩種技術路線的選擇，是嘉賓們熱烈討論的一個議題。

一個實用的選擇標準，是看客戶的工作是否天然由工作流驅(qū)動。對于企業(yè)里可以用非常強規(guī)則描述的工作，用Workflow去做，會更高效、準確，成本更低，合規(guī)性也更好。一位嘉賓分享了訂單處理的案例，雖然訂單格式千差萬別（從微信、郵件、系統(tǒng)提交等），但訂單收進來后，處理邏輯其實是一個固定的工作流。用Workflow做這種訂單處理效果非常好。有家制造業(yè)企業(yè)在部署訂單處理Agent后，一下子節(jié)省了十多個人的工作。

這一類工作，也可以讓自主編排的Agent去做，因為模型能力越來越強了。但是這樣每次都要做Planning，消耗很多Token，而且每次過程都不是事先規(guī)劃好的，對企業(yè)來講，它不一定合規(guī)。在真實的企業(yè)場景中，嘉賓們看到多數(shù)能落地的Agent還是Workflow-based。

需要多步驟、靈活操作的任務，則更適合交給自主編排Agent。比如數(shù)據(jù)分析，這種工作無法用Workflow描述，或通過一個簡單的功能解決。它要讀取數(shù)據(jù)，讀完數(shù)據(jù)之后做分析，分析完之后可能還要做報告。在整個過程中，它還要反復地查詢數(shù)據(jù)。這是很典型的一種用Agentic loop來實現(xiàn)的場景。

很多2B領域的Agent公司過去兩年犯的一個錯誤，是在模型還沒有那么強、整個Agent的工具生態(tài)還沒有那么豐富的時候，把本來應該用Agentic解決的問題，簡單化地去用Workflow解決了。這就導致一個問題：用很局限的方式完成一個更復雜的任務，結果方案的靈活性、泛化性都不好。而當模型能力真正提升時，就有新的創(chuàng)業(yè)者利用大模型的能力、真正用Agentic方式來實現(xiàn)需求，相當于降維打擊了。

需要強調(diào)的是，兩條技術路線之間的轉換并不意味著完全推倒重來。企業(yè)過往積累的流程機器人、系統(tǒng)適配與集成連接，正好可以被"工具化"，為Agent所用。比如，RPA公司沉淀的RPA資產(chǎn)可以轉化為MCP Server中的工具，企業(yè)原先接入的系統(tǒng)可以直接轉化為Agent落地的基礎設施優(yōu)勢。

Workflow跟自主編排Agent各有用武之地，會長期并行。但價值重心很明顯正在逐步向后者遷移。

商業(yè)化路線：KA or SMB？

對2B領域的Agent創(chuàng)業(yè)者而言，另一個重要決策是在客戶選擇上：先攻KA（大客戶）還是SMB（中小客戶）？

從營收看，大客戶確實更有吸引力——預算充足、付費意愿強、單個項目價值高。但KA市場有幾個不可忽視的挑戰(zhàn)：實施成本高昂、決策鏈條冗長、各部門利益協(xié)調(diào)復雜。很多項目最終卡在"試點成功但無法推廣"的尷尬境地。

SMB市場則呈現(xiàn)出截然不同的機會。一位嘉賓分享了一個有趣的案例：許多中小企業(yè)CEO在看到他的Agent處理后的數(shù)據(jù)報告時，驚訝地感嘆："這些數(shù)據(jù)我從來沒見過。" 原因很簡單：以前中小公司不可能雇傭?qū)ｉT的運營分析人員，成本太高。許多決策都是靠CEO的經(jīng)驗和直覺判斷。而現(xiàn)在，AI正在將過去只有大組織才配備的專業(yè)運營能力"民主化"，讓標準化流程管理變得"即插即用"——這是企業(yè)級服務市場迎來的歷史性機遇。

理解了這兩個市場的不同特征后，更務實的做法是分層并進：用中小企業(yè)市場快速驗證產(chǎn)品價值和商業(yè)模式，積累標準化場景，打磨"低實施成本加標準SOP加輕量集成"的產(chǎn)品形態(tài)；同時選擇性地用能量化價值的案例敲開關鍵大客戶的大門，建立標桿項目。

另外，現(xiàn)階段巨頭內(nèi)部對推進AI也有不同的擔心。比如，公司無法量化使用產(chǎn)品后生產(chǎn)力究竟提升了多少。現(xiàn)在主要是自下而上的員工有熱情，但決策層很難決定是否投入，因為無法證明生產(chǎn)力提升。另外，一些巨頭更關注實際的收入，對創(chuàng)新不是很感興趣，認為追趕是最有效的策略。

03通用Agent的靈魂拷問

"萬能工具"的困境

作為頭部通用Agent，Manus做得很出色。它是第一個出圈的通用Agent，營銷做得非常好。它的產(chǎn)品Demo很炫酷，特別是AI操作電腦和瀏覽器過程的可視化，以強烈的科幻感激發(fā)了用戶對AI的無限想象，從而吸引了大量用戶并顯著提升了品牌效應。

這類通用Agent的一個問題，是大家使用久了以后發(fā)現(xiàn)，實際體驗往往難以達到預期。最大卡點在于"面面俱到，卻難以做到最好"，在具體場景的深度與質(zhì)量上普遍"只到60分"。用戶在實際使用中，往往會轉向更專業(yè)的工具——做網(wǎng)站用專門生成器，寫代碼用編程助手，做調(diào)研用研究助手……導致通用Agent的留存與付費轉化偏弱，新客多、留存低成為常態(tài)。

聚焦垂直的價值——以PPT Agent為例

對資源有限的創(chuàng)業(yè)公司而言，更務實的做法是從"通用"轉向"垂直深耕"。即便在"通用"賽道，也先聚焦特定場景，在規(guī)劃自動化的基礎上引入專用模型與專業(yè)工具鏈，圍繞具體任務做深做透。

這里以一位頭部PPT Agent負責人所分享的經(jīng)驗為例：

如果用一個粗略的評分標準做參照：普通人做的PPT大概60分（剛及格），專業(yè)高手能到80分，喬布斯蘋果發(fā)布會那樣的頂級路演是100分；而目前通用大模型PPT 能力多在四五十分，只能“搭個架子”。

如何提升Agent的PPT 能力，讓大模型跨過這幾十分的差距？

拆解下來，PPT制作主要有三個環(huán)節(jié)：

內(nèi)容生成：這是第一步，也是基礎。用戶通常會給出指令，要求Agent收集相關信息。內(nèi)容的質(zhì)量、豐富度和準確性至關重要。如果內(nèi)容本身就不好，后面的環(huán)節(jié)都會受影響。這部分核心考驗的是Agent的強檢索與綜述能力，決定了PPT上限。
排版與視覺設計：收集到內(nèi)容后，如何將其合理排版并呈現(xiàn)出良好的視覺效果，這是PPT區(qū)別于普通文檔的關鍵。
數(shù)據(jù)圖表可視化： PPT中經(jīng)常需要展示數(shù)據(jù)。原始數(shù)據(jù)多是文字或數(shù)字，需要將其恰當?shù)剞D化為曲線圖、柱狀圖、流程圖等可視化形式。

現(xiàn)階段，AI生成PPT的普遍做法是“模板 + 大模型適配”，并用代碼生成完成排版和視覺設計。但這種方法容易出現(xiàn)一些系統(tǒng)性瑕疵（寬高比不對、元素重疊、比例失調(diào)等），因為代碼生成的視覺和排版設計沿用了網(wǎng)頁生成的邏輯，缺乏針對PPT場景的優(yōu)化。

這位嘉賓所在團隊圍繞PPT場景做了深入優(yōu)化：在內(nèi)容檢索與排版視覺這兩個環(huán)節(jié)分別訓練了專用模型，通過糾錯與蒸餾提升模型在 PPT 領域的表現(xiàn)；同時補齊多樣工作流（從“只美化現(xiàn)有 PPT”到“按既定大綱排版與制圖”）、對接個人歷史素材與企業(yè)知識庫、遵循組織模板與品牌規(guī)范等等。

結果也驗證了這條路徑的有效性：其產(chǎn)品生成PPT的質(zhì)量顯著優(yōu)于通用Agent。通用 Agent 的用戶留存率普遍只有約10%，而該PPT Agent可達到20%以上，在競爭中形成了清晰差異化。

04重新思考：人與Agent的交互

未來，Agent是否像人一樣操作電腦、還是API就行？

Agent通過GUI操作電腦的能力正在快速成熟。嘉賓們分享了很多令人印象深刻的實踐案例：QA測試Agent能夠像人一樣打開瀏覽器測試網(wǎng)站，小紅書發(fā)帖Agent可以批量操作圖片選擇、打標簽并發(fā)布內(nèi)容。o3模型幾乎不需要特殊定制就能直接使用，對常見UI界面的識別和操作能力已相當成熟……

但GUI操作的長期價值仍存在很大爭議：GUI本質(zhì)上是為人類認知優(yōu)化的界面，對Agent來說并非最優(yōu)路徑。當Agent能直接調(diào)用API、操作服務器甚至編寫代碼時，繞開GUI似乎是更優(yōu)解。在這種情況下，還有什么必要堅持GUI操作嗎？

我們有兩點考慮：一是現(xiàn)實世界過去幾十年積累了大量基于GUI的應用，短期內(nèi)完全繞過并不現(xiàn)實。而更深層的原因，在于GUI承載的不僅僅是操作功能，還有豐富的上下文信息。人類選擇GUI而非純語言操作，很大程度上是因為視覺能夠提供豐富的場景信息和認知優(yōu)勢。如果未來Agent在視覺理解上的能力獲得提升，甚至超越人類，GUI操作的價值可能會重新凸顯。

如何設計人與Agent交互的顆粒度？

Agent產(chǎn)品設計中最困難的問題之一是確定交互顆粒度：什么時候需要用戶確認？什么時候應該主動詢問更多信息？

以旅行規(guī)劃為例，這個看似簡單的場景實際上包含大量個人偏好。如果用戶要求Agent制作東京七天的旅行計劃，Agent直接去執(zhí)行可能無法滿足需求。實際上，Agent需要了解很多信息：用戶是否去過東京？喜歡什么風格的旅行？預算范圍如何？之前去過哪些地方，有什么特別喜歡的體驗可以作為參考？但如果過度詢問用戶偏好，又可能讓用戶感到繁瑣。

要解決好這個問題，關鍵在于Agent要具備判斷能力：什么情況下需要更多信息，什么情況下可以基于常識推進。最有潛力的方案是讓Agent在交互過程中逐步學習用戶偏好，記住修正和反饋，在后續(xù)交互中主動應用這些知識。比如，LemonAI最近演示的產(chǎn)品，正在嘗試通過學習用戶的偏好來制定旅游計劃。

未來人與Agent將如何協(xié)作？——來自管理學的啟發(fā)

傳統(tǒng)管理學中的情境領導理論將管理模式分為四種：指導（Directing，明確告訴下屬每一步怎么做），教練（Coaching，與下屬充分討論，然后以管理者為主導來做決定），支持（Supporting，管理者提供建議但由下屬主導決策），授權（Delegate，完全放手讓下屬去做）。情境領導的核心，是管理者必須了解下屬的能力范圍，采取相應的管理模式。

利用這套框架來思考人與Agent的協(xié)作，會發(fā)現(xiàn)Agent與人的協(xié)作關系要復雜得多。Agent在不同維度的能力差異巨大：它可能在某些方面表現(xiàn)卓越，在另一些被認為是常識的領域卻會判斷錯誤。更具挑戰(zhàn)性的是，Agent可能會自主做出超出權限的決策，比如調(diào)用昂貴的API卻不考慮成本，或在需要人工審批的環(huán)節(jié)直接推進。這種能力分布的不均，要求對Agent采用更加精細化的管理策略。

實踐中最有效的方法是建立共享上下文機制。這不是簡單的信息同步，而是讓Agent理解它所處的工作環(huán)境、可用的工具和權限邊界、協(xié)作的規(guī)則以及核心目標，以及什么時候需要請求人工確認。

一個有趣的趨勢是，最先進的AI產(chǎn)品正在嘗試讓AI更主動地參與協(xié)作。Agent不再是被動的執(zhí)行工具，而是會主動提出建議，并在遇到困難時主動請求人工協(xié)助。

多Agent架構為何難以落地？

在多Agent協(xié)作的探索上，許多嘉賓也分享了在落地中遇到的挑戰(zhàn)。最核心的矛盾是：如果所有Agent共享全部上下文，并不是真正的 “多Agent協(xié)作”；但要從龐雜上下文里精準抽取每個Agent所需的部分，又是個極大的挑戰(zhàn)。抽取不準，交接就會立刻失?。还蚕磉^頭，又會退化成一個超長System Prompt的“單體Agent”。如何抽象出各個agent和所屬的context，還需要更多的實踐。

許多開發(fā)者嘗試多Agent協(xié)作的動機很樸素：上下文越長，大模型越“笨”。當問題變成幾十步、上百步，單體Agent容易在中途“繞回去”——前幾步還能跟上，越到后面就越容易進入自我循環(huán)。理論上，把超長的推理鏈路拆分成可管理的子問題，由多Agent來分別解決，可以緩解Context過長導致的模型變笨問題。但在真實業(yè)務中，何時切分子任務、如何調(diào)度合適的Agent，成為了最大卡點。

有效的路徑可能是采用任務分解加專家模型的組合：把復雜問題拆解成相對獨立的子任務，每個子任務由擅長該領域的Agent處理。整個流程類似MapReduce模式——調(diào)度分發(fā)、并行處理、結果歸并，關鍵是要做到可觀測和可回溯。

更進一步的思路是引入Agent-to-Agent的異步協(xié)作機制，把一致性、延遲和成本等工程約束納入系統(tǒng)設計。比如，某些子任務可以容忍一定的信息延遲，某些關鍵決策則需要實時同步。這樣既能保證協(xié)作效果，又能控制系統(tǒng)復雜度。

05大模型與Agent大模型會淹沒Agent嗎

隨著大模型公司紛紛推出Agent產(chǎn)品，"Agent是否會被大模型淹沒"再次成為縈繞在創(chuàng)業(yè)者心頭最大的疑問。一個具有代表性的對照案例，便是 Coding Agent 賽道中的 Cursor 與 Claude Code。

Claude Code代表了“大模型上探”的產(chǎn)品路徑：把“規(guī)劃—執(zhí)行—復盤”內(nèi)生到模型，強化長程規(guī)劃與連續(xù)Tool Use的能力，盡可能以一次對話承載更多自治工作。依托模型廠商的數(shù)據(jù)閉環(huán)與算力優(yōu)勢，強調(diào)“模型即Agent”的一體化體驗。
Cursor代表了“Agent下沉到環(huán)境”的路徑：通過IDE這一真實執(zhí)行環(huán)境，提供高質(zhì)量的上下文供給、工具與權限治理、成本與合規(guī)控制，強調(diào)把智能穩(wěn)定落在生產(chǎn)一線。

短期內(nèi)，兩種路線會并行發(fā)展，但長期來看，真正的護城河在于幾個核心能力：深度的環(huán)境理解與操作能力、持續(xù)的學習記憶閉環(huán)、針對特定場景的模型優(yōu)化，以及多Agent間的協(xié)作標準。

創(chuàng)業(yè)者要提前關注模型哪些能力的提升？

面對大模型公司可能的降維打擊，Agent創(chuàng)業(yè)者需要提前布局/關注那些可能改變游戲規(guī)則的技術拐點。我們認為，大模型在如下四個領域的能力進展尤其值得創(chuàng)業(yè)者關注：

長期規(guī)劃與連續(xù)行動能力提升：以Claude Code為代表的一方Agent產(chǎn)品（大模型公司推出的Agent產(chǎn)品），能夠積累許多真實場景下的高質(zhì)量人機協(xié)作數(shù)據(jù)，而一旦下一代的大模型訓練從這些數(shù)據(jù)中學會長任務策略，可能就意味著“模型即Agent”時代的到來，也意味著那些以復雜工作流編排為核心競爭力的Agent產(chǎn)品可能會遭遇降維打擊。
多模態(tài)深度融合：如果圖像、語音、自然語言深度整合到同一個模型中，AI能真正像人一樣同時"看、聽、說"時，交互方式將發(fā)生根本性變化。特別是在老人、兒童和跨語言場景中，這種突破意味著技術普惠的真正實現(xiàn)，創(chuàng)造出巨大機會。誰能率先在這些細分場景做出差異化產(chǎn)品，就能建立先發(fā)優(yōu)勢。
界面自動生成：隨著模型意圖理解和視覺生成能力的提升，未來可能不再有標準化的界面設計。甚至可以想象，AI可以根據(jù)用戶當下的任務、心情甚至時間，實時生成最適合的界面布局。這將徹底改變?nèi)藗儗浖a(chǎn)品的認知，也是重新定義軟件產(chǎn)品的機會。創(chuàng)業(yè)者可以圍繞動態(tài)界面的設計理念和實現(xiàn)方案建立新的產(chǎn)品品類。
更成熟的Context Engineering與記憶機制：圍繞企業(yè)知識、規(guī)則與偏好，構建可持續(xù)沉淀與演進的上下文體系。企業(yè)級的上下文管理將成為新的競爭高地，這是大模型公司難以直接切入的專業(yè)化領域。

未來會是一個還是多個模型？

在實踐中，創(chuàng)業(yè)者們越來越清晰地感受到：不同模型在能力側重、風格取向與行為傾向上存在系統(tǒng)性差異，且這些差異并非簡單的“強弱”維度，而是“偏好-能力”的多軸分布。

嘉賓們分享的經(jīng)驗：

不同大模型的能力側重不同。ChatGPT在戰(zhàn)略思考與架構抽象上，更凝練、結構清晰、思考更深；Gemini覆蓋面廣但偏鋪陳、信息密度一般，更適合承接架構做詳細設計；Claude規(guī)劃能力最強，通用Agent的自主規(guī)劃基本都用它做，它的代碼能力也最強。
做成Agent后，各模型的“行動沖動”也有所不同：有的模型遇到模糊意圖時會立刻嘗試執(zhí)行，容易越權或忽視成本約束；有的則傾向先追問、再確認。

基于此，比起追求一個“無所不包、可瞬時切換人格”的超級模型，現(xiàn)階段更務實的做法是多模型分工與編排。利用這些大模型間的差異，把它們納入產(chǎn)品的不同流程，讓Agent在真實場景中更高效、可控且成本更低。

06下一個突破口：記憶和學習

學習能力是關鍵

從人與Agent的交互到多Agent協(xié)作，核心挑戰(zhàn)都指向了同一個方向：AI的學習能力。Agent需要在與用戶的交互過程中不斷學習用戶的偏好、工作習慣、決策模式，更要掌握業(yè)務流程中那些沒有明文規(guī)定的隱性規(guī)則。

這種學習遠不是簡單的參數(shù)微調(diào)，而是對特定場景下上下文的深度理解和長期記憶。就好像一個優(yōu)秀秘書的價值在于比老板更懂老板的需求——知道什么時候該打斷會議，什么郵件需要優(yōu)先處理，哪些"緊急"任務其實可以緩一緩。Agent要達到這個水平，必須建立起基于場景的記憶和學習機制。

然而，當我們深入探討這種學習機制的具體實現(xiàn)時，會發(fā)現(xiàn)Agent的學習困難不僅僅是技術實現(xiàn)問題，要真正解決Agent的學習能力問題，我們需要回到最基礎的認知科學層面，重新審視記憶的本質(zhì)結構。

記憶的底層瓶頸

從認知科學角度看，人腦的記憶分為三種類型：Semantic Memory（概念記憶，存放“是什么”的知識與概念關系）、Episodic Memory（情景/場景記憶，按時間線記錄“在什么情境下、經(jīng)歷了哪些步驟、做過哪些嘗試、得到了什么反饋”的具體經(jīng)歷），以及 Procedural Memory（程序記憶，類似“肌肉記憶”，用于穩(wěn)定復現(xiàn)已掌握的技能動作，需要從情景記憶中反復提煉才能形成）。

當前AI系統(tǒng)在Semantic Memory方面已經(jīng)做得不錯，但在Episodic Memory方面幾乎是空白。這也解釋了為什么AI在編程領域表現(xiàn)突出、但在多數(shù)行業(yè)落地困難：代碼本身記錄了完整的"如何做"的過程，包括版本控制、失敗案例、調(diào)試過程等，為AI提供了豐富的Episodic Memory。而在其他領域，這種過程性數(shù)據(jù)極度稀缺，web語料說的是"什么“，是結果。企業(yè)很少公開分享失敗經(jīng)驗，即便分享也往往經(jīng)過美化。銷售如何失??？項目為何延期？決策如何出錯？這些寶貴的學習素材很難在公開語料中找到。沒有持續(xù)學習與情景記憶，Agent很難快速適應復雜上下文，僅靠抽象規(guī)則難以維持穩(wěn)定表現(xiàn)。

Procedural Memory類似人的肌肉記憶。一個網(wǎng)球運動員在球打過來的時候，他的動作不是經(jīng)過思考的，是他在長期訓練過程中提煉的。所以他能夠重復低成本、可靠地復制。AI如何將知識沉淀下來、如何把經(jīng)驗真正變成程序記憶，目前還很遙遠。

情景記憶的探索方向

很遺憾，大模型在記憶和學習方面一直進展緩慢。情景記憶是提升學習能力很好的切入點，可能需要幾個方向的探索。

首先是過程數(shù)據(jù)的主動收集。傳統(tǒng)AI系統(tǒng)往往只關注最終結果，但情景記憶的核心在于記錄完整的決策鏈條。這意味著Agent在執(zhí)行任務時，需要詳細記錄每一步的決策邏輯、遇到的障礙、嘗試的解決方案，以及用戶的實時反饋。比如Cursor記錄的用戶行為（對Agent的建議是接受、修改還是拒絕等具體場景）對它的產(chǎn)品持續(xù)優(yōu)化就很有價值。

其次是人機協(xié)作軌跡的深度學習。最有價值的學習往往來自高質(zhì)量的人機協(xié)作案例。當用戶糾正Agent的錯誤、調(diào)整執(zhí)行策略或提供關鍵補充信息時，這些互動軌跡蘊含著豐富的隱性知識。Agent需要從這些協(xié)作模式中提取可復用的決策框架，而不是簡單地記住表面的操作步驟。

第三個方向是場景化學習機制的建立。不同情境下的最優(yōu)策略往往截然不同，Agent需要具備根據(jù)當前場景快速調(diào)用相關經(jīng)驗的能力。這要求系統(tǒng)能夠識別場景的關鍵特征，并建立場景與策略之間的動態(tài)映射關系。

最后是可持續(xù)的上下文演進能力。記憶不應該是靜態(tài)的存儲，而應該是一個隨著使用而不斷優(yōu)化的動態(tài)系統(tǒng)。Agent需要能夠識別哪些經(jīng)驗在新情境下仍然適用，哪些需要調(diào)整，哪些已經(jīng)過時需要淘汰。

一些前沿公司已經(jīng)開始在這個方向上探索。比如LemonAI在旅行規(guī)劃領域的嘗試，通過記錄用戶對初始計劃的修改和反饋，持續(xù)改進推薦算法的準確性。雖然這種方法還處在早期階段，但它代表了從結果導向轉向過程導向的重要思路轉變，為未來Agent的發(fā)展指明了方向。

轉載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.