夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中美 Agent 創(chuàng)業(yè)者閉門:一線創(chuàng)業(yè)者的教訓、抉擇與機會

0
分享至

2025 年,在 AI 業(yè)內(nèi),Agent 無疑是最熱的話題。模型側, 新一代 Agent Model 的能力大幅提升,支持更強大的長時規(guī)劃和工具調(diào)用。同樣,產(chǎn)品側, Agent 也正在從簡單的聊天助手進化為真實環(huán)境中持續(xù)交付的數(shù)字員工。

但真正實際好用的 Agent 產(chǎn)品屈指可數(shù),其實這也說明了Agent 的實際落地遠遠比我們預期中的更復雜

做 Agent 的真正卡點在哪?是技術還沒到位嗎?在 Agent 創(chuàng)業(yè)中,有哪些真實的教訓和經(jīng)驗?現(xiàn)在做通用 Agent 產(chǎn)品,還有價值嗎?......

Atom Capital 近期組織了一場閉門沙龍,邀請了硅谷和大陸專注 Agent 前沿的創(chuàng)業(yè)者和大廠技術專家,圍繞 Agent 的這些難點進行了深入討論,全是來自一線的實戰(zhàn)心得、技術和業(yè)務洞察。

TLDR:

  • The Bitter lesson 依然生效,新一代Agent Model的"規(guī)劃"和"工具調(diào)用"能力的提升,取代了過去大量基于規(guī)則的工作流編排等外圍工程。

  • 隱性知識的獲取是一個Agent的核心挑戰(zhàn),尤其在2B領域。

  • Context,即隱性知識和業(yè)務邏輯的好壞決定了大模型如何能夠在實際落地中完成任務,是否真正實現(xiàn)"可生產(chǎn)可交付"的價值。

  • Workflow跟自主編排Agent各有用武之地,會長期并行。但價值重心很明顯正在逐步向后者遷移。

  • 通用Agent的留存與付費轉化偏弱,新客多、留存低成為常態(tài),更務實的做法是從"通用"轉向"垂直深耕"。即便在"通用"賽道,也先聚焦特定場景。

  • 長期來看,真正的護城河在于幾個核心能力:深度的環(huán)境理解與操作能力、持續(xù)的學習記憶閉環(huán)、針對特定場景的模型優(yōu)化,以及多Agent間的協(xié)作標準。

超 12000 人的「AI 產(chǎn)品市集」社群!不錯過每一款有價值的 AI 應用。

邀請從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:

進群后,你有機會得到:

  • 最新、最值得關注的 AI 新品資訊;

  • 不定期贈送熱門新品的邀請碼、會員碼;

  • 最精準的AI產(chǎn)品曝光渠道

01熱潮背后:創(chuàng)業(yè)實踐的教訓、挑戰(zhàn)與調(diào)整

今年Agent真正從"目標"變成了"手段"——過去大家談論Agent更多是在描繪一個理想狀態(tài),現(xiàn)在則是在用它解決具體問題。隨著底層模型能力加速進化,嘉賓們分享了痛苦的教訓、面臨的主要挑戰(zhàn)以及相應的重心調(diào)整。

Bitter lesson:今年最大的Learning是什么?

之前做Agent的大量工程化工作都“交了學費”。一位嘉賓分享,兩年前他們開始做Agent的時候,模型能力還不夠,GPT-4雖然智商ok,但也有各種問題,包括工具調(diào)用、準確性、上下文長度、速度等。他們因此做了很多外圍的工程化,做了各種工具,去年他的產(chǎn)品在 SWE-Bench 測試中兩次拿到榜首??墒沁@樣的方案不具有通用性,也不穩(wěn)定。今年Claude Code出來后,他發(fā)現(xiàn),過去做的這些工作都沒有意義,都被大模型吃掉了。模型本身就是Agent,開發(fā)者只需要給它環(huán)境,這對他的沖擊非常大。

這個“交學費”的痛苦經(jīng)歷被多位嘉賓提及。教訓的背后,是因為新一代Agent Model的"規(guī)劃"和"工具調(diào)用"能力的提升,取代了過去大量基于規(guī)則的工作流編排等外圍工程。

Agent目前最主要的挑戰(zhàn)是什么?

隱性知識的獲取是一個核心挑戰(zhàn),尤其在2B領域。大模型能力不再是主要瓶頸,但是Agent如何能夠給到大模型足夠的context來實際落地,依然面臨幾個方面的挑戰(zhàn)。

一是默會知識。在真實世界真實場景中,有很多默會知識,而這些是沒有被記錄、AI不知道的。以廣告行業(yè)為例,什么樣的創(chuàng)意是好的創(chuàng)意,什么樣的slogan是好的slogan,行業(yè)內(nèi)人士可能需要梳理出一套規(guī)則給到AI。

二是協(xié)作需要的共識性知識。在真實的組織中,人和人之間的協(xié)作是口耳相傳的。一個大之下有小組織,每個小組也有自己的生態(tài)。以字節(jié)為例,大家都用Golang,但是每個小組用Go的方法都不一樣。這些組織內(nèi)部的共識性知識,目前是嚴重缺乏的。

三是企業(yè)內(nèi)部在長期實踐中形成的自定義規(guī)則。一位嘉賓分享了一個真實案例,很具有代表性。他在幫助客戶計算ACV(年度合同價值)指標時發(fā)現(xiàn),雖然業(yè)界有標準算法,但企業(yè)實際操作時卻面臨著各種復雜情況:哪些合同應該計算在內(nèi),哪些不算?合同截止時間能否延期?出于某些實際考慮,不在結算周期內(nèi)的合同需要如何特殊處理?每家企業(yè)的處理方式都不同。同樣一個指標,不同公司的計算方法可能完全不同。即便是看似標準的 Salesforce,不同企業(yè)對同一字段的定義也不盡相同。這些源自業(yè)務實踐的自定義規(guī)則與術語,都是外部難以直接感知的“隱性層”。

產(chǎn)生這些問題的本質(zhì),是AI完全改變了過去軟件的工作方式。以前軟件都是在做工具給人使用,因為工具直接解決問題的成本過高,問題由人來 解決 。在Agent時代,Agent需要直接解決問題,這就要求開發(fā)者把人腦如何解決問題的思路都做出來。這里包括默會知識、協(xié)作的共識性知識、各個企業(yè)內(nèi)部自定義的規(guī)則等等。目前,Agent開發(fā)者花了大量時間和精力來構建這些context。

創(chuàng)業(yè)者應該在哪里發(fā)力?

聚焦上下文工程來構建環(huán)境。因為大模型能力的迅速提升,Agent實施重點不再是模型與工具,而是如何構建環(huán)境讓大模型更好地落地。這個轉變很關鍵,因為"環(huán)境"很可能就是那層不會被大模型淹沒的地基。

這里的“環(huán)境”包含三要素:

  • 執(zhí)行能力:讓 Agent 在真實界面、終端與移動端進行 Computer Use。

  • 業(yè)務連接:把企業(yè)系統(tǒng)、數(shù)據(jù)與權限工具化、可調(diào)度化。

  • 上下文載體:承載領域術語、企業(yè)知識與使用習慣等關鍵信息。

其中最核心的是context,即隱性知識和業(yè)務邏輯。Context的好壞決定了大模型如何能夠在實際落地中完成任務,是否真正實現(xiàn)"可生產(chǎn)可交付"的價值。

02創(chuàng)業(yè)者的抉擇:技術和商業(yè)化路線

Agent創(chuàng)業(yè)過程中面臨著很多選擇,討論下來,大家最關心的是其中兩個:

技術路線:Workflow or Agentic?

現(xiàn)在落地較好的Agent,不少還是Rule-based(或者叫Workflow-base Agent)。到底是通過工作流讓Agent按我們的預期完成任務,還是它能夠自主編排完成?Workflow-based和Agent-based這兩種技術路線的選擇,是嘉賓們熱烈討論的一個議題。

一個實用的選擇標準,是看客戶的工作是否天然由工作流驅(qū)動。對于企業(yè)里可以用非常強規(guī)則描述的工作,用Workflow去做,會更高效、準確,成本更低,合規(guī)性也更好。一位嘉賓分享了訂單處理的案例,雖然訂單格式千差萬別(從微信、郵件、系統(tǒng)提交等),但訂單收進來后,處理邏輯其實是一個固定的工作流。用Workflow做這種訂單處理效果非常好。有家制造業(yè)企業(yè)在部署訂單處理Agent后,一下子節(jié)省了十多個人的工作。

這一類工作,也可以讓自主編排的Agent去做,因為模型能力越來越強了。但是這樣每次都要做Planning,消耗很多Token,而且每次過程都不是事先規(guī)劃好的,對企業(yè)來講,它不一定合規(guī)。在真實的企業(yè)場景中,嘉賓們看到多數(shù)能落地的Agent還是Workflow-based。

需要多步驟、靈活操作的任務,則更適合交給自主編排Agent。比如數(shù)據(jù)分析,這種工作無法用Workflow描述,或通過一個簡單的功能解決。它要讀取數(shù)據(jù),讀完數(shù)據(jù)之后做分析,分析完之后可能還要做報告。在整個過程中,它還要反復地查詢數(shù)據(jù)。這是很典型的一種用Agentic loop來實現(xiàn)的場景。

很多2B領域的Agent公司過去兩年犯的一個錯誤,是在模型還沒有那么強、整個Agent的工具生態(tài)還沒有那么豐富的時候,把本來應該用Agentic解決的問題,簡單化地去用Workflow解決了。這就導致一個問題:用很局限的方式完成一個更復雜的任務,結果方案的靈活性、泛化性都不好。而當模型能力真正提升時,就有新的創(chuàng)業(yè)者利用大模型的能力、真正用Agentic方式來實現(xiàn)需求,相當于降維打擊了。

需要強調(diào)的是,兩條技術路線之間的轉換并不意味著完全推倒重來。企業(yè)過往積累的流程機器人、系統(tǒng)適配與集成連接,正好可以被"工具化",為Agent所用。比如,RPA公司沉淀的RPA資產(chǎn)可以轉化為MCP Server中的工具,企業(yè)原先接入的系統(tǒng)可以直接轉化為Agent落地的基礎設施優(yōu)勢。

Workflow跟自主編排Agent各有用武之地,會長期并行。但價值重心 很明顯 正在逐步向后者遷移。

商業(yè)化路線:KA or SMB?

對2B領域的Agent創(chuàng)業(yè)者而言,另一個重要決策是在客戶選擇上:先攻KA(大客戶)還是SMB(中小客戶)?

從營收看,大客戶確實更有吸引力——預算充足、付費意愿強、單個項目價值高。但KA市場有幾個不可忽視的挑戰(zhàn):實施成本高昂、決策鏈條冗長、各部門利益協(xié)調(diào)復雜。很多項目最終卡在"試點成功但無法推廣"的尷尬境地。

SMB市場則呈現(xiàn)出截然不同的機會。一位嘉賓分享了一個有趣的案例:許多中小企業(yè)CEO在看到他的Agent處理后的數(shù)據(jù)報告時,驚訝地感嘆:"這些數(shù)據(jù)我從來沒見過。" 原因很簡單:以前中小公司不可能雇傭?qū)iT的運營分析人員,成本太高。許多決策都是靠CEO的經(jīng)驗和直覺判斷。而現(xiàn)在,AI正在將過去只有大組織才配備的專業(yè)運營能力"民主化",讓標準化流程管理變得"即插即用"——這是企業(yè)級服務市場迎來的歷史性機遇。

理解了這兩個市場的不同特征后,更務實的做法是分層并進:用中小企業(yè)市場快速驗證產(chǎn)品價值和商業(yè)模式,積累標準化場景,打磨"低實施成本加標準SOP加輕量集成"的產(chǎn)品形態(tài);同時選擇性地用能量化價值的案例敲開關鍵大客戶的大門,建立標桿項目。

另外,現(xiàn)階段巨頭內(nèi)部對推進AI也有不同的擔心。比如,公司無法量化使用產(chǎn)品后生產(chǎn)力究竟提升了多少。現(xiàn)在主要是自下而上的員工有熱情,但決策層很難決定是否投入,因為無法證明生產(chǎn)力提升。另外,一些巨頭更關注實際的收入,對創(chuàng)新不是很感興趣,認為追趕是最有效的策略。

03通用Agent的靈魂拷問

"萬能工具"的困境

作為頭部通用Agent,Manus做得很出色。它是第一個出圈的通用Agent,營銷做得非常好。它的產(chǎn)品Demo很炫酷,特別是AI操作電腦和瀏覽器過程的可視化,以強烈的科幻感激發(fā)了用戶對AI的無限想象,從而吸引了大量用戶并顯著提升了品牌效應。

這類通用Agent的一個問題,是大家使用久了以后發(fā)現(xiàn),實際體驗往往難以達到預期。最大卡點在于"面面俱到,卻難以做到最好",在具體場景的深度與質(zhì)量上普遍"只到60分"。用戶在實際使用中,往往會轉向更專業(yè)的工具——做網(wǎng)站用專門生成器,寫代碼用編程助手,做調(diào)研用研究助手……導致通用Agent的留存與付費轉化偏弱,新客多、留存低成為常態(tài)。

聚焦垂直的價值——以PPT Agent為例

對資源有限的創(chuàng)業(yè)公司而言,更務實的做法是從"通用"轉向"垂直深耕"。即便在"通用"賽道,也先聚焦特定場景,在規(guī)劃自動化的基礎上引入專用模型與專業(yè)工具鏈,圍繞具體任務做深做透。

這里以一位頭部PPT Agent負責人所分享的經(jīng)驗為例:

如果用一個粗略的評分標準做參照:普通人做的PPT大概60分(剛及格),專業(yè)高手能到80分,喬布斯蘋果發(fā)布會那樣的頂級路演是100分;而目前通用大模型PPT 能力多在四五十分,只能“搭個架子”。

如何提升Agent的PPT 能力,讓大模型跨過這幾十分的差距?

拆解下來,PPT制作主要有三個環(huán)節(jié):

  • 內(nèi)容生成: 這是第一步,也是基礎。用戶通常會給出指令,要求Agent收集相關信息。內(nèi)容的質(zhì)量、豐富度和準確性至關重要。如果內(nèi)容本身就不好,后面的環(huán)節(jié)都會受影響。這部分核心考驗的是Agent的強檢索與綜述能力,決定了PPT上限。

  • 排版與視覺設計: 收集到內(nèi)容后,如何將其合理排版并呈現(xiàn)出良好的視覺效果,這是PPT區(qū)別于普通文檔的關鍵。

  • 數(shù)據(jù)圖表可視化: PPT中經(jīng)常需要展示數(shù)據(jù)。原始數(shù)據(jù)多是文字或數(shù)字,需要將其恰當?shù)剞D化為曲線圖、柱狀圖、流程圖等可視化形式。

現(xiàn)階段,AI生成PPT的普遍做法是“模板 + 大模型適配”,并用代碼生成完成排版和視覺設計。但這種方法容易出現(xiàn)一些系統(tǒng)性瑕疵(寬高比不對、元素重疊、比例失調(diào)等),因為代碼生成的視覺和排版設計沿用了網(wǎng)頁生成的邏輯,缺乏針對PPT場景的優(yōu)化。

這位嘉賓所在團隊圍繞PPT場景做了深入優(yōu)化:在內(nèi)容檢索與排版視覺這兩個環(huán)節(jié)分別訓練了專用模型,通過糾錯與蒸餾提升模型在 PPT 領域的表現(xiàn);同時補齊多樣工作流(從“只美化現(xiàn)有 PPT”到“按既定大綱排版與制圖”)、對接個人歷史素材與企業(yè)知識庫、遵循組織模板與品牌規(guī)范等等。

結果也驗證了這條路徑的有效性:其產(chǎn)品生成PPT的質(zhì)量顯著優(yōu)于通用Agent。通用 Agent 的用戶留存率普遍只有約10%,而該PPT Agent可達到20%以上,在競爭中形成了清晰差異化。

04重新思考:人與Agent的交互

未來,Agent是否像人一樣操作電腦、還是API就行?

Agent通過GUI操作電腦的能力正在快速成熟。嘉賓們分享了很多令人印象深刻的實踐案例:QA測試Agent能夠像人一樣打開瀏覽器測試網(wǎng)站,小紅書發(fā)帖Agent可以批量操作圖片選擇、打標簽并發(fā)布內(nèi)容。o3模型幾乎不需要特殊定制就能直接使用,對常見UI界面的識別和操作能力已相當成熟……

但GUI操作的長期價值仍存在很大爭議:GUI本質(zhì)上是為人類認知優(yōu)化的界面,對Agent來說并非最優(yōu)路徑。當Agent能直接調(diào)用API、操作服務器甚至編寫代碼時,繞開GUI似乎是更優(yōu)解。在這種情況下,還有什么必要堅持GUI操作嗎?

我們有兩點考慮:一是現(xiàn)實世界過去幾十年積累了大量基于GUI的應用,短期內(nèi)完全繞過并不現(xiàn)實。而更深層的原因,在于GUI承載的不僅僅是操作功能,還有豐富的上下文信息。人類選擇GUI而非純語言操作,很大程度上是因為視覺能夠提供豐富的場景信息和認知優(yōu)勢。如果未來Agent在視覺理解上的能力獲得提升,甚至超越人類,GUI操作的價值可能會重新凸顯。

如何設計人與Agent交互的顆粒度?

Agent產(chǎn)品設計中最困難的問題之一是確定交互顆粒度:什么時候需要用戶確認?什么時候應該主動詢問更多信息?

以旅行規(guī)劃為例,這個看似簡單的場景實際上包含大量個人偏好。如果用戶要求Agent制作東京七天的旅行計劃,Agent直接去執(zhí)行可能無法滿足需求。實際上,Agent需要了解很多信息:用戶是否去過東京?喜歡什么風格的旅行?預算范圍如何?之前去過哪些地方,有什么特別喜歡的體驗可以作為參考?但如果過度詢問用戶偏好,又可能讓用戶感到繁瑣。

要解決好這個問題,關鍵在于Agent要具備判斷能力:什么情況下需要更多信息,什么情況下可以基于常識推進。最有潛力的方案是讓Agent在交互過程中逐步學習用戶偏好,記住修正和反饋,在后續(xù)交互中主動應用這些知識。 比如,LemonAI最近演示的產(chǎn)品,正在嘗試通過學習用戶的偏好來制定旅游計劃。

未來人與Agent將如何協(xié)作?——來自管理學的啟發(fā)

傳統(tǒng)管理學中的情境領導理論將管理模式分為四種:指導(Directing,明確告訴下屬每一步怎么做),教練(Coaching,與下屬充分討論,然后以管理者為主導來做決定),支持(Supporting,管理者提供建議但由下屬主導決策),授權(Delegate,完全放手讓下屬去做)。情境領導的核心,是管理者必須了解下屬的能力范圍,采取相應的管理模式。

利用這套框架來思考人與Agent的協(xié)作,會發(fā)現(xiàn)Agent與人的協(xié)作關系要復雜得多。Agent在不同維度的能力差異巨大:它可能在某些方面表現(xiàn)卓越,在另一些被認為是常識的領域卻會判斷錯誤。更具挑戰(zhàn)性的是,Agent可能會自主做出超出權限的決策,比如調(diào)用昂貴的API卻不考慮成本,或在需要人工審批的環(huán)節(jié)直接推進。這種能力分布的不均,要求對Agent采用更加精細化的管理策略。

實踐中最有效的方法是建立共享上下文機制。這不是簡單的信息同步,而是讓Agent理解它所處的工作環(huán)境、可用的工具和權限邊界、協(xié)作的規(guī)則以及核心目標,以及什么時候需要請求人工確認。

一個有趣的趨勢是,最先進的AI產(chǎn)品正在嘗試讓AI更主動地參與協(xié)作。Agent不再是被動的執(zhí)行工具,而是會主動提出建議,并在遇到困難時主動請求人工協(xié)助。

多Agent架構為何難以落地?

在多Agent協(xié)作的探索上,許多嘉賓也分享了在落地中遇到的挑戰(zhàn)。最核心的矛盾是:如果所有Agent共享全部上下文,并不是真正的 “多Agent協(xié)作”;但要從龐雜上下文里精準抽取每個Agent所需的部分,又是個極大的挑戰(zhàn)。抽取不準,交接就會立刻失?。还蚕磉^頭,又會退化成一個超長System Prompt的“單體Agent”。如何抽象出各個agent和所屬的context,還需要更多的實踐。

許多開發(fā)者嘗試多Agent協(xié)作的動機很樸素:上下文越長,大模型越“笨”。當問題變成幾十步、上百步,單體Agent容易在中途“繞回去”——前幾步還能跟上,越到后面就越容易進入自我循環(huán)。理論上,把超長的推理鏈路拆分成可管理的子問題,由多Agent來分別解決,可以緩解Context過長導致的模型變笨問題。但在真實業(yè)務中,何時切分子任務、如何調(diào)度合適的Agent,成為了最大卡點。

有效的路徑可能是采用任務分解加專家模型的組合:把復雜問題拆解成相對獨立的子任務,每個子任務由擅長該領域的Agent處理。整個流程類似MapReduce模式——調(diào)度分發(fā)、并行處理、結果歸并,關鍵是要做到可觀測和可回溯。

更進一步的思路是引入Agent-to-Agent的異步協(xié)作機制,把一致性、延遲和成本等工程約束納入系統(tǒng)設計。比如,某些子任務可以容忍一定的信息延遲,某些關鍵決策則需要實時同步。這樣既能保證協(xié)作效果,又能控制系統(tǒng)復雜度。

05大模型與Agent大模型會淹沒Agent嗎

隨著大模型公司紛紛推出Agent產(chǎn)品,"Agent是否會被大模型淹沒"再次成為縈繞在創(chuàng)業(yè)者心頭最大的疑問。一個具有代表性的對照案例,便是 Coding Agent 賽道中的 Cursor 與 Claude Code。

  • Claude Code代表了“大模型上探”的產(chǎn)品路徑:把“規(guī)劃—執(zhí)行—復盤”內(nèi)生到模型,強化長程規(guī)劃與連續(xù)Tool Use的能力,盡可能以一次對話承載更多自治工作。依托模型廠商的數(shù)據(jù)閉環(huán)與算力優(yōu)勢,強調(diào)“模型即Agent”的一體化體驗。

  • Cursor代表了“Agent下沉到環(huán)境”的路徑:通過IDE這一真實執(zhí)行環(huán)境,提供高質(zhì)量的上下文供給、工具與權限治理、成本與合規(guī)控制,強調(diào)把智能穩(wěn)定落在生產(chǎn)一線。

短期內(nèi),兩種路線會并行發(fā)展,但長期來看,真正的護城河在于幾個核心能力:深度的環(huán)境理解與操作能力、持續(xù)的學習記憶閉環(huán)、針對特定場景的模型優(yōu)化,以及多Agent間的協(xié)作標準。

創(chuàng)業(yè)者要提前關注模型哪些能力的提升?

面對大模型公司可能的降維打擊,Agent創(chuàng)業(yè)者需要提前布局/關注那些可能改變游戲規(guī)則的技術拐點。我們認為,大模型在如下四個領域的能力進展尤其值得創(chuàng)業(yè)者關注:

  • 長期規(guī)劃與連續(xù)行動能力提升:以Claude Code為代表的一方Agent產(chǎn)品(大模型公司推出的Agent產(chǎn)品),能夠積累許多真實場景下的高質(zhì)量人機協(xié)作數(shù)據(jù),而一旦下一代的大模型訓練從這些數(shù)據(jù)中學會長任務策略,可能就意味著“模型即Agent”時代的到來,也意味著那些以復雜工作流編排為核心競爭力的Agent產(chǎn)品可能會遭遇降維打擊。

  • 多模態(tài)深度融合:如果圖像、語音、自然語言深度整合到同一個模型中,AI能真正像人一樣同時"看、聽、說"時,交互方式將發(fā)生根本性變化。特別是在老人、兒童和跨語言場景中,這種突破意味著技術普惠的真正實現(xiàn),創(chuàng)造出巨大機會。誰能率先在這些細分場景做出差異化產(chǎn)品,就能建立先發(fā)優(yōu)勢。

  • 界面自動生成:隨著模型意圖理解和視覺生成能力的提升,未來可能不再有標準化的界面設計。甚至可以想象,AI可以根據(jù)用戶當下的任務、心情甚至時間,實時生成最適合的界面布局。這將徹底改變?nèi)藗儗浖a(chǎn)品的認知,也是重新定義軟件產(chǎn)品的機會。創(chuàng)業(yè)者可以圍繞動態(tài)界面的設計理念和實現(xiàn)方案建立新的產(chǎn)品品類。

  • 更成熟的Context Engineering與記憶機制:圍繞企業(yè)知識、規(guī)則與偏好,構建可持續(xù)沉淀與演進的上下文體系。企業(yè)級的上下文管理將成為新的競爭高地,這是大模型公司難以直接切入的專業(yè)化領域。

未來會是一個還是多個模型?

在實踐中,創(chuàng)業(yè)者們越來越清晰地感受到:不同模型在能力側重、風格取向與行為傾向上存在系統(tǒng)性差異,且這些差異并非簡單的“強弱”維度,而是“偏好-能力”的多軸分布。

嘉賓們分享的經(jīng)驗:

  • 不同大模型的能力側重不同。ChatGPT在戰(zhàn)略思考與架構抽象上,更凝練、結構清晰、思考更深;Gemini覆蓋面廣但偏鋪陳、信息密度一般,更適合承接架構做詳細設計;Claude規(guī)劃能力最強,通用Agent的自主規(guī)劃基本都用它做,它的代碼能力也最強。

  • 做成Agent后,各模型的“行動沖動”也有所不同:有的模型遇到模糊意圖時會立刻嘗試執(zhí)行,容易越權或忽視成本約束;有的則傾向先追問、再確認。

基于此,比起追求一個“無所不包、可瞬時切換人格”的超級模型,現(xiàn)階段更務實的做法是多模型分工與編排。利用這些大模型間的差異,把它們納入產(chǎn)品的不同流程,讓Agent在真實場景中更高效、可控且成本更低。

06下一個突破口:記憶和學習

學習能力是關鍵

從人與Agent的交互到多Agent協(xié)作,核心挑戰(zhàn)都指向了同一個方向:AI的學習能力。Agent需要在與用戶的交互過程中不斷學習用戶的偏好、工作習慣、決策模式,更要掌握業(yè)務流程中那些沒有明文規(guī)定的隱性規(guī)則。

這種學習遠不是簡單的參數(shù)微調(diào),而是對特定場景下上下文的深度理解和長期記憶。就好像一個優(yōu)秀秘書的價值在于比老板更懂老板的需求——知道什么時候該打斷會議,什么郵件需要優(yōu)先處理,哪些"緊急"任務其實可以緩一緩。Agent要達到這個水平,必須建立起基于場景的記憶和學習機制。

然而,當我們深入探討這種學習機制的具體實現(xiàn)時,會發(fā)現(xiàn)Agent的學習困難不僅僅是技術實現(xiàn)問題,要真正解決Agent的學習能力問題,我們需要回到最基礎的認知科學層面,重新審視記憶的本質(zhì)結構。

記憶的底層瓶頸

從認知科學角度看,人腦的記憶分為三種類型:Semantic Memory(概念記憶,存放“是什么”的知識與概念關系)、Episodic Memory(情景/場景記憶,按時間線記錄“在什么情境下、經(jīng)歷了哪些步驟、做過哪些嘗試、得到了什么反饋”的具體經(jīng)歷),以及 Procedural Memory(程序記憶,類似“肌肉記憶”,用于穩(wěn)定復現(xiàn)已掌握的技能動作,需要從情景記憶中反復提煉才能形成)。

當前AI系統(tǒng)在Semantic Memory方面已經(jīng)做得不錯,但在Episodic Memory方面幾乎是空白。這也解釋了為什么AI在編程領域表現(xiàn)突出、但在多數(shù)行業(yè)落地困難:代碼本身記錄了完整的"如何做"的過程,包括版本控制、失敗案例、調(diào)試過程等,為AI提供了豐富的Episodic Memory。而在其他領域,這種過程性數(shù)據(jù)極度稀缺,web語料說的是"什么“,是結果。企業(yè)很少公開分享失敗經(jīng)驗,即便分享也往往經(jīng)過美化。銷售如何失???項目為何延期?決策如何出錯?這些寶貴的學習素材很難在公開語料中找到。沒有持續(xù)學習與情景記憶,Agent很難快速適應復雜上下文,僅靠抽象規(guī)則難以維持穩(wěn)定表現(xiàn)。

Procedural Memory類似人的肌肉記憶。一個網(wǎng)球運動員在球打過來的時候,他的動作不是經(jīng)過思考的,是他在長期訓練過程中提煉的。所以他能夠重復低成本、可靠地復制。AI如何將知識沉淀下來、如何把經(jīng)驗真正變成程序記憶,目前還很遙遠。

情景記憶的探索方向

很遺憾,大模型在記憶和學習方面一直進展緩慢。情景記憶是提升學習能力很好的切入點,可能需要幾個方向的探索。

首先是過程數(shù)據(jù)的主動收集。傳統(tǒng)AI系統(tǒng)往往只關注最終結果,但情景記憶的核心在于記錄完整的決策鏈條。這意味著Agent在執(zhí)行任務時,需要詳細記錄每一步的決策邏輯、遇到的障礙、嘗試的解決方案,以及用戶的實時反饋。比如Cursor記錄的用戶行為(對Agent的建議是接受、修改還是拒絕等具體場景)對它的產(chǎn)品持續(xù)優(yōu)化就很有價值。

其次是人機協(xié)作軌跡的深度學習。最有價值的學習往往來自高質(zhì)量的人機協(xié)作案例。當用戶糾正Agent的錯誤、調(diào)整執(zhí)行策略或提供關鍵補充信息時,這些互動軌跡蘊含著豐富的隱性知識。Agent需要從這些協(xié)作模式中提取可復用的決策框架,而不是簡單地記住表面的操作步驟。

第三個方向是場景化學習機制的建立。不同情境下的最優(yōu)策略往往截然不同,Agent需要具備根據(jù)當前場景快速調(diào)用相關經(jīng)驗的能力。這要求系統(tǒng)能夠識別場景的關鍵特征,并建立場景與策略之間的動態(tài)映射關系。

最后是可持續(xù)的上下文演進能力。記憶不應該是靜態(tài)的存儲,而應該是一個隨著使用而不斷優(yōu)化的動態(tài)系統(tǒng)。Agent需要能夠識別哪些經(jīng)驗在新情境下仍然適用,哪些需要調(diào)整,哪些已經(jīng)過時需要淘汰。

一些前沿公司已經(jīng)開始在這個方向上探索。比如LemonAI在旅行規(guī)劃領域的嘗試,通過記錄用戶對初始計劃的修改和反饋,持續(xù)改進推薦算法的準確性。雖然這種方法還處在早期階段,但它代表了從結果導向轉向過程導向的重要思路轉變,為未來Agent的發(fā)展指明了方向。

轉載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國攔不住了,耿爽新身份一亮相,聯(lián)大120國集體力挺中國!

美國攔不住了,耿爽新身份一亮相,聯(lián)大120國集體力挺中國!

一個有靈魂的作者
2025-09-08 14:26:02
金正恩離開之前,水杯、指紋、排泄物、甚至每根毛發(fā)都被處理干凈

金正恩離開之前,水杯、指紋、排泄物、甚至每根毛發(fā)都被處理干凈

熊貓君點評
2025-09-07 11:47:41
從17.14億降至4.66億,重慶商業(yè)巨無霸降至評估價22%仍無人問津

從17.14億降至4.66億,重慶商業(yè)巨無霸降至評估價22%仍無人問津

石辰搞笑日常
2025-09-09 01:48:56
法國媒體被女兵妝容嚇到,香奈兒老家開始夸中國化妝品!

法國媒體被女兵妝容嚇到,香奈兒老家開始夸中國化妝品!

深析古今
2025-09-07 09:54:38
香港真實生活:撕開表面光鮮,這才是真實的香港

香港真實生活:撕開表面光鮮,這才是真實的香港

原廣工業(yè)
2025-09-08 15:48:58
女民兵拉著五顏六色拉桿箱返程,閱兵靴子沒來得及換,穿衣很時尚

女民兵拉著五顏六色拉桿箱返程,閱兵靴子沒來得及換,穿衣很時尚

甜檸聊史
2025-09-05 11:51:37
重要通知:銀行存取款方式重大調(diào)整,ATM機已完成升級,儲戶須知

重要通知:銀行存取款方式重大調(diào)整,ATM機已完成升級,儲戶須知

慧眼看世界哈哈
2025-09-08 05:55:40
三八線再次傳來槍聲!韓國用機槍掃射朝鮮軍人,朝方發(fā)出戰(zhàn)爭警告

三八線再次傳來槍聲!韓國用機槍掃射朝鮮軍人,朝方發(fā)出戰(zhàn)爭警告

boss外傳
2025-09-08 01:00:05
精簡49%!鐵飯碗收縮,加速了

精簡49%!鐵飯碗收縮,加速了

西部城市
2025-09-08 21:11:40
海外市場,可不會慣著中國車!

海外市場,可不會慣著中國車!

華庭講美食
2025-09-06 13:20:21
奧布拉克太絕望:3次被攻破球門,曼聯(lián)超級新援啞火:6場0進球

奧布拉克太絕望:3次被攻破球門,曼聯(lián)超級新援啞火:6場0進球

足球狗說
2025-09-09 06:31:32
丈夫洗澡時妻子發(fā)現(xiàn)其身上粉色蟲卵,醫(yī)院檢查后,醫(yī)生:趕快報警

丈夫洗澡時妻子發(fā)現(xiàn)其身上粉色蟲卵,醫(yī)院檢查后,醫(yī)生:趕快報警

罪案洞察者
2025-09-03 13:34:42
父母給房別直接過戶,這種方法省錢省心幾百塊搞定,很多人不知道

父母給房別直接過戶,這種方法省錢省心幾百塊搞定,很多人不知道

詩意世界
2025-08-30 10:20:18
最新! 楊蘭蘭高檔餐廳聚餐照曝光,全身LV愛馬仕,看到記者立馬溜

最新! 楊蘭蘭高檔餐廳聚餐照曝光,全身LV愛馬仕,看到記者立馬溜

熱點菌本君
2025-09-07 14:34:51
已確認!是奧運冠軍吳敏霞

已確認!是奧運冠軍吳敏霞

晉江電視臺
2025-09-08 13:17:56
杭州燒鳥店的“擦邊營銷”事件:是一場對“餐飲”和“女性”的雙重侮辱

杭州燒鳥店的“擦邊營銷”事件:是一場對“餐飲”和“女性”的雙重侮辱

黑蟻先生
2025-09-08 11:39:19
九三閱兵后第四天,日本首相“體面”辭職,臨走前留給中國兩句話

九三閱兵后第四天,日本首相“體面”辭職,臨走前留給中國兩句話

影孖看世界
2025-09-08 20:09:42
值得珍藏:科技主線+半導體龍頭+低空經(jīng)濟+軍工+電力設備+航運等

值得珍藏:科技主線+半導體龍頭+低空經(jīng)濟+軍工+電力設備+航運等

前沿天地
2025-09-08 07:38:44
大媽帶3L大桶薅山姆飲料,店員勸阻無效,嘴臉太貪婪,子女被牽連

大媽帶3L大桶薅山姆飲料,店員勸阻無效,嘴臉太貪婪,子女被牽連

墨印齋
2025-09-08 17:43:51
排面拉滿!詹姆斯登上《人民日報》:籃球是連接彼此的橋梁

排面拉滿!詹姆斯登上《人民日報》:籃球是連接彼此的橋梁

羅說NBA
2025-09-08 10:54:46
2025-09-09 06:48:49
FounderPark incentive-icons
FounderPark
關注AI創(chuàng)業(yè),專注和創(chuàng)業(yè)者聊真問題
956文章數(shù) 140關注度
往期回顧 全部

財經(jīng)要聞

千億均和集團暴雷 建行等多家銀行追債

頭條要聞

柯文哲出來第一秒就瞄準賴清德:把臺灣搞得四分五裂

頭條要聞

柯文哲出來第一秒就瞄準賴清德:把臺灣搞得四分五裂

體育要聞

二十年,屬于詹姆斯和中國球迷的雙向奔赴

娛樂要聞

2天5個瓜!個個離譜

科技要聞

王騰承認離開小米:犯了錯,感謝雷總培養(yǎng)

汽車要聞

對話曹東杰:用智能重構越野 猛士M817的爆款邏輯

態(tài)度原創(chuàng)

教育
健康
親子
本地
數(shù)碼

教育要聞

浙大博士求職211被拒,原因是第一學歷,那么多論文和課題看不見

內(nèi)分泌科專家破解身高八大謠言

親子要聞

孩子玩手機停不下來?大腦這個功能失效了

本地新聞

食味印象 | 夜未央 在自由時光邂逅煙火氣

數(shù)碼要聞

首發(fā)1999元!小米發(fā)布首款米家智能變壓IH電飯煲4L

無障礙瀏覽 進入關懷版 久久亚洲高清| 国产女主播白浆在线看| 少妇高潮出水视频| 人妻丰满熟妇无码区免费| 六月婷婷久综合| 久久男人AV资源网站| 国产精品123区| 成人无码视频在线观看网站| 成人亚洲欧美一区二区三区| 99热在线国产| 无码午夜激情| 久久精品亚洲AV无码四区| 玩弄白嫩少妇xxxxx性| 午夜影视在线观看免费| 综合网久久| 国产亚洲精品精| 亚洲Aⅴ无码一区二区| 日韩AV无码一区二区三| 国产在线精品一区二区不卡顿| Yyy1111少妇影院免费| 欧美劲爆第一页| 好屌射蜜桃视频在线观看| 网上看看欧美成人肏屄| 国产午夜激无码av毛片不卡| 国产精品乱论视频一区| 影音先锋av女人| 仑乱在线播放| 奇米影视888欧美在线观看| 九九99热久| 中字幕视频在线永久在线| 国内熟妇与亚洲洲熟妇妇| 天天日日夜夜| 中文有码一区| 亚洲高清最新AV网站| 亚洲爆乳无码专区www| 樱花视频在线| 日韩在线成年视频人网站观看| 午夜成人1000部免费视频| 18岁免进免费在线观看视频| 亚洲免费人成在线视频观看| 国产精品无码一二三视频|