這是一篇由 Agent 一線創(chuàng)業(yè)者、資深 Coder 寫的回顧文章。
AI Coding 賽道,如果我們把時(shí)間拉長(zhǎng)到 2 年的維度,能得到哪些不一樣的 insight?哪些被證明是正確的,哪些已經(jīng)被淘汰了?
從 2023 年初,模型能力、基礎(chǔ)設(shè)施都沒有到位的「混亂」階段,到 2025 年 Coding 玩家迎來(lái)第一波「縮圈」、轉(zhuǎn)向 CLI Code Agent 范式,這期間,都發(fā)生了什么?
Cursor 從 GPT 的「套殼」產(chǎn)品轉(zhuǎn)變?yōu)椤冈?Agentic IDE」,是如何找到差異化的技術(shù)路線的?
文章回顧了 2023 年初到 2025 年中,AI Coding 技術(shù)的重要發(fā)展節(jié)點(diǎn),同時(shí)也回溯追蹤了 Cursor、Codeium、Devin 這些產(chǎn)品的發(fā)展軌跡。
系統(tǒng)性地回顧,也是一次復(fù)盤。作者給出了有一些有意思的思考:
極端的「壞用戶」會(huì)讓整個(gè) Coding 的商業(yè)模式瞬間崩塌。對(duì)于復(fù)雜任務(wù)而言,如何在「交付質(zhì)量」和「token 成本」之間平衡才是關(guān)鍵。而上一代的產(chǎn)品通通在這個(gè)角度成為了強(qiáng)弩之末。
在統(tǒng)計(jì)了過去兩三年基礎(chǔ)模型的價(jià)格趨勢(shì)后發(fā)現(xiàn),年均 90%的價(jià)格降幅其實(shí)并沒有問題, 但是忽略了一個(gè)事實(shí):「大家都想用最好的模型」。所以,用得都是最新的模型,價(jià)格也是最貴的或者各家價(jià)格趨于一致。
現(xiàn)在的 Code Agent 從業(yè)的目標(biāo)很明確:「帶著你的用戶,茍到 2028 年別死,將會(huì)誕生一個(gè)或幾個(gè)千億美金?!?/p>
AI Coding 重要的一個(gè) feature 就是「Knowledge Suggestion」,feature 的主要功能就是在人類和 agent 協(xié)作的過程中,自發(fā)地抽取「方法論,行為準(zhǔn)則」然后通過人類對(duì)于這些確認(rèn)的行為打標(biāo),以結(jié)構(gòu)化管理的方式創(chuàng)造「數(shù)字分身」。不久以后,大量的產(chǎn)品將會(huì)跟進(jìn)這個(gè) feature。
在生產(chǎn)力領(lǐng)域,將來(lái)無(wú)論是所謂的通用 Agent,還是垂直 Agent,當(dāng)執(zhí)行變得廉價(jià)的時(shí)候,「術(shù)」真的不再重要了,重要的是如何獲得「道」:找到那群工作足夠值錢,認(rèn)知足夠值錢的人,幫他們創(chuàng)造十倍一百倍的價(jià)值,和提高十倍一百倍以上的效率。
超 13000 人的「AI 產(chǎn)品市集」社群!不錯(cuò)過每一款有價(jià)值的 AI 應(yīng)用。
邀請(qǐng)從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:
進(jìn)群后,你有機(jī)會(huì)得到:
最新、最值得關(guān)注的 AI 新品資訊;
不定期贈(zèng)送熱門新品的邀請(qǐng)碼、會(huì)員碼;
最精準(zhǔn)的AI產(chǎn)品曝光渠道
01第一階段:核心能力和基建都不足的草莽階段
作為 2023 年度的絕對(duì)領(lǐng)先者,OpenAI 的 GPT4 系列模型可以說領(lǐng)先全世界一年,但很明顯 GPT 的高推理成本和小 context window,都讓他在實(shí)際工業(yè)生產(chǎn)有非常大的限制。 而最核心的指標(biāo)——指令遵循能力,通俗講,大模型能記住多少事,多大程度上聽話辦事。 在 GPT4 發(fā)布之后,這個(gè)指標(biāo)在生產(chǎn)場(chǎng)景一直差強(qiáng)人意。
同期誕生的 Cursor 公司由四位 MIT 學(xué)生于 2022 年創(chuàng)立:Michael Truell(CEO)、Sualeh Asif、Arvid Lunnemark 和 Aman Sanger。最初他們嘗試開發(fā)面向機(jī)械工程師的 AI 工具,但因領(lǐng)域壁壘高、數(shù)據(jù)稀缺且團(tuán)隊(duì)缺乏興趣,迅速轉(zhuǎn)向編程場(chǎng)景。
回歸熟悉的編程領(lǐng)域,結(jié)合 AI 浪潮(如 GitHub Copilot 的興起),推出基于 VS Code 開源項(xiàng)目的 AI 增強(qiáng)編輯器 Cursor,定位為「AI 原生 IDE」。
初期集成 OpenAI 的 GPT-4 和 Anthropic 的 Claude 系列,提供代碼補(bǔ)全、生成等功能。這種「套殼」策略快速驗(yàn)證市場(chǎng),但受限于模型性能,體驗(yàn)非常糟糕,所有用戶基本是為了免費(fèi)使用 GPT4 而打開了 Cursor。這讓他和掌握 Vscode 項(xiàng)目的微軟產(chǎn)出的 Copilot 相比沒什么實(shí)質(zhì)性優(yōu)勢(shì)。
在某個(gè)階段,甚至也相當(dāng)于把命門交給了微軟手中,2024 年 4 月,微軟突然修改 VSCode 插件許可策略,限制非微軟產(chǎn)品調(diào)用其閉源擴(kuò)展(如 C/C++插件),導(dǎo)致 Cursor 核心功能癱瘓。
但 Cursor 團(tuán)隊(duì)的思路的差異化救了他們一命,2023 年 Cursor 基于 VS Code 分支開發(fā)時(shí),已具備基礎(chǔ)的單文件代碼分析能力,依賴 OpenAI 的 GPT-4 和 Claude 模型實(shí)現(xiàn)簡(jiǎn)單的代碼補(bǔ)全和錯(cuò)誤檢測(cè)??恐a庫(kù)分析能力,基于Merkle 樹驅(qū)動(dòng)的增量更新,語(yǔ)法樹分段,和云端向量化計(jì)算這些在當(dāng)時(shí)比較領(lǐng)先的技術(shù),在使用體驗(yàn)完全不占優(yōu)勢(shì)的情況下,保住了一些火種。
與此同時(shí),作為首個(gè)大規(guī)模商用的 AI 編程助手,GitHub Copilot 基于 OpenAI 的 Codex 模型,將代碼補(bǔ)全從單行擴(kuò)展到整段邏輯生成,推動(dòng)「Vibe」成為行業(yè)標(biāo)準(zhǔn)。
聊到這里我們沒有講一個(gè)重要問題,在當(dāng)前的生產(chǎn)生態(tài)中,寫代碼的終究是企業(yè)雇員最多。
企業(yè)真的放心核心資產(chǎn)——代碼數(shù)據(jù)被傳來(lái)傳去嗎?另外在那個(gè)時(shí)間點(diǎn)大廠真的能放心 AI 寫的代碼嗎?
答案當(dāng)然是否定的,因此,中大型企業(yè)內(nèi)部的模型接入 IDE 就成了一個(gè)剛需,國(guó)內(nèi)最喜歡造輪子的百度,首先就開始了魔改和上強(qiáng)度各種魔改 Vscode 接入文心模型,結(jié)果當(dāng)然也可想而知。 而其他公司更傾向于做 VsCode 插件比如國(guó)內(nèi)的智譜 CodeGeeX,以及一些更知名的項(xiàng)目 Codeium。
Codeium 于 2022 年 10 月作為 VS Code 擴(kuò)展發(fā)布,強(qiáng)調(diào)開源性質(zhì),用戶可以訪問源代碼、自定義工具,并免費(fèi)使用。到 2023 年,Codeium 迅速流行,吸引了超過 100 萬(wàn)開發(fā)者。它被視為開源社區(qū)的勝利,提供免費(fèi)的 AI 代碼加速,而 Copilot 需要付費(fèi)。
2023 年底,Codeium 開始強(qiáng)調(diào)企業(yè)級(jí)功能,如容器化部署、SOC 2 合規(guī)和 VPC 支持,以吸引 Fortune 500 公司。同期也拿到了高額融資,在商業(yè)利益的驅(qū)動(dòng)下,后來(lái) Codeium 從開源變?yōu)榱嘶旌夏J剑渖虡I(yè)版編輯器 windsurf 和 cursor 成為把 Vibe Coding 從非共識(shí)變成共識(shí)的兩個(gè)主要推手(命運(yùn)的齒輪從此開始轉(zhuǎn)動(dòng))。
從這個(gè)階段我們也可以看到歐美投資和技術(shù)的綁定關(guān)系之深,以及相關(guān)技術(shù)創(chuàng)業(yè)者入局之早,幾乎沒有一個(gè)是看到了大模型開始做什么,而是在大模型成功之前就已經(jīng)做了什么,因?yàn)榇竽P投a(chǎn)生了遷移和轉(zhuǎn)向大獲成功。
同時(shí)國(guó)內(nèi)的 Vibe Coding 共識(shí)主要形成于 2024 年中期,但彼時(shí)的此類項(xiàng)目在 2022 年就開始有建樹者,寥寥無(wú)幾,幾乎都是 2023 年 LLM 爆火之后開始火速成立公司。
當(dāng)然,除了「Copilot」當(dāng)然怎么能少了「Autopilot」呢?
同期的 Agent 概念開始被重提出來(lái),也有一些人給予提示做了很多工作比如最基本的設(shè)計(jì)模式和組件。
但是這些組件和設(shè)計(jì)模式的提出以及一些研究,其實(shí)并沒有對(duì) LLM Agent 的核心缺陷有什么改善,比如決策的基礎(chǔ)是完善的背景信息,我們常常抱怨大模型不懂我,或者生成的結(jié)果不滿意,卻從沒有認(rèn)識(shí)到我們沒有向大模型交代足夠詳細(xì)的「Background Context」而這個(gè)「Background Context」也就是上圖中的 Memory 組件對(duì)應(yīng)的部分,也是后世所謂的「Context Engineering」的起點(diǎn)。 在 2023 年末這個(gè)時(shí)點(diǎn),圖中的每個(gè)組件「Memory,Planning,Action,Tools」都幾乎是破綻,一個(gè)復(fù)雜度超過幾輪的 Agent 經(jīng)常陷入循環(huán)困境,目標(biāo)漂移等各式各樣的問題。
而學(xué)術(shù)界也想在顯式推理方面有所推動(dòng)所以如何把問題展開進(jìn)行顯示提示成為了大家的共識(shí),COT/TOT/GOT 開始百花齊放。
姚期智老師團(tuán)隊(duì)一直致力于把思維轉(zhuǎn)化為有向無(wú)環(huán)圖,而 Google 則希望思考表示能夠更具推理的兼容性表示,于是用自然語(yǔ)言展開推理成為了西方學(xué)界的選擇。
同時(shí)一些苗頭開始讓大家發(fā)現(xiàn),大模型需要「顯式」的提示,而不要默認(rèn)模型內(nèi)部的能力,會(huì)在缺少「提示」的情況下生效。隨后的大量實(shí)驗(yàn),以及實(shí)用主義原則表明 CoT 對(duì)模型參數(shù)量的要求相對(duì)較低,當(dāng)模型參數(shù)達(dá)到 100 億時(shí)即可顯著受益,而 ToT(思維樹)和 GoT(思維圖)需要更大規(guī)模的模型(如千億級(jí))才能有效支撐復(fù)雜的分支或圖結(jié)構(gòu)推理。
這使得 CoT 更適用于快速驗(yàn)證。同時(shí)推理結(jié)構(gòu)(「問題→分步推導(dǎo)→答案」)天然適配數(shù)學(xué)計(jì)算、常識(shí)推理等基礎(chǔ)任務(wù),而 ToT 和 GoT 需要針對(duì)特定任務(wù)設(shè)計(jì)評(píng)分函數(shù)或圖交互規(guī)則,泛化成本較高,慢慢退出歷史舞臺(tái)。
智能體技術(shù)也得益于該類實(shí)踐在后續(xù)的工業(yè)化生產(chǎn)中,思考模型開始發(fā)揮收益,但還不是在 2023 年。 也有人不信邪,2023 年 Cognition 也在加州成立了。
Scott Wu:3 屆 IOI 金牌得主,開始瞄準(zhǔn) Agent 帶來(lái)的結(jié)構(gòu)性變革的臨界點(diǎn)發(fā)起沖擊。
02第二階段:Claude 3.5 Sonnet 出現(xiàn),徹底改變AICoding
2024 年的開年,OpenAI 一記重磅的 Sora 震撼了世界,但這些和一邊冰山一邊火焰的 Code, 其實(shí)沒什么關(guān)系。更多的是啟發(fā)了世界模型的 Idea。
在大型語(yǔ)言模型興起之前,Agent 的研究熱點(diǎn)主要集中在強(qiáng)化學(xué)習(xí)領(lǐng)域。其中最著名的例子莫過于 AlphaGo/Zero,它通過與收斂的即時(shí)反饋環(huán)境進(jìn)行互動(dòng)學(xué)習(xí),在圍棋任務(wù)中展現(xiàn)出超乎人類的智能。
但決策樹,蒙特卡洛+強(qiáng)化學(xué)習(xí)結(jié)合的范式其實(shí)不具備任務(wù)泛化能力。
2024 年中,一個(gè)模型的發(fā)布改變了這一切,而這次主角卻不是 OpenAI。「Claude 3.5 Sonnet」正式上線。
基準(zhǔn)任務(wù)
Claude 3.5 Sonnet
GPT-4o
Gemini 1.5 Pro
HumanEval (代碼生成)
93.70%
90.20%
71.90%
SWE-bench Verified (軟件工程)
49.00%
~40%
N/A
AgenticCoding Evaluation (代理編碼)
64%
~50% (o1-preview)
N/A
MATH (數(shù)學(xué)求解代碼相關(guān))
71.10%
76.60%
72%
可以看到 200K 的窗口和平均 10%以上的指標(biāo)提升讓 Claude3.5 成為了現(xiàn)象級(jí)的模型。同時(shí)一些官方的 feature 也讓應(yīng)用更上一層樓:
Agentic 行為:集成反射、工具使用、規(guī)劃和多代理協(xié)作,支持動(dòng)態(tài)適應(yīng)環(huán)境。
基準(zhǔn)領(lǐng)先:在 GPQA(研究生推理)上 65.0%(vs GPT-4o 的 53.4%),并在多模態(tài)代理(如視覺理解)上提升。
實(shí)用創(chuàng)新:Artifacts 和 computer use 功能使代理更互動(dòng),用戶視其為「協(xié)作伙伴」
無(wú)論從產(chǎn)品形態(tài)還是基礎(chǔ)模型迭代方向當(dāng) Anthropic 在 Agentic World Ready 大踏進(jìn)一步的時(shí)候,彼時(shí) Sam Altman 在發(fā)布 4o 之后還兜售他的 AGI RoadMap,卻無(wú)視了 4o 在實(shí)際的生產(chǎn)力場(chǎng)景里比 Claude 已經(jīng)開始落后。Claude 已經(jīng)在工具使用和多步規(guī)劃上更強(qiáng),尤其在科學(xué)代理任務(wù)(如 Olympic Level 的物理/化學(xué)/生物)中勝出。也就是說在這個(gè)時(shí)間點(diǎn),Sonnet 3.5 就是世界上寫代碼最強(qiáng)的,記憶力最好,也最會(huì)干活的模型。這帶來(lái)了一系列的變化。
這個(gè)時(shí)點(diǎn)大量的代碼類/Agent 應(yīng)用統(tǒng)一從 OAI 遷移接入了 Sonnet3.5,開始了下一輪狂奔。
Cursor
在 Claude3.5 出現(xiàn)之前,cursor 一直被視為免費(fèi)的 GPT 入口,其業(yè)務(wù)價(jià)值被擠壓的很嚴(yán)重,前面有微軟 VSCODE 官方做技術(shù)封堵,后面有其他的競(jìng)爭(zhēng)對(duì)手和慘淡的成本支出狀況。但接入之后情況發(fā)生了翻天覆地的變化。
用戶基數(shù)的指數(shù)級(jí)增長(zhǎng):日活躍用戶三個(gè)月增長(zhǎng)了十倍,ARR 迅速突破$100M,創(chuàng)下 SaaS 領(lǐng)域增速紀(jì)錄。
公司估值的大幅飆升:迅速攀升至近百億美元。
企業(yè)市場(chǎng)滲透率的深化:被超過半數(shù)的《財(cái)富》500 強(qiáng)公司采用。
那么量化的看實(shí)際效率提升了多少呢:
用戶案例顯示,Cursor+Claude 組合將開發(fā)效率提升 3-4 倍。例如,某團(tuán)隊(duì)在 10 天內(nèi)完成 3000 行代碼的跨端組件重構(gòu),效率提升 30%,并自動(dòng)生成 600+測(cè)試用例。
復(fù)雜任務(wù)處理能力增強(qiáng):Claude 的 Agentic 異步開發(fā)模式支持自動(dòng)拆解任務(wù)、調(diào)試和記憶管理,使端到端項(xiàng)目構(gòu)建成功率大幅提高,減少人工干預(yù)需求。
作為開源轉(zhuǎn)向閉源的主要玩家主打「主動(dòng)型代理 IDE」(Agentic IDE),依賴 Claude 模型構(gòu)建技術(shù)壁壘,對(duì)標(biāo) Cursor 和 GitHub Copilot,在接入 Claude 3.5 后:
用戶規(guī)模激增:2024 年底「ARR 達(dá) 1200 萬(wàn)美元」,付費(fèi)用戶增長(zhǎng)主要依賴 Claude 模型口碑。
2024 年 3 月 12 日,初創(chuàng)公司 Cognition AI 正式推出全球首個(gè) AI 軟件工程師 Devin,宣稱其具備端到端獨(dú)立開發(fā)能力
在 SWE-bench 基準(zhǔn)測(cè)試中,無(wú)輔助解決 13.86%的編程問題,遠(yuǎn)超 Claude-2(4.8%)和 GPT-4(1.74%)14。
支持全棧開發(fā)、自動(dòng)部署、BUG 修復(fù)及 AI 模型訓(xùn)練 37。
贏得高盛、花旗、MongoDB 等大客戶,客戶反饋稱可節(jié)省數(shù)百萬(wàn)美元開發(fā)成本。
五個(gè)月后估值攀升至「20 億美元」成為獨(dú)角獸,我們看看站在2024 年底 Coding 的主要玩家:
公司/產(chǎn)品
最高估值(2024年底)
Cursor
26億美元
由Thrive Capital和a16z領(lǐng)投
Windsurf
12.5億美元
前身為Codeium,由General Catalyst領(lǐng)投
Devin
約20億美金
商業(yè)化定價(jià)500美元/月(企業(yè)版)
Replit
約30億美金
2025年7月估值達(dá)30億美元,但2024年底數(shù)據(jù)未公開
設(shè)計(jì)模式的詛咒
在形勢(shì)一片大好的情況下一朵陰云也橫在了所有 Code 產(chǎn)品的臉上。
設(shè)計(jì)模式帶來(lái)的 Token 消耗增量。
以筆者公司為例在 2024 年中實(shí)際上再以 workflow + loop 的方式構(gòu)建了一套非常復(fù)雜的 code agent 設(shè)計(jì)。
這套設(shè)計(jì)在當(dāng)時(shí),已經(jīng)能夠自己分析一篇文檔, 進(jìn)行自動(dòng)化測(cè)試,然后自主的完成一整個(gè) python 工程,隨后打包為 pypi package 以及推送到 git。
但 agent 設(shè)計(jì)模式的復(fù)雜化,使得單一任務(wù)的 token 消耗量 1 round / 百萬(wàn) token 起步。算上實(shí)際的迭代輪次。一次任務(wù)的 token 消耗日常出現(xiàn)千萬(wàn) level 的消耗水平。這還是我們自己在任務(wù)完成比例不及最高水平的情況下。
我們目光再次再回到 Cursor。
按 Claude Sonnet 3.7 的 API 價(jià)格計(jì)算(輸入 3/百萬(wàn) token,輸出 15/百萬(wàn) token),單用戶日均成本可能在 10?50 區(qū)間。
高頻用戶甚至可達(dá)每天$100 以上。對(duì)于筆者而言個(gè)人體驗(yàn),在 Claude3.7 時(shí)代,極限情況「一天」消耗了「125 美金」的 token。但 cursor 的訂閱費(fèi)誰(shuí)還記得是多少嗎?「20 美金」
而早早的就明白這個(gè)道理的 Cognition,Scott 則乖乖的把價(jià)格定在了[500 美金/月] or [pay as you go]。
我也統(tǒng)計(jì)了市場(chǎng)上 Vibe Coding 的成本情況。
可以看到只要和代碼有關(guān),極端的「壞用戶」會(huì)讓整個(gè)商業(yè)模式瞬間崩塌。按照筆者計(jì)算如果我一個(gè)月寫 22 天代碼,會(huì)給 cursor 造成「8000 美金」的損失。
但要記住對(duì)于 AI 來(lái)講,「事實(shí)不可怕」,「趨勢(shì)才可怕」,這張圖里面并沒有統(tǒng)計(jì)那個(gè) token 黑洞「devin」。
對(duì)于復(fù)雜任務(wù)而言,如何在「交付質(zhì)量」和「token 成本」之間平衡才是關(guān)鍵。而上一代的產(chǎn)品通通在這個(gè)角度成為了強(qiáng)弩之末。
03第三階段:開源選手進(jìn)入,Coding 商業(yè)模式崩塌
AI 時(shí)代什么最稀缺呢?各種層面「Attention」is all your need。那么注意力資源是怎么流動(dòng)的呢?
在 2025 年開年幻方的「DeepSeek」給出了自己的答案。DeepSeek R1 精準(zhǔn)卡位 Qwen 發(fā)布和春節(jié),迅速引爆了大模型市場(chǎng)。在此之前,馬斯克的 XAI 已經(jīng)開始走上了仙途,20 萬(wàn)卡集群準(zhǔn)備大力出奇跡。國(guó)內(nèi)基座模型一片人心惶惶。而 DeepSeek 用 GRPO 算法和一系列深度優(yōu)化,給所有人上了一課。
而 R1 支持輸出完整推理鏈(如「思考-回答」模板),用戶可追溯決策邏輯。效果比肩 O1。
最關(guān)鍵是媒體宣稱訓(xùn)練成本僅 550 萬(wàn)美元(行業(yè)平均 1/10),這種新聞迅速戳中了市場(chǎng)的 G 點(diǎn)。在算子和推理方面的推理優(yōu)化也帶來(lái)了成本的顯著降低。
API 定價(jià):輸入 tokens 1 元/百萬(wàn)(緩存命中),輸出 16 元/百萬(wàn),成本僅為 OpenAI o1 的 1/20-1/30。
最關(guān)鍵的是「開源」。
遙想在僅僅幾個(gè)月之前,在 2024 年及更早時(shí)期,智譜部分企業(yè)級(jí)閉源模型(如 GLM-3-Turbo)曾采用定制化商業(yè)授權(quán)模式,對(duì)大型企業(yè)客戶收取「1200 萬(wàn)人民幣」,主要用于私有化部署和技術(shù)支持。
現(xiàn)在這個(gè)商業(yè)模式直接不存在了,隨后到了 GLM4.5 時(shí)代,全部模型也跟著改為了全面遵循 MIT 開源協(xié)議。
同期吵得沸沸揚(yáng)揚(yáng)的星際之門,讓孫正義變成了「沸羊羊」。
在一夜之間所有代碼工具都接入了 DeepSeek R1 作為備選項(xiàng)。
但我們還是需要再次發(fā)出靈魂拷問:「Cursor 每個(gè)月問我收多少錢我就愿意了?」
我的心里預(yù)期大概是「100 美金」,不知道這個(gè)值對(duì)于讀者來(lái)說算高還是低。因?yàn)橹辽佟竏evin」的「500 美金」我在訂閱了幾個(gè)周期之后心理博弈了一番評(píng)估之后還是取消了訂閱,雖然這個(gè)不是一個(gè)類別的產(chǎn)品,成本結(jié)構(gòu)也完全不一致。
但是從決策和評(píng)估角度而言,我認(rèn)為「100-200 美金/M」是大多數(shù)人對(duì)「Vibe Coding」價(jià)值認(rèn)同的極限值。當(dāng)然數(shù)字程序員就另說了,這是另一個(gè)維度的交付需求。
那么「趨勢(shì)到底是什么?」我也統(tǒng)計(jì)了過去兩三年基礎(chǔ)模型的價(jià)格趨勢(shì)。年均 90%的價(jià)格降幅其實(shí)并沒有問題, 但是忽略了一個(gè)事實(shí):「大家都想用最好的模型」。
不可否認(rèn)過去兩三年 SOTA 模型的價(jià)格還是卡在了 10^1 這個(gè)水平線上,實(shí)際上追求頂尖性能的 Code 應(yīng)用(或者說最具生產(chǎn)力的),就是實(shí)際的,妥妥的「成本爆炸」。
這個(gè)路徑從 GPT4o→claude3.5/3.7/→Gemini 2.5 Pro → claude4 → GPT5 價(jià)格從來(lái)并未真正的收斂,同時(shí)大量的集中流量使得各家的服務(wù)性能直線下降,比如 AWS Bedrock claude 4 的服務(wù)就在一個(gè)短時(shí)間內(nèi)被多次打爆。
從服務(wù)質(zhì)量上談,模型在上線之后會(huì)逐漸經(jīng)歷量化模型性能下降,推理性能提升的 trade off 調(diào)整過程。導(dǎo)致模型剛發(fā)布好評(píng)如潮,一段時(shí)間之后就開始降本增笑,尤其是國(guó)內(nèi)的某些廠商,一邊降本增笑,一邊瘋狂投流買量,導(dǎo)致整體口碑迅速崩塌,被邊緣化。競(jìng)爭(zhēng)的馬太效應(yīng)又讓這些廠商進(jìn)入死亡螺旋。
在這個(gè)邏輯下我們可以做一個(gè)簡(jiǎn)單的理想化的預(yù)測(cè),我們先假定:
當(dāng)前的 claude4 和 gpt4 是足夠未來(lái)兩年的 code agent 場(chǎng)景使用的模型
大家不再選擇更好的模型/或者更好的模型價(jià)格也能下降 90%。
設(shè)計(jì)模式帶來(lái)的 token 消耗每年只增長(zhǎng) 30%(這是在假定現(xiàn)在的設(shè)計(jì)模式和附帶的代碼倉(cāng)庫(kù)分析技術(shù)路徑已經(jīng)收斂,實(shí)際上沒有。)
那么,情況會(huì)是這樣:
OK,你也看得出來(lái),這個(gè)非常理想化的預(yù)測(cè)實(shí)際上沒有什么現(xiàn)實(shí)意義。那么古爾丹,代價(jià)到底是什么?我們用現(xiàn)實(shí)世界的數(shù)據(jù)再來(lái)計(jì)算一次。
可以看到完全的偏離,現(xiàn)實(shí)的商業(yè)失敗案例:
Claude Code:$200/月無(wú)限制→用戶月消耗 100 億 tokens→成本$25,000→失敗回滾
Windsurf:token 消耗過高→倒閉賣資產(chǎn)
Cursor:被迫發(fā)布"重要定價(jià)更新"
Anthropic Max:$200/月無(wú)限制→同樣失敗
我們?cè)O(shè)定了 100-200 美金這個(gè)區(qū)間,和一個(gè)正常程序工作者的生產(chǎn)行為帶來(lái)的 token 成本。但是可以看到大部分的場(chǎng)景里,在當(dāng)下都沒法覆蓋這個(gè)成本。這一切要回溯到 AI 經(jīng)濟(jì)學(xué)的根本復(fù)雜性:
非線性成本演進(jìn):技術(shù)進(jìn)步不等于成本下降
用戶行為變化:從節(jié)約使用轉(zhuǎn)向無(wú)限消耗
能力-成本螺旋:更強(qiáng)能力→更多使用→更高成本
商業(yè)模式革命:訂閱模式的成立很大比例基于 CPU 服務(wù)時(shí)代的邊際效應(yīng)帶來(lái)的收斂。而英偉達(dá)的 4 萬(wàn)億市值擺在前面,傳統(tǒng)訂閱模式已經(jīng)不適用AI時(shí)代。
而如果我們以最合理的迭代方式,考慮只使用當(dāng)下最新的 SOTA 基座模型+ 不斷進(jìn)步的 context engineering + 每個(gè)時(shí)間點(diǎn)的 SOTA 基座模型推理成本相比前一年下降 90%。 可以看到這個(gè)收斂和平衡區(qū)間基本在 2028 年之后了。除了幾個(gè)變量要考慮:
AIPC 類似 395MAX 這類芯片支持千億級(jí)別模型本地 TPS100 以上推理。
基礎(chǔ)模型推理技術(shù)革命,不再依靠量化降低成本。
但這兩個(gè)變量在我看來(lái),和基座模型廠商的進(jìn)度,無(wú)不需要三年以上時(shí)間,那么現(xiàn)在的 Code Agent 從業(yè)的目標(biāo)就很明確了:「帶著你的用戶,茍到 2028 年別死,將會(huì)誕生一個(gè)或幾個(gè)千億美金?!?/p>
04第四階段:范式轉(zhuǎn)換,Workflow 到 CLI Code Agent
隨著大模型的技術(shù)進(jìn)展和各家 foundation model 的盈利壓力,技術(shù)向內(nèi),商業(yè)化向外從技術(shù)上有開始了進(jìn)一步的擴(kuò)展。
OpenAI,GoogleGemini,Claude 分別推出了 CLI Code Agent。這種 CodeAgent 以簡(jiǎn)單的 Agent Loop 實(shí)現(xiàn)和更依賴模型本身能力完成長(zhǎng)時(shí)間的自主工作能力為主要設(shè)計(jì)目標(biāo)。
相比顯式的 workflow,屬于力大磚飛,之前的 workflow 中冗余,以及大量嘗試解決模型自身問題的努力,極大程度的被整體覆蓋了。
例如,Claude Code 可連續(xù)工作 7 小時(shí),自主重構(gòu)多文件代碼庫(kù)、修復(fù) Bug 并生成提交信息。Gemini CLI 支持 100 萬(wàn) Token(約 75 萬(wàn)字),可分析整個(gè)小型項(xiàng)目代碼庫(kù)。
主要區(qū)別如下:
維度
傳統(tǒng)代碼工具
新一代 Agentic Code CLI
能力范圍
代碼片段補(bǔ)全
全流程任務(wù)執(zhí)行(編碼、調(diào)試、部署)
交互模式
被動(dòng)響應(yīng)式建議
主動(dòng)規(guī)劃與多輪協(xié)作
上下文管理
局部文件片段
項(xiàng)目級(jí)架構(gòu)理解 + 超長(zhǎng)上下文
集成深度
IDE 插件
開發(fā)工具鏈原生融合
經(jīng)濟(jì)模型
訂閱制
按量付費(fèi)/免費(fèi)+開源策略
不久之后,國(guó)產(chǎn)的 Qwen 也 Folk 了 Gemini CLI 項(xiàng)目魔改為了 QwenCode,雖然工程移植的很糙,但是為后續(xù)推出 IDE 產(chǎn)品果然搭建了底座。
隨后阿里也把自己的 VS Code 衍生項(xiàng)目拿了出來(lái)-Qoder。
很明顯到了 2025 年中 code agent 開始了第一波縮圈。
不久之后,Windsurf 傳出了被 OpenAI 收購(gòu)的消息。外界一片嘩然,Claude 官方也因?yàn)榇藦氐追鈿⒘?Windsurf,產(chǎn)品徹底崩壞。
但背靠 OpenAI 還算是好選擇。但定數(shù)之后,狗血讓所有人猝不及防。
7 月 11 日,OpenAI 宣布收購(gòu)排他期結(jié)束,交易因「與微軟的不可調(diào)和矛盾」終止。
Windsurf 陷入危機(jī):產(chǎn)品不穩(wěn)定、合作伙伴撤離、員工士氣崩潰。
同日,谷歌 DeepMind 閃電行動(dòng),以 24 億美元達(dá)成協(xié)議:?雇傭 CEO Varun Mohan、聯(lián)合創(chuàng)始人 Douglas Chen 及核心研發(fā)團(tuán)隊(duì);?獲得 Windsurf 技術(shù)的非獨(dú)家授權(quán),但放棄股權(quán)和控制權(quán)。
Windsurf 員工被自家 CEO 當(dāng)成了狗,這時(shí)候我們的老朋友 Scott 又出場(chǎng)了。
早些時(shí)間 2025 年 3 月:Cognition 完成由 8VC 領(lǐng)投的融資,估值約 40 億美元(約合人民幣 287 億元),員工僅 39 人。
有了余糧,Scott 瞬間支棱買下了 Winsurf 的剩余資產(chǎn),筆者甚至收到了 Scott 的郵件。
收購(gòu)?fù)瓿芍螅?5 年 8 月 15 日,宣布獲得近 5 億美元(約人民幣 36 億元)融資,估值飆升至 98 億美元。
而「智能體程序員」這個(gè)賽道因?yàn)榻桓缎螒B(tài)的難度,如果這個(gè)產(chǎn)品形態(tài)能夠在 2028 年之前就收斂,那市場(chǎng)邏輯也將完全不一樣,但我個(gè)人還是持謹(jǐn)慎態(tài)度。當(dāng)然 devin 的產(chǎn)品機(jī)制其實(shí)有利于他們朝著這個(gè)方向改進(jìn)。
05AI Coding 護(hù)城河的核心:
Knowledge Suggestion
其中一個(gè)重要的 feature 就是「Knowledge Suggestion」。
這個(gè) feature 的主要功能就是在人類和 agent 協(xié)作的過程中,自發(fā)地抽取「方法論,行為準(zhǔn)則」然后通過人類對(duì)于這些確認(rèn)的行為打標(biāo),以結(jié)構(gòu)化管理的方式創(chuàng)造「數(shù)字分身」。
而不久以后,同樣的,大量的產(chǎn)品將會(huì)跟進(jìn)這個(gè) feature。比如知名的某 World First 不如 Genspark:
類似 Knowledge Suggestion 的業(yè)務(wù)數(shù)據(jù)閉環(huán),是護(hù)城河的核心組成部分,這和設(shè)計(jì)模式 Agentic UI、WebSim、CLI 是「道」與「術(shù)」的區(qū)別。
這也是這個(gè)階段的大模型該服務(wù)于哪些人的一個(gè)重要啟示。靈魂質(zhì)問:抽取普通人的行為準(zhǔn)則,這算的過來(lái)賬嗎?
說難聽的就是買三萬(wàn)五的相機(jī),花 120 六張的膠卷,記錄一個(gè)月三千五的吃喝拉撒。
這種意義只存在夢(mèng)里。那我們看看誰(shuí)的工作最值錢?誰(shuí)的認(rèn)知最值錢?
技術(shù)領(lǐng)域
中國(guó)市場(chǎng)
美國(guó)市場(chǎng)
AI芯片設(shè)計(jì)
高級(jí)工程師:50-150萬(wàn)元/年算法工程師:40-100萬(wàn)元/年平均月薪:2.3萬(wàn)元
高級(jí)工程師:15-35萬(wàn)美元/年頂級(jí)專家:可達(dá)90萬(wàn)美元/年
生物技術(shù)制藥
藥物合成工程師:15.6萬(wàn)元/月研發(fā)技術(shù)崗:月薪1.4-2.5萬(wàn)元博士綜合收入:32萬(wàn)元/年
平均薪酬中位數(shù):20萬(wàn)美元/年薪資增長(zhǎng)率:9%頂級(jí)企業(yè)可達(dá)67萬(wàn)美元/年
量子計(jì)算
研究員:45-75萬(wàn)元/年頂級(jí)研究院年薪:70萬(wàn)元起博雅博士后:20萬(wàn)元/年
量子計(jì)算工程師:10-15萬(wàn)美元/年量子物理學(xué)家:15.2萬(wàn)美元/年資深研究員:可達(dá)25萬(wàn)美元/年
新能源技術(shù)
電氣工程師:35-55萬(wàn)元/年新能源技工:8千-1.5萬(wàn)元/月智駕工程師供需比僅0.38
清潔能源專家:9.5-13.5萬(wàn)美元/年風(fēng)電工程師:時(shí)薪75美元新能源工程師:12-20萬(wàn)美元/年
金融科技/區(qū)塊鏈
區(qū)塊鏈高級(jí)開發(fā):20-35萬(wàn)元/年區(qū)塊鏈研發(fā)工程師:30-50萬(wàn)元平均招聘薪酬:1.6萬(wàn)元/月
區(qū)塊鏈開發(fā)者:10.5-25萬(wàn)美元/年智能合約開發(fā):10.5-25萬(wàn)美元/年Web3高級(jí)職位:可達(dá)50萬(wàn)美元/年
人工智能通用
博士:35-50萬(wàn)元/年碩士:不低于25萬(wàn)元/年DeepSeek核心工程師:6-9萬(wàn)元/月
初級(jí)AI工程師:10-14萬(wàn)美元/年中級(jí)AI研究員:18-28萬(wàn)美元/年高級(jí)AI科學(xué)家:35-60萬(wàn)美元/年頂級(jí)專家:超1000萬(wàn)美元/年
在這個(gè)體系下我們看到我們的「目標(biāo)用戶」也呼之欲出了,而「目標(biāo)用戶」和「好用戶」又通常不完全重合。
在生產(chǎn)力領(lǐng)域,將來(lái)無(wú)論是所謂的通用 Agent,還是垂直 Agent,當(dāng)執(zhí)行變得廉價(jià)的時(shí)候,「術(shù)」真的不再重要了,重要的是如何獲得「道」:找到那群工作足夠值錢,認(rèn)知足夠值錢的人,幫他們創(chuàng)造十倍一百倍的價(jià)值,和提高十倍一百倍以上的效率。才是我們需要思考的核心。
同時(shí)在生成式的世界里,「本」與「真」會(huì)成為剛需。一個(gè)記錄「本」和「真」的畫卷才是通向未來(lái)的金鑰匙。
轉(zhuǎn)載原創(chuàng)文章請(qǐng)?zhí)砑游⑿牛篺ounderparker
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.