網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

相信大模型成本會下降，才是業(yè)內(nèi)最大的幻覺

2025-08-19 16:14:34　來源: FounderPark

北京舉報

分享至

很多 AI 創(chuàng)業(yè)者都篤信一件事——模型會降價。

只要模型降價，成本就會下降，今天勉強打平甚至虧損的收入狀況，就會有好轉。

生意就能做下去。

連 a16z 都在說，大語言模型（LLM）成本正以每年 10 倍的速度下降。

問題是，模型真的一直在降價嗎？

Substack 專欄《mandates》的這篇文章，則認為模型成本其實并沒有在下降?！?strong>成本下降 10 倍是真實存在的，但僅限于那些性能老舊的模型。」

「市場的需求永遠只針對最好的語言模型。而最好模型的成本始終大致相同。」

如果現(xiàn)狀就是這樣，AI 創(chuàng)業(yè)的商業(yè)模式要怎么變？文章也進行了探討，或許，又回到了那句老話——AI 創(chuàng)業(yè)，第一天就要考慮盈利。

AI 創(chuàng)業(yè)，Day One 就要出海。如何解決數(shù)據(jù)使用、運營甚至股權結構的合規(guī)化問題，歡迎來參加我們的線上 Workshop。

假設你創(chuàng)辦了一家公司，并且清楚地知道消費者每月的付費意愿上限是 20 美元。你可能會想，這沒關系，是典型的風險投資（VC）打法：按成本收費，犧牲利潤來換增長?？蛻臬@取成本（CAC）、客戶終身價值（LTV）這些賬你都算過了。但有趣的是：你看到了 a16z 這張圖表，大語言模型（LLM）成本正以每年 10 倍的速度下降。

于是你盤算著：現(xiàn)在以 20 美元/月的價格做到收支平衡，明年模型成本降低 10 倍后，利潤率就能飆升到 90%。虧損只是暫時的，盈利是必然的。

這個邏輯簡單到連 VC 助理都能看懂：

第一年：以 20 美元/月實現(xiàn)盈虧平衡
第二年：計算成本下降 10 倍，利潤率達到 90%
第三年：開始挑選游艇

這是一個可以理解的策略：「LLM 推理成本每 6 個月下降 3 倍，我們沒問題。」

然而 18 個月后，利潤率卻前所未有地糟糕。Windsurf 公司已經(jīng)倒閉清算，而 Anthropic 旗下的 Claude Code 也在本周被迫取消了其最初每月 200 美元的無限使用套餐。

行業(yè)仍在「虧損」。模型確實變便宜了，GPT-3.5 的成本只有過去十分之一。但不知為何，利潤率反而變得更差了。

問題出在哪了？

降價的是舊版模型，

但沒人用

GPT-3.5 的價格是比以前便宜了 10 倍，但它也像 iPhone 發(fā)布會上的翻蓋手機一樣無人問津。

當一款新模型作為最先進技術（SOTA）發(fā)布時，99%的市場需求會立刻轉移過去。消費者也期待他們使用的產(chǎn)品能做到這一點。

接著，我們來看看那些前沿模型的實際定價歷史：

發(fā)現(xiàn)規(guī)律了嗎？

當 GPT-4 以 60 美元的價格推出時，即便上一代的 GPT-3.5 便宜了 26 倍，用戶還是毫不猶豫地選擇了前者。
當 Claude 3 Opus 以 60 美元的價格登場時，即便 GPT-4 已經(jīng)降價，人們還是轉而投向了 Claude。

成本下降 10 倍是真實存在的，但僅限于那些性能老舊的模型。

所以，「成本會下降」策略的第一個「支柱」就站不住腳：市場的需求永遠只針對「最好的語言模型」。而最好模型的成本始終大致相同，因為它就代表了當前推理技術的成本邊界。

指著一輛 1995 年的本田思域說「這車現(xiàn)在便宜多了！」完全是文不對題。沒錯，那輛特定的車是變便宜了，但 2025 年款豐田凱美瑞的官方建議零售價依然是 3 萬美元。

當你花時間與 AI 互動時，無論是編程、寫作還是思考，你總會追求最高質(zhì)量。沒有人會打開 Claude 然后想：「要不我還是用那個差一點的版本來給老板省點錢吧?！刮覀兪钦J知上的「貪婪生物」，總想要能得到的最好的「大腦」，尤其當另一端是我們寶貴的時間時。

模型的 token 消耗

遠比我們想象的更多

我們可能會說，「好吧，但這仍在可控范圍內(nèi)，對吧？大不了就一直保持收支平衡？」但這種想法過于樂觀了。

雖然每一代前沿模型的單位 token 價格確實沒有變得更貴，但發(fā)生了另一件更糟糕的事：模型消耗的 token 數(shù)量出現(xiàn)了爆炸式的增長。

過去，ChatGPT 回答一個單句問題，回復也是一句話。而現(xiàn)在，一次「深度研究」會花 3 分鐘規(guī)劃、20 分鐘閱讀，再用 5 分鐘為你重寫報告；Claude 3 Opus 僅僅為了回答一句「你好」，就能運行 20 分鐘。

強化學習（RL）和測試階段計算量（TTC）的激增，導致了一個沒人預料到的結果：AI能處理的任務長度每六個月就翻一番。過去返回 1000 個 token 的任務，現(xiàn)在需要返回 10 萬個。

來源：Metr（數(shù)據(jù)平臺）

按照這個趨勢推演下去，結果會變得非常驚人：

現(xiàn)在，一次 20 分鐘的「深度研究」成本約為 1 美元。到 2027 年，我們將擁有能夠連續(xù)運行 24 小時而不偏離主題的 AI Agent……如果結合前沿模型的固定價格，這意味著單次運行成本高達約 72 美元。而且是每天、每個用戶，并能夠異步運行多個 Agent。

一旦我們能夠部署 AI Agent 異步執(zhí)行 24 小時的工作，我們就不會只給它一個指令然后等待，而是會成批地調(diào)度它們。整個 AI 工作團隊將并行解決問題，消耗 API 的速度堪比 1999 年的互聯(lián)網(wǎng)泡沫時代。

必須強調(diào)的是，每月 20 美元的訂閱費，甚至無法支撐用戶每天進行一次 1 美元的深度研究。但這正是行業(yè)未來的方向。模型能力的每一次提升，本質(zhì)上都是在提升其單次任務能「有效消耗」的計算資源量。

這就像你造出了一臺更省油的發(fā)動機，然后用省下的能效去造了一輛怪獸卡車。沒錯，每加侖油能跑得更遠了，但總油耗也增加了 50 倍。

這就是導致 Windsurf 陷入資金鏈危機的「流動性擠壓（Short Squeeze）」，任何采用「固定費率訂閱 + 高價值高 token 消耗功能」商業(yè)模式的初創(chuàng)公司，都正面臨著同樣的威脅。

200 刀的 Claude Max 會員，

也抵不過「循環(huán) tokens」用法

Anthropic 的 Claude Code 「無限量套餐」實驗，是目前業(yè)內(nèi)應對這場危機最復雜的嘗試。他們幾乎嘗試了所有計策，最終仍以失敗告終。

他們的策略確實相當巧妙：

定價提高 10 倍：當 Cursor 定價 20 美元/月時，Claude Code 定價 200 美元/月，為虧損預留了更多緩沖。
根據(jù)負載自動切換模型：負載過高時，從 Opus 模型（75 美元/百萬 tokens ）切換到 Sonnet 模型（15 美元/百萬 tokens ）；用 Haiku 模型進行閱讀優(yōu)化。這就像 AWS 的自動擴縮容，但服務對象是「大腦」。他們很可能將這種行為直接內(nèi)置于模型權重之中，這將是一種我們可能會看到越來越多的范式轉變。
將計算任務轉移到用戶設備：既然用戶的 CPU 閑置著，何必再啟動自家的沙盒環(huán)境？

然而，即便工程設計如此出色，token 消耗量依舊呈爆發(fā)式增長。

來源：Viberank（數(shù)據(jù)平臺）

一百億個 token，相當于在一個月內(nèi)消耗了 1.25 萬本《戰(zhàn)爭與和平》。

這怎么可能？即使用戶每次運行 10 分鐘，如何能消耗掉 100 億個 token？

事實證明，10 到 20 分鐘的連續(xù)運行時長，剛好夠用戶摸索出「循環(huán) tokens」的用法。一旦 token 消耗與「用戶在應用內(nèi)的時長」脫鉤，消耗就會失控：讓 Claude 執(zhí)行一項任務，檢查成果、重構內(nèi)容、優(yōu)化細節(jié)，循環(huán)往復，直到公司破產(chǎn)。

用戶搖身變成了「API 編排者」，用 Anthropic 的成本，24 小時不間斷地運行代碼轉換引擎。從「聊天交互」到「Agent 自主運行」的演進一夜完成，token 消耗量激增 1000 倍，這是個階段性的突變，而不是漸進式的。

因此，Anthropic 不得不取消無限量套餐。他們本可以嘗試將定價提高到 200 美元/月，但關鍵的教訓不在于「定價不夠高」，而是在這個新世界里，沒有任何訂閱模式能夠提供無限使用權限。

這意味著，在這個新世界里，沒有一個固定的訂閱價格是行得通的。商業(yè)模式的數(shù)學邏輯已徹底崩塌。

都知道要「按量定價」，

但沒人敢先嘗試

這讓其他公司陷入了兩難境地。

每家 AI 公司都知道，基于使用量的定價能救他們，但也知道這不成立。當你以負責任的 0.01 美元/1000 token 定價時，你的競爭對手卻提供每月 20 美元的無限量使用。用戶會選擇誰？

這是典型的「囚徒困境」：

所有人都按使用量計費→ 行業(yè)可持續(xù)發(fā)展
所有人都按固定費率計費→ 陷入「比爛競爭」（race to the bottom）
你按使用量計費，別人按固定費率→ 你獨自出局
你按固定費率計費，別人按使用量→ 你短期獲勝（之后仍會出局）

因此，所有人都選擇了「背叛」。所有人都補貼重度用戶，發(fā)布指數(shù)級增長的圖表，并最終發(fā)布「重要的定價調(diào)整」公告。

Cursor、Lovable、Replit，它們都清楚其中的數(shù)學邏輯。但它們選擇了「當下求增長，未來求盈利，把破產(chǎn)問題留給下一任 CEO」。

說實話這或許是對的。在「圈地運動（land grab）」中，市場份額比利潤率更重要。只要風險投資還愿意持續(xù)注資。

不妨問問 Jasper 公司，當資金鏈斷裂時，會發(fā)生什么？

如何找到合適的商業(yè)模式？

有沒有可能避開「token 流動性擠壓」？

最近有傳言稱，Cognition 正以 150 億美元的估值進行融資，而其年度經(jīng)常性收入（ARR）據(jù)稱不到 1 億美元（我猜可能更接近 5000 萬美元）。相比之下，Cursor 在 ARR 達到 5 億美元、增長曲線更陡峭的情況下，也僅獲得了 100 億美元的估值。Cognition 的收入不及 Cursor 的八分之一，估值卻是其 1.5 倍。風險投資公司掌握了哪些我們不知道的信息？兩家公司都主打「AI coding Agent」，難道 Cognition 找到了跳出「死亡螺旋」的方法？

目前有三種可能的出路：

從一開始就采用「按使用量計費」沒有補貼，沒有「先獲取、后變現(xiàn)」的說法，只有誠實的經(jīng)濟模式。這在理論上聽起來很棒。

但問題是：我們現(xiàn)在找不到任何一個采用「按使用量計費」且實現(xiàn)爆發(fā)式增長的消費級 AI 公司？消費者討厭計量收費。他們寧愿為無限量套餐多付錢，也不愿意被意料之外的賬單嚇到。每一個成功的消費者訂閱服務，Netflix、Spotify、ChatGPT，都是包月制。一旦你引入計量收費，增長就會停滯。

建立極高的切換成本，從而獲得高利潤率這是 Devin 的看好的方向。他們最近宣布了與花旗銀行和高盛的合作，將 Devin 部署到每家公司的 4 萬名軟件工程師中。按每月 20 美元計算，這是一個千萬美元級別的項目。但問題來了：你更愿意從高盛獲得 1000 萬美元的 ARR，還是從專業(yè)消費級開發(fā)者那里獲得 5 億美元？答案是明顯的：長達六個月的落地實施、合規(guī)審查、安全審計、繁瑣的采購流程，意味著從高盛那里拿到的收入雖然難以爭取，但一旦到手，客戶就幾乎不會流失。你只有在銀行的唯一決策者將自己的聲譽押注在你身上時，才能簽下這些合同，而所有人都會竭盡全力確保項目成功。這也是為什么除了科技巨頭外，最大的軟件公司幾乎都是「核心系統(tǒng)服務商」，例如客戶關系管理（CRM ）、企業(yè)資源計劃（ERP ）、電子健康記錄（EHR）系統(tǒng)。它們的利潤率都能達到 80%-90%，因為客戶切換成本越高，對價格的敏感度就越低。當競爭對手出現(xiàn)時，你的產(chǎn)品早已經(jīng)深度嵌入到客戶的業(yè)務流程中，切換供應商需要再經(jīng)歷一個為期六個月的銷售周期。不是不能換，而是客戶的 CFO 寧愿辭職，也不愿再經(jīng)歷一次供應商評估。

進行垂直整合，從基礎設施上盈利這是 Replit 的玩法：將代碼 AI 工具與應用托管、數(shù)據(jù)庫管理、部署監(jiān)控、日志記錄等服務捆綁銷售。在每個 token 上虧一點錢，但在新一代開發(fā)者的技術棧中，從其他所有環(huán)節(jié)捕獲價值。看看 Replit 的垂直整合程度就知道了。

來源：@mattppal（推特用戶）

將 AI 作為「引流品」，推動用戶使用其具有「類 AWS」競爭力的其他服務。你賣的不是「推理服務」，而是其他所有服務，推理成本只是營銷開支。這個模式的巧妙在于，代碼生成自然會增加對托管服務的需求。每個應用都需要運行環(huán)境，每個數(shù)據(jù)庫都需要管理，每次部署都需要監(jiān)控。就讓 OpenAI 和 Anthropic 去把推理服務的價格競爭到零，你去做別的事情。

那些仍在堅持「固定費率、不計成本增長」模式的公司？它們只是「行走的僵尸」，只不過它們的葬禮定在了今年第四季度，并且成本高昂。

結語

我們不斷地看到有創(chuàng)始人引用「模型明年會便宜 10 倍！」這種說法。但到那時，用戶會期望得到 20 倍以上的回報。

還記得 Windsurf 嗎？由于 Cursor 帶來的對盈虧平衡的壓力，他們根本找不到方法破局。即便是像 Anthropic 這樣的公司，擁有全球最垂直整合應用層，也無法讓一個提供無限使用量的固定訂閱模式運轉起來。

雖然《levered beta is all you need》文章的核心結論：「早入局勝過聰明」，仍然成立，但「沒有規(guī)劃地早入局」，只會更早地失敗。谷歌不會為「負利潤率業(yè)務」開出 24 億美元的支票；當「以后再說」意味著你的 AWS 賬單已經(jīng)超過你的收入時，「以后」便不復存在。

那么，在這樣的環(huán)境下該如何創(chuàng)業(yè)？簡而言之，成為「新云廠商」（neocloud ）。至少，模型明年的成本會降至 1/10。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.