出品|虎嗅科技組
作者|陳伊凡
編輯|苗正卿
頭圖|視覺中國(guó)
在 AI 芯片領(lǐng)域,英偉達(dá)憑借強(qiáng)大的訓(xùn)練芯片性能牢牢占據(jù)市場(chǎng)霸主地位,短期內(nèi)難逢敵手。然而,隨著 AI 推理市場(chǎng)的爆發(fā)式增長(zhǎng),這塊利潤(rùn)驚人的 “蛋糕” 吸引了眾多科技巨頭與初創(chuàng)公司入局。
Rivos是其中一個(gè)。8月13日,這家位于美國(guó)加州的初創(chuàng)公司被曝正在尋求一筆4億美元到5億美元的融資。如果這筆融資敲定,那么Rivos自其2021年成立以來,融資總金額將超過8.7億美元,也是迄今為止尚未大規(guī)模量產(chǎn),卻獲得最大融資額的芯片初創(chuàng)公司之一。而這家芯片公司的背后投資者之一,是英特爾首席執(zhí)行官陳立武。
這些初創(chuàng)公司和科技巨頭,為何選擇從推理側(cè)狙擊英偉達(dá)?它們又如何憑借差異化技術(shù)與成本優(yōu)勢(shì)撕開壟斷缺口?
推理需求暴漲
在人工智能的世界里,訓(xùn)練與推理猶如驅(qū)動(dòng)行業(yè)發(fā)展的雙引擎,共同塑造著技術(shù)演進(jìn)與市場(chǎng)競(jìng)爭(zhēng)的格局。
訓(xùn)練,堪稱 AI 系統(tǒng)的 “啟蒙教育” 階段。它如同培育一個(gè)懵懂孩童,通過海量數(shù)據(jù)投喂與高強(qiáng)度的算法訓(xùn)練,讓 AI 模型從一無所知成長(zhǎng)為能夠應(yīng)對(duì)復(fù)雜任務(wù)的 “智能體”。這一過程不僅成本高昂,往往需要強(qiáng)大的算力支撐與巨額資金投入。這個(gè)過程耗時(shí)漫長(zhǎng),一次完整的訓(xùn)練周期可能長(zhǎng)達(dá)數(shù)月甚至數(shù)年。更關(guān)鍵的是,它具有明顯的一次性特征,每一次訓(xùn)練都是全新的探索,難以復(fù)用。
而推理,則是 AI 技術(shù)的 “實(shí)戰(zhàn)應(yīng)用” 環(huán)節(jié)。當(dāng) AI 模型完成訓(xùn)練、積累了足夠的知識(shí)后,推理便負(fù)責(zé)將這些知識(shí)轉(zhuǎn)化為實(shí)際生產(chǎn)力,用于解決現(xiàn)實(shí)世界中的各類問題。
在生成式 AI 時(shí)代,技術(shù)架構(gòu)迎來重大變革。以 Transformer 為代表的AI架構(gòu),讓基礎(chǔ)模型訓(xùn)練趨向穩(wěn)定和固化。就像搭建好一座堅(jiān)固的大廈,后續(xù)只需進(jìn)行局部修繕與優(yōu)化,無需頻繁重建,極大降低了重復(fù)訓(xùn)練的成本。在這種情況下,推理成為持續(xù)創(chuàng)造價(jià)值的關(guān)鍵,如同永不停歇的生產(chǎn)線,不斷調(diào)用模型能力,滿足不同的場(chǎng)景和服務(wù)。
從商業(yè)視角看,訓(xùn)練階段如同高風(fēng)險(xiǎn)的 “資本賭局”。巨額的研發(fā)投入與漫長(zhǎng)的回報(bào)周期,使得只有少數(shù)科技巨頭具備入場(chǎng)資格,且投入產(chǎn)出比充滿不確定性。
而推理階段則搖身一變,成為 AI 產(chǎn)業(yè)的 “現(xiàn)金印鈔機(jī)”。廣為人知的 AI 應(yīng)用,無一不是通過向用戶收取推理服務(wù)費(fèi)實(shí)現(xiàn)盈利。
根據(jù)第三方機(jī)構(gòu)Verified Market Research的數(shù)據(jù),AI推理芯片市場(chǎng)正在經(jīng)歷爆發(fā)式增長(zhǎng),2023年市場(chǎng)規(guī)模為158億美元,預(yù)計(jì)到2030年規(guī)模將達(dá)到906億美元。
市場(chǎng)需求與商業(yè)收入在此形成良性循環(huán),推理需求越旺盛,企業(yè)營(yíng)收越高,進(jìn)而吸引更多資源投入,推動(dòng)技術(shù)迭代升級(jí)。這也不難理解,為何英偉達(dá)數(shù)據(jù)中心 40% 的收入都源自推理業(yè)務(wù)。
推理成本的大幅下降是市場(chǎng)增長(zhǎng)的最主要驅(qū)動(dòng)力之一,根據(jù)斯坦福大學(xué)2025年AI指數(shù)報(bào)告,在短短18個(gè)月內(nèi),AI推理成本從每百萬token 20美元暴跌至0.07美元,下降了280倍。硬件層面,企業(yè)AI硬件成本每年下降30%,能源效率每年提高40%。
算法優(yōu)化技術(shù)如量化、稀疏化和蒸餾等顯著降低了模型的計(jì)算復(fù)雜度和內(nèi)存需求。有資深投資人就曾向虎嗅表示,現(xiàn)在有效的互聯(lián)網(wǎng)數(shù)據(jù)存量已經(jīng)被使用得差不多了,它的更新是有限的,最終的增長(zhǎng)肯定是推理,推理是要把訓(xùn)練好的模型應(yīng)用到不同的場(chǎng)景。再加上MOE(專家混合模型架構(gòu))出現(xiàn),對(duì)于新的信息,只需要局部訓(xùn)練。所以最終爆發(fā)的市場(chǎng)肯定是推理,推理是要把訓(xùn)練好的模型應(yīng)用到不同的場(chǎng)景。
推理市場(chǎng)利潤(rùn)驚人、巨頭爭(zhēng)搶
摩根士丹利近期發(fā)布的一份深度報(bào)告,通過構(gòu)建精細(xì)的財(cái)務(wù)模型,揭示AI推理工廠的驚人利潤(rùn),將 AI 推理工廠的盈利密碼層層解開。
以 100 兆瓦電力消耗為標(biāo)尺,涵蓋基建、硬件與運(yùn)營(yíng)的全成本核算顯示,無論采用哪家巨頭的芯片方案,AI 推理工廠的平均利潤(rùn)率竟普遍突破 50%。其中,英偉達(dá) GB200 以 77.6% 的 “恐怖” 利潤(rùn)率笑傲群雄,盡管其搭載 72顆GB200芯片和NVL72系統(tǒng)售價(jià)高達(dá)300萬美元,但超高的利潤(rùn)回報(bào),仍讓科技巨頭們“眼紅”。
“生成式AI時(shí)代,只有英偉達(dá)賺到錢了?!币晃凰惴ㄈ耸扛嬖V虎嗅。
推理,是一份可以測(cè)算得出來的生意。當(dāng)訓(xùn)練端已被英偉達(dá)銅墻鐵壁牢牢穩(wěn)住,推理,反而具備了突破英偉達(dá)的可能性。推理對(duì)生態(tài)和性能的要求沒有訓(xùn)練苛刻,重點(diǎn)是性價(jià)比,也就是成本低,關(guān)鍵的是推理的暴利。
“天下苦英偉達(dá)已久?!敝饕獊碜詫?duì)英偉達(dá)CUDA生態(tài)的依賴,但推理對(duì)于CUDA生態(tài)系統(tǒng)的依賴通常比訓(xùn)練小一些。原因是,部署靈活性,因?yàn)橥评黼A段可以使用更多樣化的硬件和軟件平臺(tái),包括CPU、邊緣設(shè)備、WebGPU等,而不一定需要英偉達(dá)的CUDA環(huán)境,另外,訓(xùn)練過程需要大量的矩陣運(yùn)算、梯度計(jì)算和反向傳播,這些操作在CUDA上有高度優(yōu)化的實(shí)現(xiàn);而推理只需要前向傳播,計(jì)算量相對(duì)較小。
因此,科技巨頭選擇在推理端逐漸滲透英偉達(dá)雄霸的市場(chǎng)。
比如說,根據(jù)The Information報(bào)道,為了減少對(duì)英偉達(dá)的依賴,AWS向其客戶推銷租用自研推理芯片——Trainium提供支持的服務(wù)器,并提供了25%的折扣,這個(gè)服務(wù)器提供的計(jì)算能力與英偉達(dá)的H100芯片相當(dāng)。
虎嗅從硅谷科技公司人士、AWS的客戶處獲知,目前這款服務(wù)還沒有在AWS的客戶中廣泛推廣,主要是針對(duì)Anthropic,2023年亞馬遜宣布向這家人工智能初創(chuàng)公司投資40億美元并獲得部分股權(quán)。Anthropic發(fā)布Claude系列模型,使其躋身全球頭部領(lǐng)先模型公司行列。
今年6月,OpenAI也開始通過租用谷歌的TPU,降低推理計(jì)算的成本以及在推理側(cè)對(duì)英偉達(dá)的依賴。
盡管,業(yè)內(nèi)人士表示這并不是一蹴而就的過程,甚至現(xiàn)階段這個(gè)舉動(dòng)從外界看來只是“隔靴搔癢”,生態(tài)依然是最大的問題,這涉及背后一整個(gè)軟件棧的適配,但對(duì)于這些科技巨頭而言,這確實(shí)不得不開始做的一件事——沒人希望自己的錢都被英偉達(dá)掙了。
初創(chuàng)公司的“蠶食”
在 AI 推理市場(chǎng)的利潤(rùn)盛宴中,科技巨頭的博弈只是冰山一角,一眾初創(chuàng)公司更是摩拳擦掌,試圖分一杯羹。
隨著人工智能推理邁入高級(jí)學(xué)習(xí)和決策階段,對(duì)算力的需求呈現(xiàn)出多元化、精細(xì)化的特點(diǎn),通用 GPU 的靈活性優(yōu)勢(shì)不再是唯一選擇,新興的芯片初創(chuàng)公司另辟蹊徑,聚焦 AI 專用芯片(ASIC)的研發(fā)。相較于通用 GPU,ASIC 以更低的成本實(shí)現(xiàn)高效運(yùn)算,盡管應(yīng)用場(chǎng)景相對(duì)單一,但其在特定推理任務(wù)中的卓越性能,成為初創(chuàng)公司撬動(dòng)市場(chǎng)的支點(diǎn)。
在這場(chǎng)初創(chuàng)勢(shì)力的突圍戰(zhàn)中,Rivos 無疑是備受矚目的 “黑馬”。從戴爾、臺(tái)積電到英特爾、聯(lián)發(fā)科,眾多行業(yè)巨頭紛紛為其注資。據(jù)The Information援引知情人士的話,Rivos正在開發(fā)軟件,該軟件可以將英偉達(dá)的CUDA軟件代碼,翻譯成在Rivos的語言,在其芯片上高效運(yùn)轉(zhuǎn)。這意味著其芯片可無縫承接英偉達(dá)生態(tài)的軟件資源,極大降低用戶遷移成本。
除了Rivos,另一家英偉達(dá)的挑戰(zhàn)者Groq也在籌集資金。
虎嗅根據(jù)公開信息以及The Information上公布的人工智能芯片初創(chuàng)公司的名單,25家英偉達(dá)的挑戰(zhàn)者,一共從投資者那里籌集了超過70億美元的資金,總估值達(dá)到290億美元。
初創(chuàng)芯片公司Groq由前谷歌TPU團(tuán)隊(duì)成員成立,開發(fā)了獨(dú)特的語言處理單元(Language Processing Unit)架構(gòu),這是其最大的技術(shù)差異化優(yōu)勢(shì),專門針對(duì)AI推理任務(wù)進(jìn)行了優(yōu)化,號(hào)稱能提供"世界最快推理"性能。Groq提供了遠(yuǎn)低于傳統(tǒng)GPU的token處理成本的解決方案,這使其在推理市場(chǎng)具有明顯的經(jīng)濟(jì)優(yōu)勢(shì)。如今,Groq已從貝萊德、思科、三星等處累計(jì)籌集超過10億美元,并與沙特阿拉伯達(dá)成了價(jià)值15億美元的芯片合作協(xié)議,在英偉達(dá)滲透率還不算高的中東市場(chǎng)開始拓展自己的芯片生意。
Groq的CEO在一次播客采訪中也表示,英偉達(dá)可以制造他們?cè)疽圃斓拿恳粋€(gè)GPU,并將其用于高利潤(rùn)的訓(xùn)練業(yè)務(wù),而他們則可以接手低利潤(rùn)但高體量的推理業(yè)務(wù)。
還有的地方是英偉達(dá)的視線尚未看到的微小角落——比如一些邊緣側(cè),小型分散的推理需求正悄然爆發(fā)。例如從智能家居設(shè)備到智能穿戴產(chǎn)品,AI 智能硬件的廣泛應(yīng)用催生海量邊緣推理場(chǎng)景。
此外,一些新型算法架構(gòu)以及與之相結(jié)合所開發(fā)的芯片正在誕生。在過去幾年里,英偉達(dá)是“算力越大越好”(Scaling Law)敘事下,最大的受益者,其依靠這套暴力美學(xué),兜售其GPU。
只是Scaling Law到底是不是真正通往通用人工智能的道路?并沒有定論,起碼Meta首席人工智能科學(xué)家楊立昆(Yann LeCun),并不這么認(rèn)為,“我們不能使用像 ChatGPT 或 GPT4這樣的技術(shù)來訓(xùn)練機(jī)器人清理桌子或者填滿洗碗機(jī),即使這對(duì)一個(gè)孩子來說是一件微不足道的任務(wù),我們還是做不到?!?/p>
對(duì)于在生成式AI時(shí)代處于絕對(duì)壟斷地位的英偉達(dá)而言,GPU的“越多算力越好”的故事還能說多久,不好說,科技界永遠(yuǎn)在上演顛覆與被顛覆的故事。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4703507.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.