克雷西 henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
一百萬(wàn)Token的輸出推理成本,只要一塊錢(qián)了。
今年的人工智能計(jì)算大會(huì)上,浪潮信息發(fā)布了超擴(kuò)展AI服務(wù)器元腦HC1000,把AI推理成本狠狠地打了下來(lái)。
與此同時(shí),浪潮信息還推出另一殺手锏——元腦SD200超節(jié)點(diǎn),也將DeepSeek-R1的Token生成時(shí)間打到了毫秒量級(jí)。
浪潮信息首席AI戰(zhàn)略官劉軍
隨著AI競(jìng)賽進(jìn)入智能體產(chǎn)業(yè)化階段,能力、速度和成本成為了決勝的核心三要素。
浪潮信息打出的這套組合拳,針對(duì)的就是其中涉及到AI Infra的兩項(xiàng)關(guān)鍵指標(biāo)——速度與成本。
元腦SD200和元腦HC1000,將為多智能體協(xié)同與復(fù)雜任務(wù)推理的規(guī)模化落地,提供高速度、低成本的算力基礎(chǔ)設(shè)施。
DeepSeek-R1推理進(jìn)入10ms時(shí)代
首先來(lái)看元腦SD200超節(jié)點(diǎn)AI服務(wù)器。
它可以在單機(jī)內(nèi)同時(shí)運(yùn)行DeepSeek-R1、Kimi K2等四大國(guó)產(chǎn)開(kāi)源模型,支持超萬(wàn)億參數(shù)大模型推理以及多智能體實(shí)時(shí)協(xié)作,還支持同時(shí)運(yùn)行64個(gè)AlphaFold3蛋白質(zhì)預(yù)測(cè)模型。
特別是在速度上,元腦SD200率先將大模型端到端推理延遲控制在了10ms以內(nèi)。
實(shí)測(cè)中,元腦SD200在運(yùn)行DeepSeek-R1時(shí),TPOT(每Token輸出時(shí)間)僅有8.9ms,領(lǐng)先了前SOTA(15ms)近一倍,還使DeepSeek-R1 671B的推理性能實(shí)現(xiàn)了最高16.3倍的超線性擴(kuò)展率
并且元腦SD200并沒(méi)有因?yàn)樗俣榷鵂奚到y(tǒng)的穩(wěn)定性與可靠性,而是分別在系統(tǒng)硬件層、基礎(chǔ)軟件層和業(yè)務(wù)軟件層等層面進(jìn)行針對(duì)性設(shè)計(jì)和優(yōu)化,保證整機(jī)運(yùn)行高可靠設(shè)計(jì),真正做到了“快而不亂”。
為什么元腦SD200如此強(qiáng)調(diào)“速度”?
因?yàn)樗俣纫呀?jīng)成為智能體時(shí)代AI競(jìng)爭(zhēng)的關(guān)鍵變量。
隨著AI進(jìn)入智能體時(shí)代,交互方式發(fā)生了巨大改變,過(guò)去大模型只需進(jìn)行人機(jī)對(duì)話,但現(xiàn)在還需要智能體與智能體之間的交流,對(duì)模型的生成速度更加敏感。
特別是在實(shí)際應(yīng)用場(chǎng)景中,智能體與智能體之間的交互輪次更多,延遲會(huì)隨這一過(guò)程不斷累積,導(dǎo)致整個(gè)系統(tǒng)運(yùn)行速度無(wú)法被用戶接受,在競(jìng)爭(zhēng)中將成為致命缺陷。
除了用戶的直觀感受,造成商業(yè)場(chǎng)景對(duì)速度要求苛刻的原因還有許多。
比如在金融交易當(dāng)中,對(duì)響應(yīng)時(shí)效的要求極為苛刻,反欺詐算法需要在10毫秒的時(shí)間里識(shí)別風(fēng)險(xiǎn)交易,否則后果不堪設(shè)想。
因此,Token生成速度不僅影響用戶體驗(yàn),更直接關(guān)乎商業(yè)產(chǎn)出的穩(wěn)定性與可靠性。
那么,制約Token生成速度提升的因素,又是什么呢?
問(wèn)題主要出在了通信環(huán)節(jié)。
當(dāng)參數(shù)規(guī)??焖偻黄迫f(wàn)億級(jí)別,模型必須拆分到幾十甚至上百?gòu)埧ㄉ蠒r(shí),原本在單機(jī)內(nèi)部的高速通信變成了跨機(jī)的網(wǎng)絡(luò)傳輸,通信就成為了更嚴(yán)峻的挑戰(zhàn)。
特別是在處理推理過(guò)程中大量的小數(shù)據(jù)包時(shí),延遲問(wèn)題變得極為突出,而且每一次跨機(jī)通信都可能帶來(lái)額外延遲,當(dāng)多個(gè)萬(wàn)億級(jí)模型需要實(shí)時(shí)協(xié)作時(shí),傳統(tǒng)架構(gòu)已經(jīng)完全無(wú)法應(yīng)對(duì)。
針對(duì)這些問(wèn)題,元腦SD200先是在架構(gòu)層面進(jìn)行了革新。
具體來(lái)說(shuō),元腦SD200采用了創(chuàng)新的多主機(jī)3D Mesh系統(tǒng)架構(gòu),由自研的Open Fabric Switch貫通,將多個(gè)主機(jī)的GPU資源整合成一個(gè)統(tǒng)一的計(jì)算域,并且當(dāng)中能夠?qū)崿F(xiàn)跨主機(jī)域全局統(tǒng)一編址。
這一架構(gòu)讓顯存統(tǒng)一地址空間擴(kuò)增8倍,可實(shí)現(xiàn)單機(jī)64路的Scale up縱向擴(kuò)展,最大可以提供4TB顯存和64TB內(nèi)存,構(gòu)建超大的KV緩存分級(jí)存儲(chǔ)空間。
并且通過(guò)Smart Fabric Manager,元腦SD200實(shí)現(xiàn)了超節(jié)點(diǎn)64卡全局最優(yōu)路由的自主創(chuàng)建,保障AI芯片間通信路徑最短,進(jìn)一步縮短基礎(chǔ)通信延遲。
除了架構(gòu),在互聯(lián)協(xié)議方面,為了實(shí)現(xiàn)極低的Latency通信,元腦SD200采用了極簡(jiǎn)的三層協(xié)議棧,無(wú)需網(wǎng)絡(luò)/傳輸層,僅憑物理層、數(shù)據(jù)鏈路層和事務(wù)層三層即可實(shí)現(xiàn)GPU直接訪問(wèn)遠(yuǎn)端節(jié)點(diǎn)的顯存或主存。
這種模式無(wú)需“發(fā)送-接收”式的消息語(yǔ)義拷貝,將基礎(chǔ)通信的延遲打到了百納秒級(jí)。
同時(shí),為了實(shí)現(xiàn)穩(wěn)定可靠通信,元腦SD200原生支持由硬件邏輯實(shí)現(xiàn)的鏈路層重傳,可將重傳延遲降低至微秒級(jí);通過(guò)采用分布式、預(yù)防式流控機(jī)制,從根本上避免擁塞和丟包。
此外,元腦SD200還通過(guò)采用通信庫(kù)優(yōu)化、并行推理框架、PD分離策略及動(dòng)態(tài)負(fù)載均衡等創(chuàng)新技術(shù),充分發(fā)揮超節(jié)點(diǎn)的性能優(yōu)勢(shì)。
最終DeepSeek-R1 671B推理,從16卡擴(kuò)展到64卡,實(shí)現(xiàn)了16.3倍超線性的擴(kuò)展率。
百萬(wàn)Token推理只要一塊錢(qián)
除了元腦SD200,浪潮信息還帶來(lái)了超擴(kuò)展AI服務(wù)器元腦HC1000
元腦HC1000不僅支持極大推理吞吐量,還能讓單卡成本降低60%、均攤系統(tǒng)成本降低50%,將每百萬(wàn)Token輸出成本降低至1元。
如果說(shuō)速度是智能體應(yīng)用的生命線,那么成本則決定了度過(guò)生存關(guān)的應(yīng)用能否實(shí)現(xiàn)盈利。
在智能體時(shí)代,Token消耗量正在暴增,以輔助編程為例,每月消耗的Token數(shù)比一年前增長(zhǎng)了50倍。
如果從經(jīng)濟(jì)角度考慮,企業(yè)每部署一個(gè)智能體,平均每個(gè)月消耗的Token成本將達(dá)到5000美元。
并且隨著任務(wù)復(fù)雜度、使用頻率等指標(biāo)不斷攀升,據(jù)浪潮信息預(yù)計(jì),未來(lái)5年智能體應(yīng)用帶來(lái)的Token消耗將呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)。
Token數(shù)量只增不減,如果不把單個(gè)Token成本打下來(lái),那么在高強(qiáng)度交互的智能體環(huán)境中,Token成本必定成為規(guī)?;渴鸬钠款i。
那么,Token推理成本又為什么居高不下呢?
推理階段算效(MFU)低是主要原因。
具體來(lái)說(shuō),在訓(xùn)練時(shí),模型的FLOPs的利用率可能達(dá)到50%,但在推理階段,這個(gè)數(shù)值可能低出一個(gè)數(shù)量級(jí)。
進(jìn)一步的原因是推理的每個(gè)階段的運(yùn)算特點(diǎn)均不相同,與算力不能實(shí)現(xiàn)有效匹配。
元腦HC1000瞄準(zhǔn)的出發(fā)點(diǎn)正在于此——
既然每個(gè)階段有不同的運(yùn)算特點(diǎn),那就將推理的計(jì)算流程拆解,對(duì)模型結(jié)構(gòu)進(jìn)行解耦。
元腦HC1000不僅將推理過(guò)程的Prefill和Decode階段分離,還將Decode階段進(jìn)一步分解成了注意力運(yùn)算和FNN,從而提高資源利用效率。
解耦之后的另一個(gè)好處是,對(duì)于芯片的指標(biāo)要求不再是“五邊形戰(zhàn)士”,可以針對(duì)性地做進(jìn)一步成本削減,節(jié)約成本的同時(shí)還能降低功耗。
在硬件層面,元腦HC1000創(chuàng)新16卡計(jì)算模組設(shè)計(jì)、單卡“計(jì)算-顯存-互連”均衡設(shè)計(jì),大幅降低單卡成本和每卡系統(tǒng)分?jǐn)偝杀尽M瑫r(shí),全對(duì)稱(chēng)的系統(tǒng)拓?fù)湓O(shè)計(jì)支持超大規(guī)模無(wú)損擴(kuò)展。
據(jù)測(cè)算,元腦HC1000的推理性能相比傳統(tǒng)RoCE提升1.75倍,單卡模型算力利用率最高提升5.7倍。
另外,元腦HC1000還采用全對(duì)稱(chēng)DirectCom極速架構(gòu),能夠以超低延遲直達(dá)通信,保障計(jì)算、通信實(shí)現(xiàn)1:1均衡分配。
面向未來(lái)的AI創(chuàng)新計(jì)算架構(gòu)
面向智能體AI時(shí)代,浪潮信息通過(guò)元腦SD200與元腦HC1000兩大殺手锏,破解了智能體規(guī)?;涞刂械乃俣扰c成本兩大關(guān)鍵難題。
一方面,在智能體商業(yè)化過(guò)程中,Agent應(yīng)用往往遵循“快殺慢”的規(guī)律——
面對(duì)海量選擇,用戶更傾向于選擇輸出速度更快、交付效率更高的工具;
另一方面,隨著應(yīng)用規(guī)模擴(kuò)大、交互頻次提升,行業(yè)關(guān)注的重點(diǎn)也從單純算力轉(zhuǎn)向總體擁有成本,尤其是直接影響商業(yè)可行性的單Token成本。
基于此,浪潮信息面向未來(lái)智能體的商業(yè)化場(chǎng)景,在速度與成本上率先突圍,把“百萬(wàn)Token上下文”從高成本的技術(shù)演示,轉(zhuǎn)化為可規(guī)?;\(yùn)營(yíng)的現(xiàn)實(shí)能力。
然而,AI算力的可持續(xù)發(fā)展依然面臨三大挑戰(zhàn)——系統(tǒng)規(guī)模接近工程極限電力基礎(chǔ)設(shè)施壓力巨大,以及算力投入與產(chǎn)出不平衡
在此背后,是GPGPU主導(dǎo)的通用計(jì)算架構(gòu)的局限性正在逐漸顯現(xiàn)。
因此,有必要轉(zhuǎn)變思維,思考新的路徑,從規(guī)模導(dǎo)向轉(zhuǎn)為效率導(dǎo)向,重新規(guī)劃和設(shè)計(jì)AI計(jì)算架構(gòu),發(fā)展AI專(zhuān)用計(jì)算系統(tǒng)。
浪潮信息首席AI戰(zhàn)略官劉軍指出:
- 通用架構(gòu)效率低,但適應(yīng)性強(qiáng),易于產(chǎn)業(yè)化推廣;專(zhuān)用架構(gòu)效率高,但應(yīng)用面窄,不利于普及推廣。計(jì)算產(chǎn)業(yè)發(fā)展的歷程,就是一個(gè)專(zhuān)用與通用對(duì)立統(tǒng)一、交替發(fā)展的過(guò)程。
這意味著,以GPGPU等主導(dǎo)的通用AI計(jì)算架構(gòu)正在面臨多重挑戰(zhàn),正在向細(xì)分化、專(zhuān)業(yè)化的應(yīng)用階段加速轉(zhuǎn)型。
順應(yīng)這一趨勢(shì),浪潮信息通過(guò)軟硬件協(xié)同設(shè)計(jì)與深度優(yōu)化,面向具體應(yīng)用,探索AI下半場(chǎng)的算力新路徑。
目前,浪潮信息已經(jīng)交出了元腦SD200和元腦HC1000這樣的答卷。
未來(lái),其將進(jìn)一步針對(duì)核心算法算子進(jìn)行硬件化、電路化設(shè)計(jì),實(shí)現(xiàn)性能的數(shù)量級(jí)提升,從而有效應(yīng)對(duì)未來(lái)Token規(guī)模持續(xù)增長(zhǎng)所帶來(lái)的巨大計(jì)算需求,為智能體時(shí)代的高效落地提供可持續(xù)、可擴(kuò)展的基礎(chǔ)設(shè)施保障。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.