網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

8.9ms推理速度新紀(jì)錄！1元百萬(wàn)token，浪潮信息加速智能體產(chǎn)業(yè)化

2025-09-29 13:55:55　來(lái)源: 量子位

北京舉報(bào)

分享至

克雷西 henry 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

一百萬(wàn)Token的輸出推理成本，只要一塊錢(qián)了。

今年的人工智能計(jì)算大會(huì)上，浪潮信息發(fā)布了超擴(kuò)展AI服務(wù)器元腦HC1000，把AI推理成本狠狠地打了下來(lái)。

與此同時(shí)，浪潮信息還推出另一殺手锏——元腦SD200超節(jié)點(diǎn)，也將DeepSeek-R1的Token生成時(shí)間打到了毫秒量級(jí)。

浪潮信息首席AI戰(zhàn)略官劉軍

隨著AI競(jìng)賽進(jìn)入智能體產(chǎn)業(yè)化階段，能力、速度和成本成為了決勝的核心三要素。

浪潮信息打出的這套組合拳，針對(duì)的就是其中涉及到AI Infra的兩項(xiàng)關(guān)鍵指標(biāo)——速度與成本。

元腦SD200和元腦HC1000，將為多智能體協(xié)同與復(fù)雜任務(wù)推理的規(guī)模化落地，提供高速度、低成本的算力基礎(chǔ)設(shè)施。

DeepSeek-R1推理進(jìn)入10ms時(shí)代

首先來(lái)看元腦SD200超節(jié)點(diǎn)AI服務(wù)器。

它可以在單機(jī)內(nèi)同時(shí)運(yùn)行DeepSeek-R1、Kimi K2等四大國(guó)產(chǎn)開(kāi)源模型，支持超萬(wàn)億參數(shù)大模型推理以及多智能體實(shí)時(shí)協(xié)作，還支持同時(shí)運(yùn)行64個(gè)AlphaFold3蛋白質(zhì)預(yù)測(cè)模型。

特別是在速度上，元腦SD200率先將大模型端到端推理延遲控制在了10ms以內(nèi)。

實(shí)測(cè)中，元腦SD200在運(yùn)行DeepSeek-R1時(shí)，TPOT（每Token輸出時(shí)間）僅有8.9ms，領(lǐng)先了前SOTA（15ms）近一倍，還使DeepSeek-R1 671B的推理性能實(shí)現(xiàn)了最高16.3倍的超線性擴(kuò)展率

并且元腦SD200并沒(méi)有因?yàn)樗俣榷鵂奚到y(tǒng)的穩(wěn)定性與可靠性，而是分別在系統(tǒng)硬件層、基礎(chǔ)軟件層和業(yè)務(wù)軟件層等層面進(jìn)行針對(duì)性設(shè)計(jì)和優(yōu)化，保證整機(jī)運(yùn)行高可靠設(shè)計(jì)，真正做到了“快而不亂”。

為什么元腦SD200如此強(qiáng)調(diào)“速度”？

因?yàn)樗俣纫呀?jīng)成為智能體時(shí)代AI競(jìng)爭(zhēng)的關(guān)鍵變量。

隨著AI進(jìn)入智能體時(shí)代，交互方式發(fā)生了巨大改變，過(guò)去大模型只需進(jìn)行人機(jī)對(duì)話，但現(xiàn)在還需要智能體與智能體之間的交流，對(duì)模型的生成速度更加敏感。

特別是在實(shí)際應(yīng)用場(chǎng)景中，智能體與智能體之間的交互輪次更多，延遲會(huì)隨這一過(guò)程不斷累積，導(dǎo)致整個(gè)系統(tǒng)運(yùn)行速度無(wú)法被用戶接受，在競(jìng)爭(zhēng)中將成為致命缺陷。

除了用戶的直觀感受，造成商業(yè)場(chǎng)景對(duì)速度要求苛刻的原因還有許多。

比如在金融交易當(dāng)中，對(duì)響應(yīng)時(shí)效的要求極為苛刻，反欺詐算法需要在10毫秒的時(shí)間里識(shí)別風(fēng)險(xiǎn)交易，否則后果不堪設(shè)想。

因此，Token生成速度不僅影響用戶體驗(yàn)，更直接關(guān)乎商業(yè)產(chǎn)出的穩(wěn)定性與可靠性。

那么，制約Token生成速度提升的因素，又是什么呢？

問(wèn)題主要出在了通信環(huán)節(jié)。

當(dāng)參數(shù)規(guī)?？焖偻黄迫f(wàn)億級(jí)別，模型必須拆分到幾十甚至上百?gòu)埧ㄉ蠒r(shí)，原本在單機(jī)內(nèi)部的高速通信變成了跨機(jī)的網(wǎng)絡(luò)傳輸，通信就成為了更嚴(yán)峻的挑戰(zhàn)。

特別是在處理推理過(guò)程中大量的小數(shù)據(jù)包時(shí)，延遲問(wèn)題變得極為突出，而且每一次跨機(jī)通信都可能帶來(lái)額外延遲，當(dāng)多個(gè)萬(wàn)億級(jí)模型需要實(shí)時(shí)協(xié)作時(shí)，傳統(tǒng)架構(gòu)已經(jīng)完全無(wú)法應(yīng)對(duì)。

針對(duì)這些問(wèn)題，元腦SD200先是在架構(gòu)層面進(jìn)行了革新。

具體來(lái)說(shuō)，元腦SD200采用了創(chuàng)新的多主機(jī)3D Mesh系統(tǒng)架構(gòu)，由自研的Open Fabric Switch貫通，將多個(gè)主機(jī)的GPU資源整合成一個(gè)統(tǒng)一的計(jì)算域，并且當(dāng)中能夠?qū)崿F(xiàn)跨主機(jī)域全局統(tǒng)一編址。

這一架構(gòu)讓顯存統(tǒng)一地址空間擴(kuò)增8倍，可實(shí)現(xiàn)單機(jī)64路的Scale up縱向擴(kuò)展，最大可以提供4TB顯存和64TB內(nèi)存，構(gòu)建超大的KV緩存分級(jí)存儲(chǔ)空間。

并且通過(guò)Smart Fabric Manager，元腦SD200實(shí)現(xiàn)了超節(jié)點(diǎn)64卡全局最優(yōu)路由的自主創(chuàng)建，保障AI芯片間通信路徑最短，進(jìn)一步縮短基礎(chǔ)通信延遲。

除了架構(gòu)，在互聯(lián)協(xié)議方面，為了實(shí)現(xiàn)極低的Latency通信，元腦SD200采用了極簡(jiǎn)的三層協(xié)議棧，無(wú)需網(wǎng)絡(luò)/傳輸層，僅憑物理層、數(shù)據(jù)鏈路層和事務(wù)層三層即可實(shí)現(xiàn)GPU直接訪問(wèn)遠(yuǎn)端節(jié)點(diǎn)的顯存或主存。

這種模式無(wú)需“發(fā)送-接收”式的消息語(yǔ)義拷貝，將基礎(chǔ)通信的延遲打到了百納秒級(jí)。

同時(shí)，為了實(shí)現(xiàn)穩(wěn)定可靠通信，元腦SD200原生支持由硬件邏輯實(shí)現(xiàn)的鏈路層重傳，可將重傳延遲降低至微秒級(jí)；通過(guò)采用分布式、預(yù)防式流控機(jī)制，從根本上避免擁塞和丟包。

此外，元腦SD200還通過(guò)采用通信庫(kù)優(yōu)化、并行推理框架、PD分離策略及動(dòng)態(tài)負(fù)載均衡等創(chuàng)新技術(shù)，充分發(fā)揮超節(jié)點(diǎn)的性能優(yōu)勢(shì)。

最終DeepSeek-R1 671B推理，從16卡擴(kuò)展到64卡，實(shí)現(xiàn)了16.3倍超線性的擴(kuò)展率。

百萬(wàn)Token推理只要一塊錢(qián)

除了元腦SD200，浪潮信息還帶來(lái)了超擴(kuò)展AI服務(wù)器元腦HC1000

元腦HC1000不僅支持極大推理吞吐量，還能讓單卡成本降低60%、均攤系統(tǒng)成本降低50%，將每百萬(wàn)Token輸出成本降低至1元。

如果說(shuō)速度是智能體應(yīng)用的生命線，那么成本則決定了度過(guò)生存關(guān)的應(yīng)用能否實(shí)現(xiàn)盈利。

在智能體時(shí)代，Token消耗量正在暴增，以輔助編程為例，每月消耗的Token數(shù)比一年前增長(zhǎng)了50倍。

如果從經(jīng)濟(jì)角度考慮，企業(yè)每部署一個(gè)智能體，平均每個(gè)月消耗的Token成本將達(dá)到5000美元。

并且隨著任務(wù)復(fù)雜度、使用頻率等指標(biāo)不斷攀升，據(jù)浪潮信息預(yù)計(jì)，未來(lái)5年智能體應(yīng)用帶來(lái)的Token消耗將呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)。

Token數(shù)量只增不減，如果不把單個(gè)Token成本打下來(lái)，那么在高強(qiáng)度交互的智能體環(huán)境中，Token成本必定成為規(guī)?；渴鸬钠款i。

那么，Token推理成本又為什么居高不下呢？

推理階段算效（MFU）低是主要原因。

具體來(lái)說(shuō)，在訓(xùn)練時(shí)，模型的FLOPs的利用率可能達(dá)到50%，但在推理階段，這個(gè)數(shù)值可能低出一個(gè)數(shù)量級(jí)。

進(jìn)一步的原因是推理的每個(gè)階段的運(yùn)算特點(diǎn)均不相同，與算力不能實(shí)現(xiàn)有效匹配。

元腦HC1000瞄準(zhǔn)的出發(fā)點(diǎn)正在于此——

既然每個(gè)階段有不同的運(yùn)算特點(diǎn)，那就將推理的計(jì)算流程拆解，對(duì)模型結(jié)構(gòu)進(jìn)行解耦。

元腦HC1000不僅將推理過(guò)程的Prefill和Decode階段分離，還將Decode階段進(jìn)一步分解成了注意力運(yùn)算和FNN，從而提高資源利用效率。

解耦之后的另一個(gè)好處是，對(duì)于芯片的指標(biāo)要求不再是“五邊形戰(zhàn)士”，可以針對(duì)性地做進(jìn)一步成本削減，節(jié)約成本的同時(shí)還能降低功耗。

在硬件層面，元腦HC1000創(chuàng)新16卡計(jì)算模組設(shè)計(jì)、單卡“計(jì)算-顯存-互連”均衡設(shè)計(jì)，大幅降低單卡成本和每卡系統(tǒng)分?jǐn)偝杀尽Ｍ瑫r(shí)，全對(duì)稱(chēng)的系統(tǒng)拓?fù)湓O(shè)計(jì)支持超大規(guī)模無(wú)損擴(kuò)展。

據(jù)測(cè)算，元腦HC1000的推理性能相比傳統(tǒng)RoCE提升1.75倍，單卡模型算力利用率最高提升5.7倍。

另外，元腦HC1000還采用全對(duì)稱(chēng)DirectCom極速架構(gòu)，能夠以超低延遲直達(dá)通信，保障計(jì)算、通信實(shí)現(xiàn)1：1均衡分配。

面向未來(lái)的AI創(chuàng)新計(jì)算架構(gòu)

面向智能體AI時(shí)代，浪潮信息通過(guò)元腦SD200與元腦HC1000兩大殺手锏，破解了智能體規(guī)?；涞刂械乃俣扰c成本兩大關(guān)鍵難題。

一方面，在智能體商業(yè)化過(guò)程中，Agent應(yīng)用往往遵循“快殺慢”的規(guī)律——

面對(duì)海量選擇，用戶更傾向于選擇輸出速度更快、交付效率更高的工具；

另一方面，隨著應(yīng)用規(guī)模擴(kuò)大、交互頻次提升，行業(yè)關(guān)注的重點(diǎn)也從單純算力轉(zhuǎn)向總體擁有成本，尤其是直接影響商業(yè)可行性的單Token成本。

基于此，浪潮信息面向未來(lái)智能體的商業(yè)化場(chǎng)景，在速度與成本上率先突圍，把“百萬(wàn)Token上下文”從高成本的技術(shù)演示，轉(zhuǎn)化為可規(guī)?；\(yùn)營(yíng)的現(xiàn)實(shí)能力。

然而，AI算力的可持續(xù)發(fā)展依然面臨三大挑戰(zhàn)——系統(tǒng)規(guī)模接近工程極限電力基礎(chǔ)設(shè)施壓力巨大，以及算力投入與產(chǎn)出不平衡

在此背后，是GPGPU主導(dǎo)的通用計(jì)算架構(gòu)的局限性正在逐漸顯現(xiàn)。

因此，有必要轉(zhuǎn)變思維，思考新的路徑，從規(guī)模導(dǎo)向轉(zhuǎn)為效率導(dǎo)向，重新規(guī)劃和設(shè)計(jì)AI計(jì)算架構(gòu)，發(fā)展AI專(zhuān)用計(jì)算系統(tǒng)。

浪潮信息首席AI戰(zhàn)略官劉軍指出：

通用架構(gòu)效率低，但適應(yīng)性強(qiáng)，易于產(chǎn)業(yè)化推廣；專(zhuān)用架構(gòu)效率高，但應(yīng)用面窄，不利于普及推廣。計(jì)算產(chǎn)業(yè)發(fā)展的歷程，就是一個(gè)專(zhuān)用與通用對(duì)立統(tǒng)一、交替發(fā)展的過(guò)程。

這意味著，以GPGPU等主導(dǎo)的通用AI計(jì)算架構(gòu)正在面臨多重挑戰(zhàn)，正在向細(xì)分化、專(zhuān)業(yè)化的應(yīng)用階段加速轉(zhuǎn)型。

順應(yīng)這一趨勢(shì)，浪潮信息通過(guò)軟硬件協(xié)同設(shè)計(jì)與深度優(yōu)化，面向具體應(yīng)用，探索AI下半場(chǎng)的算力新路徑。

目前，浪潮信息已經(jīng)交出了元腦SD200和元腦HC1000這樣的答卷。

未來(lái)，其將進(jìn)一步針對(duì)核心算法算子進(jìn)行硬件化、電路化設(shè)計(jì)，實(shí)現(xiàn)性能的數(shù)量級(jí)提升，從而有效應(yīng)對(duì)未來(lái)Token規(guī)模持續(xù)增長(zhǎng)所帶來(lái)的巨大計(jì)算需求，為智能體時(shí)代的高效落地提供可持續(xù)、可擴(kuò)展的基礎(chǔ)設(shè)施保障。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.