夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

8.9ms推理速度新紀(jì)錄!1元百萬(wàn)token,浪潮信息加速智能體產(chǎn)業(yè)化

0
分享至

克雷西 henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

一百萬(wàn)Token的輸出推理成本,只要一塊錢(qián)了。

今年的人工智能計(jì)算大會(huì)上,浪潮信息發(fā)布了超擴(kuò)展AI服務(wù)器元腦HC1000,把AI推理成本狠狠地打了下來(lái)。

與此同時(shí),浪潮信息還推出另一殺手锏——元腦SD200超節(jié)點(diǎn),也將DeepSeek-R1的Token生成時(shí)間打到了毫秒量級(jí)。


浪潮信息首席AI戰(zhàn)略官劉軍

隨著AI競(jìng)賽進(jìn)入智能體產(chǎn)業(yè)化階段,能力、速度和成本成為了決勝的核心三要素。

浪潮信息打出的這套組合拳,針對(duì)的就是其中涉及到AI Infra的兩項(xiàng)關(guān)鍵指標(biāo)——速度與成本。



元腦SD200和元腦HC1000,將為多智能體協(xié)同與復(fù)雜任務(wù)推理的規(guī)模化落地,提供高速度、低成本的算力基礎(chǔ)設(shè)施。

DeepSeek-R1推理進(jìn)入10ms時(shí)代

首先來(lái)看元腦SD200超節(jié)點(diǎn)AI服務(wù)器。

它可以在單機(jī)內(nèi)同時(shí)運(yùn)行DeepSeek-R1、Kimi K2等四大國(guó)產(chǎn)開(kāi)源模型,支持超萬(wàn)億參數(shù)大模型推理以及多智能體實(shí)時(shí)協(xié)作,還支持同時(shí)運(yùn)行64個(gè)AlphaFold3蛋白質(zhì)預(yù)測(cè)模型。

特別是在速度上,元腦SD200率先將大模型端到端推理延遲控制在了10ms以內(nèi)。

實(shí)測(cè)中,元腦SD200在運(yùn)行DeepSeek-R1時(shí),TPOT(每Token輸出時(shí)間)僅有8.9ms,領(lǐng)先了前SOTA(15ms)近一倍,還使DeepSeek-R1 671B的推理性能實(shí)現(xiàn)了最高16.3倍的超線性擴(kuò)展率



并且元腦SD200并沒(méi)有因?yàn)樗俣榷鵂奚到y(tǒng)的穩(wěn)定性與可靠性,而是分別在系統(tǒng)硬件層、基礎(chǔ)軟件層和業(yè)務(wù)軟件層等層面進(jìn)行針對(duì)性設(shè)計(jì)和優(yōu)化,保證整機(jī)運(yùn)行高可靠設(shè)計(jì),真正做到了“快而不亂”。

為什么元腦SD200如此強(qiáng)調(diào)“速度”?

因?yàn)樗俣纫呀?jīng)成為智能體時(shí)代AI競(jìng)爭(zhēng)的關(guān)鍵變量。

隨著AI進(jìn)入智能體時(shí)代,交互方式發(fā)生了巨大改變,過(guò)去大模型只需進(jìn)行人機(jī)對(duì)話,但現(xiàn)在還需要智能體與智能體之間的交流,對(duì)模型的生成速度更加敏感。

特別是在實(shí)際應(yīng)用場(chǎng)景中,智能體與智能體之間的交互輪次更多,延遲會(huì)隨這一過(guò)程不斷累積,導(dǎo)致整個(gè)系統(tǒng)運(yùn)行速度無(wú)法被用戶接受,在競(jìng)爭(zhēng)中將成為致命缺陷。



除了用戶的直觀感受,造成商業(yè)場(chǎng)景對(duì)速度要求苛刻的原因還有許多。

比如在金融交易當(dāng)中,對(duì)響應(yīng)時(shí)效的要求極為苛刻,反欺詐算法需要在10毫秒的時(shí)間里識(shí)別風(fēng)險(xiǎn)交易,否則后果不堪設(shè)想。

因此,Token生成速度不僅影響用戶體驗(yàn),更直接關(guān)乎商業(yè)產(chǎn)出的穩(wěn)定性與可靠性。

那么,制約Token生成速度提升的因素,又是什么呢?

問(wèn)題主要出在了通信環(huán)節(jié)。

當(dāng)參數(shù)規(guī)??焖偻黄迫f(wàn)億級(jí)別,模型必須拆分到幾十甚至上百?gòu)埧ㄉ蠒r(shí),原本在單機(jī)內(nèi)部的高速通信變成了跨機(jī)的網(wǎng)絡(luò)傳輸,通信就成為了更嚴(yán)峻的挑戰(zhàn)。

特別是在處理推理過(guò)程中大量的小數(shù)據(jù)包時(shí),延遲問(wèn)題變得極為突出,而且每一次跨機(jī)通信都可能帶來(lái)額外延遲,當(dāng)多個(gè)萬(wàn)億級(jí)模型需要實(shí)時(shí)協(xié)作時(shí),傳統(tǒng)架構(gòu)已經(jīng)完全無(wú)法應(yīng)對(duì)。

針對(duì)這些問(wèn)題,元腦SD200先是在架構(gòu)層面進(jìn)行了革新。

具體來(lái)說(shuō),元腦SD200采用了創(chuàng)新的多主機(jī)3D Mesh系統(tǒng)架構(gòu),由自研的Open Fabric Switch貫通,將多個(gè)主機(jī)的GPU資源整合成一個(gè)統(tǒng)一的計(jì)算域,并且當(dāng)中能夠?qū)崿F(xiàn)跨主機(jī)域全局統(tǒng)一編址。

這一架構(gòu)讓顯存統(tǒng)一地址空間擴(kuò)增8倍,可實(shí)現(xiàn)單機(jī)64路的Scale up縱向擴(kuò)展,最大可以提供4TB顯存和64TB內(nèi)存,構(gòu)建超大的KV緩存分級(jí)存儲(chǔ)空間。

并且通過(guò)Smart Fabric Manager,元腦SD200實(shí)現(xiàn)了超節(jié)點(diǎn)64卡全局最優(yōu)路由的自主創(chuàng)建,保障AI芯片間通信路徑最短,進(jìn)一步縮短基礎(chǔ)通信延遲。



除了架構(gòu),在互聯(lián)協(xié)議方面,為了實(shí)現(xiàn)極低的Latency通信,元腦SD200采用了極簡(jiǎn)的三層協(xié)議棧,無(wú)需網(wǎng)絡(luò)/傳輸層,僅憑物理層、數(shù)據(jù)鏈路層和事務(wù)層三層即可實(shí)現(xiàn)GPU直接訪問(wèn)遠(yuǎn)端節(jié)點(diǎn)的顯存或主存。

這種模式無(wú)需“發(fā)送-接收”式的消息語(yǔ)義拷貝,將基礎(chǔ)通信的延遲打到了百納秒級(jí)。

同時(shí),為了實(shí)現(xiàn)穩(wěn)定可靠通信,元腦SD200原生支持由硬件邏輯實(shí)現(xiàn)的鏈路層重傳,可將重傳延遲降低至微秒級(jí);通過(guò)采用分布式、預(yù)防式流控機(jī)制,從根本上避免擁塞和丟包。



此外,元腦SD200還通過(guò)采用通信庫(kù)優(yōu)化、并行推理框架、PD分離策略及動(dòng)態(tài)負(fù)載均衡等創(chuàng)新技術(shù),充分發(fā)揮超節(jié)點(diǎn)的性能優(yōu)勢(shì)。

最終DeepSeek-R1 671B推理,從16卡擴(kuò)展到64卡,實(shí)現(xiàn)了16.3倍超線性的擴(kuò)展率。

百萬(wàn)Token推理只要一塊錢(qián)

除了元腦SD200,浪潮信息還帶來(lái)了超擴(kuò)展AI服務(wù)器元腦HC1000

元腦HC1000不僅支持極大推理吞吐量,還能讓單卡成本降低60%、均攤系統(tǒng)成本降低50%,將每百萬(wàn)Token輸出成本降低至1元。



如果說(shuō)速度是智能體應(yīng)用的生命線,那么成本則決定了度過(guò)生存關(guān)的應(yīng)用能否實(shí)現(xiàn)盈利。

在智能體時(shí)代,Token消耗量正在暴增,以輔助編程為例,每月消耗的Token數(shù)比一年前增長(zhǎng)了50倍。

如果從經(jīng)濟(jì)角度考慮,企業(yè)每部署一個(gè)智能體,平均每個(gè)月消耗的Token成本將達(dá)到5000美元。

并且隨著任務(wù)復(fù)雜度、使用頻率等指標(biāo)不斷攀升,據(jù)浪潮信息預(yù)計(jì),未來(lái)5年智能體應(yīng)用帶來(lái)的Token消耗將呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)。



Token數(shù)量只增不減,如果不把單個(gè)Token成本打下來(lái),那么在高強(qiáng)度交互的智能體環(huán)境中,Token成本必定成為規(guī)?;渴鸬钠款i。

那么,Token推理成本又為什么居高不下呢?

推理階段算效(MFU)低是主要原因。

具體來(lái)說(shuō),在訓(xùn)練時(shí),模型的FLOPs的利用率可能達(dá)到50%,但在推理階段,這個(gè)數(shù)值可能低出一個(gè)數(shù)量級(jí)。

進(jìn)一步的原因是推理的每個(gè)階段的運(yùn)算特點(diǎn)均不相同,與算力不能實(shí)現(xiàn)有效匹配。

元腦HC1000瞄準(zhǔn)的出發(fā)點(diǎn)正在于此——

既然每個(gè)階段有不同的運(yùn)算特點(diǎn),那就將推理的計(jì)算流程拆解,對(duì)模型結(jié)構(gòu)進(jìn)行解耦。

元腦HC1000不僅將推理過(guò)程的Prefill和Decode階段分離,還將Decode階段進(jìn)一步分解成了注意力運(yùn)算和FNN,從而提高資源利用效率。

解耦之后的另一個(gè)好處是,對(duì)于芯片的指標(biāo)要求不再是“五邊形戰(zhàn)士”,可以針對(duì)性地做進(jìn)一步成本削減,節(jié)約成本的同時(shí)還能降低功耗。

在硬件層面,元腦HC1000創(chuàng)新16卡計(jì)算模組設(shè)計(jì)、單卡“計(jì)算-顯存-互連”均衡設(shè)計(jì),大幅降低單卡成本和每卡系統(tǒng)分?jǐn)偝杀尽M瑫r(shí),全對(duì)稱(chēng)的系統(tǒng)拓?fù)湓O(shè)計(jì)支持超大規(guī)模無(wú)損擴(kuò)展。

據(jù)測(cè)算,元腦HC1000的推理性能相比傳統(tǒng)RoCE提升1.75倍,單卡模型算力利用率最高提升5.7倍。

另外,元腦HC1000還采用全對(duì)稱(chēng)DirectCom極速架構(gòu),能夠以超低延遲直達(dá)通信,保障計(jì)算、通信實(shí)現(xiàn)1:1均衡分配。

面向未來(lái)的AI創(chuàng)新計(jì)算架構(gòu)

面向智能體AI時(shí)代,浪潮信息通過(guò)元腦SD200與元腦HC1000兩大殺手锏,破解了智能體規(guī)?;涞刂械乃俣扰c成本兩大關(guān)鍵難題。

一方面,在智能體商業(yè)化過(guò)程中,Agent應(yīng)用往往遵循“快殺慢”的規(guī)律——

面對(duì)海量選擇,用戶更傾向于選擇輸出速度更快、交付效率更高的工具;

另一方面,隨著應(yīng)用規(guī)模擴(kuò)大、交互頻次提升,行業(yè)關(guān)注的重點(diǎn)也從單純算力轉(zhuǎn)向總體擁有成本,尤其是直接影響商業(yè)可行性的單Token成本。

基于此,浪潮信息面向未來(lái)智能體的商業(yè)化場(chǎng)景,在速度與成本上率先突圍,把“百萬(wàn)Token上下文”從高成本的技術(shù)演示,轉(zhuǎn)化為可規(guī)?;\(yùn)營(yíng)的現(xiàn)實(shí)能力。

然而,AI算力的可持續(xù)發(fā)展依然面臨三大挑戰(zhàn)——系統(tǒng)規(guī)模接近工程極限電力基礎(chǔ)設(shè)施壓力巨大,以及算力投入與產(chǎn)出不平衡

在此背后,是GPGPU主導(dǎo)的通用計(jì)算架構(gòu)的局限性正在逐漸顯現(xiàn)。

因此,有必要轉(zhuǎn)變思維,思考新的路徑,從規(guī)模導(dǎo)向轉(zhuǎn)為效率導(dǎo)向,重新規(guī)劃和設(shè)計(jì)AI計(jì)算架構(gòu),發(fā)展AI專(zhuān)用計(jì)算系統(tǒng)。

浪潮信息首席AI戰(zhàn)略官劉軍指出:

  • 通用架構(gòu)效率低,但適應(yīng)性強(qiáng),易于產(chǎn)業(yè)化推廣;專(zhuān)用架構(gòu)效率高,但應(yīng)用面窄,不利于普及推廣。計(jì)算產(chǎn)業(yè)發(fā)展的歷程,就是一個(gè)專(zhuān)用與通用對(duì)立統(tǒng)一、交替發(fā)展的過(guò)程。

這意味著,以GPGPU等主導(dǎo)的通用AI計(jì)算架構(gòu)正在面臨多重挑戰(zhàn),正在向細(xì)分化、專(zhuān)業(yè)化的應(yīng)用階段加速轉(zhuǎn)型。

順應(yīng)這一趨勢(shì),浪潮信息通過(guò)軟硬件協(xié)同設(shè)計(jì)與深度優(yōu)化,面向具體應(yīng)用,探索AI下半場(chǎng)的算力新路徑。

目前,浪潮信息已經(jīng)交出了元腦SD200和元腦HC1000這樣的答卷。

未來(lái),其將進(jìn)一步針對(duì)核心算法算子進(jìn)行硬件化、電路化設(shè)計(jì),實(shí)現(xiàn)性能的數(shù)量級(jí)提升,從而有效應(yīng)對(duì)未來(lái)Token規(guī)模持續(xù)增長(zhǎng)所帶來(lái)的巨大計(jì)算需求,為智能體時(shí)代的高效落地提供可持續(xù)、可擴(kuò)展的基礎(chǔ)設(shè)施保障。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
假戲真做?《色戒》上映18年,一張圖再次引發(fā)爭(zhēng)議

假戲真做?《色戒》上映18年,一張圖再次引發(fā)爭(zhēng)議

一盅情懷
2025-09-24 13:57:00
如果世上真有后悔藥,宋軼肯定得搶第一份。

如果世上真有后悔藥,宋軼肯定得搶第一份。

小光侃娛樂(lè)
2025-09-19 17:20:04
官方:勇士正式簽下塞斯·庫(kù)里

官方:勇士正式簽下塞斯·庫(kù)里

雷速體育
2025-10-02 02:02:30
太瘋狂!溫州知名景區(qū)擠爆!堵到崩潰

太瘋狂!溫州知名景區(qū)擠爆!堵到崩潰

大永強(qiáng)
2025-10-01 15:45:50
中國(guó)海軍又要下餃子!核航母南北分別開(kāi)建 12萬(wàn)噸級(jí)重點(diǎn)搭載殲-50

中國(guó)海軍又要下餃子!核航母南北分別開(kāi)建 12萬(wàn)噸級(jí)重點(diǎn)搭載殲-50

軍評(píng)陳光文
2025-10-01 21:39:23
卡納瓦羅沒(méi)戲!國(guó)足主帥最快本月官宣,足協(xié)傾向國(guó)家隊(duì)經(jīng)驗(yàn)豐富的

卡納瓦羅沒(méi)戲!國(guó)足主帥最快本月官宣,足協(xié)傾向國(guó)家隊(duì)經(jīng)驗(yàn)豐富的

小金體壇大視野
2025-10-01 21:23:40
WTA官宣3人入圍總決賽!中網(wǎng)女單8強(qiáng)出爐,斯瓦泰克刷新另類(lèi)紀(jì)錄

WTA官宣3人入圍總決賽!中網(wǎng)女單8強(qiáng)出爐,斯瓦泰克刷新另類(lèi)紀(jì)錄

排球黃金眼
2025-10-02 00:33:58
老人逼迫讓座被踹后續(xù):地鐵作惡只是冰山一角,牽出更多違法行為

老人逼迫讓座被踹后續(xù):地鐵作惡只是冰山一角,牽出更多違法行為

奇思妙想草葉君
2025-10-01 23:46:48
日本警察快要?dú)馑懒耍郧肮ぷ魍τ崎e的

日本警察快要?dú)馑懒?,以前工作挺悠閑的

日本物語(yǔ)
2025-10-01 20:35:45
住頂樓,經(jīng)常有住戶上來(lái)曬被子,說(shuō)了好多次不聽(tīng),怎么辦?

住頂樓,經(jīng)常有住戶上來(lái)曬被子,說(shuō)了好多次不聽(tīng),怎么辦?

裝修秀
2025-10-01 11:35:03
被得力辭退員工稱(chēng)暫不會(huì)回去工作,并稱(chēng)未與得力方面見(jiàn)面

被得力辭退員工稱(chēng)暫不會(huì)回去工作,并稱(chēng)未與得力方面見(jiàn)面

南方都市報(bào)
2025-10-01 15:21:06
雷軍罕見(jiàn)求援!小米17還沒(méi)開(kāi)賣(mài)先翻車(chē),結(jié)果全網(wǎng)笑出聲…

雷軍罕見(jiàn)求援!小米17還沒(méi)開(kāi)賣(mài)先翻車(chē),結(jié)果全網(wǎng)笑出聲…

吃瓜盟主
2025-09-29 14:23:15
亂套!16強(qiáng)全出爐,王楚欽苦戰(zhàn)5局,雨果下輪遇國(guó)乒球員

亂套!16強(qiáng)全出爐,王楚欽苦戰(zhàn)5局,雨果下輪遇國(guó)乒球員

體育插班生
2025-10-01 23:36:32
那年我開(kāi)貨車(chē)去甘肅送貨,路上搭了個(gè)美女,她下車(chē)前拔了我車(chē)鑰匙

那年我開(kāi)貨車(chē)去甘肅送貨,路上搭了個(gè)美女,她下車(chē)前拔了我車(chē)鑰匙

白云故事
2025-08-25 18:05:05
女人不抗拒你這三個(gè)動(dòng)作,就可以抱她了,尤其是中年女人

女人不抗拒你這三個(gè)動(dòng)作,就可以抱她了,尤其是中年女人

文雅筆墨
2025-09-29 07:26:38
中國(guó)商務(wù)部對(duì)日本發(fā)出嚴(yán)正警告:堅(jiān)決抵制,即刻停止,引全球關(guān)注

中國(guó)商務(wù)部對(duì)日本發(fā)出嚴(yán)正警告:堅(jiān)決抵制,即刻停止,引全球關(guān)注

南宮一二
2025-10-01 05:19:19
真正的垃圾,28元的20核心處理器

真正的垃圾,28元的20核心處理器

電腦吧評(píng)測(cè)室
2025-10-01 22:07:06
張文宏直言:不管你信不信,老人過(guò)了80歲,基本都有如下7個(gè)現(xiàn)狀

張文宏直言:不管你信不信,老人過(guò)了80歲,基本都有如下7個(gè)現(xiàn)狀

黃河新流域
2025-09-28 13:34:43
中國(guó)大滿貫戰(zhàn)報(bào):又爆冷,勒布倫出局,莫雷加德、大藤、蒯曼晉級(jí)

中國(guó)大滿貫戰(zhàn)報(bào):又爆冷,勒布倫出局,莫雷加德、大藤、蒯曼晉級(jí)

夕落秋山
2025-10-01 16:27:43
一個(gè)4000萬(wàn)的大工程,轉(zhuǎn)包到真正干活的人手上,只剩了10萬(wàn)塊錢(qián)

一個(gè)4000萬(wàn)的大工程,轉(zhuǎn)包到真正干活的人手上,只剩了10萬(wàn)塊錢(qián)

流蘇晚晴
2025-09-30 19:32:34
2025-10-02 06:59:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11438文章數(shù) 176287關(guān)注度
往期回顧 全部

科技要聞

9月零跑交付突破6萬(wàn)輛,小鵬、小米超4萬(wàn)輛

頭條要聞

著名靈長(zhǎng)類(lèi)動(dòng)物學(xué)家珍·古道爾去世 終年91歲

頭條要聞

著名靈長(zhǎng)類(lèi)動(dòng)物學(xué)家珍·古道爾去世 終年91歲

體育要聞

蓉城獨(dú)撐中超!3隊(duì)6戰(zhàn)僅1勝 申花痛失好局

娛樂(lè)要聞

董璇母女國(guó)慶節(jié)跳舞 小酒窩眼神堅(jiān)定

財(cái)經(jīng)要聞

美國(guó)聯(lián)邦政府“關(guān)門(mén)”,有何影響?

汽車(chē)要聞

零跑9月銷(xiāo)量突破6萬(wàn)臺(tái)大關(guān) 刷新新勢(shì)力單月交付紀(jì)錄

態(tài)度原創(chuàng)

家居
本地
房產(chǎn)
公開(kāi)課
軍事航空

家居要聞

市區(qū)綠洲 鏈接社區(qū)商業(yè)

本地新聞

讀港校想省錢(qián),社恐輸在起跑線

房產(chǎn)要聞

買(mǎi)房必看!十一廣州置業(yè)攻略,熱門(mén)項(xiàng)目?jī)?yōu)惠提前曝光!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍將領(lǐng)大會(huì)召開(kāi) 美防長(zhǎng)提出10項(xiàng)新指令

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 夜夜躁日日躁| 亚洲性日韩精品一区二区三区| 精品久久久久久无码人妻中文| 日韩成人免费AV在线| 免费在线看a网站| 狼人久久影院| 国产熟女50岁一区二区| 人人妻人人要人人澡| 欧美精产国品一二三类产品特点| WWW97超碰| 男人的天堂色| 国产成人aaa在线视频免费观看| 超碰91人人操| 肥臀一区二区三区| 亚洲av综合久久成人网| 爱搞.com| 欧美 日韩 国产 成人 在线观看 | 久久国产自偷自免费一区| 精品国产女主播在线观看| 亚洲成欧美性爱人| 亚洲男人的天堂一区二区| 日韩免费无码专区精品观看| 少妇内射av| 国产初高中生粉嫩无套第一次| 被操爽的视频| 国产精品高潮呻吟Ⅴa无码网曝门| 1717国产精品久久| 囯产精品久久久久久久久久综合小说 | 亚洲精品gv天堂无码男同| 女人爽到高潮免费看视频| 无码中字不卡| 人人操人人看人摸| 国产成人精品午夜视频'| 2022无码| 精品伊甸久久久| 亚洲超清无码制服丝袜无广告| 亚洲无码AV一区二区| 少妇好滑好紧好深一区二区 | 久视频免费精品6| 丁香六月色五月| 日日躁夜夜躁|