夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

1元/百萬token,8.9ms生成速度,Aengt落地“成本賬”與“速度賬”都要算丨ToB產(chǎn)業(yè)觀察

0
分享至


AI生成

“通過元腦HC1000超擴(kuò)展AI服務(wù)器,可實(shí)現(xiàn)將原先每百萬token超過10元錢,下降到僅1元錢的成本?!崩顺毙畔⑹紫疉I戰(zhàn)略官劉軍與筆者分享了浪潮信息結(jié)合用戶需求,將算力成本“打下去”的最新解決方案。

除了成本之外,當(dāng)AI從大模型進(jìn)入Agent時代,甚至從AGI向著ASI邁進(jìn)的過程中,實(shí)現(xiàn)多Agent協(xié)同的目標(biāo),如何降低響應(yīng)速度是不可避免的問題,劉軍也在與筆者的交流中,分享了浪潮信息在降低通信延遲方面的AI算力布局,他表示,通過浪潮信息元腦SD200超節(jié)點(diǎn)AI服務(wù)器,可將原本國內(nèi)最低15ms左右的延遲,下降到8.9ms左右。

速度決定了ASI能否“照進(jìn)現(xiàn)實(shí)”

隨著Scaling Law持續(xù)推動模型能力躍升,以DeepSeek為代表的開源模型極大的降低了創(chuàng)新門檻,加速智能體產(chǎn)業(yè)化的到來。智能體產(chǎn)業(yè)化的核心三要素是能力、速度和成本。其中模型能力決定了智能體的應(yīng)用上限,交互速度決定了智能體的商業(yè)價值,token成本決定了智能體的盈利能力。

“速度,是智能體商業(yè)化應(yīng)用落地的第一要義?!边@是在與劉軍交流過程中,他反復(fù)強(qiáng)調(diào)的觀點(diǎn)。在智能體商業(yè)化應(yīng)用落地過程中,交互速度是決定其能否在真實(shí)場景中發(fā)揮價值的首要因素。與傳統(tǒng)的“人-機(jī)交互”不同,智能體時代的交互本質(zhì)是“智能體-智能體”之間的高頻博弈與協(xié)作,任何延遲都可能導(dǎo)致決策失效或機(jī)會錯失,token 吞吐速度已成為AI應(yīng)用構(gòu)建的“隱形計時器”。智能體的響應(yīng)速度不僅影響用戶體驗(yàn),更直接關(guān)聯(lián)商業(yè)產(chǎn)出的質(zhì)量與穩(wěn)定性。

當(dāng)前,對于很多企業(yè)而言,企業(yè)首先面對的就是時延的挑戰(zhàn)。IDC發(fā)布的《邊緣進(jìn)化:從核心到邊緣驅(qū)動成功》中顯示,37%已部署GenAI的企業(yè)中,超60%反饋“實(shí)時交互類應(yīng)用響應(yīng)延遲超預(yù)期”。以電商虛擬試衣間為例,用戶上傳圖像后需等待核心云完成AI推理,單次交互延遲常達(dá)2-3秒,轉(zhuǎn)化率較預(yù)期下降40%。

此外,以典型API服務(wù)商為例,全球典型的大模型API服務(wù)商的DeepSeek 每token生成速度,基本維持在10~20 毫秒左右,而國內(nèi)的生成速度普遍高于30毫秒。要在這一基礎(chǔ)上進(jìn)一步實(shí)現(xiàn)更低延遲的token生成能力,就必然要求底層算力系統(tǒng)架構(gòu)、互聯(lián)協(xié)議等關(guān)鍵點(diǎn)上進(jìn)行創(chuàng)新。

無獨(dú)有偶,劉軍也向筆者表示,速度是實(shí)現(xiàn)智能體應(yīng)用效果的基礎(chǔ)保障,“在很多產(chǎn)業(yè)實(shí)踐中,浪潮信息看到有很多場景都有高時效性需求,智能體必須要在極短的時間內(nèi)完成原本由人執(zhí)行的任務(wù)。”劉軍強(qiáng)調(diào)。

比如,股票交易、銀行轉(zhuǎn)賬風(fēng)險監(jiān)測等金融場景下,對于延時的要求往往需要小于10ms,而目前市面上絕大多數(shù)AI Agent服務(wù)的延時都在15ms以上,如果響應(yīng)過長,可能造成金融機(jī)構(gòu)或者其用戶的資產(chǎn)損失。

除了類似金融機(jī)構(gòu)這樣對時延要求極高的場景之外,速度也是提升用戶體驗(yàn)的關(guān)鍵因素之一。以前文提到的電商場景為例,電商場景下的智能體,如果單次延時在2~3秒,轉(zhuǎn)化率下降了40%,“而這個時候,在其他服務(wù)水平都相同的前提下,如果有另外一個平臺/商家比你快的情況下,消費(fèi)者很可能就會選擇其他商家的服務(wù),”劉軍進(jìn)一步指出,“速度在這種情況下,也就成為了電商企業(yè)的商業(yè)競爭力?!?/p>

此外,劉軍告訴筆者,在這些應(yīng)用場景追求速度的背后,還有一個容易被人忽視的關(guān)鍵——模型的疊加會造成延遲的累積。目前智能體仍處于發(fā)展的初期階段,智能體數(shù)量和種類還不算很多,“當(dāng)互聯(lián)網(wǎng)上智能體種類和數(shù)量不斷呈指數(shù)級增長之后,如果每個環(huán)節(jié)的延遲都增加一點(diǎn)的話,到了最后累加起來會發(fā)現(xiàn),應(yīng)用的延遲是不可接受的,”劉軍強(qiáng)調(diào)道,“如果延遲不做到足夠低的話,智能體就沒有商業(yè)化的可能性?!?/p>

而正是基于此,浪潮信息在近日舉辦的AICC人工智能計算大會上公布了元腦SD200超節(jié)點(diǎn)AI服務(wù)器的最新測試數(shù)據(jù),據(jù)劉軍介紹,通過該款超節(jié)點(diǎn)AI服務(wù)器,可以大幅提高token的生成速度,以DeepSeek R1大模型為例,在元腦SD200上,DeepSeek R1模型的token生成速度僅需8.9毫秒,創(chuàng)造國內(nèi)大模型最快token生成速度。

談及元腦SD200如何實(shí)現(xiàn)如此快的token生成速度之時,劉軍以告訴車道進(jìn)行的比喻,他指出,智能體間交互通信的過程中,就好像車輛形式在高速公路上,如果僅僅是高速公路上是16車道,而高速入口、出口還是8車道的話,即便通信過程越快,還是會在入口、出口的地方產(chǎn)生流量擁堵的情況,而元腦SD200要做的就是,將token這條高速通信路的入口和出口也打造成16車道,確保token在通信過程中全程都是“高速的”。

成本:商業(yè)化“無法逃避”的話題

除了速度之外,成本也是讓很多企業(yè)面對AI應(yīng)用“望而卻步”的關(guān)鍵因素。一方面,AI推理產(chǎn)生的海量數(shù)據(jù)回傳至核心云,導(dǎo)致帶寬成本激增;另一方面,token的成本也讓企業(yè)即便有了好的應(yīng)用場景,做好了數(shù)據(jù)就緒,并選擇好了模型之后,也因?yàn)楦甙旱膖oken成本而無力承擔(dān)智能體應(yīng)用帶來的支出。對此,劉軍表示,“成本,尤其是單token成本,是影響Agentic AI能否實(shí)現(xiàn)規(guī)模化落地的關(guān)鍵經(jīng)濟(jì)因素?!?/p>

此外,隨著智能體產(chǎn)業(yè)化落地進(jìn)入“寒武紀(jì)大爆發(fā)”階段,商業(yè)化場景中智能體數(shù)量與token消耗量雙雙攀升。若token成本無法控制在合理區(qū)間,高頻、高并發(fā)的實(shí)際應(yīng)用將難以持續(xù)。而token的成本也成為智能體商業(yè)能否實(shí)現(xiàn)盈利的關(guān)鍵因素。

以時下最火熱的AI應(yīng)用—AI編程為例,據(jù)統(tǒng)計,使用AI輔助編程,當(dāng)前每月消耗token數(shù)相比1年前平均增長了約50倍,達(dá)到1000萬到5億 token。

另一方面,據(jù)統(tǒng)計,企業(yè)每部署一個智能體,平均token成本大概1000-5000美元。而隨著任務(wù)復(fù)雜度、部署密度以及使用頻度的增長,未來五年內(nèi)token消耗預(yù)計呈指數(shù)級增長。

目前,主流模型在token成本方面存在顯著差異。以O(shè)penAI的GPT-5為例,其在處理復(fù)雜任務(wù)時,輸入token成本為每百萬1.25美元,輸出token為每百萬10.00美元。這一成本結(jié)構(gòu)在需要高強(qiáng)度交互的智能體商業(yè)化場景中,可能成為規(guī)?;渴鸬钠款i。相比之下,DeepSeek-V3在推理任務(wù)中,輸出每百萬token成本僅為12元人民幣,展現(xiàn)出更優(yōu)的經(jīng)濟(jì)性,更適合實(shí)時響應(yīng)要求高的商業(yè)環(huán)境。

這一差異一方面源自模型算法能力的不同,另一方面則取決于底層計算架構(gòu)的技術(shù)路徑選擇。依賴粗放式算力堆砌的架構(gòu)會同步推高計算與通信開銷,在面對大規(guī)模、高并發(fā)、長序列的實(shí)際生產(chǎn)需求時,其總體擁有成本將難以具備商業(yè)可持續(xù)性。因此,關(guān)鍵在于構(gòu)建能夠系統(tǒng)化支撐下一代AI應(yīng)用的基礎(chǔ)架構(gòu),從而將“百萬Token上下文”從高成本的技術(shù)展示,轉(zhuǎn)化為具備規(guī)模化運(yùn)營可行性的現(xiàn)實(shí)能力。

在劉軍看來,推理算效低下的根源在于計算過程的特征差異,大模型推理包含多階段計算,各環(huán)節(jié)資源需求迥異。

在此背景下,去年興起的PD分離技術(shù)成為破局起點(diǎn),“通過拆分 Prefill(P)與 Decode(D)兩個核心階段,將計算密集型與訪存密集型任務(wù)解耦,避免資源競爭?!眲④姀?qiáng)調(diào)。

與此同時,在劉軍看來PD分離僅是開端?!拔覀冋谕七M(jìn)更深度的模塊拆解?!?劉軍進(jìn)一步介紹道,在Decode階段,注意力計算與FFN(前饋神經(jīng)網(wǎng)絡(luò))已實(shí)現(xiàn)分離,其中FFN模塊可進(jìn)一步拆分專家組件,而注意力層則借鑒GPT的混合機(jī)制,按算法特征差異拆分處理。這種精細(xì)化拆解已實(shí)現(xiàn)部分模塊算效成倍提升,直接帶來顯著成本節(jié)省。

除此之外,軟硬結(jié)合的方式也是當(dāng)前有效降低token成本的一種路徑,劉軍表示,這種 “解耦+適配” 策略已實(shí)現(xiàn)推理成本的數(shù)量級降低,為大模型在實(shí)時應(yīng)用、開放式任務(wù)等場景的規(guī)模化落地掃清了成本障礙。隨著混合注意力、專家并行等技術(shù)的深化,行業(yè)有望在效率與可解釋性之間找到更優(yōu)平衡。

正是基于這種思維方式,浪潮信息推出了元腦HC1000超擴(kuò)展AI服務(wù)器,通過全面優(yōu)化降本和軟硬協(xié)同增效,元腦HC1000創(chuàng)新16卡計算模組設(shè)計、單卡“計算-顯存-互連”均衡設(shè)計,大幅降低單卡成本和每卡系統(tǒng)分?jǐn)偝杀尽M瑫r,全對稱的系統(tǒng)拓?fù)湓O(shè)計支持超大規(guī)模無損擴(kuò)展。據(jù)劉軍介紹,元腦HC1000通過算網(wǎng)深度協(xié)同、全域無損技術(shù),實(shí)現(xiàn)推理性能相比傳統(tǒng)RoCE提升1.75倍,單卡模型算力利用率最高提升5.7倍。

當(dāng)智能體數(shù)量即將迎來指數(shù)級增長,這種 “速度-成本-算效” 的三角平衡策略,正掃清規(guī)模化落地的最后障礙。從AGI到ASI的演進(jìn)路上,算力基礎(chǔ)設(shè)施的創(chuàng)新始終是核心引擎。而計算架構(gòu)的不斷革新正是這個引擎上重要的一環(huán)。

(作者|張申宇,編輯丨蓋虹達(dá))

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
掌摑羅智強(qiáng)事件判決出爐,“綠營悍婦”邱議瑩被判拘役10日

掌摑羅智強(qiáng)事件判決出爐,“綠營悍婦”邱議瑩被判拘役10日

海峽導(dǎo)報社
2025-10-28 12:15:03
巨星隕落,楊振寧葬禮不到24小時,清華宣布一重要決定,翁帆悲痛

巨星隕落,楊振寧葬禮不到24小時,清華宣布一重要決定,翁帆悲痛

流史歲月
2025-10-26 14:53:46
任澤平:在A股4000點(diǎn),給股民們九條建議

任澤平:在A股4000點(diǎn),給股民們九條建議

新浪財經(jīng)
2025-10-28 10:34:41
西方衛(wèi)星拍瘋了!中國造船廠5艘核潛艇同框,靜音技術(shù)追平美俄

西方衛(wèi)星拍瘋了!中國造船廠5艘核潛艇同框,靜音技術(shù)追平美俄

矚望云霄
2025-10-28 10:51:20
朱立倫率211人請辭,鄭麗文連夜排人事名單!第二個韓國瑜出現(xiàn)!

朱立倫率211人請辭,鄭麗文連夜排人事名單!第二個韓國瑜出現(xiàn)!

流年拾光
2025-10-27 15:06:23
欣旺達(dá)推出新一代固態(tài)電池

欣旺達(dá)推出新一代固態(tài)電池

大象新聞
2025-10-28 08:18:04
網(wǎng)友:跟與輝同行的廠家,據(jù)說都被“搞垮了”,剛開始還不信

網(wǎng)友:跟與輝同行的廠家,據(jù)說都被“搞垮了”,剛開始還不信

丫頭舫
2025-10-27 11:37:42
200萬噸大豆?fàn)€港!巴西賭中國離不開它,中國在48小時之內(nèi)反殺!

200萬噸大豆?fàn)€港!巴西賭中國離不開它,中國在48小時之內(nèi)反殺!

未曾青梅
2025-10-26 23:56:58
美軍大兵壓境,委內(nèi)瑞拉發(fā)現(xiàn)一鄰國與中情局勾結(jié)

美軍大兵壓境,委內(nèi)瑞拉發(fā)現(xiàn)一鄰國與中情局勾結(jié)

上觀新聞
2025-10-28 02:27:05
吳千語/施伯雄逛街曝光!男方發(fā)福被指像大叔,結(jié)婚兩年未育仍甜蜜

吳千語/施伯雄逛街曝光!男方發(fā)福被指像大叔,結(jié)婚兩年未育仍甜蜜

今古深日報
2025-10-27 10:17:33
開拓者官宣,下放中鋒到發(fā)展聯(lián)盟!楊瀚森感受到壓力!

開拓者官宣,下放中鋒到發(fā)展聯(lián)盟!楊瀚森感受到壓力!

德譯洋洋
2025-10-28 12:28:04
中超第29輪:央5播海港VS浙江,蓉城VS河南,16頻道播申花VS深圳

中超第29輪:央5播海港VS浙江,蓉城VS河南,16頻道播申花VS深圳

體育大學(xué)僧
2025-10-28 10:28:50
西貝“活蟲門”爆發(fā)!網(wǎng)友自發(fā)公關(guān)笑不活了!

西貝“活蟲門”爆發(fā)!網(wǎng)友自發(fā)公關(guān)笑不活了!

廣告案例精選
2025-10-27 08:24:06
從搶著買單到集體罵街!小米到底做了啥?老米粉曬出十年收藏

從搶著買單到集體罵街!小米到底做了啥?老米粉曬出十年收藏

許穋很機(jī)智
2025-10-27 12:54:14
許紹雄病危|曾與黃子華合夥開補(bǔ)習(xí)社,不忍對方蝕錢講大話叫退股

許紹雄病危|曾與黃子華合夥開補(bǔ)習(xí)社,不忍對方蝕錢講大話叫退股

粵睇先生
2025-10-28 00:15:56
外交失禮惹怒中國,德國外長被冷處理,柏林政界急得團(tuán)團(tuán)轉(zhuǎn)

外交失禮惹怒中國,德國外長被冷處理,柏林政界急得團(tuán)團(tuán)轉(zhuǎn)

南宮一二
2025-10-27 17:33:00
官方通報男子酸菜池中抽煙吐痰:該批次酸菜已銷毀,涉事企業(yè)正接受調(diào)查

官方通報男子酸菜池中抽煙吐痰:該批次酸菜已銷毀,涉事企業(yè)正接受調(diào)查

界面新聞
2025-10-27 22:31:10
楊瀚森半場罕見7分鐘,機(jī)會球投丟致3中0,防守不上不下被針對!

楊瀚森半場罕見7分鐘,機(jī)會球投丟致3中0,防守不上不下被針對!

籃球資訊達(dá)人
2025-10-28 11:48:50
國產(chǎn)大飛機(jī)逆襲戰(zhàn)!歐美拒發(fā)適航證,C919一招破局震撼全球!

國產(chǎn)大飛機(jī)逆襲戰(zhàn)!歐美拒發(fā)適航證,C919一招破局震撼全球!

科學(xué)知識點(diǎn)秀
2025-10-27 08:00:07
31省份去年人口出生率數(shù)據(jù)公布,廣東為第一生育大省,連續(xù)5年出生人口超100萬!

31省份去年人口出生率數(shù)據(jù)公布,廣東為第一生育大省,連續(xù)5年出生人口超100萬!

大風(fēng)新聞
2025-10-27 20:36:20
2025-10-28 13:03:00
Barrons巴倫
Barrons巴倫
Barron’s,《巴倫周刊》官方中文平臺,這里有全球資本市場前沿資訊、金融分析、市場洞察和行業(yè)解讀
302文章數(shù) 9關(guān)注度
往期回顧 全部

科技要聞

30000人,一夜失業(yè)!亞馬遜AI“砍刀”落下

頭條要聞

80天內(nèi)3人遇難 深圳大鵬半島公園掛出"死亡警示牌"

頭條要聞

80天內(nèi)3人遇難 深圳大鵬半島公園掛出"死亡警示牌"

體育要聞

巴西主帥一上任,先給楊瀚森打了個叉?

娛樂要聞

演員許紹雄去世,享年76歲

財經(jīng)要聞

滬指站上4000點(diǎn) 創(chuàng)十年多新高

汽車要聞

5.2米大車轉(zhuǎn)彎比小車還靈活?騰勢N8L性能猛獸+家庭暖男

態(tài)度原創(chuàng)

藝術(shù)
時尚
健康
親子
軍事航空

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

推廣|| 你們都在催的鞋子,終于來了!

骨頭"咔咔響"?肌骨超聲到底有何用

親子要聞

明天的好吃的沒有了…

軍事要聞

在南海墜毀的美軍機(jī)比F-35還貴 單價1億美元

無障礙瀏覽 進(jìn)入關(guān)懷版 在线免费观看黄色的网站| 日韩一卡2卡3卡4卡新区亚洲| 中国无码少妇| 人妻中文字幕九区| 激情中文无码| 白浆av 会所| 久久亚洲精品18| 人人妻人人操97| 精品午夜福利在线观看| 国产97公开成人免费视频在线观看| 亚洲天天做日日做天天谢日日欢| 亚洲无码一区二区三区四区三洲 | 国产无遮挡又黄又爽不要vip网站| 午夜精品白在线观看| 久久久久国产精品麻豆ar影院| 免费av无码在线| 一本大道大臿蕉视频无码| 亚洲国产熟女| 丰满岳妇乱一区二区三区 | 国产农村老熟女国产老熟女| 五月丁香国产动画| 色爱区综合五月激情| 在教室伦流澡到高潮hgl视频| 国产亚洲精品AA片在线爽| 99精品A∨片| 久久夜色精品国产噜噜| 欧美乱码伦视频免费| 亚洲精品国产VA在线观看| 国产AV资源站| 黄色成人片在线观看| 亚洲另类无码专区丝袜| 熟女国产乱伦| 狠狠色丁香婷婷亚洲综合| 亚洲精品无码成人片久久不卡| 国产精品播放一区二区三区| 在健身房被C到高潮视频| 国产00高中生在线无套进入| 精品人伦一区二区三区潘金莲| 好吊妞网精品| 自慰网站免费观看| 午夜伦情在线|