夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

國(guó)產(chǎn)算力的DeepSeek時(shí)刻

0
分享至

來源:調(diào)研紀(jì)要

事件:DeepSeek更新V3.1版本,并表示其使用的UE8M0 FP8 Scale參數(shù)精度是針對(duì)即將發(fā)布的下一代國(guó)產(chǎn)芯片設(shè)計(jì),引起市場(chǎng)廣泛關(guān)注。

周二已經(jīng)在群里發(fā)了,今天關(guān)注點(diǎn)在UE8M0 FP8,再續(xù)近期國(guó)產(chǎn)算力的熱度,《海外算力VS國(guó)產(chǎn)算力》《辟謠龍》


1、重要變化:V3.1 vs GPT-5

1)一個(gè)模型支持思考/非思考模式。全球似乎都在走這種混合模型的路子(阿里Qwen走過這個(gè)路子但是后來放棄了),GPT-5是一個(gè)系統(tǒng)拖三個(gè)模型,而DeepSeek是一個(gè)模型,兩者原理有別但殊途同歸。

2)提效。V3.1和V3.1 Think相比V3和R1,達(dá)到同樣效果需要的token數(shù)明顯減少。注意這是提效而不是通縮,因?yàn)楹罄m(xù)可以通過加算力獲得額外性能。

3)Agent。通過后訓(xùn)練,增強(qiáng)了工具使用能力,Agent任務(wù)提升顯著。

4)預(yù)訓(xùn)練。V3.1 Base在V3基礎(chǔ)上重新做了外擴(kuò)訓(xùn)練,增加訓(xùn)練了 840B tokens(vs V3訓(xùn)練了14.8T,大概比例是5.7%)。雖然增加的token不多,但是依然證明預(yù)訓(xùn)練和智能性是正比的,預(yù)訓(xùn)練還未結(jié)束。這840B我們推測(cè)有很多Agent數(shù)據(jù)。

2)和3)都明顯利好應(yīng)用,尤其是Agent類應(yīng)用。至于上下文擴(kuò)展到128k,其實(shí)V3論文是支持128k,只是DS官方為了成本優(yōu)化到了64k,這次又加回來了。

2、另一個(gè)關(guān)注點(diǎn)就是使用UE8M0 FP8,明確指出“是針對(duì)即將發(fā)布的下一代國(guó)產(chǎn)芯片設(shè)計(jì) ”,官方把這句話置頂在公眾號(hào)評(píng)論里了。在DeepSeek-V3.1模型卡的說明文檔中,確實(shí)提到了一句:使用UE8M0 FP8精度數(shù)據(jù)格式進(jìn)行訓(xùn)練。

FP8是原版V3采用的精度,F(xiàn)P8的兩種主流編碼是E4M3和E5M2(英偉達(dá)、Arm、Intel定的),UE8M0代表在E4M3和E5M2的一種縮放,但是本質(zhì)還是8位代表一個(gè)數(shù)。

目前支持FP8的是英偉達(dá)H和B系列,國(guó)產(chǎn)芯片中,明確已經(jīng)支持FP8的只有摩爾線程。

3、什么是UE8M0 FP8?

1)基本概念

- FP8:FP代表浮點(diǎn)數(shù)(小數(shù)),8代表數(shù)據(jù)用8bit(8位0、1)表示。計(jì)算機(jī)里的小數(shù)都是用科學(xué)計(jì)數(shù)法表示的,只不過與通常的科學(xué)計(jì)數(shù)法不同,不是10的次方,而是2的次方,例如3.14可以表示為1.57*2^1,0.618可以表示為1.236*2^(-1)。

- U:Unsigned,無符號(hào),與有符號(hào)(Signed)相對(duì)應(yīng),也就是數(shù)字不帶正負(fù)號(hào),這種數(shù)據(jù)格式無法表示負(fù)數(shù),但是可以用同樣的數(shù)據(jù)長(zhǎng)度表示更多正數(shù)。

- E:Exponent,指數(shù),科學(xué)計(jì)數(shù)法的“次方”。

- M:Mantissa,尾數(shù),科學(xué)計(jì)數(shù)法的“頭”或“有效數(shù)字”。

- UE8M0:無符號(hào)(只能取0或正數(shù)),用8位數(shù)字表達(dá)指數(shù),用0位數(shù)字表達(dá)尾數(shù)(此時(shí)尾數(shù)默認(rèn)為1),也就是說這種數(shù)字格式只能表示2的n次方,從2的0次方到2的255次方。

- UE8M0與常規(guī)FP8的區(qū)別:常規(guī)FP8通常是“(S1)E5M2”或者“(S1)E4M3”,對(duì)數(shù)據(jù)的表示范圍有所不同。

2)FP8精度:E4M3、E5M2、UE8M0等多種格式都代表什么?

-E4M3=1位符號(hào)+4位指數(shù)+3 位尾數(shù)。動(dòng)態(tài)范圍小,精度較高,就像一本“小本子”,能記細(xì)節(jié),但容量有限。

-E5M2:1 位符號(hào)+5 位指數(shù)+2 位尾數(shù)。動(dòng)態(tài)范圍大,精度差,就像一張“粗略地圖”,范圍很廣,但細(xì)節(jié)模糊。

- UE8M0:8位指數(shù),沒有符號(hào)和尾數(shù),只能表示 2^n 倍數(shù),非常適合存縮放因子、就像相機(jī)的調(diào)焦光圈,讓畫面(E4M3/E5M2)放大或者縮小,來適應(yīng)相框(訓(xùn)練/推理)的需要。

總結(jié):計(jì)算/存儲(chǔ)數(shù)值用E4M3/E5M2省算力和顯存,縮放用UE8M0提高穩(wěn)定性和生態(tài)兼容性。

3)UE8M0是怎么來的?

UE8M0首先出自NVIDIA PTX指令集,主要用來作為 MXFP8 訓(xùn)練推理中的縮放因子。DS-V3/R1在對(duì)FP8 穩(wěn)定訓(xùn)練方面做出了突出貢獻(xiàn),并通過 DeepGEMM 這樣的開源庫把這種實(shí)現(xiàn)公開出來。DeepGEMM 的README就直接寫了“SM100 需要 packed UE8M0 縮放因子”,并提供了相應(yīng)kernel,幫助整個(gè)生態(tài)在工程上落地。

總結(jié):NVIDIA 提供了標(biāo)準(zhǔn)(UE8M0 格式),而DeepSeek貢獻(xiàn)了工程實(shí)現(xiàn)與大規(guī)模實(shí)踐(DeepGEMM代碼、FP8 穩(wěn)定訓(xùn)練方案)

4、UE8M0 FP8,對(duì)算力有何影響?

1)FP8:相比FP16可以節(jié)約一半算力/顯存容量/通信帶寬,相比FP32能節(jié)約3/4。數(shù)據(jù)長(zhǎng)度的縮短,有利于提升計(jì)算速度,并且可以用更少的算力卡、更小的集群裝下模型。沿著該思路,使用FP6、FP4更能節(jié)約算力、顯存、帶寬。

2)UE8M0:可以把計(jì)算中占據(jù)大多數(shù)的乘法轉(zhuǎn)化為更簡(jiǎn)單的加法。由于科學(xué)計(jì)數(shù)法的“頭”全是1,所以數(shù)據(jù)只能是2的n次方。由于神經(jīng)網(wǎng)絡(luò)中,主要的運(yùn)算是矩陣乘法,而2的n次方乘法,比通常的乘法簡(jiǎn)單很多,可以簡(jiǎn)化為加法,例如2^m * 2^n = 2^(m+n)。

3)加法相比乘法,快很多、簡(jiǎn)單很多。通常,加法器電路的面積比乘法器小很多,一次乘法運(yùn)算消耗的時(shí)間是加法的數(shù)倍。

- 國(guó)產(chǎn)芯片要支持FP8,需要同時(shí)滿足①芯片硬件在算子層面原生支持E4M3/E5M2和②支持UE8M0 等FP8縮放標(biāo)準(zhǔn)

- 對(duì)原本只支持BF16/FP16精度的老芯片,可以通過 FP8 存儲(chǔ) + 轉(zhuǎn)換 BF16/FP16 計(jì)算,節(jié)省顯存/帶寬

- 對(duì)未來新發(fā)布的原生支持FP8的國(guó)產(chǎn)芯片,即可享受滿血版的算力/顯存/帶寬約2x的效率提升

結(jié)論:UE8M0格式的乘法,比其他FP8快數(shù)倍,且明顯節(jié)約芯片面積。我們認(rèn)為,推出更靈活的數(shù)據(jù)格式UE8M0 FP8,是DeepSeek通過更進(jìn)一步的工程優(yōu)化(類似采用FP8數(shù)據(jù)訓(xùn)練),針對(duì)國(guó)產(chǎn)AI芯片算力不足的問題做的優(yōu)化(動(dòng)態(tài)的去減少尾數(shù)可以使得更多的計(jì)算采用整數(shù)乘法器進(jìn)行操作,可以較大程度的釋放算力,在國(guó)產(chǎn)芯片設(shè)計(jì)端,未來在有限的制程下也可以塞入更多的整形計(jì)算單元來堆砌更多算力)。

核心1:低精度訓(xùn)練可以提高吞吐量,降低內(nèi)存與帶寬消耗,強(qiáng)調(diào)了FP8等低精度訓(xùn)練的重要性。

核心2:采用UE8M0 FP8可以幫助平衡FP8訓(xùn)練的動(dòng)態(tài)范圍和精度,在國(guó)產(chǎn)卡支持FP8精度的初期階段,通過軟件層的優(yōu)化、帶來國(guó)產(chǎn)卡FP8精度的調(diào)優(yōu)與使用效率提升。

5、UE8M0 FP8,對(duì)模型有何影響?

- 在現(xiàn)有算力條件下,采用新數(shù)據(jù)格式可以大幅提升訓(xùn)練推理效率,加快模型迭代。

- 同樣的顯存容量下,可以增大等效KV Cache容量,增加上下文長(zhǎng)度,對(duì)于模型的記憶能力、復(fù)雜項(xiàng)目分析能力大有助益。

- 同樣的網(wǎng)絡(luò)帶寬下,可以增加網(wǎng)絡(luò)效率、集群效率,降低模型公司成本,改善用戶體驗(yàn)。

國(guó)產(chǎn)算力支撐國(guó)產(chǎn)模型,本次DeepSeek V3.1有望助推國(guó)產(chǎn)算力競(jìng)爭(zhēng)力提升,看好國(guó)產(chǎn)算力與國(guó)產(chǎn)模型合力支撐下的中國(guó)AI產(chǎn)業(yè)。

6、對(duì)存儲(chǔ)需求的影響

我們認(rèn)為不同的FP8格式實(shí)際上在存儲(chǔ)單元的占用均為8 bit,實(shí)際上對(duì)內(nèi)存單元以及內(nèi)存帶寬的需求并沒有任何優(yōu)化或者變化,因此部分公眾號(hào)中解讀的所謂利空HBM,降低存儲(chǔ)需求的表述是明顯錯(cuò)誤的。只要為FP8的格式,那么讀寫都是8bit的存儲(chǔ)單元占用。

7、電話會(huì)議紀(jì)要

1)芯片技術(shù)討論

? 華為下一代芯片(可能命名為910x)將支持FP8精度,預(yù)計(jì)第四季度送測(cè)廠商。當(dāng)前910B庫存積壓,主要用于推理而非訓(xùn)練。

? 寒武紀(jì)690、摩爾線程S5000等國(guó)產(chǎn)芯片已支持FP8,但華為生態(tài)軟件適配更優(yōu)。

? 國(guó)產(chǎn)GPU架構(gòu)自主可控問題:計(jì)算公司公告稱“力爭(zhēng)解決”,實(shí)際未完全自主(采用Imagination IP)。

2)AI模型與部署

? DeepSeek V3.1更新:增加訓(xùn)練token數(shù)量、優(yōu)化Agent支持、增強(qiáng)Function Calling(如Anthropic Code API接入)。

? FP8精度的意義:降低推理存儲(chǔ)占用(100B模型從200G壓縮至100G),提升吞吐量,但需與國(guó)產(chǎn)芯片(如華為、寒武紀(jì))深度適配。

? 國(guó)產(chǎn)芯片推理部署:華為升騰910C不支持FP8,下一代芯片將支持;寒武紀(jì)受限于FP16,需轉(zhuǎn)換精度。

3)行業(yè)動(dòng)態(tài)與市場(chǎng)情緒

? 中興通訊:中標(biāo)移動(dòng)集采,但AI卡依賴第三方(如壁仞),實(shí)際技術(shù)能力存疑。

? 半導(dǎo)體設(shè)備國(guó)產(chǎn)化:國(guó)產(chǎn)設(shè)備訂單增長(zhǎng),政策要求新建晶圓廠提高國(guó)產(chǎn)設(shè)備比例。

? 摩爾線程:融資70億,軟件生態(tài)是優(yōu)勢(shì),但技術(shù)門檻低(對(duì)比計(jì)算、漢博等競(jìng)品)。

4)投資觀點(diǎn)

? 看好標(biāo)的:中興通訊(組織優(yōu)化)、中芯國(guó)際(14nm獨(dú)家產(chǎn)能)、華為系(升騰下一代芯片)。

? 風(fēng)險(xiǎn)提示:東芯架構(gòu)非自研,炒作需謹(jǐn)慎;華宏收購(gòu)華利威為擴(kuò)產(chǎn),但市場(chǎng)反應(yīng)負(fù)面。

? AI應(yīng)用方向:DeepSeek開源可能利好辦公(如金山)、編程、游戲領(lǐng)域,Agent生態(tài)將成變現(xiàn)重點(diǎn)。

5)其他要點(diǎn)

? 鴻蒙系統(tǒng)適配:9月30日前應(yīng)用需適配鴻蒙,但實(shí)際效果待觀察;小米汽車?yán)麧?rùn)超預(yù)期,與華為差異化競(jìng)爭(zhēng)。

? 國(guó)產(chǎn)替代趨勢(shì):下半年至明年,設(shè)備、材料、芯片全鏈條受益政策驅(qū)動(dòng)(如算力采購(gòu)補(bǔ)貼傾斜國(guó)產(chǎn))。*

— THE END —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
荷蘭慌了!安世中國(guó)有切割獨(dú)立跡象,中方定性,韓華集團(tuán)就是樣板

荷蘭慌了!安世中國(guó)有切割獨(dú)立跡象,中方定性,韓華集團(tuán)就是樣板

科普100克克
2025-10-19 21:03:44
萬科王石時(shí)代終局:自以為是教父,卻終究是投機(jī)者而非商業(yè)領(lǐng)袖

萬科王石時(shí)代終局:自以為是教父,卻終究是投機(jī)者而非商業(yè)領(lǐng)袖

風(fēng)向觀察
2025-10-19 23:10:10
央視曝光,日用品查出神經(jīng)毒素,檢出超90%,很多人現(xiàn)在還在用

央視曝光,日用品查出神經(jīng)毒素,檢出超90%,很多人現(xiàn)在還在用

禾寒?dāng)?/span>
2025-10-19 20:18:34
法官員證實(shí)盧浮宮遭搶劫:7分鐘9件拿破侖時(shí)期珠寶被盜

法官員證實(shí)盧浮宮遭搶劫:7分鐘9件拿破侖時(shí)期珠寶被盜

環(huán)球網(wǎng)資訊
2025-10-19 18:42:13
2-1!姆貝莫閃擊 加克波三中門柱 馬奎爾絕殺 曼聯(lián)送利物浦4連敗

2-1!姆貝莫閃擊 加克波三中門柱 馬奎爾絕殺 曼聯(lián)送利物浦4連敗

狍子歪解體壇
2025-10-20 01:29:23
《沉默的榮耀》大結(jié)局,人民網(wǎng)發(fā)文表揚(yáng),以后真不能再低估于和偉

《沉默的榮耀》大結(jié)局,人民網(wǎng)發(fā)文表揚(yáng),以后真不能再低估于和偉

嫹筆牂牂
2025-10-19 07:45:08
盜竊盧浮宮一共4人

盜竊盧浮宮一共4人

環(huán)球網(wǎng)資訊
2025-10-19 20:51:51
新郎跳河后續(xù):女方退18.8萬,不結(jié)婚原因曝光,男方家不打算追責(zé)

新郎跳河后續(xù):女方退18.8萬,不結(jié)婚原因曝光,男方家不打算追責(zé)

凡知
2025-10-19 12:00:55
軍委委員人數(shù)減少,有部門近兩年沒人擔(dān)任軍委委員,釋放什么信號(hào)

軍委委員人數(shù)減少,有部門近兩年沒人擔(dān)任軍委委員,釋放什么信號(hào)

李昕言溫度空間
2025-10-19 13:28:21
利物浦4連敗崩盤 連續(xù)3輪英超被絕殺 斯洛特用廢11.5億豪陣該下課

利物浦4連敗崩盤 連續(xù)3輪英超被絕殺 斯洛特用廢11.5億豪陣該下課

我愛英超
2025-10-20 01:40:15
5-0!3-0!亞洲四強(qiáng)驚艷世界杯:首輪3勝1平 中國(guó)女足創(chuàng)26年歷史

5-0!3-0!亞洲四強(qiáng)驚艷世界杯:首輪3勝1平 中國(guó)女足創(chuàng)26年歷史

侃球熊弟
2025-10-19 23:11:04
封鎖失?。棵老⊥练蛛x技術(shù)重大突破,2026年可擺脫稀土礦依賴

封鎖失???美稀土分離技術(shù)重大突破,2026年可擺脫稀土礦依賴

白夢(mèng)日記
2025-10-18 20:12:22
上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)是吃蔬菜的人的8倍不止?

上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)是吃蔬菜的人的8倍不止?

霹靂炮
2025-10-17 21:31:29
暴雷!美國(guó)開始公開搶錢!

暴雷!美國(guó)開始公開搶錢!

龍浩觀天下
2025-10-18 17:02:00
現(xiàn)代版殺雞儆猴:不接受豁免,不開啟談判,直至將其徹底打服!

現(xiàn)代版殺雞儆猴:不接受豁免,不開啟談判,直至將其徹底打服!

李博世財(cái)經(jīng)
2025-10-19 17:20:57
徹底傻眼了,不僅廣西,全國(guó)都束手無策!

徹底傻眼了,不僅廣西,全國(guó)都束手無策!

另子維愛讀史
2025-10-19 11:44:19
西南聯(lián)大五大才子

西南聯(lián)大五大才子

祁州校尉
2025-10-19 14:23:07
真相追蹤!“野人小孩”的父親是一狗場(chǎng)的老板,母親是研究生學(xué)歷

真相追蹤!“野人小孩”的父親是一狗場(chǎng)的老板,母親是研究生學(xué)歷

火山詩話
2025-10-19 19:19:37
河北等多地天空現(xiàn)密集鳥群,網(wǎng)友擔(dān)心是災(zāi)害預(yù)兆,當(dāng)?shù)胤Q未收到相關(guān)預(yù)警,專家解讀

河北等多地天空現(xiàn)密集鳥群,網(wǎng)友擔(dān)心是災(zāi)害預(yù)兆,當(dāng)?shù)胤Q未收到相關(guān)預(yù)警,專家解讀

瀟湘晨報(bào)
2025-10-19 17:54:12
楊振寧一生最大的遺憾:年薪10000美元,卻沒來得及借錢給杜致仁

楊振寧一生最大的遺憾:年薪10000美元,卻沒來得及借錢給杜致仁

不系之舟225
2025-10-19 19:19:46
2025-10-20 06:12:49
紫京投研 incentive-icons
紫京投研
財(cái)富創(chuàng)造自由
662文章數(shù) 1088關(guān)注度
往期回顧 全部

科技要聞

獨(dú)家|楊振寧:最頂尖的學(xué)生不是教出來的

頭條要聞

澤連斯基:愿意參加特朗普與普京在匈牙利的會(huì)晤

頭條要聞

澤連斯基:愿意參加特朗普與普京在匈牙利的會(huì)晤

體育要聞

正在爆火的"拼好球" 馬斯克和樊振東也在玩

娛樂要聞

竇驍婚變升級(jí)!何超蓮被曝已有新歡

財(cái)經(jīng)要聞

星巴克中國(guó)股權(quán)出售進(jìn)入倒計(jì)時(shí)

汽車要聞

最高15000元兜底 智界R7/S7推出購(gòu)置稅補(bǔ)貼方案

態(tài)度原創(chuàng)

家居
健康
旅游
藝術(shù)
軍事航空

家居要聞

因異而生 古今文脈交融

內(nèi)分泌科專家破解身高八大謠言

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

美媒披露普京?;饤l件:基輔必須徹底放棄頓涅茨克

無障礙瀏覽 進(jìn)入關(guān)懷版 中文字幕av日韩精品| 精品无套挺进少妇内谢在线| 成人无码区免费A∨视频FBI| 国产一区二区不卡自拍| 骚逼人妻视频免费| 黑人扒开双腿国产精品| 久久精品成人大片| 熟女熟女乱伦网| 无码精品久久久久久人妻中字 | 好屌妞1区2区3| 国产乱伦一区二区三区四区| 亚欧洲乱码视频在线专区| 日产日产自线一二三四2021| 国产精品人妻无码免费下载 | 青青青国产精品免费观看| 116美女极品a级毛片| 久久人人爽人人爽人人片av二区| 色婷婷色99国产综合精品| guozhanav| 熟妇人妻中文字幕| 日韩少妇激情一区二区| 99久久免费精品色老| 亚洲国产精品无码专区成人| 日韩成人无码v清免费| 国产人美﹣色哟哟| 人人曰人人看| 午夜无码电影888不卡| 综合亚洲伊人午夜网| 69国产盗摄一区二区三区五区| 国产精品视频一区二区三区四| 国产伦精品****三区免费| 噜噜色综合噜噜色噜噜色| 18禁免费无码无遮挡不卡网站| 天天躁日日躁狠狠躁av麻豆| 精品国产无码专区一区二区在线不卡| 厨房人妻丰满熟妇无码区乱| 人妻日韩人妻中文字幕| 波多野结衣乱码中文字幕| 国产av大秀| 国产精品va| 精品超清无码视频在线观看|