從V3到V3.1,DeepSeek正在探索出一條“算力自由”之路。
從魔改PTX到使用 UE8M0 FP8 Scale 的參數(shù)精度,DeepSeek先榨取英偉達(dá)GPU算力,再適配國產(chǎn)芯片,可能會在軟硬件協(xié)同方面帶來新的突破,進(jìn)一步提高訓(xùn)練效率,最多可以減少 75% 的內(nèi)存使用,從而在實(shí)際應(yīng)用中減少對進(jìn)口先進(jìn)GPU芯片的依賴。
DeepSeek 正在與下一代國產(chǎn)GPU芯片廠商一起,走向算力自主又邁進(jìn)一步。正是這樣一種令人激動的前景,激活了科技色彩愈發(fā)濃厚的中國資本市場。
V3.1,邁向Agent時(shí)代
DeepSeek 發(fā)布了 V3.1,而不是廣受期待的V4或者R2,連R1也消失了。DeepSeek變成了一個(gè)混合推理架構(gòu),即一個(gè)模型同時(shí)支持思考模式和非思考模式。這是一個(gè)趨勢,在V3.1發(fā)布一周之前,GPT-5發(fā)布了,是一個(gè)”統(tǒng)一的系統(tǒng)”,包括一個(gè)對話模型,一個(gè)思考模型,和一個(gè)實(shí)時(shí)路由用來決定如何結(jié)合對話與思考。
這次升級提高了DeepSeek的思考效率,即答對同樣的問題,消耗更少的token,花費(fèi)更短的時(shí)間。這既是經(jīng)濟(jì)上的考慮,也產(chǎn)品和用戶體驗(yàn)上的考慮,避免了過度思考,讓回答也更簡潔一些。
V3.1展示出更強(qiáng)的 Agent 能力,通過后訓(xùn)練的優(yōu)化,新模型在工具使用與智能體任務(wù)中的表現(xiàn)有較大提升。
V3.1的基礎(chǔ)模型在V3的基礎(chǔ)上重新做了外擴(kuò)訓(xùn)練,增加訓(xùn)練了840B token。它的上下文長度,思考模式和非思考模式均達(dá)到了128k。性能提升,價(jià)格下降,再次秀出它所擅長的的性價(jià)比創(chuàng)新。
這次升級讓DeepSeek在最近中國AI企業(yè)的開源熱潮中奪回領(lǐng)先優(yōu)勢,但不僅僅是想用來做科研和展示,而是要在企業(yè)服務(wù)能力上向國際前沿AI企業(yè)看齊。
DeepSeek的API Beta 接口支持了strict
模式的Function Calling,以確保輸出的Function 滿足schema 定義。這其實(shí)是大模型API在工程化能力上的一個(gè)重要升級。OpenAI、Anthropic、Mistral 等都在逐步推出 strict function calling,向企業(yè)級生產(chǎn)環(huán)境對齊。Strict模式提升了V3.1的工程可靠性和企業(yè)易用性,更容易在企業(yè)服務(wù)中替代GPT/Claude。
同樣的思路,DeepSeek增加了對Anthropic API格式的支持,“讓大家可以輕松將 DeepSeek-V3.1 的能力接入 Claude Code 框架?!蹦康氖菫榱俗屖褂肅laude Code的用戶,更容易切換到DeepSeek。這樣可以直接滲透Anthropic已經(jīng)打開的企業(yè)市場。最近Anthropic的企業(yè)服務(wù)收入,已經(jīng)超過了OpenAI。
這次升級,對于DeepSeek來說的里程碑意義,是邁向Agent時(shí)代的第一步。
對中國的AI芯片生態(tài),也具有里程碑意義。
深度求索的深水炸彈
DeepSeek在中文官微刻意強(qiáng)調(diào)、而在其英文X賬號上沒有提及的是,V3.1使用了 UE8M0 FP8 Scale 的參數(shù)精度。它還在留言處置頂:
這年頭,越是低調(diào)話少讓人有點(diǎn)看不懂,信息量越大。
在Hugginface 的模型卡中,DeepSeek又放出了一點(diǎn)信息:DeepSeek-V3.1 使用 UE8M0 FP8 縮放數(shù)據(jù)格式進(jìn)行訓(xùn)練,以確保與微縮放數(shù)據(jù)格式兼容。
簡單解釋下,F(xiàn)P8=8-bit floating point(8位浮點(diǎn)數(shù)),是一種超低精度表示方式??梢燥@著減少顯存/帶寬需求,大幅提升推理和訓(xùn)練效率,但需要精心設(shè)計(jì)縮放(scaling)來避免數(shù)值不穩(wěn)定。
UE8M0是FP8的一種數(shù)字表示格式。U表示沒有符號,E8表示8位指數(shù),M0表示沒有尾數(shù)。相比之下,英偉達(dá)在 H100、Blackwell GPU 上提供硬件級 FP8 支持,主推E4M3/E5M2格式,也是大多數(shù)模型采取的英偉達(dá)官方FP8格式。
所謂“微縮放數(shù)據(jù)格式”(Microscaling data format),即業(yè)界的Microscaling FP8 (MXFP8)標(biāo)準(zhǔn)。英偉達(dá)Blackwell GPU支持MXFP8。而V3.1訓(xùn)練所用的數(shù)值體系與MXFP8兼容,模型在推理/部署時(shí),可以直接在任何支持MXFP8 + UE8M0 的硬件(包括英偉達(dá)Blackwell、未來的國產(chǎn)GPU)上跑,不需要額外轉(zhuǎn)換,能降低內(nèi)存流量、提升矩陣乘法吞吐。
對比一下E4M3/E5M2,UE8M0是一個(gè)變體,全指數(shù),無尾數(shù),能覆蓋極寬的動態(tài)范圍,是一種低算力環(huán)境下的工程優(yōu)化。單就UE8M0而言,因?yàn)闆]有尾數(shù),也沒有精度,只用來存scale。高精度在內(nèi)部計(jì)算中使用,過程是這樣的:輸入FP8,存儲時(shí)用scale調(diào)整,計(jì)算時(shí)自動轉(zhuǎn)換FP16/BF16/FP32,做乘加運(yùn)算,輸出時(shí)再量化回FP8存儲,保證了訓(xùn)練、推理的穩(wěn)定性。
V3.1在訓(xùn)練中使用UE8M0 FP8,并且兼容MXFP8,通過軟件定義與更多芯片適配,能讓超低精度訓(xùn)練/推理在在中國自研芯片上更容易實(shí)現(xiàn)。
目前和即將采用FP8精度的國產(chǎn)GPU芯片,有寒武紀(jì)、沐曦、燧原、昇騰等,還有更多主動適配DeepSeek的芯片廠商。
英偉達(dá)的低精度之路
值得一提的是,英偉達(dá)多年來一直用低精度數(shù)字表示法提升推理和訓(xùn)練效率。例如在所謂的“”中,過去十年GPU實(shí)現(xiàn)的千倍效能提升,新的數(shù)字格式起到了最重要的作用。
英偉達(dá)的首席科學(xué)家戴利(Bill Dally),曾經(jīng)把數(shù)字表示概括為GPU算力”黃氏定律“的精髓。
在P100之前,英偉達(dá)的GPU使用單精度浮點(diǎn)數(shù)表示這些權(quán)重。根據(jù)IEEE 754標(biāo)準(zhǔn),這些數(shù)字長度為32位,其中23是尾數(shù)位,8是指數(shù)位,還有一位是符號位。
但是,機(jī)器學(xué)習(xí)研究人員很快就發(fā)現(xiàn),在許多計(jì)算中,其數(shù)字可以不必有那么高的精度,而神經(jīng)網(wǎng)絡(luò)仍然可以給出準(zhǔn)確的答案。這樣做的明顯優(yōu)勢在于,執(zhí)行機(jī)器學(xué)習(xí)的關(guān)鍵計(jì)算(乘法和累加)的邏輯可以更快、更小、更高效地完成。如果需要,就處理更少的位數(shù)(如戴利所解釋的,乘法所需的能量與位數(shù)的平方成正比)。因此,使用FP16,英偉達(dá)將該數(shù)字減少了一半。Google甚至推出了自己的版本,稱為Bfloat16。(兩者的區(qū)別在于分?jǐn)?shù)位的相對數(shù)量,這影響精度;以及指數(shù)位的相對數(shù)量,這影響范圍。Bfloat16與FP32具有相同數(shù)量的范圍位,因此更容易在這兩種格式之間切換。)
到了H100這一代,可以使用8位數(shù)字執(zhí)行大規(guī)模transformer神經(jīng)網(wǎng)絡(luò)的某些部分,例如ChatGPT和其他大型語言模型。然而,英偉達(dá)發(fā)現(xiàn)這并不是一種大小適合所有情況的解決方案。例如,英偉達(dá)的Hopper GPU架構(gòu)實(shí)際上使用兩種不同的FP8格式進(jìn)行計(jì)算,一種具有更高的精度,另一種具有更大的范圍。英偉達(dá)的竅門,在于知道何時(shí)使用哪種格式。
英偉達(dá)對超低精度的一項(xiàng)研究
加州理工教授、英偉達(dá)前研究員Anima Anandkumar指出,V3.1在訓(xùn)練中使用的UE8M0 FP8 scale數(shù)據(jù)格式,實(shí)際上是一種對數(shù)數(shù)值系統(tǒng)(LNS),來自她當(dāng)年參與的一個(gè)研究項(xiàng)目。
英偉達(dá)和加州理工的研究人員,在2021年時(shí)曾經(jīng)發(fā)表過一篇論文《LNS-Madam:在對數(shù)數(shù)值系統(tǒng)中采用乘法式權(quán)重更新的低精度訓(xùn)練》(LNS-Madam: Low-Precision Training in Logarithmic Number System using Multiplicative Weight Update),探討如何以低精度表示深度神經(jīng)網(wǎng)絡(luò)(DNN),實(shí)現(xiàn)高效加速并減少內(nèi)存占用。
如果直接用低精度權(quán)重進(jìn)行訓(xùn)練,會因低精度數(shù)值系統(tǒng)與學(xué)習(xí)算法之間的復(fù)雜交互而導(dǎo)致精度下降。為了解決這一問題,研究人員設(shè)計(jì)了對數(shù)數(shù)值系統(tǒng)(Logarithmic Number System, LNS)和乘法式權(quán)重更新算法(Madam)。他們證明了 LNS-Madam 在權(quán)重更新過程中能保持較低的量化誤差,即使在精度受限的情況下也能獲得穩(wěn)定性能。他們還進(jìn)一步提出了一種 LNS-Madam 的硬件設(shè)計(jì),解決了實(shí)現(xiàn)高效 LNS 計(jì)算數(shù)據(jù)通路中的實(shí)際挑戰(zhàn),有效降低了由 LNS-整數(shù)轉(zhuǎn)換和部分和累加(partial sum acculmlation) 帶來的能耗開銷。
實(shí)驗(yàn)結(jié)果表明,在計(jì)算機(jī)視覺和自然語言等主流任務(wù)中,LNS-Madam 僅使用 8 位精度就能實(shí)現(xiàn)與全精度相當(dāng)?shù)臏?zhǔn)確率。與FP32和FP8相比,LNS-Madam能分別降低超過90% 和 55%的能耗。
DeepSeek的超低精度創(chuàng)新
UE8M0實(shí)際上等價(jià)于 LNS 的一個(gè)極簡實(shí)現(xiàn),因此可以說UE8M0是LNS的一種特化(只保留log值的整數(shù)部分,沒有小數(shù)精度),所以Anandkumar教授才會把UE8M0縮放數(shù)據(jù)格式稱作一種LNS。
如果說LNS-Madam 一種學(xué)術(shù)探索,是重新設(shè)計(jì)數(shù)學(xué)體系+算法,是硬件和算法一體化的設(shè)計(jì)思路,UE8M0+FP8是一種在現(xiàn)有浮點(diǎn)體系上結(jié)合縮放的工程技巧。二者低精度訓(xùn)練的目標(biāo)一致,但路線完全不同。
UE8M0并不是用來直接存權(quán)重,而是用來存縮放因子(scale factor),幫助其它 FP8(E4M3/E5M2)穩(wěn)定表示數(shù)據(jù),讓 FP8能夠覆蓋更廣的數(shù)據(jù)分布,從而在硬件上更高效。
追求算力自由
回顧一下DeepSeek兩個(gè)階段的突破點(diǎn)。
首先是先榨干現(xiàn)有硬件的潛力。DeepSeek V3直接修改英偉達(dá)GPU的虛擬機(jī)指令集架構(gòu) PTX,繞過英偉達(dá)編譯器的保守策略,手工調(diào)度寄存器、warp、訪存和Tensor Core指令。把GPU算力利用率提升到極限,降低硬件受限下的訓(xùn)練/推理成本。在DeepSeek手中,A100/A800等英偉達(dá) GPU上的現(xiàn)有算力都得到最大化利用。
第二階段降低算力的物理需求。DeepSeek V3.1引入U(xiǎn)E8M0 FP8格式,讓中國國產(chǎn) AI 芯片(帶寬/算力較弱)也能高效運(yùn)行大模型。采用更緊湊的低精度浮點(diǎn)格式,大幅壓縮內(nèi)存/帶寬占用,減少計(jì)算負(fù)擔(dān),可以期待下一代國產(chǎn)GPU芯片能進(jìn)行前沿大模型訓(xùn)練推理。
DeepSeek在工程實(shí)踐中走出了一條算力自主之路:先榨取英偉達(dá),再適配國產(chǎn)芯片,最終走向算力自主。長期來看,DeepSeek將沿著軟硬件協(xié)同優(yōu)化的路線,構(gòu)建一個(gè) “算力無關(guān)”的模型生態(tài)。
中國還需要H20/B30嗎
由于技術(shù)與安全等原因,已經(jīng)傳出英偉達(dá)停止生產(chǎn)H20的消息。目前依然存在懸念的,是黃仁勛是否向中國提供B30。
回顧一下,英偉達(dá)定制H20 / B30給中國市場,因?yàn)槊绹隹诠苤平瓜蛑袊鍪跦100/H200/B100/B200等高端GPU。黃仁勛的策略,是推出縮水版芯片,為中國定制了H20(基于 Hopper)和B30(基于 Blackwell),在算力、互聯(lián)、帶寬上降低配置,但仍保持 CUDA 生態(tài)兼容,以保住中國市場,避免中國廠商快速完全轉(zhuǎn)向國產(chǎn)芯片。同時(shí)遵守美國出口管制。
即使DeepSeek魔改PTX,一時(shí)造成了英偉達(dá)股價(jià)暴跌,也并沒有影響黃仁勛的策略,老黃反而一直想見梁文鋒。因?yàn)樗睦锩靼?,也公開表達(dá)過,以中國的人才,尤其是軟件人才,實(shí)現(xiàn)AI芯片與模型生態(tài)的自主閉環(huán),只是時(shí)間問題。
沒想到的是UE8M0+ 超低精度的沖擊,以如此低調(diào)的方式釋放。它意味著中國廠商對于H20/B30的需求,正在發(fā)生微妙的變化。如果國產(chǎn)下一代GPU芯片近期推出,而且支持UE8M0+FP8 跑通大模型,英偉達(dá)的縮水卡在中國市場上的競爭力下降。一旦國產(chǎn)芯片生態(tài)完善,CUDA 生態(tài)的鎖定效應(yīng)會逐漸削弱。
中國市場還需不需要B30?有一種業(yè)內(nèi)觀點(diǎn)認(rèn)為,短期依然需要,因?yàn)閲a(chǎn)GPU產(chǎn)能、軟件生態(tài)還在追趕。大部分企業(yè),尤其是互聯(lián)網(wǎng)大廠和科研機(jī)構(gòu)等,仍依賴CUDA工具鏈和現(xiàn)成框架。H20/B30在推理與訓(xùn)練上仍然比國產(chǎn)芯片更穩(wěn)健。也許B30本身的相對先進(jìn)性,即弱于最先進(jìn)的GPU、但仍強(qiáng)于國產(chǎn)GPU,才能決定它能否得到中美兩國有關(guān)部門的接受。
隨著國產(chǎn)芯片+超低精度訓(xùn)練將逐漸跑通并規(guī)?;渴穑虚L期來看對于B30們的需求會明顯下降。國產(chǎn)AI軟件棧(昇騰CANN、寒武紀(jì) Neuware、壁仞 BIRENSUPA)逐步成熟,逐漸減少對 CUDA 的依賴。成本敏感的中國企業(yè)會更傾向國產(chǎn)方案,同時(shí)避免美國找麻煩。
英偉達(dá)的優(yōu)勢何在
UE8M0+FP8,好像是DeepSeek接過了英偉達(dá)近十年來的低精度數(shù)字表示技術(shù)的大旗,結(jié)合中國的實(shí)際進(jìn)行工程創(chuàng)新,它將加快中國下一代芯片的推出,加快以國產(chǎn)芯片解決中國大規(guī)模訓(xùn)練和推理的需求,從而形成中國AI芯片與模型的技術(shù)路線。
使用UE8M0 FP8 Scale的參數(shù)精度,適配國產(chǎn)下一代芯片,兼容MXFP8,并不意味著英偉達(dá)失去了優(yōu)勢主導(dǎo)地位,因?yàn)?G200 不只是 FP8,還帶來更大帶寬、更強(qiáng)互聯(lián)(NVLink 5)、更大顯存。軟件生態(tài)(CUDA、PyTorch 插件)也牢牢綁定 FP8,遷移到 UE8M0 需要額外工程適配。大部分國際大廠(OpenAI、Anthropic、Meta)還是會首選 G200 來追求極致性能?!包S氏定律”已經(jīng)推進(jìn)至FP4精度,英偉達(dá)還曾親自下場發(fā)布了優(yōu)化版的DeepSeek-R1-FP4,內(nèi)存需求大幅降低,基準(zhǔn)測試成績幾乎不變。
如果 UE8M0+FP8 在社區(qū)和國產(chǎn)硬件上普及,低成本訓(xùn)練路徑會弱化英偉達(dá)的必選性。這對中國廠商尤其重要,即使沒有 G200,也能在國產(chǎn) GPU 上穩(wěn)定訓(xùn)練大模型,形成去英偉達(dá)化的路線。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.