DeepSeek新模型開源，新架構(gòu)亮了！國產(chǎn)AI芯片集體狂歡

2025-09-30 11:07:39　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯心緣

DeepSeek離下一代架構(gòu)，又近了一步！

智東西9月30日報道，昨日，DeepSeek宣布開源DeepSeek-V3.2-Exp實驗版模型。該模型首次引入了DeepSeek Sparse Attention稀疏注意力機制，并在幾乎不影響模型輸出效果的前提下，大幅度提升了長文本訓練和推理效率，被DeepSeek定義為“邁向新一代架構(gòu)的中間步驟”。

HuggingFace地址：

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

魔搭社區(qū)地址：

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp

這一改進還降低了DeepSeek新模型的服務(wù)成本，DeepSeek因此執(zhí)行了新的價格政策，讓開發(fā)者調(diào)用DeepSeek API的成本降低50%以上。

降價幅度最大的為輸出token的價格：DeepSeek-V3.2-Exp模型輸出100萬個token的價格僅為3元，為DeepSeek-V3.1系列模型的1/4。

截至9月30日上午6點，華為云、PPIO派歐云、優(yōu)刻得等云平臺已宣布上線DeepSeek-V3.2-Exp，華為、寒武紀、海光信息等AI芯片廠商已經(jīng)宣布適配DeepSeek-V3.2-Exp。

DeepSeek-V3.2-Exp是在DeepSeek-V3.1-Terminus的基礎(chǔ)上打造的。在各領(lǐng)域的公開評測集上，兩款模型的表現(xiàn)基本一致，不過，DeepSeek-V3.2-Exp完成任務(wù)使用的token量大幅度減少。

目前，DeepSeek App、網(wǎng)頁端與小程序均已同步上線了DeepSeek-V3.2-Exp模型。DeepSeek也臨時保留了DeepSeek-V3.1-Terminus的API接口，方便開發(fā)者進行對比驗證。

除模型本體外，DeepSeek還開源了相關(guān)技術(shù)報告及代碼，并提供TileLang與CUDA雙版本GPU算子，以便研究者在不同層級進行實驗和優(yōu)化。

技術(shù)報告地址：

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

DeepSeek還補充道，作為一個實驗性的版本，DeepSeek-V3.2-Exp雖然已經(jīng)在公開評測集上得到了有效性驗證，但仍然需要在用戶的真實使用場景中進行范圍更廣、規(guī)模更大的測試，以排除在某些場景下效果欠佳的可能。

一、華為、海光、寒武紀光速適配，網(wǎng)友直呼第二個DeepSeek時刻要來了

DeepSeek-V3.2-Exp一經(jīng)推出，便在產(chǎn)業(yè)界與開發(fā)者圈子里引發(fā)熱烈反響，不少國內(nèi)企業(yè)紛紛第一時間宣布完成DeepSeek-V3.2-Exp的適配和上線。

華為計算公眾號發(fā)文宣布，昇騰已快速基于vLLM/SGLang等推理框架完成適配部署，實現(xiàn)DeepSeek-V3.2-Exp Day 0（第零天）支持，并面向開發(fā)者開源所有推理代碼和算子實現(xiàn)。DeepSeek-V3.2-Exp在昇騰設(shè)備上128K長序列輸出，能夠保持TTFT（首token輸出耗時）低于2秒、TPOT（每token輸出耗時）低于30毫秒的推理生成速度。

華為云則首發(fā)上線了DeepSeek-V3.2-Exp，還使用CloudMatrix 384超節(jié)點為該模型提供推理服務(wù)。

在DeepSeek發(fā)文宣布DeepSeek-V3.2-Exp模型開源后的4分鐘，寒武紀也發(fā)文稱其已同步實現(xiàn)對該模型的Day 0適配，并開源大模型推理引擎vLLM-MLU源代碼。

寒武紀通過Triton算子開發(fā)實現(xiàn)了快速適配，利用BangC融合算子開發(fā)實現(xiàn)了性能優(yōu)化，并基于計算與通信的并行策略，達成了較高的計算效率水平。

DeepSeek-V3.2-Exp模型的尺寸達671GB，僅下載就可能需要數(shù)小時。這種時隔4分鐘的Day 0適配，或許意味著寒武紀和DeepSeek兩家企業(yè)在模型發(fā)布前就已經(jīng)啟動適配工作。

據(jù)經(jīng)濟觀察網(wǎng)報道，海光信息的DCU（深度計算處理器）率先實現(xiàn)了對DeepSeek-V3.2-Exp的Day 0級高效適配與優(yōu)化，確保大模型算力“零等待”部署。

在DeepSeek官宣DeepSeek-V3.2-Exp開源的推文中，有不少網(wǎng)友分享了對模型的使用體驗和感受。有位網(wǎng)友稱，自己在10萬個token的代碼庫上測試了DeepSeek-V3.2-Exp，速度提升非常明顯。

有網(wǎng)友感嘆，DeepSeek API現(xiàn)在幾乎等同于免費了。

更有網(wǎng)友認為，這一模型的推出，或許意味著第二個DeepSeek時刻即將到來。

Hugging Face上，DeepSeek-V3.2-Exp的社區(qū)板塊也有不少討論，不過，關(guān)注度最高的一條帖子，是來自中國網(wǎng)友的“吐槽”：“咱這個模型是非得國慶前更新嗎？”

還有網(wǎng)友列出了DeepSeek每次更新模型的時間，幾乎都卡在節(jié)假日的前幾天。

二、一手體驗DeepSeek-V3.2-Exp，架構(gòu)創(chuàng)新或許比性能提升更重要

DeepSeek-V3.2-Exp在使用體驗上，究竟與此前的DeepSeek-V3.1-Terminus有何不同？

在編程方面，DeepSeek-V3.2-Exp撰寫的代碼明顯更為簡短了，相同的任務(wù)下，其輸出的代碼行數(shù)要少于DeepSeek-V3.1-Terminus。

不過，這在某種程度上也影響了模型的性能。DeepSeek-V3.2-Exp編寫的小球彈跳動畫代碼未能正常運行，小球直接飛出了六邊形的范圍。DeepSeek-V3.1-Terminus在智東西此前的測試中完美地完成了這一任務(wù)。

智東西還讓DeepSeek-V3.2-Exp完成了一項信息檢索任務(wù)，要求它推薦幾種適合新手在陽臺盆栽的、生長快、果子能直接生吃的植物，并且要保證對小孩絕對安全，最好能附上簡單的播種技巧。

與DeepSeek-V3.1-Terminus（左）相比，DeepSeek-V3.2-Exp（右）的生成結(jié)果更為簡短，用詞也比較“樸素”。并且，DeepSeek-V3.2-Exp推薦的無花果、百香果等植物，需要進行扦插、高頻率養(yǎng)護等操作，并不符合提示詞要求的新手友好。

▲DeepSeek-V3.1-Terminus（左）與DeepSeek-V3.2-Exp（右）在信息檢索任務(wù)上的表現(xiàn)（圖源：智東西）

總體而言，DeepSeek-V3.2-Exp確實在推理效率上實現(xiàn)提升，但卻在能力上做出了一定的讓步。

知乎博主@toyama nao也在測評中發(fā)現(xiàn)了類似的問題。他認為，DeepSeek-V3.2-Exp在工作記憶、計算精度穩(wěn)定性等方面存在明顯短板，還容易有偷懶傾向和陷入死循環(huán)的可能。

▲知乎博主@toyama nao對DeepSeek-V3.2-Exp的評價

這也得到了其他網(wǎng)友觀點的印證，例如，這位網(wǎng)友便在x平臺發(fā)貼稱，并沒在這款模型上看到改進，并提出質(zhì)疑：我們?yōu)槭裁匆褂媚芰导壍哪Ｐ湍兀?/p>

作為一款實驗?zāi)Ｐ?，DeepSeek-V3.2-Exp更大的貢獻或許在于理論層面。DeepSeek稱，與DeepSeek-V3.1-Terminus相比，DeepSeek-V3.2-Exp在架構(gòu)上的唯一修改，就是通過繼續(xù)訓練引入了DeepSeek Sparse Attention。

目前的DSA機制還處在原型期，主要由兩個組件構(gòu)成：一個Lightning Indexer（閃電索引器）和一個細粒度的token選擇機制。

▲DeepSeek-V3.2-Exp架構(gòu)圖

Lightning Indexer能夠快速評估查詢token與歷史token的相關(guān)性，從選擇機制只挑選最相關(guān)的一部分上下文進入注意力計算，這讓復(fù)雜度從傳統(tǒng)的二次方降到了近似線性水平，大幅降低了訓練和推理的成本。

在訓練上，DeepSeek-V3.2-Exp采用了“繼續(xù)預(yù)訓練+后訓練”的方式。繼續(xù)預(yù)訓練分為兩個階段：首先在稠密模式下短暫訓練indexer，讓它的輸出和標準注意力保持一致；隨后引入稀疏選擇機制，逐漸讓模型適應(yīng)新的計算方式。

完成預(yù)訓練后，DeepSeek-V3.2-Exp又通過專家蒸餾和混合強化學習進行后訓練。專家蒸餾的思路是針對數(shù)學、編程、推理等不同領(lǐng)域訓練專門的專家模型，然后將這些模型的知識壓縮進通用模型。

混合強化學習則將推理、智能體能力和人類對齊訓練統(tǒng)一在一個RL階段中，避免了傳統(tǒng)多階段方法容易出現(xiàn)的遺忘問題。

技術(shù)報告顯示，DeepSeek-V3.2-Exp在大多數(shù)評測任務(wù)上的表現(xiàn)與前代基本持平，個別推理相關(guān)的測試分數(shù)略有下降，但主要原因是生成的推理token更少，如果使用中間檢查點，差距則會縮小。

相比之下，效率的提升尤為顯著。在H800 GPU的測試環(huán)境中，長序列推理的開銷明顯降低，證明DSA在真實部署中有很強的實用性。

同時，訓練曲線與前代模型保持相似的穩(wěn)定性，也表明這種架構(gòu)在收斂性上并沒有額外風險。

結(jié)語：DeepSeek邁向新一代架構(gòu)

正如其名字內(nèi)的Exp（實驗版）所言，DeepSeek-V3.2-Exp的推出，本身并不是一次性能爆表的升級，而更像是一場架構(gòu)實驗，展示了一種在長文本處理中兼顧性能和效率的新路徑。

作為技術(shù)原型，DeepSeek-V3.2-Exp背后的DSA機制或許很快就會得到進一步完善。隨著相關(guān)技術(shù)的持續(xù)優(yōu)化和更多企業(yè)、研究者參與驗證，DeepSeek有望在不久的未來交出更令人驚喜的成果。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.