國慶前放大招！DeepSeek-V3.2-Exp發(fā)布并開源，API成本將降低50%以上

2025-09-29 20:26:44　來源: 華爾街見聞官方

上海舉報(bào)

分享至

國慶長假在即，Deepseek又放大招了！

9月29日，DeepSeek-V3.2-Exp模型正式在Hugging Face平臺(tái)發(fā)布并開源。

該版本作為邁向下一代架構(gòu)的重要中間步驟，在 V3.1-Terminus 的基礎(chǔ)上引入了團(tuán)隊(duì)自研的 DeepSeek Sparse Attention (DSA) 稀疏注意力機(jī)制，旨在對長文本的訓(xùn)練和推理效率進(jìn)行探索性優(yōu)化與驗(yàn)證，這種架構(gòu)能夠降低計(jì)算資源消耗并提升模型推理效率。

目前，華為云已完成對 DeepSeek-V3.2-Exp模型的適配工作，最大可支持160K長序列上下文長度。

核心技術(shù)突破：DeepSeek Sparse Attention (DSA)

DeepSeek Sparse Attention（DSA）首次實(shí)現(xiàn)了細(xì)粒度稀疏注意力機(jī)制。DeepSeek 方面表示，這項(xiàng)技術(shù)在幾乎不影響模型輸出效果的前提下，大幅提升了長文本場景下的訓(xùn)練和推理效率。

為了確保評估的嚴(yán)謹(jǐn)性，DeepSeek-V3.2-Exp 的訓(xùn)練設(shè)置與前代 V3.1-Terminus 進(jìn)行了嚴(yán)格對齊。測試結(jié)果顯示，該模型在各大公開評測集上的表現(xiàn)與 V3.1-Terminus 基本持平，有效性得到了初步驗(yàn)證。

API成本將降低50%以上

隨著新模型服務(wù)成本的顯著降低，DeepSeek 同步采取了重磅舉措：大幅下調(diào)官方 API 價(jià)格，降價(jià)幅度超過 50%，新價(jià)格已即刻生效。目前，官方 App、網(wǎng)頁端和小程序均已同步更新至 DeepSeek-V3.2-Exp 版本。

DeepSeek 現(xiàn)已將 DeepSeek-V3.2-Exp 模型在 Huggingface 和 ModelScope 平臺(tái)上全面開源，相關(guān)論文也已同步公開。

作為一款實(shí)驗(yàn)性版本，DeepSeek 認(rèn)識(shí)到模型仍需在更廣泛的用戶真實(shí)場景中進(jìn)行大規(guī)模測試。為便于開發(fā)者進(jìn)行效果對比，DeepSeek 為 V3.1-Terminus 版本臨時(shí)保留了 API 訪問接口，且調(diào)用價(jià)格與 V3.2-Exp 保持一致。該對比接口將保留至北京時(shí)間 2025 年 10 月 15 日 23:59。

此外，為支持社區(qū)研究，DeepSeek 還開源了新模型研究中設(shè)計(jì)和實(shí)現(xiàn)的 GPU 算子，包括 TileLang 和 CUDA 兩種版本。團(tuán)隊(duì)建議社區(qū)在進(jìn)行研究性實(shí)驗(yàn)時(shí)，優(yōu)先使用基于 TileLang 的版本，以便于調(diào)試和快速迭代。

?星標(biāo)華爾街見聞，好內(nèi)容不錯(cuò)過?

本文不構(gòu)成個(gè)人投資建議，不代表平臺(tái)觀點(diǎn)，市場有風(fēng)險(xiǎn)，投資需謹(jǐn)慎，請獨(dú)立判斷和決策。

覺得好看，請點(diǎn)“在看”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.