國慶長假在即,Deepseek又放大招了!
9月29日,DeepSeek-V3.2-Exp模型正式在Hugging Face平臺(tái)發(fā)布并開源。
該版本作為邁向下一代架構(gòu)的重要中間步驟,在 V3.1-Terminus 的基礎(chǔ)上引入了團(tuán)隊(duì)自研的 DeepSeek Sparse Attention (DSA) 稀疏注意力機(jī)制,旨在對長文本的訓(xùn)練和推理效率進(jìn)行探索性優(yōu)化與驗(yàn)證,這種架構(gòu)能夠降低計(jì)算資源消耗并提升模型推理效率。
目前,華為云已完成對 DeepSeek-V3.2-Exp模型的適配工作,最大可支持160K長序列上下文長度。
核心技術(shù)突破:DeepSeek Sparse Attention (DSA)
DeepSeek Sparse Attention(DSA)首次實(shí)現(xiàn)了細(xì)粒度稀疏注意力機(jī)制。DeepSeek 方面表示,這項(xiàng)技術(shù)在幾乎不影響模型輸出效果的前提下,大幅提升了長文本場景下的訓(xùn)練和推理效率。
為了確保評估的嚴(yán)謹(jǐn)性,DeepSeek-V3.2-Exp 的訓(xùn)練設(shè)置與前代 V3.1-Terminus 進(jìn)行了嚴(yán)格對齊。測試結(jié)果顯示,該模型在各大公開評測集上的表現(xiàn)與 V3.1-Terminus 基本持平,有效性得到了初步驗(yàn)證。
API成本將降低50%以上
隨著新模型服務(wù)成本的顯著降低,DeepSeek 同步采取了重磅舉措:大幅下調(diào)官方 API 價(jià)格,降價(jià)幅度超過 50%,新價(jià)格已即刻生效。目前,官方 App、網(wǎng)頁端和小程序均已同步更新至 DeepSeek-V3.2-Exp 版本。
DeepSeek 現(xiàn)已將 DeepSeek-V3.2-Exp 模型在 Huggingface 和 ModelScope 平臺(tái)上全面開源,相關(guān)論文也已同步公開。
作為一款實(shí)驗(yàn)性版本,DeepSeek 認(rèn)識(shí)到模型仍需在更廣泛的用戶真實(shí)場景中進(jìn)行大規(guī)模測試。為便于開發(fā)者進(jìn)行效果對比,DeepSeek 為 V3.1-Terminus 版本臨時(shí)保留了 API 訪問接口,且調(diào)用價(jià)格與 V3.2-Exp 保持一致。該對比接口將保留至北京時(shí)間 2025 年 10 月 15 日 23:59。
此外,為支持社區(qū)研究,DeepSeek 還開源了新模型研究中設(shè)計(jì)和實(shí)現(xiàn)的 GPU 算子,包括 TileLang 和 CUDA 兩種版本。團(tuán)隊(duì)建議社區(qū)在進(jìn)行研究性實(shí)驗(yàn)時(shí),優(yōu)先使用基于 TileLang 的版本,以便于調(diào)試和快速迭代。
?星標(biāo)華爾街見聞,好內(nèi)容不錯(cuò)過?
本文不構(gòu)成個(gè)人投資建議,不代表平臺(tái)觀點(diǎn),市場有風(fēng)險(xiǎn),投資需謹(jǐn)慎,請獨(dú)立判斷和決策。
覺得好看,請點(diǎn)“在看”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.