日前,DeepSeek方面正式發(fā)布、并開源新一代模型DeepSeek-V3.2-Exp。據(jù)了解,此次更新已同步覆蓋DeepSeek官方App、網(wǎng)頁端、小程序,以及API。
據(jù)DeepSeek方面介紹,DeepSeek-V3.2-Exp是一個實驗性(Experimental)的版本。作為邁向新一代架構的中間步驟,該模型在DeepSeek-V3.1-Terminus的基礎上引入DeepSeek Sparse Attention(一種稀疏注意力機制),并針對長文本的訓練和推理效率進行了探索性的優(yōu)化和驗證。
據(jù)悉,DeepSeek Sparse Attention首次實現(xiàn)了細粒度稀疏注意力機制,在幾乎不影響模型輸出效果的前提下,實現(xiàn)了長文本訓練和推理效率的大幅提升。為評估引入稀疏注意力帶來的影響,DeepSeek方面將DeepSeek-V3.2-Exp的訓練設置與DeepSeek-V3.1-Terminus進行了嚴格的對齊。測評結果顯示,在各領域的公開評測集上,DeepSeek-V3.2-Exp的表現(xiàn)與DeepSeek-V3.1-Terminus基本持平。
此外值得一提的是,得益于服務成本的大幅降低,DeepSeek-V3.2-Exp API的價格也相應下調。在新的價格政策下,開發(fā)者調用DeepSeek API的成本將降低50%以上。
DeepSeek方面還指出,雖然DeepSeek-V3.2-Exp已經(jīng)在公開評測集上得到了有效性驗證,但仍需要在用戶的真實使用場景中進行范圍更廣、規(guī)模更大的測試。因此為方便用戶進行對比測試,其為V3.1-Terminus臨時保留了額外的API訪問接口。
這一API接口將保留到北京時間2025年10月15日23:59,調用價格則與DeepSeek-V3.2-Exp相同。
【本文圖片來自網(wǎng)絡】
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.