夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek新模型開源,新架構(gòu)亮了!國產(chǎn)AI芯片集體狂歡

0
分享至


智東西
作者 陳駿達
編輯 心緣

DeepSeek離下一代架構(gòu),又近了一步!

智東西9月30日報道,昨日,DeepSeek宣布開源DeepSeek-V3.2-Exp實驗版模型。該模型首次引入了DeepSeek Sparse Attention稀疏注意力機制,并在幾乎不影響模型輸出效果的前提下,大幅度提升了長文本訓練和推理效率,被DeepSeek定義為“邁向新一代架構(gòu)的中間步驟”。


HuggingFace地址:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

魔搭社區(qū)地址:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp

這一改進還降低了DeepSeek新模型的服務(wù)成本,DeepSeek因此執(zhí)行了新的價格政策,讓開發(fā)者調(diào)用DeepSeek API的成本降低50%以上。

降價幅度最大的為輸出token的價格:DeepSeek-V3.2-Exp模型輸出100萬個token的價格僅為3元,為DeepSeek-V3.1系列模型的1/4。


截至9月30日上午6點,華為云、PPIO派歐云、優(yōu)刻得等云平臺已宣布上線DeepSeek-V3.2-Exp,華為、寒武紀、海光信息等AI芯片廠商已經(jīng)宣布適配DeepSeek-V3.2-Exp。

DeepSeek-V3.2-Exp是在DeepSeek-V3.1-Terminus的基礎(chǔ)上打造的。在各領(lǐng)域的公開評測集上,兩款模型的表現(xiàn)基本一致,不過,DeepSeek-V3.2-Exp完成任務(wù)使用的token量大幅度減少。


目前,DeepSeek App、網(wǎng)頁端與小程序均已同步上線了DeepSeek-V3.2-Exp模型。DeepSeek也臨時保留了DeepSeek-V3.1-Terminus的API接口,方便開發(fā)者進行對比驗證。

除模型本體外,DeepSeek還開源了相關(guān)技術(shù)報告及代碼,并提供TileLang與CUDA雙版本GPU算子,以便研究者在不同層級進行實驗和優(yōu)化。


技術(shù)報告地址:

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

DeepSeek還補充道,作為一個實驗性的版本,DeepSeek-V3.2-Exp雖然已經(jīng)在公開評測集上得到了有效性驗證,但仍然需要在用戶的真實使用場景中進行范圍更廣、規(guī)模更大的測試,以排除在某些場景下效果欠佳的可能。

一、華為、海光、寒武紀光速適配,網(wǎng)友直呼第二個DeepSeek時刻要來了

DeepSeek-V3.2-Exp一經(jīng)推出,便在產(chǎn)業(yè)界與開發(fā)者圈子里引發(fā)熱烈反響,不少國內(nèi)企業(yè)紛紛第一時間宣布完成DeepSeek-V3.2-Exp的適配和上線。

華為計算公眾號發(fā)文宣布,昇騰已快速基于vLLM/SGLang等推理框架完成適配部署,實現(xiàn)DeepSeek-V3.2-Exp Day 0(第零天)支持,并面向開發(fā)者開源所有推理代碼和算子實現(xiàn)。DeepSeek-V3.2-Exp在昇騰設(shè)備上128K長序列輸出,能夠保持TTFT(首token輸出耗時)低于2秒、TPOT(每token輸出耗時)低于30毫秒的推理生成速度。


華為云則首發(fā)上線了DeepSeek-V3.2-Exp,還使用CloudMatrix 384超節(jié)點為該模型提供推理服務(wù)。


在DeepSeek發(fā)文宣布DeepSeek-V3.2-Exp模型開源后的4分鐘,寒武紀也發(fā)文稱其已同步實現(xiàn)對該模型的Day 0適配,并開源大模型推理引擎vLLM-MLU源代碼。

寒武紀通過Triton算子開發(fā)實現(xiàn)了快速適配,利用BangC融合算子開發(fā)實現(xiàn)了性能優(yōu)化,并基于計算與通信的并行策略,達成了較高的計算效率水平。

DeepSeek-V3.2-Exp模型的尺寸達671GB,僅下載就可能需要數(shù)小時。這種時隔4分鐘的Day 0適配,或許意味著寒武紀和DeepSeek兩家企業(yè)在模型發(fā)布前就已經(jīng)啟動適配工作。


據(jù)經(jīng)濟觀察網(wǎng)報道,海光信息的DCU(深度計算處理器)率先實現(xiàn)了對DeepSeek-V3.2-Exp的Day 0級高效適配與優(yōu)化,確保大模型算力“零等待”部署。


在DeepSeek官宣DeepSeek-V3.2-Exp開源的推文中,有不少網(wǎng)友分享了對模型的使用體驗和感受。有位網(wǎng)友稱,自己在10萬個token的代碼庫上測試了DeepSeek-V3.2-Exp,速度提升非常明顯。


有網(wǎng)友感嘆,DeepSeek API現(xiàn)在幾乎等同于免費了。


更有網(wǎng)友認為,這一模型的推出,或許意味著第二個DeepSeek時刻即將到來。


Hugging Face上,DeepSeek-V3.2-Exp的社區(qū)板塊也有不少討論,不過,關(guān)注度最高的一條帖子,是來自中國網(wǎng)友的“吐槽”:“咱這個模型是非得國慶前更新嗎?”


還有網(wǎng)友列出了DeepSeek每次更新模型的時間,幾乎都卡在節(jié)假日的前幾天。


二、一手體驗DeepSeek-V3.2-Exp,架構(gòu)創(chuàng)新或許比性能提升更重要

DeepSeek-V3.2-Exp在使用體驗上,究竟與此前的DeepSeek-V3.1-Terminus有何不同?

在編程方面,DeepSeek-V3.2-Exp撰寫的代碼明顯更為簡短了,相同的任務(wù)下,其輸出的代碼行數(shù)要少于DeepSeek-V3.1-Terminus。

不過,這在某種程度上也影響了模型的性能。DeepSeek-V3.2-Exp編寫的小球彈跳動畫代碼未能正常運行,小球直接飛出了六邊形的范圍。DeepSeek-V3.1-Terminus在智東西此前的測試中完美地完成了這一任務(wù)。


智東西還讓DeepSeek-V3.2-Exp完成了一項信息檢索任務(wù),要求它推薦幾種適合新手在陽臺盆栽的、生長快、果子能直接生吃的植物,并且要保證對小孩絕對安全,最好能附上簡單的播種技巧。

與DeepSeek-V3.1-Terminus(左)相比,DeepSeek-V3.2-Exp(右)的生成結(jié)果更為簡短,用詞也比較“樸素”。并且,DeepSeek-V3.2-Exp推薦的無花果、百香果等植物,需要進行扦插、高頻率養(yǎng)護等操作,并不符合提示詞要求的新手友好。


▲DeepSeek-V3.1-Terminus(左)與DeepSeek-V3.2-Exp(右)在信息檢索任務(wù)上的表現(xiàn)(圖源:智東西)

總體而言,DeepSeek-V3.2-Exp確實在推理效率上實現(xiàn)提升,但卻在能力上做出了一定的讓步。

知乎博主@toyama nao也在測評中發(fā)現(xiàn)了類似的問題。他認為,DeepSeek-V3.2-Exp在工作記憶、計算精度穩(wěn)定性等方面存在明顯短板,還容易有偷懶傾向和陷入死循環(huán)的可能。


▲知乎博主@toyama nao對DeepSeek-V3.2-Exp的評價

這也得到了其他網(wǎng)友觀點的印證,例如,這位網(wǎng)友便在x平臺發(fā)貼稱,并沒在這款模型上看到改進,并提出質(zhì)疑:我們?yōu)槭裁匆褂媚芰导壍哪P湍兀?/p>


作為一款實驗?zāi)P?,DeepSeek-V3.2-Exp更大的貢獻或許在于理論層面。DeepSeek稱,與DeepSeek-V3.1-Terminus相比,DeepSeek-V3.2-Exp在架構(gòu)上的唯一修改,就是通過繼續(xù)訓練引入了DeepSeek Sparse Attention。

目前的DSA機制還處在原型期,主要由兩個組件構(gòu)成:一個Lightning Indexer(閃電索引器)和一個細粒度的token選擇機制。


▲DeepSeek-V3.2-Exp架構(gòu)圖

Lightning Indexer能夠快速評估查詢token與歷史token的相關(guān)性,從選擇機制只挑選最相關(guān)的一部分上下文進入注意力計算,這讓復(fù)雜度從傳統(tǒng)的二次方降到了近似線性水平,大幅降低了訓練和推理的成本。

在訓練上,DeepSeek-V3.2-Exp采用了“繼續(xù)預(yù)訓練+后訓練”的方式。繼續(xù)預(yù)訓練分為兩個階段:首先在稠密模式下短暫訓練indexer,讓它的輸出和標準注意力保持一致;隨后引入稀疏選擇機制,逐漸讓模型適應(yīng)新的計算方式。

完成預(yù)訓練后,DeepSeek-V3.2-Exp又通過專家蒸餾和混合強化學習進行后訓練。專家蒸餾的思路是針對數(shù)學、編程、推理等不同領(lǐng)域訓練專門的專家模型,然后將這些模型的知識壓縮進通用模型。

混合強化學習則將推理、智能體能力和人類對齊訓練統(tǒng)一在一個RL階段中,避免了傳統(tǒng)多階段方法容易出現(xiàn)的遺忘問題。

技術(shù)報告顯示,DeepSeek-V3.2-Exp在大多數(shù)評測任務(wù)上的表現(xiàn)與前代基本持平,個別推理相關(guān)的測試分數(shù)略有下降,但主要原因是生成的推理token更少,如果使用中間檢查點,差距則會縮小。


相比之下,效率的提升尤為顯著。在H800 GPU的測試環(huán)境中,長序列推理的開銷明顯降低,證明DSA在真實部署中有很強的實用性。


同時,訓練曲線與前代模型保持相似的穩(wěn)定性,也表明這種架構(gòu)在收斂性上并沒有額外風險。


結(jié)語:DeepSeek邁向新一代架構(gòu)

正如其名字內(nèi)的Exp(實驗版)所言,DeepSeek-V3.2-Exp的推出,本身并不是一次性能爆表的升級,而更像是一場架構(gòu)實驗,展示了一種在長文本處理中兼顧性能和效率的新路徑。

作為技術(shù)原型,DeepSeek-V3.2-Exp背后的DSA機制或許很快就會得到進一步完善。隨著相關(guān)技術(shù)的持續(xù)優(yōu)化和更多企業(yè)、研究者參與驗證,DeepSeek有望在不久的未來交出更令人驚喜的成果。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“中方停購必和必拓鐵礦石”,澳總理急了

“中方停購必和必拓鐵礦石”,澳總理急了

觀察者網(wǎng)
2025-10-01 14:30:05
廣州地鐵體育西站首次落選客流第一,“新站王”公布!

廣州地鐵體育西站首次落選客流第一,“新站王”公布!

番禺臺
2025-10-02 00:04:16
比亞迪9月銷量近40萬再創(chuàng)新高:海外增速破百,高端品牌分化明顯

比亞迪9月銷量近40萬再創(chuàng)新高:海外增速破百,高端品牌分化明顯

汽車投訴網(wǎng)
2025-10-01 21:19:36
老人逼迫讓座被踹后續(xù):地鐵作惡只是冰山一角,牽出更多違法行為

老人逼迫讓座被踹后續(xù):地鐵作惡只是冰山一角,牽出更多違法行為

奇思妙想草葉君
2025-10-01 23:46:48
萬梓良國慶節(jié)不回長沙住處,在佛山酒吧駐唱,戴假戒指快唱不動了

萬梓良國慶節(jié)不回長沙住處,在佛山酒吧駐唱,戴假戒指快唱不動了

尋墨閣
2025-09-29 08:01:45
差12倍,小米對標不了蘋果特斯拉,吐槽雷軍是因為被當成理工傻子

差12倍,小米對標不了蘋果特斯拉,吐槽雷軍是因為被當成理工傻子

小小河
2025-10-01 00:24:19
19歲男子KTV上班,三名女孩來喝酒,男子下體過度使用成永久創(chuàng)傷

19歲男子KTV上班,三名女孩來喝酒,男子下體過度使用成永久創(chuàng)傷

丫頭舫
2025-09-22 20:39:00
亞洲最窮的國家,人民幣1塊錢能頂3000,街頭幾乎看不見一輛車

亞洲最窮的國家,人民幣1塊錢能頂3000,街頭幾乎看不見一輛車

李子櫥
2025-10-01 21:15:02
緬北明學昌家族正式團滅,明珍珍,被我國判處了死刑!

緬北明學昌家族正式團滅,明珍珍,被我國判處了死刑!

柏林觀察
2025-10-01 22:48:25
美方也無奈承認,特朗普的毒計失敗了,中國造船穩(wěn)占全球半壁江山

美方也無奈承認,特朗普的毒計失敗了,中國造船穩(wěn)占全球半壁江山

墨蘭史書
2025-10-02 04:35:03
張本智和,連續(xù)低迷的原因,只因一個,真正愛護他的人離開了。

張本智和,連續(xù)低迷的原因,只因一個,真正愛護他的人離開了。

林子說事
2025-10-01 13:16:45
金正恩發(fā)聲:朝鮮的真正敵人不是韓國和美國

金正恩發(fā)聲:朝鮮的真正敵人不是韓國和美國

微微熱評
2025-09-27 09:17:58
女生主動起來有多可怕?網(wǎng)友:你說的這些,我做夢都沒夢到過

女生主動起來有多可怕?網(wǎng)友:你說的這些,我做夢都沒夢到過

解讀熱點事件
2025-10-01 00:10:04
日軍僅一年就占領(lǐng)大半個中國,剩下7年卻寸土未進,這是為何?

日軍僅一年就占領(lǐng)大半個中國,剩下7年卻寸土未進,這是為何?

大千世界觀
2025-10-01 21:05:34
太震撼了!上海虹橋站“人從眾”模式開啟,多地高鐵站人山人?!?>
    </a>
        <h3>
      <a href=火山詩話
2025-10-01 09:42:22
亂套!16強全出爐,王楚欽苦戰(zhàn)5局,雨果下輪遇國乒球員

亂套!16強全出爐,王楚欽苦戰(zhàn)5局,雨果下輪遇國乒球員

體育插班生
2025-10-01 23:36:32
美媒:莫迪給西方上了一課,只要有中國在,美國就不敢跟印度翻臉

美媒:莫迪給西方上了一課,只要有中國在,美國就不敢跟印度翻臉

艾米手工作品
2025-10-01 16:15:45
陪玩陪睡不算什么,圈內(nèi)明星自曝的內(nèi)幕,一個比一個炸裂

陪玩陪睡不算什么,圈內(nèi)明星自曝的內(nèi)幕,一個比一個炸裂

就一點
2025-09-03 15:12:16
鬧劇結(jié)束!正式簽約,結(jié)束了,再見威少,NBA生涯恐終結(jié)

鬧劇結(jié)束!正式簽約,結(jié)束了,再見威少,NBA生涯恐終結(jié)

球童無忌
2025-10-01 20:07:00
13中13后10中9:廣東17歲鋒線天賦溢出 兩年內(nèi)長高8厘米朱總慧眼

13中13后10中9:廣東17歲鋒線天賦溢出 兩年內(nèi)長高8厘米朱總慧眼

顏小白的籃球夢
2025-10-02 03:36:00
2025-10-02 05:19:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10546文章數(shù) 116862關(guān)注度
往期回顧 全部

科技要聞

天問二號最新影像!五星紅旗與地球同框

頭條要聞

75萬公務(wù)員近7年文件全丟失 韓政府文件存儲系統(tǒng)被燒毀

頭條要聞

75萬公務(wù)員近7年文件全丟失 韓政府文件存儲系統(tǒng)被燒毀

體育要聞

蓉城獨撐中超!3隊6戰(zhàn)僅1勝 申花痛失好局

娛樂要聞

董璇母女國慶節(jié)跳舞 小酒窩眼神堅定

財經(jīng)要聞

美國聯(lián)邦政府“關(guān)門”,有何影響?

汽車要聞

零跑9月銷量突破6萬臺大關(guān) 刷新新勢力單月交付紀錄

態(tài)度原創(chuàng)

手機
房產(chǎn)
游戲
教育
公開課

手機要聞

聯(lián)想moto X70 Air輕薄手機官宣,月底見!

房產(chǎn)要聞

買房必看!十一廣州置業(yè)攻略,熱門項目優(yōu)惠提前曝光!

Bloober Team已全力開發(fā)《寂靜嶺1:重制版》

教育要聞

來上課了——高考完形填空與課內(nèi)詞匯用法精講(一)第二段

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 国产av三区| 久久先锋男人av资源网站| 国产女主播白浆在线看| vps私人毛片| 欧洲亚洲精品久久久久| 亚洲AV人人澡人夜夜人爽人人| 美女禁区a级全片免费观看| 肉大捧进出全过程免费视频| 亚洲国产精品福利片在线观看 | 狠狠亚洲婷婷综合久久一区二区| 中文字幕亚洲无线码A| 中文字幕av一区二区三区人妻少妇| 中文字幕精品久久久久人妻红杏1 精品一区二区久久久久网站 | 好屌妞这里只有精品| 亚洲综合管自拍| 亚洲欧美卡通另类丝袜美腿| 人妻av综合天堂一区| 亚洲午夜福利AV| 麻豆果冻传媒2021精品传媒一区| 精品99久久人人妻| 亚洲日韩久久综合中文字幕| 精品国产一区二区三区麻豆| 男女啪啪高潮无遮挡免费| 色欲综合一区二区在线视频| 国产蜜臀精品一区二区三区| 眼睛盯着两人结合的地方| 大陆AV男人的天堂| 国产一区二区三区日韩精品| 97中文字幕在线视频免费观看动图| 无码射肉在线播放视频| 久久精品国产亚洲av麻豆长发| 美女操逼视频播放| 日本三级网址_百度搜索| 国产色秀视频在线播放 | 75看高清无码专区视频影久| 丰满少妇猛烈进入无码| 精品国产肉丝袜久久| 国产精品推荐一页页| 高潮小受站不住了GAY片| 少妇好滑好紧好深一区二区 | 亚洲的天堂av无码|