DeepSeek R2 遲遲不發(fā)布的原因找到了。
據(jù)金融時(shí)報(bào)報(bào)道,DeepSeek 本來要在 5 月份發(fā)布新模型 R2,結(jié)果拖到現(xiàn)在,原因竟然是...芯片「不給力」?
事情是這樣的:在沒有足夠的 H20 芯片的情況下,DeepSeek 原本想用華為昇騰芯片來訓(xùn)練新模型,以減少對(duì)英偉達(dá)技術(shù)的依賴。
然而在實(shí)際應(yīng)用中,團(tuán)隊(duì)遇到了一些技術(shù)障礙,據(jù)知情人士透露,華為專門派了一支工程師團(tuán)隊(duì)到 DeepSeek 辦公室駐場(chǎng)。
報(bào)道稱,即便有現(xiàn)場(chǎng)支持,也還未能實(shí)現(xiàn)穩(wěn)定的訓(xùn)練運(yùn)行。DeepSeek 團(tuán)隊(duì)最終不得不采用混合方案:使用英偉達(dá)芯片進(jìn)行訓(xùn)練,而將華為芯片用于推理環(huán)節(jié)。
簡(jiǎn)單解釋一下,訓(xùn)練是指讓 AI 模型從海量數(shù)據(jù)中學(xué)習(xí)的過程,而推理則是訓(xùn)練完成的模型執(zhí)行具體任務(wù)的階段,比如響應(yīng)用戶查詢。
不過,盡管訓(xùn)練環(huán)節(jié)遇挫,DeepSeek 并未放棄與華為的合作,雙方仍在努力讓 R2 模型在推理環(huán)節(jié)能夠「跑通」昇騰芯片。
另據(jù)了解,DeepSeek 創(chuàng)始人梁文鋒對(duì) R2 的進(jìn)展很不滿意,一直在推動(dòng)團(tuán)隊(duì)投入更多時(shí)間來完善模型,加上數(shù)據(jù)標(biāo)注也比預(yù)期耗時(shí)更長(zhǎng),所以發(fā)布時(shí)間就這樣一拖再拖。
值得注意的是,雖然近期市場(chǎng)傳言 DeepSeek R2 將于本月中下旬發(fā)布,但騰訊科技援引接近該公司的消息源確認(rèn),這一傳言并不屬實(shí),DeepSeek R2 在 8 月內(nèi)確實(shí)沒有發(fā)布計(jì)劃。
截至發(fā)稿前,DeepSeek 和華為均未對(duì)上述報(bào)道作出回應(yīng)。
附上原報(bào)道地址:
https://www.ft.com/content/eb984646-6320-4bfe-a78d-a1da2274b092
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.