網易首頁 > 網易號 > 正文申請入駐

梁文鋒又發(fā)新論文，DeepSeek R2呼之欲出

2025-05-17 11:17:28　來源: 白鯨實驗室one

北京舉報

分享至

重要通知：我們開了個新號“白鯨實驗室”，無論是之前認識八尺的老朋友，還是熱心關注商業(yè)和AI的新朋友，歡迎點擊，移步“白鯨實驗室”。我們的原創(chuàng)文章也會率先發(fā)在“白鯨實驗室”上。

“白鯨實驗室”，致力于給大家提供深刻的行業(yè)洞察和有價值的信息，記錄個體在浪潮中的認知躍遷，對抗技術喧囂中的認知迷霧。AI 時代愿我們共同成長。

自DeepSeek出圈以來，梁文鋒和DeepSeek的舉動一直是行業(yè)關注的焦點。最近DeepSeek 團隊發(fā)布最新DeepSeek-V3論文，有自媒體評價：實現了DeepSeek R2發(fā)布前的關鍵技術突破。

4月份就有傳言，DeepSeek R2會在5月正式發(fā)布，如今5月已經過去一半，DeepSeek R2仍猶抱琵琶半遮面。

DeepSeek R1 是基于V3基座模型進行訓練的，所以V3論文中涉及的參數，也大概率決定著R2的性能。這篇論文相當于R2大餐上桌前的小菜，充滿噱頭，一時挑起大家對 R2期待。

目前圈內對DeepSeek R2的推測，普遍有這三點：參數規(guī)模將提升約1倍達到了1.2萬億，成本僅僅是GPT-4o的2.7%，支持多模態(tài)。

近幾個月，國內大廠一方面接入DeepSeekR1，另一方面也不斷對自家的大模型進行迭代，試圖在搶占用戶的同時，建立技術壁壘。大廠的自研大模型，也都會對標DeepSeekR1，以至于對行動稍顯遲緩的DeepSeekR1形成圍攻之勢。

3月16日，文心一言推出原生多模態(tài)模型，支持文本、圖像、視頻跨模態(tài)轉換（如文本生成視頻），并強化深度思考能力，在數學推理（MATH-500 測試 97.3%）和代碼生成（LiveCodeBench 通過率 65.9%）上逼近 DeepSeek R1 水平。

通義千問推出Qwen2.5-Max，在數學（AIME 2024 準確率 79.8%）、編程（Codeforces 競賽 2029 Elo 評級）和多模態(tài)（視頻生成）上全面升級，性能超越 DeepSeek V3。

Qwen3的訓練數據規(guī)模更是超越DeepSeek R1 ，預訓練數據量達36 萬億 token（覆蓋 119 種語言），是 DeepSeek-R1 的兩倍多，其合成數據生成策略，如通過多模態(tài)模型從 PDF 提取文本、生成代碼片段，進一步提升了數據多樣性和質量。

不難看出，大廠一旦開始卷大模型性能，直接撼動DeepSeekR1在過去幾個月在行業(yè)里的標桿地位。事實上，DeepSeek自 2 月火爆以來，國內外的大模型就開始加快迭代節(jié)奏，導致DeepSeek的用戶量一直在下降。

今年2月DeepSeek-R1出現了一波現象級傳播，僅僅2周時間內就占據了50%以上份額，徹底打破了OpenAI的壟斷局面。而在此前，該分類100%份額均為OpenAI旗下o1、o1-mini所占據。

3月，Anthropic的Claude-3.7-Sonnet-Reasonig模型出現，DeepSeek-R1所占份額有所下降。3月底，谷歌的Gemini-2.5-Pro在入場擠壓Claude 3.7的同時，也進一步壓縮了DeepSeek的份額。

到了5月14日，全球最大的大模型整合應用平臺Poe發(fā)布數據顯示，DeepSeek-R1模型使用率，已由2月的峰值下降了50%，目前處于推理模型分類中的第三位。Gemini-2.5-Pro通過6周時間實現了31.5%的份額，暫處于第一名，緊隨其后的Claude-3.7為19.1%。

DeepSeek無論是性能還是市場都已經失去絕對的優(yōu)勢，考驗梁文鋒團隊的是盡快迭代產品。

有趣的是，這次梁文鋒發(fā)論文的時機略顯孤獨，沒有遇上老對手——月之暗面的楊植麟。

今年以來，梁文鋒與楊植麟的論文多次撞車，成為業(yè)內一大談資。兩人都是計算機專業(yè)人才和創(chuàng)業(yè)者，被看作國內大模型領軍人物，從他們團隊的技術論文一定程度上能看出國內大模型的演進趨勢，撞車似乎有著英雄所見略同的意味。

他們的論文撞車，背后也是對AI基礎理論話語權的爭奪?，F在我們來通過技術比對，看看這對冤家是怎么一次次撞車的。

2025年2月18日，DeepSeek 與月之暗面幾乎同時發(fā)布論文，分別提出原生稀疏注意力（NSA）和塊注意力混合架構（MoBA），均旨在優(yōu)化 Transformer 核心的全注意力機制，提升長上下文處理效率。

DeepSeek NSA的核心思路是，通過語義壓縮（將序列分塊降維）、動態(tài)選擇（重要性采樣）和滑動窗口（局部上下文連貫性）三環(huán)節(jié)，將計算復雜度從 O(n2) 優(yōu)化至 O(n2/k)，并結合硬件顯存復用技術降低 40% 內存訪問頻次。性能表現上，處理 64k 標記序列時速度提升 11.6 倍，訓練效率顯著優(yōu)于傳統(tǒng)注意力機制。

月之暗面 MoBA是引入門控網絡動態(tài)選擇，與當前塊最相關的 Top-K 塊進行注意力計算，同時結合 FlashAttention 和 MoE（專家混合模型）進一步優(yōu)化。根據論文，MoBA的計算復雜度隨著上下文長度增加而優(yōu)勢明顯，在 10M token 測試中提速 16 倍，已應用于 Kimi 產品處理超長上下文任務。

兩者的 “撞車” 推動學術界重新審視注意力機制的優(yōu)化路徑，OpenAI 在同期論文中，引用兩者作為長文本處理的代表性方案。

今年4月，雙方再次在數學定理證明領域推出競爭產品。DeepSeek-Prover-V2，參數規(guī)模6710億，基于 DeepSeek-V3 微調，采用子目標分解強化學習，在 miniF2F 測試中通過率88.9%，解決49道普特南測試題。核心技術是將復雜問題拆解為可驗證的子目標鏈，結合動態(tài)規(guī)劃優(yōu)化證明路徑。

而月之暗面的Kimina-Prover開源1.5B和7B版本，采用獎勵模型引導的自主探索，miniF2F通過率80.7%，解決10道普特南測試題，通過形式化邏輯約束減少幻覺，提升數學推理的可解釋性。

訓練數據上，DeepSeek-Prover-V2依賴數學論文與競賽數據集，瞄準高精度復雜推理，如學術定理證明。月之暗面則融合教科書與習題數據，覆蓋更廣用戶群體，側重輕量化適配，如教育領域的數學輔導。

不難看出，DeepSeek致力于把技術做得精深，而月之暗面似乎更在乎如何落地應用。

更早之前的一次撞車發(fā)生在今年 1 月，直接讓兩者的地位發(fā)生逆轉，默默無聞的DeepSeek 一躍成為黑馬并迅速出圈，而此前一直名聲大噪的Kimi落寞下去。

今年1月20號，DeepSeek R1 與 Kimi K1.5 在同一天發(fā)布，這兩篇論文同時把目標瞄準了RL推動的推理模型。

DeepSeek R1 通過兩階段訓練，先是借助純強化學習（RL）訓練的大語言模型 R1-Zero和V3生成CoT推理數據，冷啟動數據初始化模型，后進行二次優(yōu)化，解決多語言混合的邏輯連貫性，這使得其在數學競賽 AIME 2024中準確率從 15.6% 躍升至 71.0%，多數投票后達86.7%，逼近 OpenAI o1的水平。

相比之下，Kimi K1.5雖采用 RL 訓練，依賴長上下文擴展（128k）和部分軌跡回放等技術優(yōu)化。其數學推理準確率（96.2%）略低于 DeepSeek R1（97.3%），且未在純 RL 領域實現同等突破。

這兩種方法在OpenAi或者業(yè)內人看來，并沒有技術上的優(yōu)勢差異，殊途同歸，借助強化學習實現了推理能力。

事實上仔細閱讀這兩篇技術報告會發(fā)現，在K1.5的論文里，月之暗面對如何訓練一個推理模型做了更詳細的分享，甚至單從信息度和細節(jié)程度上，它是高過R1論文的。但之后DeepSeek爆紅出圈，沒人會再討論這篇論文。

這場由國內兩家頭部大模型公司展開的技術斗法，很少被人深入探討，大家的目光似乎都聚焦在勝出者梁文鋒身上，沒人在乎第二名。當然，DeepSeek的勝出除了一些參數上的優(yōu)勢外，還有開源、訓練成本降低等原因。

不管怎樣，你追我趕的技術競爭導致的結果是，目前 DeepSeek 仍處于上風。對楊植麟而言，內心大概有種“既生瑜，何生亮”的況味。

DeepSeek爆火以后，Kimi在產品迭代上并沒有明顯增進，各大排行榜都未見其身影。反而一直延續(xù)此前爭取“用戶留存”的策略，和財新合作，增加引用資料的權威性；四月份Kimi自建社區(qū)，試圖做AI內容平臺；本月又和小紅書合作，在小紅書里接入對話框。

顯然，這些技術之外的操作并未撼動 DeepSeek的地位。

DeepSeek的對手早已不是Kimi，而是持續(xù)進行飽和式投入的各大廠。

近幾個月，豆包、通義千問、元寶、文心一言更是在大模型上的頻繁迭代，且進行聲勢浩大的營銷。反觀DeepSeek，出圈后尚未有什么大動作，在當前迭代周期按照月來計算的節(jié)奏下，已顯得慢了許多。

本次DeepSeek團隊發(fā)布的DeepSeek-V3論文，深度解析了硬件架構與模型設計的雙重創(chuàng)新，為大規(guī)模高效訓練與推理提供了突破性思路。

值得關注的是，梁文鋒參與論文撰寫，排在倒數第五位，通訊地址顯示為中國北京，這意味著該研究主要由DeepSeek北京團隊主導。

很多人大概不知道，2023年5月，DeepSeek最初在北京成立了“北京深度求索”作為運營主體，地址在北京市海淀區(qū)科學院南路。但兩個月后又在杭州重新成立了“杭州深度求索”，并將北京公司變?yōu)楹贾莨镜娜Y子公司。

這不是DeepSeek-V3相關技術內容第一次面向公眾。DeepSeek-V3基礎版技術報告于2024年12月首次發(fā)布，今年3月24日DeepSeek發(fā)布的V3-0324版本技術報告，則聚焦于小版本迭代的核心突破，基于V3基礎模型的后訓練優(yōu)化，重點提升代碼生成、推理效率和中文能力，同時調整開源協(xié)議以推動商用普及。

而本篇DeepSeek-V3論文，主要論述硬件感知模型協(xié)同設計如何有效應對這些挑戰(zhàn)，從而實現經濟高效的大規(guī)模訓練和推理。

原有大語言模型，內存容量不足、計算效率低下、互連帶寬受限等硬件瓶頸日益凸顯。DeepSeek-V3在多項關鍵指標上實現了跨越式突破：僅依托2048塊H800 GPU訓練，便達成FP8訓練準確率損失小于0.25%的優(yōu)異表現，單token訓練成本低至250 GFLOPS，相較405B密集模型的2.45 TFLOPS成本顯著優(yōu)化；其KV緩存更壓縮至單token 70 KB，僅為Llama-3.1的1/7。

這些亮眼數據背后，是DeepSeek在模型架構與AI基礎設施層面的改進。

內存效率革新：多頭潛在注意力（MLA）。針對傳統(tǒng)模型多輪對話中KV緩存爆炸式增長的難題，MLA技術通過共享投影矩陣，將各注意力頭的KV向量壓縮為統(tǒng)一潛在向量，如同對數據進行“語義壓縮”，直接將推理內存占用減半。搭配FP8混合精度訓練，模型參數存儲體積減少50%，同時創(chuàng)新性提出LogFMT對數空間量化方案，在相同比特下實現更高精度，有效破解AI內存墻困境。

計算-通信優(yōu)化：混合專家（MoE）架構。DeepSeekMoE將模型拆解為“專家團隊”，每個token僅激活37B參數（總參數671B），打破傳統(tǒng)稠密模型全參數在線的高成本模式。該設計使訓練成本大幅可控，結合KTransformers框架，DeepSeek-V3可在萬元級消費級GPU服務器上實現近20TPS推理速度，配備AI芯片的PC端亦可流暢運行，顯著降低中小企業(yè)與開發(fā)者的使用門檻。

推理效率躍升：多維度加速技術。引入多token預測（MTP）框架，實現候選詞批量生成與并行驗證，顛覆傳統(tǒng)自回歸模型逐字輸出的低效模式。通過重疊計算與通信、構建高帶寬縱向擴展網絡，充分釋放GPU算力潛力，大幅提升吞吐量。同時采用“測試時縮放”技術，根據任務復雜度動態(tài)調配資源，簡單任務快速響應，復雜任務（如數學推理）智能調用更多算力。

集群架構突破：兩層多層胖樹（MPFT）網絡拓撲。創(chuàng)新性構建8個獨立平面實現故障隔離與負載均衡，在保持全到全通信性能的同時，使集群成本降低40%以上，為大規(guī)模模型訓練的集群擴展提供高性價比解決方案。

論文中，DeepSeek還系統(tǒng)性提出從硬件架構演進視角出發(fā)的六大未來挑戰(zhàn)與解決方案，覆蓋內存、互連、網絡、計算等核心領域，為下一代AI基礎設施升級繪制了路線圖，其技術洞察有望成為行業(yè)發(fā)展的重要風向標。

盡管如此，一切都要等待DeepSeek-R2 發(fā)布后。DeepSeek能否憑借R2 再次爆火，外界滿懷期待，但也是個懸念。

DeepSeek-R2會讓人類攀登AGI 這座高峰時更進一步嗎？歡迎評論區(qū)留言。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.