夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

梁文鋒又發(fā)新論文,DeepSeek R2呼之欲出

0
分享至



重要通知:我們開了個新號“白鯨實驗室”,無論是之前認識八尺的老朋友,還是熱心關注商業(yè)和AI的新朋友,歡迎點擊,移步“白鯨實驗室”。 我們的原創(chuàng)文章也會率先發(fā)在“白鯨實驗室”上。

“白鯨實驗室”,致力于給大家提供深刻的行業(yè)洞察和有價值的信息, 記錄個體在浪潮中的認知躍遷,對抗技術喧囂中的認知迷霧。AI 時代愿我們共同成長。

01

自DeepSeek出圈以來 ,梁文鋒和DeepSeek的舉動一直是行業(yè)關注的焦點。最近DeepSeek 團隊發(fā)布最新DeepSeek-V3論文,有自媒體評價:實現了DeepSeek R2發(fā)布前的關鍵技術突破。


4月份就有傳言,DeepSeek R2會在5月正式發(fā)布,如今5月已經過去一半,DeepSeek R2仍猶抱琵琶半遮面。

DeepSeek R1 是基于V3基座模型進行訓練的,所以V3論文中涉及的參數,也大概率決定著R2的性能。這篇論文相當于R2大餐上桌前的小菜,充滿噱頭,一時挑起大家對 R2期待。

目前圈內對DeepSeek R2的推測,普遍有這三點:參數規(guī)模將提升約1倍達到了1.2萬億,成本僅僅是GPT-4o的2.7%,支持多模態(tài)。

近幾個月,國內大廠一方面接入DeepSeekR1,另一方面也不斷對自家的大模型進行迭代,試圖在搶占用戶的同時,建立技術壁壘。大廠的自研大模型,也都會對標DeepSeekR1,以至于對行動稍顯遲緩的DeepSeekR1形成圍攻之勢。

3月16日,文心一言推出原生多模態(tài)模型,支持文本、圖像、視頻跨模態(tài)轉換(如文本生成視頻),并強化深度思考能力,在數學推理(MATH-500 測試 97.3%)和代碼生成(LiveCodeBench 通過率 65.9%)上逼近 DeepSeek R1 水平。

通義千問推出Qwen2.5-Max,在數學(AIME 2024 準確率 79.8%)、編程(Codeforces 競賽 2029 Elo 評級)和多模態(tài)(視頻生成)上全面升級,性能超越 DeepSeek V3。

Qwen3的訓練數據規(guī)模更是超越DeepSeek R1 ,預訓練數據量達36 萬億 token(覆蓋 119 種語言),是 DeepSeek-R1 的兩倍多,其合成數據生成策略,如通過多模態(tài)模型從 PDF 提取文本、生成代碼片段,進一步提升了數據多樣性和質量。

不難看出,大廠一旦開始卷大模型性能,直接撼動DeepSeekR1在過去幾個月在行業(yè)里的標桿地位。事實上,DeepSeek自 2 月火爆以來,國內外的大模型就開始加快迭代節(jié)奏,導致DeepSeek的用戶量一直在下降。

今年2月DeepSeek-R1出現了一波現象級傳播,僅僅2周時間內就占據了50%以上份額,徹底打破了OpenAI的壟斷局面。而在此前,該分類100%份額均為OpenAI旗下o1、o1-mini所占據。

3月,Anthropic的Claude-3.7-Sonnet-Reasonig模型出現,DeepSeek-R1所占份額有所下降。3月底,谷歌的Gemini-2.5-Pro在入場擠壓Claude 3.7的同時,也進一步壓縮了DeepSeek的份額。

到了5月14日,全球最大的大模型整合應用平臺Poe發(fā)布數據顯示,DeepSeek-R1模型使用率,已由2月的峰值下降了50%,目前處于推理模型分類中的第三位。Gemini-2.5-Pro通過6周時間實現了31.5%的份額,暫處于第一名,緊隨其后的Claude-3.7為19.1%。

DeepSeek無論是性能還是市場都已經失去絕對的優(yōu)勢,考驗梁文鋒團隊的是盡快迭代產品。

02

有趣的是,這次梁文鋒發(fā)論文的時機略顯孤獨,沒有遇上老對手——月之暗面的楊植麟。

今年以來,梁文鋒與楊植麟的論文多次撞車,成為業(yè)內一大談資。兩人都是計算機專業(yè)人才和創(chuàng)業(yè)者,被看作國內大模型領軍人物,從他們團隊的技術論文一定程度上能看出國內大模型的演進趨勢,撞車似乎有著英雄所見略同的意味。

他們的論文撞車 ,背后也是對AI基礎理論話語權的爭奪?,F在我們來通過技術比對,看看這對冤家是怎么一次次撞車的。

2025年2月18日,DeepSeek 與月之暗面幾乎同時發(fā)布論文,分別提出原生稀疏注意力(NSA)和塊注意力混合架構(MoBA),均旨在優(yōu)化 Transformer 核心的全注意力機制,提升長上下文處理效率。

DeepSeek NSA的核心思路是,通過語義壓縮(將序列分塊降維)、動態(tài)選擇(重要性采樣)和滑動窗口(局部上下文連貫性)三環(huán)節(jié),將計算復雜度從 O(n2) 優(yōu)化至 O(n2/k),并結合硬件顯存復用技術降低 40% 內存訪問頻次。性能表現上,處理 64k 標記序列時速度提升 11.6 倍,訓練效率顯著優(yōu)于傳統(tǒng)注意力機制。

月之暗面 MoBA是引入門控網絡動態(tài)選擇,與當前塊最相關的 Top-K 塊進行注意力計算,同時結合 FlashAttention 和 MoE(專家混合模型)進一步優(yōu)化。根據論文,MoBA的計算復雜度隨著上下文長度增加而優(yōu)勢明顯,在 10M token 測試中提速 16 倍,已應用于 Kimi 產品處理超長上下文任務。


兩者的 “撞車” 推動學術界重新審視注意力機制的優(yōu)化路徑,OpenAI 在同期論文中,引用兩者作為長文本處理的代表性方案。

今年4月,雙方再次在數學定理證明領域推出競爭產品。DeepSeek-Prover-V2,參數規(guī)模6710億,基于 DeepSeek-V3 微調,采用子目標分解強化學習,在 miniF2F 測試中通過率88.9%,解決49道普特南測試題。核心技術是將復雜問題拆解為可驗證的子目標鏈,結合動態(tài)規(guī)劃優(yōu)化證明路徑。

而月之暗面的Kimina-Prover開源1.5B和7B版本,采用獎勵模型引導的自主探索,miniF2F通過率80.7%,解決10道普特南測試題,通過形式化邏輯約束減少幻覺,提升數學推理的可解釋性。

訓練數據上,DeepSeek-Prover-V2依賴數學論文與競賽數據集,瞄準高精度復雜推理,如學術定理證明。月之暗面則融合教科書與習題數據,覆蓋更廣用戶群體,側重輕量化適配,如教育領域的數學輔導。

不難看出,DeepSeek致力于把技術做得精深,而月之暗面似乎更在乎如何落地應用。

更早之前的一次撞車發(fā)生在今年 1 月,直接讓兩者的地位發(fā)生逆轉,默默無聞的DeepSeek 一躍成為黑馬并迅速出圈,而此前一直名聲大噪的Kimi落寞下去。

今年1月20號,DeepSeek R1 與 Kimi K1.5 在同一天發(fā)布,這兩篇論文同時把目標瞄準了RL推動的推理模型。

DeepSeek R1 通過兩階段訓練,先是借助純強化學習(RL)訓練的大語言模型 R1-Zero和V3生成CoT推理數據,冷啟動數據初始化模型,后進行二次優(yōu)化,解決多語言混合的邏輯連貫性,這使得其在數學競賽 AIME 2024中準確率從 15.6% 躍升至 71.0%,多數投票后達86.7%,逼近 OpenAI o1的水平。

相比之下,Kimi K1.5雖采用 RL 訓練,依賴長上下文擴展(128k)和部分軌跡回放等技術優(yōu)化。其數學推理準確率(96.2%)略低于 DeepSeek R1(97.3%),且未在純 RL 領域實現同等突破。

這兩種方法在OpenAi或者業(yè)內人看來,并沒有技術上的優(yōu)勢差異,殊途同歸,借助強化學習實現了推理能力。

事實上仔細閱讀這兩篇技術報告會發(fā)現,在K1.5的論文里,月之暗面對如何訓練一個推理模型做了更詳細的分享,甚至單從信息度和細節(jié)程度上,它是高過R1論文的。但之后DeepSeek爆紅出圈,沒人會再討論這篇論文。

這場由國內兩家頭部大模型公司展開的技術斗法,很少被人深入探討,大家的目光似乎都聚焦在勝出者梁文鋒身上,沒人在乎第二名。當然,DeepSeek的勝出除了一些參數上的優(yōu)勢外,還有開源、訓練成本降低等原因。

不管怎樣,你追我趕的技術競爭導致的結果是,目前 DeepSeek 仍處于上風。對楊植麟而言,內心大概有種“既生瑜,何生亮”的況味。

DeepSeek爆火以后,Kimi在產品迭代上并沒有明顯增進,各大排行榜都未見其身影。反而一直延續(xù)此前爭取“用戶留存”的策略,和財新合作,增加引用資料的權威性;四月份Kimi自建社區(qū),試圖做AI內容平臺;本月又和小紅書合作,在小紅書里接入對話框。

顯然,這些技術之外的操作并未撼動 DeepSeek的地位 。

03

DeepSeek的對手早已不是Kimi,而是持續(xù)進行飽和式投入的各大廠。

近幾個月,豆包、通義千問、元寶、文心一言更是在大模型上的頻繁迭代,且進行聲勢浩大的營銷。反觀DeepSeek,出圈后尚未有什么大動作,在當前迭代周期按照月來計算的節(jié)奏下,已顯得慢了許多。

本次DeepSeek團隊發(fā)布的DeepSeek-V3論文,深度解析了硬件架構與模型設計的雙重創(chuàng)新,為大規(guī)模高效訓練與推理提供了突破性思路。

值得關注的是,梁文鋒參與論文撰寫,排在倒數第五位,通訊地址顯示為中國北京,這意味著該研究主要由DeepSeek北京團隊主導。

很多人大概不知道,2023年5月,DeepSeek最初在北京成立了“北京深度求索”作為運營主體,地址在北京市海淀區(qū)科學院南路。但兩個月后又在杭州重新成立了“杭州深度求索”,并將北京公司變?yōu)楹贾莨镜娜Y子公司。

這不是DeepSeek-V3相關技術內容第一次面向公眾。DeepSeek-V3基礎版技術報告于2024年12月首次發(fā)布,今年3月24日DeepSeek發(fā)布的V3-0324版本技術報告,則聚焦于小版本迭代的核心突破,基于V3基礎模型的后訓練優(yōu)化,重點提升代碼生成、推理效率和中文能力,同時調整開源協(xié)議以推動商用普及。

而本篇DeepSeek-V3論文,主要論述硬件感知模型協(xié)同設計如何有效應對這些挑戰(zhàn),從而實現經濟高效的大規(guī)模訓練和推理。

原有大語言模型,內存容量不足、計算效率低下、互連帶寬受限等硬件瓶頸日益凸顯。DeepSeek-V3在多項關鍵指標上實現了跨越式突破:僅依托2048塊H800 GPU訓練,便達成FP8訓練準確率損失小于0.25%的優(yōu)異表現,單token訓練成本低至250 GFLOPS,相較405B密集模型的2.45 TFLOPS成本顯著優(yōu)化;其KV緩存更壓縮至單token 70 KB,僅為Llama-3.1的1/7。

這些亮眼數據背后,是DeepSeek在模型架構與AI基礎設施層面的改進。

內存效率革新:多頭潛在注意力(MLA)。針對傳統(tǒng)模型多輪對話中KV緩存爆炸式增長的難題,MLA技術通過共享投影矩陣,將各注意力頭的KV向量壓縮為統(tǒng)一潛在向量,如同對數據進行“語義壓縮”,直接將推理內存占用減半。搭配FP8混合精度訓練,模型參數存儲體積減少50%,同時創(chuàng)新性提出LogFMT對數空間量化方案,在相同比特下實現更高精度,有效破解AI內存墻困境。


計算-通信優(yōu)化:混合專家(MoE)架構。DeepSeekMoE將模型拆解為“專家團隊”,每個token僅激活37B參數(總參數671B),打破傳統(tǒng)稠密模型全參數在線的高成本模式。該設計使訓練成本大幅可控,結合KTransformers框架,DeepSeek-V3可在萬元級消費級GPU服務器上實現近20TPS推理速度,配備AI芯片的PC端亦可流暢運行,顯著降低中小企業(yè)與開發(fā)者的使用門檻。

推理效率躍升:多維度加速技術。引入多token預測(MTP)框架,實現候選詞批量生成與并行驗證,顛覆傳統(tǒng)自回歸模型逐字輸出的低效模式。通過重疊計算與通信、構建高帶寬縱向擴展網絡,充分釋放GPU算力潛力,大幅提升吞吐量。同時采用“測試時縮放”技術,根據任務復雜度動態(tài)調配資源,簡單任務快速響應,復雜任務(如數學推理)智能調用更多算力。

集群架構突破:兩層多層胖樹(MPFT)網絡拓撲。創(chuàng)新性構建8個獨立平面實現故障隔離與負載均衡,在保持全到全通信性能的同時,使集群成本降低40%以上,為大規(guī)模模型訓練的集群擴展提供高性價比解決方案。

論文中,DeepSeek還系統(tǒng)性提出從硬件架構演進視角出發(fā)的六大未來挑戰(zhàn)與解決方案,覆蓋內存、互連、網絡、計算等核心領域,為下一代AI基礎設施升級繪制了路線圖,其技術洞察有望成為行業(yè)發(fā)展的重要風向標。

盡管如此,一切都要等待DeepSeek-R2 發(fā)布后。DeepSeek能否憑借R2 再次爆火,外界滿懷期待,但也是個懸念。

DeepSeek-R2會讓人類攀登AGI 這座高峰時更進一步嗎?歡迎評論區(qū)留言。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
400年過去了,回看多爾袞的四大杰作,為何還能讓我們脊背發(fā)涼?

400年過去了,回看多爾袞的四大杰作,為何還能讓我們脊背發(fā)涼?

小豫講故事
2025-10-26 06:00:04
普京代表:中國已啟動SWIFT系統(tǒng)替代方案,今年交易額已超6400億

普京代表:中國已啟動SWIFT系統(tǒng)替代方案,今年交易額已超6400億

阿龍聊軍事
2025-11-01 06:37:43
曾被吹上天,如今卻跌落神壇的4個國產運動鞋,你穿過哪些?

曾被吹上天,如今卻跌落神壇的4個國產運動鞋,你穿過哪些?

詩意世界
2025-08-15 14:26:52
1979年打越南,鄧小平提前放出口風沒人相信,為何唯獨李光耀深信

1979年打越南,鄧小平提前放出口風沒人相信,為何唯獨李光耀深信

南書房
2025-10-24 16:01:25
有一種痛苦叫買了“大平層”,缺點太多了,已經徹底淪為不動產!

有一種痛苦叫買了“大平層”,缺點太多了,已經徹底淪為不動產!

室內設計師有料兒
2025-09-15 12:16:44
中金資本董事長單俊葆失聯?工作人員回應不清楚,實名制轉接電話無人接聽

中金資本董事長單俊葆失聯?工作人員回應不清楚,實名制轉接電話無人接聽

紅星新聞
2025-11-01 12:30:13
23歲德甲冠軍主力,來到阿森納“只打替補”?兵強馬壯給塔帥自信

23歲德甲冠軍主力,來到阿森納“只打替補”?兵強馬壯給塔帥自信

里芃芃體育
2025-11-01 00:15:08
音樂人屠穎突發(fā)意外離世!跑步摔倒搶救無效,齊豫緊急取消演唱會

音樂人屠穎突發(fā)意外離世!跑步摔倒搶救無效,齊豫緊急取消演唱會

萌神木木
2025-11-01 19:45:26
米體:加拿大金融巨頭完成對橡樹資本全資控股,對國米無影響

米體:加拿大金融巨頭完成對橡樹資本全資控股,對國米無影響

懂球帝
2025-11-02 00:01:10
美媒評新賽季至今10大球星:約基奇場均三雙僅第6,小里34+10第三

美媒評新賽季至今10大球星:約基奇場均三雙僅第6,小里34+10第三

你的籃球頻道
2025-11-01 10:08:11
保利集團總經理調整

保利集團總經理調整

極目新聞
2025-11-01 08:39:43
阿森納主帥阿爾特塔發(fā)出警告:密集賽程或致球隊被迫退賽

阿森納主帥阿爾特塔發(fā)出警告:密集賽程或致球隊被迫退賽

星耀國際足壇
2025-11-01 23:29:00
中國一票否決!或徹底封殺朱拉尼,美俄支持也沒用!敘利亞大變天

中國一票否決!或徹底封殺朱拉尼,美俄支持也沒用!敘利亞大變天

阿校談史
2025-11-01 08:37:29
外媒問韓國總統(tǒng)李在明:若中國武統(tǒng)臺灣,你會不會出手?

外媒問韓國總統(tǒng)李在明:若中國武統(tǒng)臺灣,你會不會出手?

百態(tài)人間
2025-10-31 14:43:57
遭自家球迷狂批!蓉城24歲門將怒懟:輸球又怎樣? 韋世豪攔下他

遭自家球迷狂批!蓉城24歲門將怒懟:輸球又怎樣? 韋世豪攔下他

風過鄉(xiāng)
2025-11-01 14:02:59
漲價!5只A股績優(yōu)潛力股在這里

漲價!5只A股績優(yōu)潛力股在這里

證券時報e公司
2025-11-01 20:39:36
潘石屹再次預判我國樓市?未來3年,樓市或迎來“三大”走向

潘石屹再次預判我國樓市?未來3年,樓市或迎來“三大”走向

巢客HOME
2025-11-01 05:10:03
森林北曬養(yǎng)馬日常,緊身褲勒出三角區(qū)挺尷尬,鏟馬糞修馬蹄不矯情

森林北曬養(yǎng)馬日常,緊身褲勒出三角區(qū)挺尷尬,鏟馬糞修馬蹄不矯情

瘋說時尚
2025-10-16 15:09:21
揚州女大學生被碎尸拋河案偵破,面對管教兇手講了這樣一番話

揚州女大學生被碎尸拋河案偵破,面對管教兇手講了這樣一番話

丹寶說文史
2023-11-23 15:16:15
為何說梅毒病是最臟的?。酷t(yī)生詳細講解,隔著屏幕都感到頭皮發(fā)麻

為何說梅毒病是最臟的病?醫(yī)生詳細講解,隔著屏幕都感到頭皮發(fā)麻

小舟談歷史
2025-10-15 09:30:14
2025-11-02 02:04:49
白鯨實驗室one incentive-icons
白鯨實驗室one
AI向上,關注AI風向
51文章數 10關注度
往期回顧 全部

科技要聞

事關安世半導體,商務部最新發(fā)聲!

頭條要聞

上海63歲兒子與94歲父親一起養(yǎng)老:父親負責買菜做飯

頭條要聞

上海63歲兒子與94歲父親一起養(yǎng)老:父親負責買菜做飯

體育要聞

NBA球員,必須吃夜宵

娛樂要聞

王家衛(wèi)這波錄音,撕爛了遮羞布

財經要聞

段永平捐了1500萬元茅臺股票!本人回應

汽車要聞

換新一口價11.98萬 第三代藍電E5 PLUS開啟預售

態(tài)度原創(chuàng)

家居
旅游
手機
房產
數碼

家居要聞

吸睛藝術 富有傳奇色彩

旅游要聞

運河明珠,千年守望:杭州拱宸橋的前世今生與文化密碼!

手機要聞

疑似OPPO Find X10被曝光:2億潛望鏡確認加持,其他廠商怎么玩?

房產要聞

實力破圈!這個豪宅交付,正在定義??谄焚|樣本!

數碼要聞

2599元起,聯想多款新品發(fā)布

無障礙瀏覽 進入關懷版 日韩成人无码v清免费| 色无码| 国产深夜久久优| 亚洲AV成人无码一区在线观看| 俺qu也最新网站| 777字幕网一区二区三区| 免费一级成人毛片| 黑人大性殖器大战欧美白妇| 国产性猛交××××乱七区| 国产av国片精品一区二区| 国产亚洲精品岁国产微拍精品| xxx亚洲av| 欧美成aⅴ人高清ww| 亚洲午夜精品二区三区公司| 天美视频一区三区| 日韩在线视频观看免费网站| 日本丰满熟妇乱子伦| 精品亚洲成a人在线观看| 亚洲人成无码网站在线观看| 天堂AV无码大芭蕉伊人AVapp| 青春期熟女视频一区二区三区| 国产成人av在线播放不卡| 国产人妻久久精品二区三区特黄| 久久大香萑太香蕉av| 91精品国产一区二区无码色欲| AV免費下載| 九九成人直播间| 亚洲成av人在线视| free少妇交换videos| 亚洲精品在线二区三区| avAPP大全| 男女高潮喷水在线观看| 一本久久a久久精品亚洲| 欧美成人婬片一区二区欧亲| 久久精品国产亚洲AV天海翼| 操丝袜女国产| 无码日韩精品一区二区三区免费| 天堂国产在线| 奇米影视盒7777| 亚洲线精品一区二区三区 | 丝诱惑视频一区|