網易首頁 > 網易號 > 正文申請入駐

DeepSeek殺出一條血路：國產大模型突圍不靠運氣！

2025-12-02 22:58:53　來源: 觀潮科技Pro

北京舉報

分享至

作者：高恒系中國科技新聞學會科幻傳播與未來產業(yè)專委會專家

進入2025年末，全球大模型賽道的技術焦點幾乎被Google重新奪回。Gemini 3 Pro橫空出世，在多個權威基準上超越所有開源模型，重新確立了閉源陣營的技術高地。一時間，業(yè)內關于“開源模型是否已到極限”“Scaling Law是否真的撞墻”的質疑聲再起，一股遲滯情緒在開源社區(qū)彌漫。

但就在此時，DeepSeek沒有選擇沉默。12月1日，它一口氣發(fā)布了兩款重磅模型：推理性能對標GPT-5的DeepSeek-V3.2，以及在數學、邏輯和多輪工具調用中表現(xiàn)異常強勢的Speciale版本。這不僅是對技術能力的集中展示，也是在當前算力資源并不占優(yōu)的前提下，對閉源“新天花板”的正面回應。

這不是一次簡單的模型更新。DeepSeek試圖在后Scaling時代找出一條全新路徑：如何用架構重塑彌補預訓練差距？如何通過“工具使用中的思考鏈”實現(xiàn)低token高效率的智能體表現(xiàn)？更關鍵的是，Agent為何從附屬功能變成了模型能力躍遷的核心引擎？

本文將圍繞這三條主線展開分析：DeepSeek是如何在技術瓶頸下突破的？為何率先在開源陣營中重注Agent？而這是否意味著，開源模型仍有穿透閉源護城河的那條路？

一、從落后到并跑，DeepSeek靠什么殺入第一梯隊

在頂級AI模型的競技場中，開源選手一直被認為只能“追平”，難以真正“對抗”。但這一次，DeepSeek-V3.2交出的成績單，已不再是追趕者的姿態(tài)。

根據DeepSeek官方公布的數據，V3.2在公開的推理類基準測試中，已全面對標GPT-5，僅略低于Gemini 3 Pro。在多個關鍵評估中，它不僅穩(wěn)定勝出Kimi-K2-Thinking，還成功刷新了國內開源模型在推理能力上的最高紀錄。在數學、邏輯、復雜問答等任務中，DeepSeek-V3.2的表現(xiàn)接近閉源領先模型，已足以躋身“全球第二梯隊”的頭部。

這背后的關鍵，并非大模型“繼續(xù)放大”就能解釋。DeepSeek的突破，核心在于對底層架構的重塑，尤其是稀疏注意力機制（DSA）的引入。傳統(tǒng)Transformer架構中，注意力機制對每一個token都要計算與前序所有token之間的關系，其計算復雜度呈平方級增長，成為大模型推理中的主要成本瓶頸。

而DSA所引入的“閃電索引器”（Lightning Indexer），則相當于在這場計算中裝上了一套“快速預判器”——它不再對所有token做全量注意力分配，而是通過極少量、低精度的索引頭（可在FP8上運行）快速篩出最關鍵的token對，只對這些核心位置進行精算。這樣的設計，使得模型的核心注意力機制從平方級復雜度降至近線性，即便在128K這樣的超長上下文輸入中，也能保持相對穩(wěn)定的計算負擔。

值得注意的是，DeepSeek在引入DSA時并未選擇激進替換，而是采取了“密集預熱—稀疏過渡”的雙階段訓練策略。在模型預訓練的早期階段，保留原始注意力結構，僅訓練索引器模仿原始分布；而后再在后訓練階段逐步替換為稀疏結構，實現(xiàn)無中斷切換。這種“架構漸變式演進”，讓V3.2在長上下文推理中不僅效率提升，精度也未受損。Fiction.liveBench、AA-LCR等長文本任務測試顯示，V3.2在信息召回、上下文一致性和壓縮表達能力方面的得分均有顯著上升。

但更具行業(yè)價值的突破，并不止于此。DeepSeek在V3.2中首次提出“Thinking in Tool-Use”的工具使用范式，將模型的執(zhí)行鏈條從“思考→調用工具→結束”改造為“思考→調用→繼續(xù)思考→再調用”的交錯邏輯。這種機制與近年來Agent領域提出的“Interleaved Thinking”方向高度一致，不僅提升了工具調用的邏輯持續(xù)性，也讓模型能夠在一次任務中反復復用推理中間狀態(tài)。

這種能力，在真實的Agent場景中尤為關鍵?，F(xiàn)實任務往往并非一步到位，而是需要多輪信息獲取、驗證與策略修正。如果每次調用工具都讓模型“失憶”一次，就意味著它必須不斷從頭再推一次。而V3.2的做法，是明確將“推理軌跡”保留為上下文中的一部分，在工具返回新信息后，接續(xù)原思考路徑繼續(xù)向下延伸。這樣的機制不僅減少了重復token生成，也大幅降低了因狀態(tài)漂移造成的邏輯中斷。

歸根結底，DeepSeek的這輪技術躍遷，并非靠更大的FLOPs堆出來，而是靠“更聰明地用算力”。DSA讓計算分配更有效，交錯思維讓工具調用更穩(wěn)定，兩個維度共同指向一個目標：讓模型真正成為一個“可持續(xù)思考的智能體”，而不僅是一個大號的語言補全器。

這也意味著，在規(guī)模紅利見頂之后，未來模型的競爭焦點，將逐步從“參數多少”回歸到“思維組織力”與“能效比”。而V3.2，恰好是這一轉向的早期注腳。

二、押注Agent，不是跟風，而是戰(zhàn)略拐點

相比模型性能上的技術突破，DeepSeek-V3.2在戰(zhàn)略路徑上的最大變化，是它將“Agent能力”與“推理能力”并列，明確寫入技術文檔的核心指標。這是過去國內開源模型幾乎未曾公開強調過的方向調整。在DeepSeek看來，Agent不再是工具調用的附屬模塊，而是模型能力釋放與產業(yè)落地之間的橋梁，甚至是未來大模型平臺化的前哨站。

這種判斷并非脫離現(xiàn)實的技術浪漫。過去一年，大模型行業(yè)經歷了一個重要轉向：企業(yè)開始意識到，“更聰明的聊天機器人”帶來的邊際價值正在減退，真正具備“動作能力”的Agent，才是有望形成商業(yè)閉環(huán)的核心角色。從自動寫報告、自動生成報表，到批量工單處理與代碼修復，企業(yè)愿意為這些“可執(zhí)行”的智能體付費，而不是為一句更像人類的話語買單。

這也解釋了為何DeepSeek在V3.2后訓練階段投入大量資源打造Agent訓練體系，并自建了一套規(guī)?；娜蝿丈闪魉€。據官方披露，團隊為此合成了超過1800個智能體環(huán)境，并圍繞Agent任務設計了約85,000條高復雜度任務提示。這些任務并非來源于人工標注，而是通過環(huán)境構建器與軌跡評分機制自動生成，并借助強化學習形成閉環(huán)訓練。

這種做法跳出了傳統(tǒng)預訓練依賴海量對話語料的思路。相比之下，Agent任務軌跡具備更強的結構性、驗證性和稀缺性。一旦構建完成，訓練效果將遠優(yōu)于常規(guī)“對話式補全”。更關鍵的是，強化學習機制使得模型能力可以不斷通過反饋回路優(yōu)化，而不再受限于預訓練階段的單向迭代。

DeepSeek在訓練中采用了自研的GRPO（Group Relative Policy Optimization）策略，并對其進行了深度本地化適配，以適應大規(guī)模多輪任務訓練。在這一過程中，模型不僅需要優(yōu)化單輪產出的合理性，更要平衡多輪任務中的推理一致性與語言表達穩(wěn)定性。為避免傳統(tǒng)RL中“災難性遺忘”的問題，DeepSeek將推理獎勵、語言一致性得分與任務完成度打分整合為多維獎勵信號，使得模型在訓練中持續(xù)保持Agent執(zhí)行鏈的完整性。

而要支撐這一復雜的訓練機制，模型自身的“狀態(tài)感知能力”也必須同步升級。V3.2在架構中引入了完整的上下文管理策略：模型只會在用戶發(fā)出新消息時重置思考狀態(tài)，而在連續(xù)的工具調用過程中，其推理軌跡將被完整保留。這意味著模型可以持續(xù)積累“思維殘留”，在工具返回新信息后繼續(xù)推理而非重啟邏輯。這種“狀態(tài)延續(xù)機制”成為Agent多輪行為連續(xù)性的重要保障，也使得模型能勝任更復雜、跨階段的任務拆解。

從系統(tǒng)邏輯上看，DeepSeek對Agent的理解已從“任務執(zhí)行插件”上升到了“模型操作系統(tǒng)”的組成部分。它不是一個外掛，而是模型核心運行結構的一部分。這種系統(tǒng)觀的轉變，意味著未來大模型平臺的形態(tài)將趨近于一個調度操作系統(tǒng)：模型本身是OS內核，Agent是用戶態(tài)的執(zhí)行程序，插件工具則成為可調用模塊。誰掌握了Agent層的標準，誰就可能在AI時代掌控平臺話語權。

這也是為何DeepSeek試圖主導“交錯式思維+工具使用”的統(tǒng)一范式，并提出“Thinking in Tool-Use”這樣的底層設計語言。這不僅是技術細節(jié)的不同，更是一種平臺思維的顯現(xiàn)。

對行業(yè)而言，DeepSeek的這一輪轉向標志著一個新的分水嶺：Agent能力不再是工程團隊“可做可不做”的附加選項，而是模型構建路徑中的核心分支。是否具備平臺級Agent能力，已經成為衡量模型中長期競爭力的關鍵指標之一。

三、開源模型的極限在哪里？DeepSeek的“后訓練戰(zhàn)術”試圖給出答案

盡管V3.2和Speciale在多個基準上實現(xiàn)了開源“從追趕到并跑”的逆轉，但DeepSeek在技術報告中也坦言：開源模型與閉源系統(tǒng)之間的差距，仍在某些關鍵維度上被進一步拉大。尤其是在知識廣度、極復雜任務處理能力以及token生成效率上，開源體系仍受限于資源、數據與預算。

DeepSeek選擇并不掩飾這些局限，而是以極具可執(zhí)行性的策略給出了回應：如果資源拼不過，就從方法入手，把訓練過程“做深”。

這一策略的核心，是其獨有的“后訓練三件套”：專家蒸餾 + 多軌強化學習 + 工具思維機制融合。

首先，是專家蒸餾（Expert Distillation）。在大多數模型仍以通用數據混合訓練為主時，DeepSeek為V3.2量身打造了六類專家模型，覆蓋數學、編程、邏輯推理、通用Agent、Agent編程和Agent搜索等核心能力域。每一類任務均有一組專屬模型，在自有數據集和生成軌跡中強化單一技能。這些專家并不直接部署，而是用來生成高質量訓練樣本，反哺主模型。

隨后，這些“任務專精模型”產出的數據，會被統(tǒng)一用于訓練一個通用模型。在技術上，這相當于用多個極致偏科的“學霸”反向喂養(yǎng)一個全面發(fā)展的“全才”，既避免了多任務訓練中的能力稀釋，又保留了不同任務之間的結構聯(lián)通性。

第二層，則是強化學習（RL）的擴展升級。DeepSeek延續(xù)了V3.2-Exp中的GRPO（Group Relative Policy Optimization）策略，并在數據與獎勵結構上進一步升級。模型不僅要完成任務，還需同時優(yōu)化語言質量、推理鏈邏輯合理性與對工具的自然調用能力。整個后訓練階段的算力投入，占比已超過了預訓練預算的10%，在開源模型體系中極為罕見。

更重要的是，強化學習過程中并非依賴人類評分，而是通過任務環(huán)境自帶的反饋機制與rubric自動評分。這一設計使得模型訓練不再受限于人工對齊數據，而是進入“結構化任務-自動評分-行為優(yōu)化”的閉環(huán)學習路徑，也因此形成了比Chat數據更稀缺、但更具復用性的模型能力。

第三層，是工具使用與“思考鏈”的融合機制。在訓練初期，模型往往無法理解“什么時候該調用工具、何時該繼續(xù)思考”，導致推理軌跡斷裂、邏輯中斷。為此，DeepSeek為V3.2設計了一套冷啟動系統(tǒng)提示，在思維軌跡中自然嵌入工具調用的示例，使得模型逐步學會在多輪任務中“帶著工具思考”，而非“思考完才調用工具”。

此外，整個上下文狀態(tài)也被重新設計：工具調用不會中斷思考內容，用戶新輸入才會觸發(fā)清除。這一策略顯著降低了token冗余，也避免了每輪任務都從頭開始推理的問題。

這些技術設計看似工程化，其實都指向一個本質問題：在參數量和訓練規(guī)模受限的前提下，開源模型如何提升“單位token的智能密度”。

DeepSeek給出的答案是，把資源盡可能壓縮在“推理鏈條”的關鍵路徑中，讓每一輪推理都盡可能多帶信息，盡可能少重復。這不是規(guī)模的勝利，而是方法的勝利。

當然，即便如此，DeepSeek仍未完全填補開源與閉源之間的知識鴻溝。官方報告也指出，V3.2的世界知識廣度與最新閉源模型仍有差距，Speciale模型雖然在復雜競賽中表現(xiàn)突出，但token開銷顯著增加，尚不適用于泛化日用場景。

但如果說Gemini 3 Pro代表了閉源陣營對“更大、更快、更強”的繼續(xù)探索，那么V3.2與Speciale所代表的，或許是一種“更輕、更穩(wěn)、更聰明”的新路徑。在行業(yè)對Scaling Law前景仍存爭議之際，DeepSeek正試圖以更強的推理組織力、更少的資源消耗、以及更高效的訓練范式，重構開源模型的競爭秩序。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.