“在數(shù)學上，中國模型沒輸過”！DeepSeek 深夜屠榜，Math V2 以碾壓姿態(tài)終結“最強數(shù)學模型”之爭

2025-11-28 13:35:05　來源: InfoQ

北京舉報

分享至

整理｜冬梅

11 月 27 日晚，DeepSeek 在毫無預告的情況下，于 Hugging Face 和 GitHub 上開源了全新數(shù)學推理模型 DeepSeek-Math-V2，685B 參數(shù)，從模型名稱就可以直接分辨出這是一款專注于數(shù)學方面的模型。這是業(yè)內(nèi)首個達到國際奧林匹克數(shù)學競賽（IMO）金牌水平且全面開源的數(shù)學模型，一經(jīng)發(fā)布便引發(fā)全球學界與開發(fā)者的高度關注。

它的上一個版本 ——DeepSeek-Math-7B 還是一年多以前發(fā)的。當時，這個模型只用 7B 參數(shù)量，就達到了 GPT-4 和 Gemini-Ultra 性能相當?shù)乃健?/p>

模型地址：

https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

https://github.com/deepseek-ai/DeepSeek-Math-V2

1 數(shù)學能力擊敗 Gemini DeepThink

那么，這款模型性能到底如何？

據(jù) DeepSeek 官方介紹，在性能方面，DeepSeek-Math-V2 在權威基準 IMO-ProofBench 中表現(xiàn)突出。

在 Basic 子集上，該模型拿下近 99% 的高分，領先第二名 Gemini DeepThink（IMO Gold）的 89%；在更具挑戰(zhàn)的 Advanced 子集上，Math-V2 取得 61.9%，略低于 Gemini DeepThink 的 65.7%。

更具標志性的是，在真實競賽題上的表現(xiàn)：Math-V2 在 IMO 2025、CMO 2024 上達到金牌水平，并在 Putnam 2024 以擴展測試算力獲得 118 分（滿分 120），顯示出強勁的定理證明能力，而這一成績是在未依賴大規(guī)?！邦}庫答案”訓練的前提下取得的。

伴隨模型同步亮相的技術論文《DeepSeek Math-V2：邁向可自驗證的數(shù)學推理》顯示，該模型在數(shù)學推理嚴謹度、定理證明能力以及多項權威基準上均取得顯著突破，部分能力超越了谷歌旗下的 Gemini DeepThink（IMO Gold）。

論文地址：

https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

論文指出，過去一年，隨著強化學習技術將“最終答案正確率”作為獎勵信號，大語言模型在數(shù)學推理任務上的表現(xiàn)快速提升，從較低水平躍升至接近占滿 AIME、HMMT 等高中難度競賽榜單。

然而，這類方法的根本缺陷也逐漸暴露：正確答案并不等同于正確推理，而定理證明等數(shù)學核心任務依賴嚴謹?shù)闹鸩竭壿嬐茖?，無法用“答案對錯”簡單衡量。對于沒有標準答案的開放問題而言，更無法根據(jù)“最終答案”獎勵模型。因此，要想推動數(shù)學推理能力真正突破，需要驗證推理鏈條的完整性與嚴謹性，而“自驗證機制”成為關鍵。

這種自驗證機制也正是這款 DeepSeekMath-V2 模型的核心突破。

這種自驗證機制為什么很重要？因為它正面解決了數(shù)學 AI 長期存在的核心問題：算對答案，并不意味著真正懂得推理。

數(shù)學尤其強調推導過程的嚴謹性，任何一步出現(xiàn)跳躍或漏洞，最終結論都不成立。因此，如果只依據(jù)“答案是否正確”來訓練模型，AI 頂多學會更準確地“猜結果”，卻無法保證推理過程本身是可信的。

自驗證機制的重要性在于，它讓模型具備“檢查自己”的能力。

一方面，它能判斷自己的推理鏈是否完整、邏輯是否自洽，從而避免“答案對了但過程錯了”的常見問題；另一方面，對于那些沒有標準答案的開放難題，自驗證使得模型能夠在沒有人工標注的情況下繼續(xù)提升能力，這對于真正推動數(shù)學研究至關重要。

此外，自驗證還讓模型在推理過程中能夠多次檢查和修正自己的思路，讓它在使用更多算力時獲得更高的正確率——這與人類數(shù)學家反復核查草稿的習慣非常相似。

基于這一判斷，DeepSeek 在 Math-V2 的研發(fā)中將重點從“結果導向”轉向“過程導向”。團隊首先訓練出一個基于大模型的高精度驗證器，用于檢查定理證明的邏輯正確性；隨后再利用該驗證器作為獎勵模型訓練證明生成器，促使模型在提交最終證明前主動發(fā)現(xiàn)并修正推理中的漏洞，以提升推理的真實性與可靠性。

為保持驗證器的領先性，團隊進一步引入“擴展驗證算力”，自動標注復雜、難驗證的推理樣本并用于迭代訓練，使驗證器與生成器形成持續(xù)進化的閉環(huán)。

DeepSeek 在論文中強調，自我驗證的數(shù)學推理不僅適用于標準化競賽任務，更重要的是，它為處理“無標準答案的開放問題”提供了路線圖，使數(shù)學 AI 不再局限于“算對題”，而向“像數(shù)學家一樣思考”邁進。盡管距離真正強大的數(shù)學推理系統(tǒng)仍有距離，但 Math-V2 的成果表明，自我驗證機制是可行且具有重大潛力的研究方向。

2 網(wǎng)友怎么看？

值得注意的是，Reddit、Hacker News 等海外開發(fā)者社區(qū)對這次開源給出了強烈反響，不少人稱“DeepSeek 這頭鯨魚終于回來了”。

有網(wǎng)友驚嘆，Math-V2 在 Basic 基準上以 10 個百分點的優(yōu)勢擊敗谷歌 Gemini DeepThink（IMO Gold），遠超市場預期；還有人表示，“如果他們稍后發(fā)布編程模型，我敢打賭那會更加震撼。”

有 Reddit 用戶表示，一直在悶聲干大事，因為數(shù)學就是大事。

“沒有數(shù)學，我們不可能達到奇點。隨便翻開一篇人工智能論文，你會發(fā)現(xiàn)里面全是數(shù)學?！?/blockquote>
還有用戶希望 DeepSeek 能將強大的數(shù)學能力用戶代碼編寫上。該用戶表示：
“它能夠編寫代碼嗎？我希望能有一個數(shù)學能力強大的大語言模型來生成我那些復雜且數(shù)學性強的代碼。雖然不同的模型或許都能寫出不錯的代碼，但在數(shù)學軟件領域，數(shù)學上的正確性至關重要。我已經(jīng)注意到，針對我感興趣的一些問題，不同模型在數(shù)學正確性上存在分歧?！?/blockquote>
還有國外用戶表示，其實中國的模型在數(shù)學方面的能力都很強，DeepSeek 如此，Qwen 也是這樣。
在 X 上，有用戶表示，V1 已經(jīng)發(fā)布近兩年了，在大家以為數(shù)學產(chǎn)品線已經(jīng)被放棄時，DeepSeek 一直沒有放棄，并且一出手性能就很強大。

在國內(nèi)社區(qū)知乎平臺上，也有用戶表示，DeepSeek 里面搞數(shù)學推理的團隊可能是最有潛力的一張王牌。
因為數(shù)學推理是所有 AI 推理任務里最苛刻的那一個。沒有情緒、沒有模糊答案、沒有‘差不多就行’，每一步都是嚴格邏輯鏈，一處錯誤會全盤報廢。

隨著 DeepSeek-Math-V2 的開源，大模型數(shù)學推理研究的競爭格局正在被重新定義，而“可自驗證推理”也正成為推動下一代數(shù)學型 AI 的關鍵技術路徑。
https://github.com/deepseek-ai/DeepSeek-Math-V2
https://www.reddit.com/r/singularity/comments/1p7ztyj/deepseek_released_deepseekmathv2/
https://x.com/search?q=DeepSeek-Math-V2%20&src=typed_query
聲明：本文為 AI 前線整理，不代表平臺觀點，未經(jīng)許可禁止轉載。
InfoQ 2025年終榜單以“洞察 AI 變革，見證智能未來”為主題，我們誠邀各企業(yè)和團隊分享自己在 AI 領域的最新成果和杰出項目。無論是在AI基礎設施的搭建，工程與部署的創(chuàng)新，還是智能體生產(chǎn)力的提升與行業(yè)應用的拓展，我們期待與您共同展現(xiàn)AI技術與產(chǎn)業(yè)結合的無限可能。如有興趣，歡迎掃描下方二維碼積極提報！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.