夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

“在數(shù)學上,中國模型沒輸過”!DeepSeek 深夜屠榜,Math V2 以碾壓姿態(tài)終結“最強數(shù)學模型”之爭

0
分享至


整理|冬梅

11 月 27 日晚,DeepSeek 在毫無預告的情況下,于 Hugging Face 和 GitHub 上開源了全新數(shù)學推理模型 DeepSeek-Math-V2,685B 參數(shù),從模型名稱就可以直接分辨出這是一款專注于數(shù)學方面的模型。這是業(yè)內(nèi)首個達到國際奧林匹克數(shù)學競賽(IMO)金牌水平且全面開源的數(shù)學模型,一經(jīng)發(fā)布便引發(fā)全球學界與開發(fā)者的高度關注。


它的上一個版本 ——DeepSeek-Math-7B 還是一年多以前發(fā)的。當時,這個模型只用 7B 參數(shù)量,就達到了 GPT-4 和 Gemini-Ultra 性能相當?shù)乃健?/p>


模型地址:

https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

https://github.com/deepseek-ai/DeepSeek-Math-V2

1 數(shù)學能力擊敗 Gemini DeepThink

那么,這款模型性能到底如何?

據(jù) DeepSeek 官方介紹,在性能方面,DeepSeek-Math-V2 在權威基準 IMO-ProofBench 中表現(xiàn)突出。

在 Basic 子集上,該模型拿下近 99% 的高分,領先第二名 Gemini DeepThink(IMO Gold)的 89%;在更具挑戰(zhàn)的 Advanced 子集上,Math-V2 取得 61.9%,略低于 Gemini DeepThink 的 65.7%。


更具標志性的是,在真實競賽題上的表現(xiàn):Math-V2 在 IMO 2025、CMO 2024 上達到金牌水平,并在 Putnam 2024 以擴展測試算力獲得 118 分(滿分 120),顯示出強勁的定理證明能力,而這一成績是在未依賴大規(guī)?!邦}庫答案”訓練的前提下取得的。


伴隨模型同步亮相的技術論文《DeepSeek Math-V2:邁向可自驗證的數(shù)學推理》顯示,該模型在數(shù)學推理嚴謹度、定理證明能力以及多項權威基準上均取得顯著突破,部分能力超越了谷歌旗下的 Gemini DeepThink(IMO Gold)。


論文地址:
https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf


論文指出,過去一年,隨著強化學習技術將“最終答案正確率”作為獎勵信號,大語言模型在數(shù)學推理任務上的表現(xiàn)快速提升,從較低水平躍升至接近占滿 AIME、HMMT 等高中難度競賽榜單。

然而,這類方法的根本缺陷也逐漸暴露:正確答案并不等同于正確推理,而定理證明等數(shù)學核心任務依賴嚴謹?shù)闹鸩竭壿嬐茖?,無法用“答案對錯”簡單衡量。對于沒有標準答案的開放問題而言,更無法根據(jù)“最終答案”獎勵模型。因此,要想推動數(shù)學推理能力真正突破,需要驗證推理鏈條的完整性與嚴謹性,而“自驗證機制”成為關鍵

這種自驗證機制也正是這款 DeepSeekMath-V2 模型的核心突破。

這種自驗證機制為什么很重要?因為它正面解決了數(shù)學 AI 長期存在的核心問題:算對答案,并不意味著真正懂得推理。


數(shù)學尤其強調推導過程的嚴謹性,任何一步出現(xiàn)跳躍或漏洞,最終結論都不成立。因此,如果只依據(jù)“答案是否正確”來訓練模型,AI 頂多學會更準確地“猜結果”,卻無法保證推理過程本身是可信的。

自驗證機制的重要性在于,它讓模型具備“檢查自己”的能力。

一方面,它能判斷自己的推理鏈是否完整、邏輯是否自洽,從而避免“答案對了但過程錯了”的常見問題;另一方面,對于那些沒有標準答案的開放難題,自驗證使得模型能夠在沒有人工標注的情況下繼續(xù)提升能力,這對于真正推動數(shù)學研究至關重要。

此外,自驗證還讓模型在推理過程中能夠多次檢查和修正自己的思路,讓它在使用更多算力時獲得更高的正確率——這與人類數(shù)學家反復核查草稿的習慣非常相似。

基于這一判斷,DeepSeek 在 Math-V2 的研發(fā)中將重點從“結果導向”轉向“過程導向”。團隊首先訓練出一個基于大模型的高精度驗證器,用于檢查定理證明的邏輯正確性;隨后再利用該驗證器作為獎勵模型訓練證明生成器,促使模型在提交最終證明前主動發(fā)現(xiàn)并修正推理中的漏洞,以提升推理的真實性與可靠性。

為保持驗證器的領先性,團隊進一步引入“擴展驗證算力”,自動標注復雜、難驗證的推理樣本并用于迭代訓練,使驗證器與生成器形成持續(xù)進化的閉環(huán)。

DeepSeek 在論文中強調,自我驗證的數(shù)學推理不僅適用于標準化競賽任務,更重要的是,它為處理“無標準答案的開放問題”提供了路線圖,使數(shù)學 AI 不再局限于“算對題”,而向“像數(shù)學家一樣思考”邁進。盡管距離真正強大的數(shù)學推理系統(tǒng)仍有距離,但 Math-V2 的成果表明,自我驗證機制是可行且具有重大潛力的研究方向。

2 網(wǎng)友怎么看?

值得注意的是,Reddit、Hacker News 等海外開發(fā)者社區(qū)對這次開源給出了強烈反響,不少人稱“DeepSeek 這頭鯨魚終于回來了”。

有網(wǎng)友驚嘆,Math-V2 在 Basic 基準上以 10 個百分點的優(yōu)勢擊敗谷歌 Gemini DeepThink(IMO Gold),遠超市場預期;還有人表示,“如果他們稍后發(fā)布編程模型,我敢打賭那會更加震撼。

有 Reddit 用戶表示,一直在悶聲干大事,因為數(shù)學就是大事。

“沒有數(shù)學,我們不可能達到奇點。隨便翻開一篇人工智能論文,你會發(fā)現(xiàn)里面全是數(shù)學?!?/blockquote>

還有用戶希望 DeepSeek 能將強大的數(shù)學能力用戶代碼編寫上。該用戶表示:

“它能夠編寫代碼嗎?我希望能有一個數(shù)學能力強大的大語言模型來生成我那些復雜且數(shù)學性強的代碼。雖然不同的模型或許都能寫出不錯的代碼,但在數(shù)學軟件領域,數(shù)學上的正確性至關重要。我已經(jīng)注意到,針對我感興趣的一些問題,不同模型在數(shù)學正確性上存在分歧?!?/blockquote>

還有國外用戶表示,其實中國的模型在數(shù)學方面的能力都很強,DeepSeek 如此,Qwen 也是這樣。

在 X 上,有用戶表示,V1 已經(jīng)發(fā)布近兩年了,在大家以為數(shù)學產(chǎn)品線已經(jīng)被放棄時,DeepSeek 一直沒有放棄,并且一出手性能就很強大。


在國內(nèi)社區(qū)知乎平臺上,也有用戶表示,DeepSeek 里面搞數(shù)學推理的團隊可能是最有潛力的一張王牌。

因為數(shù)學推理是所有 AI 推理任務里最苛刻的那一個。沒有情緒、沒有模糊答案、沒有‘差不多就行’,每一步都是嚴格邏輯鏈,一處錯誤會全盤報廢。


隨著 DeepSeek-Math-V2 的開源,大模型數(shù)學推理研究的競爭格局正在被重新定義,而“可自驗證推理”也正成為推動下一代數(shù)學型 AI 的關鍵技術路徑。

https://github.com/deepseek-ai/DeepSeek-Math-V2

https://www.reddit.com/r/singularity/comments/1p7ztyj/deepseek_released_deepseekmathv2/

https://x.com/search?q=DeepSeek-Math-V2%20&src=typed_query

聲明:本文為 AI 前線整理,不代表平臺觀點,未經(jīng)許可禁止轉載。

InfoQ 2025年終榜單以“洞察 AI 變革,見證智能未來”為主題,我們誠邀各企業(yè)和團隊分享自己在 AI 領域的最新成果和杰出項目。無論是在AI基礎設施的搭建,工程與部署的創(chuàng)新,還是智能體生產(chǎn)力的提升與行業(yè)應用的拓展,我們期待與您共同展現(xiàn)AI技術與產(chǎn)業(yè)結合的無限可能。如有興趣,歡迎掃描下方二維碼積極提報!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
聯(lián)播一瞬丨悼我同胞!他們不曾離開,我們不會忘記

聯(lián)播一瞬丨悼我同胞!他們不曾離開,我們不會忘記

環(huán)球網(wǎng)資訊
2025-12-13 19:29:45
VT4炸膛,泰國士兵對它卻很滿意

VT4炸膛,泰國士兵對它卻很滿意

三叔的裝備空間
2025-12-13 07:37:02
山東男籃為何不敵北控?賽后主教練邱彪給出了答案,球迷卻不買賬

山東男籃為何不敵北控?賽后主教練邱彪給出了答案,球迷卻不買賬

萌蘭聊個球
2025-12-13 22:52:29
那不勒斯老板:輸給偉大的穆里尼奧不丟人,差評穆帥是因為嫉妒

那不勒斯老板:輸給偉大的穆里尼奧不丟人,差評穆帥是因為嫉妒

福醬的小時光
2025-12-13 14:46:51
意外!邵佳一接手國足后為何沒點名要留下鄭智?背后原因找到了

意外!邵佳一接手國足后為何沒點名要留下鄭智?背后原因找到了

陳赩愛體育
2025-12-14 00:40:01
俄軍上將向普京匯報占領庫皮揚斯克,還獲勛章,上將命運會如何?

俄軍上將向普京匯報占領庫皮揚斯克,還獲勛章,上將命運會如何?

山河路口
2025-12-13 23:33:11
這才是史上最成功的洗腦:西方這一百年來,對我們都做了什么?

這才是史上最成功的洗腦:西方這一百年來,對我們都做了什么?

愚鑒
2025-12-12 21:36:14
吳站長生意失敗,晚景凄涼

吳站長生意失敗,晚景凄涼

雪中風車
2025-12-13 14:56:21
許紹雄真正死因首曝光

許紹雄真正死因首曝光

深圳晚報
2025-12-11 10:40:57
豬頭肉再次成為關注對象!醫(yī)生發(fā)現(xiàn):常吃豬頭肉,或收獲5大好處

豬頭肉再次成為關注對象!醫(yī)生發(fā)現(xiàn):常吃豬頭肉,或收獲5大好處

讀懂世界歷史
2025-11-26 09:46:00
你是知道了哪個原理后廚藝大增的?料酒乃萬惡之源,網(wǎng)友:用錯30年

你是知道了哪個原理后廚藝大增的?料酒乃萬惡之源,網(wǎng)友:用錯30年

夜深愛雜談
2025-11-30 23:13:48
2025年最終版全球“最強護照”排行榜出爐!日本護照跌至第三位

2025年最終版全球“最強護照”排行榜出爐!日本護照跌至第三位

東京新青年
2025-12-13 18:10:46
唯品會大牌為什么賣很便宜?內(nèi)行人揭開“低價迷霧”你會購買嗎?

唯品會大牌為什么賣很便宜?內(nèi)行人揭開“低價迷霧”你會購買嗎?

另子維愛讀史
2025-12-12 20:00:35
柯藍也沒想到,分手4年后,會以這種方式,和黃志忠“再續(xù)前緣”

柯藍也沒想到,分手4年后,會以這種方式,和黃志忠“再續(xù)前緣”

劉森森
2025-12-12 20:21:24
休伊特呼吁廢除醫(yī)療暫停:太多巧合!很難讓人不懷疑他們的動機

休伊特呼吁廢除醫(yī)療暫停:太多巧合!很難讓人不懷疑他們的動機

網(wǎng)球之家
2025-12-12 22:24:19
悲催!深圳一大廠最后通牒,要求員工限期返崗復工,否則全部開除

悲催!深圳一大廠最后通牒,要求員工限期返崗復工,否則全部開除

火山詩話
2025-12-11 07:48:46
年少不知邵氏好,長大全都看不了

年少不知邵氏好,長大全都看不了

尚曦讀史
2025-11-15 07:07:08
上海美女主持,用一招分走富豪前夫700萬美元,51歲單身

上海美女主持,用一招分走富豪前夫700萬美元,51歲單身

涵豆說娛
2025-12-12 17:22:59
被謝賢養(yǎng)了12年,用青春換來兩千萬的coco,已經(jīng)走上了另一條道路

被謝賢養(yǎng)了12年,用青春換來兩千萬的coco,已經(jīng)走上了另一條道路

墨印齋
2025-12-04 19:46:02
國民黨三大內(nèi)鬼終于不裝了,鄭麗文遭黨內(nèi)反對,兩岸和平未來在哪

國民黨三大內(nèi)鬼終于不裝了,鄭麗文遭黨內(nèi)反對,兩岸和平未來在哪

大統(tǒng)一
2025-12-12 23:52:51
2025-12-14 02:40:49
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術社區(qū)媒體
11821文章數(shù) 51627關注度
往期回顧 全部

科技要聞

比亞迪、小鵬、北汽,集體表態(tài)

頭條要聞

"小米公司不讓賣小米"涉事村莊村民:馮書記直播不收錢

頭條要聞

"小米公司不讓賣小米"涉事村莊村民:馮書記直播不收錢

體育要聞

有了風騷白人禿頭,忘掉談了10年的前任

娛樂要聞

插刀門后,印小天一舉動實現(xiàn)口碑逆轉

財經(jīng)要聞

鎂信健康闖關港交所:被指竊取商業(yè)秘密

汽車要聞

表面風平浪靜 內(nèi)里翻天覆地!試駕銀河星艦7 EM-i

態(tài)度原創(chuàng)

本地
親子
時尚
房產(chǎn)
旅游

本地新聞

云游安徽|阜陽三朝風骨,傳承千年墨香

親子要聞

七小七:用清潔配方重新定義兒童食品健康標準,獲雙品類銷量第一

法式方頭靴的30種穿法,時髦不重樣!

房產(chǎn)要聞

中糧好房子體系盛大亮相三亞,禮獻海南自貿(mào)港封關

旅游要聞

雪漫青州古城:千年風華藏于一襲銀裝,煙火人間暖透冬日時光!

無障礙瀏覽 進入關懷版 色偷偷偷久久伊人大杳蕉| 四川丰满少妇被弄到高潮| 久久2017国产视频| 亚洲色区网亚洲| 入屄视频 欧美| 男人狂桶女人高潮嗷嗷| 第一次处破女hd精品| 国产真人无码作爱免费视频app| a a a啊好舒服好爽| 免费人成无码大片在线观看| 亚州国产精品九九九在线| 精品99久久久久| 日本性久久久久| 一区二区国产好的精华液SUV| 国产精品一区二区韩国AV| 涩久久免费观看| 亚洲 日韩 另类 制服 无码| 欧美熟妇高潮流白浆| 亚洲中文字幕无码av网址| 亚洲AV无码秘 在线播放| 998AV视频在线| 99午夜福利一区二区三区| 日韩干一二三| 被黑人扒开双腿猛进入| 国精品无码一区二区三区左线 | 一区二区三区亚洲| av网址在线免费观看| 二级特黄绝大片免费视频大片 | 呦系列视频一区二区三区| 精品不卡一区二区| 自拍校园亚洲欧美另类| 国产精品久久久久久久久久久丝袜| 人人射人人爱在线播放| 亚洲人成电影网站图片| 在线观看免费av网| 岛国中文字幕一区二区| se色 69| 无码人妻一区二区三区免费看视频| 又大又硬又爽免费视频| 亚洲性色无码精品永久| 天天躁夜夜躁狠狠眼泪|