夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

字節(jié)Seed發(fā)布最強數(shù)學模型:一招“打草稿”,IMO銀牌變金牌

0
分享至

魚羊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

字節(jié)最新數(shù)學推理專用模型,剛剛刷新戰(zhàn)績:拿下IMO金牌成績。

Scaling Law加持下,這個名為Seed Prover 1.5的模型,在16.5小時內(nèi),順利解決IMO 2025的前5道題目,在僅失一題的情況下拿到35分,達到今年IMO的金牌線。



這一成績與7月官方認證的IMO金牌“選手”谷歌Gemini打平。而字節(jié)自己的前代模型,當時的成績是3天完成了6道題目中的4道,以及一道題的部分證明,達到銀牌成績。

同時,Seed Prover 1.5也在北美本科級別數(shù)學競賽Putnam這一基準上,大幅刷新了SOTA成績。



模型尚未開源,但技術報告已經(jīng)公開。

值得關注的是,Seed Prover 1.5強調(diào)了大規(guī)模強化學習給數(shù)學模型帶來的性能提升,也證明,在推理階段增加計算資源,可以顯著提高解題率。

即,驗證了測試時Scaling和強化學習訓練時的Scaling的有效性。

草稿引導的高效形式化證明

具體來看技術報告。Seed Prover 1.5的參數(shù)規(guī)模與Seed 1.6相同,230B總參數(shù),23B激活。

主要創(chuàng)新有兩點:

  • Agentic Prover:一種新的形式化數(shù)學推理范式
  • Sketch Model:自然語言到形式語言的翻譯器

Agentic Prover

相較于通用模型用自然語言解答數(shù)學問題的方式,數(shù)學推理專用模型采用的是形式化數(shù)學推理,也就是用Lean等形式語言,構(gòu)建可在公理系統(tǒng)中機械驗證的證明,以確保結(jié)果更加可靠。

其難點在于,形式化證明比自然語言證明更加困難。根據(jù)“De Bruijn factor”經(jīng)驗法則,一行普通的數(shù)學推導,通常需要擴展成4到10行復雜的代碼。

這要求模型不僅懂數(shù)學,還要精通編程和類型論,而這一高門檻導致形式化證明在效率和成功率上一直遠落后于自然語言推理。

以往的研究中,形式化證明器通常分為兩類:

  • Step-prover:一步一步證明,效率很低;
  • Whole-prover:一次性生成完整證明,但中間一旦出錯就會前功盡棄。

Seed Prover 1.5為了平衡兩種方法的優(yōu)缺點,提出了一種全新的Agentic Prover架構(gòu):

模型將Lean語言視為一種工具,且在證明過程中可以自主地調(diào)用其他多種工具。

  • Mathlib搜索工具:類似于程序員查閱技術文檔,模型可以主動檢索Lean龐大的數(shù)學庫 Mathlib,尋找可用的定理和定義,而非依賴不可靠的隱式記憶。
  • Python代碼執(zhí)行:遇到需要計算的部分,模型可以編寫并運行Python腳本來輔助驗證直覺。
  • 增量式引理驗證:模型不再被迫一次性生成整個證明,而是將復雜問題拆解為若干引理。每證明出一個引理,系統(tǒng)就會將其保留并復用,作為后續(xù)推理的基石。

這樣一來,模型既可以像人類一樣先使用“草稿紙”(自然語言)進行推理,又能夠與Lean環(huán)境及多種工具進行交互,隨時調(diào)用工具來驗證猜想。



就是說,Seed Prover 1.5采用的是基于引理的交互方式,既不是一次性生成整個證明,也無需每一步都做交互驗證。

官方技術報告中還提到,Seed Prover 1.5進行了大規(guī)模的Agentic RL。

實驗證明,隨著強化學習訓練步數(shù)的增加,模型在訓練集上的證明通過率從初始的50%升至接近90%。

Agentic RL還帶來了大幅的效率提升。在對比測試中,Seed Prover 1.5僅需少量的計算資源,就能在Putnam和Fate等高難度數(shù)據(jù)集上,擊敗消耗大量算力的上一代Seed Prover模型。



Sketch Model

為了讓模型能更好地“打草稿”,研究人員還專門訓練了Sketch Model,來模擬人類數(shù)學家解決問題的方式:

數(shù)學家在證明一個復雜定理時,通常不會直接寫出每一步嚴絲合縫的代碼。他們會先在紙上寫下一個非形式化的證明草稿,列出關鍵的中間步驟、引理和大致思路。

Sketch Model同樣不糾結(jié)于具體的語法細節(jié),而是專注于邏輯路徑的規(guī)劃。它可以將自然語言證明拆解為若干個獨立的、難度更低的引理,并暫時跳過具體證明,僅保留整體的邏輯骨架。

這就將原本不可解的復雜命題,轉(zhuǎn)化成了難度更低的子目標。

研究人員采用混合獎勵信號的強化學習策略,來訓練這一模型:

  • 信號一:Lean編譯器驗證生成的草圖是否完全正確。
  • 信號二:自然語言Prover會逐一檢查引理,一旦發(fā)現(xiàn)任一引理在數(shù)學上不成立,整個草稿即被否決。
  • 信號三:引入基于長思維鏈的Rubric評分模型,從語義層面評估草稿的質(zhì)量——考量引理是否與自然語言證明對齊、拆解的粒度是否合適、是否真正降低了原題的難度。

當草稿在形式驗證、數(shù)學正確性和整體評分上均滿足要求時,才會獲得正向獎勵。



測試時工作流

以上創(chuàng)新最終構(gòu)成了一個分層級的多智能體協(xié)作系統(tǒng):

  • Natural Language Prover負責提供高層的數(shù)學直覺和自然語言證明。
  • Sketch Model將自然語言轉(zhuǎn)化為形式化的引理結(jié)構(gòu)。
  • Agentic Prover并行地攻克每一個被拆解出的引理。

如果某個引理太難證明,系統(tǒng)還會遞歸地調(diào)用Sketch Model再次進行拆解。這不僅規(guī)避了長文本生成的錯誤累積問題,更提升了推理的并行度和成功率。



研究人員還驗證了這一工作流的測試時Scaling特性。

如上圖所示,投入更多的計算資源,Seed Prover 1.5對問題的解決率會呈對數(shù)線性增長。

這項研究來自字節(jié)Seed AI4Math團隊。

量子位捕捉到了其中幾位作者的蹤跡。

Zheng Yuan,清華統(tǒng)計學博士。今年6月剛剛加入字節(jié),此前在阿里Qwen團隊負責對齊和推理方向工作。

Hanwen Zhu,本科畢業(yè)于牛津大學數(shù)學與計算機科學專業(yè),目前在CMU讀研,即將加入字節(jié)Seed。

鄭澤宇,CMU在讀博士,字節(jié)Seed實習生,專業(yè)方向同樣是數(shù)學與計算機科學聯(lián)合方向。

論文鏈接:
https://arxiv.org/pdf/2512.17260
參考鏈接:
[1]https://mp.weixin.qq.com/s/vcciJWK9KfDBM4FBIJwTfw?click_id=2
[2]https://x.com/GanjinZero/status/2001948751871815741

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
婚變傳聞僅1個月,唐嫣不再沉默,高調(diào)官宣喜訊,原來楊冪沒說謊

婚變傳聞僅1個月,唐嫣不再沉默,高調(diào)官宣喜訊,原來楊冪沒說謊

達西伍紅
2025-12-30 20:22:30
一記重拳落下來了。12月25日公安部那個會,聽得人心驚肉跳

一記重拳落下來了。12月25日公安部那個會,聽得人心驚肉跳

百態(tài)人間
2025-12-30 16:08:35
11連決!4連冠實力的印證,中國圍棋的沉默反擊與歷史性崛起

11連決!4連冠實力的印證,中國圍棋的沉默反擊與歷史性崛起

王老師聊圍棋
2025-12-31 08:21:50
2025年,俄向烏克蘭發(fā)射超10萬架無人機和2400枚導彈

2025年,俄向烏克蘭發(fā)射超10萬架無人機和2400枚導彈

桂系007
2025-12-31 23:17:28
支持中國分裂,拒飛內(nèi)地航線,歧視大陸游客的國泰航空,如今怎樣

支持中國分裂,拒飛內(nèi)地航線,歧視大陸游客的國泰航空,如今怎樣

小莜讀史
2025-12-15 21:00:06
有人預測:2026年,這5樣“東西”會嚴重貶值,普通人可不要碰!

有人預測:2026年,這5樣“東西”會嚴重貶值,普通人可不要碰!

蜉蝣說
2025-12-31 11:02:51
男藝人被曝高鐵站毆打女粉絲,經(jīng)紀公司回應

男藝人被曝高鐵站毆打女粉絲,經(jīng)紀公司回應

南國今報
2025-12-30 22:19:03
驚艷!全紅嬋 “換頭式” 長大,長發(fā)披肩秒變甜妹

驚艷!全紅嬋 “換頭式” 長大,長發(fā)披肩秒變甜妹

帶你逛體壇
2025-12-31 08:03:04
悲催!廣州一38歲女子相親哭訴,年收入50萬,想找門當戶對太難了

悲催!廣州一38歲女子相親哭訴,年收入50萬,想找門當戶對太難了

火山詩話
2025-12-30 12:11:26
北京這一晚,55歲劉奕君秒了41歲向佐,才懂男人剛陽硬朗的魅力

北京這一晚,55歲劉奕君秒了41歲向佐,才懂男人剛陽硬朗的魅力

大鐵貓娛樂
2025-12-22 16:14:20
成都一業(yè)主反映商鋪強燈光擾民2月余,街道:已要求調(diào)暗,22時后關閉

成都一業(yè)主反映商鋪強燈光擾民2月余,街道:已要求調(diào)暗,22時后關閉

環(huán)球網(wǎng)資訊
2025-12-31 16:58:51
康熙將鰲拜滿門抄斬,問其女:可知罪?女孩反問他,當場臉色大變

康熙將鰲拜滿門抄斬,問其女:可知罪?女孩反問他,當場臉色大變

千秋文化
2025-12-24 23:35:07
秦嵐的成熟韻味 到底誰懂 最難解讀吧

秦嵐的成熟韻味 到底誰懂 最難解讀吧

一抹暖陽
2025-12-30 22:07:12
南博的后續(xù)該來的終于要來了,南京市政府突然作出重要宣布

南博的后續(xù)該來的終于要來了,南京市政府突然作出重要宣布

可樂談情感
2025-12-31 10:26:36
迅猛龍直播掉美顏上熱搜:當百萬粉絲看到她素顏,反應絕了

迅猛龍直播掉美顏上熱搜:當百萬粉絲看到她素顏,反應絕了

手工制作阿殲
2025-12-31 11:40:42
上海人狂喜!上海寶山要發(fā)生大變化,住這里的人有福了!

上海人狂喜!上海寶山要發(fā)生大變化,住這里的人有福了!

好笑娛樂君每一天
2025-12-31 12:23:28
盧偉:非常感謝球員們的拼搏,只讓遼寧拿到65分防守很完美

盧偉:非常感謝球員們的拼搏,只讓遼寧拿到65分防守很完美

懂球帝
2025-12-31 21:33:19
飛天茅臺1月1日9時在i茅臺開售 每人最多可買12瓶/日

飛天茅臺1月1日9時在i茅臺開售 每人最多可買12瓶/日

財聞
2025-12-31 20:46:40
69歲退休大爺哭訴:跳了半年廣場舞,每月8000元退休金都不夠用了

69歲退休大爺哭訴:跳了半年廣場舞,每月8000元退休金都不夠用了

人間百態(tài)大全
2025-12-17 06:35:03
中美日三大經(jīng)濟體負債出爐:美國36萬億,日本9.1萬億,中國意外

中美日三大經(jīng)濟體負債出爐:美國36萬億,日本9.1萬億,中國意外

比利
2025-12-31 15:29:37
2026-01-01 01:32:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11951文章數(shù) 176355關注度
往期回顧 全部

科技要聞

老羅,演砸了,也封神了?

頭條要聞

快手稱打卡365天可領3650元 男子堅持300天"被迫"中斷

頭條要聞

快手稱打卡365天可領3650元 男子堅持300天"被迫"中斷

體育要聞

瓜帥毒舌迎新年:祝諸位多賣報,請?zhí)炜請蟮勒嬖?/h3>

娛樂要聞

官宣才兩天就翻車?七七被連環(huán)爆料

財經(jīng)要聞

高培勇:分配制度改革是提振消費的抓手

汽車要聞

凱迪拉克純電中型SUV 售價不足24萬/33寸曲面屏

態(tài)度原創(chuàng)

房產(chǎn)
手機
時尚
家居
軍事航空

房產(chǎn)要聞

終于等來了!2026年首個買房大利好

手機要聞

三星Galaxy S26 Ultra:藥丸相機島+圓角邊框,配置細節(jié)也清晰了

靈感集結(jié),能量共振

家居要聞

無形有行 自然與靈感詩意

軍事要聞

沉浸式感受"正義使命-2025"演習現(xiàn)場

無障礙瀏覽 進入關懷版 门国产乱子视频观看| 国产大片黄在线观看| 操逼片国产精品| 亚洲综合欧美色五月俺也去| 国产AV资源无限二区| 人妻久久久久久久久久久久久| 好看的av网址导航| 无码人妻久久一区区三区免费人妻| 日韩一区二区不卡黄色伦理电影| 最新av中文网资源| 亚洲国产精品无码一区二区三区 | 日韩熟妇中文色在线视频| 中文字幕人妻av一区二区| 少妇搡BBBB搡BBBB毛多多| 欧美国产综合| 久久久亚洲精华液精华液精华液| 毛片手机在线免费观看视频| 黑人精品无码| xx性欧美肥妇精品久久久久久| 欧美大尺度一区二区三区精品| 亚洲精品日韩在线丰满| 日本99久久久久久久久人妻斩 | 亚洲精品乱码久久久久久蜜桃777 久久国产乱子伦免费精品无码 | 国产成人在线观看网站| 男女做爽爽爽网站| 色吧网站在线播放| 国产精品乱码一区二区三区无码| a级国产乱理伦片| 西西人体午夜视频无码| 一级淫乱视频| Av日韩东京热结果人妻网站| 网友自拍视频一区二区三区| 亚洲AV永久无码精品无码自慰| 少妇一级无码av专区| 亚洲成人五月天| www..com欧美高清啪啪| 精品久久久久中文字幕人妻蜜臀| 亚洲大尺度无码无码专线| 亚洲国产高清在线一区二区三区| 好屌妞1区2区3| 欧美裸交视频|