夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

We-Math 2.0:全新多模態(tài)數(shù)學推理數(shù)據(jù)集 × 首個綜合數(shù)學知識體系

0
分享至



本文作者來自北京郵電大學、騰訊微信、清華大學。共同第一作者為北京郵電大學博士生喬潤祺與碩士生譚秋納,其共同完成的代表性工作 We-Math 于 ACL 2025 發(fā)表,并曾在 CVPR、ACL、ICLR、AAAI、ACM MM 等多個頂會中有論文發(fā)表。本文的通訊作者為博士生導師張洪剛與微信視覺技術中心李琛,We-Math 系列工作為喬潤祺在微信實習期間完成。



  • 論文標題:We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning
  • 論文鏈接:https://arxiv.org/abs/2508.10433
  • 主頁鏈接:https://we-math2.github.io/
  • 代碼鏈接:https://github.com/We-Math/We-Math2.0
  • 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/We-Math/We-Math2.0-Standard



近期,多模態(tài)大模型在圖像問答與視覺理解等任務中進展迅速。隨著 Vision-R1 、MM-Eureka 等工作將強化學習引入多模態(tài)推理,數(shù)學推理也得到了一定提升。然而,在邏輯性與知識系統(tǒng)性要求極高的數(shù)學任務中,模型仍然達不到像人類一樣進行嚴密推理的水平,這一問題仍然是開放性難題。

對此,我們?nèi)匀徽J為理想的學習范式應該是讓模型先掌握所需的知識,再進一步提升泛化能力?;谶@一思考,我們提出了 We-Math2.0:

1.MathBook Knowledge System:我們首先搭建了一個系統(tǒng)性、完整、相對正交的知識體系:包含5 個層級,491 個知識點與 1819 個知識原理,覆蓋了小學、初中、高中以及部分大學及競賽的知識。

2.MathBook-Standard:基于知識體系,我們發(fā)現(xiàn)開源數(shù)據(jù)集存在無法完整覆蓋、知識無法完成解構等問題,對此我們選擇對每個知識體系進行手動構建題目、畫圖,并結(jié)合一題多圖、一圖多題兩種思想,實現(xiàn)每個知識原理對應包含多個問題。

3.MathBook-Pro:我們希望進一步構造一個以模型為中心的數(shù)據(jù)空間來提升泛化能力。基于 MathBook-Standard 與知識體系,我們通過題目所需知識點數(shù)量、視覺復雜度、場景復雜度等三個維度對題目難度進行延展,將一條訓練數(shù)據(jù)拓展為 8 個不同難度的樣本。

4.訓練策略:基于所構建的數(shù)據(jù)集,我們首先通過 1000 條數(shù)據(jù)進行 SFT 冷啟動微調(diào),旨在改變模型的輸出范式,進一步首先利用 MathBook-Standard 的數(shù)據(jù),構建了均值獎勵,旨在通過以知識原理為單位對模型進行獎懲。在此基礎上,我們利用 MathBook-Pro 的數(shù)據(jù),構建了動態(tài)調(diào)度訓練(知識調(diào)度與模態(tài)調(diào)度)從而提升模型的泛化能力。

5.MathBookEval: 為了進一步評測模型在全面知識與推理深度層面的能力,我們提出了包含 1000 條樣本的 MathBookEval

為了實現(xiàn)嚴謹、高質(zhì)量、具備高復雜度的圖像數(shù)據(jù),我們的全部數(shù)據(jù)均為手動利用 Geogebra 專業(yè)化軟件新渲染而成,我們希望先通過手動構造高精度的數(shù)據(jù)來驗證這一思想的可行性。

目前不僅在 X 上收獲了一定的關注度,并且榮登 Huggingface Paper 日榜第一名!



We-Math 2.0

知識體系(MathBook knowledge system)



我們按照「定義 — 定理 — 應用」的思想構建了包含 5 個層級、491 個知識點、1819 個知識原理的知識體系,確保數(shù)學概念之間的層次關系與邏輯關聯(lián)得到清晰呈現(xiàn),知識點之間、知識原理之間盡可能相互獨立。

具體而言,每個知識點均對應若干條基本原理。例如,在「三角形的面積」這一知識點下,細分為「三角形面積的基本公式」、「海倫公式」、「三角函數(shù)法面積公式」等不同的知識原理。

做法層面:一方面由人類專家基于教材、維基百科和國家課程標準設計初始結(jié)構;另一方面,收集開源數(shù)據(jù)集通過 GPT-4o 進行初步打標,并通過層次聚類生成知識體系。最終,由專家對兩者進行融合與修改,形成高質(zhì)量的知識體系。

可以在我們的網(wǎng)站當中看到可視化的知識體系。

MathBook-Standard:雙向數(shù)據(jù)擴展策略



MathBook-Standard 采用「一題多圖」和「一圖多題」的雙向數(shù)據(jù)擴展策略,每道題目都標注了對應的多層級知識點,并嚴格覆蓋所提出的 1819 個數(shù)學知識原理。

具體而言,「一題多圖」是為同一道題生成不同的視覺變式,例如,一個關于三角形的種子問題可以通過改變角度生成不同類型的三角形圖像(如銳角、直角、鈍角三角形),從而提升模型在同一知識原理下的泛化能力;「一圖多題」則由專家基于同一圖像設計多個針對不同知識原理的新問題,全面考察不同的數(shù)學知識。

  • 數(shù)據(jù)集:https://huggingface.co/datasets/We-Math/We-Math2.0-Standard

MathBook-Pro



聚焦以模型為中心的學習路徑,MathBook-Pro 首次實現(xiàn)了針對多模態(tài)數(shù)學題目的三維難度建模。具體來說,我們從以下三個維度對每個種子問題進行難度擴展:

  • 推理步驟復雜度:通過增加題目涵蓋的知識點數(shù)量(不少于 6 個),系統(tǒng)性提升題目的邏輯難度。
  • 視覺復雜度:在保持核心幾何結(jié)構不變的基礎上,利用 GeoGebra 增加輔助元素或調(diào)整幾何配置,逐步增強圖像的視覺難度。
  • 語境復雜度:將問題描述從簡明的數(shù)學敘述拓展到更為復雜的現(xiàn)實或抽象情境,提升模型對語義和語境的理解能力。

每道種子題目可在這三大維度內(nèi)擴展為 7 個難度層級,為后續(xù)的動態(tài)調(diào)度和強化學習訓練提供堅實基礎,助力模型實現(xiàn)更穩(wěn)健的泛化能力。

  • 數(shù)據(jù)集:https://huggingface.co/datasets/We-Math/We-Math2.0-Pro)

訓練策略

SFT 冷啟動

首先,我們精選了 1,000 條涵蓋全部知識原理的數(shù)據(jù),通過監(jiān)督微調(diào)(SFT)實現(xiàn)模型冷啟動,讓模型初步掌握知識導向的推理鏈,激發(fā)潛力。隨后,我們采用 GRPO 算法進行兩階段漸進式強化學習:

預對齊強化學習

基于 MathBook-Standard,在每組包含相同知識原理的問題中,采用均值獎勵計算。對于一組變體題目:



獎勵計算為:



具體而言,平均獎勵不僅聚焦于單個問題,還反映了模型對同一知識原理下所有問題掌握情況,從而提供更全面的評價。

動態(tài)調(diào)度學習



基于 MathBook-Pro,動態(tài)調(diào)度策略能夠根據(jù)模型的錯誤類型,智能地調(diào)整訓練數(shù)據(jù)。MathBook-Pro 為每個種子問題構建了一系列難度逐漸增加的變體,如下所示:



其中,s,v,c 分別表示在推理步驟、視覺和語境上的復雜度增量,這就為每個種子題目形成了一條從基礎推理到高級推理的漸進路徑,基于此展開的增量學習機制如下:



實驗結(jié)果

主要結(jié)果



  • 較 Baseline 有穩(wěn)定提升:我們基于 Qwen2.5-VL-7B 開發(fā)了 MathBook-7B,并在四個主流數(shù)學推理測試集(MathVista、MathVision、MathVerse、We-Math)上進行了評估。結(jié)果顯示,MathBook-7B 的平均性能較 Qwen2.5-VL-7B 提升超過 5%。
  • 優(yōu)異的知識泛化能力:在 MathVista 和 We-Math 測試集上,MathBook-7B 展現(xiàn)出優(yōu)異的知識泛化能力,能夠高效解決多領域的復雜多步問題及其子問題,性能超過了其他強化學習方法的基線模型。
  • 用相對較少的數(shù)據(jù)解鎖較大的潛力:MathBook-7B 最終用 10K 左右的數(shù)據(jù)量訓練即達到與大規(guī)模數(shù)據(jù)集同等效果,充分凸顯了高質(zhì)量數(shù)據(jù)與結(jié)構化知識體系的高效性。

消融實驗分析





  • 每個模塊均有性能提升,預對齊強化學習最有效:冷啟動微調(diào)與兩階段強化學習策略均提升了模型性能。特別是預對齊強化學習后的模型在 MathVista 和 We-Math 中取得了令人印象深刻的結(jié)果,這凸顯了知識學習在增強數(shù)學推理能力方面的關鍵作用。
  • SFT 帶來的性能提升有限,但對于釋放強化學習的潛力至關重要:SFT 有效改變了模型推理范式,為后續(xù) RL 優(yōu)化提供了基礎,從而顯著提升了整體性能。(可以從后續(xù)的案例分析中看到變化)
  • SFT 人類自然的語言形式優(yōu)于結(jié)構化形式:通過對 SFT 數(shù)據(jù)范式與規(guī)模進行分析,我們發(fā)現(xiàn),采用自然語言形式的 CoT(Chain-of-Thought)作為 SFT 數(shù)據(jù)優(yōu)于結(jié)構化推理鏈,更能激發(fā)模型靈活推理能力的提升。
  • SFT 少量數(shù)據(jù)足以釋放強化學習的潛力:擴大 SFT 數(shù)據(jù)規(guī)模并非總能帶來更好的性能 —— 在少量精心挑選的 SFT 數(shù)據(jù)上訓練的模型,其表現(xiàn)可與大規(guī)模數(shù)據(jù)集模型媲美,甚至更優(yōu)。

實例分析



我們在附錄中提供了具體的回答案例。對比表明,通過在 SFT 階段改變了輸出范式,MathBook-7B 能夠提供更簡潔、更精準的推理過程。例如,在 MathVision 測試集上,MathBook-7B 的回答更加簡潔,平均響應長度減少,但仍保留了所有必要的知識推理步驟,解決了基線模型「過度思考」的問題。我們認為這種思路可以與構建自我思考、自我反饋的方法結(jié)合,旨在讓模型在正向推理過程中高效有效地利用知識推理。

MathBookEval 中的實驗結(jié)果



  • 知識點數(shù)量影響顯著:模型準確率與題目知識點數(shù)量呈負相關,尤其在涉及 7-10 個知識點時,大多數(shù)模型準確率低于 50%,凸顯多步推理的挑戰(zhàn)性,驗證了知識點數(shù)量作為難度指標的有效性。
  • 代數(shù)與幾何表現(xiàn)差異明顯:模型在代數(shù)題上表現(xiàn)較好,準確率普遍超過 50%;但在幾何題上表現(xiàn)較差,反映出空間推理能力的不足。

We-Math 系列工作



我們希望通過 We-Math 系列工作,以長期且持續(xù)系統(tǒng)性的努力,推動多模態(tài)數(shù)學推理的發(fā)展。其愿景希望讓模型像人類一樣可以依據(jù)知識解決問題,同樣也能在未來成為人類的學習助手。

具體而言,We-Math (ACL 2025) 聚焦于模型的評測,2.0 版本更加聚焦于模型的訓練,現(xiàn)階段我們通過手動構建高精度的知識體系與題目驗證了這一思路的有效性。

從數(shù)據(jù)集的角度看,2.0 版本更希望凸顯 MathBook-Standard 的高質(zhì)量與知識覆蓋全面性而 MathBook-Pro 則更多的是傳達一個有更多可能性的思路,后續(xù)我們也會進一步依照知識體系與三維空間探索大規(guī)模自動構建的可能性。

此外,2.0 版本我們也會將全部的圖像數(shù)據(jù)與 GGB 源文件開源,我們認為這不僅會對多模態(tài)推理有所貢獻,也會對 AI for Education 有著一定的貢獻,相信在未來,知識學習會是很重要的基石

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
北京男籃官宣:男籃隊長趙睿加盟改穿24號 聯(lián)手周琦新賽季沖冠

北京男籃官宣:男籃隊長趙睿加盟改穿24號 聯(lián)手周琦新賽季沖冠

醉臥浮生
2025-08-29 19:04:43
廣州:9月起開始核發(fā)外賣、快遞等行業(yè)電動自行車專用號牌

廣州:9月起開始核發(fā)外賣、快遞等行業(yè)電動自行車專用號牌

每日經(jīng)濟新聞
2025-08-29 13:06:56
54歲男子每周進行14次性生活,堅持3年后,體檢結(jié)果讓醫(yī)生很意外

54歲男子每周進行14次性生活,堅持3年后,體檢結(jié)果讓醫(yī)生很意外

如煙若夢
2025-08-29 17:11:26
老匠人一生只做兩口金絲楠木棺材,一個給了許世友,另一個是誰的

老匠人一生只做兩口金絲楠木棺材,一個給了許世友,另一個是誰的

大運河時空
2025-08-29 01:20:02
蘇州樓市,全脫了!

蘇州樓市,全脫了!

城市財經(jīng)
2025-08-29 11:51:18
確認,以色列空襲胡塞武裝,胡塞總理、國防部長和總參謀長被炸死

確認,以色列空襲胡塞武裝,胡塞總理、國防部長和總參謀長被炸死

山河路口
2025-08-29 19:32:24
印觀察|面對美國50%高關稅,最“受傷”的還不是印度經(jīng)濟

印觀察|面對美國50%高關稅,最“受傷”的還不是印度經(jīng)濟

澎湃新聞
2025-08-29 16:10:28
有兩種日本人

有兩種日本人

新民晚報
2025-08-29 11:06:05
又一俄軍普通話雇傭兵斃命,俄軍傷亡突破108萬人

又一俄軍普通話雇傭兵斃命,俄軍傷亡突破108萬人

史政先鋒
2025-08-29 21:24:18
坐灘船留不得,中方拖船進場,菲高層已亂陣腳,答應和中國簽協(xié)議

坐灘船留不得,中方拖船進場,菲高層已亂陣腳,答應和中國簽協(xié)議

科技有趣事
2025-08-29 10:10:25
造謠歌手韓磊的當事人的道歉太詭異:我是農(nóng)民!網(wǎng)友不買賬了!

造謠歌手韓磊的當事人的道歉太詭異:我是農(nóng)民!網(wǎng)友不買賬了!

一支破筆半支煙
2025-08-29 18:26:46
炸裂!國外街頭,女星唐嫣穿連體衣下面不系扣!網(wǎng)友:這么奢侈的丑,只有“糖糖”穿我才能原諒!

炸裂!國外街頭,女星唐嫣穿連體衣下面不系扣!網(wǎng)友:這么奢侈的丑,只有“糖糖”穿我才能原諒!

營銷報
2025-08-29 10:43:12
3-2!世錦賽大爆冷:衛(wèi)冕冠軍被淘汰,首個8強出爐,中國女排出戰(zhàn)

3-2!世錦賽大爆冷:衛(wèi)冕冠軍被淘汰,首個8強出爐,中國女排出戰(zhàn)

知軒體育
2025-08-29 21:00:59
眼看中國請來26國首腦看9.3閱兵,日本慌忙請來50非洲小國助威

眼看中國請來26國首腦看9.3閱兵,日本慌忙請來50非洲小國助威

大道無形我有型
2025-08-29 14:43:27
賴清德親口發(fā)令,“斬殺”民進黨“萬年惡煞總召”柯建銘

賴清德親口發(fā)令,“斬殺”民進黨“萬年惡煞總召”柯建銘

頭條爆料007
2025-08-29 10:27:17
2909億身價有何用?97歲的李嘉誠無力回天,兩個60歲兒子已成心病

2909億身價有何用?97歲的李嘉誠無力回天,兩個60歲兒子已成心病

歸史
2025-08-27 14:29:47
風雨飄搖中的委內(nèi)瑞拉

風雨飄搖中的委內(nèi)瑞拉

深度報
2025-08-29 16:24:05
性生活頻率多少最健康?哈佛大學研究:成人每月21次,前列腺癌風險降低19%-24%

性生活頻率多少最健康?哈佛大學研究:成人每月21次,前列腺癌風險降低19%-24%

梅斯醫(yī)學
2025-08-29 07:59:41
丹麥首相:美國人在格陵蘭島從事秘密活動“不可接受”

丹麥首相:美國人在格陵蘭島從事秘密活動“不可接受”

澎湃新聞
2025-08-29 00:53:40
九三閱兵觀禮名單公布 誰在同行誰會后悔

九三閱兵觀禮名單公布 誰在同行誰會后悔

看看新聞Knews
2025-08-28 23:49:01
2025-08-30 03:16:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11187文章數(shù) 142428關注度
往期回顧 全部

科技要聞

比亞迪中報營收首超特斯拉

頭條要聞

俄羅斯襲擊基輔已致20多人死亡 中方回應"是否譴責俄"

頭條要聞

俄羅斯襲擊基輔已致20多人死亡 中方回應"是否譴責俄"

體育要聞

從新疆飛行2小時,就能看皇馬踢歐冠?!

娛樂要聞

韓磊報警工作室嚴正聲明 妻子也回應了

財經(jīng)要聞

A股本輪行情,"創(chuàng)新牛"還是"資金牛"?

汽車要聞

售11.99萬元起 大眾全新凌渡L正式上市

態(tài)度原創(chuàng)

藝術
旅游
家居
數(shù)碼
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

提升功能 靈活居住環(huán)境

數(shù)碼要聞

三星Galaxy Book 5正式發(fā)布 搭載AI功能主打輕薄設計

軍事要聞

中俄朝三國領導人將首次一起公開亮相

無障礙瀏覽 進入關懷版 国产无码综合| 日本久久久久99人妻一区二区三区| 亚洲五月天激情网| 成年人网页毛片| 亚州v在线电影| 久久一亚色院精品全部免费| 国产国产精品人在线观看| 精品爆乳一区| 综合久久久久久综合久| 国内免费高清在线观看| xxxxx中文字幕| 亚洲熟妇自偷自拍另类| 亚洲国产熟女| 99re2.com| 日韩无码一区二区散区| 高清成人无码| 黄色舔女人逼一区二区三区| 真人性爱在线| 看中国毛片无毛内射| 国产成人一区二区视频免费| 国产精品高潮呻吟久久AV无语| 中文字幕乱码人妻无码久久免费| 狠狠热久久伊人av| 日韩精品卡1卡2日韩在线| 伊人狼人影院| 天堂在线www天堂在线| 亚洲理论在线A中文字幕| 亚州女人被男人操視頻| 加勒比avb一区二区三区| 少妇高潮a视频| 门国产乱子视频观看| 蜜桃av免费观看| 亚洲熟女精品| 大学生久久香蕉国产线看观看 | 精品久久久久久国产牛牛| 亚洲精品1区| 18禁黄网站禁片免费观看app下载| 国内精品久久久久久久小说| 天堂AV资源库| 无码vr熟妇人妻AV蜜桃| 国产18在线|