本文作者來自北京郵電大學、騰訊微信、清華大學。共同第一作者為北京郵電大學博士生喬潤祺與碩士生譚秋納,其共同完成的代表性工作 We-Math 于 ACL 2025 發(fā)表,并曾在 CVPR、ACL、ICLR、AAAI、ACM MM 等多個頂會中有論文發(fā)表。本文的通訊作者為博士生導師張洪剛與微信視覺技術中心李琛,We-Math 系列工作為喬潤祺在微信實習期間完成。
- 論文標題:We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning
- 論文鏈接:https://arxiv.org/abs/2508.10433
- 主頁鏈接:https://we-math2.github.io/
- 代碼鏈接:https://github.com/We-Math/We-Math2.0
- 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/We-Math/We-Math2.0-Standard
近期,多模態(tài)大模型在圖像問答與視覺理解等任務中進展迅速。隨著 Vision-R1 、MM-Eureka 等工作將強化學習引入多模態(tài)推理,數(shù)學推理也得到了一定提升。然而,在邏輯性與知識系統(tǒng)性要求極高的數(shù)學任務中,模型仍然達不到像人類一樣進行嚴密推理的水平,這一問題仍然是開放性難題。
對此,我們?nèi)匀徽J為理想的學習范式應該是讓模型先掌握所需的知識,再進一步提升泛化能力?;谶@一思考,我們提出了 We-Math2.0:
1.MathBook Knowledge System:我們首先搭建了一個系統(tǒng)性、完整、相對正交的知識體系:包含5 個層級,491 個知識點與 1819 個知識原理,覆蓋了小學、初中、高中以及部分大學及競賽的知識。
2.MathBook-Standard:基于知識體系,我們發(fā)現(xiàn)開源數(shù)據(jù)集存在無法完整覆蓋、知識無法完成解構等問題,對此我們選擇對每個知識體系進行手動構建題目、畫圖,并結(jié)合一題多圖、一圖多題兩種思想,實現(xiàn)每個知識原理對應包含多個問題。
3.MathBook-Pro:我們希望進一步構造一個以模型為中心的數(shù)據(jù)空間來提升泛化能力。基于 MathBook-Standard 與知識體系,我們通過題目所需知識點數(shù)量、視覺復雜度、場景復雜度等三個維度對題目難度進行延展,將一條訓練數(shù)據(jù)拓展為 8 個不同難度的樣本。
4.訓練策略:基于所構建的數(shù)據(jù)集,我們首先通過 1000 條數(shù)據(jù)進行 SFT 冷啟動微調(diào),旨在改變模型的輸出范式,進一步首先利用 MathBook-Standard 的數(shù)據(jù),構建了均值獎勵,旨在通過以知識原理為單位對模型進行獎懲。在此基礎上,我們利用 MathBook-Pro 的數(shù)據(jù),構建了動態(tài)調(diào)度訓練(知識調(diào)度與模態(tài)調(diào)度)從而提升模型的泛化能力。
5.MathBookEval: 為了進一步評測模型在全面知識與推理深度層面的能力,我們提出了包含 1000 條樣本的 MathBookEval
為了實現(xiàn)嚴謹、高質(zhì)量、具備高復雜度的圖像數(shù)據(jù),我們的全部數(shù)據(jù)均為手動利用 Geogebra 專業(yè)化軟件新渲染而成,我們希望先通過手動構造高精度的數(shù)據(jù)來驗證這一思想的可行性。
目前不僅在 X 上收獲了一定的關注度,并且榮登 Huggingface Paper 日榜第一名!
We-Math 2.0
知識體系(MathBook knowledge system)
我們按照「定義 — 定理 — 應用」的思想構建了包含 5 個層級、491 個知識點、1819 個知識原理的知識體系,確保數(shù)學概念之間的層次關系與邏輯關聯(lián)得到清晰呈現(xiàn),知識點之間、知識原理之間盡可能相互獨立。
具體而言,每個知識點均對應若干條基本原理。例如,在「三角形的面積」這一知識點下,細分為「三角形面積的基本公式」、「海倫公式」、「三角函數(shù)法面積公式」等不同的知識原理。
做法層面:一方面由人類專家基于教材、維基百科和國家課程標準設計初始結(jié)構;另一方面,收集開源數(shù)據(jù)集通過 GPT-4o 進行初步打標,并通過層次聚類生成知識體系。最終,由專家對兩者進行融合與修改,形成高質(zhì)量的知識體系。
可以在我們的網(wǎng)站當中看到可視化的知識體系。
MathBook-Standard:雙向數(shù)據(jù)擴展策略
MathBook-Standard 采用「一題多圖」和「一圖多題」的雙向數(shù)據(jù)擴展策略,每道題目都標注了對應的多層級知識點,并嚴格覆蓋所提出的 1819 個數(shù)學知識原理。
具體而言,「一題多圖」是為同一道題生成不同的視覺變式,例如,一個關于三角形的種子問題可以通過改變角度生成不同類型的三角形圖像(如銳角、直角、鈍角三角形),從而提升模型在同一知識原理下的泛化能力;「一圖多題」則由專家基于同一圖像設計多個針對不同知識原理的新問題,全面考察不同的數(shù)學知識。
- 數(shù)據(jù)集:https://huggingface.co/datasets/We-Math/We-Math2.0-Standard
MathBook-Pro
聚焦以模型為中心的學習路徑,MathBook-Pro 首次實現(xiàn)了針對多模態(tài)數(shù)學題目的三維難度建模。具體來說,我們從以下三個維度對每個種子問題進行難度擴展:
- 推理步驟復雜度:通過增加題目涵蓋的知識點數(shù)量(不少于 6 個),系統(tǒng)性提升題目的邏輯難度。
- 視覺復雜度:在保持核心幾何結(jié)構不變的基礎上,利用 GeoGebra 增加輔助元素或調(diào)整幾何配置,逐步增強圖像的視覺難度。
- 語境復雜度:將問題描述從簡明的數(shù)學敘述拓展到更為復雜的現(xiàn)實或抽象情境,提升模型對語義和語境的理解能力。
每道種子題目可在這三大維度內(nèi)擴展為 7 個難度層級,為后續(xù)的動態(tài)調(diào)度和強化學習訓練提供堅實基礎,助力模型實現(xiàn)更穩(wěn)健的泛化能力。
- 數(shù)據(jù)集:https://huggingface.co/datasets/We-Math/We-Math2.0-Pro)
訓練策略
SFT 冷啟動
首先,我們精選了 1,000 條涵蓋全部知識原理的數(shù)據(jù),通過監(jiān)督微調(diào)(SFT)實現(xiàn)模型冷啟動,讓模型初步掌握知識導向的推理鏈,激發(fā)潛力。隨后,我們采用 GRPO 算法進行兩階段漸進式強化學習:
預對齊強化學習
基于 MathBook-Standard,在每組包含相同知識原理的問題中,采用均值獎勵計算。對于一組變體題目:
獎勵計算為:
具體而言,平均獎勵不僅聚焦于單個問題,還反映了模型對同一知識原理下所有問題掌握情況,從而提供更全面的評價。
動態(tài)調(diào)度學習
基于 MathBook-Pro,動態(tài)調(diào)度策略能夠根據(jù)模型的錯誤類型,智能地調(diào)整訓練數(shù)據(jù)。MathBook-Pro 為每個種子問題構建了一系列難度逐漸增加的變體,如下所示:
其中,s,v,c 分別表示在推理步驟、視覺和語境上的復雜度增量,這就為每個種子題目形成了一條從基礎推理到高級推理的漸進路徑,基于此展開的增量學習機制如下:
實驗結(jié)果
主要結(jié)果
- 較 Baseline 有穩(wěn)定提升:我們基于 Qwen2.5-VL-7B 開發(fā)了 MathBook-7B,并在四個主流數(shù)學推理測試集(MathVista、MathVision、MathVerse、We-Math)上進行了評估。結(jié)果顯示,MathBook-7B 的平均性能較 Qwen2.5-VL-7B 提升超過 5%。
- 優(yōu)異的知識泛化能力:在 MathVista 和 We-Math 測試集上,MathBook-7B 展現(xiàn)出優(yōu)異的知識泛化能力,能夠高效解決多領域的復雜多步問題及其子問題,性能超過了其他強化學習方法的基線模型。
- 用相對較少的數(shù)據(jù)解鎖較大的潛力:MathBook-7B 最終用 10K 左右的數(shù)據(jù)量訓練即達到與大規(guī)模數(shù)據(jù)集同等效果,充分凸顯了高質(zhì)量數(shù)據(jù)與結(jié)構化知識體系的高效性。
消融實驗分析
- 每個模塊均有性能提升,預對齊強化學習最有效:冷啟動微調(diào)與兩階段強化學習策略均提升了模型性能。特別是預對齊強化學習后的模型在 MathVista 和 We-Math 中取得了令人印象深刻的結(jié)果,這凸顯了知識學習在增強數(shù)學推理能力方面的關鍵作用。
- SFT 帶來的性能提升有限,但對于釋放強化學習的潛力至關重要:SFT 有效改變了模型推理范式,為后續(xù) RL 優(yōu)化提供了基礎,從而顯著提升了整體性能。(可以從后續(xù)的案例分析中看到變化)
- SFT 人類自然的語言形式優(yōu)于結(jié)構化形式:通過對 SFT 數(shù)據(jù)范式與規(guī)模進行分析,我們發(fā)現(xiàn),采用自然語言形式的 CoT(Chain-of-Thought)作為 SFT 數(shù)據(jù)優(yōu)于結(jié)構化推理鏈,更能激發(fā)模型靈活推理能力的提升。
- SFT 少量數(shù)據(jù)足以釋放強化學習的潛力:擴大 SFT 數(shù)據(jù)規(guī)模并非總能帶來更好的性能 —— 在少量精心挑選的 SFT 數(shù)據(jù)上訓練的模型,其表現(xiàn)可與大規(guī)模數(shù)據(jù)集模型媲美,甚至更優(yōu)。
實例分析
我們在附錄中提供了具體的回答案例。對比表明,通過在 SFT 階段改變了輸出范式,MathBook-7B 能夠提供更簡潔、更精準的推理過程。例如,在 MathVision 測試集上,MathBook-7B 的回答更加簡潔,平均響應長度減少,但仍保留了所有必要的知識推理步驟,解決了基線模型「過度思考」的問題。我們認為這種思路可以與構建自我思考、自我反饋的方法結(jié)合,旨在讓模型在正向推理過程中高效有效地利用知識推理。
MathBookEval 中的實驗結(jié)果
- 知識點數(shù)量影響顯著:模型準確率與題目知識點數(shù)量呈負相關,尤其在涉及 7-10 個知識點時,大多數(shù)模型準確率低于 50%,凸顯多步推理的挑戰(zhàn)性,驗證了知識點數(shù)量作為難度指標的有效性。
- 代數(shù)與幾何表現(xiàn)差異明顯:模型在代數(shù)題上表現(xiàn)較好,準確率普遍超過 50%;但在幾何題上表現(xiàn)較差,反映出空間推理能力的不足。
We-Math 系列工作
我們希望通過 We-Math 系列工作,以長期且持續(xù)系統(tǒng)性的努力,推動多模態(tài)數(shù)學推理的發(fā)展。其愿景希望讓模型像人類一樣可以依據(jù)知識解決問題,同樣也能在未來成為人類的學習助手。
具體而言,We-Math (ACL 2025) 聚焦于模型的評測,2.0 版本更加聚焦于模型的訓練,現(xiàn)階段我們通過手動構建高精度的知識體系與題目驗證了這一思路的有效性。
從數(shù)據(jù)集的角度看,2.0 版本更希望凸顯 MathBook-Standard 的高質(zhì)量與知識覆蓋全面性而 MathBook-Pro 則更多的是傳達一個有更多可能性的思路,后續(xù)我們也會進一步依照知識體系與三維空間探索大規(guī)模自動構建的可能性。
此外,2.0 版本我們也會將全部的圖像數(shù)據(jù)與 GGB 源文件開源,我們認為這不僅會對多模態(tài)推理有所貢獻,也會對 AI for Education 有著一定的貢獻,相信在未來,知識學習會是很重要的基石
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.