隨著多模態(tài)大語言模型(MLLMs)在視覺問答、圖像描述等任務(wù)中的廣泛應(yīng)用,其推理能力尤其是數(shù)學(xué)幾何問題的解決能力,逐漸成為研究熱點(diǎn)。
然而,現(xiàn)有方法大多依賴模板生成圖像 - 文本對(duì),泛化能力有限,且視覺與文本信息之間存在嚴(yán)重不對(duì)齊問題,制約了模型在復(fù)雜幾何推理任務(wù)上的表現(xiàn)。
來自 UIUC 的作者團(tuán)隊(duì)的研究提出了一種基于強(qiáng)化學(xué)習(xí)與可驗(yàn)證獎(jiǎng)勵(lì) RLVR數(shù)據(jù)生成與優(yōu)化框架 ——Geo-Image-Textualization,并發(fā)布了首個(gè)完全對(duì)齊的高質(zhì)量幾何圖像 - 文本數(shù)據(jù)集 GeoReasoning-10K,包含 1 萬對(duì)精心構(gòu)建的圖像與描述。
并且,為了促進(jìn)社區(qū)發(fā)展,作者團(tuán)隊(duì)已公開 GeoReasoning-10K 數(shù)據(jù)集及相關(guān)代碼。
- 數(shù)據(jù)集地址:https://huggingface.co/datasets/ScaleMath/GeoReasoning
- 代碼地址:https://github.com/MachinePhoenix/GeoReasoning
- 論文鏈接:https://arxiv.org/abs/2509.15217
- 論文標(biāo)題:Generalizable Geometric Image Caption Synthesis
數(shù)據(jù)集與方法介紹
該框架的核心創(chuàng)新包括:
- 強(qiáng)泛化性:訓(xùn)練后的模型不僅在幾何任務(wù)上表現(xiàn)優(yōu)異,還能泛化至算術(shù)、代數(shù)、數(shù)值推理等非幾何任務(wù),甚至處理非幾何圖像輸入。
- 高質(zhì)量:經(jīng)過 GeoReasoning 訓(xùn)練過的模型,在下游任務(wù)上性能超過其他同類型數(shù)據(jù)集,并且具有良好的縮放性質(zhì)。
- 可擴(kuò)展性:生成的樣本由模板集中的字句組合而成,可以組合出任意復(fù)雜度的幾何題。
圖像 - 標(biāo)題 - 問題 / 答案的生成流程如下圖所示:
生成的幾何圖示例如下:
訓(xùn)練流程和強(qiáng)化學(xué)習(xí)階段的獎(jiǎng)勵(lì)函數(shù)如下:
實(shí)驗(yàn)結(jié)果
在權(quán)威數(shù)學(xué)推理基準(zhǔn) MathVista 和 MathVers 上與其他幾何字幕標(biāo)注數(shù)據(jù)集(如 AutoGeo、GeoPeP)和解題數(shù)據(jù)集(如 GeoGPT4, Geo170K)相比,GeoReasoning-10K 在相同數(shù)據(jù)量下均取得最優(yōu)效果,展現(xiàn)出卓越的數(shù)據(jù)質(zhì)量與擴(kuò)展性:
左:MathVista;右:MathVerse
在 MMMU 測評(píng)基準(zhǔn)上,使用 GeoReasoning-10K 微調(diào)后的 Gemma3-4B 模型顯著提升多項(xiàng)能力:
MMMU 實(shí)驗(yàn)結(jié)果
最后展示 MathVista 中的一些具體樣例:
以及 MMMU 的一些樣例:
總結(jié)
在多模態(tài)大語言模型快速發(fā)展的今天,Geo-Image-Textualization 框架和 GeoReasoning-10K 數(shù)據(jù)集為解決幾何推理瓶頸提供了全新思路。通過確保視覺和文本信息的完全對(duì)齊,本文的方法不僅提升了模型在幾何問題上的表現(xiàn),還實(shí)現(xiàn)了向更廣泛數(shù)學(xué)領(lǐng)域的泛化。
正如實(shí)驗(yàn)結(jié)果所示,給幾何圖片寫標(biāo)題可以讓 AI 變聰明,不僅能解決幾何問題,還能增強(qiáng)其整體數(shù)學(xué)推理能力,為多模態(tài) AI 在教育、科學(xué)計(jì)算等領(lǐng)域的應(yīng)用鋪平道路。
感謝作者團(tuán)隊(duì)的辛勤工作和開源貢獻(xiàn),期待更多研究者加入這一領(lǐng)域,共同推動(dòng)多模態(tài) AI 技術(shù)的邊界不斷擴(kuò)展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.