網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepMath-Creative評(píng)測集發(fā)布: 探索大模型的數(shù)學(xué)創(chuàng)造能力

2025-05-20 18:35:00　來源: wisemodel開源社區(qū)

北京舉報(bào)

分享至

始智AI wisemodel.cn開源社區(qū)

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在，歡迎加入共同成長。wisemodel社區(qū)上線，價(jià)格實(shí)惠，靈活方便，支持在線微調(diào)訓(xùn)練模型，及和，并。

數(shù)學(xué)不僅是邏輯的演繹，更是創(chuàng)造的結(jié)晶。從黎曼度量到微分流形，從群論到拓?fù)淇臻g，數(shù)學(xué)史上的每一次重大突破都源于創(chuàng)造性的飛躍。同濟(jì)大學(xué)數(shù)學(xué)科學(xué)學(xué)院DeepMath團(tuán)隊(duì)發(fā)起了一項(xiàng)開源計(jì)劃，旨在訓(xùn)練一個(gè)開源的數(shù)學(xué)大模型，探索大模型在前沿?cái)?shù)學(xué)研究中的應(yīng)用潛力。

近期，DeepMath團(tuán)隊(duì)開源發(fā)布了一個(gè)全新的數(shù)學(xué)評(píng)測集：DeepMath-Creative，重點(diǎn)評(píng)測主流大模型的數(shù)學(xué)創(chuàng)造能力。相關(guān)數(shù)據(jù)集已上線始智AI-wisemodel開源社區(qū)，歡迎使用。

數(shù)據(jù)集地址

https://wisemodel.cn/datasets/deepmath/DeepMath-Creative/file

01.

數(shù)學(xué)創(chuàng)造力的本身是什么

當(dāng)前，大語言模型在數(shù)學(xué)領(lǐng)域的評(píng)測工作主要集中在推理能力上，各類評(píng)測集也多聚焦于初等水平的數(shù)學(xué)題。然而，真正的數(shù)學(xué)研究更需要?jiǎng)?chuàng)造性思維。通過深入研究，團(tuán)隊(duì)提出從三個(gè)維度系統(tǒng)評(píng)估數(shù)學(xué)創(chuàng)造性思維：

1.概念維度

正如黎曼度量重構(gòu)了微分幾何的研究范式，群論重塑了代數(shù)結(jié)構(gòu)的研究方法，真正的概念創(chuàng)新能開辟全新的數(shù)學(xué)疆域。然而，這類創(chuàng)造往往需要深刻的數(shù)學(xué)直覺，目前大模型的表現(xiàn)仍難以企及。

2.方法維度

新方法的提出為解決復(fù)雜問題提供了強(qiáng)有力的工具，例如廣義函數(shù)論的提出使得人類突破經(jīng)典函數(shù)框架的局限，在偏微分方程等領(lǐng)域取得了豐碩成果。我們的評(píng)測發(fā)現(xiàn)，大模型在方法創(chuàng)新上表現(xiàn)出一定的重組能力，但真正的原創(chuàng)性方法仍難以企及。

3.例子維度

Milnor怪球、Weierstrass函數(shù)等經(jīng)典數(shù)學(xué)例子表明，構(gòu)造數(shù)學(xué)例子在推動(dòng)理論發(fā)展中具有獨(dú)特價(jià)值。

02.

DeepMath-Creative評(píng)測集介紹

1.設(shè)計(jì)原則：

團(tuán)隊(duì)構(gòu)建了具有以下特點(diǎn)的評(píng)測框架：

- 雙向探究式問題設(shè)計(jì)：每個(gè)問題都采用"若成立請(qǐng)證明，若不成立請(qǐng)舉反例"的開放形式

- 多學(xué)科覆蓋：覆蓋代數(shù)、分析、拓?fù)涞榷鄬W(xué)科

- 難度梯度：本科水平與研究生水平的合理配比

經(jīng)過多名數(shù)學(xué)專家組成的團(tuán)隊(duì)嚴(yán)格篩選，最終形成包含179道高質(zhì)量題目的評(píng)測集，其中包含兩部分：證明題，構(gòu)造反例題。

2.具體評(píng)分規(guī)則：

3.評(píng)測結(jié)果與啟示

在評(píng)測過程中，只關(guān)注模型輸出最重要的“得分點(diǎn)”，忽略許多小錯(cuò)誤。在如此極其寬松的評(píng)分標(biāo)準(zhǔn)下，當(dāng)前模型的表現(xiàn)為：

- 最優(yōu)模型O3 Mini準(zhǔn)確率70%

- 主要錯(cuò)誤類型：

- 方向誤判

- 構(gòu)造缺陷

- 論證冗余

其中得分較高的數(shù)學(xué)題目均為難度不是很高的數(shù)學(xué)問題，在較為復(fù)雜的數(shù)學(xué)問題上，模型的表現(xiàn)急速下降。這些結(jié)果表明，大模型在數(shù)學(xué)創(chuàng)造力方面仍處于初級(jí)階段，特別是在：

- 對(duì)抽象數(shù)學(xué)概念的深刻理解

- 復(fù)雜例子的構(gòu)造能力

- 論證的簡潔性和優(yōu)美性

主流大模型的評(píng)測結(jié)果

模型輸出的錯(cuò)誤實(shí)例

----- END -----

wisemodel相關(guān)：

系統(tǒng)升級(jí)：

大賽報(bào)名：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅(jiān)持和投入，更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù)，歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請(qǐng)加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來，逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū)，為了加快公司發(fā)展，我們長期需要技術(shù)、運(yùn)營等人才加盟，技術(shù)側(cè)重在AI infra、后端開發(fā)，熟悉K8S、模型訓(xùn)練和推理等技術(shù)，以及熟悉開發(fā)者生態(tài)運(yùn)營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等，在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹，也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長劉道全創(chuàng)立，旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高?？蒲性核⒋笮突ヂ?lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者，以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等，還有投資機(jī)構(gòu)、科技媒體等，共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.