始智AI wisemodel.cn開源社區(qū)
始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel社區(qū)上線,價(jià)格實(shí)惠,靈活方便,支持在線微調(diào)訓(xùn)練模型,及和,并。
數(shù)學(xué)不僅是邏輯的演繹,更是創(chuàng)造的結(jié)晶。從黎曼度量到微分流形,從群論到拓?fù)淇臻g,數(shù)學(xué)史上的每一次重大突破都源于創(chuàng)造性的飛躍。同濟(jì)大學(xué)數(shù)學(xué)科學(xué)學(xué)院DeepMath團(tuán)隊(duì)發(fā)起了一項(xiàng)開源計(jì)劃,旨在訓(xùn)練一個(gè)開源的數(shù)學(xué)大模型,探索大模型在前沿?cái)?shù)學(xué)研究中的應(yīng)用潛力。
近期,DeepMath團(tuán)隊(duì)開源發(fā)布了一個(gè)全新的數(shù)學(xué)評(píng)測集:DeepMath-Creative,重點(diǎn)評(píng)測主流大模型的數(shù)學(xué)創(chuàng)造能力。相關(guān)數(shù)據(jù)集已上線始智AI-wisemodel開源社區(qū),歡迎使用。
數(shù)據(jù)集地址
https://wisemodel.cn/datasets/deepmath/DeepMath-Creative/file
01.
數(shù)學(xué)創(chuàng)造力的本身是什么
當(dāng)前,大語言模型在數(shù)學(xué)領(lǐng)域的評(píng)測工作主要集中在推理能力上,各類評(píng)測集也多聚焦于初等水平的數(shù)學(xué)題。然而,真正的數(shù)學(xué)研究更需要?jiǎng)?chuàng)造性思維。通過深入研究,團(tuán)隊(duì)提出從三個(gè)維度系統(tǒng)評(píng)估數(shù)學(xué)創(chuàng)造性思維:
1.概念維度
正如黎曼度量重構(gòu)了微分幾何的研究范式,群論重塑了代數(shù)結(jié)構(gòu)的研究方法,真正的概念創(chuàng)新能開辟全新的數(shù)學(xué)疆域。然而,這類創(chuàng)造往往需要深刻的數(shù)學(xué)直覺,目前大模型的表現(xiàn)仍難以企及。
2.方法維度
新方法的提出為解決復(fù)雜問題提供了強(qiáng)有力的工具,例如廣義函數(shù)論的提出使得人類突破經(jīng)典函數(shù)框架的局限,在偏微分方程等領(lǐng)域取得了豐碩成果。我們的評(píng)測發(fā)現(xiàn),大模型在方法創(chuàng)新上表現(xiàn)出一定的重組能力,但真正的原創(chuàng)性方法仍難以企及。
3.例子維度
Milnor怪球、Weierstrass函數(shù)等經(jīng)典數(shù)學(xué)例子表明,構(gòu)造數(shù)學(xué)例子在推動(dòng)理論發(fā)展中具有獨(dú)特價(jià)值。
02.
DeepMath-Creative評(píng)測集介紹
1.設(shè)計(jì)原則:
團(tuán)隊(duì)構(gòu)建了具有以下特點(diǎn)的評(píng)測框架:
- 雙向探究式問題設(shè)計(jì):每個(gè)問題都采用"若成立請(qǐng)證明,若不成立請(qǐng)舉反例"的開放形式
- 多學(xué)科覆蓋:覆蓋代數(shù)、分析、拓?fù)涞榷鄬W(xué)科
- 難度梯度:本科水平與研究生水平的合理配比
經(jīng)過多名數(shù)學(xué)專家組成的團(tuán)隊(duì)嚴(yán)格篩選,最終形成包含179道高質(zhì)量題目的評(píng)測集,其中包含兩部分:證明題,構(gòu)造反例題。
2.具體評(píng)分規(guī)則:
3.評(píng)測結(jié)果與啟示
在評(píng)測過程中,只關(guān)注模型輸出最重要的“得分點(diǎn)”,忽略許多小錯(cuò)誤。在如此極其寬松的評(píng)分標(biāo)準(zhǔn)下,當(dāng)前模型的表現(xiàn)為:
- 最優(yōu)模型O3 Mini準(zhǔn)確率70%
- 主要錯(cuò)誤類型:
- 方向誤判
- 構(gòu)造缺陷
- 論證冗余
其中得分較高的數(shù)學(xué)題目均為難度不是很高的數(shù)學(xué)問題,在較為復(fù)雜的數(shù)學(xué)問題上,模型的表現(xiàn)急速下降。這些結(jié)果表明,大模型在數(shù)學(xué)創(chuàng)造力方面仍處于初級(jí)階段,特別是在:
- 對(duì)抽象數(shù)學(xué)概念的深刻理解
- 復(fù)雜例子的構(gòu)造能力
- 論證的簡潔性和優(yōu)美性
主流大模型的評(píng)測結(jié)果
模型輸出的錯(cuò)誤實(shí)例
----- END -----
wisemodel相關(guān):
系統(tǒng)升級(jí):
大賽報(bào)名:
系列模型:
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開源社區(qū)建設(shè)需要長期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運(yùn)營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核⒋笮突ヂ?lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。
向上滑動(dòng)查看
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.