網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

告別“煉丹玄學(xué)”：上海AILab推出首個(gè)大模型數(shù)據(jù)競(jìng)技場(chǎng)

2025-08-24 14:28:40　來源: 量子位

河北舉報(bào)

分享至

OpenDataLab團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

數(shù)據(jù)在AI時(shí)代的重要性已經(jīng)不言而喻，但懸而未決的是——

如何精確量化這些數(shù)據(jù)的價(jià)值、辨別其優(yōu)劣？

為此，上海人工智能實(shí)驗(yàn)室OpenDataLab團(tuán)隊(duì)在數(shù)據(jù)領(lǐng)域持續(xù)深耕，正式推出了開放數(shù)據(jù)競(jìng)技場(chǎng)OpenDataArena

展開來說，在海量的SFT（監(jiān)督式微調(diào)）后訓(xùn)練數(shù)據(jù)面前，研究者們常常陷入“黑盒式”的困境：不清楚哪些數(shù)據(jù)真正有用，也難以系統(tǒng)性地評(píng)估和比較不同的數(shù)據(jù)集。

而OpenDataArena，正是一個(gè)為數(shù)據(jù)價(jià)值而生的“競(jìng)技場(chǎng)”，致力于將數(shù)據(jù)質(zhì)量的評(píng)估從“玄學(xué)”變?yōu)椤翱茖W(xué)”。

團(tuán)隊(duì)希望通過一個(gè)公平、公開、透明的平臺(tái)，首次正式嘗試回答“如何驗(yàn)證數(shù)據(jù)價(jià)值”這一核心問題。

它不僅提供了一個(gè)直觀的數(shù)據(jù)評(píng)測(cè)榜單，更構(gòu)建了一套完整可復(fù)現(xiàn)的數(shù)據(jù)價(jià)值驗(yàn)證體系——

通過一套訓(xùn)評(píng)一體化的開源工具，讓不同數(shù)據(jù)集在同等條件下公平“競(jìng)技”，用模型效果作為衡量數(shù)據(jù)價(jià)值的最終標(biāo)準(zhǔn)。

同時(shí)，通過開發(fā)多維度評(píng)分工具，對(duì)數(shù)據(jù)進(jìn)行精細(xì)化“體檢”，讓數(shù)據(jù)價(jià)值不再是模糊的“黑盒”。

下面詳細(xì)來看。

OpenDataArena：數(shù)據(jù)價(jià)值的首次全面驗(yàn)證

OpenDataArena首次系統(tǒng)性地探究“如何評(píng)價(jià)數(shù)據(jù)質(zhì)量”這個(gè)難題。

為此，該項(xiàng)目構(gòu)建了“開放數(shù)據(jù)競(jìng)技場(chǎng)”，并配套開發(fā)了一整套數(shù)據(jù)價(jià)值驗(yàn)證工具。

該平臺(tái)的核心成果包括：

OpenDataArena平臺(tái)：一個(gè)公平、公開、透明的SFT后訓(xùn)練數(shù)據(jù)價(jià)值評(píng)測(cè)平臺(tái)，涵蓋一個(gè)多領(lǐng)域、可視化的數(shù)據(jù)競(jìng)技榜單。
多維度數(shù)據(jù)打分：平臺(tái)從幾十種維度對(duì)已有數(shù)據(jù)進(jìn)行精細(xì)化打分，并已開源了部分評(píng)分?jǐn)?shù)據(jù)，便于研究員們后續(xù)直接下載使用，避免重復(fù)API調(diào)用。
訓(xùn)評(píng)一體化工具：團(tuán)隊(duì)開源了整套數(shù)據(jù)訓(xùn)練、評(píng)估以及數(shù)據(jù)打分工具，讓價(jià)值驗(yàn)證過程可復(fù)現(xiàn)、可擴(kuò)展。

OpenDataArena為以下幾類核心需求提供了實(shí)際的解決方案：

1、對(duì)數(shù)據(jù)質(zhì)量的評(píng)估與篩選：幫助模型訓(xùn)練者數(shù)據(jù)研究者快速識(shí)別并篩選出高質(zhì)量數(shù)據(jù)集，擺脫盲目試錯(cuò)，高效賦能模型訓(xùn)練與應(yīng)用。

2、對(duì)數(shù)據(jù)生成的指導(dǎo)與優(yōu)化：數(shù)據(jù)合成的研究者提供多維度的評(píng)分?jǐn)?shù)據(jù)和工具，助力他們尋找高價(jià)值的“種子數(shù)據(jù)”，為生成更優(yōu)質(zhì)的合成數(shù)據(jù)提供指導(dǎo)。

3、對(duì)數(shù)據(jù)價(jià)值的深入洞察：賦能學(xué)術(shù)研究人員探索數(shù)據(jù)特征與模型效果的內(nèi)在關(guān)聯(lián)，為數(shù)據(jù)選擇、數(shù)據(jù)生成等前沿研究提供堅(jiān)實(shí)的數(shù)據(jù)支持和客觀的評(píng)估依據(jù)。

平臺(tái)目前已覆蓋4+領(lǐng)域、20+基準(zhǔn)測(cè)試、20+數(shù)據(jù)評(píng)分維度，處理了100+數(shù)據(jù)集，超過20M+數(shù)據(jù)樣本，并完成了600+次模型訓(xùn)練、10K+次模型評(píng)估，這些指標(biāo)都在不斷增長(zhǎng)。

數(shù)據(jù)競(jìng)技場(chǎng)：讓數(shù)據(jù)在實(shí)戰(zhàn)中一較高下

OpenDataArena的核心理念，就是讓數(shù)據(jù)價(jià)值在實(shí)戰(zhàn)中得到驗(yàn)證。

該平臺(tái)通過一套公平、公開、可復(fù)現(xiàn)的大模型訓(xùn)練與評(píng)測(cè)機(jī)制，來比較不同訓(xùn)練數(shù)據(jù)集的優(yōu)劣。

那么，OpenDataArena具體是如何運(yùn)作的呢？

1、數(shù)據(jù)集選擇

平臺(tái)覆蓋了來自通用、數(shù)學(xué)、代碼、科學(xué)等多個(gè)領(lǐng)域的后訓(xùn)練數(shù)據(jù)集。這些數(shù)據(jù)來自于HuggingFace并且有一定的下載和關(guān)注度，不僅具有代表性，而且具備時(shí)效性，確保了評(píng)測(cè)的現(xiàn)實(shí)意義。

2、模型選擇

平臺(tái)采用了社區(qū)中最常用、最具代表性的Llama3.1Qwen 2.57B版本作為基準(zhǔn)模型，它們代表了真實(shí)的學(xué)術(shù)和工業(yè)應(yīng)用場(chǎng)景，同時(shí)盡可能反映了最多場(chǎng)景中實(shí)際使用的模型大小的數(shù)據(jù)性能。

3、訓(xùn)練與評(píng)估

平臺(tái)采用標(biāo)準(zhǔn)化訓(xùn)練配置，訓(xùn)練環(huán)節(jié)采用廣受認(rèn)可的LLaMA-Factory框架，并且嚴(yán)格采用最常見的訓(xùn)練參數(shù)。

測(cè)試環(huán)節(jié)使用OpenCompass進(jìn)行全面評(píng)估，在測(cè)試環(huán)節(jié)的參數(shù)設(shè)置上，團(tuán)隊(duì)進(jìn)行了大量預(yù)實(shí)驗(yàn)，確保推理模板和評(píng)估器等細(xì)節(jié)都經(jīng)過了精心的優(yōu)化，排除外部干擾，讓測(cè)試結(jié)果能更公平、公正地反映訓(xùn)練數(shù)據(jù)集的真實(shí)質(zhì)量。

4、評(píng)測(cè)集全面覆蓋

平臺(tái)選擇了通用、數(shù)學(xué)、代碼、長(zhǎng)鏈推理等多維度基準(zhǔn)測(cè)試集，力求全面、客觀地反映單領(lǐng)域數(shù)據(jù)質(zhì)量，以及混合領(lǐng)域的數(shù)據(jù)綜合質(zhì)量。

最終，OpenDataArena數(shù)據(jù)競(jìng)技場(chǎng)誕生，通過數(shù)據(jù)評(píng)測(cè)榜單直觀的給出數(shù)據(jù)“優(yōu)秀”程度。

平臺(tái)希望能夠幫助模型訓(xùn)練者和數(shù)據(jù)研究者快速識(shí)別并挑選高質(zhì)量數(shù)據(jù)集，降低試錯(cuò)成本，賦能模型訓(xùn)練與應(yīng)用。

數(shù)據(jù)多維度評(píng)價(jià)：打開數(shù)據(jù)質(zhì)量的“黑匣子”

除了通過訓(xùn)練模型得到下游任務(wù)的表現(xiàn)來直接反應(yīng)數(shù)據(jù)的質(zhì)量之外，OpenDataArena還通過多維度的客觀評(píng)分工具，來對(duì)數(shù)據(jù)本身進(jìn)行細(xì)致的“體檢”，這些客觀評(píng)分指標(biāo)得到了學(xué)界和業(yè)界的廣泛認(rèn)可。

1、20+維度，精準(zhǔn)畫像

平臺(tái)對(duì)代表性的數(shù)據(jù)集整體，以及數(shù)據(jù)集中的每一條數(shù)據(jù)，都進(jìn)行了細(xì)致的多維度打分。

不論是直接選用整個(gè)數(shù)據(jù)集，還是用于挑選優(yōu)質(zhì)子數(shù)據(jù)，都方便操作。同時(shí)，無論是指令數(shù)據(jù)，還是指令-響應(yīng)對(duì)數(shù)據(jù)，平臺(tái)都從不同方面提供了相應(yīng)的評(píng)分。

2、多源評(píng)分，深度剖析

平臺(tái)的評(píng)分工具整合了多種維度評(píng)估方法，包括基于模型的評(píng)估（Model-based Evaluation，如IFD）、大模型作為評(píng)委（LLM-as-a-Judge，如準(zhǔn)確性、復(fù)雜度）和啟發(fā)式方法（Heuristic，如回復(fù)響應(yīng)長(zhǎng)度）。

這些維度涵蓋了數(shù)據(jù)的常見評(píng)價(jià)指標(biāo)，為數(shù)據(jù)的價(jià)值提供了豐富的量化視角。

3、開源評(píng)分?jǐn)?shù)據(jù)

團(tuán)隊(duì)已完成對(duì)超過15M+數(shù)據(jù)的多維度評(píng)分，并已開源這些數(shù)據(jù)評(píng)分結(jié)果。

對(duì)于需要依賴常見評(píng)價(jià)指標(biāo)開展數(shù)據(jù)篩選、種子數(shù)據(jù)生成等任務(wù)的科研用戶而言，這不僅極大降低了打分成本，還有效避免了重復(fù)的API調(diào)用，從而節(jié)省了實(shí)際開銷，可謂一項(xiàng)極其寶貴的資源。

通過上述努力，平臺(tái)為數(shù)據(jù)合成、數(shù)據(jù)篩選的研究者提供了多維度的評(píng)分?jǐn)?shù)據(jù)和工具，助力他們尋找高價(jià)值的“種子數(shù)據(jù)”，最終為生成更優(yōu)質(zhì)、更高價(jià)值的數(shù)據(jù)提供了直接的幫助。

開源工具：讓數(shù)據(jù)價(jià)值驗(yàn)證觸手可及

為了“公平、公正、公開”的OpenDataArena平臺(tái)的設(shè)計(jì)原則，同時(shí)也為了讓更多人能參與到數(shù)據(jù)價(jià)值驗(yàn)證中來，真實(shí)地評(píng)價(jià)數(shù)據(jù)的質(zhì)量，OpenDataArena團(tuán)隊(duì)將整個(gè)平臺(tái)的核心工具都進(jìn)行了開源。

包括基于模型的訓(xùn)練評(píng)測(cè)工具，以及客觀的多維度數(shù)據(jù)評(píng)價(jià)打分工具，所有的細(xì)節(jié)能在完整的OpenDataArena-Tool中找到說明。

訓(xùn)評(píng)一體化工具

平臺(tái)基于主流的LLaMA-Factory訓(xùn)練框架，以及評(píng)測(cè)端知名的OpenCompass框架，打造了一套端到端的訓(xùn)練與評(píng)測(cè)工具，給出了所有的配置和流程復(fù)現(xiàn)腳本，確保了評(píng)估實(shí)驗(yàn)的結(jié)果可復(fù)現(xiàn)性與公平性。

相關(guān)的設(shè)置都盡可能與當(dāng)前的主流研究工作、以及其余開源工具進(jìn)行了對(duì)齊，保證了結(jié)果的公平公正可比。

具體的說明可以在配置詳情和工具說明中，找到所有細(xì)節(jié)。

多維度數(shù)據(jù)打分工具

平臺(tái)對(duì)于數(shù)據(jù)評(píng)價(jià)的打分工具也在持續(xù)完善中。

目前已實(shí)現(xiàn)的大部分評(píng)估維度打分工具均已開源，并提供了詳細(xì)的使用教程。不管是單個(gè)維度的數(shù)據(jù)評(píng)估，還是所有已支持的數(shù)據(jù)評(píng)估維度，用戶都可以在官方wiki文檔中了解到如何使用這些工具，并為自己的數(shù)據(jù)進(jìn)行“體檢”。

同時(shí)，團(tuán)隊(duì)還在持續(xù)優(yōu)化支持更多的數(shù)據(jù)打分維度，為用戶提供更多維度的數(shù)據(jù)打分選擇。

通過上述的工具開源，OpenDataArena團(tuán)隊(duì)希望提供一個(gè)開放共享的數(shù)據(jù)價(jià)值評(píng)估平臺(tái)，讓所有用戶都能參與到數(shù)據(jù)評(píng)估中來，并為產(chǎn)生真正的高價(jià)值數(shù)據(jù)共同努力。

未來展望：數(shù)據(jù)價(jià)值的星辰大海

據(jù)團(tuán)隊(duì)介紹，目前OpenDataArena已經(jīng)完成的僅僅只是冰山一角，也只是對(duì)數(shù)據(jù)價(jià)值驗(yàn)證的開始。

項(xiàng)目未來也有更多的計(jì)劃，例如下面這些：

擴(kuò)展驗(yàn)證范圍：逐步支持多模態(tài)等更復(fù)雜的數(shù)據(jù)類型；
深化應(yīng)用場(chǎng)景：擴(kuò)展至醫(yī)療、金融、科學(xué)等更多專業(yè)領(lǐng)域；
保持新鮮度：每月更新數(shù)據(jù)競(jìng)技場(chǎng)，確保數(shù)據(jù)排行榜的及時(shí)性。

團(tuán)隊(duì)認(rèn)為，數(shù)據(jù)價(jià)值的驗(yàn)證需要社區(qū)的共同努力，上述計(jì)劃也非常需要科研社區(qū)的力量來共同參與。

感興趣可以進(jìn)一步關(guān)注。

地址：https://opendataarena.github.io/index.html
工具：https://github.com/OpenDataArena/OpenDataArena-Tool
數(shù)據(jù)：https://huggingface.co/OpenDataArena

— 完 —

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.