OpenDataLab團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
數(shù)據(jù)在AI時(shí)代的重要性已經(jīng)不言而喻,但懸而未決的是——
如何精確量化這些數(shù)據(jù)的價(jià)值、辨別其優(yōu)劣?
為此,上海人工智能實(shí)驗(yàn)室OpenDataLab團(tuán)隊(duì)在數(shù)據(jù)領(lǐng)域持續(xù)深耕,正式推出了開放數(shù)據(jù)競(jìng)技場(chǎng)OpenDataArena
展開來說,在海量的SFT(監(jiān)督式微調(diào))后訓(xùn)練數(shù)據(jù)面前,研究者們常常陷入“黑盒式”的困境:不清楚哪些數(shù)據(jù)真正有用,也難以系統(tǒng)性地評(píng)估和比較不同的數(shù)據(jù)集。
而OpenDataArena,正是一個(gè)為數(shù)據(jù)價(jià)值而生的“競(jìng)技場(chǎng)”,致力于將數(shù)據(jù)質(zhì)量的評(píng)估從“玄學(xué)”變?yōu)椤翱茖W(xué)”。
團(tuán)隊(duì)希望通過一個(gè)公平、公開、透明的平臺(tái),首次正式嘗試回答“如何驗(yàn)證數(shù)據(jù)價(jià)值”這一核心問題。
它不僅提供了一個(gè)直觀的數(shù)據(jù)評(píng)測(cè)榜單,更構(gòu)建了一套完整可復(fù)現(xiàn)的數(shù)據(jù)價(jià)值驗(yàn)證體系——
通過一套訓(xùn)評(píng)一體化的開源工具,讓不同數(shù)據(jù)集在同等條件下公平“競(jìng)技”,用模型效果作為衡量數(shù)據(jù)價(jià)值的最終標(biāo)準(zhǔn)。
同時(shí),通過開發(fā)多維度評(píng)分工具,對(duì)數(shù)據(jù)進(jìn)行精細(xì)化“體檢”,讓數(shù)據(jù)價(jià)值不再是模糊的“黑盒”。
下面詳細(xì)來看。
OpenDataArena:數(shù)據(jù)價(jià)值的首次全面驗(yàn)證
OpenDataArena首次系統(tǒng)性地探究“如何評(píng)價(jià)數(shù)據(jù)質(zhì)量”這個(gè)難題。
為此,該項(xiàng)目構(gòu)建了“開放數(shù)據(jù)競(jìng)技場(chǎng)”,并配套開發(fā)了一整套數(shù)據(jù)價(jià)值驗(yàn)證工具。
該平臺(tái)的核心成果包括:
- OpenDataArena平臺(tái):一個(gè)公平、公開、透明的SFT后訓(xùn)練數(shù)據(jù)價(jià)值評(píng)測(cè)平臺(tái),涵蓋一個(gè)多領(lǐng)域、可視化的數(shù)據(jù)競(jìng)技榜單。
- 多維度數(shù)據(jù)打分:平臺(tái)從幾十種維度對(duì)已有數(shù)據(jù)進(jìn)行精細(xì)化打分,并已開源了部分評(píng)分?jǐn)?shù)據(jù),便于研究員們后續(xù)直接下載使用,避免重復(fù)API調(diào)用。
- 訓(xùn)評(píng)一體化工具:團(tuán)隊(duì)開源了整套數(shù)據(jù)訓(xùn)練、評(píng)估以及數(shù)據(jù)打分工具,讓價(jià)值驗(yàn)證過程可復(fù)現(xiàn)、可擴(kuò)展。
OpenDataArena為以下幾類核心需求提供了實(shí)際的解決方案:
1、對(duì)數(shù)據(jù)質(zhì)量的評(píng)估與篩選:幫助模型訓(xùn)練者數(shù)據(jù)研究者快速識(shí)別并篩選出高質(zhì)量數(shù)據(jù)集,擺脫盲目試錯(cuò),高效賦能模型訓(xùn)練與應(yīng)用。
2、對(duì)數(shù)據(jù)生成的指導(dǎo)與優(yōu)化:數(shù)據(jù)合成的研究者提供多維度的評(píng)分?jǐn)?shù)據(jù)和工具,助力他們尋找高價(jià)值的“種子數(shù)據(jù)”,為生成更優(yōu)質(zhì)的合成數(shù)據(jù)提供指導(dǎo)。
3、對(duì)數(shù)據(jù)價(jià)值的深入洞察:賦能學(xué)術(shù)研究人員探索數(shù)據(jù)特征與模型效果的內(nèi)在關(guān)聯(lián),為數(shù)據(jù)選擇、數(shù)據(jù)生成等前沿研究提供堅(jiān)實(shí)的數(shù)據(jù)支持和客觀的評(píng)估依據(jù)。
平臺(tái)目前已覆蓋4+領(lǐng)域、20+基準(zhǔn)測(cè)試、20+數(shù)據(jù)評(píng)分維度,處理了100+數(shù)據(jù)集,超過20M+數(shù)據(jù)樣本,并完成了600+次模型訓(xùn)練、10K+次模型評(píng)估,這些指標(biāo)都在不斷增長(zhǎng)。
數(shù)據(jù)競(jìng)技場(chǎng):讓數(shù)據(jù)在實(shí)戰(zhàn)中一較高下
OpenDataArena的核心理念,就是讓數(shù)據(jù)價(jià)值在實(shí)戰(zhàn)中得到驗(yàn)證。
該平臺(tái)通過一套公平、公開、可復(fù)現(xiàn)的大模型訓(xùn)練與評(píng)測(cè)機(jī)制,來比較不同訓(xùn)練數(shù)據(jù)集的優(yōu)劣。
那么,OpenDataArena具體是如何運(yùn)作的呢?
1、數(shù)據(jù)集選擇
平臺(tái)覆蓋了來自通用、數(shù)學(xué)、代碼、科學(xué)等多個(gè)領(lǐng)域的后訓(xùn)練數(shù)據(jù)集。這些數(shù)據(jù)來自于HuggingFace并且有一定的下載和關(guān)注度,不僅具有代表性,而且具備時(shí)效性,確保了評(píng)測(cè)的現(xiàn)實(shí)意義。
2、模型選擇
平臺(tái)采用了社區(qū)中最常用、最具代表性的Llama3.1Qwen 2.57B版本作為基準(zhǔn)模型,它們代表了真實(shí)的學(xué)術(shù)和工業(yè)應(yīng)用場(chǎng)景,同時(shí)盡可能反映了最多場(chǎng)景中實(shí)際使用的模型大小的數(shù)據(jù)性能。
3、訓(xùn)練與評(píng)估
平臺(tái)采用標(biāo)準(zhǔn)化訓(xùn)練配置,訓(xùn)練環(huán)節(jié)采用廣受認(rèn)可的LLaMA-Factory框架,并且嚴(yán)格采用最常見的訓(xùn)練參數(shù)。
測(cè)試環(huán)節(jié)使用OpenCompass進(jìn)行全面評(píng)估,在測(cè)試環(huán)節(jié)的參數(shù)設(shè)置上,團(tuán)隊(duì)進(jìn)行了大量預(yù)實(shí)驗(yàn),確保推理模板和評(píng)估器等細(xì)節(jié)都經(jīng)過了精心的優(yōu)化,排除外部干擾,讓測(cè)試結(jié)果能更公平、公正地反映訓(xùn)練數(shù)據(jù)集的真實(shí)質(zhì)量。
4、評(píng)測(cè)集全面覆蓋
平臺(tái)選擇了通用、數(shù)學(xué)、代碼、長(zhǎng)鏈推理等多維度基準(zhǔn)測(cè)試集,力求全面、客觀地反映單領(lǐng)域數(shù)據(jù)質(zhì)量,以及混合領(lǐng)域的數(shù)據(jù)綜合質(zhì)量。
最終,OpenDataArena數(shù)據(jù)競(jìng)技場(chǎng)誕生,通過數(shù)據(jù)評(píng)測(cè)榜單直觀的給出數(shù)據(jù)“優(yōu)秀”程度。
平臺(tái)希望能夠幫助模型訓(xùn)練者和數(shù)據(jù)研究者快速識(shí)別并挑選高質(zhì)量數(shù)據(jù)集,降低試錯(cuò)成本,賦能模型訓(xùn)練與應(yīng)用。
數(shù)據(jù)多維度評(píng)價(jià):打開數(shù)據(jù)質(zhì)量的“黑匣子”
除了通過訓(xùn)練模型得到下游任務(wù)的表現(xiàn)來直接反應(yīng)數(shù)據(jù)的質(zhì)量之外,OpenDataArena還通過多維度的客觀評(píng)分工具,來對(duì)數(shù)據(jù)本身進(jìn)行細(xì)致的“體檢”,這些客觀評(píng)分指標(biāo)得到了學(xué)界和業(yè)界的廣泛認(rèn)可。
1、20+維度,精準(zhǔn)畫像
平臺(tái)對(duì)代表性的數(shù)據(jù)集整體,以及數(shù)據(jù)集中的每一條數(shù)據(jù),都進(jìn)行了細(xì)致的多維度打分。
不論是直接選用整個(gè)數(shù)據(jù)集,還是用于挑選優(yōu)質(zhì)子數(shù)據(jù),都方便操作。同時(shí),無論是指令數(shù)據(jù),還是指令-響應(yīng)對(duì)數(shù)據(jù),平臺(tái)都從不同方面提供了相應(yīng)的評(píng)分。
2、多源評(píng)分,深度剖析
平臺(tái)的評(píng)分工具整合了多種維度評(píng)估方法,包括基于模型的評(píng)估(Model-based Evaluation,如IFD)、大模型作為評(píng)委(LLM-as-a-Judge,如準(zhǔn)確性、復(fù)雜度)和啟發(fā)式方法(Heuristic,如回復(fù)響應(yīng)長(zhǎng)度)。
這些維度涵蓋了數(shù)據(jù)的常見評(píng)價(jià)指標(biāo),為數(shù)據(jù)的價(jià)值提供了豐富的量化視角。
3、開源評(píng)分?jǐn)?shù)據(jù)
團(tuán)隊(duì)已完成對(duì)超過15M+數(shù)據(jù)的多維度評(píng)分,并已開源這些數(shù)據(jù)評(píng)分結(jié)果。
對(duì)于需要依賴常見評(píng)價(jià)指標(biāo)開展數(shù)據(jù)篩選、種子數(shù)據(jù)生成等任務(wù)的科研用戶而言,這不僅極大降低了打分成本,還有效避免了重復(fù)的API調(diào)用,從而節(jié)省了實(shí)際開銷,可謂一項(xiàng)極其寶貴的資源。
通過上述努力,平臺(tái)為數(shù)據(jù)合成、數(shù)據(jù)篩選的研究者提供了多維度的評(píng)分?jǐn)?shù)據(jù)和工具,助力他們尋找高價(jià)值的“種子數(shù)據(jù)”,最終為生成更優(yōu)質(zhì)、更高價(jià)值的數(shù)據(jù)提供了直接的幫助。
開源工具:讓數(shù)據(jù)價(jià)值驗(yàn)證觸手可及
為了“公平、公正、公開”的OpenDataArena平臺(tái)的設(shè)計(jì)原則,同時(shí)也為了讓更多人能參與到數(shù)據(jù)價(jià)值驗(yàn)證中來,真實(shí)地評(píng)價(jià)數(shù)據(jù)的質(zhì)量,OpenDataArena團(tuán)隊(duì)將整個(gè)平臺(tái)的核心工具都進(jìn)行了開源。
包括基于模型的訓(xùn)練評(píng)測(cè)工具,以及客觀的多維度數(shù)據(jù)評(píng)價(jià)打分工具,所有的細(xì)節(jié)能在完整的OpenDataArena-Tool中找到說明。
- 訓(xùn)評(píng)一體化工具
平臺(tái)基于主流的LLaMA-Factory訓(xùn)練框架,以及評(píng)測(cè)端知名的OpenCompass框架,打造了一套端到端的訓(xùn)練與評(píng)測(cè)工具,給出了所有的配置和流程復(fù)現(xiàn)腳本,確保了評(píng)估實(shí)驗(yàn)的結(jié)果可復(fù)現(xiàn)性與公平性。
相關(guān)的設(shè)置都盡可能與當(dāng)前的主流研究工作、以及其余開源工具進(jìn)行了對(duì)齊,保證了結(jié)果的公平公正可比。
具體的說明可以在配置詳情和工具說明中,找到所有細(xì)節(jié)。
- 多維度數(shù)據(jù)打分工具
平臺(tái)對(duì)于數(shù)據(jù)評(píng)價(jià)的打分工具也在持續(xù)完善中。
目前已實(shí)現(xiàn)的大部分評(píng)估維度打分工具均已開源,并提供了詳細(xì)的使用教程。不管是單個(gè)維度的數(shù)據(jù)評(píng)估,還是所有已支持的數(shù)據(jù)評(píng)估維度,用戶都可以在官方wiki文檔中了解到如何使用這些工具,并為自己的數(shù)據(jù)進(jìn)行“體檢”。
同時(shí),團(tuán)隊(duì)還在持續(xù)優(yōu)化支持更多的數(shù)據(jù)打分維度,為用戶提供更多維度的數(shù)據(jù)打分選擇。
通過上述的工具開源,OpenDataArena團(tuán)隊(duì)希望提供一個(gè)開放共享的數(shù)據(jù)價(jià)值評(píng)估平臺(tái),讓所有用戶都能參與到數(shù)據(jù)評(píng)估中來,并為產(chǎn)生真正的高價(jià)值數(shù)據(jù)共同努力。
未來展望:數(shù)據(jù)價(jià)值的星辰大海
據(jù)團(tuán)隊(duì)介紹,目前OpenDataArena已經(jīng)完成的僅僅只是冰山一角,也只是對(duì)數(shù)據(jù)價(jià)值驗(yàn)證的開始。
項(xiàng)目未來也有更多的計(jì)劃,例如下面這些:
- 擴(kuò)展驗(yàn)證范圍: 逐步支持多模態(tài)等更復(fù)雜的數(shù)據(jù)類型;
- 深化應(yīng)用場(chǎng)景: 擴(kuò)展至醫(yī)療、金融、科學(xué)等更多專業(yè)領(lǐng)域;
- 保持新鮮度: 每月更新數(shù)據(jù)競(jìng)技場(chǎng),確保數(shù)據(jù)排行榜的及時(shí)性。
團(tuán)隊(duì)認(rèn)為,數(shù)據(jù)價(jià)值的驗(yàn)證需要社區(qū)的共同努力,上述計(jì)劃也非常需要科研社區(qū)的力量來共同參與。
感興趣可以進(jìn)一步關(guān)注。
地址:https://opendataarena.github.io/index.html
工具:https://github.com/OpenDataArena/OpenDataArena-Tool
數(shù)據(jù):https://huggingface.co/OpenDataArena
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.