夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

告別“煉丹玄學(xué)”:上海AILab推出首個(gè)大模型數(shù)據(jù)競(jìng)技場(chǎng)

0
分享至

OpenDataLab團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

數(shù)據(jù)在AI時(shí)代的重要性已經(jīng)不言而喻,但懸而未決的是——

如何精確量化這些數(shù)據(jù)的價(jià)值、辨別其優(yōu)劣?

為此,上海人工智能實(shí)驗(yàn)室OpenDataLab團(tuán)隊(duì)在數(shù)據(jù)領(lǐng)域持續(xù)深耕,正式推出了開放數(shù)據(jù)競(jìng)技場(chǎng)OpenDataArena



展開來說,在海量的SFT(監(jiān)督式微調(diào))后訓(xùn)練數(shù)據(jù)面前,研究者們常常陷入“黑盒式”的困境:不清楚哪些數(shù)據(jù)真正有用,也難以系統(tǒng)性地評(píng)估和比較不同的數(shù)據(jù)集。

而OpenDataArena,正是一個(gè)為數(shù)據(jù)價(jià)值而生的“競(jìng)技場(chǎng)”,致力于將數(shù)據(jù)質(zhì)量的評(píng)估從“玄學(xué)”變?yōu)椤翱茖W(xué)”。

團(tuán)隊(duì)希望通過一個(gè)公平、公開、透明的平臺(tái),首次正式嘗試回答“如何驗(yàn)證數(shù)據(jù)價(jià)值”這一核心問題。

它不僅提供了一個(gè)直觀的數(shù)據(jù)評(píng)測(cè)榜單,更構(gòu)建了一套完整可復(fù)現(xiàn)的數(shù)據(jù)價(jià)值驗(yàn)證體系——

通過一套訓(xùn)評(píng)一體化的開源工具,讓不同數(shù)據(jù)集在同等條件下公平“競(jìng)技”,用模型效果作為衡量數(shù)據(jù)價(jià)值的最終標(biāo)準(zhǔn)。

同時(shí),通過開發(fā)多維度評(píng)分工具,對(duì)數(shù)據(jù)進(jìn)行精細(xì)化“體檢”,讓數(shù)據(jù)價(jià)值不再是模糊的“黑盒”。

下面詳細(xì)來看。

OpenDataArena:數(shù)據(jù)價(jià)值的首次全面驗(yàn)證

OpenDataArena首次系統(tǒng)性地探究“如何評(píng)價(jià)數(shù)據(jù)質(zhì)量”這個(gè)難題。

為此,該項(xiàng)目構(gòu)建了“開放數(shù)據(jù)競(jìng)技場(chǎng)”,并配套開發(fā)了一整套數(shù)據(jù)價(jià)值驗(yàn)證工具。

該平臺(tái)的核心成果包括:

  • OpenDataArena平臺(tái):一個(gè)公平、公開、透明的SFT后訓(xùn)練數(shù)據(jù)價(jià)值評(píng)測(cè)平臺(tái),涵蓋一個(gè)多領(lǐng)域、可視化的數(shù)據(jù)競(jìng)技榜單。
  • 多維度數(shù)據(jù)打分:平臺(tái)從幾十種維度對(duì)已有數(shù)據(jù)進(jìn)行精細(xì)化打分,并已開源了部分評(píng)分?jǐn)?shù)據(jù),便于研究員們后續(xù)直接下載使用,避免重復(fù)API調(diào)用。
  • 訓(xùn)評(píng)一體化工具:團(tuán)隊(duì)開源了整套數(shù)據(jù)訓(xùn)練、評(píng)估以及數(shù)據(jù)打分工具,讓價(jià)值驗(yàn)證過程可復(fù)現(xiàn)、可擴(kuò)展。

OpenDataArena為以下幾類核心需求提供了實(shí)際的解決方案:

1、對(duì)數(shù)據(jù)質(zhì)量的評(píng)估與篩選:幫助模型訓(xùn)練者數(shù)據(jù)研究者快速識(shí)別并篩選出高質(zhì)量數(shù)據(jù)集,擺脫盲目試錯(cuò),高效賦能模型訓(xùn)練與應(yīng)用。

2、對(duì)數(shù)據(jù)生成的指導(dǎo)與優(yōu)化:數(shù)據(jù)合成的研究者提供多維度的評(píng)分?jǐn)?shù)據(jù)和工具,助力他們尋找高價(jià)值的“種子數(shù)據(jù)”,為生成更優(yōu)質(zhì)的合成數(shù)據(jù)提供指導(dǎo)。

3、對(duì)數(shù)據(jù)價(jià)值的深入洞察:賦能學(xué)術(shù)研究人員探索數(shù)據(jù)特征與模型效果的內(nèi)在關(guān)聯(lián),為數(shù)據(jù)選擇、數(shù)據(jù)生成等前沿研究提供堅(jiān)實(shí)的數(shù)據(jù)支持和客觀的評(píng)估依據(jù)。

平臺(tái)目前已覆蓋4+領(lǐng)域、20+基準(zhǔn)測(cè)試、20+數(shù)據(jù)評(píng)分維度,處理了100+數(shù)據(jù)集,超過20M+數(shù)據(jù)樣本,并完成了600+次模型訓(xùn)練、10K+次模型評(píng)估,這些指標(biāo)都在不斷增長(zhǎng)。



數(shù)據(jù)競(jìng)技場(chǎng):讓數(shù)據(jù)在實(shí)戰(zhàn)中一較高下

OpenDataArena的核心理念,就是讓數(shù)據(jù)價(jià)值在實(shí)戰(zhàn)中得到驗(yàn)證。

該平臺(tái)通過一套公平、公開、可復(fù)現(xiàn)的大模型訓(xùn)練與評(píng)測(cè)機(jī)制,來比較不同訓(xùn)練數(shù)據(jù)集的優(yōu)劣。

那么,OpenDataArena具體是如何運(yùn)作的呢?

1、數(shù)據(jù)集選擇

平臺(tái)覆蓋了來自通用、數(shù)學(xué)、代碼、科學(xué)等多個(gè)領(lǐng)域的后訓(xùn)練數(shù)據(jù)集。這些數(shù)據(jù)來自于HuggingFace并且有一定的下載和關(guān)注度,不僅具有代表性,而且具備時(shí)效性,確保了評(píng)測(cè)的現(xiàn)實(shí)意義。

2、模型選擇

平臺(tái)采用了社區(qū)中最常用、最具代表性的Llama3.1Qwen 2.57B版本作為基準(zhǔn)模型,它們代表了真實(shí)的學(xué)術(shù)和工業(yè)應(yīng)用場(chǎng)景,同時(shí)盡可能反映了最多場(chǎng)景中實(shí)際使用的模型大小的數(shù)據(jù)性能。

3、訓(xùn)練與評(píng)估

平臺(tái)采用標(biāo)準(zhǔn)化訓(xùn)練配置,訓(xùn)練環(huán)節(jié)采用廣受認(rèn)可的LLaMA-Factory框架,并且嚴(yán)格采用最常見的訓(xùn)練參數(shù)。

測(cè)試環(huán)節(jié)使用OpenCompass進(jìn)行全面評(píng)估,在測(cè)試環(huán)節(jié)的參數(shù)設(shè)置上,團(tuán)隊(duì)進(jìn)行了大量預(yù)實(shí)驗(yàn),確保推理模板和評(píng)估器等細(xì)節(jié)都經(jīng)過了精心的優(yōu)化,排除外部干擾,讓測(cè)試結(jié)果能更公平、公正地反映訓(xùn)練數(shù)據(jù)集的真實(shí)質(zhì)量。

4、評(píng)測(cè)集全面覆蓋

平臺(tái)選擇了通用、數(shù)學(xué)、代碼、長(zhǎng)鏈推理等多維度基準(zhǔn)測(cè)試集,力求全面、客觀地反映單領(lǐng)域數(shù)據(jù)質(zhì)量,以及混合領(lǐng)域的數(shù)據(jù)綜合質(zhì)量。

最終,OpenDataArena數(shù)據(jù)競(jìng)技場(chǎng)誕生,通過數(shù)據(jù)評(píng)測(cè)榜單直觀的給出數(shù)據(jù)“優(yōu)秀”程度。

平臺(tái)希望能夠幫助模型訓(xùn)練者和數(shù)據(jù)研究者快速識(shí)別并挑選高質(zhì)量數(shù)據(jù)集,降低試錯(cuò)成本,賦能模型訓(xùn)練與應(yīng)用。



數(shù)據(jù)多維度評(píng)價(jià):打開數(shù)據(jù)質(zhì)量的“黑匣子”

除了通過訓(xùn)練模型得到下游任務(wù)的表現(xiàn)來直接反應(yīng)數(shù)據(jù)的質(zhì)量之外,OpenDataArena還通過多維度的客觀評(píng)分工具,來對(duì)數(shù)據(jù)本身進(jìn)行細(xì)致的“體檢”,這些客觀評(píng)分指標(biāo)得到了學(xué)界和業(yè)界的廣泛認(rèn)可。

1、20+維度,精準(zhǔn)畫像

平臺(tái)對(duì)代表性的數(shù)據(jù)集整體,以及數(shù)據(jù)集中的每一條數(shù)據(jù),都進(jìn)行了細(xì)致的多維度打分。

不論是直接選用整個(gè)數(shù)據(jù)集,還是用于挑選優(yōu)質(zhì)子數(shù)據(jù),都方便操作。同時(shí),無論是指令數(shù)據(jù),還是指令-響應(yīng)對(duì)數(shù)據(jù),平臺(tái)都從不同方面提供了相應(yīng)的評(píng)分。

2、多源評(píng)分,深度剖析

平臺(tái)的評(píng)分工具整合了多種維度評(píng)估方法,包括基于模型的評(píng)估(Model-based Evaluation,如IFD)、大模型作為評(píng)委(LLM-as-a-Judge,如準(zhǔn)確性、復(fù)雜度)和啟發(fā)式方法(Heuristic,如回復(fù)響應(yīng)長(zhǎng)度)。

這些維度涵蓋了數(shù)據(jù)的常見評(píng)價(jià)指標(biāo),為數(shù)據(jù)的價(jià)值提供了豐富的量化視角。

3、開源評(píng)分?jǐn)?shù)據(jù)

團(tuán)隊(duì)已完成對(duì)超過15M+數(shù)據(jù)的多維度評(píng)分,并已開源這些數(shù)據(jù)評(píng)分結(jié)果。

對(duì)于需要依賴常見評(píng)價(jià)指標(biāo)開展數(shù)據(jù)篩選、種子數(shù)據(jù)生成等任務(wù)的科研用戶而言,這不僅極大降低了打分成本,還有效避免了重復(fù)的API調(diào)用,從而節(jié)省了實(shí)際開銷,可謂一項(xiàng)極其寶貴的資源。

通過上述努力,平臺(tái)為數(shù)據(jù)合成、數(shù)據(jù)篩選的研究者提供了多維度的評(píng)分?jǐn)?shù)據(jù)和工具,助力他們尋找高價(jià)值的“種子數(shù)據(jù)”,最終為生成更優(yōu)質(zhì)、更高價(jià)值的數(shù)據(jù)提供了直接的幫助。



開源工具:讓數(shù)據(jù)價(jià)值驗(yàn)證觸手可及

為了“公平、公正、公開”的OpenDataArena平臺(tái)的設(shè)計(jì)原則,同時(shí)也為了讓更多人能參與到數(shù)據(jù)價(jià)值驗(yàn)證中來,真實(shí)地評(píng)價(jià)數(shù)據(jù)的質(zhì)量,OpenDataArena團(tuán)隊(duì)將整個(gè)平臺(tái)的核心工具都進(jìn)行了開源。

包括基于模型的訓(xùn)練評(píng)測(cè)工具,以及客觀的多維度數(shù)據(jù)評(píng)價(jià)打分工具,所有的細(xì)節(jié)能在完整的OpenDataArena-Tool中找到說明。



  • 訓(xùn)評(píng)一體化工具

平臺(tái)基于主流的LLaMA-Factory訓(xùn)練框架,以及評(píng)測(cè)端知名的OpenCompass框架,打造了一套端到端的訓(xùn)練與評(píng)測(cè)工具,給出了所有的配置和流程復(fù)現(xiàn)腳本,確保了評(píng)估實(shí)驗(yàn)的結(jié)果可復(fù)現(xiàn)性與公平性。

相關(guān)的設(shè)置都盡可能與當(dāng)前的主流研究工作、以及其余開源工具進(jìn)行了對(duì)齊,保證了結(jié)果的公平公正可比。

具體的說明可以在配置詳情和工具說明中,找到所有細(xì)節(jié)。

  • 多維度數(shù)據(jù)打分工具

平臺(tái)對(duì)于數(shù)據(jù)評(píng)價(jià)的打分工具也在持續(xù)完善中。

目前已實(shí)現(xiàn)的大部分評(píng)估維度打分工具均已開源,并提供了詳細(xì)的使用教程。不管是單個(gè)維度的數(shù)據(jù)評(píng)估,還是所有已支持的數(shù)據(jù)評(píng)估維度,用戶都可以在官方wiki文檔中了解到如何使用這些工具,并為自己的數(shù)據(jù)進(jìn)行“體檢”。

同時(shí),團(tuán)隊(duì)還在持續(xù)優(yōu)化支持更多的數(shù)據(jù)打分維度,為用戶提供更多維度的數(shù)據(jù)打分選擇。

通過上述的工具開源,OpenDataArena團(tuán)隊(duì)希望提供一個(gè)開放共享的數(shù)據(jù)價(jià)值評(píng)估平臺(tái),讓所有用戶都能參與到數(shù)據(jù)評(píng)估中來,并為產(chǎn)生真正的高價(jià)值數(shù)據(jù)共同努力。



未來展望:數(shù)據(jù)價(jià)值的星辰大海

據(jù)團(tuán)隊(duì)介紹,目前OpenDataArena已經(jīng)完成的僅僅只是冰山一角,也只是對(duì)數(shù)據(jù)價(jià)值驗(yàn)證的開始。

項(xiàng)目未來也有更多的計(jì)劃,例如下面這些:

  • 擴(kuò)展驗(yàn)證范圍: 逐步支持多模態(tài)等更復(fù)雜的數(shù)據(jù)類型;
  • 深化應(yīng)用場(chǎng)景: 擴(kuò)展至醫(yī)療、金融、科學(xué)等更多專業(yè)領(lǐng)域;
  • 保持新鮮度: 每月更新數(shù)據(jù)競(jìng)技場(chǎng),確保數(shù)據(jù)排行榜的及時(shí)性。

團(tuán)隊(duì)認(rèn)為,數(shù)據(jù)價(jià)值的驗(yàn)證需要社區(qū)的共同努力,上述計(jì)劃也非常需要科研社區(qū)的力量來共同參與。

感興趣可以進(jìn)一步關(guān)注。

地址:https://opendataarena.github.io/index.html
工具:https://github.com/OpenDataArena/OpenDataArena-Tool
數(shù)據(jù):https://huggingface.co/OpenDataArena

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上海一家餐廳半只雞賣1999元?店方:主要食材除了雞還有魚翅,金鉤翅占了價(jià)格大頭

上海一家餐廳半只雞賣1999元?店方:主要食材除了雞還有魚翅,金鉤翅占了價(jià)格大頭

極目新聞
2025-08-24 16:41:08
陜西榆林青云鎮(zhèn)有狼外逃?當(dāng)?shù)鼗貞?yīng):是狼犬,目前擊斃6條,未逃的15條狼犬也已擊斃

陜西榆林青云鎮(zhèn)有狼外逃?當(dāng)?shù)鼗貞?yīng):是狼犬,目前擊斃6條,未逃的15條狼犬也已擊斃

極目新聞
2025-08-24 15:38:31
王莉霞落馬幕后

王莉霞落馬幕后

李微敖
2025-08-24 22:55:12
治權(quán)分立,主權(quán)共享!王金平發(fā)表震撼兩岸論述,洪秀柱表態(tài)力挺

治權(quán)分立,主權(quán)共享!王金平發(fā)表震撼兩岸論述,洪秀柱表態(tài)力挺

8哥話天下
2025-08-24 15:05:23
售價(jià)超高的茅臺(tái)購(gòu)買的人多嗎?網(wǎng)友:撐死賣180一瓶,已經(jīng)不錯(cuò)了

售價(jià)超高的茅臺(tái)購(gòu)買的人多嗎?網(wǎng)友:撐死賣180一瓶,已經(jīng)不錯(cuò)了

帶你感受人間冷暖
2025-08-23 00:20:04
湖南一女子坐公交懷疑被老人性騷擾,反被罵長(zhǎng)得丑!公交回應(yīng):未發(fā)現(xiàn)明顯的不當(dāng)接觸

湖南一女子坐公交懷疑被老人性騷擾,反被罵長(zhǎng)得丑!公交回應(yīng):未發(fā)現(xiàn)明顯的不當(dāng)接觸

FM93浙江交通之聲
2025-08-24 12:40:46
“你被炒了”!特朗普的“報(bào)復(fù)”接二連三

“你被炒了”!特朗普的“報(bào)復(fù)”接二連三

新華社
2025-08-24 16:14:37
4-3!4-0!瑞典大滿貫瘋狂一夜:莫雷加德剃光頭,林詩(shī)棟超級(jí)逆轉(zhuǎn)

4-3!4-0!瑞典大滿貫瘋狂一夜:莫雷加德剃光頭,林詩(shī)棟超級(jí)逆轉(zhuǎn)

知軒體育
2025-08-24 02:09:44
太狠了!98歲老人頭上長(zhǎng)“角”?一剪刀下去,后果嚴(yán)重!醫(yī)生也傻眼了……

太狠了!98歲老人頭上長(zhǎng)“角”?一剪刀下去,后果嚴(yán)重!醫(yī)生也傻眼了……

環(huán)球網(wǎng)資訊
2025-08-23 19:06:21
澤連斯基昭告天下,不準(zhǔn)中國(guó)為烏作保,中方的回復(fù),明顯話里有話

澤連斯基昭告天下,不準(zhǔn)中國(guó)為烏作保,中方的回復(fù),明顯話里有話

影孖看世界
2025-08-23 18:13:47
臺(tái)風(fēng)“劍魚”開眼!粵西將有局部大暴雨,或出現(xiàn)3.4米大浪

臺(tái)風(fēng)“劍魚”開眼!粵西將有局部大暴雨,或出現(xiàn)3.4米大浪

南方都市報(bào)
2025-08-24 16:27:25
小學(xué)生“畫下媽媽睡姿”走紅,畫面過于寫實(shí),老師不得不打滿分

小學(xué)生“畫下媽媽睡姿”走紅,畫面過于寫實(shí),老師不得不打滿分

熙熙說教
2025-08-24 21:20:14
中國(guó)果然沒看錯(cuò)朝鮮,金正恩一聲令下,把導(dǎo)彈部署在中朝邊境

中國(guó)果然沒看錯(cuò)朝鮮,金正恩一聲令下,把導(dǎo)彈部署在中朝邊境

阿校談史
2025-08-24 03:49:13
大跳水!300元一斤跌至9.9元3斤

大跳水!300元一斤跌至9.9元3斤

極目新聞
2025-08-24 14:15:44
歌手楊宗緯意外跌落2米高舞臺(tái),主辦方道歉:楊宗緯已被送往最近的重點(diǎn)醫(yī)院進(jìn)行全面檢查和緊急處理

歌手楊宗緯意外跌落2米高舞臺(tái),主辦方道歉:楊宗緯已被送往最近的重點(diǎn)醫(yī)院進(jìn)行全面檢查和緊急處理

FM93浙江交通之聲
2025-08-24 06:41:15
“反詐老陳”打假“嘎子哥”直播間酷派手機(jī),官方旗艦店確認(rèn)無此產(chǎn)品,酷派客服:25日將正式回應(yīng)

“反詐老陳”打假“嘎子哥”直播間酷派手機(jī),官方旗艦店確認(rèn)無此產(chǎn)品,酷派客服:25日將正式回應(yīng)

極目新聞
2025-08-24 18:48:59
香港2025年十大富豪出爐,總身價(jià)超1.3萬億,三張新面孔首次亮相

香港2025年十大富豪出爐,總身價(jià)超1.3萬億,三張新面孔首次亮相

詩(shī)意世界
2025-08-24 14:42:46
三亞文體旅場(chǎng)所,全面暫停營(yíng)業(yè)

三亞文體旅場(chǎng)所,全面暫停營(yíng)業(yè)

政知新媒體
2025-08-23 22:53:36
江蘇昆山一名23歲男子退租留滿柜尿瓶?房東:離廁所就10步,純粹懶

江蘇昆山一名23歲男子退租留滿柜尿瓶?房東:離廁所就10步,純粹懶

極目新聞
2025-08-24 19:20:14
比爾蓋茨站臺(tái)的騙子公司終于要破產(chǎn)了

比爾蓋茨站臺(tái)的騙子公司終于要破產(chǎn)了

爆角追蹤
2025-08-24 19:01:35
2025-08-24 23:24:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11168文章數(shù) 176246關(guān)注度
往期回顧 全部

科技要聞

DeepSeek暗示國(guó)產(chǎn)芯片有望大規(guī)模使用

頭條要聞

上海15歲女生軍訓(xùn)身亡 母親:我不理解 她身體一直很好

頭條要聞

上海15歲女生軍訓(xùn)身亡 母親:我不理解 她身體一直很好

體育要聞

主動(dòng)降薪99%,NBA第一記者換工作

娛樂要聞

19歲黃多多美上熱搜!謝幕那一刻絕了

財(cái)經(jīng)要聞

跌麻了,央媽又拋售國(guó)債?

汽車要聞

"三進(jìn)大宅" 吉利銀河M9預(yù)售價(jià)19.38萬元起

態(tài)度原創(chuàng)

房產(chǎn)
本地
親子
藝術(shù)
公開課

房產(chǎn)要聞

爆款來了!主城+江海雙景,海口最強(qiáng)安居房,即將開盤!

本地新聞

22℃的吉林夏天 | 江風(fēng)沁心涼,游艇畫中行!

親子要聞

孩子發(fā)燒,睡著了需要叫醒喂退燒藥嗎?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 久久精品国产清自在天天线| 亚洲有码久久综合| 人妻熟女一区二区三区app下载| 亚洲中文人妻在线| 欧美人与动牲交a欧美精品| 亚洲另类激情专区小说图片| 国内精品卡一卡二卡三| 久热最新在线一区| 国产三级精品三级在线观看| 久久亚洲AV成人一二三区 | 日韩精品久久久| 国产亚洲一卡2卡3卡4卡网站| 大BBBBB毛多水多偷拍| 69天堂人成无码免费视频| 国产男女猛烈视频在线观看| 国产精品国产三级国产aⅴ下载| 亚洲黄片手机免费观看| 国产亚洲综合网曝门系列| 黄色A级国产免费大片视频| 色综合色综合久久综合频道| 久久亚洲av午夜福利精品一区| 99国内精品视频在线| 全免费a级毛片免费看| 日韩免费无砖专区2020狼| 热99久久精品大片实时更新| 欧美性饥渴少妇XXXⅩ| 亚洲欧美日韩国产精品专区| 俄罗斯肥妇交| 国产综合视频精品一区二区三区 | 久久亚洲精品人成综合网| 隔着超薄肉色丝袜进入97| 樱花草在线社区WWW韩国| 欧美熟妇色XXXx欧美老妇多毛| 国精产品乱码一区一区三区四区 | aⅴ女人的天堂| 国产性猛交××××乱七区| 国产日韩av一区二区在线| 高清国产精品人妻一区二区 | av深夜免费在线观看| 黑人干老熟女| 国产精品久久久久久久久久久久久免费看|