夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

LLM能替代數(shù)據(jù)科學家了?DeepAnalyze幫你告別手動分析數(shù)據(jù)

0
分享至

  • DeepAnalyze團隊 投稿
    量子位 | 公眾號 QbitAI

你是否還在為復雜的文件和海量數(shù)據(jù)而苦惱?是否希望能夠自動從數(shù)據(jù)中挖掘出真正有價值的信息?

最近,來自人大與清華的研究團隊推出DeepAnalyze —— 你的專屬「數(shù)據(jù)科學家」。只需一個指令,它便能自動化分析你的數(shù)據(jù)、自主完成各類數(shù)據(jù)科學任務(wù):

  • 數(shù)據(jù)任務(wù):支持自動化數(shù)據(jù)準備、數(shù)據(jù)分析、數(shù)據(jù)建模、數(shù)據(jù)可視化、數(shù)據(jù)洞察
  • 數(shù)據(jù)研究:可在非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)中進行開放式深度研究,生成研究報告



DeepAnalyze是首個面向數(shù)據(jù)科學的Agentic LLM,無需任何workflow,僅憑一個LLM即可像數(shù)據(jù)科學家一樣,自主完成多種復雜的數(shù)據(jù)任務(wù)。

DeepAnalyze的論文、代碼、模型、數(shù)據(jù)均已開源,收獲1.1K+GitHub星標,歡迎大家體驗!

DeepAnalyze —— 你的專屬「數(shù)據(jù)科學家」

DeepAnalyze在環(huán)境中自主編排和優(yōu)化各種操作,完成復雜的數(shù)據(jù)科學任務(wù)。

DeepAnalyze在真實環(huán)境中學習復雜任務(wù)

數(shù)據(jù)無處不在,而數(shù)據(jù)科學一直被視為人類智能的重要體現(xiàn)。從Kaggle比賽到日常的數(shù)據(jù)分析實踐,大量評測都在考察數(shù)據(jù)科學家在數(shù)據(jù)準備、分析、建模、可視化與洞察等方面的綜合能力。

當前的數(shù)據(jù)智能體(Data Agent)通常依賴人工設(shè)計的workflow,來驅(qū)動大模型完成特定的數(shù)據(jù)分析與可視化任務(wù)。雖然在各類單點任務(wù)上已取得了令人矚目的成果,但由于LLM的自主性仍然有限,它們距離理想的“全能自主數(shù)據(jù)科學家”依然存在明顯差距。

隨著大型語言模型智能水平的不斷提升,一個關(guān)鍵問題也愈發(fā)突出:如何讓LLM真正具備自主完成復雜數(shù)據(jù)科學任務(wù)的能力?



DeepAnalyze通過在真實環(huán)境中訓練,學會自主編排、自適應(yīng)優(yōu)化操作,最終完成復雜的數(shù)據(jù)科學任務(wù)。為實現(xiàn)此,DeepAnalyze提出課程學習式Agentic訓練范式(Curriculum-based Agentic Training ofDeepAnalyze)和面向數(shù)據(jù)的軌跡合成框架(Data-grounded Trajectory Synthesis)。

課程學習式Agentic訓練

數(shù)據(jù)科學任務(wù)本身具有高度復雜性,這讓基礎(chǔ)LLM在早期訓練階段往往難以順利完成任務(wù)。任務(wù)復雜性導致模型幾乎得不到正向獎勵信號(即“獎勵稀疏”問題),強化學習過程容易停滯,甚至出現(xiàn)訓練崩潰的情況。

為了解決這一難題,DeepAnalyze提出了「課程學習式 Agentic 訓練」。其模擬人類數(shù)據(jù)科學家的學習路徑,讓LLM在真實環(huán)境中從簡單到復雜、從單一任務(wù)到綜合任務(wù)逐步進階。通過這種漸進式訓練,模型的能力得以穩(wěn)步提升,避免在復雜任務(wù)中因為“獎勵信號為零”而導致學習失敗。

訓練過程包括兩大階段:

  • 單能力微調(diào):
  • 訓練LLM在代碼生成、結(jié)構(gòu)化數(shù)據(jù)理解、邏輯推理等方面的基礎(chǔ)能力;
  • 多能力Agentic訓練:
  • 在真實任務(wù)環(huán)境中,讓LLM學會運用多種能力,像數(shù)據(jù)科學家一樣自主完成復雜任務(wù)。

面向數(shù)據(jù)的軌跡合成

在數(shù)據(jù)科學領(lǐng)域,缺乏完整的長鏈問題求解軌跡,這讓LLM在探索解題空間時缺乏有效指導,只能進行低效、盲目的“試錯式”探索,難以獲得有意義的中間監(jiān)督信號。

為了解決這一難題,DeepAnalyze提出了「面向數(shù)據(jù)的軌跡合成」方法。其能夠自動合成50萬條數(shù)據(jù)科學推理與環(huán)境交互數(shù)據(jù),為大模型在龐大的搜索空間中提供正確路徑的示范和引導。

數(shù)據(jù)合成包含兩個關(guān)鍵部分:

  • 推理軌跡合成:
  • 基于現(xiàn)有的 TableQA、結(jié)構(gòu)化知識理解、數(shù)據(jù)科學代碼生成任務(wù),構(gòu)建帶有完整推理路徑的訓練數(shù)據(jù);
  • 交互軌跡合成:
  • 構(gòu)建多智能體系統(tǒng),從結(jié)構(gòu)化數(shù)據(jù)源(如Spider和BIRD)中自動合成數(shù)據(jù)科學交互軌跡,提供和真實環(huán)境的交互軌跡。

DeepAnalyze支持面向數(shù)據(jù)的深度研究

DeepAnalyze支持面向數(shù)據(jù)的深度研究,能夠自動生成具備分析師水準的研究報告。
在數(shù)據(jù)研究報告生成任務(wù)中,無論是內(nèi)容深度還是報告結(jié)構(gòu),DeepAnalyze的表現(xiàn)都顯著優(yōu)于現(xiàn)有的閉源LLM。



分析報告:



作者介紹



張紹磊,中國人民大學信息學院助理教授,位于中國人民大學講席教授范舉教授團隊。

他博士畢業(yè)于中國科學院計算技術(shù)研究所,導師為馮洋研究員。他的研究方向涵蓋大語言模型、多模態(tài)大模型、AI for Data Science。

相關(guān)研究成果在NeurIPS、ACL、ICLR等國際人工智能與自然語言處理會議發(fā)表論文30余篇,開源的多語言大模型、多模態(tài)大模型、數(shù)據(jù)科學大模型在GitHub社區(qū)累計獲得5000+星標。

他長期擔任CCF-A類國際會議ACL ARR的領(lǐng)域主席和責任編輯。個人主頁:zhangshaolei1998@github.io。



范舉,中國人民大學教授、博士生導師,國家級青年人才,中國計算機學會數(shù)據(jù)庫專委會、大數(shù)據(jù)專委會執(zhí)行委員。

研究方向包括:數(shù)據(jù)治理技術(shù)與系統(tǒng)、智能數(shù)據(jù)庫系統(tǒng)等。

相關(guān)研究成果在計算機領(lǐng)域國際頂級期刊/會議發(fā)表論文60余篇。作為負責人先后主持國家自然科學基金優(yōu)秀青年基金項目、重點項目、面上項目,以及多項產(chǎn)學研合作項目。

先后獲得ICDE 2025 Best Paper Runner-Up、ACM SIGMOD Research Highlight Award、ACM China Rising Award、寶鋼優(yōu)秀教師等獎勵。

團隊介紹

RUC-DataLab是中國人民大學信息學院、數(shù)據(jù)工程與知識工程教育部重點實驗室設(shè)立的科研團隊,負責人是范舉教授,團隊專注于數(shù)據(jù)系統(tǒng)+人工智能 (Data+AI)交叉領(lǐng)域,致力于將數(shù)據(jù)技術(shù)與人工智能技術(shù)深度融合,從而打造更加智能、高效的新型數(shù)據(jù)系統(tǒng)。

實驗室的研究方向包括:(1)數(shù)據(jù)庫系統(tǒng)智能化(AI4DB):利用人工智能技術(shù)提升數(shù)據(jù)庫系統(tǒng)的查詢性能、自治能力等;(2)數(shù)據(jù)庫技術(shù)賦能AI系統(tǒng)(DB4AI):利用數(shù)據(jù)管理技術(shù)支撐大模型訓練的高效處理、大模型推理的低延遲、高吞吐優(yōu)化;(3)數(shù)智融合的新型數(shù)據(jù)科學系統(tǒng)(AI4DS):利用推理大模型、多模態(tài)語義理解與智能體等技術(shù),提升數(shù)據(jù)科學系統(tǒng)的智能化水平與執(zhí)行性能,有效釋放數(shù)據(jù)價值。

論文:https://arxiv.org/pdf/2510.16872
代碼:https://github.com/ruc-datalab/DeepAnalyze
模型:https://huggingface.co/RUC-DataLab/DeepAnalyze-8B
數(shù)據(jù):https://huggingface.co/datasets/RUC-DataLab/DataScience-Instruct-500K
更多示例:https://ruc-deepanalyze.github.io/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
俄羅斯做夢也沒料到,紅軍城破之日,就是烏克蘭勝利之時

俄羅斯做夢也沒料到,紅軍城破之日,就是烏克蘭勝利之時

策略述
2025-11-01 13:34:59
WTT法國冠軍賽!4強賽對陣出爐,國乒女單險勝,張本美和絕殺爆冷

WTT法國冠軍賽!4強賽對陣出爐,國乒女單險勝,張本美和絕殺爆冷

知軒體育
2025-11-02 00:56:44
0-2大冷門,聯(lián)賽第10遭聯(lián)賽第21掀翻,英超前冠軍慘遭3連敗

0-2大冷門,聯(lián)賽第10遭聯(lián)賽第21掀翻,英超前冠軍慘遭3連敗

側(cè)身凌空斬
2025-11-01 22:23:34
央視點名批評后破產(chǎn)!燒光84億造不出一輛車,員工花5000萬買零食

央視點名批評后破產(chǎn)!燒光84億造不出一輛車,員工花5000萬買零食

夜深愛雜談
2025-11-01 21:32:14
錢再多也沒用!章澤天態(tài)度冷淡疑似冷戰(zhàn),劉強東恐步黃曉明后塵?

錢再多也沒用!章澤天態(tài)度冷淡疑似冷戰(zhàn),劉強東恐步黃曉明后塵?

悅君兮君不知
2025-10-31 23:44:37
陳濤:很遺憾沒從自己手中保級,但結(jié)局還好不辱使命

陳濤:很遺憾沒從自己手中保級,但結(jié)局還好不辱使命

懂球帝
2025-11-01 22:25:12
寒武紀突發(fā)!原副總經(jīng)理向公司索賠近43億元

寒武紀突發(fā)!原副總經(jīng)理向公司索賠近43億元

中國基金報
2025-11-01 08:45:38
女單爆大冷!黑馬創(chuàng)歷史,中國名將3:4被大逆轉(zhuǎn),日本女單4人出局

女單爆大冷!黑馬創(chuàng)歷史,中國名將3:4被大逆轉(zhuǎn),日本女單4人出局

知軒體育
2025-11-02 00:55:28
反腐月報:6名中管干部被查

反腐月報:6名中管干部被查

上觀新聞
2025-11-01 15:41:09
俄羅斯被排除,特朗普不再遮掩,一句話暗示將由中美兩國領(lǐng)導全球

俄羅斯被排除,特朗普不再遮掩,一句話暗示將由中美兩國領(lǐng)導全球

井普椿的獨白
2025-10-31 21:25:25
著名音樂人屠穎發(fā)生意外不幸離世,作品《情書》《味道》《過火》家喻戶曉

著名音樂人屠穎發(fā)生意外不幸離世,作品《情書》《味道》《過火》家喻戶曉

魯中晨報
2025-11-01 19:03:04
女子108元預訂三亞酒店,入住半小時要求退房遭拒,一頓操作結(jié)果倒賠3萬元……

女子108元預訂三亞酒店,入住半小時要求退房遭拒,一頓操作結(jié)果倒賠3萬元……

魯中晨報
2025-11-01 15:51:06
難以置信!催收太喪心病狂了,重慶一公司把巡特警大隊催停擺…

難以置信!催收太喪心病狂了,重慶一公司把巡特警大隊催停擺…

火山詩話
2025-11-01 14:30:06
悉尼妹紅毯殺瘋了!銀色透視裙盡顯性感,自信氣場碾壓全場

悉尼妹紅毯殺瘋了!銀色透視裙盡顯性感,自信氣場碾壓全場

述家娛記
2025-10-31 14:04:50
比亞迪前三季度凈利潤同比下降7.55%,營收增長失速,盈利能力大幅下滑

比亞迪前三季度凈利潤同比下降7.55%,營收增長失速,盈利能力大幅下滑

華爾街見聞官方
2025-10-30 19:46:25
中國不計前嫌,給了高市早苗見面機會,日本新首相現(xiàn)場滿面笑容

中國不計前嫌,給了高市早苗見面機會,日本新首相現(xiàn)場滿面笑容

頭條爆料007
2025-10-31 20:20:22
重磅:美國數(shù)小時或攻擊委內(nèi)瑞拉!馬杜羅求助俄羅斯

重磅:美國數(shù)小時或攻擊委內(nèi)瑞拉!馬杜羅求助俄羅斯

項鵬飛
2025-11-01 16:00:00
洪秀柱:兩岸關(guān)系“不要那么復雜,未來謀求統(tǒng)一”

洪秀柱:兩岸關(guān)系“不要那么復雜,未來謀求統(tǒng)一”

參考消息
2025-11-01 19:25:09
丟人丟大了?趙鴻剛參加扇耳光大賽慘遭KO,被對手扇暈受傷嚴重

丟人丟大了?趙鴻剛參加扇耳光大賽慘遭KO,被對手扇暈受傷嚴重

丹妮觀
2025-11-01 19:37:23
齊豫演唱會鍵盤手、著名編曲家屠穎在廣州去世

齊豫演唱會鍵盤手、著名編曲家屠穎在廣州去世

南方都市報
2025-11-01 19:42:10
2025-11-02 02:11:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11614文章數(shù) 176318關(guān)注度
往期回顧 全部

科技要聞

事關(guān)安世半導體,商務(wù)部最新發(fā)聲!

頭條要聞

上海63歲兒子與94歲父親一起養(yǎng)老:父親負責買菜做飯

頭條要聞

上海63歲兒子與94歲父親一起養(yǎng)老:父親負責買菜做飯

體育要聞

NBA球員,必須吃夜宵

娛樂要聞

王家衛(wèi)這波錄音,撕爛了遮羞布

財經(jīng)要聞

段永平捐了1500萬元茅臺股票!本人回應(yīng)

汽車要聞

換新一口價11.98萬 第三代藍電E5 PLUS開啟預售

態(tài)度原創(chuàng)

親子
家居
教育
藝術(shù)
游戲

親子要聞

后續(xù)!新生兒在醫(yī)院墜床摔成重傷,護工已被停職,孩子狀況已好轉(zhuǎn)

家居要聞

吸睛藝術(shù) 富有傳奇色彩

教育要聞

最近的校園霸凌事件警醒家長:女兒過了11歲,一定要拴在褲腰帶上

藝術(shù)要聞

美貌與藝術(shù)的碰撞!9位攝影師,哪一位是你的菜?

《GTA》為什么經(jīng)久不衰?丹·豪瑟透露制作理念

無障礙瀏覽 進入關(guān)懷版 上海少妇高潮| Chinese老熟女成熟50| 亚洲AV无码成人品爱| 五月丁香婷婷性爱| 国产内射爽爽大片视频社区在线| 国产精品VA在线观看老妇女| 中文字幕日韩精品亚洲七区| 国产精品_国产精品_k频道| 国产AV片精东影业| 国产综合久久久久| 精品人妻一区二区有限公司| 亚洲 素人 字幕 在线 最新 | 丁香婷婷五月花| 男人添女人下部全视频| 国产精品自在拍在线播放| 亚洲国产av一区二区三区四区| 大奶少妇一区二区| 床上久久网站| 136Av少妇熟女一区二区三区 | 精品久久免费| ZzzzxXxX乱偷| 亚洲精品国偷拍自产在线观看蜜臀| 欧产日产国色天香区别9视频| 三级按摩直播国产三级按摩| 国产手机在线小视频免费观看| 老少配老妇老熟女中文普通话| av免费网站无码| 免费国产拍久久受拍久久| 国产精品久久久久了久| 日本三级片在线观看| 玩丰满少妇xxxxx性麻豆1| 高清免费卡一卡二新区| 亚洲无码AV一区二区| 国产精品乱人一区二| 四虎永久在线精品免费一区二区 | 国内极度色诱视频网站| 一区二三区四区精华液| аⅴ天堂中文在线网官网| 国产精欧美一区二区三区| 亚洲午夜欧美一区二区色欲| 可以看毛片的网站|