夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MachineLearningLM給大模型上下文學(xué)習(xí)裝上「機器學(xué)習(xí)引擎」

0
分享至



盡管大型語言模型(LLM)擁有廣泛的世界知識和強大的推理能力,被廣泛視為優(yōu)秀的少樣本學(xué)習(xí)者,但在處理需要大量示例的上下文學(xué)習(xí)(ICL)時仍存在明顯局限。

已有工作表明,即使提供多達上百甚至上千條示例,LLM 仍難以從中有效學(xué)習(xí)規(guī)律,其表現(xiàn)往往很快進入平臺期,甚至對示例的順序、標簽偏差等較為敏感。在利用上下文學(xué)習(xí)解決新任務(wù)時,LLM 往往更依賴于自身的強先驗以及示例的表面特征,而難以真正挖掘出示例中潛在的因果機制或統(tǒng)計依賴。

這項名為 MachineLearningLM 的新研究突破了這一瓶頸。該研究提出了一種輕量且可移植的「繼續(xù)預(yù)訓(xùn)練」框架,無需下游微調(diào)即可直接通過上下文學(xué)習(xí)上千條示例,在金融、健康、生物信息、物理等等多個領(lǐng)域的二分類 / 多分類任務(wù)中的準確率顯著超越基準模型(Qwen-2.5-7B-Instruct)以及最新發(fā)布的 GPT-5-mini。



相比于已有的用于表格數(shù)據(jù)的機器學(xué)習(xí)方法,MachineLearningLM 幾乎完全保留了 LLM 通用能力,這意味著它可以無縫集成到更復(fù)雜的對話工作流中。





  • 論文鏈接: https://arxiv.org/abs/2509.06806
  • 模型和數(shù)據(jù)集:https://huggingface.co/MachineLearningLM
  • 代碼:https://github.com/HaoAreYuDong/MachineLearningLM

核心創(chuàng)新一:百萬級合成任務(wù)「授人以漁」

研究團隊旨在賦予 LLM 一種「舉一反三」的元能力 —— 不依賴對真實任務(wù)數(shù)據(jù)的機械記憶,而是通過海量且多樣化的合成任務(wù),從根本上訓(xùn)練模型在大量上下文示例中挖掘規(guī)律并進行預(yù)測的能力。

傳統(tǒng)的指令微調(diào)方法通常基于有限規(guī)模(約為千數(shù)量級)的真實任務(wù)數(shù)據(jù),這在很大程度上限制了模型向新任務(wù)的泛化能力。與之相比,MachineLearningLM 構(gòu)建了一個超過 300 萬合成任務(wù)的大規(guī)模預(yù)訓(xùn)練語料庫。

任務(wù)生成器基于結(jié)構(gòu)因果模型(Structural Causal Model, SCM)來采樣生成二分類及多分類任務(wù)。SCM 通過有向無環(huán)圖(DAG)和結(jié)構(gòu)方程(采用神經(jīng)網(wǎng)絡(luò)與樹模型實現(xiàn))明確定義變量間的因果關(guān)系,能夠精確控制特征的邊際分布、類型(如數(shù)值型或類別型)以及標簽生成機制。

該方法確保預(yù)訓(xùn)練數(shù)據(jù)與下游真實評估集沒有任何重疊,從而保證評估過程對模型泛化能力的檢驗具備充分公平性。同時,通過控制示例數(shù)量從數(shù)個到 1024 個不等,該機制能夠?qū)iT訓(xùn)練模型處理「多示例」場景的推理能力。



核心創(chuàng)新二:隨機森林模型「循循善誘」

在海量合成任務(wù)上直接訓(xùn)練大型語言模型(LLM)容易因任務(wù)質(zhì)量不一致 —— 例如存在信號微弱或類別極度不平衡等情況 —— 而導(dǎo)致訓(xùn)練崩潰或陷入局部最優(yōu)。為解決這一問題,本研究引入隨機森林(Random Forest)模型,利用其強大且穩(wěn)健的建模能力,設(shè)計了如下兩級過濾機制:

  • 樣本級共識過濾(熱身訓(xùn)練階段):在熱身訓(xùn)練中,為每個合成任務(wù)訓(xùn)練一個隨機森林模型,并引導(dǎo) LLM 學(xué)習(xí)模仿其預(yù)測行為。具體而言,僅保留隨機森林預(yù)測結(jié)果與真實標簽一致的那些樣本用于 LLM 的訓(xùn)練。該方法通過提供清晰且高置信度的監(jiān)督信號,使 LLM 初步建立起準確的上下文建模能力,尤其是數(shù)值建模能力,為后續(xù)過渡到自主上下文學(xué)習(xí)奠定基礎(chǔ)。

  • 任務(wù)級過濾(全程訓(xùn)練階段):在整個訓(xùn)練過程中,除為每個任務(wù)構(gòu)建隨機森林模型外,還引入保守隨機基線(如隨機猜測或坍塌到多數(shù)類的預(yù)測方法),以剔除那些隨機森林表現(xiàn)未顯著優(yōu)于基線的無效任務(wù)。評估指標包括機會校正一致性、失衡魯棒準確率、宏平均準確率以及避免預(yù)測坍塌等指標。

為何選擇隨機森林?除了強大且穩(wěn)健的建模能力,隨機森林具有高度透明的決策過程,可分解為清晰的規(guī)則路徑與特征重要性評估,這種可解釋性與 LLM 的思維鏈(Chain-of-Thought, CoT)推理模式天然契合,有助于后續(xù)推進思維鏈預(yù)測及解釋性預(yù)測任務(wù)。

同時,隨機森林能夠提供預(yù)測置信度,為進一步減少 LLM 幻覺問題引入置信度機制提供了可能。

核心創(chuàng)新三:高效上下文示例編碼「多維擴容」

在大模型時代,如何高效地在上下文學(xué)習(xí)中處理海量表格數(shù)據(jù),是一項重要挑戰(zhàn)。傳統(tǒng)的「自然語言描述」方式(例如:「收入是 29370,職業(yè)是博士,年增長率是 - 12.34% → 標簽:1」),占用 token 多、計算開銷大,嚴重限制了實際應(yīng)用中可支持的示例數(shù)量;數(shù)值型特征經(jīng)分詞器處理時,一個小數(shù)可能被拆成多個 token,既浪費長度又可能導(dǎo)致數(shù)值比較錯誤,如模型容易誤認為「1.11」(1|.|11)比「1.9」(1|.|9)大。

為此,作者提出了三項核心優(yōu)化策略,顯著提升了上下文學(xué)習(xí)的數(shù)據(jù)容納能力與推理效率:

  • 告別「小作文」,樣本用表格來組織:SpreadsheetLLM等研究已廣泛證明,LLM 能很好地理解結(jié)構(gòu)化表格,因此作者放棄相關(guān)工作將結(jié)構(gòu)化數(shù)據(jù)展開成冗長自然語句的做法,轉(zhuǎn)而采用緊湊的表格編碼格式。



  • 把數(shù)字「打包」成整數(shù),告別 token 碎片化:先遵循機器學(xué)習(xí)工程的常見操作,將所有數(shù)值基于訓(xùn)練集數(shù)據(jù)分布逐列進行 z-score 標準化;然后將 z-norm 下 ±4.17(絕大多數(shù)情況)的浮點數(shù)區(qū)間整體線性映射到 [0, 999] 的整數(shù)區(qū)間。這樣,每個數(shù)值在 GPT 和 LLaMA 3 的詞表中僅需 1 個 token 表示(Qwen 分詞器也僅需 1 到 3 個 token),既節(jié)省空間,還避免了小數(shù)點和正負號單獨切詞帶來的數(shù)值理解錯誤。該流程只是改進了傳統(tǒng)機器學(xué)習(xí)中的數(shù)值標準化,而沒有改變 LLM 原生分詞器,因此模型的數(shù)值推理能力可以全部繼承。



  • 推理也要「團購」:序列級批量預(yù)測——傳統(tǒng)上下文學(xué)習(xí)一次只處理一個查詢,在多樣本學(xué)習(xí)時效率極低。作者將多個查詢(如 50 條)拼成一條序列,統(tǒng)一前向推理,一次性輸出所有預(yù)測結(jié)果。這不僅大幅提升推理速度,還能在訓(xùn)練階段提高自回歸穩(wěn)定性。



驚艷效果:多項能力突破

MachineLearningLM 的繼續(xù)預(yù)訓(xùn)練方案無需改變模型架構(gòu)或分詞器,只使用了 Qwen2.5-7B 基座模型和低秩適配(LoRA rank=8)這種輕量級配置,MachineLearningLM 展現(xiàn)出了前所未有的上下文樣本利用能力:

  • 「千示例」上下文學(xué)習(xí):模型性能隨著提供的示例數(shù)量增加而持續(xù)穩(wěn)定提升,從 8 條示例到 1024 條示例,準確率單調(diào)增長。這樣的上下文樣本效率是已有 LLM 都難以做到的。

  • 遠超 GPT-5-mini 等強大基準模型:在金融、生物信息、物理信號和醫(yī)療健康等領(lǐng)域的表格分類任務(wù)上,其純上下文學(xué)習(xí)的準確率平均超越 GPT-5-mini 等強大基準模型約 13 到 16 個百分點。



  • 在無需任何任務(wù)特定訓(xùn)練的情況下,其準確率已能達到與需要任務(wù)級參數(shù)更新的隨機森林模型相差無幾的水平(平均相對差距在 2% 以內(nèi)),并顯著優(yōu)于 K 近鄰(kNN)算法。



  • 通用能力無損:最關(guān)鍵的是,注入 ML 能力后,模型原有的對話、知識和推理能力幾乎完好無損。在 MMLU 基準測試中,其零樣本準確率達 73.2%,50 樣本設(shè)置下達 75.4%,與基準通用 LLM(Qwen-2.5-7B-Instruct)持平,甚至在特定領(lǐng)域(如統(tǒng)計和物理)有一定提升,這意味著它可以無縫集成到更復(fù)雜的對話工作流中。





  • 實證研究表明,MachineLearningLM 能夠同時處理數(shù)值特征與自然語言描述,無需像傳統(tǒng)方法那樣對文本進行分桶或轉(zhuǎn)換為嵌入向量,實現(xiàn)了真正的異構(gòu)(多模態(tài))輸入推理。然而,該模型仍存在一定局限,例如在面對非獨立同分布的時間序列數(shù)據(jù)以及類別數(shù)量極其龐大的數(shù)據(jù)集時,性能尚有待提升,這也為后續(xù)研究指明了改進方向。

應(yīng)用領(lǐng)域

基于大幅提升的多樣本上下文學(xué)習(xí)和數(shù)值建模能力,MachineLearningLM 有望在金融、醫(yī)療健康與科學(xué)計算等廣泛場景中擴展大型語言模型的實際應(yīng)用邊界。

未來展望

MachineLearningLM 為未來研究開辟了多個充滿潛力的方向。以下是論文里列出的幾個重點方向:

  1. 超越文本與數(shù)字:合成多模態(tài)分類任務(wù),使 MachineLearningLM 能夠直接在海量合成數(shù)據(jù)上練習(xí)處理異構(gòu)信號的多模態(tài)上下文預(yù)測,這依然可以建立在表格預(yù)測的框架之上,例如利用 HTML 表格來嵌入圖像。
  2. 通過系統(tǒng)優(yōu)化突破上下文長度限制:例如采用張量 / 流水線并行、高效內(nèi)存注意力與 KV 緩存等系統(tǒng)優(yōu)化技術(shù)。
  3. 不確定性預(yù)測 (Uncertainty):預(yù)測的同時輸出置信度(比如利用隨機森林的置信度做熱身訓(xùn)練),以減少模型 OpenAI 近期提出的由于缺乏承認不確定性(Honesty about uncertainty)引發(fā)的幻覺(Hallucination)。
  4. 提升可解釋性 (Interpretability):敘事蒸餾與推理增強學(xué)習(xí),既可以利用底層的 SCM(變量、關(guān)系與機制)作為預(yù)測任務(wù)的輔助目標,也可以從集成模型中蒸餾規(guī)則,形成緊湊、人類可讀的推理鏈條。
  5. 集成檢索增強方法(RAG):為 MachineLearningLM 集成一個檢索模塊,使其能在預(yù)訓(xùn)練和推理時動態(tài)注入最相關(guān)的示例。
  6. 賦能智能體(Agent):與 Agent 記憶機制(Memory)深度融合,提升其在復(fù)雜環(huán)境中利用多樣本的上下文學(xué)習(xí),賦予智能體強大的從大量經(jīng)驗記憶中挖掘和學(xué)習(xí)的能力。

作者介紹

本文作者:董浩宇(中國科學(xué)院大學(xué))、張鵬昆(華南理工大學(xué))、陸明哲(中國科學(xué)院大學(xué))、沈言禎(斯坦福大學(xué))、柯國霖(個人貢獻者)



董浩宇:中國科學(xué)院大學(xué)在讀博士(預(yù)計 2025 年底畢業(yè))。研究方向涵蓋表格與半結(jié)構(gòu)化數(shù)據(jù)理解與推理、LLM 后訓(xùn)練與強化學(xué)習(xí)、數(shù)據(jù)集與評測基準等。曾提出 SpreadsheetLLM 并獲得 Hugging Face Paper of the Day、聯(lián)合發(fā)起并持續(xù)共同組織 NeurIPS 2022–2024 表格表征學(xué)習(xí)(TRL)系列研討會,推動表格智能社區(qū)發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
鄭州通報:盧彥學(xué)涉嫌嚴重違紀違法,被查

鄭州通報:盧彥學(xué)涉嫌嚴重違紀違法,被查

魯中晨報
2025-09-24 12:33:06
最新!上海市中心這里將分時段交通管制10天 !肇事者陳某(男,36歲)已被刑拘,警方披露詳情

最新!上海市中心這里將分時段交通管制10天 !肇事者陳某(男,36歲)已被刑拘,警方披露詳情

新民晚報
2025-09-24 12:23:38
智元正式入主!A股“10倍股”披露收購細節(jié)!

智元正式入主!A股“10倍股”披露收購細節(jié)!

證券時報e公司
2025-09-24 21:55:53
第一次坐埃塞俄比亞航空,沒想到非洲乘客……

第一次坐埃塞俄比亞航空,沒想到非洲乘客……

行者老湖
2025-07-17 09:43:56
波蘭意外送大禮!中吉烏鐵路提速,中歐班列分叉箭在弦上

波蘭意外送大禮!中吉烏鐵路提速,中歐班列分叉箭在弦上

叮當當科技
2025-09-24 12:33:14
不把聯(lián)合國放眼里?周年慶變批斗大會,秘書長怒批“前所未有”

不把聯(lián)合國放眼里?周年慶變批斗大會,秘書長怒批“前所未有”

原來仙女不講理
2025-09-24 20:53:24
170cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒X生活的我哭了…

170cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒X生活的我哭了…

健身迷
2025-09-20 09:22:20
最后的機會:第一次,蘇聯(lián)輸了,這二次,東大必須贏!

最后的機會:第一次,蘇聯(lián)輸了,這二次,東大必須贏!

硬核Deeper
2025-08-22 12:37:17
每天虧損近1億!深圳地鐵的“救命稻草”,竟是站臺的5元包子?

每天虧損近1億!深圳地鐵的“救命稻草”,竟是站臺的5元包子?

尋墨閣
2025-09-24 10:29:51
這4大戶外運動是“出軌率最高的”!你的伴侶在玩嗎?

這4大戶外運動是“出軌率最高的”!你的伴侶在玩嗎?

馬拉松跑步健身
2025-09-24 19:51:46
69年,得知已婚9年的邵華懷孕了,毛主席欣慰道:我終于當爺爺了

69年,得知已婚9年的邵華懷孕了,毛主席欣慰道:我終于當爺爺了

大運河時空
2025-09-23 19:46:38
德國亂了,英國亂了,法國也亂了,美媒:歐州正在走向全面失控

德國亂了,英國亂了,法國也亂了,美媒:歐州正在走向全面失控

鐵錘簡科
2025-09-24 19:24:29
王石把假發(fā)戴反了?網(wǎng)友一扒才發(fā)現(xiàn),為顯年輕,老王上了不少科技

王石把假發(fā)戴反了?網(wǎng)友一扒才發(fā)現(xiàn),為顯年輕,老王上了不少科技

甜檸聊史
2025-09-22 09:06:27
瘋了,半導(dǎo)體設(shè)備集體狂歡!

瘋了,半導(dǎo)體設(shè)備集體狂歡!

老趙復(fù)盤記
2025-09-24 16:49:26
我退休后侄子來打聽退休金,我說每月2000,隔天外甥一家又上門

我退休后侄子來打聽退休金,我說每月2000,隔天外甥一家又上門

叮當當科技
2025-09-21 18:33:57
醉駕致3人死亡,肇事者不認罪,家屬不賠錢,她認為自己死不了

醉駕致3人死亡,肇事者不認罪,家屬不賠錢,她認為自己死不了

花心電影
2025-09-24 12:14:35
兒童軟色情大流行,背后的巨大危害

兒童軟色情大流行,背后的巨大危害

楓冷慕詩
2025-09-24 15:19:36
大家有沒有覺得,楊冪現(xiàn)在越來越不對勁了

大家有沒有覺得,楊冪現(xiàn)在越來越不對勁了

時分秒說
2025-09-24 12:16:47
央行10000億逆回購引爆融資狂潮!全國農(nóng)商行信用貸大放水,中小微企業(yè)主的及時雨來了!

央行10000億逆回購引爆融資狂潮!全國農(nóng)商行信用貸大放水,中小微企業(yè)主的及時雨來了!

圖解金融
2025-09-24 09:08:22
突然宣布!9月29日起,天津這家大型商超停業(yè)!目前門店正在大清倉···

突然宣布!9月29日起,天津這家大型商超停業(yè)!目前門店正在大清倉···

天津生活通
2025-09-24 20:50:07
2025-09-24 22:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11349文章數(shù) 142455關(guān)注度
往期回顧 全部

科技要聞

阿里的AI豪賭:三年先砸3800億

頭條要聞

特朗普對俄羅斯“態(tài)度突變” 魯比奧披露原因

頭條要聞

特朗普對俄羅斯“態(tài)度突變” 魯比奧披露原因

體育要聞

把“假中餐”賣給美國人,然后買下NBA球隊

娛樂要聞

李湘養(yǎng)15年的女兒 給前夫做了“嫁衣”

財經(jīng)要聞

始祖鳥炸山后72小時 戶外網(wǎng)紅到全民公敵

汽車要聞

打造爆款籌備國內(nèi)CBG 從榮威M7 DMH看上汽的"新答卷"

態(tài)度原創(chuàng)

房產(chǎn)
游戲
親子
公開課
軍事航空

房產(chǎn)要聞

突發(fā)!儋州安居房,再出新政!

暴雪創(chuàng)始人《無主星淵》Steam國區(qū)解鎖:售價86元

親子要聞

陳紫函自曝心酸求子路:三年試管,十二次嘗試,無數(shù)次心碎

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

8K慢動作看中國戰(zhàn)機高燃瞬間

無障礙瀏覽 進入關(guān)懷版 国产熟女露脸大叫高潮| 性无码大片在线观看| 国产自国产在线无毒不卡| 人人草在线视频播放| 青青草国产线观看| 激情欧美成人久久综合| 日本精品啪啪一区二区三区| 国产精品五区| 99久热re在线精品99 6热视频| 9z9c.com| 大香区煮伊区2020小辣椒| 午夜亚洲国产理论片二级港台二级| 国产一区二区三区肥婆爆乳BBw| 99精品欧美一区二区三区| 国产精品一区2区3区| 久视频久免费视频久免费| 一级操逼视频| 隔壁邻居是巨爆乳寡妇| 久久久亚洲AV无码专区首页| 一区二区三区资源在线观看| 精品一区二区av| 亚洲AV综合AV| 午夜福利片网站| 成人无码视频| www.99maopian| 亚洲色图 欧美 小说| 麻豆亚州无矿码专区视频| 亚洲av永久无码精品表情包| 人人吃人人摸人人干| 成年人黄国产手机看| 久热综合在线亚洲精品| 精品人妻无码四色影视盒| 国产激情视频在线观看首页| 亚洲热线99精品视频| 欧美少妇www| 91福利视频一区二区| 男女性爽大片在线观看| 永久名域18永久域名无玛| 久久国产一区二区三区| 中文字幕一二三| 强奸无码一区|