盡管大型語言模型(LLM)擁有廣泛的世界知識和強大的推理能力,被廣泛視為優(yōu)秀的少樣本學(xué)習(xí)者,但在處理需要大量示例的上下文學(xué)習(xí)(ICL)時仍存在明顯局限。
已有工作表明,即使提供多達上百甚至上千條示例,LLM 仍難以從中有效學(xué)習(xí)規(guī)律,其表現(xiàn)往往很快進入平臺期,甚至對示例的順序、標簽偏差等較為敏感。在利用上下文學(xué)習(xí)解決新任務(wù)時,LLM 往往更依賴于自身的強先驗以及示例的表面特征,而難以真正挖掘出示例中潛在的因果機制或統(tǒng)計依賴。
這項名為 MachineLearningLM 的新研究突破了這一瓶頸。該研究提出了一種輕量且可移植的「繼續(xù)預(yù)訓(xùn)練」框架,無需下游微調(diào)即可直接通過上下文學(xué)習(xí)上千條示例,在金融、健康、生物信息、物理等等多個領(lǐng)域的二分類 / 多分類任務(wù)中的準確率顯著超越基準模型(Qwen-2.5-7B-Instruct)以及最新發(fā)布的 GPT-5-mini。
相比于已有的用于表格數(shù)據(jù)的機器學(xué)習(xí)方法,MachineLearningLM 幾乎完全保留了 LLM 通用能力,這意味著它可以無縫集成到更復(fù)雜的對話工作流中。
- 論文鏈接: https://arxiv.org/abs/2509.06806
- 模型和數(shù)據(jù)集:https://huggingface.co/MachineLearningLM
- 代碼:https://github.com/HaoAreYuDong/MachineLearningLM
核心創(chuàng)新一:百萬級合成任務(wù)「授人以漁」
研究團隊旨在賦予 LLM 一種「舉一反三」的元能力 —— 不依賴對真實任務(wù)數(shù)據(jù)的機械記憶,而是通過海量且多樣化的合成任務(wù),從根本上訓(xùn)練模型在大量上下文示例中挖掘規(guī)律并進行預(yù)測的能力。
傳統(tǒng)的指令微調(diào)方法通常基于有限規(guī)模(約為千數(shù)量級)的真實任務(wù)數(shù)據(jù),這在很大程度上限制了模型向新任務(wù)的泛化能力。與之相比,MachineLearningLM 構(gòu)建了一個超過 300 萬合成任務(wù)的大規(guī)模預(yù)訓(xùn)練語料庫。
任務(wù)生成器基于結(jié)構(gòu)因果模型(Structural Causal Model, SCM)來采樣生成二分類及多分類任務(wù)。SCM 通過有向無環(huán)圖(DAG)和結(jié)構(gòu)方程(采用神經(jīng)網(wǎng)絡(luò)與樹模型實現(xiàn))明確定義變量間的因果關(guān)系,能夠精確控制特征的邊際分布、類型(如數(shù)值型或類別型)以及標簽生成機制。
該方法確保預(yù)訓(xùn)練數(shù)據(jù)與下游真實評估集沒有任何重疊,從而保證評估過程對模型泛化能力的檢驗具備充分公平性。同時,通過控制示例數(shù)量從數(shù)個到 1024 個不等,該機制能夠?qū)iT訓(xùn)練模型處理「多示例」場景的推理能力。
核心創(chuàng)新二:隨機森林模型「循循善誘」
在海量合成任務(wù)上直接訓(xùn)練大型語言模型(LLM)容易因任務(wù)質(zhì)量不一致 —— 例如存在信號微弱或類別極度不平衡等情況 —— 而導(dǎo)致訓(xùn)練崩潰或陷入局部最優(yōu)。為解決這一問題,本研究引入隨機森林(Random Forest)模型,利用其強大且穩(wěn)健的建模能力,設(shè)計了如下兩級過濾機制:
- 樣本級共識過濾(熱身訓(xùn)練階段):在熱身訓(xùn)練中,為每個合成任務(wù)訓(xùn)練一個隨機森林模型,并引導(dǎo) LLM 學(xué)習(xí)模仿其預(yù)測行為。具體而言,僅保留隨機森林預(yù)測結(jié)果與真實標簽一致的那些樣本用于 LLM 的訓(xùn)練。該方法通過提供清晰且高置信度的監(jiān)督信號,使 LLM 初步建立起準確的上下文建模能力,尤其是數(shù)值建模能力,為后續(xù)過渡到自主上下文學(xué)習(xí)奠定基礎(chǔ)。
- 任務(wù)級過濾(全程訓(xùn)練階段):在整個訓(xùn)練過程中,除為每個任務(wù)構(gòu)建隨機森林模型外,還引入保守隨機基線(如隨機猜測或坍塌到多數(shù)類的預(yù)測方法),以剔除那些隨機森林表現(xiàn)未顯著優(yōu)于基線的無效任務(wù)。評估指標包括機會校正一致性、失衡魯棒準確率、宏平均準確率以及避免預(yù)測坍塌等指標。
為何選擇隨機森林?除了強大且穩(wěn)健的建模能力,隨機森林具有高度透明的決策過程,可分解為清晰的規(guī)則路徑與特征重要性評估,這種可解釋性與 LLM 的思維鏈(Chain-of-Thought, CoT)推理模式天然契合,有助于后續(xù)推進思維鏈預(yù)測及解釋性預(yù)測任務(wù)。
同時,隨機森林能夠提供預(yù)測置信度,為進一步減少 LLM 幻覺問題引入置信度機制提供了可能。
核心創(chuàng)新三:高效上下文示例編碼「多維擴容」
在大模型時代,如何高效地在上下文學(xué)習(xí)中處理海量表格數(shù)據(jù),是一項重要挑戰(zhàn)。傳統(tǒng)的「自然語言描述」方式(例如:「收入是 29370,職業(yè)是博士,年增長率是 - 12.34% → 標簽:1」),占用 token 多、計算開銷大,嚴重限制了實際應(yīng)用中可支持的示例數(shù)量;數(shù)值型特征經(jīng)分詞器處理時,一個小數(shù)可能被拆成多個 token,既浪費長度又可能導(dǎo)致數(shù)值比較錯誤,如模型容易誤認為「1.11」(1|.|11)比「1.9」(1|.|9)大。
為此,作者提出了三項核心優(yōu)化策略,顯著提升了上下文學(xué)習(xí)的數(shù)據(jù)容納能力與推理效率:
- 告別「小作文」,樣本用表格來組織:SpreadsheetLLM等研究已廣泛證明,LLM 能很好地理解結(jié)構(gòu)化表格,因此作者放棄相關(guān)工作將結(jié)構(gòu)化數(shù)據(jù)展開成冗長自然語句的做法,轉(zhuǎn)而采用緊湊的表格編碼格式。
- 把數(shù)字「打包」成整數(shù),告別 token 碎片化:先遵循機器學(xué)習(xí)工程的常見操作,將所有數(shù)值基于訓(xùn)練集數(shù)據(jù)分布逐列進行 z-score 標準化;然后將 z-norm 下 ±4.17(絕大多數(shù)情況)的浮點數(shù)區(qū)間整體線性映射到 [0, 999] 的整數(shù)區(qū)間。這樣,每個數(shù)值在 GPT 和 LLaMA 3 的詞表中僅需 1 個 token 表示(Qwen 分詞器也僅需 1 到 3 個 token),既節(jié)省空間,還避免了小數(shù)點和正負號單獨切詞帶來的數(shù)值理解錯誤。該流程只是改進了傳統(tǒng)機器學(xué)習(xí)中的數(shù)值標準化,而沒有改變 LLM 原生分詞器,因此模型的數(shù)值推理能力可以全部繼承。
- 推理也要「團購」:序列級批量預(yù)測——傳統(tǒng)上下文學(xué)習(xí)一次只處理一個查詢,在多樣本學(xué)習(xí)時效率極低。作者將多個查詢(如 50 條)拼成一條序列,統(tǒng)一前向推理,一次性輸出所有預(yù)測結(jié)果。這不僅大幅提升推理速度,還能在訓(xùn)練階段提高自回歸穩(wěn)定性。
驚艷效果:多項能力突破
MachineLearningLM 的繼續(xù)預(yù)訓(xùn)練方案無需改變模型架構(gòu)或分詞器,只使用了 Qwen2.5-7B 基座模型和低秩適配(LoRA rank=8)這種輕量級配置,MachineLearningLM 展現(xiàn)出了前所未有的上下文樣本利用能力:
- 「千示例」上下文學(xué)習(xí):模型性能隨著提供的示例數(shù)量增加而持續(xù)穩(wěn)定提升,從 8 條示例到 1024 條示例,準確率單調(diào)增長。這樣的上下文樣本效率是已有 LLM 都難以做到的。
- 遠超 GPT-5-mini 等強大基準模型:在金融、生物信息、物理信號和醫(yī)療健康等領(lǐng)域的表格分類任務(wù)上,其純上下文學(xué)習(xí)的準確率平均超越 GPT-5-mini 等強大基準模型約 13 到 16 個百分點。
- 在無需任何任務(wù)特定訓(xùn)練的情況下,其準確率已能達到與需要任務(wù)級參數(shù)更新的隨機森林模型相差無幾的水平(平均相對差距在 2% 以內(nèi)),并顯著優(yōu)于 K 近鄰(kNN)算法。
- 通用能力無損:最關(guān)鍵的是,注入 ML 能力后,模型原有的對話、知識和推理能力幾乎完好無損。在 MMLU 基準測試中,其零樣本準確率達 73.2%,50 樣本設(shè)置下達 75.4%,與基準通用 LLM(Qwen-2.5-7B-Instruct)持平,甚至在特定領(lǐng)域(如統(tǒng)計和物理)有一定提升,這意味著它可以無縫集成到更復(fù)雜的對話工作流中。
- 實證研究表明,MachineLearningLM 能夠同時處理數(shù)值特征與自然語言描述,無需像傳統(tǒng)方法那樣對文本進行分桶或轉(zhuǎn)換為嵌入向量,實現(xiàn)了真正的異構(gòu)(多模態(tài))輸入推理。然而,該模型仍存在一定局限,例如在面對非獨立同分布的時間序列數(shù)據(jù)以及類別數(shù)量極其龐大的數(shù)據(jù)集時,性能尚有待提升,這也為后續(xù)研究指明了改進方向。
應(yīng)用領(lǐng)域
基于大幅提升的多樣本上下文學(xué)習(xí)和數(shù)值建模能力,MachineLearningLM 有望在金融、醫(yī)療健康與科學(xué)計算等廣泛場景中擴展大型語言模型的實際應(yīng)用邊界。
未來展望
MachineLearningLM 為未來研究開辟了多個充滿潛力的方向。以下是論文里列出的幾個重點方向:
- 超越文本與數(shù)字:合成多模態(tài)分類任務(wù),使 MachineLearningLM 能夠直接在海量合成數(shù)據(jù)上練習(xí)處理異構(gòu)信號的多模態(tài)上下文預(yù)測,這依然可以建立在表格預(yù)測的框架之上,例如利用 HTML 表格來嵌入圖像。
- 通過系統(tǒng)優(yōu)化突破上下文長度限制:例如采用張量 / 流水線并行、高效內(nèi)存注意力與 KV 緩存等系統(tǒng)優(yōu)化技術(shù)。
- 不確定性預(yù)測 (Uncertainty):預(yù)測的同時輸出置信度(比如利用隨機森林的置信度做熱身訓(xùn)練),以減少模型 OpenAI 近期提出的由于缺乏承認不確定性(Honesty about uncertainty)引發(fā)的幻覺(Hallucination)。
- 提升可解釋性 (Interpretability):敘事蒸餾與推理增強學(xué)習(xí),既可以利用底層的 SCM(變量、關(guān)系與機制)作為預(yù)測任務(wù)的輔助目標,也可以從集成模型中蒸餾規(guī)則,形成緊湊、人類可讀的推理鏈條。
- 集成檢索增強方法(RAG):為 MachineLearningLM 集成一個檢索模塊,使其能在預(yù)訓(xùn)練和推理時動態(tài)注入最相關(guān)的示例。
- 賦能智能體(Agent):與 Agent 記憶機制(Memory)深度融合,提升其在復(fù)雜環(huán)境中利用多樣本的上下文學(xué)習(xí),賦予智能體強大的從大量經(jīng)驗記憶中挖掘和學(xué)習(xí)的能力。
作者介紹
本文作者:董浩宇(中國科學(xué)院大學(xué))、張鵬昆(華南理工大學(xué))、陸明哲(中國科學(xué)院大學(xué))、沈言禎(斯坦福大學(xué))、柯國霖(個人貢獻者)
董浩宇:中國科學(xué)院大學(xué)在讀博士(預(yù)計 2025 年底畢業(yè))。研究方向涵蓋表格與半結(jié)構(gòu)化數(shù)據(jù)理解與推理、LLM 后訓(xùn)練與強化學(xué)習(xí)、數(shù)據(jù)集與評測基準等。曾提出 SpreadsheetLLM 并獲得 Hugging Face Paper of the Day、聯(lián)合發(fā)起并持續(xù)共同組織 NeurIPS 2022–2024 表格表征學(xué)習(xí)(TRL)系列研討會,推動表格智能社區(qū)發(fā)展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.