夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

利用有限樣本合成高維表格數(shù)據(jù)

0
分享至

Towards Synthesizing High-Dimensional Tabular Data with Limited Samples

利用有限樣本合成高維表格數(shù)據(jù)

https://arxiv.org/pdf/2503.06444v2


摘要

基于擴(kuò)散的表格數(shù)據(jù)合成模型已取得了令人矚目的成果。然而,當(dāng)數(shù)據(jù)維度升高時(shí),現(xiàn)有模型往往出現(xiàn)性能退化,甚至可能比更簡(jiǎn)單、非擴(kuò)散類模型的表現(xiàn)更差。其原因在于:在高維空間中,有限的訓(xùn)練樣本通常會(huì)阻礙生成模型準(zhǔn)確捕捉數(shù)據(jù)分布。為緩解學(xué)習(xí)信號(hào)不足的問題,并在此類條件下穩(wěn)定訓(xùn)練過程,我們提出了CtrTab——一種條件控制的擴(kuò)散模型,其在訓(xùn)練過程中將加噪后的真值樣本作為輔助輸入注入模型。該設(shè)計(jì)對(duì)模型對(duì)控制信號(hào)的敏感性施加了隱式的 L2 正則化,從而在高維、小樣本場(chǎng)景下提升了模型的魯棒性與訓(xùn)練穩(wěn)定性。在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,CtrTab 優(yōu)于當(dāng)前最先進(jìn)(SOTA)的模型,平均準(zhǔn)確率提升幅度超過 90%。

Code — https://github.com/zuqingli0404/CtrTab

引言

表格數(shù)據(jù)合成是一個(gè)重要問題,具有廣泛的應(yīng)用場(chǎng)景。其常見動(dòng)機(jī)之一是促進(jìn)隱私保護(hù)下的數(shù)據(jù)共享,即在因隱私顧慮而限制真實(shí)數(shù)據(jù)訪問的場(chǎng)景中,使用合成數(shù)據(jù)替代。近年來(lái),表格數(shù)據(jù)合成也被用于緩解數(shù)據(jù)稀缺問題(Hsieh 等,2025;Liu 等,2024;Lu 等,2023),通過擴(kuò)充訓(xùn)練數(shù)據(jù)集,以滿足現(xiàn)代機(jī)器學(xué)習(xí)模型對(duì)大規(guī)模數(shù)據(jù)的強(qiáng)烈需求。與此同時(shí),數(shù)據(jù)庫(kù)領(lǐng)域也利用合成數(shù)據(jù)進(jìn)行系統(tǒng)性能基準(zhǔn)測(cè)試(Pang 等,2024;Sanghi 與 Haritsa,2023;Yang 等,2022)。本文聚焦于非隱私敏感場(chǎng)景,旨在合成數(shù)據(jù)以提升下游任務(wù)(如機(jī)器學(xué)習(xí)有效性,Zha 等,2025)的性能。

早期關(guān)于表格數(shù)據(jù)合成的研究主要基于統(tǒng)計(jì)模型(Aggarwal 與 Yu,2004;Barak 等,2007;Li 等,2014;Park、Ghosh 與 Shankar,2013;Zhang 等,2014)。隨著深度學(xué)習(xí)的興起,基于生成對(duì)抗網(wǎng)絡(luò)(GANs)和擴(kuò)散模型的方法被廣泛采用(Chen 等,2019;Kim 等,2021;Kotelnikov 等,2023;Liu 等,2024;Xu 等,2019)。與此同時(shí),為確保合成數(shù)據(jù)的質(zhì)量,相關(guān)研究引入了條件生成機(jī)制(Liu 等,2024;Xu 等,2019;Zhao 等,2023),即通過引入額外信息引導(dǎo)合成過程。

現(xiàn)有研究(Kim、Lee 與 Park,2023;Kotelnikov 等,2023;Lee、Kim 與 Park,2023;Liu 等,2024;Zhang 等,2024)主要聚焦于列數(shù)較少(通常少于 50)而樣本量較大的數(shù)據(jù)集,這類場(chǎng)景下學(xué)習(xí)底層數(shù)據(jù)分布相對(duì)可行。然而,一個(gè)尚未被充分探索的關(guān)鍵挑戰(zhàn)是稀疏高維表格數(shù)據(jù)所帶來(lái)的困難——即具有大量列(例如數(shù)百維)但僅含少量行(樣本)的數(shù)據(jù)表。該情形常見于生物醫(yī)學(xué)等領(lǐng)域,其受“維度災(zāi)難”嚴(yán)重影響:隨著特征數(shù)量增長(zhǎng),數(shù)據(jù)點(diǎn)在特征空間中日益稀疏,樣本間距離顯著增大,導(dǎo)致模型難以準(zhǔn)確捕捉底層分布。此外,樣本數(shù)量有限還帶來(lái)過擬合風(fēng)險(xiǎn):模型可能傾向于記憶訓(xùn)練數(shù)據(jù)而非泛化至未見樣本,進(jìn)一步加劇了高維場(chǎng)景下可靠數(shù)據(jù)合成的難度。即便是當(dāng)前最先進(jìn)的(SOTA)表格數(shù)據(jù)擴(kuò)散合成模型 TabSyn(Zhang 等,2024),在此類設(shè)定下表現(xiàn)仍遠(yuǎn)不能令人滿意。

為驗(yàn)證此現(xiàn)象,我們采用 Scikit-learn 的數(shù)據(jù)生成工具構(gòu)建表格數(shù)據(jù):固定樣本數(shù)(行)為 3,000,特征維度(列)從 10 變化至 500,二分類任務(wù)中類別平衡比為 0.5。對(duì)于每個(gè)數(shù)據(jù)集,使用 80% 數(shù)據(jù)訓(xùn)練當(dāng)前主流表格合成模型,剩余 20% 用于測(cè)試(具體機(jī)器學(xué)習(xí)評(píng)測(cè)方法見實(shí)驗(yàn)部分)。圖 1 繪出了各模型在測(cè)試集上的 F1 分?jǐn)?shù)結(jié)果:除本文提出的 CtrTab 外,所有模型的 F1 分?jǐn)?shù)均呈整體下降趨勢(shì),尤其當(dāng)維度達(dá)到 500 時(shí)下降尤為顯著。


為應(yīng)對(duì)上述挑戰(zhàn),我們提出了CtrTab——一種面向高維、小樣本場(chǎng)景設(shè)計(jì)的條件控制擴(kuò)散模型。CtrTab 在去噪網(wǎng)絡(luò)之外引入了一個(gè)控制模塊。訓(xùn)練過程中,每個(gè)樣本被注入拉普拉斯噪聲,作為輔助控制信號(hào);該控制輸入經(jīng)編碼后,被整合進(jìn)去噪網(wǎng)絡(luò)的解碼器中。除提升生成過程的可控性外,該控制模塊在訓(xùn)練階段還提供了額外的學(xué)習(xí)信號(hào),從而增強(qiáng)了模型的魯棒性。

為在有限訓(xùn)練樣本下實(shí)現(xiàn)更好泛化,我們采用了噪聲注入訓(xùn)練策略,即系統(tǒng)性地?cái)_動(dòng)訓(xùn)練樣本。我們從理論上證明:該過程等價(jià)于對(duì)模型關(guān)于控制輸入的敏感性施加了隱式的 L2 正則化(Elman 等,2020),從而促使模型映射更平滑,提升其對(duì)稀疏訓(xùn)練數(shù)據(jù)之外樣本的泛化能力。

我們進(jìn)行了大量實(shí)驗(yàn),結(jié)果表明:諸如“數(shù)據(jù)擾動(dòng)增廣”或“擴(kuò)大模型容量”等簡(jiǎn)單設(shè)計(jì)雖可帶來(lái)一定提升,卻無(wú)法根本解決上述核心挑戰(zhàn)。相比之下,CtrTab 在多種數(shù)據(jù)集上均顯著優(yōu)于當(dāng)前 SOTA 模型,驗(yàn)證了我們?cè)O(shè)計(jì)的有效性。

本文貢獻(xiàn)總結(jié)如下:
(1)我們提出了基于擴(kuò)散的表格數(shù)據(jù)合成模型CtrTab,以應(yīng)對(duì)稀疏高維數(shù)據(jù)的挑戰(zhàn)。與現(xiàn)有擴(kuò)散模型(Kotelnikov 等,2023;Zhang 等,2024)在此類設(shè)定下表現(xiàn)嚴(yán)重退化不同,CtrTab 通過引入控制模塊與噪聲注入訓(xùn)練策略協(xié)同作用,顯著提升模型在復(fù)雜表格場(chǎng)景中的泛化性與魯棒性。
(2)我們提供了理論分析,證明所提出的基于噪聲的訓(xùn)練策略等價(jià)于 L2 正則化,其中噪聲尺度可靈活調(diào)節(jié)正則化強(qiáng)度,從而增強(qiáng)模型的平滑性與穩(wěn)定性。
(3)我們開展了拓展性實(shí)驗(yàn),將表格數(shù)據(jù)合成任務(wù)擴(kuò)展至高達(dá)10,001 維的數(shù)據(jù)表。結(jié)果顯示:使用 CtrTab 合成數(shù)據(jù)訓(xùn)練的機(jī)器學(xué)習(xí)模型,其準(zhǔn)確率顯著高于使用 SOTA 模型合成數(shù)據(jù)訓(xùn)練的模型,平均性能提升超過 90%,證實(shí) CtrTab 在學(xué)習(xí)真實(shí)數(shù)據(jù)分布方面更為有效。

相關(guān)工作

表格數(shù)據(jù)合成近年來(lái),表格數(shù)據(jù)合成的研究已從早期的統(tǒng)計(jì)方法(Aggarwal 與 Yu,2004;Barak 等,2007;Li 等,2014;Park、Ghosh 與 Shankar,2013;Zhang 等,2014)轉(zhuǎn)向深度生成模型,包括生成對(duì)抗網(wǎng)絡(luò)(GANs)(Chen 等,2019;Kim 等,2021;Park 等,2018;Wen 等,2022;Xu 等,2019;Zhao 等,2023)、大語(yǔ)言模型(LLMs)(An 等,2025;Wang 等,2024)以及擴(kuò)散模型(Kim、Lee 與 Park,2023;Kotelnikov 等,2023;Lee、Kim 與 Park,2023;Liu 等,2024;Pang 等,2024;Shi 等,2024;Zhang 等,2024;Si 等,2025)。盡管基于 GAN 的模型存在訓(xùn)練不穩(wěn)定問題(Arjovsky、Chintala 與 Bottou,2017),但擴(kuò)散模型與 LLM 模型(An 等,2025;Wang 等,2024)已展現(xiàn)出更優(yōu)的樣本質(zhì)量與訓(xùn)練魯棒性。近期研究還拓展至缺失值填補(bǔ)或少數(shù)類數(shù)據(jù)合成任務(wù)(D’souza、M 與 Sarawagi,2025;Kim、Lee 與 Park,2025;Schreyer 等,2024)。

然而,大多數(shù)現(xiàn)有擴(kuò)散模型主要面向低維、稠密的表格數(shù)據(jù),難以泛化至高維、小樣本場(chǎng)景。我們的模型代表了擴(kuò)散模型在填補(bǔ)這一空白方面的最新進(jìn)展。

條件式表格數(shù)據(jù)合成已有研究提出了多種條件生成模型,以支持帶額外約束的表格數(shù)據(jù)合成。例如,CTGAN(Xu 等,2019)在生成器中引入類別標(biāo)簽,實(shí)現(xiàn)按目標(biāo)類別條件生成數(shù)據(jù);CTAB-GAN+(Zhao 等,2023)進(jìn)一步擴(kuò)展 CTGAN,支持離散與連續(xù)類標(biāo)簽。RelDDPM(Liu 等,2024)采用分類器引導(dǎo)的條件擴(kuò)散模型:先訓(xùn)練一個(gè)無(wú)條件模型擬合輸入數(shù)據(jù)分布,再針對(duì)給定約束(如目標(biāo)類別標(biāo)簽)訓(xùn)練一個(gè)分類器,并利用其梯度引導(dǎo)樣本生成。

與上述工作不同,我們的模型并不關(guān)注類別條件生成;相反,我們引入了一個(gè)控制模塊,旨在稀疏、高維條件下引導(dǎo)模型學(xué)習(xí)過程。另有研究利用 LLM 實(shí)現(xiàn)條件控制(Fang 等,2024;Wang 等,2024),但我們追求更輕量級(jí)的解決方案,故未進(jìn)一步考慮此類方法。

稀疏數(shù)據(jù)下的高維分布學(xué)習(xí)高維數(shù)據(jù)對(duì)機(jī)器學(xué)習(xí)構(gòu)成顯著挑戰(zhàn)。在“概率近似正確學(xué)習(xí)”(PAC-learning,Valiant,1984)框架下,模型的泛化誤差同時(shí)依賴于數(shù)據(jù)維度與假設(shè)類復(fù)雜度。通常,隨著維度升高,假設(shè)空間復(fù)雜度與所需樣本量呈指數(shù)級(jí)增長(zhǎng),使泛化愈發(fā)困難。對(duì)于生成模型而言,維度升高會(huì)導(dǎo)致數(shù)據(jù)分布極度稀疏(Bishop,2006),使模型難以有效捕捉底層數(shù)據(jù)結(jié)構(gòu)。

預(yù)備知識(shí)







方法
如圖2所示,CtrTab包含兩個(gè)分支:一個(gè)去噪網(wǎng)絡(luò)(denoising network)和一個(gè)控制模塊(control module)。該控制模塊可應(yīng)用于不同的基于擴(kuò)散的模型——我們采用當(dāng)前最先進(jìn)的模型TabSyn(Zhang et al., 2024)。借助該模塊,CtrTab在訓(xùn)練過程中不僅使用原始輸入數(shù)據(jù),還額外使用加噪數(shù)據(jù),從而更有效地學(xué)習(xí)輸入數(shù)據(jù)的分布,這一點(diǎn)將在下一節(jié)的理論分析中予以證明。



帶噪輸入。我們采用拉普拉斯噪聲構(gòu)建 ,因其在實(shí)驗(yàn)中表現(xiàn)出良好的效果(詳見實(shí)驗(yàn)結(jié)果部分):






請(qǐng)注意圖2中的紅線,它將原始控制模塊輸入直接連接到去噪網(wǎng)絡(luò)的輸出。這種設(shè)計(jì)保留了低級(jí)條件信息,并補(bǔ)充了編碼的高級(jí)指導(dǎo),提高了可控性和生成質(zhì)量,特別是在高維場(chǎng)景中。


如前所述,在訓(xùn)練過程中,梯度流經(jīng)整個(gè)模型,但僅更新控制模塊(control module)的參數(shù),而去噪網(wǎng)絡(luò)(denoising network)的參數(shù)保持凍結(jié)。算法1和算法2分別總結(jié)了 CtrTab 的訓(xùn)練與推理(即采樣)過程。

理論結(jié)果

我們證明,在條件中加入適當(dāng)噪聲會(huì)導(dǎo)致訓(xùn)練目標(biāo)等價(jià)于帶有L?正則化的目標(biāo),而L?正則化已被證明有助于防止過擬合真實(shí)數(shù)據(jù)分布(Ng 2004)。為簡(jiǎn)便起見,本節(jié)我們用 Cf 表示無(wú)噪聲條件,用 Cf + ε? 表示加噪條件。理論結(jié)果概要列于本節(jié),完整證明見附錄B。


這一小噪聲假設(shè)在理論和實(shí)踐上均有依據(jù)。實(shí)踐層面:大強(qiáng)度噪聲可能淹沒原始數(shù)據(jù)特征,掩蓋有意義的模式,從而阻礙模型訓(xùn)練;如圖3a所示,當(dāng)噪聲尺度增大時(shí),模型性能顯著下降,印證了這一點(diǎn)。理論層面:假設(shè)噪聲幅度較小有助于實(shí)現(xiàn)可處理的分析——這在經(jīng)典正則化文獻(xiàn)中是一種常見做法(Bishop, 1995)。





實(shí)驗(yàn)

數(shù)據(jù)集
我們使用真實(shí)世界數(shù)據(jù)集:GE、CL、MA、ED、UN、UG 和 EG。如表3所示(詳見附錄C),之所以選擇這些數(shù)據(jù)集,是因?yàn)槠涮卣骶S度較高(最高達(dá)241維),而樣本量相對(duì)較?。▋H數(shù)千行),呈現(xiàn)出典型的高維稀疏特性。

基線模型(Competitors)
我們將 CtrTab 與六種基線模型進(jìn)行對(duì)比,包括當(dāng)前最先進(jìn)的(SOTA)基于擴(kuò)散模型的表格數(shù)據(jù)合成方法:

  • SMOTE(Chawla 等,2002)
  • TVAE(Xu 等,2019)
  • CTGAN(Xu 等,2019)
  • TabDDPM(Kotelnikov 等,2023)
  • RelDDPM(Liu 等,2024)
  • TabSyn(Zhang 等,2024)(SOTA)

上述模型的詳細(xì)說明以及各模型(含 CtrTab)的具體實(shí)現(xiàn)細(xì)節(jié)均見附錄 C。

結(jié)果

機(jī)器學(xué)習(xí)評(píng)測(cè)
參照已有工作(Kim、Lee 與 Park,2023;Lee、Kim 與 Park,2023;Zhang 等,2024),我們主要通過下游機(jī)器學(xué)習(xí)任務(wù)評(píng)估 CtrTab 的有效性,具體流程如下:

  1. 在各數(shù)據(jù)集的訓(xùn)練集上分別訓(xùn)練每個(gè)模型;
  2. 訓(xùn)練完成后,使用各模型生成與原始訓(xùn)練集規(guī)模相同的新合成數(shù)據(jù)集;
  3. 分別使用原始訓(xùn)練集各模型生成的合成集訓(xùn)練下游分類器或回歸器(采用 XGBoost 和 XGBoostRegressor,以下統(tǒng)稱“下游模型”);
  4. 在相同測(cè)試集上評(píng)估各下游模型的性能。

參考 Zhang 等(2024),分類任務(wù)以ROC 曲線下面積(AUC)F1 分?jǐn)?shù)報(bào)告結(jié)果;回歸任務(wù)則使用均方根誤差(RMSE)決定系數(shù)(R2)。

表1匯總了實(shí)驗(yàn)結(jié)果:其中,“Real” 表示在原始數(shù)據(jù)上訓(xùn)練的下游模型性能;各模型名稱(如 CtrTab)表示在對(duì)應(yīng)模型所生成數(shù)據(jù)上訓(xùn)練的下游模型性能;“Avg. Gap” 表示某模型與 “Real” 之間的(相對(duì))性能差距,在同類型任務(wù)(分類或回歸)數(shù)據(jù)集上取平均值——差距越小,說明該模型生成的數(shù)據(jù)越接近真實(shí)分布,性能越優(yōu)。


結(jié)果表明:CtrTab 在幾乎所有數(shù)據(jù)集上均取得最優(yōu)結(jié)果,僅在 ED 數(shù)據(jù)集上,SMOTE 的 AUC 略高。
與表現(xiàn)最好的基線模型(SMOTE)相比,CtrTab 在 AUC、F1、RMSE 和 R2 上的平均差距分別降低了67.35%、63.16%、65.96% 和 87.50%;
與 SOTA 模型 TabSyn 相比,性能提升更為顯著,差距降幅分別達(dá)94.64%、93.60%、86.64% 和 99.00%。

上述結(jié)果說明:現(xiàn)有擴(kuò)散模型在高維稀疏表格數(shù)據(jù)上學(xué)習(xí)仍面臨嚴(yán)峻挑戰(zhàn),而 CtrTab 能有效應(yīng)對(duì)該問題。值得指出的是,作為早期方法的 SMOTE 依然表現(xiàn)出較強(qiáng)競(jìng)爭(zhēng)力,原因在于其通過直接向樣本添加噪聲生成新樣本,本質(zhì)上與我們的核心思想相近。相比之下,基于 VAE 的 TVAE 與基于 GAN 的 CTGAN 同樣受限于數(shù)據(jù)稀疏性問題。

消融實(shí)驗(yàn)(Ablation Study)
為進(jìn)一步驗(yàn)證 CtrTab 中控制模塊的重要性,我們將其與 TabSyn 的六種替代變體進(jìn)行對(duì)比:

  1. Train×2:將 TabSyn 的訓(xùn)練輪數(shù)加倍;
  2. Data×2:對(duì)每個(gè)訓(xùn)練樣本復(fù)制一份,并添加尺度為 0.01 的拉普拉斯噪聲;
  3. Model×2:除執(zhí)行 Data×2 外,還將 TabSyn 的隱層維度擴(kuò)大,使其參數(shù)量與 CtrTab 相當(dāng)(CtrTab 參數(shù)量約為 TabSyn 的 1.8 倍);
  4. NoiseCond:將 CtrTab 控制模塊中使用的帶噪 x 0 x0 信號(hào)作為額外輸入送入 TabSyn(模型結(jié)構(gòu)不變);
  5. Dropout-Reg:在 TabSyn 訓(xùn)練過程中對(duì)其隱層應(yīng)用 0.1 的 Dropout 率,作為標(biāo)準(zhǔn)正則化基線;
  6. JointTrain:將控制模塊與擴(kuò)散模型聯(lián)合訓(xùn)練(單階段),用于檢驗(yàn)我們的分階段訓(xùn)練策略是否有助于更穩(wěn)定地學(xué)習(xí)控制信號(hào)。

此外,我們還對(duì)比了w/o-lastfusion——即移除 CtrTab 中通往去噪網(wǎng)絡(luò)的最后一層融合連接(圖2中紅線所示),以驗(yàn)證該融合機(jī)制的重要性。

我們重復(fù)前述機(jī)器學(xué)習(xí)評(píng)測(cè)流程,并在表2中以F1 與 R2匯報(bào)結(jié)果(AUC 與 RMSE 結(jié)果趨勢(shì)一致,詳見附錄 D)。結(jié)果顯示:CtrTab 始終優(yōu)于所有變體,充分驗(yàn)證了控制模塊、分階段訓(xùn)練策略以及最終融合連接的關(guān)鍵作用。


噪聲類型的影響
我們還將控制模塊中使用的拉普拉斯噪聲分別替換為高斯噪聲與均勻噪聲。結(jié)果發(fā)現(xiàn):雖然拉普拉斯噪聲通常帶來(lái)最優(yōu)精度,但其優(yōu)勢(shì)往往并不顯著。這證實(shí)了 CtrTab 的魯棒性,也支持了拉普拉斯噪聲的有效性。詳細(xì)結(jié)果見附錄 D。

參數(shù)研究
圖3a展示了當(dāng) CtrTab 中拉普拉斯噪聲尺度從 0 變化至 1000 時(shí),下游模型的準(zhǔn)確率(F1 與 R2)變化情況。

  • 初始階段:隨著噪聲尺度增大,模型性能下降,這是由于噪聲方差引入的正則化效應(yīng)所致——這與我們的理論結(jié)果一致;
  • 后期階段:當(dāng)噪聲進(jìn)一步增大時(shí),控制模塊逐漸失效,正則化作用減弱乃至消失,性能曲線反而回升,最終收斂至無(wú)控制模塊的原始擴(kuò)散模型性能(即圖3a中標(biāo)注為 “NC”(No Control)的情形)。

此外,圖3a還展示了噪聲尺度為 0 的情形,即在訓(xùn)練 CtrTab 時(shí)不對(duì)控制信號(hào) C f Cf 添加噪聲??梢?,此時(shí)模型性能低于使用小幅拉普拉斯噪聲的情形,進(jìn)一步支持了我們的理論發(fā)現(xiàn):注入噪聲實(shí)質(zhì)上隱式施加了 L2 正則化,有助于學(xué)習(xí)更平滑的映射關(guān)系,從而提升泛化能力。

控制模塊的通用性(Control Module Applicability)
我們的控制模塊并不局限于 TabSyn。為進(jìn)一步驗(yàn)證其普適性,我們將該模塊集成到RelDDPM(Liu 等,2024)中——這是一個(gè)典型的基于 DDPM 的模型。
RelDDPM 采用標(biāo)準(zhǔn)的擴(kuò)散前向與反向過程(見式2與式3),并結(jié)合分類器引導(dǎo)的條件生成機(jī)制。但在我們高維稀疏設(shè)定下,分類器并非必需;因此我們移除分類器,僅采用 RelDDPM 的去噪網(wǎng)絡(luò),用以替代 CtrTab 中原有的去噪模塊。
這一操作實(shí)質(zhì)上是將原 SDE 風(fēng)格的擴(kuò)散主干替換為 DDPM 架構(gòu),同時(shí)保持控制模塊結(jié)構(gòu)不變。

圖3b展示了集成后的模型(記為 CtrTab + RelDDPM)在 F1 與 R2 上的性能:其結(jié)果持續(xù)優(yōu)于原始 RelDDPM,充分驗(yàn)證了所提控制模塊的良好可遷移性與通用適用性。

案例研究(Case Study)
我們探討了一種文獻(xiàn)中罕見的極端高維場(chǎng)景,以評(píng)估模型的魯棒性。具體地,我們?cè)趦蓚€(gè)極高維數(shù)據(jù)集上測(cè)試 CtrTab:

  • ST(UCI 機(jī)器學(xué)習(xí)庫(kù),2019),維度為 1,084(樣本量 4,998);
  • AC(Guyon 等,2004),維度高達(dá) 10,001(僅 100 個(gè)樣本);詳情見附錄 C。我們將其與兩種擴(kuò)散基線模型進(jìn)行對(duì)比。

圖4展示了下游分類任務(wù)的性能結(jié)果,證實(shí)了CtrTab 在此類極端設(shè)定下的強(qiáng)魯棒性。


特別地,在AC 數(shù)據(jù)集上,基于真實(shí)數(shù)據(jù)訓(xùn)練的分類器(“Real-AC”)F1 分?jǐn)?shù)表現(xiàn)很差——這是因?yàn)樵摂?shù)據(jù)集中包含約 3,000 個(gè)純?cè)肼暰S度,嚴(yán)重干擾了分類決策。
相比之下,合成樣本(尤其是 CtrTab 生成的樣本)顯著提升了 F1 分?jǐn)?shù)。這一提升不僅源于生成過程本身更傾向于捕捉可泛化的模式抑制噪聲或虛假相關(guān)性,更在于 CtrTab 在訓(xùn)練中引入了隱式正則化(如前述噪聲注入所實(shí)現(xiàn)的 L2 等效效應(yīng)),從而促使生成器更聚焦于數(shù)據(jù)中的信息性結(jié)構(gòu)(informative structures)。

值得注意的是,“Real-AC”在 AUC 指標(biāo)上表現(xiàn)并不差。這是因?yàn)椋?/p>

  • AUC衡量的是模型對(duì)正負(fù)樣本進(jìn)行相對(duì)排序的能力;
  • F1則高度依賴分類閾值的選擇。因此,AUC 對(duì)噪聲干擾和閾值設(shè)定更為魯棒,而 F1 對(duì)這些因素更敏感——這也解釋了為何在高噪聲維度下,真實(shí)數(shù)據(jù)訓(xùn)練模型的 AUC 仍可觀,但 F1 急劇下降。

補(bǔ)充結(jié)果(Additional Results)
在附錄中,我們還進(jìn)一步提供了以下實(shí)驗(yàn)結(jié)果:

  • 模型的訓(xùn)練與推理耗時(shí);
  • 在不同比例訓(xùn)練數(shù)據(jù)下的模型性能;
  • 在非高維(即常規(guī)維度)數(shù)據(jù)集上的表現(xiàn);
  • 數(shù)據(jù)分布可視化結(jié)果;
  • 生成樣本到最近真實(shí)樣本的距離(distance to closest records);
  • 使用不同類型噪聲的影響。

結(jié)論(Conclusion)
我們提出了CtrTab,一種旨在增強(qiáng)擴(kuò)散生成模型對(duì)樣本量有限的高維表格數(shù)據(jù)擬合能力的新方法。通過引入顯式的噪聲條件控制機(jī)制,并采用類 L2 正則化的訓(xùn)練策略,CtrTab 能夠生成高質(zhì)量的表格數(shù)據(jù)——這一結(jié)論已在多個(gè)真實(shí)數(shù)據(jù)集實(shí)驗(yàn)中得到驗(yàn)證。

結(jié)果表明:相較于現(xiàn)有方法(包括當(dāng)前最先進(jìn)模型 SOTA),基于 CtrTab 生成數(shù)據(jù)訓(xùn)練的機(jī)器學(xué)習(xí)模型具有顯著更高的準(zhǔn)確性,平均精度提升超過 90%。
此外,我們將表格數(shù)據(jù)合成任務(wù)拓展至維度高達(dá)10,001的極端場(chǎng)景,未來(lái)工作可進(jìn)一步向更高維擴(kuò)展。

本工作聚焦于非隱私約束場(chǎng)景下表格數(shù)據(jù)合成的質(zhì)量提升與可控性增強(qiáng)。如何將本方法與隱私保護(hù)機(jī)制(如差分隱私)相結(jié)合,將是值得探索的未來(lái)方向。

原文鏈接: https://arxiv.org/pdf/2503.06444v2

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
臺(tái)積電董事長(zhǎng)突訪南京,萬(wàn)億市場(chǎng)和30%的成本優(yōu)勢(shì),要轉(zhuǎn)向大陸?

臺(tái)積電董事長(zhǎng)突訪南京,萬(wàn)億市場(chǎng)和30%的成本優(yōu)勢(shì),要轉(zhuǎn)向大陸?

說宇宙
2025-12-15 14:32:39
醫(yī)療回扣黑幕:1400萬(wàn)背后,是2800個(gè)家庭的血淚與信任崩塌

醫(yī)療回扣黑幕:1400萬(wàn)背后,是2800個(gè)家庭的血淚與信任崩塌

流蘇晚晴
2025-12-15 18:31:17
關(guān)于性欲的真相(適用于所有人)

關(guān)于性欲的真相(適用于所有人)

心理咨詢師陳實(shí)
2025-12-03 22:10:03
機(jī)動(dòng)車超速與載人電動(dòng)車相撞致一死一傷,交警認(rèn)定雙方同等責(zé)任;律師說法

機(jī)動(dòng)車超速與載人電動(dòng)車相撞致一死一傷,交警認(rèn)定雙方同等責(zé)任;律師說法

大風(fēng)新聞
2025-12-16 12:04:10
吳秀波新增被執(zhí)行人信息,執(zhí)行標(biāo)的6200萬(wàn)元

吳秀波新增被執(zhí)行人信息,執(zhí)行標(biāo)的6200萬(wàn)元

界面新聞
2025-12-16 11:15:01
比變老更可怕的是“越長(zhǎng)越兇”,這5個(gè)特征,中一個(gè)顏值就毀了

比變老更可怕的是“越長(zhǎng)越兇”,這5個(gè)特征,中一個(gè)顏值就毀了

小陳聊搭配
2025-12-14 19:03:46
貝加爾湖的深度

貝加爾湖的深度

喜之春
2025-12-14 07:39:08
山本太郎在國(guó)會(huì)直言:與中國(guó)沖突不是遙遠(yuǎn)可能,而是現(xiàn)實(shí)警告。

山本太郎在國(guó)會(huì)直言:與中國(guó)沖突不是遙遠(yuǎn)可能,而是現(xiàn)實(shí)警告。

安安說
2025-12-16 09:41:47
頂薪王牌5犯離場(chǎng),三分6中1,全隊(duì)被郭昊文打爆

頂薪王牌5犯離場(chǎng),三分6中1,全隊(duì)被郭昊文打爆

王稱吃吃喝喝
2025-12-16 12:44:57
事實(shí)證明!陪馬克龍回國(guó)的鞏俐,可能已經(jīng)走上了另一條大道

事實(shí)證明!陪馬克龍回國(guó)的鞏俐,可能已經(jīng)走上了另一條大道

夢(mèng)史
2025-12-13 11:46:11
2只旅日大熊貓將送還中國(guó)

2只旅日大熊貓將送還中國(guó)

新京報(bào)
2025-12-15 13:36:08
凈身出戶3天后,丈母娘家8人搬豪宅被攔:房子已經(jīng)不是你們的了

凈身出戶3天后,丈母娘家8人搬豪宅被攔:房子已經(jīng)不是你們的了

小秋情感說
2025-12-15 13:57:20
國(guó)籍爭(zhēng)議不到1年,人民日?qǐng)?bào)公開點(diǎn)名谷愛凌,鄧亞萍的話有人信了

國(guó)籍爭(zhēng)議不到1年,人民日?qǐng)?bào)公開點(diǎn)名谷愛凌,鄧亞萍的話有人信了

卷史
2025-12-15 16:06:44
卡尼薩雷斯:巴薩判斷失誤了,他們以為賣掉特爾施特根很簡(jiǎn)單

卡尼薩雷斯:巴薩判斷失誤了,他們以為賣掉特爾施特根很簡(jiǎn)單

懂球帝
2025-12-16 11:45:12
難以置信!上海徐匯區(qū)某街道招聘9名社工,報(bào)名600多人,堪比公考

難以置信!上海徐匯區(qū)某街道招聘9名社工,報(bào)名600多人,堪比公考

火山詩(shī)話
2025-12-15 04:56:43
徹底攤牌了!郭臺(tái)銘做夢(mèng)也沒料到,中國(guó)市場(chǎng)賞飯吃的時(shí)代結(jié)束了

徹底攤牌了!郭臺(tái)銘做夢(mèng)也沒料到,中國(guó)市場(chǎng)賞飯吃的時(shí)代結(jié)束了

牛牛叨史
2025-12-07 00:52:04
足協(xié)震怒中國(guó)女足換帥,水慶霞無(wú)意二進(jìn)宮,陳婉婷無(wú)緣只因一點(diǎn)

足協(xié)震怒中國(guó)女足換帥,水慶霞無(wú)意二進(jìn)宮,陳婉婷無(wú)緣只因一點(diǎn)

姜大叔侃球
2025-12-15 16:15:29
專家完全錯(cuò)了! 生育率暴跌的主因并非房?jī)r(jià), 而是我們丟掉的土炕

專家完全錯(cuò)了! 生育率暴跌的主因并非房?jī)r(jià), 而是我們丟掉的土炕

林子說事
2025-12-16 12:13:11
松島輝空張本美和輸球后直言不諱,王勵(lì)勤憂心

松島輝空張本美和輸球后直言不諱,王勵(lì)勤憂心

舊鐵皮往南開
2025-12-16 08:57:18
事業(yè)巔峰遠(yuǎn)赴美國(guó),被老外“玩膩”后晚年回國(guó),如今變成了這樣!

事業(yè)巔峰遠(yuǎn)赴美國(guó),被老外“玩膩”后晚年回國(guó),如今變成了這樣!

歸史
2025-12-09 11:10:44
2025-12-16 13:35:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1066文章數(shù) 17關(guān)注度
往期回顧 全部

科技要聞

馬斯克徹底放手!特斯拉股價(jià)一夜狂歡

頭條要聞

牛彈琴:泰柬往死里打讓世界有3個(gè)沒想到 中國(guó)也很頭疼

頭條要聞

牛彈琴:泰柬往死里打讓世界有3個(gè)沒想到 中國(guó)也很頭疼

體育要聞

楊瀚森18+10首次兩雙 關(guān)鍵攻防統(tǒng)治G聯(lián)賽

娛樂要聞

溫崢嶸回應(yīng)賣面膜爭(zhēng)議,已報(bào)警刑事立案

財(cái)經(jīng)要聞

浙金中心暴雷始末:祥源控股設(shè)計(jì)的騙局?

汽車要聞

智聯(lián)網(wǎng)功能升級(jí) 方程豹鈦3迎第四次OTA升級(jí)

態(tài)度原創(chuàng)

手機(jī)
親子
本地
藝術(shù)
公開課

手機(jī)要聞

2399元起入手旗艦!一加 Ace 6T電競(jìng)優(yōu)化全新加持

親子要聞

科普|兒童睡眠障礙知多少

本地新聞

云游安徽|阜陽(yáng)三朝風(fēng)骨,傳承千年墨香

藝術(shù)要聞

16位畫家17幅靜物花卉,你喜歡哪位的呢?

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 精品综合国产| 男女性高爱潮免费网站| 亚洲欧美性爱网| 免费看性视频xnxxcom| 最好看的最新高清中文视频| 国产亚洲真人做受在线观看| 玩弄欧美肥胖丰满老妇大BBB| 国产成人精品日本亚洲18| 人妻午夜视频| 国产精品裸体一区二区三区| 日本手机在线| 久久夜色精品人妻一区二区| 六月婷婷五月激情| 蜜桃av色欲a片精品一区| 欧美日韩成年人大黄片| 无码色色色播| 久久精品国产99国产精品导航| 外国男人肏亚洲女人| 国产精品99精品免费无码视频| 亚洲欧美日韩三区| 91 黑料 精品 国产| 国产精品毛片久久久久久久AV| 国产美女操逼| 中文精品一卡2卡3卡4卡| www.国产无码.con| 一起草一区二区| 欧美xxxx新一区二区三区| 激情美女人妻| 一精品久久久久久久久| 国产精品区一区第一页| AV在线综合网| 久久精品国产99精品亚洲| av在线播放日韩亚洲欧我不卡 | 无码精品无码| 亚洲视频高清不卡在线观看| 综合色天天鬼久久鬼色| 久久久久香蕉国产线看观看伊| 伊人AV导航| 国产成人综合亚洲看片| 午夜肉体高潮免费毛片| 日韩亚AV无码一区二区三区|