夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

張量分解與電路之間是什么關(guān)系(以及我們?nèi)绾卫盟?/h1>
0
分享至

張量分解與電路之間是什么關(guān)系(以及我們?nèi)绾卫盟?/p>

What is the Relationship between Tensor Factorizations and Circuits (and How Can We Exploit it)?

https://arxiv.org/pdf/2409.07953v2


摘要

本文在電路表示(circuit representations)與張量分解(tensor factorizations)這兩個(gè)看似迥異、實(shí)則內(nèi)在關(guān)聯(lián)的領(lǐng)域之間,建立了一種嚴(yán)謹(jǐn)?shù)穆?lián)系。通過(guò)連接這兩個(gè)領(lǐng)域,我們揭示了一系列可使雙方研究群體共同受益的機(jī)遇。本工作在電路語(yǔ)言框架下推廣了若干流行的張量分解方法,并將多種電路學(xué)習(xí)算法統(tǒng)一納入一個(gè)廣義的層次化分解框架之中。具體而言,我們提出了一種模塊化的“樂(lè)高積木”(Lego block)式方法,用以構(gòu)建張量化電路架構(gòu)。該方法進(jìn)而使我們能夠系統(tǒng)性地構(gòu)造與探索各類電路及張量分解模型,同時(shí)保持計(jì)算上的可處理性(tractability)。這種聯(lián)系不僅厘清了現(xiàn)有模型之間的相似性與差異性,還促成了一套用于構(gòu)建與優(yōu)化新型電路/張量分解架構(gòu)的完整流程(comprehensive pipeline)。我們通過(guò)大量實(shí)證評(píng)估驗(yàn)證了該框架的有效性,并進(jìn)一步指出了張量分解在概率建模領(lǐng)域中的若干嶄新研究機(jī)遇。

1 引言
本文旨在架起兩門看似相距遙遠(yuǎn)、實(shí)則密切關(guān)聯(lián)的領(lǐng)域之間的橋梁:電路表示(circuit representations)(Darwiche & Marquis, 2002;Choi et al., 2020;Vergari et al., 2021)與張量分解(tensor factorizations)(Kolda, 2006;Sidiropoulos et al., 2017)。具體而言,我們建立了二者表示之間的形式化聯(lián)系,并闡明:張量分解不僅可為眾多針對(duì)電路表示所設(shè)計(jì)的學(xué)習(xí)算法提供一種統(tǒng)一的視角,還能為兩個(gè)研究共同體開(kāi)辟新的研究機(jī)遇。

張量是矩陣的多維推廣,被廣泛用于表示高維數(shù)據(jù)(Kroonenberg, 2007)。張量分解是一類被深入研究的數(shù)學(xué)對(duì)象,其核心思想是通過(guò)作用于低維張量的簡(jiǎn)單運(yùn)算,對(duì)高維張量進(jìn)行緊致表示(Kolda, 2006)。它們已在機(jī)器學(xué)習(xí)與人工智能中得到廣泛應(yīng)用,例如:計(jì)算機(jī)視覺(jué)(Vasilescu & Terzopoulos, 2002;Savas & Eldén, 2007;Panagakis et al., 2021)、圖分析(Kolda et al., 2005)、計(jì)算神經(jīng)科學(xué)(Vos et al., 2007;Tresp et al., 2021)、神經(jīng)符號(hào)人工智能(Nickel et al., 2015;Balazevic et al., 2019;Gema et al., 2023;Loconte et al., 2023)、語(yǔ)言建模(Ma et al., 2019;Hu et al., 2022;Xu et al., 2023),以及作為對(duì)概率分布進(jìn)行編碼的手段(Jaini et al., 2018b;Novikov et al., 2021;Amiridi et al., 2022;Hood & Schein, 2024)。盡管張量分解通常被定義為淺層分解形式,但其亦可表達(dá)為一種層次化分解結(jié)構(gòu)(Grasedyck, 2010),有時(shí)以張量網(wǎng)絡(luò)(tensor networks)的圖示形式呈現(xiàn)(Orús, 2013;Biamonte & Bergholm, 2017;Glasser et al., 2019)。

另一方面,電路表示(Darwiche & Marquis, 2002;Choi et al., 2020;Vergari et al., 2021)是為邏輯推理與概率建模(Darwiche, 2003;Poon & Domingos, 2011;Kisa et al., 2014)而引入的一類結(jié)構(gòu)化計(jì)算圖。其中,概率電路(Probabilistic Circuits, PCs)(Vergari et al., 2019b;Choi et al., 2020)是專門用于對(duì)可處理(tractable)概率分布進(jìn)行編碼的電路,支持一系列需精確且高效推理操作的應(yīng)用,例如:無(wú)損壓縮(Liu et al., 2022)、生物醫(yī)學(xué)生成建模(Dang et al., 2022b)、可靠的神經(jīng)符號(hào)AI(Ahmed et al., 2022;Loconte et al., 2023)以及約束文本生成(Zhang et al., 2023)。過(guò)去已提出多種從數(shù)據(jù)中學(xué)習(xí)概率電路的算法(參見(jiàn) Sidheekh & Natarajan (2024) 的綜述),其中一種范式逐漸凸顯:構(gòu)建參數(shù)規(guī)模巨大(超參數(shù)化)的電路(含數(shù)百萬(wàn)甚至數(shù)十億參數(shù);Liu et al., 2023a;Gala et al., 2024a),再通過(guò)梯度上升、期望最大化(EM)(Peharz et al., 2016;2020c)或其正則化變體(Dang et al., 2022a)對(duì)參數(shù)進(jìn)行訓(xùn)練。

層次化張量分解與概率電路均曾被提出作為概率圖模型(probabilistic graphical models)的替代性表示(Song et al., 2013;Robeva & Seigal, 2017;Glasser et al., 2020;Bonnevie & Schmidt, 2021),且部分研究已暗示某些電路與張量分解之間存在聯(lián)系(Jaini et al., 2018b;Glasser et al., 2019)。然而,二者主要差異在于其應(yīng)用方式:張量分解通常用于目標(biāo)真實(shí)張量已知或可建模為降維問(wèn)題(即所謂“張量草圖”,tensor sketch)的任務(wù);而概率電路則通常以生成模型的方式,從數(shù)據(jù)中直接學(xué)習(xí)。但與張量分解類似,現(xiàn)代概率電路表示也是超參數(shù)化的,并常被編碼為若干張量的集合,以充分利用并行計(jì)算與現(xiàn)代深度學(xué)習(xí)框架(Vergari et al., 2019a;Peharz et al., 2020c;Mari et al., 2023)。這就引出了一個(gè)關(guān)鍵問(wèn)題:電路與張量分解之間是否存在著形式化且系統(tǒng)性的聯(lián)系?我們的回答是肯定的——我們證明:電路可被視作一種廣義的稀疏層次化張量分解,其參數(shù)即對(duì)應(yīng)分解中的低維張量本身;反之,層次化張量分解則是具有特定張量化架構(gòu)的深層電路的一個(gè)特例。對(duì)概率電路而言,這意味著將概率分布(表示為非負(fù)張量,Cichocki & Phan, 2009)進(jìn)行分解;與此同時(shí),經(jīng)典張量分解亦可被精確編碼為(淺層)電路。通過(guò)確立張量分解與電路之間的這種對(duì)偶性,我們不僅系統(tǒng)化了文獻(xiàn)中已有成果,還為電路的表示與學(xué)習(xí)開(kāi)辟了新視角,并為構(gòu)建新型或拓展已有(概率性)分解方法提供了可能路徑。

具體而言,本文首先推導(dǎo)出一種簡(jiǎn)潔的方式,用于描述多種張量化電路架構(gòu),并利用一種“樂(lè)高積木”(Lego blocks)式方法——將(局部)稠密張量分解進(jìn)行堆疊,同時(shí)保持電路結(jié)構(gòu)中保障可處理性所需的性質(zhì)——將其表示為計(jì)算圖。由此,新型“模塊”可被以即插即用(plug-and-play)方式靈活組合使用。其次,我們統(tǒng)一了文獻(xiàn)中迄今提出的諸多概率電路學(xué)習(xí)算法(Peharz et al., 2020c,a;Liu & Van den Broeck, 2021b)——這些算法源于不同視角,所產(chǎn)出的電路常被視為不同模型。我們特別指出:它們的差異實(shí)質(zhì)上可歸結(jié)為對(duì)張量參數(shù)所采取的不同分解方式與語(yǔ)法變換;因?yàn)檫@些算法均可被納入同一廣義(層次化)分解框架下理解——該框架基于Tucker 張量分解(Tucker, 1966)及其特例(Kolda & Bader, 2009)。因此,我們認(rèn)為,文獻(xiàn)中常報(bào)告的性能差異更多源于超參數(shù)設(shè)置與學(xué)習(xí)方法的不同,而非本質(zhì)性的歸納偏置差異(Liu et al., 2023b)。

此外,在確立上述聯(lián)系之后,我們進(jìn)一步利用張量分解技術(shù),對(duì)已用張量形式表示的現(xiàn)代概率電路架構(gòu)參數(shù)進(jìn)行壓縮。由此,我們構(gòu)建出比以往更參數(shù)高效的概率電路,并表明:針對(duì)特定任務(wù)尋找最優(yōu)電路架構(gòu)這一問(wèn)題遠(yuǎn)未解決。最后,我們強(qiáng)調(diào):與電路的這一聯(lián)系可為張量分解研究界催生若干富有前景的新方向(文中以方框突出標(biāo)注),包括:從數(shù)據(jù)中學(xué)習(xí)張量分解、將張量分解解釋為含隱變量的概率模型、以及通過(guò)背景知識(shí)注入來(lái)誘導(dǎo)稀疏性等。

本文貢獻(xiàn)如下
i)我們將主流張量分解方法及其層次化形式推廣至電路語(yǔ)言框架下(第2節(jié));
ii)我們建立概率電路與非負(fù)張量分解之間的聯(lián)系,并闡明后者可被解釋為隱變量模型——因而既可用于生成建模,亦可支撐神經(jīng)符號(hào)AI(第3節(jié));
iii)在我們的統(tǒng)一框架內(nèi),我們抽象出現(xiàn)代超參數(shù)化架構(gòu)構(gòu)建與學(xué)習(xí)中的多種選項(xiàng),進(jìn)而提出一個(gè)通用的算法流程(第4節(jié)),用于將層次化張量分解表示并學(xué)習(xí)為張量化電路;
iv)借助該框架,我們得以利用張量分解分析現(xiàn)有不同電路參數(shù)化方案之間的關(guān)聯(lián),在保持部分表達(dá)能力的前提下,提出更具參數(shù)效率的建模選擇(第5節(jié));
v)我們?cè)诙喾N分布估計(jì)任務(wù)上系統(tǒng)評(píng)估了本框架內(nèi)的若干算法選擇,揭示了時(shí)間與空間復(fù)雜度及最終性能之間的主要權(quán)衡(第6節(jié))。

2 從張量分解到電路


2.1 淺層張量分解是淺層電路




電路可以被理解為具有指數(shù)級(jí)多項(xiàng)式的多項(xiàng)式,但以多項(xiàng)式大小的深度計(jì)算圖緊湊編碼(Darwiche, 2003; Zhao et al., 2016; Choi et al., 2020)。從這個(gè)角度來(lái)看,可以直觀地理解它們是如何相關(guān)聯(lián)的,以及它們?nèi)绾尾煌?,張量分解。?shí)際上,雖然后者也編碼了緊湊的多線性算子(方程(2)),但電路多項(xiàng)式的不確定項(xiàng)可能不僅僅是矩陣的條目,如定義2所述,例如,潛在的非線性輸入函數(shù)。例如,一個(gè)電路可以編碼一組連續(xù)隨機(jī)變量的聯(lián)合密度,輸入函數(shù) 可以編碼高斯密度(圖1)。另見(jiàn)機(jī)會(huì)4,討論在電路中編碼輸入單元的多種方法。


通過(guò)以通常的前饋方式遍歷其計(jì)算圖來(lái)評(píng)估編碼在電路中的函數(shù) c——先輸入后輸出,見(jiàn)圖1。此外,我們提供的電路定義可以比張量分解更通用,因?yàn)樗梢员硎鞠∈栌?jì)算圖,即單元不規(guī)則連接。正如我們將在后面論證的,這并不一定是這種情況。電路實(shí)際上可以設(shè)計(jì)為局部密集,這在許多現(xiàn)代實(shí)現(xiàn)中很常見(jiàn)(第4節(jié))。局部密集架構(gòu)也是張量分解看起來(lái)像的,當(dāng)它們轉(zhuǎn)換為電路時(shí),正如我們?cè)谝韵聵?gòu)造性命題中展示的,對(duì)于一個(gè)一般的Tucker分解(定義1)。





請(qǐng)注意括號(hào)內(nèi)的彩色編碼模塊如何對(duì)應(yīng)于電路中輸入函數(shù)的輸出(見(jiàn)圖2),以及向量外積(b)如何實(shí)現(xiàn)電路(c)中的乘積單元,而與向量w的點(diǎn)積則被編碼于最終的求和單元中。我們鼓勵(lì)讀者動(dòng)手嘗試這個(gè)例子,自行推導(dǎo)張量中的其他條目,直至熟練掌握如何將張量分解轉(zhuǎn)化為我們所采用的電路形式。此外,由于電路可表示張量分解,它也繼承了后者普遍存在的非唯一性問(wèn)題(non-uniqueness issue)——這在許多張量分解方法(如Tucker分解)中常見(jiàn):即,由電路編碼的張量分解并非唯一——人們可在不改變其所表示函數(shù)的前提下,對(duì)電路參數(shù)進(jìn)行變換。

最后我們指出:分解的多線性秩(multilinear rank)在此對(duì)應(yīng)于電路表示中輸入單元的數(shù)量。對(duì)于后續(xù)將層次化分解轉(zhuǎn)化為深層電路的情形(見(jiàn)2.2節(jié)),各秩也將對(duì)應(yīng)于不同深度處的單元數(shù)量。

將張量分解表示為這類計(jì)算圖,為拓展其模型類帶來(lái)了諸多機(jī)遇;在本文后續(xù)部分,我們將以方框形式對(duì)這些機(jī)遇加以強(qiáng)調(diào)。與此同時(shí),我們也能更清晰地理解:為何這類分解本身已支持對(duì)某些關(guān)注量進(jìn)行可處理計(jì)算(tractable computation),例如積分、信息論度量或最大化運(yùn)算(Vergari et al., 2021)。在電路框架下,此類計(jì)算可通過(guò)計(jì)算圖的特定結(jié)構(gòu)性質(zhì)系統(tǒng)性地實(shí)現(xiàn)——即,將這些運(yùn)算映射到圖中某些結(jié)構(gòu)性質(zhì)的存在上,從而精確界定可處理性的充分(有時(shí)亦為必要)條件。我們首先定義光滑性(smoothness)與可分解性(decomposability)——這是電路的兩個(gè)結(jié)構(gòu)性質(zhì),使得對(duì)指數(shù)級(jí)多變量賦值的求和可在多項(xiàng)式時(shí)間內(nèi)精確完成(而這對(duì)其他模型通常是不可行的)。

定義3(單元級(jí)光滑性與可分解性;Darwiche & Marquis, 2002):
一個(gè)電路是光滑的(smooth),若對(duì)任一求和單元 n,其所有輸入單元所依賴的變量集合均相同,即:?i, j ∈ in(n),有 sc(i) = sc(j)。
一個(gè)電路是可分解的(decomposable),若對(duì)任一乘積單元 n,其任意兩個(gè)不同輸入單元所依賴的變量集合互不相交,即:?i ≠ j ∈ in(n),sc(i) ∩ sc(j) = ?。

對(duì)于同時(shí)滿足光滑性與可分解性的電路,可在一次前向傳播中精確計(jì)算如下形式的求和:


不難驗(yàn)證:以電路形式表示的Tucker張量分解(例如圖2所示)同時(shí)滿足光滑性與可分解性,因而自然享有可處理的邊際化能力(tractable marginalization)。此外,從這一視角出發(fā),我們亦可理解此類分解的表達(dá)能力(expressiveness):對(duì)多線性多項(xiàng)式而言,其表達(dá)能力通常正是通過(guò)具備上述結(jié)構(gòu)性質(zhì)的電路來(lái)刻畫(huà)的(Shpilka & Yehudayoff, 2010;Martens & Medabalimi, 2014;de Colnet & Mengel, 2021)。

電路與張量分解的來(lái)源差異
既然我們已建立起張量分解與電路之間的初步聯(lián)系——前者可被重寫(xiě)為具備特定結(jié)構(gòu)性質(zhì)的計(jì)算圖(用后者語(yǔ)言表達(dá))——我們還需指出兩個(gè)研究共同體在獲取與運(yùn)用對(duì)象方式上的一個(gè)根本差異
張量分解源于對(duì)給定高維張量進(jìn)行壓縮的需求,該張量通常已被顯式表示(即使未駐留內(nèi)存,也至少存儲(chǔ)于磁盤)。分解結(jié)果通過(guò)求解一個(gè)優(yōu)化問(wèn)題獲得,例如:尋找使某種重構(gòu)損失最小化的因子(Sidiropoulos et al., 2017;Cichocki et al., 2007)。
與之對(duì)比,現(xiàn)代電路是從數(shù)據(jù)中學(xué)習(xí)得到的。盡管既可監(jiān)督學(xué)習(xí)亦可無(wú)監(jiān)督學(xué)習(xí),但后者更常見(jiàn)——因電路常被用于編碼概率分布。此類分布可視作一個(gè)隱式張量(implicit tensor),它本身不可見(jiàn),僅能通過(guò)從中采樣的數(shù)據(jù)點(diǎn)進(jìn)行間接觀測(cè)。第3節(jié)將對(duì)此及電路學(xué)習(xí)問(wèn)題予以形式化。

盡管張量重構(gòu)與從數(shù)據(jù)中學(xué)習(xí)電路通常采用不同方法,但一旦給定某種分解,通過(guò)將其視為電路,我們即可為其開(kāi)辟新的使用與開(kāi)發(fā)路徑——我們?cè)诤罄m(xù)各節(jié)中將以方框形式突出這些機(jī)遇。接下來(lái),我們將討論:電路框架如何進(jìn)一步推廣層次化(即更深的)張量分解;這也將成為我們用于學(xué)習(xí)電路與張量分解的統(tǒng)一流程的切入點(diǎn)(見(jiàn)第4節(jié))。

2.2 層次化張量分解即深層電路

張量分解可被堆疊組合,形成一種深層(deep)或層次化(hierarchical)的分解結(jié)構(gòu);相較于其淺層“實(shí)體化”(shallow materialization)形式,此類分解往往具有更高的空間效率(即秩顯著更低)。例如,Grasedyck(2010)提出了層次化Tucker分解(hierarchical Tucker),其做法是依據(jù)張量維度的一個(gè)固定層次化劃分,堆疊多個(gè)低秩Tucker分解。Cohen 等人(2015)指出:在大多數(shù)情況下,等價(jià)甚至近似的淺層分解所需的秩會(huì)隨維度數(shù)量呈指數(shù)級(jí)增長(zhǎng)。類似理論結(jié)果亦見(jiàn)于電路領(lǐng)域——即深層電路的規(guī)模可比淺層電路指數(shù)級(jí)更小,其中電路規(guī)模定義為單元間連接的總數(shù)(Delalleau & Bengio, 2011;Martens & Medabalimi, 2014;Jaini et al., 2018b)。

本節(jié)首先引入層次化Tucker分解,證明其等價(jià)于一種深層電路,并進(jìn)一步利用這一聯(lián)系來(lái)描述現(xiàn)代張量化電路表示(見(jiàn)第4節(jié))。為此,我們借鑒電路文獻(xiàn)中的一個(gè)工具:電路作用域的層次化劃分(hierarchical partitioning of the scope of a circuit)(Vergari et al., 2021),亦稱為區(qū)域圖(region graph, RG)(Dennis & Ventura, 2012)。如下文所形式化定義:區(qū)域圖是一類二分圖,其節(jié)點(diǎn)要么是變量集合(即張量的維度),要么表示這些變量集合的劃分方式。




附錄A.2展示了該構(gòu)造過(guò)程,并在圖4a中以圖3所示區(qū)域圖(RG)為基礎(chǔ),對(duì)層次化Tucker分解進(jìn)行了圖示說(shuō)明。正如可將任意張量分解推廣為層次化形式一樣,此類構(gòu)造亦可被表示為電路。然而,在電路相關(guān)文獻(xiàn)中,我們發(fā)現(xiàn)許多架構(gòu)并不局限于樹(shù)狀結(jié)構(gòu)的區(qū)域圖(tree-structured RGs),亦不限于僅含單變量輸入?yún)^(qū)域(univariate input regions)的區(qū)域圖。


通過(guò)利用區(qū)域圖(RG)來(lái)施加特定的分解結(jié)構(gòu),并為其每個(gè)區(qū)域選取特定的參數(shù)化方式(詳見(jiàn)第4節(jié)),我們便能構(gòu)建出不對(duì)應(yīng)于現(xiàn)有模型的新型層次化分解。圖6展示了若干此類示例:其中我們采用第2.3節(jié)所述的分層形式化表示法(layer-wise formalism)來(lái)描繪電路。需注意的是,依據(jù)上述方式從區(qū)域圖實(shí)例化出的張量分解,仍可保持可分解性(decomposability);而文獻(xiàn)中基于區(qū)域圖構(gòu)建的電路通常也滿足光滑性(smoothness,見(jiàn)定義3)。層次化Tucker分解及其變體同樣具備光滑性與可分解性,因而支持多種(概率性)推理任務(wù)的可處理計(jì)算(見(jiàn)第3節(jié))。

此外,那些遵循樹(shù)狀區(qū)域圖(tree-shaped RG)且葉節(jié)點(diǎn)為單變量(univariate leaves)的層次化分解(及其對(duì)應(yīng)的深層電路)還滿足一項(xiàng)更強(qiáng)的結(jié)構(gòu)性質(zhì)——結(jié)構(gòu)化可分解性(structured-decomposability)。該性質(zhì)使得一些僅靠光滑性與可分解性尚無(wú)法高效處理的更復(fù)雜運(yùn)算也成為可處理的;例如,在張量網(wǎng)絡(luò)的圖式語(yǔ)言中被形式化、物理學(xué)中稱為玻恩法則(Born rule)(Feynman, 1987;Glasser et al., 2019)的特定張量分解的平方運(yùn)算(參見(jiàn)第2.4節(jié))。

我們?nèi)缦陆o出結(jié)構(gòu)化可分解性的定義:

定義6(結(jié)構(gòu)化可分解性;Pipatsrisawat & Darwiche, 2008):一個(gè)電路是結(jié)構(gòu)化可分解的,當(dāng)且僅當(dāng):(1)它同時(shí)是光滑的且可分解的;(2)任意兩個(gè)具有相同作用域(scope)的乘積單元 n, m,在其輸入單元處對(duì)作用域的劃分方式完全一致。

我們可以輕易驗(yàn)證:層次化Tucker分解所對(duì)應(yīng)的電路是結(jié)構(gòu)化可分解的——因其通過(guò)樹(shù)狀區(qū)域圖堆疊Tucker分解(后者本身由可分解電路實(shí)現(xiàn))而構(gòu)建,而該樹(shù)狀結(jié)構(gòu)確保了所有乘積單元對(duì)作用域的劃分方式同步一致。

我們強(qiáng)調(diào):識(shí)別出這些為數(shù)不多、卻能解釋眾多關(guān)注量可處理計(jì)算的結(jié)構(gòu)性質(zhì),有助于避免為特定層次化分解反復(fù)重新發(fā)現(xiàn)或重新設(shè)計(jì)算法的重復(fù)勞動(dòng)。


2.3 在張量化形式下表示電路

將(層次化)張量分解表示為(深層)電路,凸顯了電路單元如何可自然地按類型和作用域分組為“層”(layers),正如圖2中已有所暗示。這一視角帶來(lái)了一個(gè)新機(jī)遇:將特定的電路結(jié)構(gòu)定義并表示為張量化的計(jì)算圖(tensorized computational graphs)。盡管文獻(xiàn)中的電路通常以標(biāo)量計(jì)算單元(如求和、乘積、輸入單元及單連接)來(lái)定義(定義2),但當(dāng)前許多成功的電路實(shí)現(xiàn)已將單元按張量進(jìn)行分組(Vergari et al., 2019a;Peharz et al., 2020c,a;Liu & Van den Broeck, 2021b;Loconte et al., 2024),旨在利用GPU提供的加速能力提升計(jì)算效率?;谶@些思路,我們現(xiàn)提供一個(gè)通用的張量化電路定義,它提供了一種模塊化方式,用于構(gòu)建超參數(shù)化電路架構(gòu)。這將使我們能夠設(shè)計(jì)一個(gè)統(tǒng)一的學(xué)習(xí)流程,涵蓋眾多現(xiàn)有架構(gòu)(第4節(jié)),并建議一種通過(guò)混合與復(fù)用小型“模塊”來(lái)創(chuàng)建新型架構(gòu)的方法。

定義7(張量化電路):
一個(gè)張量化電路c 是由三種類型的層構(gòu)成的計(jì)算圖:輸入層(input)、乘積層(product)與求和層(sum)。每一層 ? 均由作用于相同作用域 sc(?) 的計(jì)算單元組成。每個(gè)非輸入層接收來(lái)自其他層的輸出向量作為輸入,記作集合 in(?)。三類層的具體定義如下:

  • 每個(gè)輸入層 ? 具有作用域Y ? X,并計(jì)算一個(gè)向量函數(shù) f: dom(Y) → ??。
  • 每個(gè)乘積層 ? 計(jì)算其輸入層 ?? 所輸出向量上的哈達(dá)瑪積(⊙{?? ∈ in(?)} ??)或克羅內(nèi)克積(?{?? ∈ in(?)} ??)。
  • 一個(gè)包含 S 個(gè)求和單元的求和層,計(jì)算矩陣-向量乘積W( ||_{?? ∈ in(?)} ??(sc(??)) ),其中 || 表示向量拼接,且W∈ ????(K > 0)是該求和層的參數(shù)。

請(qǐng)注意,若某求和層 ? 僅接收一個(gè)輸入向量(即 |in(?)| = 1),則它僅簡(jiǎn)單計(jì)算W??(sc(??))。圖7展示了張量化電路的各層類型及其逐單元表示法(定義2)。此外,通過(guò)將每層大小 K 設(shè)為1,我們即可還原先前的標(biāo)量逐單元定義。上述四種層類型構(gòu)成了基本的“樂(lè)高積木”,我們后續(xù)將用它們構(gòu)造更復(fù)雜的層(第4.3節(jié)、第5節(jié)),并再現(xiàn)所有現(xiàn)代電路架構(gòu)(表1)。


作為該定義如何幫助我們從電路架構(gòu)細(xì)節(jié)中抽象出來(lái)的第一個(gè)示例,請(qǐng)參見(jiàn)圖4。在圖中,求和層與克羅內(nèi)克積層被用于堆疊兩個(gè)Tucker張量分解,從而表示一個(gè)層次化結(jié)構(gòu)。我們?cè)诘?節(jié)中提供了一種系統(tǒng)性方法,用于堆疊不同層并以此方式構(gòu)建深層電路?,F(xiàn)在,我們可以輕松地將定義3中關(guān)于結(jié)構(gòu)性質(zhì)的逐單元定義擴(kuò)展到這種分層表示法上——只需為每一層定義其作用域即可。


請(qǐng)注意,通過(guò)假設(shè)每一層均由共享相同作用域的單元構(gòu)成,并采用定義7中所定義的三種層類型,我們所得到的張量化電路在設(shè)計(jì)上即天然具備光滑性(smoothness)與可分解性(decomposability)。此外,若深層電路的區(qū)域圖(RG)為樹(shù)狀結(jié)構(gòu),則該張量化電路還將滿足結(jié)構(gòu)化可分解性(structured decomposability,定義6)。這些性質(zhì)可從圖4b中層次化Tucker分解作為張量化電路的圖形表示中快速讀出。接下來(lái),我們將利用這種分層抽象,連接至流行的張量網(wǎng)絡(luò)(tensor networks),并展示它們?nèi)绾文茏匀坏乇痪幋a為深層電路。

2.4 張量網(wǎng)絡(luò)即深層電路

張量網(wǎng)絡(luò)(TNs)常被用作在物理學(xué)和量子計(jì)算等領(lǐng)域表示層次化張量分解的首選方式(Markov & Shi, 2008;Schollwoeck, 2010;Biamonte & Bergholm, 2017)。張量網(wǎng)絡(luò)配備了一種圖形語(yǔ)言——彭羅斯記號(hào)(Penrose notation)——用于以緊湊的圖形形式編碼張量點(diǎn)積(亦稱為張量縮并,tensor contractions)。參見(jiàn) Orús (2013) 的綜述。或許最廣為人知的張量網(wǎng)絡(luò)分解是矩陣乘積態(tài)(Matrix-Product State, MPS)(Pérez-García et al., 2007),也被稱為張量列車分解(Tensor-Train factorization, TT)(Oseledets, 2011;Glasser et al., 2019;Novikov et al., 2021)。例如,給定一個(gè)張量T∈ ??1??2?...???,其秩為 R 的MPS/TT分解在逐元素形式下定義為:


在圖8中,我們展示了一個(gè)表示變量X = {X?, X?, X?}上MPS/TT分解的張量化電路;正如Loconte等人(2024)中命題3的證明所詳述,其輸入層與稠密層的參數(shù)是通過(guò)對(duì)MPS/TT中的張量 {???}?????1 進(jìn)行分解而獲得的。類似于層次化Tucker分解的張量化電路表示(命題2),命題3所得出的張量化電路也具有結(jié)構(gòu)化可分解性(定義6)。結(jié)構(gòu)化可分解性是MPS/TT中的關(guān)鍵性質(zhì),它使得能夠在這些分解上高效執(zhí)行某些運(yùn)算——例如對(duì)其平方以恢復(fù)一個(gè)“玻恩機(jī)”(Born machine)——這是一種旨在模擬物理學(xué)中量子多體系統(tǒng)的概率模型(Orús, 2013; Glasser et al., 2019)。理解這一特性使實(shí)踐者能夠設(shè)計(jì)替代性的玻恩機(jī)架構(gòu),而無(wú)需局限于由“線性”區(qū)域圖編碼的一系列張量運(yùn)算,也無(wú)需從頭開(kāi)始證明此類架構(gòu)上平方運(yùn)算的可處理性(Shi et al., 2005)。這是我們所強(qiáng)調(diào)的、當(dāng)層次化張量分解被表示為電路后所產(chǎn)生的機(jī)遇之一(機(jī)遇1和機(jī)遇2)。更多機(jī)遇將在下一節(jié)中呈現(xiàn),并可直接推廣至張量網(wǎng)絡(luò)及經(jīng)典張量分解。

下一步工作
迄今為止,我們討論的是實(shí)值張量的通用分解。然而,針對(duì)非負(fù)數(shù)據(jù)(如圖像)定制的張量分解——稱為非負(fù)張量分解(non-negative tensor factorizations)——將張量分解為易于解釋的非負(fù)因子(Cichocki & Phan, 2009)。在第3節(jié)中,我們將非負(fù)張量分解與概率建模領(lǐng)域的電路文獻(xiàn)相連接,從而使我們可以將其解釋為深層隱變量模型。此外,通過(guò)架起非負(fù)張量分解與其作為(深層)電路表示之間的橋梁,我們展示了與此相關(guān)的未來(lái)研究機(jī)遇,包括如何參數(shù)化張量分解以及如何利用它們進(jìn)行概率推理。

3 從非負(fù)分解到用于概率建模的電路

在機(jī)器學(xué)習(xí)領(lǐng)域,人們已對(duì)用于可處理概率建模的電路表示給予了大量關(guān)注,即用于建模支持可處理推理的概率分布。為這一目的而構(gòu)建的電路通常被稱為概率電路(Probabilistic Circuits, PCs)(Vergari et al., 2019b; Choi et al., 2020)。在本節(jié)中,我們將非負(fù)(層次化)張量分解與PCs相連接,并展示在概率機(jī)器學(xué)習(xí)的廣闊背景下,這為張量分解研究群體帶來(lái)的若干研究機(jī)遇。

首先,我們將非負(fù)(層次化)張量分解與(深層)PCs的離散隱變量解釋相聯(lián)系,展示利用這種解釋的可用算法示例——這些算法不僅可用于計(jì)算邊際(如前一節(jié)所述),還可用于采樣。其次,我們展示PCs領(lǐng)域的豐富文獻(xiàn)如何提供多種緊湊參數(shù)化技術(shù),從而產(chǎn)生非線性分解。同時(shí),我們借鑒非負(fù)張量文獻(xiàn)中的優(yōu)化技巧來(lái)學(xué)習(xí)PCs。最后,我們與無(wú)限維張量分解的文獻(xiàn)建立聯(lián)系,展示其與編碼概率密度函數(shù)的PCs以及配備無(wú)限維求和單元的PCs之間的關(guān)系。我們首先描述如何將有限離散隨機(jī)變量上的概率分布表示為張量分解。

設(shè) p(X) 是定義在有限離散隨機(jī)變量X = {X?}????上的概率質(zhì)量函數(shù)(PMF),其中每個(gè) X? ∈X的取值范圍為 dom(X?) = [I?]。那么,p(X) 最簡(jiǎn)單的表示形式是一個(gè)概率張量∈ ???1?...???,其中每個(gè)條目編碼了X的聯(lián)合配置的概率,即對(duì)于任意x= ?x?, ..., x_d? ∈ dom(X),有 t??...?_d = p(x?, ..., x_d)。顯然,這種表示效率低下,因?yàn)槠淇臻g復(fù)雜度隨變量數(shù) d 呈指數(shù)級(jí)增長(zhǎng)。一種自然的緊湊建模方式是通過(guò)非負(fù)張量分解,例如Tucker分解的非負(fù)版本(Kim & Choi, 2007),其中因子矩陣 {V???}???? 和核心張量W(見(jiàn)公式(2))被限制為僅包含非負(fù)元素。通過(guò)簡(jiǎn)單地特化命題2,我們可以將非負(fù)層次化Tucker分解(Vendrow et al., 2021)編碼為一個(gè)輸出非負(fù)值的電路 c,也稱為PC。

定義9(概率電路 (Choi et al., 2020)):一個(gè)關(guān)于變量X概率電路(PC)是一個(gè)編碼函數(shù) c(X) 的電路,該函數(shù)對(duì)X的所有賦值均為非負(fù),即 ?x∈ dom(X) : c(x) ≥ 0。

確保一個(gè)電路是PC的一個(gè)充分條件是:約束求和單元的參數(shù)以及輸入單元的輸出均為非負(fù),從而得到一個(gè)被稱為單調(diào)的(monotonic)電路(Shpilka & Yehudayoff, 2010)3。例如,我們前面提到的、編碼非負(fù)層次化Tucker分解的電路就是一個(gè)單調(diào)PC,因?yàn)槠淝蠛蛦卧獧?quán)重(即核心張量W的元素)及其輸入單元的輸出(即因子矩陣 {V???}???? 的元素)均被限制為非負(fù)。電路中的光滑性與可分解性允許對(duì)求和與積分進(jìn)行可處理的計(jì)算(第2.1節(jié)),這轉(zhuǎn)化為能夠精確計(jì)算具有這些結(jié)構(gòu)性質(zhì)的PC的任何邊際或條件分布(Vergari et al., 2019b)。然而,這些PC不僅是可處理的概率模型,它們同時(shí)也是生成模型,可以從其中精確采樣。

3.1 非負(fù)張量分解作為生成模型

由于非負(fù)分解——例如非負(fù)層次化Tucker分解——是光滑且(結(jié)構(gòu)化)可分解的PCs(定義3和6),它們繼承了PCs執(zhí)行可處理推理和生成新數(shù)據(jù)點(diǎn)的能力,即生成其定義域上變量的特定配置。據(jù)我們所知,迄今為止,將張量分解視為生成模型的這種處理方式尚未引起足夠重視。我們將在下文對(duì)此進(jìn)行討論,展示如何為這些表示設(shè)計(jì)(更快的)采樣算法。



3.2 如何參數(shù)化概率張量分解?

電路與張量分解分別源自兩類不同的優(yōu)化問(wèn)題,但二者在實(shí)踐中面臨若干共通挑戰(zhàn)。深入理解這些挑戰(zhàn)可為兩個(gè)研究共同體開(kāi)辟新的機(jī)遇。


由于概率電路的學(xué)習(xí)過(guò)程通常歸結(jié)為一個(gè)優(yōu)化問(wèn)題(例如最大化數(shù)據(jù)的對(duì)數(shù)似然;Peharz et al., 2016),為保證電路輸出非負(fù),人們常采用一種或多種重參數(shù)化(reparameterization)策略——即將實(shí)值參數(shù)映射為非負(fù)的求和單元權(quán)重。這一約束是必要的:如公式(8)所示,單調(diào)概率電路(monotonic PC)中每個(gè)求和單元的權(quán)重必須構(gòu)成一個(gè)凸組合(convex combination),才能確保輸出為合法的概率分布。


當(dāng)該重參數(shù)化方法與編碼概率分布的輸入函數(shù)結(jié)合使用時(shí),所得到的概率電路的歸一化常數(shù)(normalization constant)即為1——因?yàn)樗凶兞抠x值對(duì)應(yīng)的概率總和恒為1;這直接源于每個(gè)求和單元的權(quán)重之和為1的性質(zhì)。在張量化電路中,此類重參數(shù)化可逐行施加于每個(gè)求和層的參數(shù)矩陣上。

幸運(yùn)的是,若電路具備光滑性與可分解性(定義3),即使求和權(quán)重未顯式歸一化,我們?nèi)阅?strong>精確且高效地計(jì)算其歸一化常數(shù)(Peharz et al., 2015)。這使得我們可以采用其它重參數(shù)化方式來(lái)構(gòu)建單調(diào)概率電路——即便其輸出是一個(gè)未歸一化分布(即積分不等于1的分布)。事實(shí)上,我們?nèi)钥赏ㄟ^(guò)歸一化高效恢復(fù)合法分布:



其中 ε 是一個(gè)接近零的正閾值。每種重參數(shù)化方式都會(huì)產(chǎn)生不同的損失函數(shù)曲面(loss landscape),進(jìn)而在優(yōu)化過(guò)程中導(dǎo)向不同的解。在我們的實(shí)驗(yàn)中(第6節(jié)),我們發(fā)現(xiàn)這種第三種重參數(shù)化方式在學(xué)習(xí)概率電路(PCs)時(shí)最為有效。

對(duì)于單調(diào)概率電路中的輸入單元,它們需對(duì)合法的概率分布進(jìn)行建模。常見(jiàn)的參數(shù)化方式包括簡(jiǎn)單的概率質(zhì)量函數(shù)(PMFs)(或概率密度函數(shù),見(jiàn)第3.4節(jié)),例如伯努利分布(Bernoulli)或類別分布(Categorical),甚至也可以是其他概率模型——只要其邊際化操作具備可處理性即可。這使得輸入單元的參數(shù)化選擇超越了傳統(tǒng)張量分解中常用的“索引→矩陣元素”的簡(jiǎn)單映射方式(參見(jiàn)命題1及圖2)。


3.3 可靠的神經(jīng)符號(hào)集成

概率電路(PCs)在可處理推理方面的一個(gè)重要應(yīng)用場(chǎng)景是安全關(guān)鍵型應(yīng)用,其中需要對(duì)神經(jīng)分類器的預(yù)測(cè)結(jié)果施加硬性約束(Ahmed et al., 2022; van Krieken et al., 2024)。此類約束可以表示為基于感知組件(即分類器)提取出的符號(hào)所構(gòu)建的邏輯公式。例如,自動(dòng)駕駛汽車必須在行人或紅燈前停車的安全規(guī)則,可以寫(xiě)成一個(gè)命題邏輯公式 φ:(P ∨ R ? S),其中 P、R 和 S 是布爾變量,分別代表“已檢測(cè)到行人”、“已檢測(cè)到紅燈”以及“必須執(zhí)行停車動(dòng)作”。

電路特別適合用于這種神經(jīng)符號(hào)集成(De Raedt et al., 2019),因?yàn)樗鼈兡軌蛲瑫r(shí)表示概率分布和邏輯公式。這兩種表示可以在同一個(gè)分類器中使用,以確保任何違反給定約束的預(yù)測(cè)結(jié)果的概率恒為零。形式上,我們可以實(shí)現(xiàn)這樣一個(gè)分類器,將輸入x映射到輸出y,并要求其滿足約束 φ,如(Ahmed et al., 2022)所述:


3.4 無(wú)限維概率張量和連續(xù)分解

到目前為止,我們討論了表示具有有限維度張量的(層次化)分解的電路,即每個(gè)維度中的條目數(shù)量是有限的。也就是說(shuō),這些電路定義在一組離散變量上,每個(gè)變量都有有限數(shù)量的狀態(tài)。在本節(jié)中,我們關(guān)注分解那些可能具有無(wú)限(甚至不可數(shù))條目的維度或準(zhǔn)張量的張量(Townsend & Trefethen, 2015)。類似于(層次化)張量分解和電路之間的對(duì)稱性(第2節(jié)),我們展示了準(zhǔn)張量可以表示為至少在一個(gè)變量上定義的電路,該變量具有無(wú)限(甚至不可數(shù))的定義域。此外,通過(guò)連接一個(gè)非常新的電路類,這些電路配備了積分單元,我們指出了關(guān)于無(wú)限秩(層次化)張量分解參數(shù)化的機(jī)會(huì),即,分解的秩不一定是有限。我們將這些思想應(yīng)用于建模概率密度函數(shù)(PDF)的問(wèn)題。





類似地,人們亦可構(gòu)建此類連續(xù)張量分解的層次化版本,并將其應(yīng)用于概率建模(Gala et al., 2024b)。若公式(13)中的積分難以精確計(jì)算,可采用數(shù)值積分法(quadrature rules)對(duì)其進(jìn)行近似。詳見(jiàn) Gala et al. (2024a)。

在下一節(jié)(第4節(jié))中,我們將提出一個(gè)通用流程,可用于構(gòu)建有限維無(wú)限維的層次化概率張量分解,并將其統(tǒng)一表示為深層張量化概率電路(定義7)。在此之前,我們?cè)谙路降摹把芯繖C(jī)遇”框中強(qiáng)調(diào):電路還可作為一類替代性表示,用于建模那些無(wú)法對(duì)應(yīng)于概率張量分解的概率分布。


4 如何構(gòu)建與擴(kuò)展電路:一種張量化的視角

至此,我們已具備充分的背景知識(shí),可以開(kāi)始充分利用(層次化)張量分解與(深層)電路之間的聯(lián)系。具體而言,本節(jié)將展示:如何借助張量分解作為模塊化抽象,將眾多表面上各異的電路(及其他分解)構(gòu)建方法,統(tǒng)一納入一個(gè)單一的構(gòu)建流程之中。通過(guò)該流程,我們得以厘清構(gòu)建并高效學(xué)習(xí)超參數(shù)化電路(即參數(shù)量極大的電路,見(jiàn)表1)所需的核心要素。

圖9概括了我們的流程:


i) 首先,構(gòu)建一個(gè)區(qū)域圖(RG)結(jié)構(gòu),以確保所需的結(jié)構(gòu)性質(zhì)(第4.1節(jié));
ii) 接著,依照多種可能的張量分解抽象(第4.3節(jié)),在該模板中引入計(jì)算單元并將其分組為層(第4.2節(jié));
iii) 可選地,對(duì)這些層進(jìn)行“折疊”(folding)——即堆疊組合,以充分利用GPU的并行計(jì)算能力(第4.4節(jié));
最后,電路參數(shù)可通過(guò)梯度下降(gradient descent)或期望最大化(expectation maximization)(Peharz et al., 2016;Zhao et al., 2016)等方法進(jìn)行優(yōu)化。

4.1 構(gòu)建和學(xué)習(xí)區(qū)域圖

我們流程的第一步是構(gòu)建一個(gè)區(qū)域圖(RG)(定義4)。它指定了輸入變量的層次劃分,根據(jù)這種劃分構(gòu)建深度電路架構(gòu)。特別是,由滿足關(guān)鍵結(jié)構(gòu)屬性(如平滑性和可分解性)的RG構(gòu)建的PC,通過(guò)設(shè)計(jì)(以及結(jié)構(gòu)可分解性)確保RG是一棵樹(shù),并且具有單葉節(jié)點(diǎn),參見(jiàn)第2.2節(jié),這反過(guò)來(lái)又保證了對(duì)許多感興趣查詢的可處理推斷(第2節(jié))。RG在一些論文中被明確用于構(gòu)建PC(Peharpour et al., 2020c;a),但正如我們將展示的,它們可以隱式地出現(xiàn)在許多其他PC和張量分解架構(gòu)中。我們還介紹了一種快速構(gòu)建圖像RG的新方法,這些圖像是數(shù)據(jù)集無(wú)關(guān)的,但利用了像素結(jié)構(gòu)。線性樹(shù)RG(LT)。通過(guò)構(gòu)建每次分解一個(gè)變量的劃分來(lái)實(shí)例化RG的一種簡(jiǎn)單方法是構(gòu)建分區(qū)。也就是說(shuō),給定變量 X 的排序 π,每個(gè)第 i 個(gè)分區(qū)節(jié)點(diǎn)將其作用域

我們稱生成的RG為線性樹(shù)(LT)RG,并在圖3中展示了三個(gè)變量的示例。變量的排序可以是字典序或根據(jù)附加信息(如建模序列數(shù)據(jù)時(shí)的時(shí)間)進(jìn)行。這種順序RG是鏈?zhǔn)綇埩烤W(wǎng)絡(luò)分解(如MPS、TTs或BMs)(Pérez-García et al., 2007; Oseledets, 2011),以及表示為PC的隱馬爾可夫模型(HMMs)(Rabiner & Juang, 1986; Liu et al., 2023a;b)所采用的。

隨機(jī)樹(shù)RG(RND)。構(gòu)建平衡樹(shù)的稍微復(fù)雜的方法是通過(guò)遞歸地隨機(jī)劃分變量來(lái)完成。這可以通過(guò)數(shù)據(jù)集無(wú)關(guān)的方式完成,即通過(guò)遞歸地劃分變量到大致相等的子集中,直到無(wú)法進(jìn)一步劃分。我們稱這種方法為RND,它已被引入用于構(gòu)建隨機(jī)化和張量化求和-積網(wǎng)絡(luò)(RAT-SPNs)(Peharpour et al., 2020c)。Di Mauro et al.(2017; 2021)描述了類似的方法,不同之處在于在參數(shù)化電路時(shí),還考慮了一些隨機(jī)選擇的數(shù)據(jù)子集,從而涉及RG的構(gòu)建和電路參數(shù)化。

面向圖像數(shù)據(jù)的新型區(qū)域圖:四叉圖(QG)與四叉樹(shù)(QT)

我們希望設(shè)計(jì)一類既與數(shù)據(jù)集無(wú)關(guān)、又能感知像素結(jié)構(gòu)(如PD所示),同時(shí)又避免陷入相同優(yōu)化困境的區(qū)域圖。因此,我們提出一種更為簡(jiǎn)潔的方法來(lái)構(gòu)建面向圖像的區(qū)域圖,該方法能生成更小規(guī)模的電路,并實(shí)現(xiàn)更優(yōu)性能——即使與從數(shù)據(jù)中學(xué)習(xí)得到的區(qū)域圖相比亦然(參見(jiàn)第6節(jié))。附錄中的算法 D.1 詳細(xì)描述了我們的構(gòu)造過(guò)程。

與 PD 類似,我們的方法也通過(guò)遞歸分割大小近似相等的圖像塊來(lái)構(gòu)建區(qū)域圖;但與 PD 不同的是,我們僅將每個(gè)塊分割為四個(gè)部分(一次水平切割與一次垂直切割),且這些新生成的子塊之間是共享的。我們將此類區(qū)域圖稱為四叉圖(Quad-Graph, QG)。圖10展示了一個(gè)3×3圖像對(duì)應(yīng)的QG區(qū)域圖示例。


另一種選擇是:在水平和垂直方向上分割圖像塊,但不共享子塊,從而構(gòu)建一棵樹(shù)狀區(qū)域圖。我們將此類樹(shù)狀區(qū)域圖稱為四叉樹(shù)(Quad-Tree, QT)。由于此類區(qū)域圖中的區(qū)域?qū)?yīng)于圖像塊,我們可以選擇不同的劃分方式。特別地,我們將QT-2定義為區(qū)域被劃分為兩部分(圖像塊的上下部分)的四叉樹(shù);將QT-4定義為區(qū)域被劃分為四部分(按象限劃分)的四叉樹(shù)。采用QT-2,我們可以復(fù)現(xiàn)先前工作中用于圖像數(shù)據(jù)的張量分解方法(Cheng et al., 2019)。

從數(shù)據(jù)中學(xué)習(xí)區(qū)域圖(RG)
迄今為止所討論的方法均不依賴于訓(xùn)練數(shù)據(jù)。為在區(qū)域圖構(gòu)建過(guò)程中利用數(shù)據(jù)信息,一種策略是檢驗(yàn)區(qū)域節(jié)點(diǎn) Y ? X 內(nèi)部特征子集的統(tǒng)計(jì)獨(dú)立性。該方法最早應(yīng)用于里程碑式的LearnSPN 算法(Gens & Domingos, 2013),隨后被諸多工作拓展(Molina et al., 2018;Di Mauro et al., 2019)。盡管這些變體均未顯式提及“區(qū)域圖”,但實(shí)際上,在執(zhí)行統(tǒng)計(jì)檢驗(yàn)并引入與不同數(shù)據(jù)子塊(通過(guò)聚類獲得;Vergari et al., 2015)相關(guān)聯(lián)的區(qū)域時(shí),區(qū)域圖已在隱式地構(gòu)建。

另一種方式是依據(jù)某些面向數(shù)據(jù)的啟發(fā)式準(zhǔn)則來(lái)分割區(qū)域,從而使得不同分支可共享某些區(qū)域節(jié)點(diǎn)(Jaini et al., 2018a)。這一思想同樣構(gòu)成本文所提Chow-Liu 算法(CL)的基礎(chǔ)——該算法旨在學(xué)習(xí)一棵樹(shù)狀概率圖模型(PGM),以最優(yōu)逼近數(shù)據(jù)的似然(Chow & Liu, 1968b)。Chow-Liu 算法亦可用于隱式構(gòu)建區(qū)域圖,這已在諸多結(jié)構(gòu)學(xué)習(xí)變體中得以實(shí)現(xiàn)(Vergari et al., 2015;Rahman et al., 2014;Choi et al., 2011)。

一種更近期、通常能達(dá)到當(dāng)前最優(yōu)性能的方法(state-of-the-art performance)是:首先學(xué)習(xí) Chow-Liu 樹(shù),繼而將其視作一個(gè)隱樹(shù)模型(latent tree model)(Choi et al., 2011),最終將其編譯為概率電路(PC)(Liu & Van den Broeck, 2021b)。

這一隱式 Chow-Liu 樹(shù)(Hidden Chow-Liu Tree, HCLT)的構(gòu)建過(guò)程,一旦我們將區(qū)域圖(RG)的角色從其余部分中解耦出來(lái),便恰好嚴(yán)格遵循我們提出的流程步驟。

至此所提及的其他概率電路與張量分解架構(gòu)(例如:RAT-SPNs、EiNets、MPSs、BMs 等)的構(gòu)建同樣遵循相同的模式,并可輕松歸類至我們的流程框架之中(見(jiàn)表1)。它們之間的差異不僅體現(xiàn)在所采用的區(qū)域圖(RG)結(jié)構(gòu)上,也體現(xiàn)在所選用的求和層與乘積層的類型上。

在下一節(jié)中,我們將給出一個(gè)通用算法:給定一個(gè)區(qū)域圖(RG)以及一組用于編碼張量分解的求和層與乘積層選擇,該算法可構(gòu)建出對(duì)應(yīng)的張量化電路架構(gòu)。

4.2 超參數(shù)化與張量化電路

給定一個(gè)區(qū)域圖(RG),構(gòu)建電路最直接的方式是:

  • 為每個(gè)葉區(qū)域(leaf region)分配一個(gè)輸入分布單元,
  • 為每個(gè)內(nèi)部區(qū)域(inner region)分配一個(gè)求和單元,
  • 為每個(gè)劃分(partition)分配一個(gè)乘積單元,
  • 并依據(jù)區(qū)域圖的結(jié)構(gòu)將它們連接起來(lái)。

由此得到的電路是光滑的、(結(jié)構(gòu)化)可分解的,且連接稀疏。實(shí)際上,上一節(jié)所討論的諸多結(jié)構(gòu)學(xué)習(xí)算法(如 Gens & Domingos, 2013;Vergari et al., 2015;Molina et al., 2018)在隱式實(shí)現(xiàn)中正采用了這一策略。

我們可以將該策略適配為“深度學(xué)習(xí)范式”,轉(zhuǎn)而輸出一個(gè)局部稠密連接(locally densely-connected)的超參數(shù)化電路(overparameterized circuit)。所謂超參數(shù)化,是指用多個(gè)(而非單個(gè))具有相同作用域的求和單元、乘積單元和輸入單元來(lái)“填充”區(qū)域圖。由此生成的張量化計(jì)算圖(定義7)擁有更多可學(xué)習(xí)參數(shù),且天然適合GPU并行化——因我們可將共享相同作用域的計(jì)算單元向量化,形成稠密層。

算法1詳細(xì)描述了這一超參數(shù)化與張量化過(guò)程。其輸入包括:

  • 一個(gè)區(qū)域圖R
  • 輸入函數(shù)類型F(例如高斯分布),
  • 求和單元數(shù)量 K(該參數(shù)控制電路的表達(dá)能力,或等價(jià)地,控制分解的秩)?。

此外,我們還可靈活定制輸入層的選擇,以及求和層與乘積層的堆疊方式,從而衍生出大量在效率與表達(dá)能力上各具特點(diǎn)的電路構(gòu)建方案。

構(gòu)建輸入層。算法1的第一步是將輸入單元與葉區(qū)域(即不再進(jìn)一步分解的區(qū)域)相關(guān)聯(lián)。葉區(qū)域通常為單變量,形式為Y = {X?},其中 X? ∈X。對(duì)于每個(gè)變量 X? 對(duì)應(yīng)的葉區(qū)域,我們引入 K 個(gè)輸入單元,每個(gè)單元計(jì)算一個(gè)函數(shù) f?: dom(X?) → ?。為確保單調(diào)概率電路(monotonic PCs)輸出的非負(fù)性,f? 通常被選為非負(fù)函數(shù),例如選擇其為概率質(zhì)量函數(shù)或密度函數(shù)(Choi et al., 2020)。然而,人們亦可從更廣泛的表達(dá)性函數(shù)族中選擇 f?,例如多項(xiàng)式樣條(de Boor, 1971; Loconte et al., 2024)、神經(jīng)網(wǎng)絡(luò)(Shao et al., 2020; Correia et al., 2023; Gala et al., 2024a,b)以及歸一化流(normalizing flows)(Sidheekh et al., 2023)。另見(jiàn)“機(jī)遇4”。隨后,輸入單元可通過(guò)有效替換為一個(gè)輸入層 ?: dom(X?) → ?? 來(lái)實(shí)現(xiàn)張量化,使得 ?(X?)? = f?(X?)(其中 i ∈ [K])可以并行計(jì)算(算法1中的L11)。接下來(lái),根據(jù)給定區(qū)域圖(RG)中指定的變量劃分方式,構(gòu)建并連接求和層與乘積層。


4.3 將求和和乘積層抽象為模塊

除了輸入層,我們還引入了張量化電路的其他原子“樂(lè)高塊”(定義7):求和層、Hadamard和Kronecker乘積層。在接下來(lái)的內(nèi)容中,我們將使用這些塊來(lái)創(chuàng)建復(fù)合層,這些層將作為進(jìn)一步的抽象,可以無(wú)縫插入算法1中。這些復(fù)合層包括:Tucker(圖11)、CP(圖15)和CP?(圖16)層。這些層中的每一個(gè)都編碼了局部分解,并將內(nèi)部求和和乘積單元以不同的方式堆疊和連接,以提高表達(dá)能力或效率。


請(qǐng)注意,根據(jù)我們對(duì)張量化層的語(yǔ)義定義,在給定區(qū)域圖(RG)上應(yīng)用算法1來(lái)堆疊這些復(fù)合抽象模塊,所輸出的張量化電路始終是光滑的、且(結(jié)構(gòu)化)可分解的(定義8)。

我們首先考慮采用Tucker分解中計(jì)算單元連接方式的復(fù)合層,如圖2所示。該模式已見(jiàn)于RAT-SPNs(Peharz et al., 2020c)和EiNets(Peharz et al., 2020a)等架構(gòu)中:對(duì)于一個(gè)作用域?yàn)?strong>Y?X、并被劃分為 (Z?, Z?) 的區(qū)域節(jié)點(diǎn),其參數(shù)化為一個(gè)層 ?,該層由一個(gè)克羅內(nèi)克積層后接一個(gè)求和層構(gòu)成,即計(jì)算:




4.4 折疊以進(jìn)一步加速學(xué)習(xí)與推理

我們所提出流程的最后一步(也是可選步驟,見(jiàn)圖9)是將具有相同函數(shù)形式的層堆疊在一起,以增強(qiáng)GPU并行性。我們將此步驟稱為“折疊”(folding)。請(qǐng)注意,折疊僅是一種電路的語(yǔ)法變換——即它不改變電路所編碼的函數(shù),因而保留了其表達(dá)能力。然而,這種簡(jiǎn)單的語(yǔ)法“重寫(xiě)”卻能顯著影響學(xué)習(xí)與推理性能。事實(shí)上,折疊正是EiNets(Peharz et al., 2020a)相對(duì)于同類未折疊架構(gòu)(如RAT-SPNs,Peharz et al., 2020c)所引入額外加速的核心要素;這些架構(gòu)與EiNets共享其他架構(gòu)細(xì)節(jié)(例如使用Tucker層,參見(jiàn)表1)。因此,當(dāng)通常將RAT-SPNs與EiNets視為兩類不同PC模型時(shí)(參見(jiàn)例如Liu et al., 2023a),二者在性能上的差異必須歸因于其他因素,例如區(qū)域圖(RG)的選擇或用于訓(xùn)練這些模型的其他超參數(shù)(如所選優(yōu)化器)的差異。通過(guò)在我們的流程中解耦這些方面,我們可以設(shè)計(jì)實(shí)驗(yàn),真正突出哪些因素對(duì)性能提升負(fù)有責(zé)任(參見(jiàn)第6節(jié))。

折疊層:為獲得Tucker層的折疊表示(公式(Tucker-layer)),我們需要沿一個(gè)新引入的維度堆疊參數(shù)矩陣,我們稱該維度為“折疊維度”(fold dimension)。隨后,我們可根據(jù)這一額外維度并行計(jì)算乘積。例如,給定一組具有作用域 {Y???}???? 的 F 個(gè)Tucker層,我們用單個(gè)折疊層 ? 并行評(píng)估它們,該層計(jì)算一個(gè) F × K 矩陣,并定義為:


其中 ??(或 ??)表示一個(gè)折疊層,用于計(jì)算輸入到 ???? 的 F 個(gè)左側(cè)(或右側(cè))輸入,每個(gè)層定義在變量Z????(或Z????)上,且每個(gè)W?::∈ ????2 是 ???? 的參數(shù)矩陣。換言之,W?::是一個(gè)張量W∈ ??????2 沿第一維的第 n 個(gè)切片,該張量由堆疊各Tucker層的參數(shù)矩陣得到。由于同一個(gè)區(qū)域節(jié)點(diǎn)可能參與多個(gè)其他區(qū)域節(jié)點(diǎn)的不同劃分(例如,參見(jiàn)圖9i),我們可能會(huì)有折疊輸入 ??、?? 計(jì)算相同輸出的情況。我們?cè)趫D9iii中展示了一個(gè)這樣的示例,它顯示了兩個(gè)共享一個(gè)輸入的Tucker求和-乘積層的折疊過(guò)程。在附錄F中,我們提供了一個(gè)PyTorch代碼片段,實(shí)現(xiàn)了一個(gè)帶有einsum操作的折疊Tucker層。正因如此,盡管折疊在評(píng)估張量化電路時(shí)能帶來(lái)顯著加速,但其代價(jià)可能是內(nèi)存占用增加——具體取決于所選的區(qū)域圖(RG)。

如何選擇待折疊的層?
仍需明確的是:應(yīng)如何決定哪些層應(yīng)當(dāng)被一起折疊?

最直接的方法是自頂向下遍歷張量化電路(即從輸出層向輸入層方向),將計(jì)算圖中處于相同深度的層進(jìn)行折疊。
但需注意,我們亦可折疊不同深度的層。例如,若所有輸入層對(duì)各變量均采用相同的輸入函數(shù)形式,則可將所有輸入層統(tǒng)一折疊——這正是 EiNets 所采用的策略(Peharz et al., 2020a),也是本文所有實(shí)驗(yàn)與基準(zhǔn)測(cè)試中所采用的方法(見(jiàn)第6節(jié))。

然而需指出:這并非折疊層的最優(yōu)方式;針對(duì)特定架構(gòu)定制不同的折疊策略,可能帶來(lái)額外的加速效果與內(nèi)存節(jié)省。盡管本文未進(jìn)一步探索除上述方法以外的其它折疊方式,但我們所提出的流程中,已將“折疊”與“超參數(shù)化”(第4.2節(jié))步驟明確解耦——這一設(shè)計(jì)將有助于推動(dòng)后續(xù)研究,使其能借鑒大量關(guān)于通用計(jì)算圖并行化的現(xiàn)有文獻(xiàn)(Shah et al., 2023)。

5 借助張量分解壓縮電路與共享參數(shù)

本節(jié)再次借助張量分解領(lǐng)域的研究成果,以改進(jìn)電路架構(gòu)的設(shè)計(jì)與學(xué)習(xí)方法。我們首先觀察到:在我們提出的流程中,電路各層的參數(shù)以大規(guī)模張量形式存儲(chǔ)(例如參見(jiàn)公式(Tucker-layer)與(Tucker-folded)),原則上可進(jìn)一步對(duì)其進(jìn)行分解。又因張量分解本身可視為電路(命題1),最終我們可獲得電路架構(gòu)與層的多種變體:其中一些為新提出的形式,在速度與精度之間展現(xiàn)出有趣權(quán)衡(第5.2節(jié));另一些則已在現(xiàn)有電路與張量分解的構(gòu)建中被隱式使用(見(jiàn)表1)。

我們?nèi)砸訲ucker層為起點(diǎn),旨在壓縮采用Tucker層構(gòu)建的深層電路——即通過(guò)減少參數(shù)數(shù)量來(lái)近似該電路。

5.1 Tucker層的壓縮




5.2 通過(guò)張量分解實(shí)現(xiàn)參數(shù)共享

我們現(xiàn)在聚焦于在張量化概率電路(tensorized PC)中跨層共享參數(shù)的問(wèn)題。我們?cè)俅卫脧埩糠纸鈦?lái)完成此任務(wù)??紤]一個(gè)按照我們流程(第4.2節(jié))由區(qū)域圖(RG)構(gòu)建的張量化PC??梢院侠砑僭O(shè):位于相同深度的層,其參數(shù)張量可能存儲(chǔ)相似的結(jié)構(gòu)。例如,兩個(gè)具有相鄰且大小相同的像素塊作為作用域的不同層,可能會(huì)對(duì)其各自的輸入應(yīng)用相似的變換——因?yàn)槲覀兛杉僭O(shè)這兩個(gè)像素塊的分布非常相似。如果區(qū)域圖是一個(gè)完全平衡的二叉樹(shù),則對(duì)所得電路進(jìn)行折疊,將轉(zhuǎn)化為折疊處于相同深度的層——這些層很可能在參數(shù)空間中共享相似的結(jié)構(gòu)。這促使我們將參數(shù)共享實(shí)現(xiàn)為一種跨折疊層的分解。

具體而言,我們首先壓縮一個(gè)折疊Tucker層(公式(Tucker-folded)),并通過(guò)CP分解(定義10)再次分解其參數(shù)張量,以獲得一個(gè)實(shí)現(xiàn)上述參數(shù)共享的新層。這一次,我們需要分解的是W∈ ???????? ——即通過(guò)對(duì)折疊Tucker層 ? 的參數(shù)張量進(jìn)行重塑所得到的四維張量,其中 F 表示折疊維度。通過(guò)應(yīng)用一個(gè)秩為 R 的CP分解(滿足 R ? K),我們得到:



6 實(shí)證評(píng)估:應(yīng)選用何種區(qū)域圖(RG)與層結(jié)構(gòu)?

將現(xiàn)代概率電路(PC)架構(gòu)(以及張量分解)解構(gòu)并納入我們的統(tǒng)一流程(圖9)之后,我們即可通過(guò)簡(jiǎn)單的“混合搭配”(mix & match)策略,構(gòu)建出新型張量化架構(gòu)(見(jiàn)表1)。同時(shí),該流程也有助于我們從表達(dá)能力、推理速度與優(yōu)化難易度等角度,厘清不同模型類別之間真正重要的差異所在。如今,我們得以清晰解耦現(xiàn)代電路架構(gòu)中的關(guān)鍵要素——例如區(qū)域圖(RG)的作用,以及復(fù)合求和-乘積層的選擇——從而準(zhǔn)確識(shí)別出究竟是哪個(gè)因素推動(dòng)了性能提升。

例如,HCLT 近期在多項(xiàng)基準(zhǔn)測(cè)試中被視為性能最優(yōu)的電路模型架構(gòu)之一(Liu et al., 2022;2023a),但迄今為止,尚不清楚其究竟為何優(yōu)于 RAT-SPNs 和 EiNets 等其他架構(gòu)。在我們的框架下,我們可通過(guò)回答更精確的問(wèn)題來(lái)探究其原因:

  • 是因其區(qū)域圖由數(shù)據(jù)學(xué)習(xí)得來(lái)(第4.1節(jié))?
  • 還是因其采用了特定的復(fù)合求和-乘積層參數(shù)化方式(第5.1節(jié))?
  • 或是其他超參數(shù)選擇所致?(劇透:實(shí)際關(guān)鍵在于采用了CP 層。)

具體而言,本節(jié)我們圍繞以下三個(gè)研究問(wèn)題開(kāi)展嚴(yán)謹(jǐn)?shù)膶?shí)證研究:

RQ1)對(duì)于目前已能構(gòu)建的多種張量化架構(gòu),其在測(cè)試與訓(xùn)練階段所需的計(jì)算資源(時(shí)間與 GPU 內(nèi)存)分別是多少?
RQ2)區(qū)域圖(RG)與復(fù)合求和-乘積層的選擇,對(duì)作為分布估計(jì)器訓(xùn)練的張量化電路性能有何影響?
RQ3)若將預(yù)訓(xùn)練張量化 PC 中的 Tucker 層按圖14a → 圖14b 所示方式分解為 CP 層,我們能否在很大程度上保留其原有性能?

需說(shuō)明的是,我們此處不考察折疊操作的影響(第4.4節(jié)),因我們已明確知曉其答案:折疊對(duì)大規(guī)模張量化架構(gòu)至關(guān)重要。因此,在所有實(shí)驗(yàn)中,我們都采用已折疊的張量化電路。我們強(qiáng)調(diào):本實(shí)驗(yàn)的目標(biāo)并非追求分布估計(jì)任務(wù)上的最優(yōu)性能,而是旨在深入理解張量化電路架構(gòu)中各組成要素的作用。所有實(shí)驗(yàn)均在單塊 NVIDIA RTX A6000 GPU(48 GB 顯存)上完成。代碼已開(kāi)源:github.com/april-tools/uni-circ-le 。

一種新的電路命名規(guī)范
我們指出,HCLT、EiNets、RAT-SPNs 及表1中所有其他縮寫(xiě),并非代表不同模型類別,而僅表示不同的架構(gòu)實(shí)例——它們均屬于同一模型類:光滑且(結(jié)構(gòu)化)可分解的電路。后續(xù)我們將采用如下命名方式表示張量化架構(gòu):
[RG]-[求和-乘積層],可選后綴K表示算法1中超參數(shù)化所用的單元數(shù)量。
在此規(guī)范下:

  • 若 RAT-SPNs 與 EiNets 均采用隨機(jī)區(qū)域圖(RND)構(gòu)建,則二者統(tǒng)一記為RND-Tucker
  • 若采用 Poon & Domingos 區(qū)域圖構(gòu)建,則記為PD-Tucker
  • 而 HCLT 則記為CL-CP

任務(wù)與數(shù)據(jù)集
我們主要通過(guò)在圖像數(shù)據(jù)集上進(jìn)行分布估計(jì)(distribution estimation)來(lái)評(píng)估所提架構(gòu)。所用數(shù)據(jù)集包括:

  • Mnist 系列:6 個(gè)灰度 28×28 圖像數(shù)據(jù)集——Mnist(LeCun et al., 2010)、FashionMnist(Xiao et al., 2017),以及 EMNIST 的 4 個(gè)劃分(Cohen et al., 2017);
  • CelebA:縮放至 64×64 大?。↙iu et al., 2015),包含兩個(gè)版本:原始 RGB 像素版本,以及經(jīng)無(wú)損YCoCg 顏色編碼(Malvar & Sullivan, 2003)預(yù)處理的版本——近期研究表明該變換可顯著降低比特每維(bpds)。

此外,我們還在含連續(xù)變量的表格數(shù)據(jù)上開(kāi)展實(shí)驗(yàn):具體而言,我們?cè)?5 個(gè) UCI 數(shù)據(jù)集上評(píng)估不同張量化層的密度估計(jì)性能——這些數(shù)據(jù)集常被用于評(píng)估歸一化流模型(Papamakarios et al., 2017)。UCI 數(shù)據(jù)集的統(tǒng)計(jì)信息見(jiàn)表 E.5。

參數(shù)優(yōu)化
我們訓(xùn)練電路以估計(jì)生成圖像數(shù)據(jù)的潛在概率分布,并將每個(gè)像素視為一個(gè)隨機(jī)變量。因此,電路中的輸入單元采用256 類別的類別分布(Categorical distribution)。對(duì)于 RGB 圖像,每個(gè)像素關(guān)聯(lián)三個(gè)類別分布單元(每顏色通道一個(gè));而對(duì)于 5 個(gè) UCI 數(shù)據(jù)集(表 E.5),我們采用單變量高斯分布作為輸入單元,并同時(shí)學(xué)習(xí)其均值與標(biāo)準(zhǔn)差參數(shù)。

我們通過(guò)隨機(jī)梯度上升法進(jìn)行最大似然訓(xùn)練,即最大化以下目標(biāo)函數(shù):


其中, Z = ∑? c (x) 是概率電路 c 的配分函數(shù)(partition function)?, B 為一批訓(xùn)練數(shù)據(jù)。經(jīng)過(guò)初步實(shí)驗(yàn),我們發(fā)現(xiàn):使用Adam 優(yōu)化器(Kingma & Ba, 2015)并設(shè)置學(xué)習(xí)率為 10?2,平均而言可在我們所考慮的數(shù)據(jù)集上獲得性能最佳的模型。此外,我們決定在每次優(yōu)化步驟后,通過(guò)截?cái)喾?/strong>(clamping)對(duì)電路求和參數(shù)進(jìn)行重參數(shù)化,并設(shè)定 ε = 10?1?(公式(9)),以保持其非負(fù)性——因?yàn)樵谒锌赡艿闹貐?shù)化方法中,該方式帶來(lái)了最優(yōu)的學(xué)習(xí)動(dòng)力學(xué)表現(xiàn)(第3.2節(jié))。下文我們將總結(jié)回答 RQ1–3 時(shí)的主要發(fā)現(xiàn),并提煉出面向?qū)嵺`者的建議,指導(dǎo)如何構(gòu)建與學(xué)習(xí)電路。


RQ1)不同張量化架構(gòu)的時(shí)間與空間開(kāi)銷基準(zhǔn)測(cè)試

在本組實(shí)驗(yàn)中,我們考察以下區(qū)域圖(RG):

  • PD(Poon-Domingos):常用于 RAT-SPNs 和 EiNets 等架構(gòu);
  • 以及我們?cè)诘?.1節(jié)中提出的兩種新型輕量級(jí)、與數(shù)據(jù)無(wú)關(guān)的區(qū)域圖:QT(四叉樹(shù))和QG(四叉圖)。

我們未納入 RND(隨機(jī) RG),因其通常僅為平衡二叉樹(shù)(Peharz et al., 2020c),其時(shí)間與內(nèi)存表現(xiàn)將與 QT 相當(dāng);同理,我們亦未納入 CL(Chow-Liu),因其為樹(shù)狀結(jié)構(gòu),經(jīng)定根后通常也接近平衡11。

在層類型方面,我們考察:

  • Tucker(公式(Tucker-layer))、
  • CP(公式(CP-layer))、
  • CPS(公式(CPS-layer))
  • 以及CPXS(第5.2節(jié))。

圖19展示了在 Mnist 數(shù)據(jù)集上,多種通過(guò)混合搭配上述 RG 與求和–乘積層構(gòu)建的張量化概率電路(PC)架構(gòu)處理一個(gè)數(shù)據(jù)批次所需的平均時(shí)間峰值 GPU 內(nèi)存(受限于我們的 GPU 顯存上限)。對(duì)每種架構(gòu),我們通過(guò)改變 K(每層單元數(shù)量,K ∈ {2?}???1?)來(lái)調(diào)節(jié)模型規(guī)模。

我們觀察到:

  • QT 與 QG 區(qū)域圖構(gòu)建的架構(gòu),其可擴(kuò)展性顯著優(yōu)于廣泛使用的 PD 架構(gòu)——后者在所有情況下均更慢且占用更多內(nèi)存;
  • 同時(shí),CP 與 CPS 層展現(xiàn)出更平緩的擴(kuò)展性:采用 QT 作為 RG 時(shí),CP 層可支持 K = 21?;而 CPS 甚至可在 QG 下支持更大的 K(最高達(dá) 213);
  • 相比之下,在相同 GPU 條件下,Tucker 層因計(jì)算開(kāi)銷過(guò)大,K 最多僅能達(dá) 128;
  • 我們特別指出:QT-Tucker 架構(gòu)缺失是有意為之——QT 每步遞歸將圖像劃分為 4 部分(算法 D.2),若在此結(jié)構(gòu)上應(yīng)用 Tucker 層,參數(shù)量將達(dá) O(K?),即便僅取 K = 16,在我們的 GPU 上亦不可行。

我們強(qiáng)調(diào):這些架構(gòu)的未折疊版本(如 RAT-SPNs;Peharz et al., 2020c)速度可能慢數(shù)個(gè)數(shù)量級(jí),嚴(yán)重阻礙實(shí)際中的學(xué)習(xí)與部署。

圖 E.1 展示了在CelebA數(shù)據(jù)集上的相同基準(zhǔn)結(jié)果——該任務(wù)更具挑戰(zhàn)性,因其等效于在更高維空間(12,288 = 64×64×3,而非 Mnist 的 784 = 28×28×1)上進(jìn)行分布估計(jì)12。該補(bǔ)充實(shí)驗(yàn)表明:即使在高維情形下,RG 與層類型的擴(kuò)展趨勢(shì)依然保持一致

最后,圖 E.3 聚焦于CPS 與 CPXS 的對(duì)比:結(jié)果表明,對(duì)于相同的 RG 與 K,二者所需時(shí)間/空間資源基本一致;僅在訓(xùn)練階段,CPXS 略快。



RQ2)作為分布估計(jì)器的準(zhǔn)確性評(píng)估

我們現(xiàn)在將張量化概率電路(PC)作為分布估計(jì)器進(jìn)行測(cè)試,所用架構(gòu)即 RQ1 中的混合搭配組合。對(duì)每種架構(gòu),我們通過(guò)變化 K(每層單元數(shù))調(diào)節(jié)模型規(guī)模:在 MNIST 系列數(shù)據(jù)集上 K∈ {16, 32, 64, 128, 256, 512};在 CelebA 上最大至 256。為評(píng)估“從數(shù)據(jù)中學(xué)習(xí)區(qū)域圖(RG)”帶來(lái)的影響,我們將結(jié)果與 Dang 等人(2022a)所報(bào)告的HCLT(按我們的命名法即CL-CP)進(jìn)行比較。

實(shí)驗(yàn)設(shè)置:批大小為 256,最多訓(xùn)練 200 輪;若驗(yàn)證集對(duì)數(shù)似然連續(xù) 5 輪未提升,則提前終止訓(xùn)練。評(píng)估指標(biāo)為測(cè)試集平均每維比特?cái)?shù)(bits-per-dimension, bpd):


其中 d 為數(shù)據(jù)集 D 的特征維數(shù),L 如公式(18)所定義。

圖20展示了在 Mnist、FashionMnist 與 CelebA 上的平均測(cè)試集 bpd。從中可立即觀察到一條清晰模式:相較于 RG 的選擇基于 QT 與 QG 的架構(gòu)一致優(yōu)于基于 PD 的架構(gòu),且能成功擴(kuò)展至 CelebA 等更大規(guī)模數(shù)據(jù)集。平均而言,QG 構(gòu)建的架構(gòu)性能最佳——這符合預(yù)期:與 QT 不同,QG 允許對(duì)同一區(qū)域采用不同劃分方式(因此需使用混合層,如公式(Mixing-layer)所述)。盡管 PD 區(qū)域圖與 QG 同為有向無(wú)環(huán)圖(DAG)結(jié)構(gòu),但其張量化架構(gòu)表現(xiàn)欠佳,表明更大的模型雖表達(dá)能力更強(qiáng),卻更難訓(xùn)練——這一現(xiàn)象亦為 Li...

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
深圳馬拉松亂象引熱議:“官兔”跑崩暈倒,“野兔”方陣占道沖突

深圳馬拉松亂象引熱議:“官兔”跑崩暈倒,“野兔”方陣占道沖突

老王談跑步
2025-12-09 15:31:12
愛(ài)的不是你的卵巢!顏丙燕透露男友身體好,自己又老又胖不能生娃

愛(ài)的不是你的卵巢!顏丙燕透露男友身體好,自己又老又胖不能生娃

阿廢冷眼觀察所
2025-12-10 11:11:34
臨終將“私生子”交給何超瓊,賭王下的這盤大棋,五年后才看懂

臨終將“私生子”交給何超瓊,賭王下的這盤大棋,五年后才看懂

白面書(shū)誏
2025-12-09 23:59:19
關(guān)于楊蘭蘭,終于破解出幾條她的關(guān)鍵信息

關(guān)于楊蘭蘭,終于破解出幾條她的關(guān)鍵信息

熱點(diǎn)菌本君
2025-10-01 17:24:05
再牛的經(jīng)濟(jì)學(xué)家,也無(wú)法挽救一個(gè)平庸的政府

再牛的經(jīng)濟(jì)學(xué)家,也無(wú)法挽救一個(gè)平庸的政府

黑噪音
2025-12-09 13:34:54
上流負(fù)責(zé)折騰,百姓負(fù)責(zé)遭罪

上流負(fù)責(zé)折騰,百姓負(fù)責(zé)遭罪

我是歷史其實(shí)挺有趣
2025-12-04 09:16:53
默多克離婚協(xié)議暗藏玄機(jī),贈(zèng)鄧文迪5億股權(quán)背后竟有定時(shí)炸彈

默多克離婚協(xié)議暗藏玄機(jī),贈(zèng)鄧文迪5億股權(quán)背后竟有定時(shí)炸彈

蕭竹輕語(yǔ)
2025-11-28 16:15:19
伊能靜真人太一般了,根本不顯年輕,而是又矮又胖又老! 差別太大

伊能靜真人太一般了,根本不顯年輕,而是又矮又胖又老! 差別太大

小娛樂(lè)悠悠
2025-12-10 09:30:01
突發(fā)利好!300189,盤中爆發(fā)

突發(fā)利好!300189,盤中爆發(fā)

數(shù)據(jù)寶
2025-12-10 10:41:18
貝恩狂轟37分率隊(duì)晉級(jí) 魔術(shù)闖入NBA杯四強(qiáng)

貝恩狂轟37分率隊(duì)晉級(jí) 魔術(shù)闖入NBA杯四強(qiáng)

環(huán)球體壇啄木鳥(niǎo)
2025-12-10 11:43:39
小雨夾雪!-6℃!江蘇天氣最新預(yù)測(cè)

小雨夾雪!-6℃!江蘇天氣最新預(yù)測(cè)

句容發(fā)布
2025-12-10 04:39:33
我國(guó)人口達(dá)到14億,為何生意還是越來(lái)越難做?有4個(gè)原因要知曉

我國(guó)人口達(dá)到14億,為何生意還是越來(lái)越難做?有4個(gè)原因要知曉

貓叔東山再起
2025-12-08 10:25:07
開(kāi)拓者總經(jīng)理:我們對(duì)楊瀚森的表現(xiàn)十分滿意!

開(kāi)拓者總經(jīng)理:我們對(duì)楊瀚森的表現(xiàn)十分滿意!

田先生籃球
2025-12-09 16:42:30
泰倫盧回應(yīng)保羅事件:我倆幾周沒(méi)交流是假的 他能否回歸問(wèn)弗蘭克

泰倫盧回應(yīng)保羅事件:我倆幾周沒(méi)交流是假的 他能否回歸問(wèn)弗蘭克

羅說(shuō)NBA
2025-12-10 07:05:36
俄專家:如果中日打起來(lái),不僅俄羅斯跟朝鮮想分一杯羹,美國(guó)也要

俄專家:如果中日打起來(lái),不僅俄羅斯跟朝鮮想分一杯羹,美國(guó)也要

我心縱橫天地間
2025-12-09 19:26:25
我記得她以前還挺瘦的,不知道怎么變成這樣了?

我記得她以前還挺瘦的,不知道怎么變成這樣了?

超人強(qiáng)動(dòng)物俱樂(lè)部
2025-12-08 15:14:46
青島市行政審批局黨組書(shū)記調(diào)整

青島市行政審批局黨組書(shū)記調(diào)整

鳳凰網(wǎng)青島
2025-12-10 09:49:40
汪東興、吳德、紀(jì)登奎、陳錫聯(lián)辭職后的生活和身后事

汪東興、吳德、紀(jì)登奎、陳錫聯(lián)辭職后的生活和身后事

南書(shū)房
2025-12-04 21:15:04
廣西一女生來(lái)南寧找工作,找了5天還沒(méi)有著落:身上只剩45塊

廣西一女生來(lái)南寧找工作,找了5天還沒(méi)有著落:身上只剩45塊

唐小糖說(shuō)情感
2025-12-08 10:17:07
朱可夫在見(jiàn)到處決沙皇一家的劊子手時(shí),說(shuō)了句誰(shuí)都沒(méi)想到的話

朱可夫在見(jiàn)到處決沙皇一家的劊子手時(shí),說(shuō)了句誰(shuí)都沒(méi)想到的話

王嚾曉
2025-12-09 20:31:59
2025-12-10 12:04:49

CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1052文章數(shù) 17關(guān)注度
往期回顧 全部

頭條要聞

從云南貪腐到西藏 今年落馬的首個(gè)正部級(jí)"老虎"被公訴

頭條要聞

從云南貪腐到西藏 今年落馬的首個(gè)正部級(jí)"老虎"被公訴

體育要聞

試訓(xùn)20支球隊(duì),落選,成為NBA新秀助攻王

娛樂(lè)要聞

孫儷扛住死亡鏡頭 網(wǎng)友:嬛嬛回來(lái)了

財(cái)經(jīng)要聞

白銀史上首次站上60美元

科技要聞

燒千億,搏一把!網(wǎng)友:輸了,小扎就懸了

汽車要聞

2026款比亞迪夏到底改了什么?一句話:更懂生活了

態(tài)度原創(chuàng)

房產(chǎn)
時(shí)尚
親子
藝術(shù)
軍事航空

房產(chǎn)要聞

猛料!雅居樂(lè)清水灣超級(jí)地塊,中止拍賣!

今年冬天一定要擁有的6件衣服,誰(shuí)穿誰(shuí)好看!

親子要聞

別再信 “孕期多吃養(yǎng)胎”!最新研究:孕期肥胖通過(guò)雙通路誘導(dǎo)胎兒心肌早期病理改變

藝術(shù)要聞

20億砸在懸崖上!云南爛尾別墅,成了誰(shuí)都不敢碰的“空中危樓”?

軍事要聞

內(nèi)塔尼亞胡:加沙地帶停火將很快進(jìn)入下一階段

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 少妇系列一区二区| 欧洲熟妇色xxxxx欧美老妇伦| 免费人成网站| 欧美性爱限制手机在线网| 日日操夜夜骑| 国产一区二区波多野结衣| 日本三级韩国三级人妻| 丁香五月六月综合| 丰满人妻被两个按摩师| 欧美大片va欧美在线播放| 日本猛少妇色xxxxx猛叫| 日本三级韩国三级欧美三级| 狠狠鲁免费视频| 一线天无毛馒头逼| 国产AV自拍A级| 国产乱子伦精品免费无码专区| 波多158分钟| 日本阴道毛茸茸| 亚洲真人无码永久在线| 五月激情综合久久| 国产爆乳无码| 亚洲国产精品嫩草影院| 亚洲国产熟女一区二区三区| 久久天天躁夜夜躁狠狠85| 国产白嫩精品久久| 日本一道一区二区视频| 人妻中文字幕av无码专区| 久久久性感美女视频诱惑| 中文字幕乱码十国产乱码| 国产女人十八毛片| 欧美日韩免费专区在线| A级真人毛片免费观看| 好了av四色综合无码| 日本亚洲国产一区二区三区| 国产av八区| 体验区试看120秒啪啪免费| 国产三级在线观看完整版| 丁香六月在线观看| 熟女乱你合集aⅴ| 国产人妻久久精品一区| 精品无码在线视频|