近日,來自北京大學(xué)的馬唯碩和所在團(tuán)隊(duì)總結(jié)出了一套針對(duì)圖自編碼器(GAE,Graph Autoencoder)或以 GAE 為基礎(chǔ)的模型的普適性優(yōu)化方案,并通過實(shí)驗(yàn)來重估性能。結(jié)果十分令人驚訝:經(jīng)過這些優(yōu)化,GAE 這個(gè)相對(duì)“古老”的模型,竟能以更快的速度達(dá)到與最先進(jìn)模型相當(dāng)或更好的結(jié)果。例如,研究團(tuán)隊(duì)在美國(guó)斯坦福大學(xué)發(fā)布的大規(guī)模數(shù)據(jù)集 ogbl-ppa 上,取得了排行榜 Rank#1 的性能。
圖 | 馬唯碩(來源:馬唯碩)
總結(jié)來看,本次成果的貢獻(xiàn)主要有兩點(diǎn):首先,構(gòu)建了優(yōu)化版本的 GAE 模型并取得了 SOTA 結(jié)果,確認(rèn)了本次基本方法所蘊(yùn)含的巨大潛力;其次,歸納出了對(duì)以 GAE 為基礎(chǔ)的鏈路預(yù)測(cè)模型普遍有效的一系列技術(shù),有助于指導(dǎo) AI 社區(qū)的后續(xù)模型構(gòu)建。
“我們很榮幸地收到了一個(gè)接收(accept)意見和兩個(gè)強(qiáng)烈接收(strong accept)意見?!闭劶巴陡暹^程馬唯碩這樣告訴 DeepTech。審稿人也認(rèn)可了這一成果的核心觀點(diǎn)——“精心優(yōu)化的簡(jiǎn)單模型可以達(dá)到或超越復(fù)雜模型在鏈路預(yù)測(cè)任務(wù)上的表現(xiàn)”,并在原創(chuàng)性方面給予高度肯定。
從應(yīng)用角度來看,這一成果最重大意義在于,研究團(tuán)隊(duì)證明在鏈路預(yù)測(cè)任務(wù)上,效率和性能在某種程度上是可以兼得的。經(jīng)過他們優(yōu)化之后的 GAE 模型,相較以前的一些模型,有著幾十倍甚至上百倍的效率提升,這會(huì)為圖神經(jīng)網(wǎng)絡(luò)鏈路預(yù)測(cè)模型的規(guī)?;瘨咔逯匾璧K。
舉例來說,在現(xiàn)代推薦系統(tǒng)任務(wù)中,部署圖神經(jīng)網(wǎng)絡(luò)的一個(gè)重大阻礙是:建模出的物品-關(guān)系圖可能有著數(shù)十億甚至更多條邊,這對(duì)圖神經(jīng)網(wǎng)絡(luò)的效率提出了非常高的要求,復(fù)雜的模型所增加的額外計(jì)算成本,在這種情況下往往是不可接受的。而 GAE 模型的計(jì)算開銷在這樣的情境下有著天然的優(yōu)勢(shì)。總之,優(yōu)化 GAE 架構(gòu)在應(yīng)用方面所能帶來的核心優(yōu)勢(shì)便是,能在大規(guī)模部署場(chǎng)景下帶來大幅度的效率優(yōu)勢(shì)。
(來源:https://arxiv.org/pdf/2411.03845)
談及本次成果的研究背景,馬唯碩表示鏈路預(yù)測(cè)——是圖學(xué)習(xí)領(lǐng)域中最重要且基礎(chǔ)的問題之一,在推薦系統(tǒng)、知識(shí)圖譜構(gòu)建等領(lǐng)域有著重要的應(yīng)用,也是該課題組一直以來的重要研究方向之一。近年來,基于圖神經(jīng)網(wǎng)絡(luò)的方法逐漸成為主流,并取得了良好的效果。但是,人們逐漸關(guān)注到,基礎(chǔ)的圖神經(jīng)網(wǎng)絡(luò)架構(gòu)并不能有效捕捉到預(yù)測(cè)連邊所需的結(jié)構(gòu)特征。因此,該領(lǐng)域內(nèi)的工作引入了大量復(fù)雜的模型架構(gòu)改進(jìn)來克服這一點(diǎn),在獲得性能提升的同時(shí),計(jì)算成本也相應(yīng)升高。
在追求復(fù)雜性的潮流中,研究團(tuán)隊(duì)觀察到一個(gè)重要的評(píng)測(cè)缺陷:許多新發(fā)布的模型,其性能提升往往是被高估的,原因在于用來比較的基線模型,往往是多年前未經(jīng)任何優(yōu)化的原始版本,而近期模型往往都經(jīng)過了非常精細(xì)的優(yōu)化。這個(gè)問題可能導(dǎo)致人們不能正確評(píng)估模型所改進(jìn)的效果,讓 AI 社區(qū)過分關(guān)注模型本身的新穎程度,而忽視了對(duì)于基礎(chǔ)模型潛力的挖掘。
基于這個(gè)觀察,研究團(tuán)隊(duì)聚焦于近 10 年前提出的一個(gè)重要的模型——GAE,并提出了這樣一個(gè)問題:在不改變模型簡(jiǎn)潔的核心架構(gòu)的前提下,對(duì) GAE 使用流行的現(xiàn)代優(yōu)化技術(shù)進(jìn)行全面優(yōu)化,它的性能究竟能達(dá)到什么水平?總而言之,研究團(tuán)隊(duì)并不是在創(chuàng)建一個(gè)全新的模型,而是通過針對(duì)基礎(chǔ)模型進(jìn)行全面優(yōu)化,為 AI 社區(qū)提供一個(gè)更公允、更強(qiáng)大的基線,并為后續(xù)模型設(shè)計(jì)提供優(yōu)化方面的重要參考。
另據(jù)悉,本次課題組最開始是針對(duì)另一個(gè)課題的跟進(jìn)。在此前課題里,研究團(tuán)隊(duì)主要研究負(fù)采樣技術(shù)對(duì)于鏈路預(yù)測(cè)的促進(jìn)作用,并側(cè)重于強(qiáng)調(diào)其優(yōu)秀的效率。因此,他們希望在這一課題的啟示之下,尋求效率與性能平衡的新方向。當(dāng)時(shí),馬唯碩作為一名本科實(shí)習(xí)生,得到了導(dǎo)師張牧涵教授和師兄們的信任與幫助,負(fù)責(zé)主導(dǎo)此次課題組的推進(jìn)?!岸@對(duì)我來說也是一個(gè)全新且激動(dòng)人心的挑戰(zhàn)?!瘪R唯碩表示。
研究初期,他和其他團(tuán)隊(duì)成員開展了一系列的消融實(shí)驗(yàn),逐個(gè)去掉了模型中的每個(gè)模塊,直到只剩下 GAE 的基座模型部分。他們很快發(fā)現(xiàn)當(dāng)去掉這些模塊,并沒有對(duì)性能造成較大沖擊,其表現(xiàn)仍然遠(yuǎn)遠(yuǎn)好于早期測(cè)得的 GAE 基線結(jié)果。這讓他們立刻意識(shí)到,很有可能 GAE 本身的表現(xiàn)是被大大低估的。后續(xù)實(shí)驗(yàn)很快證明他們的觀察是正確的:即僅僅通過基礎(chǔ)的模型架構(gòu)改進(jìn),比如線性卷積等技術(shù),以及最基本的參數(shù)調(diào)優(yōu),就能在部分?jǐn)?shù)據(jù)集上取得不錯(cuò)的結(jié)果,那怕和當(dāng)時(shí)最先進(jìn)的基線相比依然如此。通過仔細(xì)審閱代碼,他們確定沒有出現(xiàn)數(shù)據(jù)泄露這類問題,即不存在會(huì)導(dǎo)致表現(xiàn)虛高的問題,基于此他們覺得這個(gè)方向值得繼續(xù)挖掘。
為了探明 GAE 模型的全部潛能,馬唯碩大量閱讀了近期所有知名鏈路預(yù)測(cè)模型的源代碼,以便確定它們的流水線中存在對(duì)于鏈路預(yù)測(cè)任務(wù)最有利的部分,并將其融入了 GAE 基線的基本架構(gòu)中,同時(shí)設(shè)計(jì)了大規(guī)模實(shí)驗(yàn)方案來確定每一個(gè)優(yōu)化技術(shù)的最佳實(shí)踐。在針對(duì)每一個(gè)模塊進(jìn)行大規(guī)模實(shí)驗(yàn)研究與驗(yàn)證之后,他們逐漸總結(jié)出一套詳盡的優(yōu)化方案,并在該方案的指導(dǎo)之下做出了不錯(cuò)的結(jié)果。
當(dāng)然,僅有實(shí)驗(yàn)結(jié)果是遠(yuǎn)遠(yuǎn)不夠的,還需要從理論來進(jìn)行闡釋。實(shí)際上,人們之所以不信任 GAE 架構(gòu)的一個(gè)主要原因在于,它在理論上存在表達(dá)能力限制,簡(jiǎn)單來說它不能捕捉到那些對(duì)于連邊形成至關(guān)重要的結(jié)構(gòu)信息?!岸绻覀兊哪P湍軌虮憩F(xiàn)出非常優(yōu)秀的性能,那一定表明其通過某種方式突破了這個(gè)限制。”馬唯碩表示。
實(shí)際上,他和所在團(tuán)隊(duì)在很早就意識(shí)到這個(gè)原因。此前,已有論文指出正交噪聲可以用來估計(jì)公共鄰居信息,這對(duì)于鏈路預(yù)測(cè)十分重要。而將這個(gè)結(jié)論與 GAE 相結(jié)合,研究團(tuán)隊(duì)發(fā)現(xiàn)當(dāng) GAE 使用正交初始化的初始節(jié)點(diǎn)表征,輔以線性的卷積傳播和點(diǎn)積預(yù)測(cè),這些公共鄰居信息同樣能夠得以保留,而這是一個(gè)相當(dāng)強(qiáng)的結(jié)構(gòu)信號(hào)。這表明本次實(shí)驗(yàn)中展示出來的強(qiáng)大性能并非偶然。
研究推進(jìn)到這里其實(shí)已經(jīng)比較充分,但是他們最初并沒有打算將其作為正式會(huì)議論文進(jìn)行投稿,而是準(zhǔn)備制作一份研究報(bào)告。轉(zhuǎn)機(jī)在于該團(tuán)隊(duì)另一一篇中稿神經(jīng)信息處理系統(tǒng)大會(huì)(NeurIPS,Conference on Neural Information Processing Systems)的論文,讓本次成功在其他領(lǐng)域得到了驗(yàn)證。也讓類似 GAE 這樣既簡(jiǎn)單又強(qiáng)大的基礎(chǔ)模型得到了廣泛的認(rèn)可。這堅(jiān)定了他們的信心,讓他們更加清楚地意識(shí)到此次工作對(duì)于整個(gè)領(lǐng)域可能具有重要價(jià)值。
所以在導(dǎo)師和師兄的支持之下,馬唯碩決定將這一成果整理為論文并將其投稿到信息與知識(shí)管理國(guó)際會(huì)議(CIKM,Conference on Information and Knowledge Management)。在整個(gè)論文寫作過程中,他和所在團(tuán)隊(duì)系統(tǒng)性地匯總了一系列的實(shí)驗(yàn)結(jié)果,并陸續(xù)迭代了數(shù)次論文敘述方式,確保每一個(gè)細(xì)節(jié)都做到最好。
“而值得一提的是,上述那篇 NeurIPS 論文也成為了我們?cè)谶@篇論文寫作過程中的重要行文結(jié)構(gòu)參考。也很高興這篇論文被 CIKM 最終接收,并獲得了審稿人的良好反饋。”馬唯碩表示。
他認(rèn)為,扎實(shí)的基礎(chǔ)理解和冷靜的觀察視角必不可少。相對(duì)浮躁的研究思路可能會(huì)讓人們選擇追求復(fù)雜性的潮流,從而會(huì)在完善的架構(gòu)基礎(chǔ)上繼續(xù)增加復(fù)雜的設(shè)計(jì),而不去將更底層的機(jī)制理解透徹。這樣的方式很難做出真正的創(chuàng)新成果,也可能會(huì)錯(cuò)過基礎(chǔ)架構(gòu)中仍然存在的設(shè)計(jì)空間與優(yōu)化可能。
后續(xù),研究團(tuán)隊(duì)主要關(guān)注以下兩個(gè)方向:
首先,他們希望可以把本次論文拓展到動(dòng)態(tài)圖之中。在動(dòng)態(tài)圖場(chǎng)景中,圖是會(huì)持續(xù)變化的,這為圖學(xué)習(xí)提供了全新的挑戰(zhàn)。而由于它與工業(yè)場(chǎng)景比如推薦系統(tǒng)有著最緊密的結(jié)合,因此在近年來成為了最熱門的方向之一。因此,他們希望能夠研究基礎(chǔ)架構(gòu)在動(dòng)態(tài)圖設(shè)置下的潛能。
其次,他們計(jì)劃研究圖基礎(chǔ)模型。近年來,構(gòu)建一個(gè)單一的、強(qiáng)大而靈活的模型,以便處理不同圖上的不同下游任務(wù),是圖學(xué)習(xí)領(lǐng)域的一貫追求。研究團(tuán)隊(duì)希望可以利用本次論文提供的對(duì)于 GNN 優(yōu)化的一系列觀察,為圖基礎(chǔ)模型的設(shè)計(jì)提供更多啟發(fā)。
參考資料:
https://arxiv.org/pdf/2411.03845
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.