Next Gen
歡迎來到“Next Gen”。人工智能的邊界每日都在被拓展,一群富有遠(yuǎn)見卓識(shí)的青年學(xué)者正站在浪潮之巔。我們追蹤并報(bào)道這些 AI 領(lǐng)域最具潛力的明日之星,展現(xiàn)他們在科研前沿的突破性工作,以及對(duì)未來智能時(shí)代的獨(dú)到見解。他們是誰?他們?nèi)绾嗡伎??他們又將?AI 帶向何方?與我們一同發(fā)現(xiàn)那些正在定義未來的 AI 新生代。
在生成式AI 發(fā)展進(jìn)程中,效率瓶頸正逐漸成為技術(shù)落地的關(guān)鍵阻礙。以 ChatGPT 為例,當(dāng)面臨復(fù)雜對(duì)話任務(wù)、高并發(fā)訪問場景時(shí),響應(yīng)常出現(xiàn)秒級(jí)等待;而訓(xùn)練大型 AI 模型的能耗同樣驚人,部分規(guī)模堪比 GPT- 3 的模型,訓(xùn)練產(chǎn)生的碳排放甚至相當(dāng)于數(shù)百輛汽車的年排放量。這類效率與能耗問題,正從用戶體驗(yàn)、成本投入等維度,對(duì)生成式 AI 的廣泛落地形成現(xiàn)實(shí)制約。
孫鵬是西湖大學(xué)與浙江大學(xué)聯(lián)合培養(yǎng)博士生,他與所在團(tuán)隊(duì)的研究為解決上述問題提供了新的解決方案——其提出的 UCGM(Unified Continuous Generative Models)框架,讓 AI 模型生成速度提升數(shù)十倍,而 RDED(Realistic and Diverse Dataset Distillation)數(shù)據(jù)蒸餾技術(shù)則實(shí)現(xiàn)了“用 1% 數(shù)據(jù)達(dá)到 90% 效果”的突破。
從數(shù)據(jù)壓縮到生成式 AI,他的研究軌跡始終瞄準(zhǔn) AI 產(chǎn)業(yè)最迫切的痛點(diǎn),為 6G 通信、自動(dòng)駕駛等前沿領(lǐng)域劈開一條“高效 + 低耗”的技術(shù)路徑。
圖丨孫鵬(來源:孫鵬)
像“放大器”一樣提升模型訓(xùn)練效果
西湖大學(xué)與浙江大學(xué)團(tuán)隊(duì)合作,提出了一個(gè)統(tǒng)一的連續(xù)空間生成框架 UCGM,實(shí)現(xiàn)了模型統(tǒng)一的訓(xùn)練、采樣和理解。
孫鵬向 DeepTech 解釋道:“UCGM 框架的最大價(jià)值在于統(tǒng)一性,它將分散的算法和理論整合到一個(gè)完整的體系中,為我們提供了更宏觀的研究視角,這不僅有助于系統(tǒng)梳理現(xiàn)有算法,更為更為后續(xù)創(chuàng)新奠定了堅(jiān)實(shí)基礎(chǔ)。”
在對(duì)連續(xù)空間生成模型的傳統(tǒng)研究模式中,不同生成范式的算法和理論往往相互割裂,甚至不同研究者對(duì)于同一個(gè)生成范式的理論理解角度不同,進(jìn)一步導(dǎo)致可能采用個(gè)性化的算法框架和代碼實(shí)現(xiàn)習(xí)慣。
這種碎片化狀態(tài)使得后續(xù)研究者需要耗費(fèi)大量時(shí)間來學(xué)習(xí)各種生成范式和適應(yīng)不同實(shí)現(xiàn)方式,無形中增加了學(xué)習(xí)成本。而 UCGM 框架通過建立統(tǒng)一的理論,算法和代碼范式,顯著降低了這一隱性成本。
更重要的是,UCGM 框架的高層次理論視角還催生了創(chuàng)新的增強(qiáng)技術(shù)。這些技術(shù)如同“放大器”一般,可以無縫集成到統(tǒng)一框架中。
與傳統(tǒng)獨(dú)立框架下的增強(qiáng)技術(shù)不同,后者往往局限于特定場景,而 UCGM 的“大一統(tǒng)”特性使得新開發(fā)的增強(qiáng)技術(shù)能夠自然地推廣到既有框架中,實(shí)現(xiàn)技術(shù)成果的快速傳播和應(yīng)用。這種機(jī)制不僅提高了技術(shù)復(fù)用效率,還顯著提升了模型的訓(xùn)練效果,為生成式 AI 的性能優(yōu)化開辟了新路徑。
UCGM 框架包含兩個(gè)關(guān)鍵部分:UCGM-T(統(tǒng)一訓(xùn)練器)和 UCGM-S(統(tǒng)一采樣器),它的設(shè)計(jì)理念體現(xiàn)了雙重優(yōu)化目標(biāo):從用戶體驗(yàn)維度,它致力于減少生成延遲;從企業(yè)運(yùn)營維度,它著眼于降低計(jì)算資源消耗和能源成本。目前研究團(tuán)隊(duì)基于 0.675 億參數(shù)的中等規(guī)模模型驗(yàn)證了核心思想,研究重點(diǎn)集中在減少生成步驟(如將傳統(tǒng)需要的 100 步生成縮減至 1-2 步)的同時(shí),維持或提升生成質(zhì)量。
(來源:arXiv)
以 256×256 分辨率的 ImageNet 數(shù)據(jù)集為例,研究團(tuán)隊(duì)采用一個(gè)包含 0.675 億參數(shù)的擴(kuò)散變換器模型進(jìn)行驗(yàn)證:UCGM-T 訓(xùn)練的多步模型在 20 個(gè)采樣步驟下實(shí)現(xiàn)了 1.30 的 FID(Frechet Inception Distance)值,而其訓(xùn)練的少步模型僅需 2 個(gè)采樣步驟就能達(dá)到 1.42 的 FID。
更值得注意的是,當(dāng)將 UCGM-S 應(yīng)用于既有預(yù)訓(xùn)練模型時(shí),該技術(shù)在不增加任何計(jì)算成本的情況下,將模型的 FID 從原始 250 步采樣時(shí)的 1.26 顯著提升至僅需 40 步采樣時(shí)的 1.06。這些實(shí)驗(yàn)結(jié)果表明,UCGM 為高分辨率圖像生成這一計(jì)算密集型任務(wù)提供了高效的技術(shù)解決方案。
(來源:arXiv)
高分辨率圖像生成作為計(jì)算機(jī)視覺領(lǐng)域的公認(rèn)挑戰(zhàn),常被用作驗(yàn)證算法性能的基準(zhǔn)任務(wù),但 UCGM 的應(yīng)用潛力遠(yuǎn)不止于此。從理論層面看,該框架提出的核心思想具有普適性,其設(shè)計(jì)理念有望拓展到矢量圖生成,音頻和信號(hào)生成,乃至文本生成等多個(gè)領(lǐng)域。
該技術(shù)展現(xiàn)出直接應(yīng)用的潛力,以當(dāng)前工業(yè)界常見的文生圖模型為例,采用 UCGM 框架可以顯著提升圖像生成速度。更重要的是,作為基礎(chǔ)理論框架,UCGM 具有更廣泛的應(yīng)用前景——通過將支持的數(shù)據(jù)類型從圖像擴(kuò)展到文本等多個(gè)模態(tài)的數(shù)據(jù),該框架同樣可以加速多模態(tài)模型的生成效率。
日前,相關(guān)論文以《統(tǒng)一連續(xù)生成模型》(Unified Continuous Generative Models)為題發(fā)表在預(yù)印本網(wǎng)站arXiv[1]。孫鵬是第一作者,西湖大學(xué)林濤助理教授擔(dān)任通訊作者。
圖丨相關(guān)論文(來源:arXiv)
僅需 7 分鐘即可蒸餾出每類 10 張圖像的核心子集
在當(dāng)下“數(shù)據(jù)為王”的人工智能時(shí)代,高質(zhì)量數(shù)據(jù)是訓(xùn)練強(qiáng)大模型的基礎(chǔ),然而其收集、整理過程不僅成本高昂,還涉及用戶隱私問題,甚至可能需要付費(fèi)獲取,使得數(shù)據(jù)本身成為一種珍貴資源。
從模型訓(xùn)練的實(shí)際需求出發(fā),處理這些珍貴且規(guī)模龐大的數(shù)據(jù)集需要消耗巨大的算力成本。因此,數(shù)據(jù)集蒸餾(Dataset Distillation)應(yīng)運(yùn)而生,其能夠有效“輕量化”訓(xùn)練數(shù)據(jù)及大幅提升訓(xùn)練效率。
當(dāng)前,整個(gè)深度學(xué)習(xí)領(lǐng)域?qū)?shù)據(jù)的依賴日益加深,對(duì)高質(zhì)量、高效率數(shù)據(jù)的需求空前顯著?;仡櫚l(fā)展歷程,數(shù)據(jù)蒸餾在四五年前尚屬小眾研究方向,然而,隨著近兩年依賴海量數(shù)據(jù)訓(xùn)練的超大規(guī)模模型呈現(xiàn)井噴式發(fā)展,其核心價(jià)值才被真正廣泛認(rèn)知。當(dāng)巨量的高質(zhì)量數(shù)據(jù)成為各領(lǐng)域 AI 應(yīng)用的關(guān)鍵驅(qū)動(dòng)力時(shí),高效的數(shù)據(jù)集蒸餾技術(shù)變得越來越重要且極具推廣價(jià)值。
孫鵬在早期便敏銳地關(guān)注到數(shù)據(jù)集蒸餾的價(jià)值,但他同時(shí)發(fā)現(xiàn),當(dāng)時(shí)最先進(jìn)的方法存在一個(gè)顯著的悖論:壓縮數(shù)據(jù)集的初衷是減輕模型訓(xùn)練的代價(jià)(例如將原本需要 1 天的訓(xùn)練縮短至 4 小時(shí)),然而壓縮過程本身可能耗時(shí)冗長(例如長達(dá) 2 天),這極大地削弱了其實(shí)際應(yīng)用價(jià)值。
為了突破這一瓶頸,他及其所在團(tuán)隊(duì)提出了一種名為 RDED 的新型高效數(shù)據(jù)集蒸餾方法。RDED 的核心優(yōu)勢在于能夠在顯著提升計(jì)算效率的同時(shí),嚴(yán)格保持所蒸餾數(shù)據(jù)的多樣性和真實(shí)性。
其性能表現(xiàn)卓越:例如,在 ImageNet-1K 數(shù)據(jù)集上,RDED 僅需 7 分鐘即可蒸餾出每類 10 張圖像的核心子集,并在后續(xù)模型訓(xùn)練中達(dá)到 42% 的 Top-1 準(zhǔn)確率。這一結(jié)果不僅性能達(dá)到當(dāng)時(shí)最優(yōu)方法的 2 倍,其蒸餾速度更是提升高達(dá)的 52 倍。
孫鵬指出,這項(xiàng)研究是領(lǐng)域內(nèi)首篇真正實(shí)現(xiàn)“壓縮時(shí)間遠(yuǎn)小于訓(xùn)練時(shí)間”突破的論文。具體而言,假設(shè)原始數(shù)據(jù)集訓(xùn)練需要的時(shí)間為 a,RDED 完成壓縮數(shù)據(jù)集的時(shí)間為 b,隨后利用壓縮的數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)間為 c 就能達(dá)到與原始數(shù)據(jù)集訓(xùn)練相當(dāng)?shù)男阅埽覀兛梢杂?b+c 遠(yuǎn)小于 a,即使得“壓縮+訓(xùn)練”的總耗時(shí)顯著少于原始訓(xùn)練時(shí)間,從根本上解決了前述悖論。
(來源:CVPR)
盡管 RDED 展現(xiàn)出巨大潛力,其當(dāng)前的工業(yè)應(yīng)用仍需結(jié)合前文所述的 UCGM 框架來發(fā)揮最大效能。這主要是因?yàn)楣I(yè)場景所需的數(shù)據(jù)類型通常極其復(fù)雜且具有高度針對(duì)性,而傳統(tǒng)數(shù)據(jù)集蒸餾技術(shù)主要聚焦于分類等特定任務(wù),這與自動(dòng)駕駛等實(shí)際應(yīng)用中常見的多任務(wù)、場景化需求(如目標(biāo)識(shí)別、場景理解)存在較大差異,導(dǎo)致直接應(yīng)用面臨挑戰(zhàn)。
UCGM 框架為解決此問題提供了關(guān)鍵橋梁:例如,在自動(dòng)駕駛領(lǐng)域,可以首先利用 UCGM 強(qiáng)大的生成能力,高效地合成包含特定障礙物或罕見場景(如手持相機(jī)視角下疾駛而來的貨車)的高質(zhì)量目標(biāo)數(shù)據(jù)——這類數(shù)據(jù)在現(xiàn)實(shí)中極難獲取且收集成本或風(fēng)險(xiǎn)極高;隨后,再應(yīng)用 RDED 技術(shù)對(duì)這些針對(duì)性生成的合成數(shù)據(jù)集進(jìn)行高效壓縮和蒸餾。這種“生成-壓縮”的協(xié)同范式,有望為工業(yè)界提供持續(xù)、高質(zhì)量且高度定制化的數(shù)據(jù)流,更具實(shí)際應(yīng)用前景。
(來源:CVPR)
孫鵬指出,未來領(lǐng)域或?qū)⒚媾R一種新挑戰(zhàn):算力和算法持續(xù)進(jìn)步,速度越來越快,但真實(shí)有效的數(shù)據(jù)供給卻可能不足。究其根本,真正高質(zhì)量的訓(xùn)練數(shù)據(jù)源于人類活動(dòng)或真實(shí)世界,其產(chǎn)生的速度存在物理上限。自動(dòng)駕駛等領(lǐng)域難以收集的極端危險(xiǎn)場景數(shù)據(jù)(如高速碰撞前瞬間)正是這種稀缺性的典型例證,這類數(shù)據(jù)對(duì)于安全算法(如緊急避險(xiǎn))又至關(guān)重要。
此時(shí),結(jié)合 UCGM 框架按需生成高質(zhì)量、高保真的特定場景數(shù)據(jù),再通過 RDED 技術(shù)進(jìn)行高效蒸餾和壓縮,形成一套完整的解決方案,或能夠?yàn)楣I(yè)界持續(xù)輸送定制化的高質(zhì)量數(shù)據(jù),有效應(yīng)對(duì)未來可能出現(xiàn)的“數(shù)據(jù)荒”。
日前,相關(guān)論文以《論蒸餾數(shù)據(jù)集的多樣性與真實(shí)性:一種高效數(shù)據(jù)集蒸餾范式》(On the Diversity and Realism of Distilled Dataset:An Efficient Dataset Distillation Paradigm)為題發(fā)表在 CVPR 2024 會(huì)議 [2]。孫鵬是第一作者,西湖大學(xué)林濤助理教授擔(dān)任通訊作者。
圖丨相關(guān)論文(來源:CVPR)
致力于創(chuàng)造真正“有益于未來”的技術(shù)
孫鵬的研究方向經(jīng)歷了一個(gè)遷移的過程。在研究生涯早期,他聚焦于數(shù)據(jù)視角下的深度學(xué)習(xí)。然而,隨著研究的持續(xù)推進(jìn)和深入,孫鵬逐漸認(rèn)識(shí)到一個(gè)關(guān)鍵瓶頸:僅僅優(yōu)化數(shù)據(jù)壓縮技術(shù)是不夠的。
他洞察到,如果高質(zhì)量數(shù)據(jù)的產(chǎn)生長期且主要依賴人類活動(dòng),其生成速率必然存在根本性限制,未來極有可能遭遇數(shù)據(jù)供給短缺的挑戰(zhàn)。鑒于此,開發(fā)更高質(zhì)量、更高效率的生成模型,尤其是能夠產(chǎn)出超越人類數(shù)據(jù)質(zhì)量與效率的模型變得至關(guān)重要。
這一認(rèn)識(shí)促使他的研究重心開始向深層人工智能,特別是生成式 AI 領(lǐng)域進(jìn)行戰(zhàn)略性遷移。這一轉(zhuǎn)變也自然地塑造了他多元的研究風(fēng)格,形成了兩條并行的主線:一條延續(xù)其在高效數(shù)據(jù)技術(shù)(如數(shù)據(jù)蒸餾)上的深耕;另一條則積極開拓生成式 AI 模型(如 UCGM 框架)的創(chuàng)新疆域。
回溯孫鵬投身科研的初心,其核心驅(qū)動(dòng)力始終圍繞著解決實(shí)際需求:社會(huì)或人類究竟需要何種技術(shù)來推動(dòng)文明進(jìn)程?哪些技術(shù)能切實(shí)解決日常挑戰(zhàn),加速文明發(fā)展?正是基于這種以實(shí)際問題為導(dǎo)向的研究哲學(xué),他最初敏銳地將目光投向了數(shù)據(jù)效率等關(guān)鍵領(lǐng)域。
談及研究方向的重要轉(zhuǎn)變,孫鵬坦言:“多數(shù)研究者并不輕易改變深耕的領(lǐng)域,例如從數(shù)據(jù)壓縮轉(zhuǎn)向生成式 AI 研究意味著巨大的沉沒成本和學(xué)習(xí)投入,需要深入掌握前沿領(lǐng)域的全新知識(shí)體系。”
但于他而言,研究的價(jià)值在于創(chuàng)造真正有益于未來、人類和社會(huì)的技術(shù),只要方向符合這一目標(biāo),他都會(huì)堅(jiān)定地選擇嘗試。未來,孫鵬的研究視野不會(huì)局限于生成式 AI 領(lǐng)域,而是計(jì)劃探索人工智能的其他分支,甚至包括非深度學(xué)習(xí)的 AI 范式。但其目標(biāo)始終如一:探尋更具潛力、能對(duì)人類未來生活產(chǎn)生實(shí)質(zhì)性積極影響的技術(shù)場景,持續(xù)創(chuàng)造價(jià)值。
參考資料:
1.https://arxiv.org/abs/2505.07447
2.https://arxiv.org/abs/2312.03526
運(yùn)營/排版:何晨龍、劉雅坤
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.