香港大學(xué)團(tuán)隊讓機(jī)器具備人類式創(chuàng)作推理能力
至頂科技
這項由香港中文大學(xué)多媒體實(shí)驗室的方榮耀、香港大學(xué)的段承棋,以及商湯科技等多家機(jī)構(gòu)合作完成的突破性研究,于2025年3月發(fā)表在計算機(jī)視覺領(lǐng)域頂級會議上。研究團(tuán)隊開發(fā)了一種名為"生成思維鏈"(Generation Chain-of-Thought,簡稱GoT)的全新AI圖像生成和編輯方法,讓AI在創(chuàng)作圖像時能像人類一樣先思考、再動手。這項研究的完整論文可通過arXiv:2503.10639獲取,為AI創(chuàng)作領(lǐng)域帶來了革命性的進(jìn)展。
傳統(tǒng)的AI圖像生成就像一個只會照搬菜譜的廚師,你說要做紅燒肉,它就機(jī)械地按照固定流程操作,但如果你要求"把肉放在盤子左邊,旁邊配點(diǎn)綠色蔬菜,整體要溫馨一些",這種復(fù)雜的空間布局和情感表達(dá)就讓它手足無措了。而GoT方法就像給這個廚師裝上了一個會思考的大腦,讓它能夠理解你的需求,思考如何搭配,然后按照自己的理解去創(chuàng)作。
這種變化的意義遠(yuǎn)不止于技術(shù)層面的提升。當(dāng)AI能夠像人類一樣進(jìn)行推理和規(guī)劃時,它生成的圖像不再是簡單的像素堆砌,而是帶有邏輯和意圖的創(chuàng)作。更重要的是,用戶可以直接與AI的思考過程互動,就像和一個真正的設(shè)計師交流一樣,告訴它"把這個蘋果移到左邊一點(diǎn)"或者"把綠色改成紅色",AI會立即理解并執(zhí)行。
一、讓機(jī)器學(xué)會"想明白再動手"的創(chuàng)作哲學(xué)
傳統(tǒng)的圖像生成AI就像一個技藝高超但缺乏思考的畫匠。當(dāng)你給它一個描述,比如"一只貓坐在椅子上",它會直接開始作畫,但往往無法準(zhǔn)確把握物體之間的關(guān)系、空間位置,或者用戶的真實(shí)意圖。結(jié)果就是生成的圖像雖然看起來不錯,但經(jīng)常出現(xiàn)邏輯錯誤,比如貓懸浮在椅子上方,或者椅子比貓還小。
GoT方法的核心創(chuàng)新在于引入了"思考過程"。就像一個專業(yè)設(shè)計師接到委托后,會先在腦海中構(gòu)思整個畫面的布局,思考每個元素應(yīng)該放在哪里,它們之間的關(guān)系如何,然后才開始動筆。GoT讓AI也具備了這種能力,它會先生成一段詳細(xì)的"內(nèi)心獨(dú)白",描述即將創(chuàng)作的圖像中每個物體的特征、位置和相互關(guān)系。
這個思考過程不是抽象的,而是具體的、可見的。AI會明確說出"畫面中央有一只橙色的貓(坐標(biāo)位置194,80到763,925),它坐在一張棕色的木椅上(坐標(biāo)位置50,200到400,800),貓的尾巴自然下垂,椅子的靠背在貓的身后"。這種精確的描述不僅幫助AI生成更準(zhǔn)確的圖像,也讓用戶能夠理解AI的創(chuàng)作思路。
更令人興奮的是,這種思考過程是可以修改的。如果用戶覺得貓的位置不合適,可以直接修改坐標(biāo),或者將"橙色的貓"改為"白色的貓",AI會立即根據(jù)修改后的思考過程重新生成圖像。這就像你可以直接修改設(shè)計師的草圖和構(gòu)思,然后看到最終作品的即時變化。
二、構(gòu)建史上最大規(guī)模的"AI思考訓(xùn)練營"
要讓AI學(xué)會思考,首先需要給它提供大量的"思考樣本"。這就像教一個孩子寫作文,你需要先給他看很多優(yōu)秀作文的例子,讓他了解什么是好的構(gòu)思和表達(dá)。研究團(tuán)隊面臨的挑戰(zhàn)是:世界上并不存在現(xiàn)成的"AI圖像生成思考過程"數(shù)據(jù)庫,他們必須從零開始創(chuàng)建。
這個過程就像建造一座前所未有的圖書館。研究團(tuán)隊動用了100塊NVIDIA A100顯卡,連續(xù)工作一個多月,處理了超過900萬個圖像樣本。他們使用了最先進(jìn)的多模態(tài)大語言模型Qwen2-VL和Qwen2.5,為每張圖像生成詳細(xì)的思考過程描述。
這個"思考訓(xùn)練營"的規(guī)模是驚人的。在文本到圖像生成方面,他們處理了840萬張圖像,這些圖像來自Laion-Aesthetics高分辨率數(shù)據(jù)集、JourneyDB數(shù)據(jù)集,以及使用FLUX模型生成的60萬張高質(zhì)量圖像。每張圖像都配有詳細(xì)的思考描述,平均每個思考過程包含超過800個字符的詳細(xì)分析,并標(biāo)注了平均4個物體的精確坐標(biāo)位置。
在圖像編輯方面,他們構(gòu)建了92萬個編輯樣例,覆蓋了從簡單的顏色修改到復(fù)雜的多步驟編輯的各種場景。這些樣例不僅包括單次編輯,還包括需要多個步驟完成的復(fù)雜編輯任務(wù),比如"先把紅色外套改成綠色,然后移除右邊的鳥群,最后添加森林背景,并在左側(cè)放置一輛汽車"。
構(gòu)建這個數(shù)據(jù)集的過程充滿了技術(shù)挑戰(zhàn)。研究團(tuán)隊需要確保每個思考過程既準(zhǔn)確描述了圖像內(nèi)容,又包含了合理的空間推理。他們設(shè)計了復(fù)雜的標(biāo)注流水線,使用多個AI模型協(xié)作完成不同的任務(wù):有的負(fù)責(zé)生成詳細(xì)描述,有的負(fù)責(zé)識別物體,有的負(fù)責(zé)確定精確位置,最后將這些信息整合成完整的思考鏈條。
三、打造會思考的圖像生成"大腦"
有了豐富的訓(xùn)練數(shù)據(jù),下一步就是設(shè)計一個能夠利用這些思考過程的AI系統(tǒng)。這就像給一個畫家裝上一個會分析和規(guī)劃的大腦,讓他能夠?qū)?fù)雜的想法轉(zhuǎn)化為具體的畫作。
GoT框架的核心架構(gòu)包含兩個相互協(xié)作的部分:一個負(fù)責(zé)思考的"策劃大腦"和一個負(fù)責(zé)創(chuàng)作的"執(zhí)行之手"。策劃大腦使用先進(jìn)的多模態(tài)大語言模型Qwen2.5-VL-3B,它能夠理解用戶的需求,分析圖像內(nèi)容,并生成詳細(xì)的創(chuàng)作計劃。執(zhí)行之手則基于穩(wěn)定擴(kuò)散模型SDXL,根據(jù)策劃大腦的指導(dǎo)生成最終的圖像。
最具創(chuàng)新性的是研究團(tuán)隊開發(fā)的"語義-空間引導(dǎo)模塊"(SSGM),這個模塊就像一個精密的翻譯器,能夠?qū)⒉邉澊竽X的抽象思考轉(zhuǎn)化為執(zhí)行之手能夠理解的具體指令。傳統(tǒng)的圖像生成模型只能接受簡單的文本描述,但SSGM能夠同時處理三種不同類型的信息:語義信息(描述物體的特征和關(guān)系)、空間信息(精確的位置坐標(biāo))、以及參考信息(用于圖像編輯時的原始圖像)。
這種三重引導(dǎo)機(jī)制就像一個經(jīng)驗豐富的導(dǎo)演同時給演員提供劇本、走位圖和參考視頻。語義引導(dǎo)告訴AI"這里應(yīng)該有一只貓",空間引導(dǎo)告訴它"貓應(yīng)該在畫面的這個位置",參考引導(dǎo)(在編輯任務(wù)中)告訴它"要保持與原圖的連貫性"。
訓(xùn)練過程采用了端到端的方法,這意味著策劃大腦和執(zhí)行之手是一起學(xué)習(xí)的,它們會相互調(diào)整,直到達(dá)到最佳的配合效果。研究團(tuán)隊使用了低秩適應(yīng)(LoRA)技術(shù)來高效地微調(diào)模型參數(shù),這種方法既保證了訓(xùn)練效果,又大大降低了計算成本。整個訓(xùn)練過程分為兩個階段:預(yù)訓(xùn)練階段使用大規(guī)模數(shù)據(jù)集訓(xùn)練60000步,精調(diào)階段使用高質(zhì)量數(shù)據(jù)集訓(xùn)練10000步。
四、三大應(yīng)用場景展現(xiàn)無限潛力
GoT框架的強(qiáng)大之處在于它能夠統(tǒng)一處理多種不同的圖像生成和編輯任務(wù),就像一個多才多藝的藝術(shù)家,既能創(chuàng)作全新的作品,又能修改現(xiàn)有的畫作,還能與客戶實(shí)時互動調(diào)整方案。
在文本到圖像生成方面,GoT展現(xiàn)出了前所未有的精確控制能力。當(dāng)用戶輸入"一個現(xiàn)代客廳,帶有一點(diǎn)復(fù)古風(fēng)格,包括白色家具、吊燈,以及鏡子和花環(huán)等裝飾元素"這樣的復(fù)雜描述時,傳統(tǒng)模型往往只能生成一個大概符合描述的圖像,但物體位置和相互關(guān)系可能存在問題。而GoT會先生成詳細(xì)的思考過程:"圖像展示了一個精心布置的客廳(坐標(biāo)0,0到998,998),大型華麗的吊燈位于(372,0到613,254),墻上裝飾著帶框鏡子(157,251到285,519),白色沙發(fā)位于(0,572到421,998)",然后根據(jù)這個精確的規(guī)劃生成圖像。
最令人印象深刻的是交互式生成功能。用戶可以直接修改GoT的思考過程來調(diào)整圖像。比如,如果生成的圖像中有"一個灰色背包(194,80到763,925)和一個綠色蘋果(633,684到836,928)",用戶可以直接將描述中的"綠色"改為"紅色",并調(diào)整蘋果的位置坐標(biāo)到(133,684到336,928),AI會立即生成更新后的圖像。這種交互方式比傳統(tǒng)的重新輸入提示詞要直觀和精確得多。
在圖像編輯方面,GoT能夠處理從簡單的顏色修改到復(fù)雜的物體替換等各種任務(wù)。比如面對"將巨大的葉子替換為雨傘"這樣的編輯要求,GoT會生成結(jié)構(gòu)化的編輯計劃:"源圖像顯示了一個場景,被編輯的物體是巨大的葉子,區(qū)域位于(204,0到916,258),編輯后的圖像將顯示一個人舉著深藍(lán)色雨傘"。這種結(jié)構(gòu)化的編輯過程確保了修改的準(zhǔn)確性和合理性。
更復(fù)雜的多步驟編輯也難不倒GoT。當(dāng)用戶要求"將中間的紅外套改為淺綠色,移除右邊的鳥群,添加森林背景,并在左側(cè)放置一輛汽車"時,GoT會將這個復(fù)雜任務(wù)分解為多個步驟,每個步驟都有明確的目標(biāo)和執(zhí)行方案,確保最終結(jié)果既滿足所有要求,又保持畫面的協(xié)調(diào)統(tǒng)一。
五、實(shí)驗驗證:全面超越現(xiàn)有技術(shù)
為了驗證GoT框架的效果,研究團(tuán)隊在多個標(biāo)準(zhǔn)測試基準(zhǔn)上進(jìn)行了全面的實(shí)驗評估,結(jié)果顯示GoT在各項指標(biāo)上都取得了顯著的提升。
在文本到圖像生成的評估中,研究團(tuán)隊使用了GenEval基準(zhǔn)測試,這是一個專門用于評估圖像生成模型理解和表現(xiàn)復(fù)雜場景能力的測試集。GoT框架獲得了0.64的總體得分,超過了所有對比方法。更令人印象深刻的是,在單個物體生成任務(wù)中,GoT獲得了0.99的近乎完美得分,在計數(shù)任務(wù)(需要生成指定數(shù)量的物體)中獲得了0.67的得分,在顏色控制任務(wù)中獲得了0.85的得分。
這些數(shù)字背后反映的是GoT框架在理解和執(zhí)行復(fù)雜指令方面的優(yōu)勢。比如當(dāng)測試要求生成"兩只紅色的鳥和三個藍(lán)色的球"時,傳統(tǒng)模型經(jīng)常會在數(shù)量或顏色上出錯,而GoT由于有了明確的思考過程,能夠準(zhǔn)確地規(guī)劃每個物體的特征和數(shù)量。
在圖像編輯方面,GoT在多個基準(zhǔn)測試中都表現(xiàn)出色。在Emu-Edit基準(zhǔn)測試中,GoT在CLIP-I指標(biāo)上獲得了0.864的得分,在CLIP-T指標(biāo)上獲得了0.276的得分,均為最高分。在ImagenHub測試中,GoT獲得了0.533的GPT-4o評估得分,這個指標(biāo)更接近人類的評判標(biāo)準(zhǔn)。特別值得注意的是,在需要復(fù)雜推理的Reason-Edit基準(zhǔn)測試中,GoT獲得了0.561的得分,僅次于專門為推理編輯設(shè)計的SmartEdit方法。
研究團(tuán)隊還進(jìn)行了詳細(xì)的消融實(shí)驗,分析了GoT框架中各個組件的貢獻(xiàn)。實(shí)驗顯示,思考鏈(GoT)本身就能帶來顯著的性能提升,從基線的0.38提升到0.40。加入語義-空間引導(dǎo)模塊(SSGM)后,性能進(jìn)一步提升到0.42。而完整的GoT框架(包括大規(guī)模預(yù)訓(xùn)練)最終達(dá)到了0.64的得分,證明了每個組件都是必要的。
六、技術(shù)創(chuàng)新的深層意義
GoT框架的意義遠(yuǎn)超技術(shù)層面的改進(jìn),它代表了AI創(chuàng)作領(lǐng)域的一個重要轉(zhuǎn)折點(diǎn):從盲目的模式匹配轉(zhuǎn)向有意識的推理創(chuàng)作。
傳統(tǒng)的圖像生成AI就像一個擁有完美技巧但缺乏理解能力的機(jī)器。它能夠生成看起來很棒的圖像,但無法真正理解用戶的意圖,也無法解釋自己的創(chuàng)作過程。這就導(dǎo)致了一個根本性問題:用戶很難精確控制生成結(jié)果,當(dāng)結(jié)果不滿意時,只能不斷嘗試不同的提示詞,希望碰運(yùn)氣得到想要的效果。
GoT框架通過引入顯式推理過程,根本性地改變了這種狀況?,F(xiàn)在,AI不僅能夠生成圖像,還能告訴你它為什么這樣生成,每個決策的依據(jù)是什么。更重要的是,用戶可以直接與AI的思考過程互動,就像與一個真正的設(shè)計師合作一樣。
這種變化帶來了幾個重要的優(yōu)勢。首先是可控性的大幅提升。用戶不再需要猜測AI的想法,而是可以直接看到并修改AI的創(chuàng)作計劃。其次是可解釋性的增強(qiáng)。當(dāng)生成結(jié)果有問題時,用戶可以通過查看思考過程找到問題所在,并進(jìn)行針對性的修改。最后是交互效率的提高。用戶可以通過修改思考過程實(shí)現(xiàn)精確的局部調(diào)整,而不需要重新生成整個圖像。
從更宏觀的角度來看,GoT框架為AI創(chuàng)作工具的發(fā)展指明了方向。未來的AI助手不應(yīng)該是一個黑盒子,而應(yīng)該是一個透明的、可交互的創(chuàng)作伙伴。它們需要能夠解釋自己的決策,接受用戶的指導(dǎo),并在創(chuàng)作過程中展現(xiàn)出類似人類的推理能力。
七、面向未來的技術(shù)展望
GoT框架的成功開啟了許多令人興奮的研究方向和應(yīng)用可能性。
在技術(shù)發(fā)展方面,這種"思考再創(chuàng)作"的模式可以擴(kuò)展到更多的創(chuàng)作領(lǐng)域。比如在視頻生成中,AI可以先規(guī)劃整個故事情節(jié)和鏡頭安排,再逐幀生成視頻內(nèi)容。在3D模型生成中,AI可以先分析物體的結(jié)構(gòu)和功能,再構(gòu)建精確的三維幾何形狀。在音樂創(chuàng)作中,AI可以先分析情感表達(dá)和結(jié)構(gòu)安排,再生成具體的旋律和和聲。
在實(shí)際應(yīng)用方面,GoT框架為創(chuàng)意產(chǎn)業(yè)帶來了新的可能性。設(shè)計師可以使用這種工具快速探索不同的設(shè)計方案,通過修改思考過程來實(shí)現(xiàn)精確的調(diào)整。廣告公司可以用它來生成個性化的營銷素材,針對不同的目標(biāo)群體調(diào)整畫面元素和布局。教育領(lǐng)域可以利用這種技術(shù)生成定制化的教學(xué)圖像,幫助學(xué)生更好地理解抽象概念。
更廣泛地說,GoT框架代表了AI發(fā)展的一個重要趨勢:從單純的模式識別和生成,向具備推理和規(guī)劃能力的智能系統(tǒng)轉(zhuǎn)變。這種轉(zhuǎn)變不僅提高了AI系統(tǒng)的性能,更重要的是增強(qiáng)了人機(jī)協(xié)作的可能性。當(dāng)AI能夠解釋自己的思考過程時,人類就能更好地理解和指導(dǎo)AI的行為,實(shí)現(xiàn)真正意義上的智能合作。
當(dāng)然,這項技術(shù)也面臨一些挑戰(zhàn)和限制。生成詳細(xì)的思考過程需要額外的計算資源,這可能會影響系統(tǒng)的響應(yīng)速度。如何在保持推理質(zhì)量的同時提高效率,是一個需要繼續(xù)研究的問題。此外,如何確保AI生成的思考過程既準(zhǔn)確又易于用戶理解,也是一個值得深入探討的話題。
說到底,GoT框架的最大價值在于它向我們展示了AI創(chuàng)作的未來方向:不是替代人類創(chuàng)作者,而是成為更智能、更透明、更易于協(xié)作的創(chuàng)作伙伴。當(dāng)AI能夠像人類一樣思考和推理時,人機(jī)協(xié)作將達(dá)到一個全新的水平,創(chuàng)意工作將變得更加高效和有趣。這項研究不僅推動了技術(shù)的進(jìn)步,更重要的是為我們描繪了一個AI與人類和諧共創(chuàng)的美好未來。對于想要深入了解這項突破性研究的讀者,可以通過論文arXiv:2503.10639獲取完整的技術(shù)細(xì)節(jié)和實(shí)驗數(shù)據(jù)。
Q&A
Q1:GoT方法和傳統(tǒng)AI畫畫有什么區(qū)別? A:傳統(tǒng)AI就像一個只會照搬的畫匠,你說畫貓它就直接畫,但經(jīng)常畫錯位置。GoT就像給AI裝了個會思考的大腦,它會先想"貓應(yīng)該坐在哪里、什么顏色、多大尺寸",然后再動筆畫,結(jié)果更準(zhǔn)確,而且你還能看到它的思考過程并直接修改。
Q2:普通人能用GoT來生成圖片嗎?操作會不會很復(fù)雜? A:目前GoT還是研究階段的技術(shù),不過研究團(tuán)隊已經(jīng)公開了代碼和模型。操作其實(shí)不復(fù)雜,你可以像平常一樣輸入文字描述,然后看到AI的"內(nèi)心獨(dú)白",如果不滿意可以直接修改這個思考過程,比如把"紅蘋果"改成"綠蘋果"或者調(diào)整位置坐標(biāo)。
Q3:GoT生成的圖片質(zhì)量怎么樣?比其他AI工具好在哪里? A:GoT在各項測試中都取得了最好成績,特別是在復(fù)雜場景生成方面。它最大的優(yōu)勢是精確控制,比如你要求畫"兩只紅鳥三個藍(lán)球",傳統(tǒng)AI經(jīng)常搞錯數(shù)量或顏色,但GoT因為有明確的思考過程,基本都能準(zhǔn)確執(zhí)行。而且你可以精確調(diào)整任何細(xì)節(jié),不用重新生成整張圖。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.