香港大學(xué)團(tuán)隊讓機(jī)器具備人類式創(chuàng)作推理能力

2025-08-01 01:10:16　來源: 至頂頭條

北京舉報

分享至

至頂科技

這項由香港中文大學(xué)多媒體實(shí)驗室的方榮耀、香港大學(xué)的段承棋，以及商湯科技等多家機(jī)構(gòu)合作完成的突破性研究，于2025年3月發(fā)表在計算機(jī)視覺領(lǐng)域頂級會議上。研究團(tuán)隊開發(fā)了一種名為"生成思維鏈"（Generation Chain-of-Thought，簡稱GoT）的全新AI圖像生成和編輯方法，讓AI在創(chuàng)作圖像時能像人類一樣先思考、再動手。這項研究的完整論文可通過arXiv:2503.10639獲取，為AI創(chuàng)作領(lǐng)域帶來了革命性的進(jìn)展。

傳統(tǒng)的AI圖像生成就像一個只會照搬菜譜的廚師，你說要做紅燒肉，它就機(jī)械地按照固定流程操作，但如果你要求"把肉放在盤子左邊，旁邊配點(diǎn)綠色蔬菜，整體要溫馨一些"，這種復(fù)雜的空間布局和情感表達(dá)就讓它手足無措了。而GoT方法就像給這個廚師裝上了一個會思考的大腦，讓它能夠理解你的需求，思考如何搭配，然后按照自己的理解去創(chuàng)作。

這種變化的意義遠(yuǎn)不止于技術(shù)層面的提升。當(dāng)AI能夠像人類一樣進(jìn)行推理和規(guī)劃時，它生成的圖像不再是簡單的像素堆砌，而是帶有邏輯和意圖的創(chuàng)作。更重要的是，用戶可以直接與AI的思考過程互動，就像和一個真正的設(shè)計師交流一樣，告訴它"把這個蘋果移到左邊一點(diǎn)"或者"把綠色改成紅色"，AI會立即理解并執(zhí)行。

一、讓機(jī)器學(xué)會"想明白再動手"的創(chuàng)作哲學(xué)

傳統(tǒng)的圖像生成AI就像一個技藝高超但缺乏思考的畫匠。當(dāng)你給它一個描述，比如"一只貓坐在椅子上"，它會直接開始作畫，但往往無法準(zhǔn)確把握物體之間的關(guān)系、空間位置，或者用戶的真實(shí)意圖。結(jié)果就是生成的圖像雖然看起來不錯，但經(jīng)常出現(xiàn)邏輯錯誤，比如貓懸浮在椅子上方，或者椅子比貓還小。

GoT方法的核心創(chuàng)新在于引入了"思考過程"。就像一個專業(yè)設(shè)計師接到委托后，會先在腦海中構(gòu)思整個畫面的布局，思考每個元素應(yīng)該放在哪里，它們之間的關(guān)系如何，然后才開始動筆。GoT讓AI也具備了這種能力，它會先生成一段詳細(xì)的"內(nèi)心獨(dú)白"，描述即將創(chuàng)作的圖像中每個物體的特征、位置和相互關(guān)系。

這個思考過程不是抽象的，而是具體的、可見的。AI會明確說出"畫面中央有一只橙色的貓（坐標(biāo)位置194,80到763,925），它坐在一張棕色的木椅上（坐標(biāo)位置50,200到400,800），貓的尾巴自然下垂，椅子的靠背在貓的身后"。這種精確的描述不僅幫助AI生成更準(zhǔn)確的圖像，也讓用戶能夠理解AI的創(chuàng)作思路。

更令人興奮的是，這種思考過程是可以修改的。如果用戶覺得貓的位置不合適，可以直接修改坐標(biāo)，或者將"橙色的貓"改為"白色的貓"，AI會立即根據(jù)修改后的思考過程重新生成圖像。這就像你可以直接修改設(shè)計師的草圖和構(gòu)思，然后看到最終作品的即時變化。

二、構(gòu)建史上最大規(guī)模的"AI思考訓(xùn)練營"

要讓AI學(xué)會思考，首先需要給它提供大量的"思考樣本"。這就像教一個孩子寫作文，你需要先給他看很多優(yōu)秀作文的例子，讓他了解什么是好的構(gòu)思和表達(dá)。研究團(tuán)隊面臨的挑戰(zhàn)是：世界上并不存在現(xiàn)成的"AI圖像生成思考過程"數(shù)據(jù)庫，他們必須從零開始創(chuàng)建。

這個過程就像建造一座前所未有的圖書館。研究團(tuán)隊動用了100塊NVIDIA A100顯卡，連續(xù)工作一個多月，處理了超過900萬個圖像樣本。他們使用了最先進(jìn)的多模態(tài)大語言模型Qwen2-VL和Qwen2.5，為每張圖像生成詳細(xì)的思考過程描述。

這個"思考訓(xùn)練營"的規(guī)模是驚人的。在文本到圖像生成方面，他們處理了840萬張圖像，這些圖像來自Laion-Aesthetics高分辨率數(shù)據(jù)集、JourneyDB數(shù)據(jù)集，以及使用FLUX模型生成的60萬張高質(zhì)量圖像。每張圖像都配有詳細(xì)的思考描述，平均每個思考過程包含超過800個字符的詳細(xì)分析，并標(biāo)注了平均4個物體的精確坐標(biāo)位置。

在圖像編輯方面，他們構(gòu)建了92萬個編輯樣例，覆蓋了從簡單的顏色修改到復(fù)雜的多步驟編輯的各種場景。這些樣例不僅包括單次編輯，還包括需要多個步驟完成的復(fù)雜編輯任務(wù)，比如"先把紅色外套改成綠色，然后移除右邊的鳥群，最后添加森林背景，并在左側(cè)放置一輛汽車"。

構(gòu)建這個數(shù)據(jù)集的過程充滿了技術(shù)挑戰(zhàn)。研究團(tuán)隊需要確保每個思考過程既準(zhǔn)確描述了圖像內(nèi)容，又包含了合理的空間推理。他們設(shè)計了復(fù)雜的標(biāo)注流水線，使用多個AI模型協(xié)作完成不同的任務(wù)：有的負(fù)責(zé)生成詳細(xì)描述，有的負(fù)責(zé)識別物體，有的負(fù)責(zé)確定精確位置，最后將這些信息整合成完整的思考鏈條。

三、打造會思考的圖像生成"大腦"

有了豐富的訓(xùn)練數(shù)據(jù)，下一步就是設(shè)計一個能夠利用這些思考過程的AI系統(tǒng)。這就像給一個畫家裝上一個會分析和規(guī)劃的大腦，讓他能夠?qū)?fù)雜的想法轉(zhuǎn)化為具體的畫作。

GoT框架的核心架構(gòu)包含兩個相互協(xié)作的部分：一個負(fù)責(zé)思考的"策劃大腦"和一個負(fù)責(zé)創(chuàng)作的"執(zhí)行之手"。策劃大腦使用先進(jìn)的多模態(tài)大語言模型Qwen2.5-VL-3B，它能夠理解用戶的需求，分析圖像內(nèi)容，并生成詳細(xì)的創(chuàng)作計劃。執(zhí)行之手則基于穩(wěn)定擴(kuò)散模型SDXL，根據(jù)策劃大腦的指導(dǎo)生成最終的圖像。

最具創(chuàng)新性的是研究團(tuán)隊開發(fā)的"語義-空間引導(dǎo)模塊"（SSGM），這個模塊就像一個精密的翻譯器，能夠?qū)⒉邉澊竽X的抽象思考轉(zhuǎn)化為執(zhí)行之手能夠理解的具體指令。傳統(tǒng)的圖像生成模型只能接受簡單的文本描述，但SSGM能夠同時處理三種不同類型的信息：語義信息（描述物體的特征和關(guān)系）、空間信息（精確的位置坐標(biāo)）、以及參考信息（用于圖像編輯時的原始圖像）。

這種三重引導(dǎo)機(jī)制就像一個經(jīng)驗豐富的導(dǎo)演同時給演員提供劇本、走位圖和參考視頻。語義引導(dǎo)告訴AI"這里應(yīng)該有一只貓"，空間引導(dǎo)告訴它"貓應(yīng)該在畫面的這個位置"，參考引導(dǎo)（在編輯任務(wù)中）告訴它"要保持與原圖的連貫性"。

訓(xùn)練過程采用了端到端的方法，這意味著策劃大腦和執(zhí)行之手是一起學(xué)習(xí)的，它們會相互調(diào)整，直到達(dá)到最佳的配合效果。研究團(tuán)隊使用了低秩適應(yīng)（LoRA）技術(shù)來高效地微調(diào)模型參數(shù)，這種方法既保證了訓(xùn)練效果，又大大降低了計算成本。整個訓(xùn)練過程分為兩個階段：預(yù)訓(xùn)練階段使用大規(guī)模數(shù)據(jù)集訓(xùn)練60000步，精調(diào)階段使用高質(zhì)量數(shù)據(jù)集訓(xùn)練10000步。

四、三大應(yīng)用場景展現(xiàn)無限潛力

GoT框架的強(qiáng)大之處在于它能夠統(tǒng)一處理多種不同的圖像生成和編輯任務(wù)，就像一個多才多藝的藝術(shù)家，既能創(chuàng)作全新的作品，又能修改現(xiàn)有的畫作，還能與客戶實(shí)時互動調(diào)整方案。

在文本到圖像生成方面，GoT展現(xiàn)出了前所未有的精確控制能力。當(dāng)用戶輸入"一個現(xiàn)代客廳，帶有一點(diǎn)復(fù)古風(fēng)格，包括白色家具、吊燈，以及鏡子和花環(huán)等裝飾元素"這樣的復(fù)雜描述時，傳統(tǒng)模型往往只能生成一個大概符合描述的圖像，但物體位置和相互關(guān)系可能存在問題。而GoT會先生成詳細(xì)的思考過程："圖像展示了一個精心布置的客廳（坐標(biāo)0,0到998,998），大型華麗的吊燈位于（372,0到613,254），墻上裝飾著帶框鏡子（157,251到285,519），白色沙發(fā)位于（0,572到421,998）"，然后根據(jù)這個精確的規(guī)劃生成圖像。

最令人印象深刻的是交互式生成功能。用戶可以直接修改GoT的思考過程來調(diào)整圖像。比如，如果生成的圖像中有"一個灰色背包（194,80到763,925）和一個綠色蘋果（633,684到836,928）"，用戶可以直接將描述中的"綠色"改為"紅色"，并調(diào)整蘋果的位置坐標(biāo)到（133,684到336,928），AI會立即生成更新后的圖像。這種交互方式比傳統(tǒng)的重新輸入提示詞要直觀和精確得多。

在圖像編輯方面，GoT能夠處理從簡單的顏色修改到復(fù)雜的物體替換等各種任務(wù)。比如面對"將巨大的葉子替換為雨傘"這樣的編輯要求，GoT會生成結(jié)構(gòu)化的編輯計劃："源圖像顯示了一個場景，被編輯的物體是巨大的葉子，區(qū)域位于（204,0到916,258），編輯后的圖像將顯示一個人舉著深藍(lán)色雨傘"。這種結(jié)構(gòu)化的編輯過程確保了修改的準(zhǔn)確性和合理性。

更復(fù)雜的多步驟編輯也難不倒GoT。當(dāng)用戶要求"將中間的紅外套改為淺綠色，移除右邊的鳥群，添加森林背景，并在左側(cè)放置一輛汽車"時，GoT會將這個復(fù)雜任務(wù)分解為多個步驟，每個步驟都有明確的目標(biāo)和執(zhí)行方案，確保最終結(jié)果既滿足所有要求，又保持畫面的協(xié)調(diào)統(tǒng)一。

五、實(shí)驗驗證：全面超越現(xiàn)有技術(shù)

為了驗證GoT框架的效果，研究團(tuán)隊在多個標(biāo)準(zhǔn)測試基準(zhǔn)上進(jìn)行了全面的實(shí)驗評估，結(jié)果顯示GoT在各項指標(biāo)上都取得了顯著的提升。

在文本到圖像生成的評估中，研究團(tuán)隊使用了GenEval基準(zhǔn)測試，這是一個專門用于評估圖像生成模型理解和表現(xiàn)復(fù)雜場景能力的測試集。GoT框架獲得了0.64的總體得分，超過了所有對比方法。更令人印象深刻的是，在單個物體生成任務(wù)中，GoT獲得了0.99的近乎完美得分，在計數(shù)任務(wù)（需要生成指定數(shù)量的物體）中獲得了0.67的得分，在顏色控制任務(wù)中獲得了0.85的得分。

這些數(shù)字背后反映的是GoT框架在理解和執(zhí)行復(fù)雜指令方面的優(yōu)勢。比如當(dāng)測試要求生成"兩只紅色的鳥和三個藍(lán)色的球"時，傳統(tǒng)模型經(jīng)常會在數(shù)量或顏色上出錯，而GoT由于有了明確的思考過程，能夠準(zhǔn)確地規(guī)劃每個物體的特征和數(shù)量。

在圖像編輯方面，GoT在多個基準(zhǔn)測試中都表現(xiàn)出色。在Emu-Edit基準(zhǔn)測試中，GoT在CLIP-I指標(biāo)上獲得了0.864的得分，在CLIP-T指標(biāo)上獲得了0.276的得分，均為最高分。在ImagenHub測試中，GoT獲得了0.533的GPT-4o評估得分，這個指標(biāo)更接近人類的評判標(biāo)準(zhǔn)。特別值得注意的是，在需要復(fù)雜推理的Reason-Edit基準(zhǔn)測試中，GoT獲得了0.561的得分，僅次于專門為推理編輯設(shè)計的SmartEdit方法。

研究團(tuán)隊還進(jìn)行了詳細(xì)的消融實(shí)驗，分析了GoT框架中各個組件的貢獻(xiàn)。實(shí)驗顯示，思考鏈（GoT）本身就能帶來顯著的性能提升，從基線的0.38提升到0.40。加入語義-空間引導(dǎo)模塊（SSGM）后，性能進(jìn)一步提升到0.42。而完整的GoT框架（包括大規(guī)模預(yù)訓(xùn)練）最終達(dá)到了0.64的得分，證明了每個組件都是必要的。

六、技術(shù)創(chuàng)新的深層意義

GoT框架的意義遠(yuǎn)超技術(shù)層面的改進(jìn)，它代表了AI創(chuàng)作領(lǐng)域的一個重要轉(zhuǎn)折點(diǎn)：從盲目的模式匹配轉(zhuǎn)向有意識的推理創(chuàng)作。

傳統(tǒng)的圖像生成AI就像一個擁有完美技巧但缺乏理解能力的機(jī)器。它能夠生成看起來很棒的圖像，但無法真正理解用戶的意圖，也無法解釋自己的創(chuàng)作過程。這就導(dǎo)致了一個根本性問題：用戶很難精確控制生成結(jié)果，當(dāng)結(jié)果不滿意時，只能不斷嘗試不同的提示詞，希望碰運(yùn)氣得到想要的效果。

GoT框架通過引入顯式推理過程，根本性地改變了這種狀況?，F(xiàn)在，AI不僅能夠生成圖像，還能告訴你它為什么這樣生成，每個決策的依據(jù)是什么。更重要的是，用戶可以直接與AI的思考過程互動，就像與一個真正的設(shè)計師合作一樣。

這種變化帶來了幾個重要的優(yōu)勢。首先是可控性的大幅提升。用戶不再需要猜測AI的想法，而是可以直接看到并修改AI的創(chuàng)作計劃。其次是可解釋性的增強(qiáng)。當(dāng)生成結(jié)果有問題時，用戶可以通過查看思考過程找到問題所在，并進(jìn)行針對性的修改。最后是交互效率的提高。用戶可以通過修改思考過程實(shí)現(xiàn)精確的局部調(diào)整，而不需要重新生成整個圖像。

從更宏觀的角度來看，GoT框架為AI創(chuàng)作工具的發(fā)展指明了方向。未來的AI助手不應(yīng)該是一個黑盒子，而應(yīng)該是一個透明的、可交互的創(chuàng)作伙伴。它們需要能夠解釋自己的決策，接受用戶的指導(dǎo)，并在創(chuàng)作過程中展現(xiàn)出類似人類的推理能力。

七、面向未來的技術(shù)展望

GoT框架的成功開啟了許多令人興奮的研究方向和應(yīng)用可能性。

在技術(shù)發(fā)展方面，這種"思考再創(chuàng)作"的模式可以擴(kuò)展到更多的創(chuàng)作領(lǐng)域。比如在視頻生成中，AI可以先規(guī)劃整個故事情節(jié)和鏡頭安排，再逐幀生成視頻內(nèi)容。在3D模型生成中，AI可以先分析物體的結(jié)構(gòu)和功能，再構(gòu)建精確的三維幾何形狀。在音樂創(chuàng)作中，AI可以先分析情感表達(dá)和結(jié)構(gòu)安排，再生成具體的旋律和和聲。

在實(shí)際應(yīng)用方面，GoT框架為創(chuàng)意產(chǎn)業(yè)帶來了新的可能性。設(shè)計師可以使用這種工具快速探索不同的設(shè)計方案，通過修改思考過程來實(shí)現(xiàn)精確的調(diào)整。廣告公司可以用它來生成個性化的營銷素材，針對不同的目標(biāo)群體調(diào)整畫面元素和布局。教育領(lǐng)域可以利用這種技術(shù)生成定制化的教學(xué)圖像，幫助學(xué)生更好地理解抽象概念。

更廣泛地說，GoT框架代表了AI發(fā)展的一個重要趨勢：從單純的模式識別和生成，向具備推理和規(guī)劃能力的智能系統(tǒng)轉(zhuǎn)變。這種轉(zhuǎn)變不僅提高了AI系統(tǒng)的性能，更重要的是增強(qiáng)了人機(jī)協(xié)作的可能性。當(dāng)AI能夠解釋自己的思考過程時，人類就能更好地理解和指導(dǎo)AI的行為，實(shí)現(xiàn)真正意義上的智能合作。

當(dāng)然，這項技術(shù)也面臨一些挑戰(zhàn)和限制。生成詳細(xì)的思考過程需要額外的計算資源，這可能會影響系統(tǒng)的響應(yīng)速度。如何在保持推理質(zhì)量的同時提高效率，是一個需要繼續(xù)研究的問題。此外，如何確保AI生成的思考過程既準(zhǔn)確又易于用戶理解，也是一個值得深入探討的話題。

說到底，GoT框架的最大價值在于它向我們展示了AI創(chuàng)作的未來方向：不是替代人類創(chuàng)作者，而是成為更智能、更透明、更易于協(xié)作的創(chuàng)作伙伴。當(dāng)AI能夠像人類一樣思考和推理時，人機(jī)協(xié)作將達(dá)到一個全新的水平，創(chuàng)意工作將變得更加高效和有趣。這項研究不僅推動了技術(shù)的進(jìn)步，更重要的是為我們描繪了一個AI與人類和諧共創(chuàng)的美好未來。對于想要深入了解這項突破性研究的讀者，可以通過論文arXiv:2503.10639獲取完整的技術(shù)細(xì)節(jié)和實(shí)驗數(shù)據(jù)。

Q&A

Q1：GoT方法和傳統(tǒng)AI畫畫有什么區(qū)別？ A：傳統(tǒng)AI就像一個只會照搬的畫匠，你說畫貓它就直接畫，但經(jīng)常畫錯位置。GoT就像給AI裝了個會思考的大腦，它會先想"貓應(yīng)該坐在哪里、什么顏色、多大尺寸"，然后再動筆畫，結(jié)果更準(zhǔn)確，而且你還能看到它的思考過程并直接修改。

Q2：普通人能用GoT來生成圖片嗎？操作會不會很復(fù)雜？ A：目前GoT還是研究階段的技術(shù)，不過研究團(tuán)隊已經(jīng)公開了代碼和模型。操作其實(shí)不復(fù)雜，你可以像平常一樣輸入文字描述，然后看到AI的"內(nèi)心獨(dú)白"，如果不滿意可以直接修改這個思考過程，比如把"紅蘋果"改成"綠蘋果"或者調(diào)整位置坐標(biāo)。

Q3：GoT生成的圖片質(zhì)量怎么樣？比其他AI工具好在哪里？ A：GoT在各項測試中都取得了最好成績，特別是在復(fù)雜場景生成方面。它最大的優(yōu)勢是精確控制，比如你要求畫"兩只紅鳥三個藍(lán)球"，傳統(tǒng)AI經(jīng)常搞錯數(shù)量或顏色，但GoT因為有明確的思考過程，基本都能準(zhǔn)確執(zhí)行。而且你可以精確調(diào)整任何細(xì)節(jié)，不用重新生成整張圖。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.