新智元報(bào)道
編輯:傾傾
【新智元導(dǎo)讀】 擴(kuò)散模型本該只是復(fù)制機(jī)器,卻一次次畫出「六指人像」甚至是陌生場(chǎng)景。最新研究發(fā)現(xiàn),AI的「創(chuàng)造力」其實(shí)是架構(gòu)里的副作用。有學(xué)者大膽推測(cè)人類的靈感或許也是如此。當(dāng)靈感成了固定公式,人類和AI的差別還有多少?
你一定見(jiàn)過(guò)那些奇怪的AI畫:人物手上多出幾根手指、臉部細(xì)節(jié)怪異,卻又帶著某種說(shuō)不出的新鮮感。
這讓人產(chǎn)生一個(gè)疑問(wèn):擴(kuò)散模型明明只「復(fù)刻」,為什么還能畫出前所未見(jiàn)的作品?
最新一項(xiàng)研究給出了答案:
其實(shí),AI的創(chuàng)造力并非「神來(lái)之筆」,而是模型架構(gòu)的副作用。
明明只會(huì)復(fù)制,AI為何還能創(chuàng)作?
擴(kuò)散模型的任務(wù)很簡(jiǎn)單:把數(shù)字噪聲還原成訓(xùn)練過(guò)的圖像。
就像把一幅畫放入碎紙機(jī),直到只剩下一堆細(xì)小的灰塵,然后將碎片重新拼湊到一起。
照理說(shuō),它應(yīng)該只會(huì)生成「復(fù)制品」。
可現(xiàn)實(shí)卻讓研究者大跌眼鏡。
DALL·E、Imagen、Stable Diffusion這些模型,畫出的不是「翻版」,而是全新的圖像:
不同元素被組合在一起,構(gòu)成前所未見(jiàn)的場(chǎng)景。
更令人意外的是,這些拼貼并不是毫無(wú)意義的雜亂色塊,而是帶著語(yǔ)義的完整作品。
DALL·E 2制作了這些「金魚在海灘上啜飲可口可樂(lè)」的圖像。這個(gè)由 OpenAI創(chuàng)建的程序可能從未遇到過(guò)類似的圖像,但它仍然可以自行生成這樣的圖像。
還記得那些在社交平臺(tái)瘋傳的「AI多手指人像」嗎?
有些圖看上去像是超現(xiàn)實(shí)主義的畫——人物手上莫名其妙多出幾根手指,但整體仍舊保持了清晰的結(jié)構(gòu)感。
這類怪異產(chǎn)物,一度被當(dāng)成笑料,卻也讓科學(xué)家警覺(jué):模型為什么會(huì)「即興發(fā)揮」?
Giulio Biroli將這種現(xiàn)象稱為「擴(kuò)散模型的悖論」:
「如果它們真的只是記憶,就不該有創(chuàng)造力;可它們偏偏能畫出前所未見(jiàn)的東西」。
那么,AI的創(chuàng)造力到底是從哪里來(lái)的?
六指人像背后的「bug獎(jiǎng)勵(lì)」
在最新研究里,兩位物理學(xué)家給出了一個(gè)頗為出乎意料的答案:
AI的「創(chuàng)造力」,其實(shí)是它架構(gòu)里的副作用。
擴(kuò)散模型在生成圖像時(shí),依賴兩條嚴(yán)格的規(guī)則:
第一條叫做局部性。
它在繪制過(guò)程中,并不會(huì)通盤考慮整張畫面,而是一次只關(guān)注一個(gè)小小的像素「拼塊」。
就像拼圖時(shí),你盯著一塊顏色相近的小碎片,卻不會(huì)去想它最終會(huì)出現(xiàn)在整幅畫的哪個(gè)角落。
第二條叫做平移等變性。
如果輸入圖像整體往左或往右挪動(dòng)幾個(gè)像素,模型生成的畫面也必須跟著同步移動(dòng)。
這是它保持圖像結(jié)構(gòu)連貫的方式。
這兩條機(jī)制,本來(lái)是擴(kuò)散模型在「去噪」時(shí)的限制條件。
研究者一度認(rèn)為這是缺陷,會(huì)讓模型沒(méi)法生成完美的復(fù)制品。
可事實(shí)證明,正是這種「不完美」,反而讓AI無(wú)法完全依賴記憶,必須在局部的拼貼里即興重組。
這就導(dǎo)致了,手指可能多長(zhǎng)了幾根,元素可能拼接得有點(diǎn)怪異,但整體畫面卻意外生出了新意。
也就是說(shuō),AI 的創(chuàng)造力,并不是額外設(shè)計(jì)出來(lái)的能力,而是它架構(gòu)必然帶來(lái)的副作用。
ELS方程機(jī):創(chuàng)造力的數(shù)學(xué)化證明
如果說(shuō)AI的創(chuàng)造力真是副作用,那要如何證明?
斯坦福大學(xué)的研究生Mason Kamb和導(dǎo)師Surya Ganguli,進(jìn)行了一次實(shí)驗(yàn)。
他們基于那兩條規(guī)則構(gòu)建了一套純粹的數(shù)學(xué)系統(tǒng),命名為ELS方程機(jī)(Equivariant Local Score machine)。
這個(gè)系統(tǒng)的特別之處在于,它不依賴海量訓(xùn)練數(shù)據(jù),也沒(méi)有任何黑箱深度網(wǎng)絡(luò)。
它是一套方程,用來(lái)預(yù)測(cè)當(dāng)噪聲一步步被「去除」時(shí),圖像會(huì)如何拼合。
然后,他們把同一組噪聲圖像同時(shí)輸入ELS方程機(jī)和真實(shí)的擴(kuò)散模型。
結(jié)果令人震驚:ELS方程機(jī)生成的結(jié)果,與擴(kuò)散模型的輸出平均重合度高達(dá) 90%。
在機(jī)器學(xué)習(xí)領(lǐng)域,這幾乎是前所未有的精度。
Ganguli感嘆道:
「這就像是用一組公式,寫下了創(chuàng)造力的來(lái)源。」
所謂的「AI創(chuàng)造力」,并不是神秘的靈感,而是局部性與等變性在動(dòng)態(tài)運(yùn)行中必然產(chǎn)生的產(chǎn)物。
只要滿足這兩個(gè)條件,「創(chuàng)造」就會(huì)自動(dòng)出現(xiàn)。
AI的小失誤,揭開(kāi)人類創(chuàng)造力的秘密
這項(xiàng)研究不僅揭開(kāi)了擴(kuò)散模型的秘密,還讓人聯(lián)想到生命系統(tǒng)。
Mason Kamb之所以產(chǎn)生這個(gè)靈感,是因?yàn)樗L(zhǎng)期研究形態(tài)發(fā)生——也就是胚胎如何從一團(tuán)細(xì)胞,自我組裝成器官和肢體。
在這個(gè)過(guò)程中,細(xì)胞只是根據(jù)身邊鄰居的信號(hào)做出局部反應(yīng)。
大多數(shù)時(shí)候,這種自組織能順利生成一個(gè)正常的身體,但偶爾也會(huì)出錯(cuò)——比如多長(zhǎng)出幾根手指。
當(dāng)Kamb看到擴(kuò)散模型生成的那些「AI多指人像」時(shí),他立刻聯(lián)想到胚胎發(fā)育里的這種「局部拼貼錯(cuò)誤」。
這說(shuō)明,AI的創(chuàng)造力,本質(zhì)上和生物的自組織過(guò)程,有著驚人的相似。
研究者甚至提出一個(gè)更大膽的類比:人類的創(chuàng)造力,也許和AI并沒(méi)有本質(zhì)不同。
我們的大腦,并不是憑空冒出靈感,而是在有限的經(jīng)驗(yàn)和記憶中,不斷拼接、補(bǔ)全、想象,最后產(chǎn)出新東西。
正是這偶爾的錯(cuò)誤與缺口,反而成為創(chuàng)新的源泉。
正如IBM研究員Benjamin Hoover所說(shuō):
「人類和AI的創(chuàng)造力,可能都根植于對(duì)世界的不完整理解?!?/p>
創(chuàng)造力未必是高高在上的天賦,它也可能是一種副作用,一種「不完美」帶來(lái)的意外之喜。
當(dāng)「創(chuàng)造力」能被一組公式寫下,人類和機(jī)器的界限也愈發(fā)模糊了。
或許,真正的靈感,從來(lái)不是天才的特權(quán),而是「不完美」的副產(chǎn)物。
研究揭示的,不只是AI的密秘密。
也許是在提醒我們:創(chuàng)造,往往生長(zhǎng)于偏差之中。
參考資料:
https://www.wired.com/story/researchers-uncover-hidden-ingredients-behind-ai-creativity/
https://www.quantamagazine.org/researchers-uncover-hidden-ingredients-behind-ai-creativity-20250630/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.