新智元報道
編輯:元宇 好困
【新智元導(dǎo)讀】Sakana AI以自然演化為靈感,提出了一種全新的模型融合進化方法M2N2。通過引入自然界的「擇偶機制」,AI可以像生物一樣「競爭、擇偶、繁衍」。在當(dāng)前全球算力短缺、模型訓(xùn)練實際規(guī)模受制的情況下,Sakana AI借助自然界的啟示,為模型融合探索出了一條新路。
如果讓AI模型像生物一樣演化,它們會不會彼此競爭、協(xié)作、結(jié)合,并繁衍出越來越強的后代?
「物競天擇,適者生存」的進化論思想,是否也適用于AI模型?
就在最近,Sakana AI從自然演化的過程中汲取靈感,提出了一種利用「競爭與吸引力」的自然選擇機制,來提升AI模型融合效果的方法。
Sakana AI認(rèn)為,AI模型的發(fā)展,也和自然演化的過程類似:
集體智慧從群體中涌現(xiàn)。
比如:自然并沒有創(chuàng)造單一的、巨大的單體生物,而是孕育了一個多樣化的生態(tài)系統(tǒng)。在自然界的生態(tài)系統(tǒng)中,每一個個體通過競爭、合作與組合來適應(yīng)環(huán)境、繁衍后代。
這正是Sakana眼中的AI世界該有的樣子:
當(dāng)人類不再試圖構(gòu)建一個龐大的單體AI,而是演化出整個AI生態(tài)系統(tǒng),各個專業(yè)AI模型在其中競爭、合作、融合……這會帶來什么?
他們沒有簡單停留在想象階段,而是一直在探索模型融合,試圖利用演化,來破解現(xiàn)有模型融合的「最佳配方」。
現(xiàn)在,他們把這個「最佳配方」公開了!
目前,相關(guān)研究已在GECCO 2025會議上發(fā)表,并榮獲最佳論文提名獎!
論文地址:https://arxiv.org/abs/2508.16204
GitHub:https://github.com/SakanaAI/natural_niches
以往的模型融合,需要人工介入,手動定義模型的分割方式(例如,按固定的層或塊)。
能不能讓這個過程,也像自然界的演化那樣,自動運行?
Sakana AI提出了M2N2(Model Merging of Natural Niches,自然生態(tài)位的模型融合),攻克了上述難題。
該方法來自于自然演化的三個關(guān)鍵思想:
演化融合邊界:M2N2讓模型的組合更為自由,打破了預(yù)定義的靜態(tài)邊界,大大拓寬了模型組合的探索空間和可能性。如同自然界交換可變長度的DNA片段,而非整個染色體。
多樣性競爭:M2N2模仿了自然界的「叢林法則」,讓模型們?yōu)榱擞邢薜馁Y源(即訓(xùn)練集中的數(shù)據(jù)點)展開競爭,迫使模型走向?qū)I(yè)化,尋找自己的「生態(tài)位」,從而創(chuàng)造出一個由多樣化、高性能專家組成的種群,為優(yōu)質(zhì)模型的「繁衍」提供更多優(yōu)秀的種子模型。
擇偶機制:M2N2引入了一種「吸引力」啟發(fā)式方法,它會根據(jù)模型的互補優(yōu)勢,智能地進行配對融合——即選擇在對方弱項上表現(xiàn)出色的伙伴,這使得演化搜索的效率大幅提升,也大大降低了模型融合的計算成本。
這一嘗試的結(jié)果,也令人振奮:M2N2模型融合技術(shù),開始在模型演化中被成功應(yīng)用,表現(xiàn)也優(yōu)于其他演化算法。比如:
從隨機網(wǎng)絡(luò)演化出的MNIST分類器,性能媲美CMA-ES算法,但計算效率更高。
能夠擴展到大型預(yù)訓(xùn)練模型,尤其是在數(shù)學(xué)和網(wǎng)絡(luò)購物任務(wù)上,生成的融合模型表現(xiàn)顯著優(yōu)于其他方法。
在模型融合過程中,還避免了模型微調(diào)中「災(zāi)難性遺忘」的問題。
這讓網(wǎng)友Aragon Dev感嘆:
「2025年,智能體真比自己先找到對象」
M2N2:全新的模型進化方法
M2N2通過引入一種結(jié)合競爭、吸引力與帶切分點的模型融合的全新進化方法,顯著提升了模型融合的效果。
它首次將模型融合用于從零開始訓(xùn)練,并在性能與計算效率上優(yōu)于所有當(dāng)前的進化算法。
研究人員在將M2N2擴展至LLM與基于擴散的圖像生成模型后,表現(xiàn)出了諸多優(yōu)勢。比如,它可以
穩(wěn)定融合且避免災(zāi)難性遺忘
兼容不同目標(biāo)訓(xùn)練的模型
通過避免梯度計算降低內(nèi)存占用
在無需原始訓(xùn)練數(shù)據(jù)的情況下保留模型能力
在模型融合中,目標(biāo)是在個初始模型中找到融合模型的最優(yōu)參數(shù)?,使得通常以任務(wù)分?jǐn)?shù)的和/平均表示的優(yōu)化目標(biāo)最大化。
在M2N2中,研究人員對融合函數(shù)?做出修改,使融合邊界可進化。同時對優(yōu)化目標(biāo),做出調(diào)整以促進多樣解。
M2N2消除了固定的模型融合邊界。
為擺脫固定融合邊界的約束,研究人員通過探索更廣泛的邊界與系數(shù),逐步擴展搜索空間,這一漸進引入復(fù)雜度的做法,既拓寬可能性,又保持計算可控。
對有限資源的競爭,天然會促進多樣性。
研究人員通過修改優(yōu)化目標(biāo)來鼓勵多樣性。通過限制資源供給,M2N2激發(fā)競爭,自然偏好占據(jù)新生態(tài)位的個體。
他們的具體做法是:
將群體能從某個樣本中提取的總適應(yīng)度限制為容量。
候選解從獲得的適應(yīng)度,正比于其分?jǐn)?shù)相對于群體總分的占比。
修改后的目標(biāo)為:
在生物學(xué)中,這種結(jié)合(繁殖)代價高昂,因此動物會在擇偶過程中投入大量資源。
M2N2額外考慮父本之間的互補性,通過逐步引入復(fù)雜度,在保持計算可控的同時擴大了可探索范圍。
實驗1:進化MNIST分類器
這項實驗所優(yōu)化的,是一個總計19,210個參數(shù)的兩層前饋神經(jīng)網(wǎng)絡(luò)。
從零開始時,研究人員隨機初始化模型。
對于預(yù)訓(xùn)練模型,研究人員構(gòu)建了兩個專門化模型:一個在數(shù)字0–4上訓(xùn)練,另一個在數(shù)字5–9上訓(xùn)練。
結(jié)果表明,在從零開始時,與其它模型融合方法相比,M2N2在測試準(zhǔn)確率上有顯著優(yōu)勢(圖2左)。
對從零開始訓(xùn)練的模型,切分點與吸引力得分影響很小。但如圖2右所示,當(dāng)從預(yù)訓(xùn)練模型起步時,切分點變得至關(guān)重要,而吸引力在整個訓(xùn)練過程中都能顯著提升性能。
在多樣性方面,圖3左展示了至少被庫中一個模型正確標(biāo)注的訓(xùn)練樣本占比——訓(xùn)練覆蓋率。
圖3右側(cè),展示了群體性能多樣性隨訓(xùn)練的演化:
若所有模型對同一樣本均對/均錯,則熵為0(無多樣性); 若模型在預(yù)測上均勻分裂,熵達最大1。
從圖3中,可以看出M2N2的模型庫,很快覆蓋了絕大多數(shù)訓(xùn)練樣本,并在整個訓(xùn)練過程中保持高覆蓋。
圖3還展示了所有樣本的平均熵:M2N2在初期熵快速上升,隨后隨著低性能模型的滅絕而逐漸下降。
對比之下,MAP-Elites通過保留低性能模型持續(xù)提高多樣性,但未能實現(xiàn)高覆蓋。
總體來看:M2N2維持了一個優(yōu)勢互補的模型庫,既促進有效融合,又會在訓(xùn)練推進時系統(tǒng)性地淘汰弱模型。
如圖4顯示,較小的庫在起步更好,但更快收斂到較差解。
這表明應(yīng)按計劃的前向次數(shù)來擴展庫大小。
值得注意的是,上圖中庫增大并不增加計算成本(前向次數(shù)不變),但會增加內(nèi)存占用。對超大模型,可以將模型庫存盤,而非常駐內(nèi)存。
實驗2:LLM數(shù)學(xué)專家與智能體融合
實驗中,研究人員將數(shù)學(xué)專家WizardMath-7B-V1.0,與智能體環(huán)境專家AgentEvol-7B融合,目標(biāo)是在數(shù)學(xué)基準(zhǔn)GSM8k與網(wǎng)頁購物基準(zhǔn)WebShop上表現(xiàn)良好。
實驗結(jié)果表明,表1顯示M2N2得分最高。吸引力與切分點兩項技術(shù)都至關(guān)重要,其中切分點技術(shù)更重要一些。
當(dāng)融合數(shù)學(xué)與智能體技能時,CMA-ES得分較低,可能由于參數(shù)劃分不佳,這強調(diào)了在優(yōu)化過程中納入融合邊界的必要性。
如圖5所示,MNIST的發(fā)現(xiàn),還可推廣到LLM融合。
如左圖,自然生態(tài)位方法保持了高訓(xùn)練覆蓋率;在模型探索不同生態(tài)位的早期,熵上升(右圖);隨著低性能模型被移除、優(yōu)勢被聚合,熵逐步下降。
相比之下,MAP-Elites側(cè)重最大化熵,但因為它保留了低性能模型,將犧牲訓(xùn)練效率與覆蓋;GA 則迅速降低覆蓋與熵,并「貪心」地收斂到其最優(yōu)解,最終使整個庫「塌縮」為單一解,熵接近零。
實驗3:融合基于擴散的圖像生成模型
在該實驗中,研究人員評估了M2N2在融合多樣文本到圖像模型中的表現(xiàn)。
初始模型包括針對日文提示訓(xùn)練的JSDXL,以及主要由英文提示訓(xùn)練的三個模型:SDXL1.0、SDXL-DPO與Juggernaut-XL-v9。
這些模型共享的基礎(chǔ)模型是SDXL 1.0的架構(gòu)。
模型融合的主要目標(biāo),是在保留JSDXL理解日文提示能力的同時,整合各初始模型在圖像生成方面的最佳能力。
表2展示了各模型在測試集上的表現(xiàn),可以看出M2N2在測試集上的NCS分?jǐn)?shù)優(yōu)于所有其他模型。
圖6展示了M2N2的融合模型,如何成功結(jié)合各初始模型的優(yōu)勢并緩解其弱點,展示了其在追求性能多樣性與質(zhì)量聚合方面的成功。
若不考慮融合模型,可以觀察到每個初始模型在不同測試用例上,均可能產(chǎn)出最高與最低質(zhì)量的結(jié)果。
此外,很難找到一個清晰模式,來描述每個模型的專長,或指導(dǎo)如何構(gòu)造有效的自定義多樣性度量。
M2N2的多樣性保持機制,通過自動保留那些在其他模型表現(xiàn)不佳的樣本上獨特出眾的模型,解決了這一難題。
M2N2融合模型,相對于初始模型有兩點關(guān)鍵改進:
生成更逼真的照片,與我們使用真實照片的訓(xùn)練集更一致;
對輸入標(biāo)題的語義理解更強。
如圖6中最右列展示,雖然若干初始模型生成了好看的自行車,但M2N2的融合模型不僅準(zhǔn)確聚焦于標(biāo)題中指明的「車牌號顯示區(qū)域」,還生成了更像真實照片而非合成渲染的圖像。
M2N2在語言理解能力上,也同樣出色。
圖7顯示,M2N2融合模型對日語與英語都有良好理解。
這種涌現(xiàn)的雙語能力體現(xiàn)了M2N2的一項關(guān)鍵優(yōu)勢:
它能夠聚合互補能力,同時避免基于梯度訓(xùn)練常見的災(zāi)難性遺忘。
表3顯示了M2N2融合模型顯著優(yōu)于其他模型,這在統(tǒng)計上印證了研究人員在定性結(jié)果中的觀察。
模型融合的可行性高度依賴模型間的相似程度,但也存在一定限制:當(dāng)微調(diào)模型與其基座模型顯著偏離(通常由于大量、分歧的訓(xùn)練)時,融合會變得不可行。
表3中列出了基于100對樣本,日文提示與其英文翻譯生成圖像的CLIP特征余弦相似度均值(±標(biāo)準(zhǔn)誤),數(shù)值越高表明跨語言一致性越好。 研究人員假設(shè)狀態(tài)表示分歧較大的模型不適合融合。然而,尚無標(biāo)準(zhǔn)的模型兼容性度量。
若能定義此類度量,便可在預(yù)處理(如微調(diào))中作為正則化使用,從而更好地控制兼容性并提升融合成功率。
研究人員認(rèn)為,共同演化的模型會受到「保持可融合兼容性」的強烈進化壓力。若某個模型偏離并與其他模型不兼容,將無法產(chǎn)生「可存活的后代」,致其改進停滯并最終滅絕。
驗證這一假設(shè),將有助于理解模型共演化的動力學(xué)。此外,將兼容性度量納入吸引力啟發(fā)式,可能促進不同「物種」模型的共演化(定義為彼此可融合、但與其他組不可融合的模型群體)。
作者簡介
Yujin Tang
Yujin Tang是Sakana AI的主任研究科學(xué)家,研究方向包括強化學(xué)習(xí)、機器人學(xué)、進化算法和生成模型等。
他在東京大學(xué)獲得計算機科學(xué)博士學(xué)位,在早稻田大學(xué)獲得碩士學(xué)位,并在上海交通大學(xué)獲得學(xué)士學(xué)位。
在加入Sakana AI之前,他曾是Google DeepMind和Google Brain的高級研究科學(xué)家。
參考資料:
https://x.com/SakanaAILabs/status/1959799343088857233%20%20
https://arxiv.org/abs/2508.16204
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.