始智AI wisemodel.cn開源社區(qū)
始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel社區(qū)上線,價格實惠,靈活方便,支持在線微調(diào)訓(xùn)練模型,及和,并。
近年來,擴散模型在圖像生成領(lǐng)域掀起了技術(shù)革新浪潮,其優(yōu)異的生成質(zhì)量和可控性推動了圖像編輯、風(fēng)格遷移、圖像修復(fù)等眾多視覺任務(wù)的快速發(fā)展。
然而,盡管生成模型能力不斷增強,當(dāng)前主流圖像生成方法仍普遍采用“一個任務(wù)對應(yīng)一個模型”的設(shè)計范式。隨著任務(wù)需求的增加,該范式在實際應(yīng)用中具有明顯的局限性。
這種任務(wù)特定模型的設(shè)計,意味著每新增一種任務(wù)需求都可能需要重新構(gòu)建訓(xùn)練數(shù)據(jù)、設(shè)計架構(gòu)、訓(xùn)練模型,成本高昂,維護(hù)復(fù)雜,擴展性差。其次,當(dāng)前部分模型嘗試通過語言指令定義任務(wù)目標(biāo),但由于視覺任務(wù)的復(fù)雜性以及模態(tài)間的語義鴻溝,語言指導(dǎo)往往存在理解歧義,難以精準(zhǔn)傳達(dá)任務(wù)目標(biāo),從而影響生成效果與模型的泛化能力。
并且由于視覺任務(wù)天然具有高度異質(zhì)性,各任務(wù)之間數(shù)據(jù)分布割裂、關(guān)聯(lián)較弱,使得現(xiàn)有模型在訓(xùn)練過程中難以有效學(xué)習(xí)通用知識,進(jìn)一步限制了其泛化能力。
為應(yīng)對上述挑戰(zhàn),研究團隊提出全新一代圖像生成框架-VisualCloze。它通過視覺上下文學(xué)習(xí)(Visual In-Context Learning)使模型理解任務(wù)意圖,并完成精準(zhǔn)生成。VisualCloze具有高度擴展性和強泛化性,支持多種視覺生成任務(wù),甚至可以泛化到許多訓(xùn)練時完全沒有見過的任務(wù)。現(xiàn)已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗。
模型地址
https://wisemodel.cn/organization/VisualCloze
01.
核心亮點:解鎖視覺生成新范式
得益于視覺上下文學(xué)習(xí)(Visual In-Context Learning)機制,VisualCloze 展現(xiàn)出強大的多任務(wù)學(xué)習(xí)能力與泛化能力,在統(tǒng)一模型框架下實現(xiàn)多任務(wù)處理與推理。
廣泛的任務(wù)支持
無需切換模型,VisualCloze 即可靈活支持圖像修復(fù)、編輯、風(fēng)格遷移、條件生成等多種主流視覺任務(wù),覆蓋日常應(yīng)用的主要場景。
新任務(wù)泛化能力
通過少量示例圖的視覺示范,VisuaCloze能夠理解任務(wù)意圖,快速適配訓(xùn)練中未見過的新任務(wù),顯著提升適應(yīng)性與靈活性。
任務(wù)統(tǒng)一處理
除了獨立支持特定單一任務(wù)外,VisualCloze 還能通過視覺上下文學(xué)習(xí)將多個任務(wù)融合為一步完成,實現(xiàn)任務(wù)鏈的統(tǒng)一推理,提升多任務(wù)組合鏈路的處理效率。
反向生成能力
在無需額外訓(xùn)練的前提下,模型還可執(zhí)行逆向任務(wù),即從目標(biāo)圖像中反推出條件輸入,如恢復(fù)其風(fēng)格、布局、語義信息。
02.
核心技術(shù)點:統(tǒng)一模型,靈活泛化
VisualCloze實現(xiàn)了一模型通多任務(wù),其核心技術(shù)點如下:
視覺上下文學(xué)習(xí):擺脫語言束縛
不同于以往依賴文字描述的任務(wù)提示方式,VisualCloze 使用視覺上下文學(xué)習(xí)的方式理解任務(wù)需求。僅需提供若干輸入輸出圖像對作為任務(wù)示例,模型即可理解用戶意圖并生成目標(biāo)圖像。這種方式天然適合視覺任務(wù),極大減少了任務(wù)歧義。
統(tǒng)一生成范式:兼容現(xiàn)有強基座模型
為了讓模型通過視覺上下文學(xué)習(xí)看圖識意,我們將包括上下文任務(wù)示例圖像在內(nèi)的全部圖像以及條件圖像全部以網(wǎng)格布局拼接為一張圖像。作為輸入,讓模型從這張拼接圖像中觀察示例示例,從而填充出缺失的目標(biāo)區(qū)域。
同時,這一設(shè)計讓VisualCloze的目標(biāo)與圖像補全任務(wù)高度一致,因此我們可以直接在SOTA圖像補全模型如FLUX.1-Fill-dev的基礎(chǔ)上構(gòu)建VisualCloze,而無需對模型結(jié)構(gòu)做任何修改,充分繼承基礎(chǔ)模型的強大生成能力。
此外,不同圖像常常具有不一致的尺寸或?qū)捀弑?,這給拼接帶來了極大挑戰(zhàn)。直接裁剪或拉伸不僅影響圖像質(zhì)量,還可能破壞圖像的空間語義,進(jìn)而影響任務(wù)理解。
為解決這一問題,VisualCloze借助了FLUX.1-Fill-dev中引入的三維旋轉(zhuǎn)位置編碼(3D-RoPE)機制,通過在時序維度拼接任務(wù)示例和條件圖像,而非強行拼成整齊的網(wǎng)格圖像,從而自然地對不同尺寸的圖像進(jìn)行對齊與融合。
Graph200k圖結(jié)構(gòu)數(shù)據(jù)集:密集任務(wù)關(guān)聯(lián)
在自然語言處理領(lǐng)域,眾多任務(wù)之間存在大量交集,例如翻譯、問答和文本摘要等往往可以共享語義表示,從而實現(xiàn)有效的跨任務(wù)遷移學(xué)習(xí)。然而,在視覺生成領(lǐng)域,不同任務(wù)之間差異巨大,天然呈現(xiàn)出高度異質(zhì)性與任務(wù)割裂,這不利于模型學(xué)習(xí)可遷移的通用知識。
為此,我們提出了全新的圖結(jié)構(gòu)多任務(wù)數(shù)據(jù)集 Graph200K。該數(shù)據(jù)集構(gòu)建于 Subjects200K 基礎(chǔ)之上,為每張圖像提供了五大元任務(wù)的多重標(biāo)注,包括:條件生成,圖像修復(fù),圖像編輯,IP保留,以及風(fēng)格遷移。
這些元任務(wù)之間可靈活組合,支持構(gòu)建出多種具有復(fù)雜條件依賴的復(fù)合任務(wù),極大提升了任務(wù)分布的緊密度與語義可轉(zhuǎn)移性。
例如,如下圖所示,我們可以將主體提取 + 布局控制 + 風(fēng)格遷移組合為一個復(fù)合任務(wù),生成同時保留目標(biāo)主體、遵循特定布局、并呈現(xiàn)指定風(fēng)格的個性化藝術(shù)圖像。這種設(shè)計使得模型在訓(xùn)練過程中能夠感知并學(xué)習(xí)任務(wù)之間的內(nèi)在關(guān)聯(lián),有效提升泛化能力與多任務(wù)協(xié)同能力。
03.
wisemodel在線體驗
W isemodel社區(qū)支持 用戶通過鏡像體驗?zāi)P驮诰€服務(wù) ,進(jìn)入社區(qū)應(yīng)用模塊,點擊 VisualCloze—部署在線體驗即可。
編輯:成蘊年
----- END -----
wisemodel相關(guān):
系統(tǒng)升級:
大賽報名:
系列模型:
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。
向上滑動查看更多
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.