室內(nèi)場景合成隨著具身智能(Embodied AI)的興起變得愈發(fā)重要。這類智能不僅需要視覺逼真的三維環(huán)境,還要求其在物理上合理、在功能上多樣。盡管近年來的方法在視覺逼真度方面取得了顯著進(jìn)展,但仍存在局限:多數(shù)方法受制于固定的場景類別,缺乏物體級細(xì)節(jié)與物理一致性,同時(shí)難以與復(fù)雜的用戶指令保持良好對齊。為此,BIGAI提出SceneWeaver,一個(gè)通過基于工具的迭代優(yōu)化來統(tǒng)一多樣場景合成范式的反思型智能體框架。(鏈接在文章底部)
其核心為基于語言模型的規(guī)劃器,能夠從可擴(kuò)展的場景生成工具集中動態(tài)選擇合適方法,包括數(shù)據(jù)驅(qū)動生成模型以及視覺和大語言模型等。借助閉環(huán)的“推理—行動—反思”設(shè)計(jì),智能體能夠自我評估物理合理性、視覺真實(shí)感和語義一致性,識別問題并逐步修正環(huán)境。
01 技術(shù)原理
SCENEWEAVER 框架包含兩個(gè)核心組件:標(biāo)準(zhǔn)化工具接口:將現(xiàn)有的大多數(shù)場景合成方法按照合成粒度進(jìn)行分類,并組織為模塊化工具;自我反思型規(guī)劃器:能夠動態(tài)選擇工具,基于反饋迭代優(yōu)化場景,并執(zhí)行基于物理的優(yōu)化以提升物理合理性。
不同房間類型生成:臥室、廚房、會議室、兒童房等。
復(fù)雜提示的生成場景:一個(gè)擁有 10 臺洗衣機(jī)的自助洗衣店。在每臺洗衣機(jī)上放置洗滌用品。房間內(nèi)添加其他相關(guān)物品,例如籃子和洗衣槽。
帶有房間結(jié)構(gòu):展示了一些帶有房間結(jié)構(gòu)(如窗戶和門)的場景生成示例。
代碼可以輕松將生成的場景導(dǎo)出為 USD 文件,并加載到 Isaac Sim 中。通過 Apple Vision Pro,可以遠(yuǎn)程控制 Unitree G1 人形機(jī)器人執(zhí)行物體交互操作。
SceneWeaver 在具身 AI 應(yīng)用中的三大優(yōu)勢:高保真模擬,保留紋理和幾何細(xì)節(jié); 強(qiáng)健的物理交互,確保物體擺放無碰撞且受邊界約束;任務(wù)對齊的場景布局,通過可控合成適應(yīng)多樣化的具身 AI 需求。
盡管 Holodeck 在物體數(shù)量上略高,但其物體多為隨機(jī)擺放,缺乏合理性;數(shù)據(jù)驅(qū)動方法因訓(xùn)練數(shù)據(jù)偏向大型家具,生成場景物體較少,視覺和語義評分也較低,且僅依賴 LLM 生成難以保證物理合理性。
相比之下,SCENEWEAVER 基于 LLM 的智能體框架結(jié)合反思和物理優(yōu)化,實(shí)現(xiàn)零物理錯誤,與強(qiáng)制約束優(yōu)化流程效果相當(dāng),同時(shí)生成場景在定性上也更優(yōu)。
https://github.com/Scene-Weaver/SceneWeaver
https://arxiv.org/pdf/2509.20414
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.