MIT團隊發(fā)布可控場景生成新方法，用AI為機器人構(gòu)建無限逼真世界

2025-10-12 18:59:04　來源: DeepTech深科技

北京舉報

分享至

像 ChatGPT 和 Claude 這樣的聊天機器人在過去三年里使用量激增，因為它們能幫你完成各種各樣的任務(wù)。無論是寫莎士比亞十四行詩、調(diào)試代碼，還是回答冷門知識問題，這些 AI 似乎都能搞定。它們這種多才多藝的能力背后，是來自互聯(lián)網(wǎng)的數(shù)十億甚至萬億級別的文本數(shù)據(jù)點。

然而，僅僅依靠這些數(shù)據(jù)，遠不足以將一個機器人訓(xùn)練成能干的家庭或工廠助理。機器人需要通過實際的演示來理解如何在多變的環(huán)境中抓取、堆疊和擺放各種物體。你可以將機器人的訓(xùn)練數(shù)據(jù)想象成一系列操作指南視頻，一步步地拆解任務(wù)中的每個動作。在真實機器人上采集這些演示數(shù)據(jù)不僅耗時，而且過程難以精確重復(fù)。為此，工程師們嘗試過用 AI 生成模擬數(shù)據(jù)（但這些數(shù)據(jù)往往與真實世界的物理規(guī)律脫節(jié)），或是耗費巨大精力從零開始手動構(gòu)建每一個數(shù)字環(huán)境。

現(xiàn)在，來自麻省理工學(xué)院計算機科學(xué)與人工智能實驗室 (MIT's Computer Science and Artificial Intelligence Laboratory, CSAIL) 與豐田研究院 (Toyota Research Institute) 的研究人員或許已經(jīng)找到了解決方案，能夠為機器人打造它們所需要的既多樣又逼真的虛擬訓(xùn)練場。他們提出了一種名為“可控場景生成” (steerable scene generation) 的方法，可以程序化地創(chuàng)建廚房、客廳、餐廳等數(shù)字場景，供工程師模擬大量的真實世界互動與情境。該工具在一個包含超過 4400 萬個 3D 房間的數(shù)據(jù)集上進行訓(xùn)練，這些房間中充滿了桌子、盤子等各類物體的模型。它能將現(xiàn)有的資產(chǎn)布置到全新的場景中，并對每個場景進行精細調(diào)整，使其成為一個物理上精確且栩栩如生的環(huán)境。

“可控場景生成”技術(shù)通過“引導(dǎo)”一個擴散模型 (diffusion model) 來創(chuàng)建這些 3D 世界。擴散模型是一種 AI 系統(tǒng)，它能從隨機噪聲中生成視覺圖像，并朝著用戶所期望的日常場景演化。研究人員利用這個生成系統(tǒng)對環(huán)境進行“內(nèi)部繪制” (in-paint)，即在場景中填充特定的元素。你可以想象一塊空白畫布，突然間變?yōu)橐粋€堆滿 3D 物體的廚房，然后這些物體被逐步重新排列，最終形成一個遵循真實世界物理規(guī)律的場景。比如，該系統(tǒng)能確保叉子不會穿過桌上的碗——這在 3D 圖形中是一種被稱為“穿?！?(clipping) 的常見錯誤，即模型之間發(fā)生重疊或交叉。

至于“可控場景生成”究竟如何引導(dǎo)其創(chuàng)作過程趨向真實，則取決于所選擇的策略。其核心策略是“蒙特卡洛樹搜索” (Monte Carlo tree search, MCTS)，這是一種讓模型創(chuàng)建一系列備選場景，并以不同方式進行填充以達成特定目標的算法（例如，讓場景的物理表現(xiàn)更真實，或在場景中包含盡可能多的可食用物品）。AI 程序 AlphaGo 正是利用該策略在圍棋比賽中擊敗人類頂尖選手，系統(tǒng)在做出最優(yōu)選擇前會預(yù)先考量一系列可能的移動序列。

“我們首次將 MCTS 應(yīng)用于場景生成領(lǐng)域，通過將場景生成任務(wù)構(gòu)建為一個序列決策過程來實現(xiàn)，” MIT 電子工程與計算機科學(xué)系 (Department of Electrical Engineering and Computer Science, EECS) 的博士生、CSAIL 研究員及該項目論文的第一作者 Nicholas Pfaff 表示，“我們持續(xù)在部分已生成的場景基礎(chǔ)上進行構(gòu)建，以期隨時間推移產(chǎn)出更好或更符合需求的場景。因此，MCTS 能夠創(chuàng)造出比其訓(xùn)練所用的擴散模型更為復(fù)雜的場景?！?/p>

在一次極具說服力的實驗中，MCTS 在一個簡單的餐廳場景中成功添加了最多達 34 件物品，其中包括堆疊得很高的多層點心蒸籠，而其訓(xùn)練數(shù)據(jù)中的場景平均僅包含 17 件物品。

“可控場景生成”還允許通過強化學(xué)習(xí) (reinforcement learning) 來生成多樣化的訓(xùn)練情景。其本質(zhì)是教會擴散模型通過試錯來達成目標。在初始數(shù)據(jù)訓(xùn)練之后，系統(tǒng)會進入第二個訓(xùn)練階段。在這一階段，你會設(shè)定一個獎勵機制（即一個期望的結(jié)果，并用分數(shù)來衡量與目標的接近程度）。模型會自動學(xué)習(xí)如何創(chuàng)造得分更高的場景，其產(chǎn)出的情景往往與訓(xùn)練數(shù)據(jù)大相徑庭。

用戶還可以通過輸入具體的視覺描述來直接向系統(tǒng)發(fā)出指令（例如，“一個廚房，桌上有一個碗和四個蘋果”）。 “可控場景生成”能夠精確地將這些指令變?yōu)楝F(xiàn)實。例如，該工具在構(gòu)建食品儲藏架場景時，準確遵循用戶指令的成功率高達 98%，而在生成凌亂的早餐桌場景時則達到了 86%。這兩項指標均比 MiDiffusion 和 DiffuScene 等同類方法高出至少 10%。

該系統(tǒng)還能通過提示或簡單的指令來補全特定場景（例如，“使用相同的物體，設(shè)計一個不同的場景布局”）。你可以讓它將蘋果擺放在廚房桌子的幾個盤子上，或是將棋盤游戲和書籍放到架子上。這本質(zhì)上是在保留場景其余部分的同時，“填補”空白區(qū)域。

研究人員認為，他們項目的優(yōu)勢在于能夠創(chuàng)造出大量可供機器人專家實際使用的場景。Pfaff 指出：“我們的一個關(guān)鍵發(fā)現(xiàn)是，用于預(yù)訓(xùn)練的場景不必與我們最終想要的場景完全一致。利用我們的引導(dǎo)方法，我們可以超越原有的數(shù)據(jù)分布，從一個‘更好’的分布中進行采樣。換言之，我們可以生成我們真正想用來訓(xùn)練機器人的那種多樣化、真實且與任務(wù)對齊的場景。”

這些豐富的場景成為了理想的測試平臺，研究人員可以在其中記錄虛擬機器人與不同物品的互動。例如，機器可以精準地將刀叉放入餐具筒，或是在多種 3D 環(huán)境下將面包重新擺放到盤子里。每一次模擬都顯得流暢而逼真，讓我們得以一窺未來由“可控場景生成”技術(shù)訓(xùn)練出的高適應(yīng)性機器人的模樣。

盡管該系統(tǒng)為生成大量多樣的機器人訓(xùn)練數(shù)據(jù)提供了一條前景光明的道路，但研究人員表示，目前的工作更多是作為一種概念驗證。未來，他們希望利用生成式 AI 來創(chuàng)造全新的物體和場景，而不僅僅是使用固定的資產(chǎn)庫。他們還計劃引入可活動的關(guān)節(jié)式物體（如可以打開的柜子或裝有食物的罐子），以增強場景的互動性。

為了使虛擬環(huán)境更加逼真，Pfaff 及其同事可能會借鑒他們之前的研究項目“Scalable Real2Sim”，整合一個從互聯(lián)網(wǎng)圖像中提取的物體和場景庫。通過擴展 AI 構(gòu)建的機器人測試平臺的多樣性和逼真度，團隊希望建立一個用戶社區(qū)，共同創(chuàng)造海量數(shù)據(jù)，最終形成一個龐大的數(shù)據(jù)集，用于教授靈巧機器人掌握不同的技能。

“在今天，為模擬創(chuàng)建逼真的場景是一項極具挑戰(zhàn)性的工作；程序化生成雖然可以快速產(chǎn)出大量場景，但這些場景很可能無法代表機器人在真實世界中會遇到的環(huán)境。而手動創(chuàng)建定制場景既耗時又昂貴，” 亞馬遜機器人公司 (Amazon Robotics) 的應(yīng)用科學(xué)家 Jeremy Binagia 評論道（他并未參與該項研究）。“‘可控場景生成’提供了一種更好的途徑：在一個大型的預(yù)先存在的場景集合上訓(xùn)練一個生成模型，并（通過強化學(xué)習(xí)等策略）使其適應(yīng)特定的下游應(yīng)用。與以往那些依賴現(xiàn)成視覺語言模型或僅限于在 2D 網(wǎng)格上排列物體的方法相比，這種新方法保證了物理上的可行性，并全面考慮了 3D 的平移和旋轉(zhuǎn)，從而能夠生成遠為有趣的場景?！?/p>

豐田研究院的機器人專家 Rick Cory（擁有 2008 年的科學(xué)碩士學(xué)位和 2010 年的博士學(xué)位，他未參與此項研究），他表示：“‘可控場景生成’結(jié)合了訓(xùn)練后處理和推理時搜索，為大規(guī)模自動化場景生成提供了一個新穎而高效的框架。更重要的是，它能夠生成那些被認為對下游任務(wù)至關(guān)重要的‘前所未見’的場景。未來，將這一框架與浩瀚的互聯(lián)網(wǎng)數(shù)據(jù)相結(jié)合，有望在實現(xiàn)機器人在真實世界中高效部署的道路上，解鎖一個重要的里程碑?！?/p>

https://news.mit.edu/2025/using-generative-ai-diversify-virtual-training-grounds-robots-1008

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.