像 ChatGPT 和 Claude 這樣的聊天機器人在過去三年里使用量激增,因為它們能幫你完成各種各樣的任務(wù)。無論是寫莎士比亞十四行詩、調(diào)試代碼,還是回答冷門知識問題,這些 AI 似乎都能搞定。它們這種多才多藝的能力背后,是來自互聯(lián)網(wǎng)的數(shù)十億甚至萬億級別的文本數(shù)據(jù)點。
然而,僅僅依靠這些數(shù)據(jù),遠不足以將一個機器人訓(xùn)練成能干的家庭或工廠助理。機器人需要通過實際的演示來理解如何在多變的環(huán)境中抓取、堆疊和擺放各種物體。你可以將機器人的訓(xùn)練數(shù)據(jù)想象成一系列操作指南視頻,一步步地拆解任務(wù)中的每個動作。在真實機器人上采集這些演示數(shù)據(jù)不僅耗時,而且過程難以精確重復(fù)。為此,工程師們嘗試過用 AI 生成模擬數(shù)據(jù)(但這些數(shù)據(jù)往往與真實世界的物理規(guī)律脫節(jié)),或是耗費巨大精力從零開始手動構(gòu)建每一個數(shù)字環(huán)境。
現(xiàn)在,來自麻省理工學(xué)院計算機科學(xué)與人工智能實驗室 (MIT's Computer Science and Artificial Intelligence Laboratory, CSAIL) 與豐田研究院 (Toyota Research Institute) 的研究人員或許已經(jīng)找到了解決方案,能夠為機器人打造它們所需要的既多樣又逼真的虛擬訓(xùn)練場。他們提出了一種名為“可控場景生成” (steerable scene generation) 的方法,可以程序化地創(chuàng)建廚房、客廳、餐廳等數(shù)字場景,供工程師模擬大量的真實世界互動與情境。該工具在一個包含超過 4400 萬個 3D 房間的數(shù)據(jù)集上進行訓(xùn)練,這些房間中充滿了桌子、盤子等各類物體的模型。它能將現(xiàn)有的資產(chǎn)布置到全新的場景中,并對每個場景進行精細調(diào)整,使其成為一個物理上精確且栩栩如生的環(huán)境。
“可控場景生成”技術(shù)通過“引導(dǎo)”一個擴散模型 (diffusion model) 來創(chuàng)建這些 3D 世界。擴散模型是一種 AI 系統(tǒng),它能從隨機噪聲中生成視覺圖像,并朝著用戶所期望的日常場景演化。研究人員利用這個生成系統(tǒng)對環(huán)境進行“內(nèi)部繪制” (in-paint),即在場景中填充特定的元素。你可以想象一塊空白畫布,突然間變?yōu)橐粋€堆滿 3D 物體的廚房,然后這些物體被逐步重新排列,最終形成一個遵循真實世界物理規(guī)律的場景。比如,該系統(tǒng)能確保叉子不會穿過桌上的碗——這在 3D 圖形中是一種被稱為“穿?!?(clipping) 的常見錯誤,即模型之間發(fā)生重疊或交叉。
至于“可控場景生成”究竟如何引導(dǎo)其創(chuàng)作過程趨向真實,則取決于所選擇的策略。其核心策略是“蒙特卡洛樹搜索” (Monte Carlo tree search, MCTS),這是一種讓模型創(chuàng)建一系列備選場景,并以不同方式進行填充以達成特定目標的算法(例如,讓場景的物理表現(xiàn)更真實,或在場景中包含盡可能多的可食用物品)。AI 程序 AlphaGo 正是利用該策略在圍棋比賽中擊敗人類頂尖選手,系統(tǒng)在做出最優(yōu)選擇前會預(yù)先考量一系列可能的移動序列。
“我們首次將 MCTS 應(yīng)用于場景生成領(lǐng)域,通過將場景生成任務(wù)構(gòu)建為一個序列決策過程來實現(xiàn),” MIT 電子工程與計算機科學(xué)系 (Department of Electrical Engineering and Computer Science, EECS) 的博士生、CSAIL 研究員及該項目論文的第一作者 Nicholas Pfaff 表示,“我們持續(xù)在部分已生成的場景基礎(chǔ)上進行構(gòu)建,以期隨時間推移產(chǎn)出更好或更符合需求的場景。因此,MCTS 能夠創(chuàng)造出比其訓(xùn)練所用的擴散模型更為復(fù)雜的場景?!?/p>
在一次極具說服力的實驗中,MCTS 在一個簡單的餐廳場景中成功添加了最多達 34 件物品,其中包括堆疊得很高的多層點心蒸籠,而其訓(xùn)練數(shù)據(jù)中的場景平均僅包含 17 件物品。
“可控場景生成”還允許通過強化學(xué)習(xí) (reinforcement learning) 來生成多樣化的訓(xùn)練情景。其本質(zhì)是教會擴散模型通過試錯來達成目標。在初始數(shù)據(jù)訓(xùn)練之后,系統(tǒng)會進入第二個訓(xùn)練階段。在這一階段,你會設(shè)定一個獎勵機制(即一個期望的結(jié)果,并用分數(shù)來衡量與目標的接近程度)。模型會自動學(xué)習(xí)如何創(chuàng)造得分更高的場景,其產(chǎn)出的情景往往與訓(xùn)練數(shù)據(jù)大相徑庭。
用戶還可以通過輸入具體的視覺描述來直接向系統(tǒng)發(fā)出指令(例如,“一個廚房,桌上有一個碗和四個蘋果”)。 “可控場景生成”能夠精確地將這些指令變?yōu)楝F(xiàn)實。例如,該工具在構(gòu)建食品儲藏架場景時,準確遵循用戶指令的成功率高達 98%,而在生成凌亂的早餐桌場景時則達到了 86%。這兩項指標均比 MiDiffusion 和 DiffuScene 等同類方法高出至少 10%。
該系統(tǒng)還能通過提示或簡單的指令來補全特定場景(例如,“使用相同的物體,設(shè)計一個不同的場景布局”)。你可以讓它將蘋果擺放在廚房桌子的幾個盤子上,或是將棋盤游戲和書籍放到架子上。這本質(zhì)上是在保留場景其余部分的同時,“填補”空白區(qū)域。
研究人員認為,他們項目的優(yōu)勢在于能夠創(chuàng)造出大量可供機器人專家實際使用的場景。Pfaff 指出:“我們的一個關(guān)鍵發(fā)現(xiàn)是,用于預(yù)訓(xùn)練的場景不必與我們最終想要的場景完全一致。利用我們的引導(dǎo)方法,我們可以超越原有的數(shù)據(jù)分布,從一個‘更好’的分布中進行采樣。換言之,我們可以生成我們真正想用來訓(xùn)練機器人的那種多樣化、真實且與任務(wù)對齊的場景。”
這些豐富的場景成為了理想的測試平臺,研究人員可以在其中記錄虛擬機器人與不同物品的互動。例如,機器可以精準地將刀叉放入餐具筒,或是在多種 3D 環(huán)境下將面包重新擺放到盤子里。每一次模擬都顯得流暢而逼真,讓我們得以一窺未來由“可控場景生成”技術(shù)訓(xùn)練出的高適應(yīng)性機器人的模樣。
盡管該系統(tǒng)為生成大量多樣的機器人訓(xùn)練數(shù)據(jù)提供了一條前景光明的道路,但研究人員表示,目前的工作更多是作為一種概念驗證。未來,他們希望利用生成式 AI 來創(chuàng)造全新的物體和場景,而不僅僅是使用固定的資產(chǎn)庫。他們還計劃引入可活動的關(guān)節(jié)式物體(如可以打開的柜子或裝有食物的罐子),以增強場景的互動性。
為了使虛擬環(huán)境更加逼真,Pfaff 及其同事可能會借鑒他們之前的研究項目“Scalable Real2Sim”,整合一個從互聯(lián)網(wǎng)圖像中提取的物體和場景庫。通過擴展 AI 構(gòu)建的機器人測試平臺的多樣性和逼真度,團隊希望建立一個用戶社區(qū),共同創(chuàng)造海量數(shù)據(jù),最終形成一個龐大的數(shù)據(jù)集,用于教授靈巧機器人掌握不同的技能。
“在今天,為模擬創(chuàng)建逼真的場景是一項極具挑戰(zhàn)性的工作;程序化生成雖然可以快速產(chǎn)出大量場景,但這些場景很可能無法代表機器人在真實世界中會遇到的環(huán)境。而手動創(chuàng)建定制場景既耗時又昂貴,” 亞馬遜機器人公司 (Amazon Robotics) 的應(yīng)用科學(xué)家 Jeremy Binagia 評論道(他并未參與該項研究)。“‘可控場景生成’提供了一種更好的途徑:在一個大型的預(yù)先存在的場景集合上訓(xùn)練一個生成模型,并(通過強化學(xué)習(xí)等策略)使其適應(yīng)特定的下游應(yīng)用。與以往那些依賴現(xiàn)成視覺語言模型或僅限于在 2D 網(wǎng)格上排列物體的方法相比,這種新方法保證了物理上的可行性,并全面考慮了 3D 的平移和旋轉(zhuǎn),從而能夠生成遠為有趣的場景?!?/p>
豐田研究院的機器人專家 Rick Cory(擁有 2008 年的科學(xué)碩士學(xué)位和 2010 年的博士學(xué)位,他未參與此項研究),他表示:“‘可控場景生成’結(jié)合了訓(xùn)練后處理和推理時搜索,為大規(guī)模自動化場景生成提供了一個新穎而高效的框架。更重要的是,它能夠生成那些被認為對下游任務(wù)至關(guān)重要的‘前所未見’的場景。未來,將這一框架與浩瀚的互聯(lián)網(wǎng)數(shù)據(jù)相結(jié)合,有望在實現(xiàn)機器人在真實世界中高效部署的道路上,解鎖一個重要的里程碑?!?/p>
https://news.mit.edu/2025/using-generative-ai-diversify-virtual-training-grounds-robots-1008
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.