“讓人類能夠逐漸飛向太空并殖民太空一直是我的夢(mèng)想。未來的人類,能否給 AI 任何一個(gè)目標(biāo),AI 就能設(shè)計(jì)并制造出滿足這個(gè)功能的機(jī)器?例如火箭、飛船、火星車等?”近日,西湖大學(xué)特聘研究員吳泰霖表示。為了更加接近這個(gè)目標(biāo),他和團(tuán)隊(duì)提出一款名為 BuildArena 的基準(zhǔn)測(cè)試,能讓大模型智能體直接根據(jù)類似于“造一個(gè)機(jī)器使得其飛得越高越好”目標(biāo),在物理仿真環(huán)境中從零開始設(shè)計(jì)、搭建并運(yùn)行火箭、車輛與橋梁等機(jī)械結(jié)構(gòu)。
吳泰霖告訴 DeepTech,在火箭任務(wù)中,少部分模型能夠單體建造或分步組裝出推重比大于 1 的、構(gòu)造對(duì)稱的、可垂直升空的多引擎火箭;
圖 | 火箭模型(建造過程:Grok 4)(來源:https://github.com)
在交通任務(wù)中,面對(duì)“移動(dòng)一個(gè)貨物”這樣的模糊指令,模型能自主構(gòu)建出符合運(yùn)輸貨物尺寸的具備差速轉(zhuǎn)向的多輪車輛;
圖 | 車輛模型(建造過程:Kimi-K2)(來源:https://github.co)
在橋梁任務(wù)中,模型能夠建造出滿足跨度要求的橋梁結(jié)構(gòu),并展現(xiàn)出了桁架結(jié)構(gòu)等現(xiàn)實(shí)中存在的力學(xué)結(jié)構(gòu)。
圖 | 橋梁模型(建造過程:Grok 4)(來源:https://github.com)
據(jù)介紹,BuildArena 的初衷旨在推動(dòng) AI 智能體技術(shù)在工程建設(shè)領(lǐng)域的發(fā)展,讓 AI 開始在物理世界進(jìn)行建造,而不僅僅是對(duì)話?;?BuildArena 該團(tuán)隊(duì)首次實(shí)現(xiàn)了“從自然語(yǔ)言、到設(shè)計(jì)方案、到工程圖紙、到三維結(jié)構(gòu)”的完整閉環(huán),并在實(shí)時(shí)仿真環(huán)境中完成了驗(yàn)證,即已能獨(dú)立建造出可以運(yùn)行的車輛、火箭和橋梁。據(jù)他們所知,這是第一個(gè)讓大模型能夠通過自然語(yǔ)言指令來執(zhí)行三維結(jié)構(gòu)建造、并能在物理約束環(huán)境中評(píng)估其性能的基準(zhǔn)測(cè)試。該團(tuán)隊(duì)在一篇博客中寫道,BuildArena 是第一個(gè)為語(yǔ)言驅(qū)動(dòng)的工程建設(shè)所設(shè)計(jì)的物理一致的交互式基準(zhǔn),也是第一個(gè)在統(tǒng)一框架之內(nèi)可以全面解決空間推理、三維構(gòu)建、實(shí)現(xiàn)以構(gòu)建為目標(biāo)的規(guī)劃、實(shí)現(xiàn)物理模擬和交互環(huán)境的基準(zhǔn)測(cè)試。
(來源:https://github.com/AI4Science-WestlakeU/BuildArena/)
據(jù)介紹,BuildArena 累計(jì)包含四個(gè)核心組件。
第一個(gè)核心組件是開源的三維空間幾何計(jì)算庫(kù),這款三維空間幾何計(jì)算庫(kù)能夠通過自然語(yǔ)言結(jié)構(gòu)與構(gòu)建空間進(jìn)行交互,確保基于語(yǔ)言的操作與物理結(jié)果之間的一致性。對(duì)于 BuildArena 來說,建造——在本質(zhì)上是一個(gè)迭代的過程:既需要逐步組裝結(jié)構(gòu),還需要讓每個(gè)組件與現(xiàn)有組件連接,更需要持續(xù)地驗(yàn)證物理可行性。
第二個(gè)核心組件是基準(zhǔn)工作流程,它受啟發(fā)于人類工程學(xué)實(shí)踐,由“計(jì)劃器”“起草人”“審閱者”“建造者”“指導(dǎo)”這五個(gè)專門的實(shí)體協(xié)同工作?;鶞?zhǔn)工作流程可被分為三個(gè)階段:規(guī)劃階段、草案評(píng)審循環(huán)階段、構(gòu)建指導(dǎo)循環(huán)階段,最終能夠生成與仿真兼容的構(gòu)建結(jié)果。
第三個(gè)核心組件是基于模擬的評(píng)估,所構(gòu)建的結(jié)果會(huì)在 Besiege 物理模擬器中采用特定任務(wù)協(xié)議進(jìn)行評(píng)估。需要說明的是,Besiege 是一款流行的建造沙盒游戲,具有逼真的物理模擬能力,并已被多次證明符合人類的物理直覺。研究中,本次團(tuán)隊(duì)對(duì)于每個(gè)任務(wù)對(duì)都會(huì)進(jìn)行 64 次采樣以便確保可靠性,所涉及的評(píng)估指標(biāo)涵蓋性能和成本等。
第四個(gè)核心組件是任務(wù)套件,它分為基礎(chǔ)版和可定制版。在相關(guān)論文之中,研究人員列舉了幾個(gè)有代表性的工程任務(wù)類別,每個(gè)工程任務(wù)類別都包含簡(jiǎn)單、中等、困難等三個(gè)等級(jí)。
實(shí)驗(yàn)中,該團(tuán)隊(duì)希望回答以下兩個(gè)問題:首先,BuildArena 能否作為測(cè)試大模型建造能力的有效基準(zhǔn)?其次,現(xiàn)有主流模型在 BuildArena 框架內(nèi)的表現(xiàn)如何?為此,在 BuildArena 上該團(tuán)隊(duì)評(píng)估了八個(gè)模型,它們分別是 GPT-4o、Claude-4、Grok-4、Gemini-2.0、DeepSeek-3.1、Qwen-3、Kimi-K2 和 Seed-1.6,評(píng)估涵蓋了三個(gè)任務(wù)類別和三個(gè)難度等級(jí),每個(gè)任務(wù)類別在三個(gè)難度級(jí)別之下的成功率取不同模型表現(xiàn)的平均值。
吳泰霖回憶稱:在交通任務(wù)中,在一些建造結(jié)果之中模型加入了水炮,試圖使用其推力驅(qū)動(dòng)載具或?qū)崿F(xiàn)轉(zhuǎn)向;有的模型在載具上安裝了兩組移動(dòng)方向正交的輪子,以期實(shí)現(xiàn)斜向移動(dòng)。在橋梁任務(wù)中,部分模型舍棄了橋梁構(gòu)造而是使用單個(gè)柱狀結(jié)構(gòu)實(shí)現(xiàn)支撐;或在橋梁和地面搭接的邊緣添加車輪,并明確指出“利用車輪的自動(dòng)剎車阻尼來穩(wěn)定橋梁和地面的連接”。而在火箭任務(wù)中,出現(xiàn)了模型將四臺(tái)發(fā)動(dòng)機(jī)豎向十字形放置成飛船形狀的嘗試?!半m然發(fā)動(dòng)機(jī)本身由于建造錯(cuò)誤火炬沒有加熱到水炮,不過這些初步證明大模型具備一定的創(chuàng)意能力,同時(shí)多數(shù)建造結(jié)果都比較符合人類常規(guī)預(yù)期。”他表示。
(來源:https://github.com/AI4Science-WestlakeU/BuildArena/)
通過研究,他們得到以下發(fā)現(xiàn):
首先,大模型完全可以進(jìn)行語(yǔ)言驅(qū)動(dòng)的三維構(gòu)建,上述 8 款大模型均能完成多個(gè)難度級(jí)別的構(gòu)建任務(wù),這證明大模型可以將自然語(yǔ)言轉(zhuǎn)化為物理上可行的三維結(jié)構(gòu)。
其次,不同模型的性能差異較大。Grok-4 的整體性能最強(qiáng),在精度和魯棒性方面表現(xiàn)最為出色。其他多數(shù)模型都能很好地處理量級(jí)和模糊性,但是在精度和組合性上表現(xiàn)不佳。
再次,大模型展現(xiàn)出創(chuàng)造性地解決問題的能力。當(dāng)明確性約束被放寬的時(shí)候,大模型能夠提出非常規(guī)的解決方案,例如提出了打造用于運(yùn)輸任務(wù)的推進(jìn)動(dòng)力載體的方案,以及提出了利用自動(dòng)制動(dòng)方法進(jìn)行穩(wěn)定的輪式橋梁結(jié)構(gòu)。
另外,可以捕獲現(xiàn)實(shí)世界的工程知識(shí)。大模型構(gòu)建的結(jié)構(gòu)反映了現(xiàn)實(shí)世界的實(shí)踐,例如橋梁中的鋼桁架和車輛中的差速轉(zhuǎn)向等,這表明從文本中學(xué)習(xí)的結(jié)構(gòu)概念帶有隱含的空間信息。
此外,多數(shù)大模型仍然存在重大限制。在分層組裝任務(wù)和高精度任務(wù)中,多數(shù)大模型的成功率出現(xiàn)急劇下降。除了 Grok-4 之外,大多數(shù)模型在最高難度級(jí)別下完全失敗,這表明多數(shù)大模型在組合構(gòu)建和精確空間對(duì)齊方面依然存在一定挑戰(zhàn)。
最后,更多 tokens 不等于更好的性能。本次研究的成本分析表明,大規(guī)模推理并不能保證高性能。最佳構(gòu)建結(jié)果一般只消耗適量的 tokens,而多次失敗的嘗試則會(huì)導(dǎo)致大量 tokens 的使用。當(dāng)超過能力閾值之后,額外的推理成本并不會(huì)轉(zhuǎn)化為更好的結(jié)果。
圖 | 吳泰霖(來源:吳泰霖)
眾所周知,現(xiàn)實(shí)中工程設(shè)計(jì)需考慮材料強(qiáng)度、空氣動(dòng)力學(xué)等復(fù)雜物理約束。那么,目前的仿真環(huán)境是否足以覆蓋這些現(xiàn)實(shí)復(fù)雜性?對(duì)此,吳泰霖告訴 DeepTech:“我們所提出的是一個(gè) pipeline,而并不追求工業(yè)級(jí)仿真精度,仿真部分主要用于驗(yàn)證結(jié)構(gòu)的性能表現(xiàn)。”
他繼續(xù)說道,在建造環(huán)節(jié),他們引入了嚴(yán)格的 Physics-Aligned 約束機(jī)制,其遵循一個(gè)最基礎(chǔ)但關(guān)鍵的物理原則:任何部件之間不允許重疊或空間沖突。每一次連接操作都會(huì)經(jīng)過幾何與碰撞檢測(cè),若發(fā)生沖突則會(huì)被系統(tǒng)拒絕,并即時(shí)返回反饋。這一約束使語(yǔ)言模型的構(gòu)造行為始終保持“物理可行性”,并讓其在連續(xù)反饋中學(xué)習(xí)空間推理。因此,BuildArena 這種 Physics-Aligned 建造流程可以被直接遷移到更高精度的仿真或現(xiàn)實(shí)驗(yàn)證環(huán)境中。仿真精度影響的是性能評(píng)估,但建造邏輯本身是通用且嚴(yán)格受物理約束的。當(dāng)然,現(xiàn)實(shí)世界的物理約束會(huì)更加復(fù)雜,這也是 BuildArena 未來的提升方向之一。
實(shí)驗(yàn)結(jié)果顯示,目前現(xiàn)有的大模型在工程能力等六個(gè)重要維度還有很大的提升空間。目前大語(yǔ)言模型關(guān)于世界的知識(shí)如此多,卻不能充分了解現(xiàn)實(shí)世界是如何建造的??偟膩碚f,他們?yōu)椤罢Z(yǔ)言”與“物理”架設(shè)了橋梁,第一次讓大模型走向“AI 工程師”角色的探索。BuildArena 的首要意義就是填補(bǔ)目前尚無能為工程建設(shè) LLM agents 發(fā)展進(jìn)步提供落腳點(diǎn)的空白,給社區(qū)提供了一個(gè)能夠檢驗(yàn) AI 工程師并且提供 insight 的試驗(yàn)田。未來,他們希望可以更進(jìn)一步完善 BuildArena 的通用性和易用性,爭(zhēng)取做到讓每一個(gè)人只需改變最開始的目標(biāo),就能設(shè)計(jì)并建造出能夠滿足相關(guān)功能的機(jī)器。
另?yè)?jù)悉,吳泰霖 2012 年于北京大學(xué)獲得學(xué)士學(xué)位,2019 年獲得美國(guó)麻省理工學(xué)院博士學(xué)位,后在美國(guó)斯坦福大學(xué)從事博士后研究。2023 年,吳泰霖正式加入西湖大學(xué)并創(chuàng)建西湖大學(xué)人工智能與科學(xué)仿真發(fā)現(xiàn)實(shí)驗(yàn)室。其研究方向?yàn)?AI for Science,具體研究生成模型及與能源和生命科學(xué)中仿真和控制的深度結(jié)合。
參考資料:
項(xiàng)目主頁(yè) build-arena.github.io
代碼倉(cāng)庫(kù) github.com/AI4Science-WestlakeU/BuildArena
文章鏈接 github.com/AI4Science-WestlakeU/BuildArena/blob/main/BuildArena.pdf
人物主頁(yè) https://www.westlake.edu.cn/faculty/tailin-wu.html
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.