網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

西湖大學(xué)解鎖AI新角色：基建工程師，火箭橋梁都能造！

2025-10-20 22:17:20　來源: DeepTech深科技

北京舉報(bào)

分享至

“讓人類能夠逐漸飛向太空并殖民太空一直是我的夢(mèng)想。未來的人類，能否給 AI 任何一個(gè)目標(biāo)，AI 就能設(shè)計(jì)并制造出滿足這個(gè)功能的機(jī)器？例如火箭、飛船、火星車等？”近日，西湖大學(xué)特聘研究員吳泰霖表示。為了更加接近這個(gè)目標(biāo)，他和團(tuán)隊(duì)提出一款名為 BuildArena 的基準(zhǔn)測(cè)試，能讓大模型智能體直接根據(jù)類似于“造一個(gè)機(jī)器使得其飛得越高越好”目標(biāo)，在物理仿真環(huán)境中從零開始設(shè)計(jì)、搭建并運(yùn)行火箭、車輛與橋梁等機(jī)械結(jié)構(gòu)。

吳泰霖告訴 DeepTech，在火箭任務(wù)中，少部分模型能夠單體建造或分步組裝出推重比大于 1 的、構(gòu)造對(duì)稱的、可垂直升空的多引擎火箭；

圖 | 火箭模型（建造過程：Grok 4）（來源：https://github.com）

在交通任務(wù)中，面對(duì)“移動(dòng)一個(gè)貨物”這樣的模糊指令，模型能自主構(gòu)建出符合運(yùn)輸貨物尺寸的具備差速轉(zhuǎn)向的多輪車輛；

圖 | 車輛模型（建造過程：Kimi-K2）（來源：https://github.co）

在橋梁任務(wù)中，模型能夠建造出滿足跨度要求的橋梁結(jié)構(gòu)，并展現(xiàn)出了桁架結(jié)構(gòu)等現(xiàn)實(shí)中存在的力學(xué)結(jié)構(gòu)。

圖 | 橋梁模型（建造過程：Grok 4）（來源：https://github.com）

據(jù)介紹，BuildArena 的初衷旨在推動(dòng) AI 智能體技術(shù)在工程建設(shè)領(lǐng)域的發(fā)展，讓 AI 開始在物理世界進(jìn)行建造，而不僅僅是對(duì)話?；?BuildArena 該團(tuán)隊(duì)首次實(shí)現(xiàn)了“從自然語(yǔ)言、到設(shè)計(jì)方案、到工程圖紙、到三維結(jié)構(gòu)”的完整閉環(huán)，并在實(shí)時(shí)仿真環(huán)境中完成了驗(yàn)證，即已能獨(dú)立建造出可以運(yùn)行的車輛、火箭和橋梁。據(jù)他們所知，這是第一個(gè)讓大模型能夠通過自然語(yǔ)言指令來執(zhí)行三維結(jié)構(gòu)建造、并能在物理約束環(huán)境中評(píng)估其性能的基準(zhǔn)測(cè)試。該團(tuán)隊(duì)在一篇博客中寫道，BuildArena 是第一個(gè)為語(yǔ)言驅(qū)動(dòng)的工程建設(shè)所設(shè)計(jì)的物理一致的交互式基準(zhǔn)，也是第一個(gè)在統(tǒng)一框架之內(nèi)可以全面解決空間推理、三維構(gòu)建、實(shí)現(xiàn)以構(gòu)建為目標(biāo)的規(guī)劃、實(shí)現(xiàn)物理模擬和交互環(huán)境的基準(zhǔn)測(cè)試。

（來源：https://github.com/AI4Science-WestlakeU/BuildArena/）

據(jù)介紹，BuildArena 累計(jì)包含四個(gè)核心組件。

第一個(gè)核心組件是開源的三維空間幾何計(jì)算庫(kù)，這款三維空間幾何計(jì)算庫(kù)能夠通過自然語(yǔ)言結(jié)構(gòu)與構(gòu)建空間進(jìn)行交互，確保基于語(yǔ)言的操作與物理結(jié)果之間的一致性。對(duì)于 BuildArena 來說，建造——在本質(zhì)上是一個(gè)迭代的過程：既需要逐步組裝結(jié)構(gòu)，還需要讓每個(gè)組件與現(xiàn)有組件連接，更需要持續(xù)地驗(yàn)證物理可行性。

第二個(gè)核心組件是基準(zhǔn)工作流程，它受啟發(fā)于人類工程學(xué)實(shí)踐，由“計(jì)劃器”“起草人”“審閱者”“建造者”“指導(dǎo)”這五個(gè)專門的實(shí)體協(xié)同工作?；鶞?zhǔn)工作流程可被分為三個(gè)階段：規(guī)劃階段、草案評(píng)審循環(huán)階段、構(gòu)建指導(dǎo)循環(huán)階段，最終能夠生成與仿真兼容的構(gòu)建結(jié)果。

第三個(gè)核心組件是基于模擬的評(píng)估，所構(gòu)建的結(jié)果會(huì)在 Besiege 物理模擬器中采用特定任務(wù)協(xié)議進(jìn)行評(píng)估。需要說明的是，Besiege 是一款流行的建造沙盒游戲，具有逼真的物理模擬能力，并已被多次證明符合人類的物理直覺。研究中，本次團(tuán)隊(duì)對(duì)于每個(gè)任務(wù)對(duì)都會(huì)進(jìn)行 64 次采樣以便確保可靠性，所涉及的評(píng)估指標(biāo)涵蓋性能和成本等。

第四個(gè)核心組件是任務(wù)套件，它分為基礎(chǔ)版和可定制版。在相關(guān)論文之中，研究人員列舉了幾個(gè)有代表性的工程任務(wù)類別，每個(gè)工程任務(wù)類別都包含簡(jiǎn)單、中等、困難等三個(gè)等級(jí)。

實(shí)驗(yàn)中，該團(tuán)隊(duì)希望回答以下兩個(gè)問題：首先，BuildArena 能否作為測(cè)試大模型建造能力的有效基準(zhǔn)？其次，現(xiàn)有主流模型在 BuildArena 框架內(nèi)的表現(xiàn)如何？為此，在 BuildArena 上該團(tuán)隊(duì)評(píng)估了八個(gè)模型，它們分別是 GPT-4o、Claude-4、Grok-4、Gemini-2.0、DeepSeek-3.1、Qwen-3、Kimi-K2 和 Seed-1.6，評(píng)估涵蓋了三個(gè)任務(wù)類別和三個(gè)難度等級(jí)，每個(gè)任務(wù)類別在三個(gè)難度級(jí)別之下的成功率取不同模型表現(xiàn)的平均值。

吳泰霖回憶稱：在交通任務(wù)中，在一些建造結(jié)果之中模型加入了水炮，試圖使用其推力驅(qū)動(dòng)載具或?qū)崿F(xiàn)轉(zhuǎn)向；有的模型在載具上安裝了兩組移動(dòng)方向正交的輪子，以期實(shí)現(xiàn)斜向移動(dòng)。在橋梁任務(wù)中，部分模型舍棄了橋梁構(gòu)造而是使用單個(gè)柱狀結(jié)構(gòu)實(shí)現(xiàn)支撐；或在橋梁和地面搭接的邊緣添加車輪，并明確指出“利用車輪的自動(dòng)剎車阻尼來穩(wěn)定橋梁和地面的連接”。而在火箭任務(wù)中，出現(xiàn)了模型將四臺(tái)發(fā)動(dòng)機(jī)豎向十字形放置成飛船形狀的嘗試?！半m然發(fā)動(dòng)機(jī)本身由于建造錯(cuò)誤火炬沒有加熱到水炮，不過這些初步證明大模型具備一定的創(chuàng)意能力，同時(shí)多數(shù)建造結(jié)果都比較符合人類常規(guī)預(yù)期。”他表示。

（來源：https://github.com/AI4Science-WestlakeU/BuildArena/）

通過研究，他們得到以下發(fā)現(xiàn)：

首先，大模型完全可以進(jìn)行語(yǔ)言驅(qū)動(dòng)的三維構(gòu)建，上述 8 款大模型均能完成多個(gè)難度級(jí)別的構(gòu)建任務(wù)，這證明大模型可以將自然語(yǔ)言轉(zhuǎn)化為物理上可行的三維結(jié)構(gòu)。

其次，不同模型的性能差異較大。Grok-4 的整體性能最強(qiáng)，在精度和魯棒性方面表現(xiàn)最為出色。其他多數(shù)模型都能很好地處理量級(jí)和模糊性，但是在精度和組合性上表現(xiàn)不佳。

再次，大模型展現(xiàn)出創(chuàng)造性地解決問題的能力。當(dāng)明確性約束被放寬的時(shí)候，大模型能夠提出非常規(guī)的解決方案，例如提出了打造用于運(yùn)輸任務(wù)的推進(jìn)動(dòng)力載體的方案，以及提出了利用自動(dòng)制動(dòng)方法進(jìn)行穩(wěn)定的輪式橋梁結(jié)構(gòu)。

另外，可以捕獲現(xiàn)實(shí)世界的工程知識(shí)。大模型構(gòu)建的結(jié)構(gòu)反映了現(xiàn)實(shí)世界的實(shí)踐，例如橋梁中的鋼桁架和車輛中的差速轉(zhuǎn)向等，這表明從文本中學(xué)習(xí)的結(jié)構(gòu)概念帶有隱含的空間信息。

此外，多數(shù)大模型仍然存在重大限制。在分層組裝任務(wù)和高精度任務(wù)中，多數(shù)大模型的成功率出現(xiàn)急劇下降。除了 Grok-4 之外，大多數(shù)模型在最高難度級(jí)別下完全失敗，這表明多數(shù)大模型在組合構(gòu)建和精確空間對(duì)齊方面依然存在一定挑戰(zhàn)。

最后，更多 tokens 不等于更好的性能。本次研究的成本分析表明，大規(guī)模推理并不能保證高性能。最佳構(gòu)建結(jié)果一般只消耗適量的 tokens，而多次失敗的嘗試則會(huì)導(dǎo)致大量 tokens 的使用。當(dāng)超過能力閾值之后，額外的推理成本并不會(huì)轉(zhuǎn)化為更好的結(jié)果。

圖 | 吳泰霖（來源：吳泰霖）

眾所周知，現(xiàn)實(shí)中工程設(shè)計(jì)需考慮材料強(qiáng)度、空氣動(dòng)力學(xué)等復(fù)雜物理約束。那么，目前的仿真環(huán)境是否足以覆蓋這些現(xiàn)實(shí)復(fù)雜性？對(duì)此，吳泰霖告訴 DeepTech：“我們所提出的是一個(gè) pipeline，而并不追求工業(yè)級(jí)仿真精度，仿真部分主要用于驗(yàn)證結(jié)構(gòu)的性能表現(xiàn)。”

他繼續(xù)說道，在建造環(huán)節(jié)，他們引入了嚴(yán)格的 Physics-Aligned 約束機(jī)制，其遵循一個(gè)最基礎(chǔ)但關(guān)鍵的物理原則：任何部件之間不允許重疊或空間沖突。每一次連接操作都會(huì)經(jīng)過幾何與碰撞檢測(cè)，若發(fā)生沖突則會(huì)被系統(tǒng)拒絕，并即時(shí)返回反饋。這一約束使語(yǔ)言模型的構(gòu)造行為始終保持“物理可行性”，并讓其在連續(xù)反饋中學(xué)習(xí)空間推理。因此，BuildArena 這種 Physics-Aligned 建造流程可以被直接遷移到更高精度的仿真或現(xiàn)實(shí)驗(yàn)證環(huán)境中。仿真精度影響的是性能評(píng)估，但建造邏輯本身是通用且嚴(yán)格受物理約束的。當(dāng)然，現(xiàn)實(shí)世界的物理約束會(huì)更加復(fù)雜，這也是 BuildArena 未來的提升方向之一。

實(shí)驗(yàn)結(jié)果顯示，目前現(xiàn)有的大模型在工程能力等六個(gè)重要維度還有很大的提升空間。目前大語(yǔ)言模型關(guān)于世界的知識(shí)如此多，卻不能充分了解現(xiàn)實(shí)世界是如何建造的?？偟膩碚f，他們?yōu)椤罢Z(yǔ)言”與“物理”架設(shè)了橋梁，第一次讓大模型走向“AI 工程師”角色的探索。BuildArena 的首要意義就是填補(bǔ)目前尚無能為工程建設(shè) LLM agents 發(fā)展進(jìn)步提供落腳點(diǎn)的空白，給社區(qū)提供了一個(gè)能夠檢驗(yàn) AI 工程師并且提供 insight 的試驗(yàn)田。未來，他們希望可以更進(jìn)一步完善 BuildArena 的通用性和易用性，爭(zhēng)取做到讓每一個(gè)人只需改變最開始的目標(biāo)，就能設(shè)計(jì)并建造出能夠滿足相關(guān)功能的機(jī)器。

另?yè)?jù)悉，吳泰霖 2012 年于北京大學(xué)獲得學(xué)士學(xué)位，2019 年獲得美國(guó)麻省理工學(xué)院博士學(xué)位，后在美國(guó)斯坦福大學(xué)從事博士后研究。2023 年，吳泰霖正式加入西湖大學(xué)并創(chuàng)建西湖大學(xué)人工智能與科學(xué)仿真發(fā)現(xiàn)實(shí)驗(yàn)室。其研究方向?yàn)?AI for Science，具體研究生成模型及與能源和生命科學(xué)中仿真和控制的深度結(jié)合。

參考資料：

項(xiàng)目主頁(yè) build-arena.github.io

代碼倉(cāng)庫(kù) github.com/AI4Science-WestlakeU/BuildArena

文章鏈接 github.com/AI4Science-WestlakeU/BuildArena/blob/main/BuildArena.pdf

人物主頁(yè) https://www.westlake.edu.cn/faculty/tailin-wu.html

運(yùn)營(yíng)/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.