夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

西湖大學(xué)解鎖AI新角色:基建工程師,火箭橋梁都能造!

0
分享至

“讓人類能夠逐漸飛向太空并殖民太空一直是我的夢(mèng)想。未來的人類,能否給 AI 任何一個(gè)目標(biāo),AI 就能設(shè)計(jì)并制造出滿足這個(gè)功能的機(jī)器?例如火箭、飛船、火星車等?”近日,西湖大學(xué)特聘研究員吳泰霖表示。為了更加接近這個(gè)目標(biāo),他和團(tuán)隊(duì)提出一款名為 BuildArena 的基準(zhǔn)測(cè)試,能讓大模型智能體直接根據(jù)類似于“造一個(gè)機(jī)器使得其飛得越高越好”目標(biāo),在物理仿真環(huán)境中從零開始設(shè)計(jì)、搭建并運(yùn)行火箭、車輛與橋梁等機(jī)械結(jié)構(gòu)。

吳泰霖告訴 DeepTech,在火箭任務(wù)中,少部分模型能夠單體建造或分步組裝出推重比大于 1 的、構(gòu)造對(duì)稱的、可垂直升空的多引擎火箭;


圖 | 火箭模型(建造過程:Grok 4)(來源:https://github.com)

在交通任務(wù)中,面對(duì)“移動(dòng)一個(gè)貨物”這樣的模糊指令,模型能自主構(gòu)建出符合運(yùn)輸貨物尺寸的具備差速轉(zhuǎn)向的多輪車輛;


圖 | 車輛模型(建造過程:Kimi-K2)(來源:https://github.co)

在橋梁任務(wù)中,模型能夠建造出滿足跨度要求的橋梁結(jié)構(gòu),并展現(xiàn)出了桁架結(jié)構(gòu)等現(xiàn)實(shí)中存在的力學(xué)結(jié)構(gòu)。


圖 | 橋梁模型(建造過程:Grok 4)(來源:https://github.com)

據(jù)介紹,BuildArena 的初衷旨在推動(dòng) AI 智能體技術(shù)在工程建設(shè)領(lǐng)域的發(fā)展,讓 AI 開始在物理世界進(jìn)行建造,而不僅僅是對(duì)話?;?BuildArena 該團(tuán)隊(duì)首次實(shí)現(xiàn)了“從自然語(yǔ)言、到設(shè)計(jì)方案、到工程圖紙、到三維結(jié)構(gòu)”的完整閉環(huán),并在實(shí)時(shí)仿真環(huán)境中完成了驗(yàn)證,即已能獨(dú)立建造出可以運(yùn)行的車輛、火箭和橋梁。據(jù)他們所知,這是第一個(gè)讓大模型能夠通過自然語(yǔ)言指令來執(zhí)行三維結(jié)構(gòu)建造、并能在物理約束環(huán)境中評(píng)估其性能的基準(zhǔn)測(cè)試。該團(tuán)隊(duì)在一篇博客中寫道,BuildArena 是第一個(gè)為語(yǔ)言驅(qū)動(dòng)的工程建設(shè)所設(shè)計(jì)的物理一致的交互式基準(zhǔn),也是第一個(gè)在統(tǒng)一框架之內(nèi)可以全面解決空間推理、三維構(gòu)建、實(shí)現(xiàn)以構(gòu)建為目標(biāo)的規(guī)劃、實(shí)現(xiàn)物理模擬和交互環(huán)境的基準(zhǔn)測(cè)試。


(來源:https://github.com/AI4Science-WestlakeU/BuildArena/)

據(jù)介紹,BuildArena 累計(jì)包含四個(gè)核心組件。

第一個(gè)核心組件是開源的三維空間幾何計(jì)算庫(kù),這款三維空間幾何計(jì)算庫(kù)能夠通過自然語(yǔ)言結(jié)構(gòu)與構(gòu)建空間進(jìn)行交互,確保基于語(yǔ)言的操作與物理結(jié)果之間的一致性。對(duì)于 BuildArena 來說,建造——在本質(zhì)上是一個(gè)迭代的過程:既需要逐步組裝結(jié)構(gòu),還需要讓每個(gè)組件與現(xiàn)有組件連接,更需要持續(xù)地驗(yàn)證物理可行性。

第二個(gè)核心組件是基準(zhǔn)工作流程,它受啟發(fā)于人類工程學(xué)實(shí)踐,由“計(jì)劃器”“起草人”“審閱者”“建造者”“指導(dǎo)”這五個(gè)專門的實(shí)體協(xié)同工作?;鶞?zhǔn)工作流程可被分為三個(gè)階段:規(guī)劃階段、草案評(píng)審循環(huán)階段、構(gòu)建指導(dǎo)循環(huán)階段,最終能夠生成與仿真兼容的構(gòu)建結(jié)果。

第三個(gè)核心組件是基于模擬的評(píng)估,所構(gòu)建的結(jié)果會(huì)在 Besiege 物理模擬器中采用特定任務(wù)協(xié)議進(jìn)行評(píng)估。需要說明的是,Besiege 是一款流行的建造沙盒游戲,具有逼真的物理模擬能力,并已被多次證明符合人類的物理直覺。研究中,本次團(tuán)隊(duì)對(duì)于每個(gè)任務(wù)對(duì)都會(huì)進(jìn)行 64 次采樣以便確保可靠性,所涉及的評(píng)估指標(biāo)涵蓋性能和成本等。

第四個(gè)核心組件是任務(wù)套件,它分為基礎(chǔ)版和可定制版。在相關(guān)論文之中,研究人員列舉了幾個(gè)有代表性的工程任務(wù)類別,每個(gè)工程任務(wù)類別都包含簡(jiǎn)單、中等、困難等三個(gè)等級(jí)。

實(shí)驗(yàn)中,該團(tuán)隊(duì)希望回答以下兩個(gè)問題:首先,BuildArena 能否作為測(cè)試大模型建造能力的有效基準(zhǔn)?其次,現(xiàn)有主流模型在 BuildArena 框架內(nèi)的表現(xiàn)如何?為此,在 BuildArena 上該團(tuán)隊(duì)評(píng)估了八個(gè)模型,它們分別是 GPT-4o、Claude-4、Grok-4、Gemini-2.0、DeepSeek-3.1、Qwen-3、Kimi-K2 和 Seed-1.6,評(píng)估涵蓋了三個(gè)任務(wù)類別和三個(gè)難度等級(jí),每個(gè)任務(wù)類別在三個(gè)難度級(jí)別之下的成功率取不同模型表現(xiàn)的平均值。

吳泰霖回憶稱:在交通任務(wù)中,在一些建造結(jié)果之中模型加入了水炮,試圖使用其推力驅(qū)動(dòng)載具或?qū)崿F(xiàn)轉(zhuǎn)向;有的模型在載具上安裝了兩組移動(dòng)方向正交的輪子,以期實(shí)現(xiàn)斜向移動(dòng)。在橋梁任務(wù)中,部分模型舍棄了橋梁構(gòu)造而是使用單個(gè)柱狀結(jié)構(gòu)實(shí)現(xiàn)支撐;或在橋梁和地面搭接的邊緣添加車輪,并明確指出“利用車輪的自動(dòng)剎車阻尼來穩(wěn)定橋梁和地面的連接”。而在火箭任務(wù)中,出現(xiàn)了模型將四臺(tái)發(fā)動(dòng)機(jī)豎向十字形放置成飛船形狀的嘗試?!半m然發(fā)動(dòng)機(jī)本身由于建造錯(cuò)誤火炬沒有加熱到水炮,不過這些初步證明大模型具備一定的創(chuàng)意能力,同時(shí)多數(shù)建造結(jié)果都比較符合人類常規(guī)預(yù)期。”他表示。


(來源:https://github.com/AI4Science-WestlakeU/BuildArena/)

通過研究,他們得到以下發(fā)現(xiàn):

首先,大模型完全可以進(jìn)行語(yǔ)言驅(qū)動(dòng)的三維構(gòu)建,上述 8 款大模型均能完成多個(gè)難度級(jí)別的構(gòu)建任務(wù),這證明大模型可以將自然語(yǔ)言轉(zhuǎn)化為物理上可行的三維結(jié)構(gòu)。

其次,不同模型的性能差異較大。Grok-4 的整體性能最強(qiáng),在精度和魯棒性方面表現(xiàn)最為出色。其他多數(shù)模型都能很好地處理量級(jí)和模糊性,但是在精度和組合性上表現(xiàn)不佳。

再次,大模型展現(xiàn)出創(chuàng)造性地解決問題的能力。當(dāng)明確性約束被放寬的時(shí)候,大模型能夠提出非常規(guī)的解決方案,例如提出了打造用于運(yùn)輸任務(wù)的推進(jìn)動(dòng)力載體的方案,以及提出了利用自動(dòng)制動(dòng)方法進(jìn)行穩(wěn)定的輪式橋梁結(jié)構(gòu)。

另外,可以捕獲現(xiàn)實(shí)世界的工程知識(shí)。大模型構(gòu)建的結(jié)構(gòu)反映了現(xiàn)實(shí)世界的實(shí)踐,例如橋梁中的鋼桁架和車輛中的差速轉(zhuǎn)向等,這表明從文本中學(xué)習(xí)的結(jié)構(gòu)概念帶有隱含的空間信息。

此外,多數(shù)大模型仍然存在重大限制。在分層組裝任務(wù)和高精度任務(wù)中,多數(shù)大模型的成功率出現(xiàn)急劇下降。除了 Grok-4 之外,大多數(shù)模型在最高難度級(jí)別下完全失敗,這表明多數(shù)大模型在組合構(gòu)建和精確空間對(duì)齊方面依然存在一定挑戰(zhàn)。

最后,更多 tokens 不等于更好的性能。本次研究的成本分析表明,大規(guī)模推理并不能保證高性能。最佳構(gòu)建結(jié)果一般只消耗適量的 tokens,而多次失敗的嘗試則會(huì)導(dǎo)致大量 tokens 的使用。當(dāng)超過能力閾值之后,額外的推理成本并不會(huì)轉(zhuǎn)化為更好的結(jié)果。


圖 | 吳泰霖(來源:吳泰霖)

眾所周知,現(xiàn)實(shí)中工程設(shè)計(jì)需考慮材料強(qiáng)度、空氣動(dòng)力學(xué)等復(fù)雜物理約束。那么,目前的仿真環(huán)境是否足以覆蓋這些現(xiàn)實(shí)復(fù)雜性?對(duì)此,吳泰霖告訴 DeepTech:“我們所提出的是一個(gè) pipeline,而并不追求工業(yè)級(jí)仿真精度,仿真部分主要用于驗(yàn)證結(jié)構(gòu)的性能表現(xiàn)。”

他繼續(xù)說道,在建造環(huán)節(jié),他們引入了嚴(yán)格的 Physics-Aligned 約束機(jī)制,其遵循一個(gè)最基礎(chǔ)但關(guān)鍵的物理原則:任何部件之間不允許重疊或空間沖突。每一次連接操作都會(huì)經(jīng)過幾何與碰撞檢測(cè),若發(fā)生沖突則會(huì)被系統(tǒng)拒絕,并即時(shí)返回反饋。這一約束使語(yǔ)言模型的構(gòu)造行為始終保持“物理可行性”,并讓其在連續(xù)反饋中學(xué)習(xí)空間推理。因此,BuildArena 這種 Physics-Aligned 建造流程可以被直接遷移到更高精度的仿真或現(xiàn)實(shí)驗(yàn)證環(huán)境中。仿真精度影響的是性能評(píng)估,但建造邏輯本身是通用且嚴(yán)格受物理約束的。當(dāng)然,現(xiàn)實(shí)世界的物理約束會(huì)更加復(fù)雜,這也是 BuildArena 未來的提升方向之一。

實(shí)驗(yàn)結(jié)果顯示,目前現(xiàn)有的大模型在工程能力等六個(gè)重要維度還有很大的提升空間。目前大語(yǔ)言模型關(guān)于世界的知識(shí)如此多,卻不能充分了解現(xiàn)實(shí)世界是如何建造的??偟膩碚f,他們?yōu)椤罢Z(yǔ)言”與“物理”架設(shè)了橋梁,第一次讓大模型走向“AI 工程師”角色的探索。BuildArena 的首要意義就是填補(bǔ)目前尚無能為工程建設(shè) LLM agents 發(fā)展進(jìn)步提供落腳點(diǎn)的空白,給社區(qū)提供了一個(gè)能夠檢驗(yàn) AI 工程師并且提供 insight 的試驗(yàn)田。未來,他們希望可以更進(jìn)一步完善 BuildArena 的通用性和易用性,爭(zhēng)取做到讓每一個(gè)人只需改變最開始的目標(biāo),就能設(shè)計(jì)并建造出能夠滿足相關(guān)功能的機(jī)器。

另?yè)?jù)悉,吳泰霖 2012 年于北京大學(xué)獲得學(xué)士學(xué)位,2019 年獲得美國(guó)麻省理工學(xué)院博士學(xué)位,后在美國(guó)斯坦福大學(xué)從事博士后研究。2023 年,吳泰霖正式加入西湖大學(xué)并創(chuàng)建西湖大學(xué)人工智能與科學(xué)仿真發(fā)現(xiàn)實(shí)驗(yàn)室。其研究方向?yàn)?AI for Science,具體研究生成模型及與能源和生命科學(xué)中仿真和控制的深度結(jié)合。

參考資料:

項(xiàng)目主頁(yè) build-arena.github.io

代碼倉(cāng)庫(kù) github.com/AI4Science-WestlakeU/BuildArena

文章鏈接 github.com/AI4Science-WestlakeU/BuildArena/blob/main/BuildArena.pdf

人物主頁(yè) https://www.westlake.edu.cn/faculty/tailin-wu.html

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
數(shù)據(jù)惡化了!

數(shù)據(jù)惡化了!

梳子姐
2025-10-21 16:22:24
跨國(guó)藥企恐因集采紛紛退出中國(guó)市場(chǎng),原研藥再次面臨全軍覆滅

跨國(guó)藥企恐因集采紛紛退出中國(guó)市場(chǎng),原研藥再次面臨全軍覆滅

西虹市閑話
2025-10-22 08:45:35
驚人!武漢2024年寫字樓空置率達(dá)43%,排名全球主要城市第一

驚人!武漢2024年寫字樓空置率達(dá)43%,排名全球主要城市第一

風(fēng)向觀察
2025-10-21 21:25:13
拉鋸戰(zhàn)!火箭壓制衛(wèi)冕冠軍:杜蘭特11中6轟18分,亞歷山大低迷

拉鋸戰(zhàn)!火箭壓制衛(wèi)冕冠軍:杜蘭特11中6轟18分,亞歷山大低迷

體壇小李
2025-10-22 08:56:11
釋新聞|美澳簽關(guān)鍵礦物協(xié)議,特朗普“一年后”會(huì)得到很多稀土嗎?

釋新聞|美澳簽關(guān)鍵礦物協(xié)議,特朗普“一年后”會(huì)得到很多稀土嗎?

澎湃新聞
2025-10-21 21:32:28
貝林厄姆“空中懸浮”照引爆網(wǎng)絡(luò),真相竟是皇馬體能革命

貝林厄姆“空中懸浮”照引爆網(wǎng)絡(luò),真相竟是皇馬體能革命

星耀國(guó)際足壇
2025-10-21 23:37:24
不打了?澤連斯基態(tài)度大轉(zhuǎn)變,烏軍跪地舉白旗向俄無人機(jī)投降

不打了?澤連斯基態(tài)度大轉(zhuǎn)變,烏軍跪地舉白旗向俄無人機(jī)投降

聞識(shí)
2025-10-19 14:00:50
年僅55歲,沉痛哀悼!上海知名上市公司突發(fā)公告

年僅55歲,沉痛哀悼!上海知名上市公司突發(fā)公告

新民晚報(bào)
2025-10-21 20:28:55
46歲阿姨在迪拜當(dāng)月嫂3年,走前雇主遞8000元,到家后開行李箱傻了

46歲阿姨在迪拜當(dāng)月嫂3年,走前雇主遞8000元,到家后開行李箱傻了

如煙若夢(mèng)
2025-09-22 18:30:04
誰(shuí)更著急?巴西大豆價(jià)“飆上天”,中國(guó)一怒停購(gòu),糧倉(cāng)快撐爆了

誰(shuí)更著急?巴西大豆價(jià)“飆上天”,中國(guó)一怒停購(gòu),糧倉(cāng)快撐爆了

云上烏托邦
2025-10-22 00:22:59
南海局勢(shì)有變,累計(jì)37.5小時(shí),解放軍劃下落彈區(qū),菲國(guó)船已被打退

南海局勢(shì)有變,累計(jì)37.5小時(shí),解放軍劃下落彈區(qū),菲國(guó)船已被打退

時(shí)時(shí)有聊
2025-10-21 18:45:17
天龍人?留學(xué)生自曝資產(chǎn)10位數(shù),父親廳級(jí)手持外交與多國(guó)護(hù)照!

天龍人?留學(xué)生自曝資產(chǎn)10位數(shù),父親廳級(jí)手持外交與多國(guó)護(hù)照!

眼光很亮
2025-10-21 14:40:02
收拾電詐分子,還是西藥見效快

收拾電詐分子,還是西藥見效快

十柱
2025-10-20 21:46:53
央行正式放開5萬(wàn)元取現(xiàn)限制!釋放兩個(gè)明確信號(hào),咱老百姓要留意

央行正式放開5萬(wàn)元取現(xiàn)限制!釋放兩個(gè)明確信號(hào),咱老百姓要留意

慧眼看世界哈哈
2025-10-22 06:21:27
18歲亞馬爾直播中對(duì)女友做不雅動(dòng)作在國(guó)外瘋傳,球迷:難成大器

18歲亞馬爾直播中對(duì)女友做不雅動(dòng)作在國(guó)外瘋傳,球迷:難成大器

凌空倒鉤
2025-10-22 07:12:37
炸裂!妻子出軌8人,聊天記錄不堪入目,河南丈夫后悔看妻子手機(jī)

炸裂!妻子出軌8人,聊天記錄不堪入目,河南丈夫后悔看妻子手機(jī)

派大星紀(jì)錄片
2025-10-21 18:25:23
日本鐵路月臺(tái)男女中學(xué)生不雅事件,女方仙氣正臉曝光成焦點(diǎn)!

日本鐵路月臺(tái)男女中學(xué)生不雅事件,女方仙氣正臉曝光成焦點(diǎn)!

環(huán)球趣聞分享
2025-10-21 14:05:03
浙江男子花30多萬(wàn)買了輛小米YU7 Pro,主駕下方出現(xiàn)不知名零件!男子:這是個(gè)什么東西?工作人員一片沉默

浙江男子花30多萬(wàn)買了輛小米YU7 Pro,主駕下方出現(xiàn)不知名零件!男子:這是個(gè)什么東西?工作人員一片沉默

FM93浙江交通之聲
2025-10-22 00:16:37
李政道曾公開表示,與楊振寧的決裂是中華民族的一大悲?。?>
    </a>
        <h3>
      <a href=李政道曾公開表示,與楊振寧的決裂是中華民族的一大悲??! 鶴羽說個(gè)事
2025-10-21 10:51:56
俄外長(zhǎng):“立即?;稹边`背此前達(dá)成的共識(shí),必須解決沖突的根源

俄外長(zhǎng):“立即?;稹边`背此前達(dá)成的共識(shí),必須解決沖突的根源

財(cái)聯(lián)社
2025-10-22 00:46:05
2025-10-22 09:44:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15756文章數(shù) 514203關(guān)注度
往期回顧 全部

科技要聞

OpenAI瀏覽器來了!“智能體”成最大亮點(diǎn)

頭條要聞

9歲男孩患"兒童腫瘤之王":如果我不在了 不要忘記我

頭條要聞

9歲男孩患"兒童腫瘤之王":如果我不在了 不要忘記我

體育要聞

感謝黑幕狀元簽,讓我們看到最強(qiáng)弗拉格

娛樂要聞

陳柏霖已承認(rèn)逃兵役,他知道跑不掉了

財(cái)經(jīng)要聞

跳水!國(guó)際金價(jià)、白銀大跌

汽車要聞

試駕江鈴羿馳05S 底盤扎實(shí)可靠/還有大空間

態(tài)度原創(chuàng)

本地
藝術(shù)
數(shù)碼
旅游
軍事航空

本地新聞

云游中國(guó)|一腳踏入萬(wàn)州,才懂煙火江城的真意

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

29999 元起,2025 款 M5 芯片蘋果 Vision Pro 頭顯今日發(fā)售

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

特朗普呼吁立即?;?遭俄方堅(jiān)決駁斥

無障礙瀏覽 進(jìn)入關(guān)懷版 粗长巨龙挤进新婚少妇未删版| 色噜噜狠狠一区二区三区| av一区二三区| 久久国产亚洲精选av| 久久国产精品偷任你爽任你| 亚洲精品中文字幕无码专区一| 亚洲国产美女精品久久久| 国产人妻一区二区三区久| 亚洲av小说| 亚洲AV秘 在线播放| 一边呻吟一边吞精的少妇| 国产亚洲A∨片在线观看| 国产国模一区二区三区四区| 欧美日韩操逼视频| 沈阳露脸老熟女高潮| 啪啪1000免费视频| 天天爽夜夜爽人人爽一区二区| 97夜夜澡人人爽人人| 美女被扒开内裤桶屁股眼视频网站| 久久综合伊人77777麻豆| 亚洲av无码一区二区三区网址 | av综合成人在线| 国产亚洲精品超碰| 人人妻人人上视频| 一个人看的WWW高清动漫| 98亚洲无码在线观看| 成人无码午夜在线观看| 亚洲图片欧美激情| 夫妻 一区二区| 亚洲综合色成在线播放| 天堂av2020| 欧美自拍偷拍另类| 激情动态图亚洲区域激情| 东京热无码人妻一区二区AV| 欧美在线免费观看精品一区| 久久精品国产99久久久| 午夜精品一区二区三区在线视| www.pingsby.cn| 国产AV口爆吞精亚洲浪潮AV| 日本护士╳╳╳hd少妇| 美女张开腿让男人捅|