「一腦多形」圓桌：世界模型、空間智能在具身智能出現(xiàn)了哪些具體進展？｜GAIR 2025

2025-12-22 23:11:30　來源: AI科技評論

廣東舉報

分享至

世界模型解決具身智能相關(guān)問題，會不會距離太遠？

作者丨張進

編輯丨林覺民

在 12 月 13 日舉行的第八屆GAIR全球人工智能與機器人大會“數(shù)據(jù)&一腦多形”分論壇上，一場有關(guān)“一腦多形”的圓桌論壇，將整個會場氣氛推向高潮，在英諾天使基金 ED 王建明的主持下，浙江大學控制學院副教授，微分智飛創(chuàng)始人高飛，寧波東方理工大學助理教授金鑫，上海人工智能實驗室青年科學家王靖博三位嘉賓圍繞著具身智能、空間智能、世界模型等話題進行了熱烈討論。

通過主持人特有的投資人式、抽絲剝繭的提問，圍繞著幾位學者的研究和創(chuàng)業(yè)方向，我們可以了解到當下最火熱的世界模型、空間智能在具身智能領(lǐng)域的研究進展和細節(jié)，從而得以穿透資本籠罩在世界模型、空間智能的迷霧，看到具身智能當下遇到的挑戰(zhàn)與機遇。

具身智能技術(shù)路線仍未收斂

王建明：三位學者研究的方向都非常不一樣，開場先問一個共性的問題熱熱場，大家怎么看過去兩年具身智能的發(fā)展？

高飛：現(xiàn)在還沒到技術(shù)路線收斂的時候，還屬于探索階段，這是好事，有發(fā)散才有機會。這波具身智能的熱潮，大家本質(zhì)期待的還是 AI 結(jié)合本體能帶來的智能性的飛躍。我認為從發(fā)散探索到技術(shù)路線收斂、到最后落地階段，大家還是要記住自己做具身智能的初心是什么。如果不是為了通用泛化智能，最后這個領(lǐng)域又收斂回工業(yè)自動化了，可能就沒有太大的意義了。

金鑫：我也非常同意高老師的看法，我感覺這兩年留給高校的機會相對產(chǎn)業(yè)界來講比較少，希望未來更多把具身智能的核心問題交給高校去突破，比如交互、人機協(xié)同、多智能體、世界模型等等抽象出的關(guān)鍵問題，產(chǎn)業(yè)去做更落地的事情。希望未來兩年能看到高校跟企業(yè)更好地合作、平衡。

王靖博：相比較在純數(shù)字世界中做一些例如scaling up 的事情，我更關(guān)注具身智能軟硬件的 code design，比如人形機器人十年前的波士頓動力 Atlas 就展示出了很好的運動能力，但它并沒有從實驗室的產(chǎn)品進入產(chǎn)業(yè)界，當有了較好的軟硬件的 code design，可能會加快整個領(lǐng)域的進程。

王建明：高飛老師的演講剛剛展示了特別多的能力，例如單個機器人的自主路徑的規(guī)劃決策、集群、飛行操作，demo 演示都非常驚艷，這些能力背后是如何做到的？跟您過往研究是否有協(xié)同？

高飛：很難有一句話來說明白怎么做到的，不同的 demo 肯定有不同的技術(shù)路線，我之所以比較擅長做一些比較 fancy 的 demo，可能是因為我比較擅長在保持著一定發(fā)散思維的情況下，還有比較好的執(zhí)行力，最后能把想法落實。在具體技術(shù)路線里，我的優(yōu)勢可能是：在無人機領(lǐng)域，我可能是比較懂 AI 的；在 AI 領(lǐng)域，我可能是比較懂無人機的。

單體機器人的研究思路是通過放大其極限情況下的小腦能力，現(xiàn)在比較合適收斂的技術(shù)路線越來越往端到端的方向傾斜。通過端到端可以降低整個系統(tǒng)的 compound error（復(fù)合誤差）和降低延遲。具體用什么解法，就要 case by case，做 robotics 的好處就是這是很尊重客觀事實、面向?qū)ο蟮囊粋€學科，什么好用我們用什么。

決策這塊，現(xiàn)在業(yè)界的共識可能要通過放大 VLM的能力，而對于群體機器人而言，打造一種柔性的、彈性的、分布式的、靈活的群體架構(gòu)才是一切的基礎(chǔ)。

王建明：我比較好奇無人機的端到端是什么端到端？我的簡單粗化理解大家說的端到端是一個黑箱操作，是data driven的事情。

高飛：我認為端到端和 data driven 是兩個概念，舉個例子，無人機的端到端是圖像輸入，電機控制，那是不是一定要用到機器學習、黑箱、RL，其實不一定。20年前大家研究無人機，就可能會在地上貼一個小球，無人機的攝像頭看到這個小球，通過把小球的像素點控制在像平面中間，讓無人機可以保持懸停。這是不是端到端？是，因為它用 PID把一端輸入的信息——圖像空間中的點誤差，映射到另一端輸出的控制指令。

端到端是一種范式，強化學習是一種解法，黑箱是一種模式，三者是不一樣的概念，不應(yīng)該被直接畫上等號。

王建明：所以高老師的端到端也用到各種解法？

高飛：各種各樣的解法，以解決問題為唯一目標。

王建明：也有涉及到強化學習？

高飛：現(xiàn)在用大量的強化學習。

王建明：無人機的高速穿越我印象里有強調(diào)強化學習，高老師的工作中還是有一些 rule base 的東西存在？

高飛：我們不叫rule base，我們叫 model base 或者叫 principle base，我們很少去寫規(guī)則。大家經(jīng)常會批判 rule base，但是如果只寫了一個規(guī)則要怎么解釋你的算法可以在不同的地方避障。所以它一定不是一套規(guī)則，而是一種系統(tǒng)化的模式。

世界模型解決了自動駕駛的哪些問題？

王建明：金老師剛分享了很多世界模型在自動駕駛領(lǐng)域的突破，金老師的研究方向主要是世界模型空間智能。最近一段時間世界模型的概念很火，那么自動駕駛的具體什么問題用世界模型來解決了？

金鑫：現(xiàn)在第一梯隊像特斯拉的方案基本都在用世界模型，之前他們收集到的數(shù)據(jù)已經(jīng)把數(shù)據(jù)飛輪轉(zhuǎn)起來了，這么多數(shù)據(jù)上已經(jīng)積累了大量的corner case，那么他們下一步可能就要通過世界模型模擬的方式再去生成更多海量數(shù)據(jù)，例如覆蓋掉之前在國內(nèi)采集的數(shù)據(jù)以及之前布局不到的地方。

再一個，跟原來通過離線數(shù)據(jù)訓(xùn)練相比，通過世界模型方式可以做閉環(huán)測試。閉環(huán)測試是指上線一個模型后，在世界模型里面跑，跑完后能輸出action得到未來的狀態(tài)，再根據(jù)未來的狀態(tài)測試下一步該怎么做，就能把整個decision making 鏈路放到 world model 里面去做閉環(huán)的測試跟優(yōu)化。這是跟原來技術(shù)方案最大的不同。

現(xiàn)在世界模型在自動駕駛領(lǐng)域為什么這么火，主要還是因為自動駕駛的場景生成還是比較簡單，不像機器人。而自動駕駛領(lǐng)域很早就有世界模型的概念，只是叫法不一樣叫閉環(huán)仿真器，用來做自動駕駛安全測試。是生成式 AI 能力的提升才使得現(xiàn)在世界模型生成的數(shù)據(jù)已經(jīng)到了真假難辨的地步，為此提供大量非常有價值的訓(xùn)練樣本。

王建明：視頻生成是一種世界模型，如果帶上機器人的3D空間，再加上很多動作維度，這個狀態(tài)表征可以是多種多樣的，那么在自動駕駛領(lǐng)域的表征是什么？是一個共識嗎？

金鑫：機器人領(lǐng)域世界模型路線究竟對不對還存在爭議。對于世界模型的定義大家也有不同的看法，例如李飛飛跟 LeCun 就存在差異。李飛飛更偏重于"pixel-wise"（像素級）重建，LeCun 認為不需要重建成人人可見可視的video，直接“ latent-based”表達出來對應(yīng)的機器人的 latent state 就可以了，它也是一種世界模型，只要能夠給定前序的action，能夠預(yù)測出后續(xù)的action，或者state狀態(tài)應(yīng)該怎么變化，本體下個階段會出現(xiàn)什么情況，只要能把這個階段抽象地表達出來，都算世界模型。

所以目前世界模型的定義還沒有定式，我認為在自動駕駛跟機器人兩個任務(wù)之間，對于世界模型的要求跟技術(shù)范式也都有區(qū)別。最初世界模型那篇 paper 提出的概念也很抽象，只要有能預(yù)測未來的能力并且有記憶，都可以被稱為世界模型。

王建明：我觀察到創(chuàng)業(yè)公司層面，現(xiàn)在做世界模型創(chuàng)業(yè)的很多公司創(chuàng)始人都有自動駕駛背景，我想了解下自動駕駛的狀態(tài)表征到底是個什么？

金鑫：可能主流的還是視頻生成。因為牽扯到安全性問題，如果連視頻模態(tài) RGB 的 video 都給不出來，如何相信生出來的數(shù)據(jù)是有效的？自動駕駛主要還是視頻的 ADAS，同時雷達、點云這些傳統(tǒng)的數(shù)據(jù)也要有，所以這是我為什么要做 UniScene，因為生成的模態(tài)越多，信息量越大，我認為 multi model 的前景可能更好。

每家主機廠都在做自己的方案，因為對安全性的要求以及道路場景的復(fù)雜度不同，偏重也都不一樣，例如特斯拉就是純視覺方案，華為有激光雷達輔助。

王建明：世界模型解決具身智能相關(guān)問題，會不會距離太遠？

金鑫：前兩天 LeCun 公布了多模態(tài) V-JEPA，他一直宣稱自己的 latent space 就是世界模型的方案之一。如果要把世界模型打造出來，offline 先做好，再去驅(qū)動具身，這個目前似乎沒有比較明確走通的技術(shù)方案，但像LeCun V-JEPA 直接通過 representation learning 方式先學到對應(yīng)的預(yù)測能力，再去追問輔助，其實已經(jīng)有不少工作，比如 VLA。

但是要說它走通了嗎，把世界模型跟具身結(jié)合起來的方案已經(jīng)有人在售賣了，但要說真正達到剛高老師說的那種通用智能似乎又沒有，還需要時間驗證。

王建明：現(xiàn)在一種說法是把世界模型跟 VLA 對立起來，你剛提到其實這兩種可以結(jié)合。

金鑫：我們昨天上線了一篇研究《Integrating World Models into Vision Language Action and Navigation: A Comprehensive Survey》就是將兩者結(jié)合起來。如何做我們梳理了兩種方式，一種是先創(chuàng)建世界模型，再做 policy learning，要么同時做，不分先后。

王建明：兩者結(jié)合解決的是不同層次的問題？

金鑫：解決的還是老問題，即原本 offline 數(shù)據(jù)集沒辦法通過 imitation learning 模仿學習擁有長程思維和未來預(yù)測的能力。

高飛：相當于 MPC 中的 P(預(yù)測)。很多人認為 MPC 中的模型就是機器人，可以把其他所有狀態(tài)都放到 model 里，也會往前預(yù)測。

王建明：我可以理解MPC 可能是用一個方程來 predict，而世界模型其實是用一個生成式方法來 predict？

高飛：我認為 MPC 里面的 M 怎么來，其實是工程師跟科學家去做了抽象，而世界模型這種數(shù)據(jù)驅(qū)動就是用 AI 自己去探索。本質(zhì)上如果我們用更多 AI，以后就可以不需要那么多科學家去抽象了。

王建明：那 predict 的下一個狀態(tài)是什么樣的？

金鑫：比如說一個長程任務(wù)，我要想象出來后面怎么做，就相當于把它抽象成一個一個 long horizon 問題，現(xiàn)在最難解決的就是長程任務(wù)，有了世界模型之后，長程任務(wù)的理解、預(yù)測能力就能很好地賦予后續(xù)的 different policy 去學習。

什么是無人機的空間智能？

王建明：王博士您主要做全身控制（Whole-Body Control, WBC），把視覺引入到 Whole-Body Control，在這個方向，您覺得大概到什么時間點可能會實現(xiàn)一個看上去還不錯的通用控制器。

王靖博：如果說在仿真器里不做一些力矩的限制，要實現(xiàn)一個還不錯的控制器不難，但會有精度的平衡，可能不太會像真的機械臂一樣指哪打哪。

如果在真實世界里，要實現(xiàn)這件事一方面是算法的問題，一方面也看硬件，在上海 AI LAB 有非常多不同型號的人形機器人，相同的算法跑出來很多不同的結(jié)論，我覺得硬件能力的上限決定了什么時候能取得不錯的成績。

王建明：高老師您剛給我們展示了多機的集群，包括多無人機的協(xié)同，這是否有點像集群學習？

高飛：集群學習具體的定義我不太熟，但是我們會采用集中學習、分布計算的模式，學習、訓(xùn)練的時候在一起，work 的時候各做各的，但是大家都有一個共同的目標。

王建明：三位嘉賓共同探討的另一個共同點可能還有空間智能，包括無人機的空間感知、VLR（Vision-Language Reconstruction）?？臻g智能的定義也很大，怎么理解無人機領(lǐng)域的空間智能呢？

高飛：我覺得空間智能的定義不是特別清晰。感知是 robotics 非常重要的一塊，上一代 robotics 發(fā)展快的一個根源在于 SLAM（即時定位與地圖構(gòu)建）技術(shù)，現(xiàn)在很多做 SLAM 技術(shù)都轉(zhuǎn)行做空間智能了。不是換了個概念，而是很多技術(shù)持續(xù)復(fù)用，可能現(xiàn)在用的更多的是 learning based 方法像 VGGT或者其他 grounding model，但大家的目的可能類似，都為了獲得機器人對空間幾何、 texture，以及各種信息的一種抽象和表征。

原來一些 SLAM 做不了的事情，可能需要 AI 技術(shù)進一步建模，之后進一步去做 learning，所以才有空間智能的概念。

王靖博：我感覺大家對 Semantic（語義）的關(guān)注變多了，Semantic不僅包括物體的類別，用途，交互的方式，還包括物體中 Semantic 的可能性變多了。

王建明：空間物體的關(guān)系，語義信息等等都還處于比較早期的狀態(tài)。

金鑫：比如從第一排左邊開始數(shù)第四個瓶子，類似于這種比較復(fù)雜的空間關(guān)系的描述對于機器人來講就比較困難，尤其是對于做機器人大腦的公司來說很難實現(xiàn)。這種空間能力即所謂的空間智能對人來講很簡單，但是機器人還不成熟。

王建明：解決空間智能問題是缺數(shù)據(jù)嗎？

金鑫：就像剛王老師說的，過去大家對這種 semantic 沒那么敏感，也不會有這方面相應(yīng)的解法跟數(shù)據(jù)。

高飛：我理解可能就像金老師說的，大腦公司面臨的問題是因為大模型的數(shù)據(jù)來源于語言模態(tài)，本身其空間關(guān)系就很弱，所以大模型在空間關(guān)系上就會出現(xiàn)幻覺。但是傳統(tǒng)的 SLAM 在這塊很強，所以要構(gòu)建專門的數(shù)據(jù)集把這些信息對齊。

王建明：現(xiàn)在具身智能很多基座，VLM 中的“Vision”基本上是 2D 的，多模態(tài)本身在 3D 模態(tài)還比較欠缺，所以現(xiàn)在反倒是那些做 SLAM 的公司會強調(diào)把 3D 模態(tài)補足，然后最終在看如何解決空間智能的問題。

金鑫：是的，所以我們做 driver VLA 就加了 visual COT 的思路，也是同樣的道理，給了 depth 等更多信息。

具身智能創(chuàng)業(yè)，奔赴星辰大海還是腳踏實地？

王建明：接下來我們聊聊三位老師在落地上的期待吧，比如像高老師做無人機應(yīng)用，您感覺在這個方向，未來我們現(xiàn)實生活中能看到什么類型的應(yīng)用？

高飛：我認為拉長時間跨度，我們會在生活中看到各種各樣的無人機，這是我一直以來的夢想。但是這個時間可能比較遠，二十年后我們往向窗外，如果沒有各種無人機在做高空作業(yè)，例如送貨送人，那肯定是我們這幫學者、創(chuàng)業(yè)者和從業(yè)者的失敗。

我覺得很多時候我們的技術(shù)已經(jīng) almost there了，再努努力就能突破，但要讓它 work，這一步總要有人去做，這其中有很多事情可以做，具體的落地過程肯定很痛苦，我們正經(jīng)歷這種痛苦。

王建明：無人機已經(jīng)經(jīng)歷過一波應(yīng)用潮，以大疆為主的硬件公司的迭代，到現(xiàn)在這個階段更多要用無人機來解決一些現(xiàn)實問題，而不僅僅把它當作一個設(shè)備。

高飛：可能好落地的應(yīng)用已經(jīng)做完了，但好做的事情其實在整個空中作業(yè)的生態(tài)里不到 1%，比如現(xiàn)在大家熟知的航拍、農(nóng)業(yè)植保機，更多的就不一定說得出來了。但是我們行業(yè)里仍有各種事情可以做，例如發(fā)生了火災(zāi)去高空滅火、高空清洗幕墻、無人機送貨、載人觀光，這些大家講了很久，但還沒有實現(xiàn)。

王建明：為什么還一直沒實現(xiàn)？問題是什么？

高飛：在我看來肯定有很多卡點，最大的一個問題就是不夠智能。或者說某個行業(yè)的無人機需要 rule- based，要寫很多規(guī)則，就需要很多科學家、工程師夜以繼日地用人力去抽象，這件事就很難，也很難算過來賬。如果花了那么大代價開發(fā)物流無人機，最后還不如外賣小哥送得便宜，那么意義就不大。但是AI 的發(fā)展讓我們看到了希望。

機器人也類似，現(xiàn)在很多人形機器人做的事情，其實工廠里一個工業(yè)流水化設(shè)備也能做，可能成本更低，但機器人給人的期待不是一個流水化設(shè)備，而是機器人成功了以后什么事情都能做，我認為天空端、地上、水下都有類似的邏輯。

王建明：所以還是 learning base 的控制范式的改變，也可以增加無人機的應(yīng)用場景。

高飛：這個階段用 AI 結(jié)合大模型，不僅控制、更多是決策，而決策是最難的問題，我認為我們可能看到了具備通用泛化解決問題能力的基座模型的希望。

王建明：金老師您怎么看待整個具身智能的落地應(yīng)用？

金鑫：我自己也在寧波做一些產(chǎn)業(yè)化的事情，剛高老師講到不希望再回到工業(yè)自動化的階段。但現(xiàn)在反倒是工業(yè)自動化的需求非常著急，他們希望把機器人盡快用起來，這就是其中一個很大的 gap。高校老師創(chuàng)業(yè)，技術(shù)人員創(chuàng)業(yè)，尤其是這種新興技術(shù)創(chuàng)業(yè)，他們腦海中的想法跟現(xiàn)實世界發(fā)展存在差距，你想做的是個飛機，可能工廠需要的就是一個自行車。

王建明：王博士，你主要做雙足人形的控制，現(xiàn)在這塊的硬件已經(jīng)相對比較成熟了，那么離最終的應(yīng)用落地您怎么看？

王靖博：今年機器人領(lǐng)域讓大家看到了一些跟提高操作能力無關(guān)的事情，例如巡檢、跳舞等等，大家貌似用一米四以下的機器人就能看起來不錯了，但最終目的還是要讓機器人去干活，在能干活這件事上，硬件的迭代我覺得還不太清楚，無論是人形機器人的負載能力、在高負載下的平衡性、運動的穩(wěn)定性，還有靈巧手的方案，其實還有非常多的挑戰(zhàn)。所以我覺得這個事情還有很遠的路要走。

王建明：在中國創(chuàng)業(yè)面臨一個很大的問題就是最終要去解決一個宏大的問題，但又不得不面臨短期商業(yè)化的矛盾。相比較美國創(chuàng)業(yè)公司，前段時間我看到 Scale AI 最新一輪的估值是 140 億美金，換成人民幣就是近千億的估值。那我們回頭看國內(nèi)的創(chuàng)業(yè)公司，不管是從融資規(guī)模還是估值規(guī)模上來說，你們認為最終通用機器人在中美兩國的估值體系下會是什么樣？一個像 Scale AI 可能就融了三輪而已，估值已經(jīng)到 140 億美金，投資人也沒期待它能解決什么現(xiàn)實具體問題，另一方面中國創(chuàng)業(yè)公司在幾億人民幣估值下，又要去奔赴星辰大海又要腳踏實地商業(yè)化，作為創(chuàng)業(yè)者的高老師您怎么看？

高飛：首先這個估值我肯定看不懂，只能說我無法理解。那從創(chuàng)業(yè)者切身體會，我既然在中國就走好中國路徑。我認為接下來是關(guān)鍵的一代，每一代人都有每一代人的使命，最后誰能把事情做成最重要，而不是看誰估值更高。

金鑫：我也特別同意高老師剛剛的話。估值背后隱藏的東西太多，同時資本的力量太大了?？赡鼙澈蟮馁Y本并不相信這件事一定能做成，只是說要把場子熱起來。我覺得從中國角度來講，從 DeepSeek 之后，中國的投資人對技術(shù)的耐心多了一些，大家能看到這代年輕人還是能做出來東西。

王靖博：整個行業(yè)或者說科研是一場馬拉松，會有一輪又一輪的浪潮，現(xiàn)在可能為了炒熱度，但下一輪真的浪潮來了之后，大家關(guān)心、討論的問題也不一樣了。對一家公司的評估體現(xiàn)著估值上可能會有新的改觀。

觀眾提問環(huán)節(jié)：合成還是真機數(shù)據(jù)更有效，

還是要看任務(wù)，不是真機數(shù)據(jù)就一定最合理。

觀眾提問：既然大家談到目前的技術(shù)路線還沒有收斂，為什么還有這么多學者下場創(chuàng)業(yè)，他們創(chuàng)業(yè)的動機是什么？是因為學術(shù)界的資源不夠來做這件事，還是純粹想蹭這波資本的紅利？

高飛：對于我來說，肯定不是為了蹭資本紅利，沒什么好蹭的。如果你創(chuàng)過業(yè)，就會知道這里面要承擔多少壓力，有多少痛苦要經(jīng)歷。那為什么還要創(chuàng)業(yè)呢，我覺得恰恰要在技術(shù)沒有收斂的時候創(chuàng)業(yè)，不然等收斂了，機會恐怕就不再屬于你了。對于我而言， 5 年前我肯定不會創(chuàng)業(yè)的，因為沒有足夠的變量可以幫助我把這件事情做成，而現(xiàn)在有這個機會，那就 have a try，and try my best，就是這樣。

觀眾提問：有關(guān)機器人數(shù)據(jù)的問題，現(xiàn)在機器人數(shù)據(jù)數(shù)量相對較少，現(xiàn)有三種方法，一種方法是真機采集，但真機比較昂貴，而且機器人本體會迭代，如果想要通過真機回流數(shù)據(jù)的話，其實迭代了之后再應(yīng)用也是個問題。第二種方式是通過仿真，但仿真存在 simulation gap，不過仿真會相對便宜。第三種方式是我最近聽說是有用視頻生成模型來生成更加大量的數(shù)據(jù)，就能彌補其中的誤差，但是這種方式會比較耗算力。想問一下你們覺得以后的數(shù)據(jù)獲取的方向會是哪一種？或者是怎樣去結(jié)合？

金鑫：這個其實討論過很多次，數(shù)據(jù)金字塔，最底下的就是互聯(lián)網(wǎng)數(shù)據(jù)或者 video 的數(shù)據(jù)，這個量也最大，獲取的成本也最低。但是可能只能支撐做一些 pretraining，就比如一些 foundation model，用這部分的 video 讓它去學是沒問題的。再往上就是合成數(shù)據(jù)合成出來的高質(zhì)量數(shù)據(jù)，real 跟 SIM 之間的 gap 比較小，能夠支撐做更多的任務(wù)，提高泛化性。最上面是真機的數(shù)據(jù)，遙操的數(shù)據(jù)。

但合成數(shù)據(jù)也分各種合成數(shù)據(jù)，分無效的一些合成數(shù)據(jù)，有價值的一些合成數(shù)據(jù)，對于物理真實更重要的一些合成數(shù)據(jù)，下面又細分了很多。對于 video 也是一樣，對 video 到底是用人的 human video 去訓(xùn)它，還是說機器人的一些 video 去訓(xùn)它，還是說其他更加 in general 的 video 去訓(xùn)它？這個也不太一樣。所以我覺得目前還在探索哪部分數(shù)據(jù)更有效的階段。我聽過一個比例是721，就是 70% 的 Web data video data， 20% 的 synthetic data，然后 10% 的真機數(shù)據(jù)，但是 who knows？

觀眾提問：現(xiàn)在直接用文生視頻、圖生視頻這種視頻生成模型直接生成機器人的數(shù)據(jù)，相似度其實能夠達到 88%，但是會比較耗卡、耗算力，這種方式你們怎么看？銀河通用他們是 99% 都用合成數(shù)據(jù)，就完全占合成數(shù)據(jù)那一派，所以想看一下你們的看法。

金鑫：耗卡這件事，有錢就可以做，主要還是看能不能生成有效的數(shù)據(jù)。但一定要合成出來的 video 才有效果嗎，也不一定?，F(xiàn)在的 latent space 的生成也是一種生成方案，又回到剛剛那個老問題，就是 word model for VLA 或者 word model for embody 那個 word model 輸出來的東西一定是要 video 嗎？也不一定。

觀眾提問：視頻生成模型直接生成機器人的數(shù)據(jù)，會比仿真的更接近真實。

金鑫：仿真跟生成要分得這么開嗎，可能仿真的就是原來 CAD 搓出來的 asset，就像群核智能，他們現(xiàn)在手里面有很多資產(chǎn)，也是他們自己最大的護城河，但是現(xiàn)在生成出來的內(nèi)容可能也不見得會比那種手搓出來的要差。我覺得主要還是看你什么樣的數(shù)據(jù)有效，或者說哪些是針對你要解決的那個任務(wù)有價值，這部分數(shù)據(jù)該怎么去表達？是用 video 嗎？還是用其他的 modality，或者直接不用表達，直接就是一個抽象的 latent 就足夠了，還是 case by case。

王靖博：我比較同意金老師的表達。哪部分數(shù)據(jù)最有效還是要看任務(wù)，不是真機數(shù)據(jù)就一定最合理。像我做足式控制，其中最基本的 locomotion，我可能都沒有 positive examples，我是在一個純仿真環(huán)境里，沒有任何的實調(diào)數(shù)據(jù)一樣可以把這件事做成，因為我的任務(wù)不需要那么多 contact reach 的東西。我只要能學到從各種各樣摔倒的環(huán)境里面怎么讓機器人恢復(fù)穩(wěn)定就好，其實是純依賴任務(wù)的一種形式。所以我覺得討論這個事之前，其實更重要的是看你需要做什么任務(wù)，然后找那個任務(wù)最 scaling up 的一種方式去獲得數(shù)據(jù)。

講座完整視頻，詳見鏈接：https://youtu.be/txv3B90DlQQ

未經(jīng)「AI科技評論」授權(quán)，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.