具身智能學(xué)界業(yè)界思想「驚人的統(tǒng)一」？美團在IROS開了個學(xué)術(shù)年會

2025-10-21 17:38:58　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：冷貓

最近機器人和 AI 相關(guān)領(lǐng)域的讀者或多或少都在關(guān)注 IROS。

IROS（IEEE/RSJ International Conference on Intelligent Robots and Systems）由日本機器人學(xué)會（RSJ）與 IEEE RAS 于 1988 年聯(lián)合創(chuàng)辦，會議聚焦智能機器人領(lǐng)域，內(nèi)容更多以機器人為主。

今年的 IROS 是第二次進入中國內(nèi)地，在杭州舉行。

這次機器之心受邀參加了「2025 美團機器人研究院學(xué)術(shù)年會」，這次美團的學(xué)術(shù)年會作為 IROS 的分會場在杭州國際博覽中心舉辦。我們走進了 IROS 會場，感受濃濃的學(xué)術(shù)氛圍和討論熱情。

這次學(xué)術(shù)年會以「機致生活（Robotics for better life）」為主題，具身智能與零售服務(wù)的結(jié)合，是美團機器人最大的愿景和商業(yè)理念。

美團機器人研究院自 2022 年成立以來，致力于搭建連接產(chǎn)業(yè)與學(xué)術(shù)的開放科研平臺，推動產(chǎn)學(xué)研用的合作發(fā)展。近一年來，美團在低空物流、具身智能等核心賽道上持續(xù)加碼，推動前沿的學(xué)術(shù)探索高效轉(zhuǎn)化為可落地的產(chǎn)業(yè)價值。

令我們印象深刻的是，美團無人機配送服務(wù)已經(jīng)能夠初具規(guī)模，并且已經(jīng)開啟全球化運營。另外，美團是全國唯一民航局批準(zhǔn)在全國所有城市運營，甚至包括夜間飛行的無人飛行器

美團副總裁毛一年發(fā)表主題演講

除去一些商業(yè)化的思想和成績以外，我們自然更加關(guān)注各類學(xué)術(shù)成果的進展。

在這一次 IROS 會議中，美團機器人研究院共有 6 篇相關(guān)工作參會。據(jù)毛一年介紹，今年最具代表性的研究成果是「DINO-X：開放世界目標(biāo)檢測與理解的算法研究」，在無人機飛行、視覺語義識別，具身智能行為等實際應(yīng)用場景中有非常高的實用價值。

作為一年一度的學(xué)術(shù)年會，美團邀請了學(xué)術(shù)界和產(chǎn)業(yè)界的多位明星人物，會場內(nèi)可謂是大咖云集。

本次參會的重磅人物有：

美團副總裁、美團機器人研究院理事長毛一年、香港大學(xué)教授席寧、禾賽科技 CEO 李一帆、自變量機器人 CEO 王潛、宇樹科技 CEO 王興興、清華大學(xué)助理教授許華哲、清華大學(xué)丁文伯教授、浙江大學(xué)許超教授、清華大學(xué)趙明國教授等等。

現(xiàn)場，美團副總裁毛一年、香港大學(xué)教授席寧、禾賽科技創(chuàng)始人李一帆、自變量機器人 CEO 王潛都發(fā)表了主題演講，展示了各自對于人工智能時代下的具身智能發(fā)展的見解和碰撞。

我們在現(xiàn)場完整聽完演講后發(fā)現(xiàn)，不論是學(xué)術(shù)界大咖還是產(chǎn)業(yè)界的領(lǐng)軍人物，對于具身智能和人工智能在不久將來的發(fā)展方向的觀點有著驚人的相似點

香港大學(xué)教授席寧：物理與數(shù)據(jù)的對抗協(xié)作

重點放在最前面。

席寧教授認為目前的研究核心就在于：「怎么從傳統(tǒng)的機器人規(guī)劃范式中脫離出來，更有效地利用人工智能的方法。」

眾所周知，讓機器人做一件事需要解決四個問題：任務(wù)規(guī)劃，軌跡 / 路徑規(guī)劃，感知測量與反饋控制。

軌跡規(guī)劃

在軌跡規(guī)劃這一塊，傳統(tǒng)的方法是以物理知識驅(qū)動的，根據(jù)物理定律來決定一些軌跡的形成。在進入人工智能時代后，機器學(xué)習(xí)模型更加高效，數(shù)據(jù)驅(qū)動的大模型能夠具備很強的任務(wù)處理能力。

但問題是數(shù)據(jù)驅(qū)動的模型無法遵從工程領(lǐng)域的物理特性，也不具備可解釋性。于是，將物理世界的規(guī)律與數(shù)據(jù)驅(qū)動的大模型相結(jié)合成為了一個很好的研究方向。

席教授提出了GAT（Generative Adversarial Tri-model）模型，動機是解決純機器學(xué)習(xí)模型無法遵循工程領(lǐng)域基本物理支配定律的問題。

簡單來說，GAT 模型就是讓物理和數(shù)據(jù)兩個模型互相學(xué)習(xí)，最后收斂到一個規(guī)劃。但與 GAN 的對抗模型不同，GAN 是對抗博弈，GAT 是合作博弈。

席教授舉了一個彎曲移動電纜線束的例子，物理模型中包含了線纜的物理性質(zhì)，數(shù)據(jù)驅(qū)動的神經(jīng)網(wǎng)絡(luò)模型能夠進行任務(wù)規(guī)劃，兩個模型進行博弈后實現(xiàn)機械臂的規(guī)劃控制，不僅實現(xiàn)了非常好的模型轉(zhuǎn)移性，同樣也具備物理的可解釋性。

關(guān)于 GAT 模型，請參閱論文：

論文標(biāo)題：Machine learning based on a generative adversarial tri-model
論文鏈接：https://www.nature.com/articles/s41598-025-05320-6

感知與測量

在人工智能時代里，大模型已經(jīng)具備了一定程度的智能，能夠輔助機器人的任務(wù)規(guī)劃。但大模型能夠告訴機器人先后動作，但無法告訴機器人「門」在哪里。

因此，具身智能對空間關(guān)系、時序關(guān)系或是交互關(guān)系，都需要進行感知。

從自然界開始，自然界的生物感知信息的進化，是從點的測量到集合（成像）的測量。

現(xiàn)有的感知和測量數(shù)據(jù)，各類模態(tài)的數(shù)據(jù)最終都是回到向量空間進行處理，通過不同模態(tài)下的向量差作為損失對機器人進行控制。

對于越來越多，越來越復(fù)雜的感知信息，傳統(tǒng)的向量數(shù)據(jù)已經(jīng)不夠高效了，我們亟需改變數(shù)據(jù)模式，用更利于感知的數(shù)學(xué)方法來描述感知過程，通過信息壓縮得到核心的感知信息，并直接通過感知信息實現(xiàn)控制。

因此，席教授提出了非向量空間模型（Non-Vector Space Models），控制原理同樣簡單，通過模型集合差以代替向量差進行控制。

這一切的核心就是新的壓縮感知的過程。席教授以追蹤線纜位置的任務(wù)舉例，做傳統(tǒng)圖像特征提取的情況下，如果線纜換成不同的方向就會導(dǎo)致特征變化，采用壓縮感知就能避免特征變化導(dǎo)致的跟蹤失敗。

機器人控制

機器人的軌跡是一個時間函數(shù)。席教授認為這不是一個合理現(xiàn)象。

「我們?yōu)槭裁匆罁?jù)地球圍著太陽轉(zhuǎn)的規(guī)律來控制機器人？」

在軌跡和動作規(guī)劃上，人是怎么做的？

人的動作是以感知為基礎(chǔ)的參照系，通過感知決定動作。席教授認為，感知作為參考（Perceptive Reference）是具身智能的基礎(chǔ)。

最后舉個例子，機器人的路徑如果按時間為參照，遇到障礙物時就需要重新進行規(guī)劃；如果采用傳感器為參照系，以傳感器感知的信息來規(guī)劃軌跡，各類情況都已經(jīng)在任務(wù)規(guī)劃中包含，就無需重規(guī)劃操作。

自變量 CEO 王潛：大一統(tǒng)的基礎(chǔ)模型什么樣

重點放在最前面。

很多人認為具身智能是「把 DeepSeek 塞到宇樹里面去」，但王潛認為：「具身智能是基礎(chǔ)模型。」

具身智能和現(xiàn)有的大模型完全不同，具身智能涉及到物理世界的交互。

物理世界的隨機性非常的大。物理過程很難被其他模態(tài)準(zhǔn)確描述。

目前的研究情況下，Locomotion 和 Navigation 都已經(jīng)基本能夠收斂，而 Manipulation 則剛起步，嚴(yán)重受制于隨機性的物理世界。物理世界中各種物體的先驗，分布都差異非常大，會遇到傳統(tǒng)的虛擬世界模型不會碰到的問題。

例如，虛擬世界中識別到的水瓶，在物理世界中可能存在瓶蓋蓋不緊這類很難識別的情況，會導(dǎo)致相同的交互取得一個漏水一個不漏水的大相徑庭的結(jié)果。

基礎(chǔ)模型的特征

王潛認為，具身智能模型首先是端到端的。

物理接觸的復(fù)雜性決定了端到端的必要性，斷絕了分層模型的可能性。具身智能遠遠不等于「LLM + 動作生成」的范式。

其次，具身智能模型必須是通才模型

雖說專用模型能夠?qū)崿F(xiàn)某個任務(wù)下很好的能力，但只有通才模型才可以學(xué)到不同任務(wù)之間的共同結(jié)構(gòu)（Common Structure），這種現(xiàn)象有點類似大模型的「涌現(xiàn)」現(xiàn)象，在一定規(guī)模的學(xué)習(xí)后能夠遷移到更多任務(wù)上。

最后，基礎(chǔ)模型一定基于物理世界。物理智能不可能涌現(xiàn)自虛擬世界。

具身智能的最終方法論：物理世界的通用統(tǒng)一模型。

而目前具身智能的研究熱門 VLA 模型正是通往通義具身智能大模型的一條過渡的路徑。

數(shù)據(jù)，還是數(shù)據(jù)

我們從大模型里學(xué)到了什么？

Scaling Law 告訴我們，我們需要更多的算力，更多的數(shù)據(jù)。

大模型時代的范式轉(zhuǎn)移：大模型逐漸從算法驅(qū)動轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動的現(xiàn)實困境，我們在數(shù)據(jù)上能進行的工作遠遠大于在模型本身上能做的事情。

在現(xiàn)有人類互聯(lián)網(wǎng)數(shù)據(jù)已經(jīng)接近干涸的時候，要想構(gòu)建一個更好的模型，數(shù)據(jù)質(zhì)量和多樣性比數(shù)據(jù)數(shù)量更重要。王潛認為，更高的數(shù)據(jù)質(zhì)量和多樣性能夠帶來很多數(shù)量級的效率差。

在具身智能領(lǐng)域，模仿學(xué)習(xí)已經(jīng)逼近了人類數(shù)據(jù)量的極限。在未來，只有體驗學(xué)習(xí)才能夠突破數(shù)據(jù)瓶頸，這也是 Richard Sutton 的觀點。

圓桌：一些龐大的話題

在會議最后的圓桌環(huán)節(jié)，丁文伯、王興興、許超、許華哲和趙明國，以探究具身智能發(fā)展的「第一性原理」為主題，進行了一些有關(guān)未來的對話。

圓桌探討具身智能發(fā)展的「第一性原理」

王興興：在硬件領(lǐng)域，商品成本最終跟重量相關(guān)，這是很直觀的第一性原理。但在軟件和 AI 領(lǐng)域上有些模糊，關(guān)于「什么是智能」的問題還不夠透徹，需要像牛頓定律一樣再總結(jié)提煉。

許超：具身智能是「軀體和靈魂」的合二為一。未來的模式是「牛頓 + 辛頓」，牛頓和辛頓「握手」，是未來的一種新架構(gòu)。軀體和靈魂結(jié)合，既能夠保留物理規(guī)律，又能夠結(jié)合神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)驅(qū)動學(xué)習(xí)能力。具身智能要具備小腦，中腦，大腦以及云腦。

許華哲：首先，智能是由欲望驅(qū)動的，人類的智能源于生存和探索的欲望。具身智能要「給機器人自己的欲望」。

第二是先驗，「為什么馬一生下來幾分鐘就會走路，而我們訓(xùn)練機器狗需要幾十年的（并行）時間？」生物 DNA 天然攜帶一些先驗，在如何將先驗移植到神經(jīng)網(wǎng)絡(luò)是很重要的一部分。

第三是經(jīng)驗，經(jīng)驗是完成這個世界的閉環(huán)。用自己的行為產(chǎn)生的數(shù)據(jù)才能完成小眾且必須完成的事情。

趙明國：第一性原理一定是一個偏簡單的詞

第一，不能說具身智能是大模型做的，否則一切都是大模型的子課題，還需要再定義。第二，凡事都用智能的方面考慮問題。具身智能有三個模塊組成：外部物理世界變?yōu)樾畔⒃矗▊鞲校?，信息處理與推理，輸出變?yōu)槲锢硎澜绲哪芰?。最后這三者的信息和能量需要流動，這是系統(tǒng)真正的生命力。

總結(jié)

雖說受限于篇幅，我們很難把整場會議的完整內(nèi)容都進行覆蓋。但是我們對于這次美團機器人研究院學(xué)術(shù)年會中，學(xué)術(shù)界和產(chǎn)業(yè)界，關(guān)于具身智能領(lǐng)域的研究觀點做了一個整理。

如果仔細研究這些偏向?qū)W術(shù)的觀點就會發(fā)現(xiàn)，不論是學(xué)界還是業(yè)界，在具身智能的研究發(fā)展領(lǐng)域的觀點驚人的統(tǒng)一。

大家都認同「物理世界的復(fù)雜性」，都提及了「物理與數(shù)據(jù)的結(jié)合」，都提出了「構(gòu)建具身智能模型」的思考。

「大模型 + 自動化 = 具身智能」的認知早就過時了，我想我們應(yīng)該期待真正的具身智能模型的到來。

最后以圓桌論壇每位嘉賓的寄語作為結(jié)尾：

王興興：大腦里有夢想就可以實現(xiàn)。

許超：追尋好奇心，不要死卷分數(shù)。

許華哲：循此苦旅，以抵繁星。

趙明國：油門踩到底，加速進化。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.