機器之心報道
編輯:冷貓
最近機器人和 AI 相關(guān)領(lǐng)域的讀者或多或少都在關(guān)注 IROS。
IROS(IEEE/RSJ International Conference on Intelligent Robots and Systems)由日本機器人學(xué)會(RSJ)與 IEEE RAS 于 1988 年聯(lián)合創(chuàng)辦,會議聚焦智能機器人領(lǐng)域,內(nèi)容更多以機器人為主。
今年的 IROS 是第二次進入中國內(nèi)地,在杭州舉行。
這次機器之心受邀參加了「2025 美團機器人研究院學(xué)術(shù)年會」,這次美團的學(xué)術(shù)年會作為 IROS 的分會場在杭州國際博覽中心舉辦。我們走進了 IROS 會場,感受濃濃的學(xué)術(shù)氛圍和討論熱情。
這次學(xué)術(shù)年會以「機致生活(Robotics for better life)」為主題,具身智能與零售服務(wù)的結(jié)合,是美團機器人最大的愿景和商業(yè)理念。
美團機器人研究院自 2022 年成立以來,致力于搭建連接產(chǎn)業(yè)與學(xué)術(shù)的開放科研平臺,推動產(chǎn)學(xué)研用的合作發(fā)展。近一年來,美團在低空物流、具身智能等核心賽道上持續(xù)加碼,推動前沿的學(xué)術(shù)探索高效轉(zhuǎn)化為可落地的產(chǎn)業(yè)價值。
令我們印象深刻的是,美團無人機配送服務(wù)已經(jīng)能夠初具規(guī)模,并且已經(jīng)開啟全球化運營。另外,美團是全國唯一民航局批準(zhǔn)在全國所有城市運營,甚至包括夜間飛行的無人飛行器
美團副總裁毛一年發(fā)表主題演講
除去一些商業(yè)化的思想和成績以外,我們自然更加關(guān)注各類學(xué)術(shù)成果的進展。
在這一次 IROS 會議中,美團機器人研究院共有 6 篇相關(guān)工作參會。據(jù)毛一年介紹,今年最具代表性的研究成果是「DINO-X:開放世界目標(biāo)檢測與理解的算法研究」,在無人機飛行、視覺語義識別,具身智能行為等實際應(yīng)用場景中有非常高的實用價值。
作為一年一度的學(xué)術(shù)年會,美團邀請了學(xué)術(shù)界和產(chǎn)業(yè)界的多位明星人物,會場內(nèi)可謂是大咖云集。
本次參會的重磅人物有:
美團副總裁、美團機器人研究院理事長毛一年、香港大學(xué)教授席寧、禾賽科技 CEO 李一帆、自變量機器人 CEO 王潛、宇樹科技 CEO 王興興、清華大學(xué)助理教授許華哲、清華大學(xué)丁文伯教授、浙江大學(xué)許超教授、清華大學(xué)趙明國教授等等。
現(xiàn)場,美團副總裁毛一年、香港大學(xué)教授席寧、禾賽科技創(chuàng)始人李一帆、自變量機器人 CEO 王潛都發(fā)表了主題演講,展示了各自對于人工智能時代下的具身智能發(fā)展的見解和碰撞。
我們在現(xiàn)場完整聽完演講后發(fā)現(xiàn),不論是學(xué)術(shù)界大咖還是產(chǎn)業(yè)界的領(lǐng)軍人物,對于具身智能和人工智能在不久將來的發(fā)展方向的觀點有著驚人的相似點
香港大學(xué)教授席寧:物理與數(shù)據(jù)的對抗協(xié)作
重點放在最前面。
席寧教授認為目前的研究核心就在于:「怎么從傳統(tǒng)的機器人規(guī)劃范式中脫離出來,更有效地利用人工智能的方法。」
眾所周知,讓機器人做一件事需要解決四個問題:任務(wù)規(guī)劃,軌跡 / 路徑規(guī)劃,感知測量與反饋控制。
軌跡規(guī)劃
在軌跡規(guī)劃這一塊,傳統(tǒng)的方法是以物理知識驅(qū)動的,根據(jù)物理定律來決定一些軌跡的形成。在進入人工智能時代后,機器學(xué)習(xí)模型更加高效,數(shù)據(jù)驅(qū)動的大模型能夠具備很強的任務(wù)處理能力。
但問題是數(shù)據(jù)驅(qū)動的模型無法遵從工程領(lǐng)域的物理特性,也不具備可解釋性。于是,將物理世界的規(guī)律與數(shù)據(jù)驅(qū)動的大模型相結(jié)合成為了一個很好的研究方向。
席教授提出了GAT(Generative Adversarial Tri-model)模型,動機是解決純機器學(xué)習(xí)模型無法遵循工程領(lǐng)域基本物理支配定律的問題。
簡單來說,GAT 模型就是讓物理和數(shù)據(jù)兩個模型互相學(xué)習(xí),最后收斂到一個規(guī)劃。但與 GAN 的對抗模型不同,GAN 是對抗博弈,GAT 是合作博弈。
席教授舉了一個彎曲移動電纜線束的例子,物理模型中包含了線纜的物理性質(zhì),數(shù)據(jù)驅(qū)動的神經(jīng)網(wǎng)絡(luò)模型能夠進行任務(wù)規(guī)劃,兩個模型進行博弈后實現(xiàn)機械臂的規(guī)劃控制,不僅實現(xiàn)了非常好的模型轉(zhuǎn)移性,同樣也具備物理的可解釋性。
關(guān)于 GAT 模型,請參閱論文:
- 論文標(biāo)題:Machine learning based on a generative adversarial tri-model
- 論文鏈接:https://www.nature.com/articles/s41598-025-05320-6
感知與測量
在人工智能時代里,大模型已經(jīng)具備了一定程度的智能,能夠輔助機器人的任務(wù)規(guī)劃。但大模型能夠告訴機器人先后動作,但無法告訴機器人「門」在哪里。
因此,具身智能對空間關(guān)系、時序關(guān)系或是交互關(guān)系,都需要進行感知。
從自然界開始,自然界的生物感知信息的進化,是從點的測量到集合(成像)的測量。
現(xiàn)有的感知和測量數(shù)據(jù),各類模態(tài)的數(shù)據(jù)最終都是回到向量空間進行處理,通過不同模態(tài)下的向量差作為損失對機器人進行控制。
對于越來越多,越來越復(fù)雜的感知信息,傳統(tǒng)的向量數(shù)據(jù)已經(jīng)不夠高效了,我們亟需改變數(shù)據(jù)模式,用更利于感知的數(shù)學(xué)方法來描述感知過程,通過信息壓縮得到核心的感知信息,并直接通過感知信息實現(xiàn)控制。
因此,席教授提出了非向量空間模型(Non-Vector Space Models),控制原理同樣簡單,通過模型集合差以代替向量差進行控制。
這一切的核心就是新的壓縮感知的過程。席教授以追蹤線纜位置的任務(wù)舉例,做傳統(tǒng)圖像特征提取的情況下,如果線纜換成不同的方向就會導(dǎo)致特征變化,采用壓縮感知就能避免特征變化導(dǎo)致的跟蹤失敗。
機器人控制
機器人的軌跡是一個時間函數(shù)。席教授認為這不是一個合理現(xiàn)象。
「我們?yōu)槭裁匆罁?jù)地球圍著太陽轉(zhuǎn)的規(guī)律來控制機器人?」
在軌跡和動作規(guī)劃上,人是怎么做的?
人的動作是以感知為基礎(chǔ)的參照系,通過感知決定動作。席教授認為,感知作為參考(Perceptive Reference)是具身智能的基礎(chǔ)。
最后舉個例子,機器人的路徑如果按時間為參照,遇到障礙物時就需要重新進行規(guī)劃;如果采用傳感器為參照系,以傳感器感知的信息來規(guī)劃軌跡,各類情況都已經(jīng)在任務(wù)規(guī)劃中包含,就無需重規(guī)劃操作。
自變量 CEO 王潛:大一統(tǒng)的基礎(chǔ)模型什么樣
重點放在最前面。
很多人認為具身智能是「把 DeepSeek 塞到宇樹里面去」,但王潛認為:「具身智能是基礎(chǔ)模型。」
具身智能和現(xiàn)有的大模型完全不同,具身智能涉及到物理世界的交互。
物理世界的隨機性非常的大。物理過程很難被其他模態(tài)準(zhǔn)確描述。
目前的研究情況下,Locomotion 和 Navigation 都已經(jīng)基本能夠收斂,而 Manipulation 則剛起步,嚴(yán)重受制于隨機性的物理世界。物理世界中各種物體的先驗,分布都差異非常大,會遇到傳統(tǒng)的虛擬世界模型不會碰到的問題。
例如,虛擬世界中識別到的水瓶,在物理世界中可能存在瓶蓋蓋不緊這類很難識別的情況,會導(dǎo)致相同的交互取得一個漏水一個不漏水的大相徑庭的結(jié)果。
基礎(chǔ)模型的特征
王潛認為,具身智能模型首先是端到端的。
物理接觸的復(fù)雜性決定了端到端的必要性,斷絕了分層模型的可能性。具身智能遠遠不等于「LLM + 動作生成」的范式。
其次,具身智能模型必須是通才模型
雖說專用模型能夠?qū)崿F(xiàn)某個任務(wù)下很好的能力,但只有通才模型才可以學(xué)到不同任務(wù)之間的共同結(jié)構(gòu)(Common Structure),這種現(xiàn)象有點類似大模型的「涌現(xiàn)」現(xiàn)象,在一定規(guī)模的學(xué)習(xí)后能夠遷移到更多任務(wù)上。
最后,基礎(chǔ)模型一定基于物理世界。物理智能不可能涌現(xiàn)自虛擬世界。
具身智能的最終方法論:物理世界的通用統(tǒng)一模型。
而目前具身智能的研究熱門 VLA 模型正是通往通義具身智能大模型的一條過渡的路徑。
數(shù)據(jù),還是數(shù)據(jù)
我們從大模型里學(xué)到了什么?
Scaling Law 告訴我們,我們需要更多的算力,更多的數(shù)據(jù)。
大模型時代的范式轉(zhuǎn)移:大模型逐漸從算法驅(qū)動轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動的現(xiàn)實困境,我們在數(shù)據(jù)上能進行的工作遠遠大于在模型本身上能做的事情。
在現(xiàn)有人類互聯(lián)網(wǎng)數(shù)據(jù)已經(jīng)接近干涸的時候,要想構(gòu)建一個更好的模型,數(shù)據(jù)質(zhì)量和多樣性比數(shù)據(jù)數(shù)量更重要。王潛認為,更高的數(shù)據(jù)質(zhì)量和多樣性能夠帶來很多數(shù)量級的效率差。
在具身智能領(lǐng)域,模仿學(xué)習(xí)已經(jīng)逼近了人類數(shù)據(jù)量的極限。在未來,只有體驗學(xué)習(xí)才能夠突破數(shù)據(jù)瓶頸,這也是 Richard Sutton 的觀點。
圓桌:一些龐大的話題
在會議最后的圓桌環(huán)節(jié),丁文伯、王興興、許超、許華哲和趙明國,以探究具身智能發(fā)展的「第一性原理」為主題,進行了一些有關(guān)未來的對話。
圓桌探討具身智能發(fā)展的「第一性原理」
王興興:在硬件領(lǐng)域,商品成本最終跟重量相關(guān),這是很直觀的第一性原理。但在軟件和 AI 領(lǐng)域上有些模糊,關(guān)于「什么是智能」的問題還不夠透徹,需要像牛頓定律一樣再總結(jié)提煉。
許超:具身智能是「軀體和靈魂」的合二為一。未來的模式是「牛頓 + 辛頓」,牛頓和辛頓「握手」,是未來的一種新架構(gòu)。 軀體和靈魂結(jié)合,既能夠保留物理規(guī)律,又能夠結(jié)合神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)驅(qū)動學(xué)習(xí)能力。具身智能要具備小腦,中腦,大腦以及云腦。
許華哲:首先,智能是由欲望驅(qū)動的,人類的智能源于生存和探索的欲望。具身智能要「給機器人自己的欲望」。
第二是先驗,「為什么馬一生下來幾分鐘就會走路,而我們訓(xùn)練機器狗需要幾十年的(并行)時間?」生物 DNA 天然攜帶一些先驗,在如何將先驗移植到神經(jīng)網(wǎng)絡(luò)是很重要的一部分。
第三是經(jīng)驗,經(jīng)驗是完成這個世界的閉環(huán)。用自己的行為產(chǎn)生的數(shù)據(jù)才能完成小眾且必須完成的事情。
趙明國:第一性原理一定是一個偏簡單的詞
第一,不能說具身智能是大模型做的,否則一切都是大模型的子課題,還需要再定義。第二,凡事都用智能的方面考慮問題。具身智能有三個模塊組成:外部物理世界變?yōu)樾畔⒃矗▊鞲校?,信息處理與推理,輸出變?yōu)槲锢硎澜绲哪芰?。最后這三者的信息和能量需要流動,這是系統(tǒng)真正的生命力。
總結(jié)
雖說受限于篇幅,我們很難把整場會議的完整內(nèi)容都進行覆蓋。但是我們對于這次美團機器人研究院學(xué)術(shù)年會中,學(xué)術(shù)界和產(chǎn)業(yè)界,關(guān)于具身智能領(lǐng)域的研究觀點做了一個整理。
如果仔細研究這些偏向?qū)W術(shù)的觀點就會發(fā)現(xiàn),不論是學(xué)界還是業(yè)界,在具身智能的研究發(fā)展領(lǐng)域的觀點驚人的統(tǒng)一。
大家都認同「物理世界的復(fù)雜性」,都提及了「物理與數(shù)據(jù)的結(jié)合」,都提出了「構(gòu)建具身智能模型」的思考。
「大模型 + 自動化 = 具身智能」的認知早就過時了,我想我們應(yīng)該期待真正的具身智能模型的到來。
最后以圓桌論壇每位嘉賓的寄語作為結(jié)尾:
王興興:大腦里有夢想就可以實現(xiàn)。
許超:追尋好奇心,不要死卷分數(shù)。
許華哲:循此苦旅,以抵繁星。
趙明國:油門踩到底,加速進化。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.