夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從 IROS 2025談起,智能機器人何時迎來「GPT式爆發(fā)」? | GAIR Live 019

0
分享至



機器人覺醒:控制范式退場,認知時代降臨

作者丨岑峰

編輯丨馬曉寧

2025年10月,IROS(國際智能機器人與系統(tǒng)會議)在全球機器人從業(yè)者的目光中落幕。作為行業(yè)最具影響力的學術與產(chǎn)業(yè)盛會,本屆在杭州召開的IROS的“中國印記”與“具身智能轉(zhuǎn)向”尤為醒目——展臺上,國產(chǎn)具身智能企業(yè)扎堆亮相,靈巧手、低成本機械臂等硬件技術刷新全球認知;會場內(nèi),“Learning驅(qū)動具身智能”的論文占比突破60%,標志著機器人從“傳統(tǒng)控制工具”向“智能認知主體”的范式轉(zhuǎn)移。

當“具身智能”從實驗室熱詞走向產(chǎn)業(yè)實踐,當硬件迭代與大模型技術碰撞出真實的商業(yè)可能,雷峰網(wǎng)AI科技評論特別邀請三位橫跨學界與業(yè)界的嘉賓:上海交通大學計算機學院助理教授、上海AI Lab青年研究員穆堯、SOMA Robotics創(chuàng)始人陳天一、 科羅拉多大學助理教授李正雄,共同解碼IROS 2025背后的具身智能前沿趨勢。

在討論中,嘉賓們的觀點圍繞“IROS觀察”“技術進化”“商業(yè)落地”三大核心層層展開:

  • IROS現(xiàn)場的“變與不變”:最鮮明的“變”是中國企業(yè)的集體崛起,“國產(chǎn)靈巧手”從“跟隨者”變成“引領者”;最核心的“不變”是“硬件驅(qū)動科研”的邏輯。傳統(tǒng)運動控制論文讓位于“具身智能學習”,真機數(shù)據(jù)訓練與閉環(huán)反饋控制成為新主流;

  • 具身智能的“認知升級”:嘉賓們一致認為,“從控制到理解決策”是具身智能的核心趨勢,這種“大腦(理解決策)+小腦(控制執(zhí)行)”的組合,正在讓機器人從“能做事”走向“會思考”;

  • Sim2Real的“實用邊界” :對于“Sim2Real是否接近實用”,嘉賓們給出“分場景判斷”:如物料分揀、零件分類等剛體任務已能通過Sim2Real落地,但復雜場景仍需突破,流體的物理模擬、柔性體的多面接觸,仍是Sim2Real的“卡脖子”問題,而“安全驗證”則是Sim2Real走向現(xiàn)實的“最后一公里”;

  • 商業(yè)落地的“路徑選擇”:嘉賓們看好“工業(yè)先于家庭”的路徑,因任務明確、成本可控已出現(xiàn)落地案例,而家庭服務則需等待“成本下降”與“泛化能力提升”,比如疊衣服機器人先應用于醫(yī)院、酒店等垂直場景,再向家庭滲透;

  • 具身智能的“GPT時刻” :最后,關于具身智能的“爆發(fā)拐點”,嘉賓們預測“World Model+VLA”的組合將成為關鍵,世界模型的通用性可能先于具身智能本體到來,而大規(guī)模機器人生態(tài)則是推動技術爆發(fā)的“數(shù)據(jù)飛輪”,當世界模型能通用推演未來,當機器人集群能生成海量真實數(shù)據(jù),具身智能或?qū)⒂瓉眍愃艷PT的突破性時刻。

以下是此次圓桌討論的精彩分享,AI 科技評論進行了不改原意的編輯整理:

01

IROS 2025 觀察

馬曉寧:大家好,歡迎來到雷峰網(wǎng) AI 科技評論的 live 欄目,本次主題是“從 IROS 2025 看智能機器人前沿趨勢”。我們邀請到了三位嘉賓:上海交通大學計算機學院助理教授、上海 AI Lab 青年研究員穆堯老師;SOMA Robotics 創(chuàng)始人陳天一;以及科羅拉多大學助理教授李正雄老師。感謝三位光臨。


上周我們共同參加了 IROS 大會,感覺非常震撼和精彩。在 IROS 上,大家看到了哪些有趣的論文或令人印象深刻的產(chǎn)品?

穆堯:在本屆 IROS 期間,最吸引我的仍是展會上的新產(chǎn)品。硬件的迭代速度非???,我從年初的 WAIC、WRC 到 IROS 所有的展會都參加了,每一次都有令人驚艷的東西。

本次 IROS 的一個標志性現(xiàn)象是中國具身智能企業(yè)的崛起。具體到產(chǎn)品,主要吸引我的是靈巧手技術。有幾個展商表現(xiàn)突出,例如Sharpa,他們是首個將視觸覺集成到指尖的靈巧手制造商,并且展示了一個荷官在線發(fā)牌的 Demo,非常震撼。我們自己也做靈巧手,深知將視觸覺集成到與人手大小相近的指尖是非常不容易的,這要求電機直驅(qū),電機必須是自研以保證微小體積和足夠驅(qū)動力。

另一個例子是舞肌科技,他們之前在網(wǎng)上發(fā)布了預熱的 CG Demo ,此次看到了實機展示,效果不錯。盡管高自由度背后仍有電機發(fā)熱等技術挑戰(zhàn),但靈巧手技術正在日新月異。相對而言,低自由度、低成本的機械臂方案在幾次展會上方案已經(jīng)趨于收斂,但在靈巧手領域我看到了巨大的機會。

在科研方面,IROS 曾以傳統(tǒng)機器人運動控制的文章為主,但今年的一大趨勢是:Learning 驅(qū)動的具身智能方法呈指數(shù)式攀升,占據(jù)了絕大多數(shù)的席位。得益于硬件的不斷發(fā)展,我們正邁向一個大批量使用真機數(shù)據(jù)來訓練模型的時代;另外,我們也在真實世界中進行自我探索,這是另一個進行真機強化學習的時代。

馬曉寧:Learning 驅(qū)動的方法成為主流確實是今年一個非常明顯的趨勢。正雄老師您怎么看?

李正雄:穆老師總結(jié)得非常全面和仔細,他已經(jīng)概括了我在 IROS 上發(fā)現(xiàn)的幾個精彩點,我來做一些補充:

首先關于靈巧手,從學術界角度來看,原來我們研究低自由度的動作,現(xiàn)在隨著產(chǎn)品的進化,我們開始研究高自由度的復雜動作。參會后我們發(fā)現(xiàn)實際看到的結(jié)果比預想的更好,這不光是手本體硬件設計的進步,更關鍵是Learning 方面的提高,使其能夠?qū)崿F(xiàn)長時間復雜任務的完成。

其次,正如穆老師所總結(jié)的,關于人形機器人或本體方面,很多我們此前只在網(wǎng)上看到的 Demo,在現(xiàn)場能夠真正看到、觸摸,甚至可以給出一些現(xiàn)場的任務指令。這是網(wǎng)上觀察與現(xiàn)場體驗的主要區(qū)別,現(xiàn)場感受到的震撼是不同的。從工業(yè)界看,現(xiàn)在是百花齊放的局面,許多廠商推出了非常好的產(chǎn)品。我相信真正的落地或走進千家萬戶是指日可待的。

馬曉寧:在現(xiàn)場觀看時,什么樣的動作讓您覺得比較震撼?

李正雄:像靈巧手,廠商可以非常好地完成正常的握手、拿東西,或者完成指令性的任務。更具沖擊力的是,當你真正用手去觸摸它時,能夠感覺到從物理世界到賽博世界,有一種時代的跨越感。

馬曉寧:天一有什么要補充的嗎?

陳天一:兩位老師說得非常好,特別是穆堯老師,我的關注點與他基本一致。我在 IROS 產(chǎn)品展上主要關注兩點:靈巧手和桌面級機械臂。

靈巧手方面,我特別關注了Sharpa和舞肌科技。Sharpa自 ICRA 亮相后,因其是首款以電機直驅(qū)實現(xiàn) 22 自由度的工業(yè)級靈巧手而受到全球關注。他們將視觸覺技術工程化做得非常出色,無論是表面材質(zhì)選擇還是觸覺信號精度,都令人驚艷。

這一次,Sharpa也展示了令人印象深刻的 Demo,例如荷官發(fā)牌,即靈巧手捏住撲克牌并將其放置于桌面上,這類任務在之前的學術界靈巧手上是極難完成的。這體現(xiàn)了產(chǎn)業(yè)界在硬件層面已逐步超越此前學術界的探索。

在機械臂方面,我發(fā)現(xiàn)了一個趨勢:業(yè)界和學界普遍使用的特定構(gòu)型機械臂,像方舟無限的構(gòu)型開始增多,并且出現(xiàn)了更低價的替代方案。我發(fā)現(xiàn)一家名為星界機器人的公司,能夠?qū)⑦@類機械臂成本降低至 1,500 美元左右,直接將同構(gòu)型機械臂的成本降低了約四到五倍,這是一個非常亮眼的產(chǎn)品。

馬曉寧:成本降低到四五分之一,這是一個非??鋸埖慕捣,F(xiàn)在我們從整體上來看,各位嘉賓可以用一兩個熱詞來代表這次 IROS 的趨勢。

陳天一:我認為是Learning from Demonstration,即以模仿學習為核心的學習方法。VLA 是一條相對清晰的技術路徑,作為一種端到端的方法,其熱度還是非常火爆的。

馬曉寧:穆堯老師,您認為最能代表本次 IROS 的詞是什么?

穆堯:IROS 涵蓋了自動駕駛、智能交通、飛行等廣闊領域。我需要補充一個令人印象深刻的 Demo:浙大湖州研究院的飛行背包,真的可以背在身上飛起來,非常令人震撼,我覺得飛行背包可以作為第一個熱詞。

我們的研究更聚焦于機器人的操作(Manipulation),所以我認為第二個熱詞應該是靈巧操作(Dexterous Manipulation)。

02

具身智能的趨勢:從控制到理解加決策

馬曉寧:飛行背包在現(xiàn)場看確實非常震撼。我們進入下一個問題:具身智能的發(fā)展,是否正在從控制加感知走向理解加決策?

李正雄:這種轉(zhuǎn)變正在發(fā)生,可以視為一種混合演進。

過去的研究主要關注感知和底層的機械控制。而本次 IROS 展現(xiàn)的趨勢是,研究已升級到感知、表征、推理、決策的整個體系。許多研討會和演講都在討論“理解”或“想象”在長期任務中的作用。

但是在工程化的實際系統(tǒng)當中,仍然需要遵循經(jīng)典的控制和運動規(guī)劃,作為閉環(huán)的保障。但現(xiàn)場許多新的 Demo 已經(jīng)開始將大模型的高層意識輸出,再由傳統(tǒng)的控制模塊進行精細執(zhí)行。

因此,我的綜合判斷是:在短期內(nèi),大約 1 到 3 年,行業(yè)將采用“感知 + 控制 + 大模型作為高層理解決策”的混合框架,或者采用混合 VLA 的路徑。從長期來看,行業(yè)可能更趨向于端到端、可解釋認知的控制。但要完全替代傳統(tǒng)的控制和感知,仍需要時間。

馬曉寧:穆堯老師怎么看?

穆堯:首先,傳統(tǒng)機器人在執(zhí)行操作任務時,模式通常是:感知模塊輸出一個Grasp Pose,再經(jīng)過軌跡規(guī)劃和控制模塊去執(zhí)行抓取。

我認為“理解加決策”還不足夠。理解和決策是具身智能的“大腦”部分,而具身智能區(qū)別于傳統(tǒng)機器人的核心在于:多模態(tài)大模型賦予了機器人理解場景的能力和理解人類語言的能力。機器人具備基礎認知后,能夠與人類交互并進行推理。這正是多模態(tài)大模型為機器人領域帶來的機會,也催生了“具身智能”這一熱詞。

因此,從這個角度來看,這種范式轉(zhuǎn)變確實存在。除了理解到?jīng)Q策的轉(zhuǎn)變,我認為還存在一個進一步的演進:控制模式的轉(zhuǎn)變。它不再是簡單地給出一條軌跡然后去跟蹤執(zhí)行,或者進行柔性控制,而是更多的是進入了閉環(huán)反饋控制。這意味著當執(zhí)行出現(xiàn)誤差時,機器人能夠根據(jù)視覺捕捉,實時修正。例如“抓偏了,需要向右調(diào)整”,然后再次抓取。VLA 模型作為抓取或操作的“小腦模型”,正好彌補了這一點。這是我視角下的一種范式轉(zhuǎn)變。

馬曉寧:大家的感覺都是這是一個逐漸演進的過程。在確保機器人能夠有效執(zhí)行任務的同時,也要相信其高層次的理解能力。天一,你怎么認為?

陳天一:我認為,對于通用具身智能而言,控制、感知與理解、決策這兩部分都是必不可少的。在大模型出現(xiàn)之前,傳統(tǒng)機器人研究注重模塊化,將感知和控制分開研究,再通過組合完成任務?,F(xiàn)在有了 VLA 和大模型的賦能,研究人員可以更多地關注理解和決策問題。

但最終,我們肯定需要一個比較穩(wěn)定的底層控制能力(小腦),再加上層理解和決策的大腦能力。大腦和小腦缺一不可。如何將這兩部分融合起來,是我們未來學術界和工業(yè)界都會重點研究的方向。但目前來看,正如正雄老師所說,工程落地方面,傳統(tǒng)的感知加決策方式仍然更為落地。未來我們將進一步探索如何連接大腦和小腦,實現(xiàn)更實際的落地。這是我的觀點。

03

模型與算法演進:大模型如何重塑具身智能

馬曉寧 :保障性閉環(huán)與大模型決策之間的平衡是關鍵。接下來我們討論模型和算法的演進,在大模型發(fā)展到現(xiàn)在的時刻,它是如何改變具身智能的研究范式的?

陳天一:我發(fā)現(xiàn)LLM、VLM為機器人研究注入了非常新鮮的血液。在LLM、VLM 出現(xiàn)之前,研究更多是基于 Model-Based 的方法,側(cè)重于建模、優(yōu)化和控制。但現(xiàn)在有了 LLM、VLM 和強化學習等方法,我們看到了幾個趨勢:

首先,將 LLM 指揮底層模塊執(zhí)行任務。其次,使用 VLM 去理解場景,評估場景的獎勵(Reward),然后將其輸入給 RL 函數(shù),輔助 RL 算法學習復雜任務。我看到越來越多的 VLM 和新穎方法融入到機器人控制研究中。

馬曉寧:有觀點認為,RL 仍然是機器人完成精細動作的重要一環(huán)。正雄老師,您怎么看?

李正雄:的確,隨著大模型的發(fā)展,LLM、VLM 或世界模型帶來了一種新的研究范式。這種范式帶來的具體變化有三點:

  1. 高層意圖與自然語言接口: 大模型使得機器人能更好地利用自然語言進行任務規(guī)劃和分解,并在人機對話中提高性能。

  2. 訓練范式的改變: 訓練范式正在從監(jiān)督學習、自監(jiān)督加合成數(shù)據(jù),轉(zhuǎn)向少樣本指令微調(diào)。研究者可以利用大規(guī)模仿真或生成數(shù)據(jù)訓練視覺或行為模型,再用現(xiàn)實環(huán)境的少量數(shù)據(jù)進行適配,從而加快開發(fā)節(jié)奏。

  3. 世界模型(World Model)的應用: 通過構(gòu)建世界模型來進行想象和規(guī)劃。世界模型可以被視為一種內(nèi)在仿真,AI Agent 或機器人模型可以在其中進行試驗,預測合適的動作序列,然后再落實到真實的機器人上。這種方法比以往更適合機器人任務的泛化。

總體而言,這些變化讓具身智能研究從任務特性化的感知堆棧,走向通用的表征、可組合的技能和自然語言的交流。但這些仍會依賴于數(shù)據(jù)、算力以及有效的現(xiàn)實環(huán)境適配策略。這是我目前觀察到的情況。

馬曉寧:穆堯老師,請教您的觀點,并請您總結(jié)一下這個問題。

穆堯:我認為這是一個非常好的問題。從 Language Model 到 VLM,語言模型對具身智能的革命性改變首先在于它解決了長序任務的長序推理。在缺乏多模態(tài)大模型時,讓機器人自主決策完成一項新的、完整的任務(例如“做一杯完整的咖啡”),是非常困難的。

其次,VLM 實際上已成為大多數(shù)機器人基礎模型(如 VLA)的前置基礎模型。這牽引到具身智能的一個核心問題:如何更好地建模 VLA 中的“A”(Action),以及如何使“A”與前端的 VLM 能夠協(xié)調(diào)、統(tǒng)一地在同一個訓練范式中進行訓練。這是一個非常重要的問題。

第三部分是世界模型(World Model)。世界模型受益于視頻生成模型(如 Sora)的強有力發(fā)展,帶來了革命性的變化。世界模型在機器人領域并非新詞,但強大的視頻生成能力賦予了具身智能巨大的機會。這種強大的機會在于,世界模型對未來的推演是 General 的,可以實現(xiàn)任意本體、任意場景、任意任務的空間智能推理過程的表達。

我們可以通過世界模型,對未來幾幀的模式進行推演,以進行空間智能推理。這也是李飛飛老師他們牽頭推進的空間智能所強調(diào)的。具身智能額外需要解決的問題是:在完成了世界模型的推演后,如何利用 Inverse Dynamics 等技術,從未來幀的推演中推理出機器人各關節(jié)角的具體 Action。這是世界模型對具身智能的革命性推進。

04

Sim2Real 的實用性:挑戰(zhàn)與局限

馬曉寧:我們好奇地追問一句,世界模型(World Model)對具身智能的推演研究范式是否已經(jīng)產(chǎn)生了一些現(xiàn)實改進?

穆堯:是的,它基本上革新了 VLA 的結(jié)構(gòu)。World VLA 的模式正在迅速興起,即通過 Inverse Dynamics 的形式,將世界模型對未來時刻的推演直接嵌入到具身智能的 VLA 框架中。這可以說是 VLA 范式中越來越熱門的一個方向。

馬曉寧:我總結(jié)一下:從大語言模型(LLM)的出現(xiàn)賦予了具身智能理解動作本質(zhì)的能力,到 VLM 使其能夠更好地行動,再到 World Model 將其整體融入框架之中。那么,從 IROS 2025 的技術展示來看,自監(jiān)督 + 模擬 + 現(xiàn)實適應(即 Sim2Real)是否已經(jīng)接近實用階段?

穆堯:Sim2Real 是我個人的重要研究方向之一(專注于仿真行業(yè)數(shù)據(jù))。但要判斷其是否“接近實用階段”,需要分任務、分場景來看。

對于大多數(shù)剛體任務,例如物料分解、零件分類、揀選等,Sim2Real 的確已經(jīng)走向?qū)嵱?。例如,業(yè)界優(yōu)秀的模型,如由尤因和通用提出的 CRAFT-VLA,證實了 Sim2Real 在這些場景中的實用性。但我們的限定詞是:剛體,且主要面向抓取、放置等簡單操作。

目前仿真解決得不夠好,或者說 Sim2Real 差距仍然很大的地方,包括:柔性體和流體。一個典型的例子是倒水任務,機器人要做到不灑是非常困難的。在仿真中,流體的物理模擬和渲染都極具挑戰(zhàn)性。

特別是流體的物理模擬難度很大。對于柔性體,當前的仿真能力可能只能模擬單層的 T 恤或毛巾等簡單衣物;但對于復雜的棉服或外套,我認為目前一個都無法精確模擬。因此,在這些任務上,很難說 Sim2Real 已經(jīng)進入實用階段。

馬曉寧:聽起來其局限性仍然很大。正雄老師,您在觀察這些研究和成果時有什么樣的感受?

李正雄:穆老師的描述非常全面。對于剛體或相對固定的物體,Sim2Real 確實做得相當好。許多研究團隊已經(jīng)公布了良好的訓練策略來完成這類任務。但對于流體,目前仍處于研究階段,并未很好地邁向?qū)嵱?。本?IROS 也有相關的論文試圖解決這一問題。

延續(xù)穆老師的觀點,現(xiàn)在許多實驗室或團隊已能基于大量的仿真生成數(shù)據(jù),做到 Zero-shot 或 Few-shot 的 Sim2Real。這表明該技術路線正逐漸收斂和成熟,可以說是趨于實用。

然而,在落地的“最后一公里”,仍存在一些工程上的挑戰(zhàn):例如現(xiàn)實世界中的 Corner Case(長尾情況)、長期的魯棒性(如何保證任務持續(xù)穩(wěn)定執(zhí)行)、復雜接觸動力學(如穆老師提到的棉服的多面、不規(guī)則接觸),以及最重要的一點:安全性驗證。

Sim2Real 的落腳點是 Real,一旦涉及現(xiàn)實操作,安全驗證是不可回避的話題。但目前對機器人安全驗證的投入似乎力度不夠。因此,很多團隊在 IROS 上特別強調(diào)需要大量的現(xiàn)實微調(diào)步驟和傳感器冗余,以確保落地和操作的安全。我的觀點是,它已從我們認知中的“研究魔術”逐漸邁向工程實踐,部分任務表現(xiàn)優(yōu)異,但在多樣化或開放環(huán)境中要做到普遍適用,仍需要大量工作。

馬曉寧:您剛才提到的安全問題,如果在 Bad Case 上可能造成什么樣的安全隱患?

李正雄:舉例來說,如果機器人正在倒熱水,一旦馬達失控或某個關節(jié)動作不到位,熱水可能會濺灑到人身上。如果機器人將來負責做飯,靈巧手拿菜刀切菜時,一旦因摩擦力問題導致刀具脫手飛出,就有可能傷及他人。這些都是需要關注的 Safety 或 Security 問題。

馬曉寧:這聽起來仍然非常嚴重,與實用性還有較大差距。天一,你怎么看?

陳天一:兩位老師說得非常好,我簡單補充兩點。

第一,Sim2Real 在哪些任務上做得好?我認為是 Locomotion(下肢、雙足、四足運動)和導航。這些任務與物體的接觸是有限的,不像接觸密集的操控(Contact-Rich Manipulation)需要與物體進行多點多次接觸。

對于雙足/四足機器人的 Locomotion 來說,接觸點是有限且更少的。在這類任務中,我們看到了非常驚艷的 Demo,例如舞蹈等??梢哉f,Locomotion 領域的 Sim2Real 已經(jīng)是一個非常成熟的技術路線?,F(xiàn)在越來越多的 Locomotion 算法,其在仿真中訓練出的策略已經(jīng)支持實時的遙操作,并能保持穩(wěn)定和完成復雜的動作。

在 Manipulation 方面,局限性仍然非常大?;旧现辉趧傮w、或近似于落地的物流分揀、簡單拿放等操作中可以應用。而涉及到流體、柔性體,特別是復雜的摩擦力的任務,目前效果是遠不及前者的。

第二點補充是關于長尾效應。仿真展現(xiàn)了巨大潛力,但現(xiàn)實應用場景的長尾效應非常嚴重。例如,每個人的家庭場景都是不一樣的。仿真面臨的挑戰(zhàn)是:能否在有限的仿真場景中獲得足夠的泛化能力?如果不能,我們是否需要以低成本或高效的方式將所有人的家都仿真一遍?或者,我們能否讓機器人在有限環(huán)境下學到的能力,高強度遷移到每個人的家里?

我認為這個挑戰(zhàn)仍然非常大,需要持續(xù)觀察算法進步的效率。我個人認為,長尾問題是 Sim2Real 走向普及的一個巨大的挑戰(zhàn)。

馬曉寧:明白。核心還是通用具身智能的 Corner Case 數(shù)量過于龐大??偨Y(jié)來看,Sim2Real 在 Locomotion 和導航等領域已具有實用價值,可以落地;但在涉及流體、復雜柔性或摩擦力的泛化場景中,其實用性仍然非??皯n。

05

硬件趨勢與軟硬協(xié)同:具身智能的關鍵進階

馬曉寧:IROS 2025 展現(xiàn)的硬件趨勢是什么?具身智能的下一個階段,關鍵是否在于軟硬協(xié)同?

陳天一:我認為軟硬協(xié)同是一個非常重要的趨勢。從我們剛剛觀察到的產(chǎn)品來看,像Sharpa、舞肌科技以及各機械臂廠家,都在逐步向更強的軟硬協(xié)同方向發(fā)展。

在缺乏產(chǎn)品化機器人硬件的早期,軟件和硬件是分離的,研究者需要通用平臺,且經(jīng)常要對硬件進行特定改動。而現(xiàn)在,具身智能產(chǎn)業(yè)正逐步邁向產(chǎn)業(yè)化和工程化,市場需要面向市場的產(chǎn)品。對于這些產(chǎn)品而言,如果希望達到極致的用戶體驗和性能,軟硬協(xié)同是不可避免的關鍵要素。

馬曉寧:但現(xiàn)在推進軟硬協(xié)同是否仍面臨許多難點?

陳天一 :是的,難點在于:在算法尚未收斂的情況下,如何確定清晰的路徑去優(yōu)化硬件?換句話說,在軟件尚不成熟時,如何保證軟硬協(xié)同能夠高效地朝著最優(yōu)(Optimal)方向發(fā)展?這就考驗了每個廠家具備的技術洞察力,即對未來方向的選擇和判斷。廠商需要通過多線并行的方案,以軟硬協(xié)同的方式聯(lián)合提升產(chǎn)品性能。

馬曉寧:總結(jié)來說,這是產(chǎn)品化倒逼技術進步。穆堯老師可以從學術界的角度闡述這個問題。

穆堯 :軟硬協(xié)同無疑是一個非常重要的趨勢。我們在高校內(nèi)與大多數(shù)具身智能公司都有合作,我們學術界為硬件廠商提供的幫助,主要是反饋意見:在使用過程中,哪些功能未能達到要求。例如,我最近向所有機械臂廠家提出的要求是提供一個非常靈活的腕關節(jié),希望他們能盡快完善產(chǎn)品。

其次是生態(tài)建設。機器人若要實現(xiàn)大范圍推廣,需要一個良好的生態(tài)系統(tǒng)。其中最好的典范是 ROS-I(ROS Industrial)和樂 Robot,它們在生態(tài)建設上是成功的。

從算法研發(fā)的推動作用來說,硬件改進一點點,算法上的進步可以是一大截。例如,腕關節(jié)的靈活性提升,能顯著提高任務成功率。因為現(xiàn)在的 VLA 能夠?qū)W習到位置或姿態(tài)的基礎趨勢,最終比拼的是操作的準確度和效率,這必然需要軟硬協(xié)同。

值得注意的是,硬件廠商與學術界都在積極合作,這是必然的趨勢。過去,硬件研發(fā)周期長(例如大公司從定型到量產(chǎn)),導致算法發(fā)展快于硬件。現(xiàn)在百花齊放,國內(nèi)展商在 IROS 上居多,且更具看點,這實際上體現(xiàn)了在初創(chuàng)企業(yè)強大活力的推動下,硬件的迭代速度變得非??欤@是一個非常好的趨勢。

馬曉寧:正雄老師,您長期在美國,這次回國有什么新的感受嗎?

李正雄:首先,硬件方面,其種類和功能都在增加:例如多模態(tài)傳感器(Lidar、主動相機、高幀率 RGBD)、機器人本體(輪腿混合、模塊化的末端執(zhí)行器),以及邊緣算力加速器等硬件的日益普及和功能增強。

軟硬協(xié)同肯定是一個大趨勢。機器人是一個整體系統(tǒng),如果軟件無法充分利用硬件的高性能,就是一種浪費。這是一個相互促進的過程。同時,從我們研究的角度,軟件調(diào)試的增多會發(fā)現(xiàn)當前 Learning 上的缺陷,從而反過來指導硬件設計的優(yōu)化。我們在 IROS 上有一篇關于觸覺傳感器(Tactile Sensor)的論文,探討了如何增加新的維度,使其更好地完成任務。

因此,這是一個相互促進、互相協(xié)調(diào)的發(fā)展。軟硬協(xié)同必然是未來的趨勢,硬件人員最好懂一點軟件,軟件人員也能更好地協(xié)助硬件人員,以提高整體系統(tǒng)性能。

馬曉寧:穆堯老師提到他們與許多業(yè)界公司合作研究軟硬協(xié)同,這對行業(yè)發(fā)展非常有意義。正雄老師,您是否有類似的合作,以及您如何看待這樣的生態(tài)發(fā)展?

李正雄:合作越緊密,對整個產(chǎn)業(yè)的發(fā)展促進越好。大家能夠互相了解對方的需求,可能通過一次溝通或交流,就能發(fā)現(xiàn)新的行業(yè)機會。

馬曉寧:天一有和哪些機構(gòu)進行過類似的合作嗎?

陳天一:我們是一家小型初創(chuàng)公司,與智元、以及穆堯老師提到的那些大型人形機器人公司相比,差距仍然較大。我們目前的產(chǎn)品領域也略有不同,因此暫時還沒有與學界進行這方面的合作,主要專注于內(nèi)部研究。

06

商業(yè)潛力:從科研到創(chuàng)業(yè)的落地方向

馬曉寧:具身智能最具商業(yè)潛力的方向在哪里?

李正雄:從產(chǎn)業(yè)角度來看,我們團隊看好三個大的中期機會:工業(yè)化的巡檢和流水線、倉儲物流,以及家庭服務。這三個領域在中長期內(nèi)即可實現(xiàn)相關的落地應用和商業(yè)化。

從長期來看,家庭醫(yī)療維護、老年人康復、手術輔助,以及教育和陪伴,也具有很高的經(jīng)濟價值。但相較于前三者,它們在短期的商業(yè)投資回報率上可能略遜一籌,但前景良好。

馬曉寧:穆堯老師,您的看法如何?

穆堯:我的看法與李老師相似。從短期來看,機會仍主要集中在工業(yè)落地。期望它短期內(nèi)進入千家萬戶的家庭服務可能還比較遙遠。但即使是面向家庭服務,其應用也會是垂直領域的。

例如,像 DELA 做的疊衣服機器人,其應用場景可能不是家庭,而是醫(yī)院(疊病號服)或酒店(疊毛巾、浴巾)。這實際上是具備走進家庭的潛力,但短期內(nèi)缺乏強大的泛化能力。關鍵的落地標志是:在一個垂直領域,機器能夠 24 小時運轉(zhuǎn),且其效率大于等于人類 8 小時工作的效率。這便完成了基本的商業(yè)閉環(huán)。

馬曉寧:家庭場景的落地可能還需要較長時間。但我發(fā)現(xiàn)一些場景,例如農(nóng)業(yè)摘果子,一個機械臂搭配吸盤或夾爪,就能達到兩名工人的勞動效率,這非常實用。

陳天一:在機器人落地場景的觀察上,基本上涵蓋了兩位老師提到的方向:工業(yè)柔性制造、巡檢分揀、商業(yè)服務、家庭服務和養(yǎng)老。大家普遍看好的滲透路徑是:從工業(yè)到商業(yè)再到家庭。

這是因為工業(yè)場景相對半結(jié)構(gòu)化,任務界定清晰(Well Defined),不如家庭場景那般非結(jié)構(gòu)化、隨機和復雜。此外,家庭場景的終端客戶對成本敏感度極高。因此,當前的趨勢是先在工業(yè)場景賺取行業(yè)第一桶金,持續(xù)攤薄硬件成本,最終逐步向家庭滲透。

最近我了解到一則令人震驚的落地應用:一個團隊將端到端模型落地到了二維平面焊接場景,并且已經(jīng)接近投產(chǎn)階段。這很有意思,因為它挑戰(zhàn)了我們之前對具身智能多軸或人形機器人的想象。在這個應用中,可能只是一個二自由度的焊接槍,但具身智能模型賦予它的優(yōu)勢是柔性化。它無需為每一個新工件從頭設計邏輯和程序,而是可以不斷積累經(jīng)驗。在這種場景下,它確實提高了整個產(chǎn)線的研發(fā)效率,挑戰(zhàn)了我們對具身智能落地形態(tài)的認知。

馬曉寧:這確實是一個與商業(yè)結(jié)合得比較完美的案例。接下來有一個線上觀眾提問:三位老師有沒有看到哪些比較驚艷的靈巧手產(chǎn)品?這個問題可以不局限于 IROS。剛才我們談到了Sharpa和 舞肌科技。三位老師還有沒有其他日常接觸到的優(yōu)秀靈巧手推薦?

穆堯:我來補充幾個,因為我對這塊接觸較多,且有合作。

  1. Proxy Hand 在 IROS 上發(fā)布了大規(guī)模靈巧操作數(shù)據(jù)集,以及代理 Converse 靈巧智能的靈巧手。這是一款高自由度的線驅(qū)靈巧手。

  2. 靈犀巧手: 它的整體手部較輕,且有多個高/低自由度版本。它有一個“學者計劃”,為學術界提供很好的資助,適合有研究需求的老師。

  3. 星際光聯(lián): 這家深圳公司提出了一個驅(qū)動器與手部分離的方案,將驅(qū)動器放置在胸部或臂部。這解決了傳統(tǒng)電機直驅(qū)或繩驅(qū)方式使手部過重或過大的問題,是一個非常新穎的方案。

馬曉寧:天一和正雄兩位老師還有什么要補充的嗎?

李正雄:我可以補充兩款海外常用的靈巧手,一款是Allegro Hand: 韓國的產(chǎn)品;另一款是Shadow Dexterous Hand: X-On 公司旗下的產(chǎn)品。

馬曉寧:你們?nèi)粘槭裁磿x用這兩款?

李正雄:首先,從研究角度,預算是重要的考量因素。這兩款靈巧手相對比較開源,且便于進行二次維護和開發(fā)。

07

總結(jié)與展望:具身智能的 GPT 時刻

馬曉寧:最后一個問題,也是一個總結(jié)和預測性的問題。在未來的三到五年內(nèi),具身智能經(jīng)歷了巨大的進步和改變,包括實用性、研究范式和軟硬協(xié)同。我們所說的關鍵拐點,或者說它的 GPT 時刻會是什么?是統(tǒng)一世界模型的出現(xiàn)?是真正可理解的人機協(xié)作智能?還是安全可控的社會行為?

李正雄:我認為關鍵拐點將是 VLA 加世界模型(World Model)的組合,即可組合的通用世界模型的出現(xiàn)。如果能出現(xiàn)一個跨任務、又能高效適配現(xiàn)實的、具有良好 Reward 機制的世界模型,它將改變現(xiàn)有 AI 的訓練和部署范式,并能在一定程度上高效地完成多種任務。

其他關鍵因素還包括軟硬協(xié)同這種工程范式的落地,相關的標準形成,硬件邊緣算力、仿真工具以及整個訓練配套的成熟。這將使得 Sim2Real 能夠在產(chǎn)業(yè)級的場景中實現(xiàn)大規(guī)模復現(xiàn)和規(guī)?;瘧?。最后,安全和可解釋性是不可或缺的。這既是滿足社會行為和法規(guī)的標準化要求,也能讓更多用戶安心使用我們的產(chǎn)品。

馬曉寧:穆堯老師對這個有什么不一樣的想法嗎?

穆堯:我高度贊同 VLA 和 World Model 的結(jié)合。我個人有一個暴論:世界模型的通用性會比具身智能的通用性來得更早一些

具身智能機器人受到本體發(fā)展等多種約束條件。但面向具身的世界模型可以更多地依賴人類行為數(shù)據(jù)。人類世界的數(shù)據(jù)是無窮無盡、非常海量的。對這方面數(shù)據(jù)的深入挖掘,將使世界模型的學習和訓練有非常好的發(fā)展?,F(xiàn)在已經(jīng)有一些效果不錯(Workable)的世界模型在逐漸出現(xiàn),雖然物理真實性有待考量,但我相信結(jié)合強化學習等技術可以使其學得越來越好。

如果出現(xiàn)一個非常好的世界模型,我們就可以實現(xiàn) World Model as a Simulator。這樣,即使沒有物理本體,我們也可以進行推演和策略的更新迭代。這對具身策略學習的促進將是革命性的。因此,我個人觀點是,世界模型的通用性會更早一步到來。

馬曉寧:如果我請您預測一個時間點,您覺得會是多長時間?

穆堯:這個時間點其實說快也很快。Sora 2 的發(fā)展速度大家有目共睹。當前學術界的另一個趨勢是 “互聯(lián)網(wǎng)數(shù)據(jù) Great Again”。具身智能研究始于互聯(lián)網(wǎng)數(shù)據(jù),但當時計算機視覺技術不夠成熟?,F(xiàn)在,4D 高斯等技術的成熟,使得重建和姿態(tài)估計成為可能。在“Make Internet Data Great Again”的浪潮下,世界模型將向前推進很大一步。我覺得近兩年內(nèi),世界模型就會有一個很大的突破。而具身智能最終要到落地的場景,我的估計是五年左右的時間。

馬曉寧:那我們五年之后再回過頭來驗證這個問題。天一,您覺得呢?

陳天一:我非常認同兩位老師關于 World Model 和 VLA 的觀點。VLA 現(xiàn)在已經(jīng)有了,但能夠與 VLA 結(jié)合的優(yōu)質(zhì) World Model 尚未出現(xiàn)。但當我相信這樣的世界模型出現(xiàn)時,它能賦予機器人強大的能力,即在 World Model 里預測下一步動作,這將給整個具身智能帶來一個技術奇點式的突破。

至于時間點,我選擇相信穆堯老師的判斷,可能在兩到三年內(nèi)會有好的 World Model。但我還想補充一個非常重要的點:大規(guī)模部署的機器人生態(tài)。即使有了基于互聯(lián)網(wǎng)數(shù)據(jù)訓練的世界模型,它在機器人本體上的效果如何?這仍然是一個不確定的問題。

所以,如果有一個大規(guī)模部署的機器人生態(tài),它能同時為 VLA 和 World Model 提供良好的基礎,促進整個算法的發(fā)展。我認為世界模型和大規(guī)模部署的機器人本體生態(tài),是促成具身智能爆發(fā)性拐點到來的兩個關鍵要素。

馬曉寧:您這個觀點有點像特斯拉的生態(tài)模式。

陳天一:是的。特斯拉之所以效果好,也是因為它擁有一個機器人艦隊(自動駕駛汽車也是一種機器人),這對自動駕駛的效果貢獻巨大。

馬曉寧:我好奇的是,這種大規(guī)模的機器人集群生態(tài),會是部署在什么樣的場景?

陳天一:我們公司目前正在探索這方面的方向,主要集中在居家場景。

馬曉寧:好的??偨Y(jié)一下,按照正雄老師和穆堯老師的觀點,World Model 加 VLA 是關鍵節(jié)點;天一則補充了大規(guī)模的機器人生態(tài)(可以理解為數(shù)據(jù)飛輪的成熟),這也非常具有啟發(fā)性。那五年之后,我們再一起回過頭來驗證今天的預測。

本次GAIR Live 圓桌論壇就到此結(jié)束了,非常感謝三位嘉賓。

未經(jīng)「AI科技評論」授權,嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權,轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
林強涉案989億被抓!生活奢華超過中東富豪,超5萬百姓血本無歸

林強涉案989億被抓!生活奢華超過中東富豪,超5萬百姓血本無歸

千言娛樂記
2025-12-27 20:07:06
特斯拉上海急招Robotaxi人才

特斯拉上海急招Robotaxi人才

智能車參考
2025-12-29 17:10:03
老鷹狂扔25記三分仍不敵雷霆 吹楊進入交易快速路

老鷹狂扔25記三分仍不敵雷霆 吹楊進入交易快速路

體壇周報
2025-12-30 13:11:13
男子摳腳“摳”出滿腳“菜花”,肛周也有少量,最終確診HPV

男子摳腳“摳”出滿腳“菜花”,肛周也有少量,最終確診HPV

極目新聞
2025-12-29 08:42:39
爸把18套房全給私生子,宣讀遺囑時媽竟在笑,半年后我才知真相

爸把18套房全給私生子,宣讀遺囑時媽竟在笑,半年后我才知真相

溫情郵局
2025-12-08 11:29:02
突發(fā)!人形機器人傳出兩個重大利好

突發(fā)!人形機器人傳出兩個重大利好

君臨財富
2025-12-30 16:28:31
皮蛋再次成為關注對象!張文宏發(fā)現(xiàn):常吃皮蛋的人有5大變化

皮蛋再次成為關注對象!張文宏發(fā)現(xiàn):常吃皮蛋的人有5大變化

普陀動物世界
2025-12-29 08:52:33
白色外套搭配破洞短褲,輕松展示大長腿,散發(fā)出獨特的魅力

白色外套搭配破洞短褲,輕松展示大長腿,散發(fā)出獨特的魅力

朝史暮夕
2025-12-29 08:36:45
真當中國不敢動手?中方向全世界宣布一件大事:推出1900億大項目

真當中國不敢動手?中方向全世界宣布一件大事:推出1900億大項目

丹妮觀
2025-12-30 10:28:16
原來是他娶了譚維維!被譽為“不老男神”,曾在海拔5600米上求婚

原來是他娶了譚維維!被譽為“不老男神”,曾在海拔5600米上求婚

韓馳
2025-12-25 20:04:01
越南高鐵請德國當“托”,中標后騎虎難下,我們只看戲不中招

越南高鐵請德國當“托”,中標后騎虎難下,我們只看戲不中招

我心縱橫天地間
2025-12-29 13:55:46
市場逼近崩盤,總理罕見用中文發(fā)聲,一句“對不起”能否獲得原諒

市場逼近崩盤,總理罕見用中文發(fā)聲,一句“對不起”能否獲得原諒

百科密碼
2025-12-29 15:20:24
商業(yè)航天退潮 誰來接力

商業(yè)航天退潮 誰來接力

趨勢巡航
2025-12-30 14:51:32
大魚來了!廣東隊有望截胡1米96本土鋒線,杜鋒親自點名要人!

大魚來了!廣東隊有望截胡1米96本土鋒線,杜鋒親自點名要人!

緋雨兒
2025-12-30 14:49:48
男子110米欄選手謝文駿宣布退役,曾為中國實現(xiàn)亞運九連冠

男子110米欄選手謝文駿宣布退役,曾為中國實現(xiàn)亞運九連冠

環(huán)球網(wǎng)資訊
2025-12-30 17:48:25
北京阿姨20年守茅臺股票:90萬本金,分紅326萬,成本歸零!

北京阿姨20年守茅臺股票:90萬本金,分紅326萬,成本歸零!

趣文說娛
2025-12-20 18:29:20
海警突發(fā)激烈對峙!為攔截美軍火船入臺,解放軍做好隨時開火準備

海警突發(fā)激烈對峙!為攔截美軍火船入臺,解放軍做好隨時開火準備

星星會墜落
2025-12-30 13:52:21
每體:佩德里剛來巴薩的時候,梅西問總監(jiān):你從哪找來的?

每體:佩德里剛來巴薩的時候,梅西問總監(jiān):你從哪找來的?

懂球帝
2025-12-30 10:01:54
殲-20飛掠花蓮軍事基地!強度前所未有:“雙尾蝎”飛臨臺北上空

殲-20飛掠花蓮軍事基地!強度前所未有:“雙尾蝎”飛臨臺北上空

文雅筆墨
2025-12-30 11:32:26
新華社消息|外交部回應美方關于中國軍事演習的言論

新華社消息|外交部回應美方關于中國軍事演習的言論

新華社
2025-12-30 15:55:43
2025-12-30 19:07:00
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7027文章數(shù) 20718關注度
往期回顧 全部

科技要聞

估值150億的智元,開始批量"制造"小獨角獸

頭條要聞

副局長婚內(nèi)與異性開房 前妻向紀委舉報其違規(guī)接受宴請

頭條要聞

副局長婚內(nèi)與異性開房 前妻向紀委舉報其違規(guī)接受宴請

體育要聞

這個59歲的胖子,還在表演“蝎子擺尾”

娛樂要聞

林俊杰女友被扒 父親涉經(jīng)濟案卷款13億?

財經(jīng)要聞

朱光耀:美關稅政策正使WTO名存實亡

汽車要聞

標配華為乾崑ADS 4 Pro 華境S明年上半年上市

態(tài)度原創(chuàng)

時尚
家居
健康
手機
本地

她們冬天這樣穿,真的很美!

家居要聞

當歸之宅 三胎圓滿居所

這些新療法,讓化療不再那么痛苦

手機要聞

行業(yè)首個性能Ultra!iQOO15 Ultra來了,最強散熱讓芯片封神

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠

無障礙瀏覽 進入關懷版 久久国产自偷自偷免费一区调 | 国产精品人妻久久无码不卡| 欧美乱妇高清无乱码免费| 久久久亚洲欧洲日产国码AⅤ| 三级视频在线观看| 亚洲码和欧洲码168区| 日韩免费无码专区精品观看| 无码毛片视频一区二区本码| 国产中文三级全黄| 黑人Vs日本女优98AV| 欧美五月丁香六月综合激情| 国内外无码视频| 亚洲国产精品综合久久网络| 丁香婷婷激情五月在线观看| 又爽又黄又无遮挡的视频| 粉嫩99国内精品久久久久久久| 怡红院免费的全部视频| 成人在线视频一区| 四川少妇丰满一级毛片| 久久久久亚洲av片无码| 精品精品久久宅男的天堂| 成人 免费毛片视频| 成人无码七区| 乱人伦人妻中文字幕| 算你色国产AV| 国产精品一国产精品| 4438 2亚洲最大成人网| yeye38亚洲综合网| 欧美男女内插动| 国产在线午夜不卡精品影院| 一区二区三区四区视频在线| 五月婷婷丁香月六| 老司机精品一区在线视频| 色哟哟国产免费| 三级小说狠狠操| 在线精品自拍亚洲第一区| 直接看av网址| 97欧美色色| 丁香五月亚洲综合在线国内自拍 | 韩国大香蕉视频一区二区免费看| 久久国产亚洲高清观看5388|