智東西
作者 ZeR0
編輯 漠影
智東西8月12日報道,2025世界機器人大會期間,NVIDIA Omniverse和仿真技術(shù)副總裁Rev Lebaredian,與宇樹科技創(chuàng)始人、CEO兼CTO王興興,北京大學助理教授、銀河通用創(chuàng)始人兼CTO、智源學者王鶴一起,在一場小型媒體會上詳細解答了人形機器人的大規(guī)模商用難點、關(guān)鍵挑戰(zhàn)、技術(shù)瓶頸與風向、人形與雙足設(shè)計的必要性、中國企業(yè)做物理AI和機器人優(yōu)勢、預(yù)計率先普及的應(yīng)用場景等焦點話題。
NVIDIA是當前最全面的機器人基礎(chǔ)設(shè)施供應(yīng)商,芯片和平臺均已在機器人企業(yè)中廣泛應(yīng)用,并正與阿里云、北京人形機器人創(chuàng)新中心、傅利葉、加速進化、優(yōu)必選、銀河通用、宇樹科技、智元機器人等企業(yè)共同推動中國在人形機器人和AI解決方案方面的發(fā)展。
宇樹科技是國內(nèi)知名度最高的機器人獨角獸之一,今年7月18日啟動IPO,已為其新型人形機器人R1部署了NVIDIA全棧機器人技術(shù)。R1售價3.99萬元,現(xiàn)貨可供,預(yù)計年底前量產(chǎn)。宇樹科技還自研靈巧手,希望在未來一到兩年內(nèi)實現(xiàn)自然交互,其格斗機器人的技術(shù)目標是實現(xiàn)任意動作的任意實時生成。
作為具身大模型通用機器人獨角獸代表,銀河通用成立兩年來已完成超過20億元融資。銀河通用G1 Premium是首批搭載NVIDIA Jetson Thor的人形機器人之一,采用輪式底盤。其下一代人形機器人項目將采用純雙足設(shè)計。
智東西梳理出15個有信息量的問答及分享,并在文章靠后部分分享了NVIDIA、宇樹科技、銀河通用在機器人產(chǎn)業(yè)的重點布局與進展。
一、人形機器人商用難點不是成本,落地工廠需克服速度挑戰(zhàn)
1、現(xiàn)階段推動人形機器人規(guī)?;逃么嬖谀男╇y點?
王興興:對于人形機器人商業(yè)化來說,成本和硬件并不是關(guān)鍵問題。某種意義上,一臺機器只要能用,10萬甚至100萬,照樣還是有很多場景能用起來的。過去一兩年,硬件已經(jīng)足夠了,當然可靠性、成本等各方面要做得更好,但是它并不是限制性因素。
當前最棘手的問題是具身智能模型不夠泛用性,實用性還有待更大的提升。
2. 限制人形機器人規(guī)模化部署的關(guān)鍵技術(shù)瓶頸是什么?
王鶴:很簡單——就是機器人干活的能力還不夠強,能完成的任務(wù)類型比較有限。但如果能在這些有限的技能范圍內(nèi)實現(xiàn)非常通用的水平,就能一下子賦能很多場景。
銀河通用現(xiàn)在最主要的突破是“抓取”和“移動”。只要機器人能抓住任何物體,能夠在場景中實現(xiàn)下肢移動和上肢伸展,最后還能準確放置物體,很多應(yīng)用場景就能實現(xiàn)。
背后需要有一個真正精準的目標識別和定位系統(tǒng),我們目前是通過合成數(shù)據(jù)在推動這項技術(shù)。
當然,即使解決了這個關(guān)鍵問題,仍有很多任務(wù),機器人暫時無法完成。但只要目標識別和定位的問題能被攻克,人形機器人市場至少有千億級規(guī)模,并且在五年內(nèi)可見成效。
解決了這個關(guān)鍵技術(shù)瓶頸后,基于如此巨大的市場投入,機器人必然能解鎖更多技能,邁向萬億市場的步伐。
3. 人形機器人真正能在工廠車間投入工作,需解決哪些關(guān)鍵挑戰(zhàn)?
王鶴:今年,許多人形機器人已經(jīng)開始在汽車工廠進行訓練。我們看到絕大多數(shù)公司在工廠推廣人形機器人時,主要集中在兩個方面:一是搬運,二是分揀。
搬運方面,銀河通用最近展示的機器人視頻里,其搬運速度已經(jīng)接近人類水平,計算下來每小時搬運的數(shù)量與人類相當。這個階段已經(jīng)非常接近實際工廠的部署,我預(yù)計今年年底可能會有幾十臺銀河通用的機器人進入工廠車間實際應(yīng)用。
但是,搬運只是第一步。除了搬運,還需要實現(xiàn)碼垛的閉環(huán)能力,只有搬運和碼垛都完成閉環(huán),機器人才能真正勝任整套工作流程,否則做一半的任務(wù),效果并不理想。
分揀則是更大的挑戰(zhàn),還未達到人類工人的水平,仍需要一定時間的技術(shù)迭代和突破。
無論是從傳送帶上拿,還是從貨架上取貨,目前最大的難點是速度。熟練工人拿取物品的速度非??欤?strong>機器人目前在模型和硬件層面還難以達到這種效率。
我們做零售機器人時,拿貨架上或桌面上的物品,技術(shù)本質(zhì)上與工業(yè)分揀類似,只是零售對節(jié)拍要求較低,拿錯貨的后果也較輕。但在工業(yè)場景,比如汽車制造廠,一條產(chǎn)線停機一分鐘可能就意味著損失上萬元,因此分揀的精度和速度要求極高。
4. 如何應(yīng)對物理AI(特別是機器人領(lǐng)域)的能耗、熱管理和體積限制挑戰(zhàn)?
Rev Lebaredian:NVIDIA每一代產(chǎn)品都會大幅提升每瓦性能和每美元性能。單靠摩爾定律已經(jīng)不足以解決我們面臨的許多問題。我們預(yù)見到,摩爾定律在CPU和通用計算機上的效用會逐漸終結(jié)。為此,我們致力于打造針對特定算法的專用計算機。
這種專用計算機不僅僅是芯片層面,更需要算法、軟件以及應(yīng)用層面的整體優(yōu)化,才能發(fā)揮最大性能。這并非靠單一因素,比如芯片變小或變快,而是通過全棧優(yōu)化實現(xiàn)的。
這是一項非常艱難的工程,也正是NVIDIA的核心競爭力所在。
我們最初應(yīng)用這套方法于計算機圖形渲染(尤其是游戲領(lǐng)域),隨后推廣到其他領(lǐng)域。CUDA推出后,我們開始應(yīng)用于物理仿真,后來深度學習和AI在GPU上興起,我們不斷專門化處理器。每一代產(chǎn)品,在相同功耗和成本下都實現(xiàn)了顯著的性能飛躍,未來仍會持續(xù),因為我們的創(chuàng)新之路還遠未走完。
二、機器人非得設(shè)計成“人形”、“雙足”嗎?未來人形機器人規(guī)模將超過工業(yè)機械臂總產(chǎn)值
5. “人形”的機器人是否必要?
王鶴:從長遠來看,人形機器人一定要能夠融入人類生活。從終局觀念來看,如果機器人又能干活,手能伸到1米~2米這么高,還能在咱們這樣的環(huán)境里穿梭,除了人形態(tài),沒有別的形態(tài)。
未來幾年,人形機器人是從一種移動復(fù)合機器人向著終局不斷邁進。
如果是一個定點機器人,它能夠干的事情就只能是它面前的事情,局限性很大,所以移動是必然的。移動的小車只能承載貨物,不能做任何操作。我們今天打造的機器人,就是在一個移動的臺子上,再讓它變成可升降、可折疊的,有兩根機械臂,兩只手才能抱箱子。
我認為未來十年,人形機器人占比不會小,但得看跟誰比。工業(yè)大機械臂全球總產(chǎn)值也就1000億人民幣,并不高,一個頭部車廠一年就能賣價值1000億的車。
我預(yù)計未來每三年人形機器人的產(chǎn)值會乘10,我們現(xiàn)在頭部是賣1000臺,三年后就是10000臺,再三年后就是10萬臺。10萬臺級的量,如果賣幾十萬元一臺,干活的就達到了1000億,超過了一家公司,也超過了整個工業(yè)機械臂的總產(chǎn)值。
未來十年,我們將看到的是一個能夠超越當前所有工業(yè)機器人量的機器人市場。再往后十年,可能是超越汽車、手機市場量的萬億市場。所以不能低估它,但也沒有大家想的那么快,明天就達到汽車市場的額度是不可能的。
王興興:某種意義上,我將人形機器人視為通用機器人的重要載體。真正的通用AI在執(zhí)行任務(wù)時,必然離不開機器人,尤其是通用型機器人。
目前人形機器人是最理想的專業(yè)機器人形態(tài),雖然看上去較為復(fù)雜,但實際結(jié)構(gòu)本質(zhì)上是由若干關(guān)節(jié)電機串聯(lián)而成,因此整體設(shè)計相對簡潔。履帶式小車或其他形式的機器人反而更復(fù)雜。
我一直相信,當通用AI大規(guī)模成熟后,每個人都可以輕松制造一臺人形機器人,就像今天人們可以購買電腦零部件組裝一臺電腦一樣。未來若AI足夠強大,對硬件的要求會越來越低。
6. 機器人為什么要做雙足?
王興興:為什么不做雙腿,反而是一個值得思考的問題。因為做雙腿相對方便,最重要的是提供了更多的通用性能力。運動能力在某種程度上是較弱的AI能力,例如小動物甚至螞蟻、蟲子走路都非常好,但它們的AI能力很弱。所以我一直覺得,真正通用且能干活的具身AI模型,移動能力或者腿的能力其實是附屬的。
如果機器人能干活了,那腿的控制自然不會差;如果連腿都控制不好,說明它還沒達到大家想象中的非常通用的AI模型階段。
另外,因為雙腿相對簡單,我們公司本身就是做腿的,所以對我們來說,這是順理成章且有趣的事情,大家普遍也很喜歡這個方向。而且如果大家都做輪式底盤,會導致同質(zhì)化競爭,沒必要。
我覺得輪式和腿式是有差距的,在不同時間點,機器人下半身方案會有不同。
我們公司專注于腿部,希望提升機器人整體的運動和干活能力。我自己也做輪式底盤。目前輪式底盤在工業(yè)開闊場景和貨架間穿梭非常穩(wěn)定且能耗低,但在復(fù)雜環(huán)境中可能通不過。如果底盤做得更小,穩(wěn)定性會喪失。
我堅信腿是未來,因為它能實現(xiàn)上半身所有可達空間,并且能靈活調(diào)動腰部的靈活度。
但在不同階段,會有最適合落地應(yīng)用的形態(tài),我們也不會局限于單一方案。我們同時用輪式底盤和宇樹的人形機器人做下半身甚至全身的控制研究。
三、中國在物理AI和機器人領(lǐng)域有獨一無二的優(yōu)勢
7. 怎么看中國物理AI和機器人的需求和實踐中的挑戰(zhàn)?
Rev Lebaredian:中國既是一個重要的市場,也是AI技術(shù)和產(chǎn)品的生產(chǎn)基地。在物理AI和機器人領(lǐng)域,中國擁有獨特的規(guī)模優(yōu)勢,結(jié)合人才優(yōu)勢,形成了獨一無二的生態(tài)系統(tǒng)。
機器人是把計算和人工智能帶進真實世界的橋梁,中國是實現(xiàn)這一跨越的最佳地點,因為這里具備獨一無二的條件:
一是頂尖AI人才:中國有頂尖的AI高校,有大量聰明、受過良好教育且充滿熱情的AI研究人員和開發(fā)者,全球近一半的頂尖AI人才都集中于此。
二是電子與計算技術(shù)能力:中國不僅有技術(shù)研發(fā)能力,還有全球無可匹敵的電子制造產(chǎn)業(yè)。中國在制造電子硬件和機器人所需關(guān)鍵部件方面具備深厚的專業(yè)能力,這樣的生態(tài)體系和制造規(guī)模是其他國家難以匹敵的。
三是龐大的制造業(yè)基礎(chǔ):這里有大規(guī)模部署和測試機器人的真實場景,可以快速收集數(shù)據(jù)、迭代算法,讓機器人不斷進化。
這使得像銀河通用、宇樹科技這樣的企業(yè),能夠大規(guī)模制造機器人,快速學習和迭代。中國獨特的綜合條件為物理AI和機器人產(chǎn)業(yè)的快速發(fā)展提供了堅實基礎(chǔ)。
四、家用機器人最大難題不是技術(shù),機器人數(shù)量不直接影響生育率
8. 未來機器人在哪些場景會迎來大規(guī)模普及?
王興興:未來肯定會走向更實用,無論是工業(yè)、服務(wù)業(yè)還是家用領(lǐng)域,整體時間周期會更長一些,尤其是家用領(lǐng)域。家用機器人的最大難題不是技術(shù),而是倫理、安全等方面的要求極高,這導致家用機器人的普及門檻要高得多。
每個產(chǎn)業(yè)的成熟都需要較長周期。十幾年前大家也覺得新能源車會發(fā)展得很快,但整體成熟花了不少時間。
現(xiàn)在用的新技術(shù),跟十幾、二十年前完全不同,硬件和軟件都發(fā)生了巨大變化。但很多人提機器人時,喜歡拿十幾、二十年前的東西來說,覺得這個行業(yè)已經(jīng)發(fā)展了很久。
現(xiàn)在新一代人形機器人或通用機器人技術(shù),實際上才發(fā)展了兩三年,還需要更多時間。不過從當前發(fā)展速度來看,我個人感覺行業(yè)仍在快速成長,很有可能實現(xiàn)未來幾年人員和出貨量每年翻倍。
基于此,如果未來出現(xiàn)更強大、更通用的AI大模型,這些模型將能讓機器人在工廠、家庭等更多通用場景中表現(xiàn)更好。因為越通用,普及的難度就越小。相反,如果不通用,推廣會更困難。
9. 機器人能取代很多工作,之后的生育率會不會降低?
Rev Lebaredian:我認為人們是否選擇生育,并不會與機器人數(shù)量直接相關(guān)。但有一點是確定的:每當社會人口增長時,GDP和生產(chǎn)力都會增長。一個社會的產(chǎn)出能力與其人口規(guī)模直接相關(guān)。
目前大多數(shù)國家面臨的人口縮減趨勢將導致經(jīng)濟不增長,甚至可能萎縮。如果不采取措施,我們的經(jīng)濟將走向衰退。
因此,打造機器人以創(chuàng)造“人工人口”,輔助完成各類工作、提升生產(chǎn)力,是刻不容緩的任務(wù),不僅要維持現(xiàn)有生產(chǎn)力水平,還要推動社會進一步發(fā)展。
五、機器人算力、模型、數(shù)據(jù)挑戰(zhàn):提高能效,架構(gòu)統(tǒng)一與對齊,補充多模態(tài)數(shù)據(jù)
10. NVIDIA Jetson Thor與之前的Jetson平臺有何區(qū)別?如何特別適用于機器人?
Rev Lebaredian:Jetson Thor與之前版本最大的不同是:(1)具備了足夠的計算能力,能運行更大、更強的神經(jīng)網(wǎng)絡(luò)和模型,支持更復(fù)雜的推理任務(wù);(2)擁有更高的帶寬,能更快處理來自各種傳感器的大量信息,使機器人能夠快速反應(yīng),在動態(tài)變化的環(huán)境中高速移動和操作。
我們努力最大化每一代Jetson產(chǎn)品的計算能力,因為智能問題本身就是一個非常復(fù)雜的計算難題。在機器人領(lǐng)域,這一挑戰(zhàn)更大:計算必須非??焖?,且在極為苛刻的環(huán)境中進行。機器人往往在現(xiàn)場實時運行,需要在緊湊的循環(huán)內(nèi)完成計算,電力有限,因此要盡可能降低功耗以延長電池壽命,同時還要考慮散熱等問題。這些因素都極大地增加了難度。
11. 目前機器人領(lǐng)域的大模型架構(gòu)尚未統(tǒng)一,宇樹科技主要聚焦哪些方向的具身智能基礎(chǔ)模型探索?
王興興:我一直覺得目前的模型架構(gòu)確實非常不統(tǒng)一,這導致目前進展比較緩慢。如果模型架構(gòu)能更加統(tǒng)一、方向明確,結(jié)合當前行業(yè)熱度,大家能更快取得突破。
我們公司探索了很多方向。比如我們?nèi)ツ陣L試的一個用視頻生成模型作為“世界模型”,來驅(qū)動并對齊機械臂的項目,這個嘗試取得了一定效果。但由于視頻生成模型訓練規(guī)模極大,考慮到我們公司的算力和投入,難以進行大規(guī)模訓練。而且我們嘗試后發(fā)現(xiàn),這類模型的泛用性還不能完全滿足預(yù)期,因此后來基本沒有繼續(xù)使用。
但最近谷歌發(fā)布了一個新的視頻生成模型,其物理對齊效果非常好,并且他們公開嘗試把視頻生成模型作為世界模型,直接用于機械臂和通用智能。這讓我覺得這個方向非常值得重新探索。
由于公司規(guī)模和算力、人才限制,我們只是初步探索,沒有深入推進。但谷歌的成果證明這個方向很有潛力。
視頻生成模型在時間內(nèi)容、數(shù)據(jù)源以及效果方面,已經(jīng)達到不錯的預(yù)期。舉例來說,如果控制視頻生成模型生成一個機器人打掃全屋的視頻,而且效果不錯,理論上只要把視頻與機器人動作對齊,也能實現(xiàn)類似效果。
不過,目前對齊工作仍然非常復(fù)雜且具有挑戰(zhàn)性。這個方向無論是對機器人應(yīng)用,還是純視頻生成技術(shù)本身,都是非常主流且值得投入的。即便不用于機器人,視頻生成技術(shù)也會持續(xù)被大公司加大投入、不斷優(yōu)化。
除此之外,還有其他方案。隨著基礎(chǔ)模型能力快速提升,很多潛力尚未被充分挖掘。
我們發(fā)現(xiàn),如果在基礎(chǔ)模型后訓練時加入機器人指令控制和空間理解訓練,效果能明顯提升。比如王鶴老師團隊展示的一些基于基礎(chǔ)模型的機器人控制效果就非常不錯。
我們公司的策略很簡單:不斷嘗試各種新模型和新想法。今天可能有一種想法,明天可能會調(diào)整,這很正常。我認為大家都應(yīng)該大膽嘗試新興技術(shù),AI領(lǐng)域充滿了可能性,往往一個靈光一閃的創(chuàng)意就能帶來突破。希望鼓勵更多人去探索,或許下一個創(chuàng)新就出自你手。
12. 大模型擴展定律(Scaling Law)是否遇到挑戰(zhàn)?
王鶴:目前大模型類型繁多,有純文本大模型、圖文大模型,圖文大模型又分為視覺理解和視頻生成,具身智能VLA也是一種大模型。所以說,大模型擴展是否遇到瓶頸,無法簡單地用一個統(tǒng)一的結(jié)論來概括。
我理解,在當前純文本階段,我們主要的數(shù)據(jù)源是互聯(lián)網(wǎng)公開數(shù)據(jù),但很多私域知識并不在網(wǎng)上,這導致模型的推理能力實際上需要的數(shù)據(jù)與公開數(shù)據(jù)有差異。除非能通過某種可控的方式獲得額外數(shù)據(jù)增強,否則單靠公開數(shù)據(jù)提升模型能力是有限的。
這部分能力的增長,并不會自然地通過單純擴大模型規(guī)模實現(xiàn)。
但不能低估推理模型的進展,比如在IMO國際數(shù)學競賽上,文本模型獲得金牌,面對從未見過的題目表現(xiàn)出色,這說明文本大模型的能力在不斷提升。
多模態(tài)大模型(比如VLM和VLA)目前還處于比語言模型稍弱的階段,核心原因是數(shù)據(jù)不足:文本數(shù)據(jù)非常豐富,而文本-圖像配對數(shù)據(jù)相對較少,再加上動作數(shù)據(jù)更少,因此視覺理解能力和基于視覺的動作操作能力還有較大差距。
這也是為什么合成數(shù)據(jù)和仿真技術(shù)非常重要。正如Rev所說,仿真能夠?qū)⒄鎸嵤澜鐖鼍昂蛣幼鲝?fù)現(xiàn)到虛擬環(huán)境,生成大量帶動作、圖像和語義配對的數(shù)據(jù),這將極大促進圖文、多模態(tài)大模型及具身智能大模型的發(fā)展。如果完全依賴真實數(shù)據(jù),進展會受到很大限制。
我相信,充分利用仿真技術(shù),將是多模態(tài)大模型和具身大模型應(yīng)對數(shù)據(jù)瓶頸的最有效途徑。
六、仿真是構(gòu)建安全機器人系統(tǒng)的唯一方式,三大路徑可彌合仿真與現(xiàn)實之間的差距
13. 如何確保用仿真數(shù)據(jù)訓練的機器人具備可靠性和安全性?
Rev Lebaredian:如果你想構(gòu)建一個能夠在現(xiàn)實世界中行動且安全可靠的機器人系統(tǒng),唯一的選擇就是使用仿真。
因為現(xiàn)實世界測試過慢、成本高且危險,我們不希望機器人在現(xiàn)實世界先失敗。換句話說,如果我們無法讓仿真足夠準確以測試機器人,那么我們將無法制造出可靠的機器人。
以自動駕駛為例,我們絕對不希望車撞到人或者孩子,但當街上出現(xiàn)小孩時,車輛的大腦該如何反應(yīng)、如何獲取訓練這類系統(tǒng)的數(shù)據(jù)呢?我們絕不可能將孩子置于汽車前作為訓練樣本,這樣做是不道德的、危險的,而且耗時且昂貴。所以,仿真是能夠應(yīng)對很少發(fā)生的特殊情況的唯一辦法。
即使訓練完系統(tǒng),在將它部署到現(xiàn)實世界之前,也需要在這些相同場景中進行測試,確保在真正發(fā)生類似情況時,它能夠正確反應(yīng)。
幸運的是,目前已有非常準確的仿真器。不過,這些仿真器計算量大且成本高昂,我們面臨的真正挑戰(zhàn)是如何提升仿真速度,使其在大規(guī)模系統(tǒng)構(gòu)建中具有成本效益,這也是我們一直努力的方向。
14. 未來幾年,驅(qū)動AI機器人的仿真領(lǐng)域,有哪些關(guān)鍵技術(shù)趨勢將改變整個行業(yè)?
Rev Lebaredian:我認為目前最大的趨勢,是所有在常規(guī)AI領(lǐng)域出現(xiàn)的技術(shù)和發(fā)展,正被應(yīng)用到物理AI中。
其中最重要的突破是推理能力的提升。比如DeepSeek將推理能力帶入了開源領(lǐng)域,現(xiàn)在我們也看到了其他各種模型。
可能在今年年底或明年,機器人將能更自然地與人互動,并完成復(fù)雜的多步驟任務(wù)。而將這種能力與仿真結(jié)合,我認為這是一個可能還未被廣泛理解,但將成為重大突破的點。
目前我們面臨的主要問題是AI極度依賴數(shù)據(jù),而獲取合適的數(shù)據(jù)非常困難。我們現(xiàn)有的推理模型,尤其是對物理世界的推理,可以幫助我們改善數(shù)據(jù)生成和數(shù)據(jù)創(chuàng)建的流程。
如今我們生成的數(shù)據(jù),即使是合成數(shù)據(jù),也需要大量人工參與,人工去構(gòu)建虛擬世界和仿真環(huán)境,判斷該生成哪些數(shù)據(jù)才能讓智能系統(tǒng)更聰明。
但是,如果我們把正在開發(fā)的AI技術(shù)用在數(shù)據(jù)生成流程中,就可以實現(xiàn)自動化,打造“自動駕駛”的合成數(shù)據(jù)生成。如果我們擁有一個自動駕駛的合成數(shù)據(jù)生成工廠,就能直接將其接入訓練流程,實現(xiàn)訓練過程自動化,減少人為干預(yù),讓機器人大腦更聰明。
我認為中國企業(yè)已經(jīng)在積極探索和應(yīng)用這些仿真技術(shù)。
王鶴:仿真引擎、并行渲染器大大降低了合成數(shù)據(jù)的困難程度。人形機器人行走、跳舞、疊衣服、做導航等技能背后的數(shù)據(jù),離不開好用、并行的渲染器。所以這些確實非常感謝NVIDIA作為一個生態(tài)方,從芯片到仿真平臺對整個生態(tài)的托舉。
15. 如何彌合仿真與現(xiàn)實之間的差距?
Rev Lebaredian:如果我們依賴仿真來構(gòu)建和測試AI,就必須確保仿真盡可能接近現(xiàn)實,否則我們無法信任它。我們構(gòu)建的AI如果是在一個“卡通世界”里訓練的,是無法真正理解現(xiàn)實世界的,因此,測試時必須確保仿真場景與現(xiàn)實相符。
彌合仿真與現(xiàn)實之間的差距,可以通過多種方式:
首先,提升仿真器本身的精度。
我們幾十年來一直在構(gòu)建物理仿真算法,且驗證了這些算法能夠較好地反映現(xiàn)實世界的物理規(guī)律。比如,我們利用仿真設(shè)計飛機機翼和汽車,確??諝鈩恿W性能,并驗證仿真結(jié)果與真實世界匹配。問題是,這些高精度仿真計算成本極高,通常需要在大型計算機上運行數(shù)小時。挑戰(zhàn)就在于如何將仿真速度提升到足夠快,能夠嵌入AI訓練流程中,實現(xiàn)大規(guī)模、高效的數(shù)據(jù)生成和測試。
為此,我們正在利用AI本身作為提升仿真速度和精度的工具。AI能夠近似任何數(shù)學函數(shù),我們可以將物理仿真函數(shù)轉(zhuǎn)換為AI函數(shù),構(gòu)建AI模擬器完成仿真。只要提供足夠的示例數(shù)據(jù),AI就能學習仿真功能。
這正是我們正在開發(fā)的“Cosmos”項目,這些“世界基礎(chǔ)模型”是能理解世界物理規(guī)律的AI模型,我們可以將真實世界數(shù)據(jù)和可信仿真數(shù)據(jù)輸入這些模型進行訓練。一旦有了這樣理解世界的AI基礎(chǔ)模型,就可以將其與傳統(tǒng)仿真結(jié)合,構(gòu)建更精準、更高效的仿真器。
其次,即使擁有高質(zhì)量的仿真器,構(gòu)建代表現(xiàn)實世界的數(shù)據(jù)也非常困難。
以這個房間為例,雖然仿真器可以模擬物理現(xiàn)象,但我們還要創(chuàng)造帶有正確物理參數(shù)(如摩擦系數(shù)、材料特性)的桌布和桌子,這類信息采集非常復(fù)雜。目前,全球只有少數(shù)專業(yè)人士(通常是游戲或電影行業(yè)的藝術(shù)家)具備這類能力。但隨著我們構(gòu)建具備物理理解能力的AI,這些AI可以輔助生成這些虛擬環(huán)境,成為“機器人藝術(shù)家”,幫助我們高效創(chuàng)建真實感十足的虛擬世界。
第三種方法是直接捕捉現(xiàn)實世界。
我們也利用物理AI技術(shù)將現(xiàn)實環(huán)境(例如我們身處的房間)數(shù)字化、導入仿真環(huán)境,確保虛擬場景與現(xiàn)實高度一致。
NVIDIA正在這三個方向全面發(fā)力,打造相關(guān)技術(shù),但這項工作遠超過任何一家公司的能力。我們正與整個生態(tài)系統(tǒng)的合作伙伴協(xié)同推進,爭取在這三條路徑上共同攻關(guān)。我們已經(jīng)積累了不少成果,現(xiàn)有的仿真器已經(jīng)能夠生成足夠高質(zhì)量的數(shù)據(jù),助力我們提升AI性能。
七、NVIDIA:為機器人打造三臺計算機,提供完整軟件棧和世界模型
Rev Lebaredian說,NVIDIA的使命是打造專門針對“最難問題”的計算機。機器人就是其中最難的問題之一。為此,NVIDIA認為必須打造三臺計算機:
(1)機器人本體計算機:嵌入在機器人內(nèi)部,例如自動駕駛汽車或人形機器人中的計算機。專門為人形機器人打造的Jetson Thor便屬于這一類,今年在世界機器人博覽會上,就可以在銀河通用和其他展出的機器人上看到它們的身影。
(2)AI工廠計算機:在使用機器人本體計算機之前,必須先開發(fā)它的“大腦”。需要依賴DGX和HGX系統(tǒng),處理海量原始數(shù)據(jù),生成物理AI算法、物理AI模型和神經(jīng)網(wǎng)絡(luò),再部署到機器人上。
(3)仿真計算機:物理世界的數(shù)據(jù)無法直接從互聯(lián)網(wǎng)獲取,只能通過兩種方式獲得:真實世界傳感器采集、基于物理定律和世界規(guī)則進行計算機仿真生成。仿真不僅能生成數(shù)據(jù),還能在部署前測試機器人,確保它們在真實環(huán)境中安全運行,且測試速度可快于現(xiàn)實時間。
NVIDIA Jetson Thor是一款專為物理世界中的智能推理Agent(特別是機器人)打造的超級計算機,黃仁勛稱它為“實時推理機器”。其性能亮點包括:
- 計算能力是上一代Jetson Orin的7.5倍;
- 每瓦性能提升多達3.5倍;
- CPU性能提升多達3.1倍;
- I/O吞吐量提升多達10倍,滿足高帶寬感知需求。
在機器人領(lǐng)域,NVIDIA擁有完整的Isaac平臺,它結(jié)合了硬件與三臺計算機所需的軟件棧,包括運行時和計算環(huán)境、仿真工具、訓練框架。Isaac平臺還包括NVIDIA的模擬器與仿真框架:
- Isaac Sim:環(huán)境和傳感器仿真、機器人測試、生成合成數(shù)據(jù)。
- Isaac Lab:強化學習的仿真平臺。
- NVIDIA Cosmos:世界基礎(chǔ)模型及框架,支持構(gòu)建理解物理世界的AI,并與Omniverse等模擬器結(jié)合,生成更精確、更大規(guī)模的數(shù)據(jù)。
世界基礎(chǔ)模型雖然還處在起步階段,尚不能完全理解世界,但已經(jīng)非常有用,并為機器人研發(fā)帶來了全新能力。
八、宇樹科技:曬機器人“全家福”競爭力,未來一兩年實現(xiàn)自然交互
王興興分享了宇樹科技的幾款重要機器人產(chǎn)品。
足式人形機器人方面,宇樹科技去年5月發(fā)布的一款人形機器人,當時售價約9.9萬元,至今依然具備很強的市場競爭力。它的關(guān)節(jié)數(shù)量和靈活性表現(xiàn)優(yōu)秀,且在發(fā)布后,其架構(gòu)已成為全球較為主流的設(shè)計構(gòu)型。
去年下半年及今年,不少新興機器人公司的新產(chǎn)品在架構(gòu)上與這款相似,僅在外觀上存在差異。
宇樹科技設(shè)計的造型流暢且結(jié)構(gòu)簡單,而其他造型可能更復(fù)雜且不夠美觀,因此該產(chǎn)品在市場上競爭力較強。
近期,宇樹科技又發(fā)布了新的版本,雖然涂裝稍顯花哨,但宇樹科技希望客戶可以自由改裝和噴涂外觀,例如更改顏色或增加個性化裝飾。許多客戶在戶外直播時會為機器人穿衣、戴帽或假發(fā),創(chuàng)造出多種造型。外觀和造型的可定制性對于客戶體驗至關(guān)重要。
宇樹科技最新發(fā)布的R1人形機器人,重量約25千克,輕便且安全。雖然體積較小,但動力性能強勁,主要面向工業(yè)應(yīng)用,售價約3.99萬元,全球競爭力強且性能表現(xiàn)出色,現(xiàn)貨可供,預(yù)計量產(chǎn)在年底前完成。
機器狗方面,宇樹科技近期發(fā)布了A2機器狗,它最大特點是在緊湊輕量化設(shè)計下實現(xiàn)了較大負載能力。自重約37千克,持續(xù)負載可達30千克,空載續(xù)航可行駛20公里。其外觀吸取了以往的設(shè)計經(jīng)驗,更具科幻感,且具備防塵防水性能。
宇樹科技一直希望機器人能在工業(yè)場景中替代人類完成繁重、危險或重復(fù)性工作。宇樹的機器狗在一些公益項目中已實現(xiàn)24小時不間斷運行,具備自動充電和巡邏檢測功能。
輪式機器人方面,宇樹科技去年年底升級了輪式機器人,這款產(chǎn)品較大,自重約70~80千克,因此部分場景不便使用。為此,宇樹科技推出了更小型且防塵防水的版本,適用于室內(nèi)外多種場景,雖然體型較大,但靈活性依然優(yōu)秀。通常小型機器人靈活性更強,而大型機器人靈活性較差,但宇樹科技在較大尺寸下依然保證了良好的運動性能。
多機協(xié)作方面,今年1月,宇樹科技的機器人登上央視春晚,最大亮點是全自動編隊跳舞。它在頭部配備3個激光雷達,可自動建圖并變換隊形。宇樹科技將后臺控制權(quán)交給舞臺控臺,使音樂與動作實現(xiàn)毫秒級同步。此次演出共有16臺機器人,統(tǒng)一連接至宇樹科技后臺服務(wù)器,再接入舞臺系統(tǒng)。該項目的最大挑戰(zhàn)在于多機協(xié)作及復(fù)雜的編程維護。目前,這些機器人在澳門美高梅每日進行表演。
動作學習方面,宇樹科技通過采集人體動作數(shù)據(jù)并結(jié)合深度強化學習進行訓練。不同于語言模型訓練,動作訓練只需少量真實數(shù)據(jù),其余由強化學習完成。宇樹科技主要使用NVIDIA Isaac Sim平臺進行訓練,已掌握舞蹈、跳躍、空翻等多種動作。
當前限制機器人執(zhí)行更復(fù)雜動作的最大因素并非算法,而是硬件物理極限。例如,要將奔跑速度從每秒3~4米提升到10米,對硬件的改進需求極高。
硬件方面,宇樹科技重視機器人上肢和手部的研發(fā),目前已自主開發(fā)一款約20自由度的靈巧手,目標是讓機器人真正能夠執(zhí)行日常任務(wù),而不僅是完成展示性動作,希望在未來一到兩年內(nèi)實現(xiàn)自然交互,例如在沒有預(yù)先適配的情況下,直接指令機器人去為某人倒水。
今年5月底,宇樹科技與央視合作舉辦了一場機器人格斗賽,時長約1.5小時,包含4個團隊參賽。格斗賽的算法復(fù)雜度高于舞蹈或功夫表演,因為動作組合是隨機且存在強干擾,要求動作銜接流暢并可自由組合。其目標是在未來實現(xiàn)“任意動作的任意實時生成”。
九、銀河通用:無人藥房、無人零售已落地,下一代機器人將采用雙足設(shè)計
王鶴談道,今天在場的所有機器人公司,共同目標都是打造通用機器人。這樣的通用機器人將成為下一個價值數(shù)萬億美元、數(shù)萬億人民幣市場的關(guān)鍵性、革命性產(chǎn)品。
這種革命性產(chǎn)品背后包含多個核心要素:一是機器人本體,二是驅(qū)動它運轉(zhuǎn)的具身智能模型,三是模型背后則是數(shù)據(jù)支撐——什么樣的數(shù)據(jù)能訓練出這樣的能力。
銀河通用與其他公司的不同之處在于,其機器人并非完全人形,而是輪式+雙臂+雙手的形態(tài),采用輪式底盤,主打高續(xù)航、工業(yè)級安全性,可實現(xiàn)大規(guī)模、高可靠交付的能力。
其G1機器人于2024年5月首次亮相,經(jīng)過一年多迭代,目前在自動充電、運行流暢度與穩(wěn)定性方面均已達到大規(guī)模自主商用的標準。
銀河通用率先在中國將NVIDIA Jetson Thor芯片部署于人形機器人之中,也是全球最早收到該芯片的公司之一,并在本屆世界機器人大會上實現(xiàn)了現(xiàn)場部署。
在演示中,配備該芯片的機器人展現(xiàn)出絲滑的運動性能以及實時的貨箱視覺處理與運動規(guī)劃能力,速度顯著提升,被現(xiàn)場觀眾評價為“最快的人形機器人”。這背后離不開強大芯片的支撐。
銀河通用的機器人之所以能夠在復(fù)雜環(huán)境中高效導航,源于銀河通用長期研發(fā)的大規(guī)模具身大模型VLA。其中,導航大模型只需一句話指令,即可在場景中自主運動。
“六一”兒童節(jié)前夕,銀河通用全球首發(fā)了無需建圖、可在任何復(fù)雜場景中跟隨人的TrackVLA,能夠自然語言交互、穿梭障礙物,全程自主運行,即使在人流干擾下也能穩(wěn)定跟隨。
上半身操作方面,銀河通用全球首發(fā)了抓取基礎(chǔ)大模型Grasp VLA,實現(xiàn)了抓取動作的實時閉環(huán)生成,在各種光照條件和挑戰(zhàn)性背景下,均能實現(xiàn)指定物體的零樣本抓取,且無需事先訓練該物體。這為未來“自然語言+即時執(zhí)行”奠定了基礎(chǔ)。
基于Grasp VLA,銀河通用打造了零售場景應(yīng)用,無論瓶裝、袋裝、散裝、掛裝或軟體物品,均可由同一模型完成抓取與遞送。這是全球首個可應(yīng)對50多種不同物體擺放、從剛體到軟體全覆蓋的端到端零售大模型。
銀河通用能在全球率先推出多款基礎(chǔ)大模型,并能在真實商店場景穩(wěn)定應(yīng)用,得益于NVIDIA提供的全套仿真引擎。
“我們與NVIDIA一致認為,合成數(shù)據(jù)是推動具身智能快速落地的關(guān)鍵?!蓖斛Q說。
他談道:“目前,真實世界數(shù)據(jù)僅占我們訓練數(shù)據(jù)的1%,其余99%均為合成數(shù)據(jù)。我們將自研機器人模型、大量物體與材質(zhì)資產(chǎn)輸入合成管線,經(jīng)NVIDIA引擎完成仿真驗證與物理渲染,生成全球首個百億級抓取操作大數(shù)據(jù)集,以及全球首個百億級柔性物體操作大數(shù)據(jù)集。這些數(shù)據(jù)使我們的模型在真實環(huán)境中具備極高的魯棒性與泛化能力?!?/p>
銀河通用還與NVIDIA聯(lián)合官宣了基于Isaac平臺的下一代人形機器人項目。
目前銀河通用的機器人為輪式形態(tài),下一代將采用純雙足設(shè)計,基于OpenWBT_Isaac進行數(shù)據(jù)采集與遙控控制。無論在仿真環(huán)境還是現(xiàn)實環(huán)境,該平臺可訓練并部署多種任務(wù)能力,例如推車、拾取地面物體等。
銀河通用的多項技能已實現(xiàn)完全商用,例如推出了全球首個24小時無人藥房解決方案,在北京、上海、深圳等地簽約超過100家藥店。用戶通過App下單后,由機器人在店內(nèi)完成取藥并交付外賣員,該方案已吸引多位政府領(lǐng)導與外國元首參觀。
2024年,銀河通用還官宣了24小時無人零售店項目,將在10個城市的百處核心商圈和旅游景點部署銀河通用“太空艙”零售終端,銷售飲品等商品,目前已在北京海淀區(qū)大融城落地。
結(jié)語:讓計算的力量進入100萬億美元市場,機器人與AI技術(shù)發(fā)展需要全球協(xié)作
Rev Lebaredian分享道,過去三四十年里,計算機產(chǎn)業(yè)和IT產(chǎn)業(yè)放大了各行各業(yè)的能力。但計算的影響大多還停留在“信息空間”——也就是可以數(shù)字化的內(nèi)容,比如語言和各種可編碼的信息?;ヂ?lián)網(wǎng)的出現(xiàn),讓計算技術(shù)真正走進每個人的生活,把所有人連接起來,并帶來了幾十年的增長。
從全球市場規(guī)模來看,IT行業(yè)的總規(guī)模約為5萬億美元,這與全球所有行業(yè)超過100萬億美元的總量相比,只是很小的一部分。其它行業(yè)之所以更有價值,是因為它們處理的是真實世界的“原子”——交通、制造、供應(yīng)鏈、物流、醫(yī)療、制藥等涉及物理世界的領(lǐng)域。
而今天,隨著AI出現(xiàn),我們終于有了讓機器具備“物理智能”的能力,可以把物理世界和信息世界真正連接起來。換句話說,計算的力量不再只局限于那5萬億美元的信息市場,而是可以進入那100萬億美元的物理世界市場。
這個橋梁,就是機器人。
有了機器人,我們可以把計算和AI帶進真實世界,創(chuàng)造出能理解并改變物理環(huán)境的智能體。
王鶴總結(jié)說,銀河通用通過與NVIDIA的一系列合作,從仿真到可落地的產(chǎn)品,利用合成大數(shù)據(jù)賦能的VLA驅(qū)動工業(yè)級機器人。銀河通用將繼續(xù)與NVIDIA等合作伙伴攜手,打造服務(wù)千行百業(yè)、千家萬戶的通用機器人。
王興興談道,回顧過去,AI與機器人技術(shù)的發(fā)展始終是全球協(xié)作的成果。包括NVIDIA在內(nèi)的多方力量一直推動機器人與AI領(lǐng)域的全球合作。
在他看來,在通用智能大模型和真正能執(zhí)行任務(wù)的機器人普及之前,我們?nèi)孕韫餐?,推動人類進入下一個科技時代。他相信,AI與機器人技術(shù)將像電力與蒸汽機的發(fā)明一樣,使人類文明邁向新的高度。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.