要過智力關(guān)和成本關(guān)。
封面 I 豆包AI
作者 I 王璐
報(bào)道 I 定焦ONE
人類,正在被人形機(jī)器人“圈粉”。
在剛剛落幕的2025世界機(jī)器人大會(WRC)上,這群“鋼鐵戰(zhàn)士”成了頂流明星,五天展期里人潮不散,各家展臺被圍得水泄不通,觀眾一邊驚呼“哇塞”,一邊舉著手機(jī)咔咔狂拍,社交平臺被機(jī)器人的短視頻刷屏。
越來越多人驚喜于人形機(jī)器人的進(jìn)化速度,它們已經(jīng)不是笨拙的鐵疙瘩,而是有了靈巧的雙手和雙足,皮膚觸感逼真到能“以假亂真”,甚至?xí)裘?、微笑、拋媚眼?/p>
技能點(diǎn)也在全方位進(jìn)化——
能表演:跳舞、T臺走秀、打拳、踢足球等樣樣精通;
能干活:在家務(wù)整理、咖啡制作、工業(yè)搬運(yùn)等領(lǐng)域取代打工人;
能交流:聽得懂人講話、能進(jìn)行簡單地自然對話,逐步擺脫“人工智障”標(biāo)簽。
但它們也有不少bug——
動(dòng)作單一:多家廠商機(jī)器人跳舞,后空翻和摔倒姿勢宛如復(fù)制粘貼,被網(wǎng)友調(diào)侃“程序員偷懶”;
效率不高:疊衣服慢如樹懶,工業(yè)場景仍停留在基礎(chǔ)分揀;
價(jià)格高昂:一臺頂配機(jī)器人抵得上一輛寶馬。
盡管如此,它們?nèi)缘沧驳仉x開實(shí)驗(yàn)室,正在加速走向現(xiàn)實(shí)世界。“馬拉松”“運(yùn)動(dòng)會”“拳擊賽”等各種人形機(jī)器人賽事,還在霸屏著國內(nèi)外媒體。
近期,「定焦One」和幾位人形機(jī)器人頭部企業(yè)、資深從業(yè)者聊了聊。雖然現(xiàn)在談大規(guī)模應(yīng)用還為時(shí)尚早,“智力”和“成本”仍是瓶頸,但技術(shù)進(jìn)步、資本下注和市場需求正在加速這個(gè)進(jìn)程。未來,人形機(jī)器人可能會顛覆我們對勞動(dòng)、效率和智能的想象。
人形機(jī)器人,到底是什么樣的存在?它并不像大家想象中那么簡單。我們從外觀、交互方式和應(yīng)用場景三方面,來一個(gè)全景認(rèn)知。
先來看看如今的人形機(jī)器人長什么樣。
通常來說,它們有著軀干、頭頸、四肢等類人結(jié)構(gòu),但實(shí)際上,各家的人形機(jī)器人形態(tài)各異,差異主要體現(xiàn)在手和腳的設(shè)計(jì)上。手分為三類:靈巧手(采用仿生五指設(shè)計(jì),能夠模擬人類手部的精細(xì)動(dòng)作)和二指夾爪、三指手,腳則分為雙足型和非足型。
在從業(yè)者看來,雖然靈巧手和雙足設(shè)計(jì)更接近人類形態(tài),但實(shí)現(xiàn)功能卻相對基礎(chǔ)且價(jià)格高昂,一位相關(guān)從業(yè)者透露,高端靈巧手價(jià)格高達(dá)10萬-20萬元。
有著多年互聯(lián)網(wǎng)和自動(dòng)駕駛汽車行業(yè)從業(yè)經(jīng)驗(yàn),也是具身智能行業(yè)的資深從業(yè)者Kris告訴「定焦One」,一對靈巧手的成本可以占到機(jī)器人總成本的三分之一,從二指夾爪升級為三指手,雖然只增加了一個(gè)手指,成本可能翻了好幾倍,但高成本帶來的效果未必成正比。
因此,為了提供更好性能以及平衡性價(jià)比,人形機(jī)器人公司大多都采取了沒那么像人的夾爪形式和輪式結(jié)構(gòu),除非客戶有特定需求。
比如,參展廠商星塵智能的Astribot S1演示了做早餐、沖咖啡、畫扇子等復(fù)雜任務(wù),這些操作都是靠二指夾爪實(shí)現(xiàn)的。
圖源:受訪者提供
星塵智能研發(fā)負(fù)責(zé)人安昭輝告訴「定焦One」,人形機(jī)器人的操作功能集中在上半身,但不僅僅是靠夾爪,而是依靠整個(gè)上半身,所以他們對整個(gè)機(jī)器人本體的關(guān)鍵部位,采用了創(chuàng)新繩驅(qū)傳動(dòng)設(shè)計(jì),達(dá)到了高度模仿人類肌肉和施力方式,而且在表現(xiàn)更擬人、更高動(dòng)態(tài)的同時(shí),也更安全。
再來看交互方式,Kris解釋,控制人形機(jī)器人運(yùn)行的方法主要有三種:遙操(通過傳感器、控制器等設(shè)備捕捉人類動(dòng)作)、同構(gòu)臂(通過關(guān)節(jié)映射傳遞到機(jī)器人手臂)、語音控制三類。其中比較復(fù)雜的指令比如做早餐,采用的便是遙操、同構(gòu)臂,簡單的指令比如推、拿、放,采用的是語音控制甚至可以達(dá)到自主運(yùn)行。
但無論哪種,離真正由AI自主控制都相差很遠(yuǎn)。即使是看似智能的“語音控制”,也多基于預(yù)設(shè)規(guī)則,機(jī)器人只是看上去有了自主意識,但缺乏真正的場景適應(yīng)能力。
需要指出的是,人形機(jī)器人的遙操和遙控車不是一個(gè)概念,也需要一定技術(shù)水平。
北京大學(xué)計(jì)算機(jī)學(xué)院訪問工程師,在互聯(lián)網(wǎng)、自動(dòng)駕駛、機(jī)器人等行業(yè)都擁有豐富實(shí)踐經(jīng)驗(yàn)的gashero向「定焦 One」解釋,人形機(jī)器人看上去是有人拿著遙控器進(jìn)行操作,但遙操實(shí)際上發(fā)送的是指令,而非直接控制機(jī)器人的最底層,還有大量子任務(wù)需要機(jī)器人自己規(guī)劃執(zhí)行。比如需要機(jī)器人自己保持平衡,規(guī)劃身上的多個(gè)電機(jī)、傳感器來綜合執(zhí)行目標(biāo)動(dòng)作,具有技術(shù)難度。
最后來看看應(yīng)用場景。
綜合從業(yè)者的觀點(diǎn),人形機(jī)器人可清晰地分為To B(企業(yè)級)和To C(消費(fèi)級)兩大方向,其中To B主要指的是文娛表演、工業(yè)制造、文旅服務(wù)、醫(yī)療康養(yǎng)這四大領(lǐng)域。To C集中在家用場景,Kris總結(jié),人形機(jī)器人的目標(biāo)是替代傳統(tǒng)的“三保”工作(保安、保潔、保姆)。
Kris表示,文娛表演是目前最為成熟的應(yīng)用場景,各種舞蹈、T臺走秀和競技比賽頻繁出現(xiàn)。而其他場景仍處于基礎(chǔ)應(yīng)用階段,比如工業(yè)制造以流水線上的分揀、搬運(yùn)為主,文旅服務(wù)以景區(qū)引導(dǎo)為主。
圖源:Kris的機(jī)器人覺醒手記受訪者提供
不過,從實(shí)際價(jià)值來看,gashero認(rèn)為現(xiàn)階段很多人形機(jī)器人“上班”后的存在感并不強(qiáng)。
比如在倉庫里完成搬箱子任務(wù),倉庫AGV機(jī)器人(機(jī)器視覺+機(jī)械臂的組合)已經(jīng)非常成熟且廉價(jià),人形機(jī)器人不具備強(qiáng)競爭力。至于文娛表演,他認(rèn)為不可持續(xù),“新鮮勁過了,機(jī)器人還是要追求創(chuàng)造實(shí)實(shí)在在的價(jià)值?!?/p>
總結(jié)來說,雖然人形機(jī)器人這幾年有了很大進(jìn)步,但想讓它們真正發(fā)揮價(jià)值,還有幾道關(guān)鍵門檻。
多位從業(yè)者概括,眼下人形機(jī)器人的主要難題在于“腦子不夠聰明”和“價(jià)格不夠親民”。
你可以把人形機(jī)器人想象成一個(gè)“人”,由“身體”和“腦子”組成。硬件就是它的“身體”,也被從業(yè)者叫做本體,軟件則是它的“腦子”,掌管著各種思考和行動(dòng)。
業(yè)界的共識是,國內(nèi)人形機(jī)器人的運(yùn)動(dòng)性能已經(jīng)日趨成熟,可以滿足基本的操作需求,但比起“身體”的強(qiáng)壯,人形機(jī)器人“腦子”的問題很大,目前行業(yè)智能化發(fā)展嚴(yán)重不均。Kris直言,人形機(jī)器人的軟件還停留在Demo水平,就像是個(gè)剛學(xué)會走路的孩子,只能在特定的小范圍里走路。
大語言模型之所以越來越聰明,是因?yàn)樗煌5貙W(xué)習(xí)海量數(shù)據(jù)。人形機(jī)器人也類似,但它得在真實(shí)的物理環(huán)境中進(jìn)行大量交互操作,從中獲取數(shù)據(jù)來訓(xùn)練自己的決策和行動(dòng)能力??涩F(xiàn)實(shí)是,物理世界的操作數(shù)據(jù)非常短缺,嚴(yán)重限制了人形機(jī)器人的發(fā)展。
Kris表示,人形機(jī)器人的軟件構(gòu)成基本都是VLA的架構(gòu),在這個(gè)架構(gòu)下,要讓“腦子”認(rèn)出物體,還要指揮“身體”完成動(dòng)作,就必須依賴精準(zhǔn)真實(shí)的空間數(shù)據(jù)。
比如,讓人形機(jī)器人去晾衣服,它得知道走到哪兒去晾,那個(gè)地方的具體坐標(biāo)是多少??涩F(xiàn)實(shí)生活中這部分?jǐn)?shù)據(jù)偏偏是缺失的。所以很多人形機(jī)器人在完成指定動(dòng)作時(shí),必須固定在某個(gè)地方,拿的東西也必須在它的視線之內(nèi),就像被無形的繩子拴住了一樣。
但有些人形機(jī)器人的智商已經(jīng)出現(xiàn)了進(jìn)化。
比如在“收拾桌面”的家務(wù)場景中,星塵智能的Astribot S1(依托星塵智能全身VLA模型)在面對很多沒見過的物體或異常干擾時(shí),能自主完成收拾雜物的工作,即使將場景挪到WRC現(xiàn)場,也只需補(bǔ)采少量數(shù)據(jù),模型就能用。
這背后依靠的是自研模型、本體、過往海量數(shù)據(jù)的閉環(huán)驅(qū)動(dòng),而其“元技能庫”學(xué)習(xí)法,可以讓機(jī)器人不斷采集各類場景中的交互信息,面對新任務(wù)時(shí)進(jìn)行技能遷移,無需從頭學(xué)起,就像小朋友學(xué)習(xí)一樣,通過舉一反三認(rèn)知世界。
但安昭輝也告訴「定焦 One」,目前人形機(jī)器人的通用泛化能力還是整個(gè)行業(yè)都在頭疼的難題,目前它只能對相似的場景進(jìn)行泛化,做不到像ChatGPT那樣回答各行各業(yè)的問題,簡言之,它還是個(gè)垂類專家而非通用專家。
不止一位從業(yè)者表示,合成數(shù)據(jù)是推動(dòng)具身智能快速落地的關(guān)鍵。以銀河通用為代表的企業(yè)在具身智能領(lǐng)域?qū)W⒀芯?,在“腦子”上達(dá)到行業(yè)前沿水平。
拿銀河通用的Galbot為例,在北京海淀中關(guān)村的線下門店,它不用人遙操作,便可自主完成購買接待、點(diǎn)單支付、商品拿取、當(dāng)面交付、多語音交互引客等全流程。在面對300+冷藏/熱飲不同形態(tài)的商品時(shí),也能準(zhǔn)確抓取且做到不碰倒其他貨品。
圖源:受訪者提供
北京銀河通用機(jī)器人首席戰(zhàn)略官趙于莉向「定焦One」透露,這依托的是銀河通用自研的全球首個(gè)面向零售的端到端具身智能大模型——GroceryVLA,基于大規(guī)模合成數(shù)據(jù)和Sim2Real(虛實(shí)融合技術(shù))的技術(shù)泛式,GroceryVLA無需針對每種商品單獨(dú)調(diào)參,實(shí)現(xiàn)跨品類、跨物體的統(tǒng)一抓取策略,并擁有強(qiáng)大的自主決策與抗干擾能力。
在本次WRC大會上,英偉達(dá)Omniverse和仿真模擬技術(shù)副總裁Rev Lebaredian和宇樹科技王興興、銀河通用創(chuàng)始人王鶴同框,英偉達(dá)宣布已將中國首批Jetson Thor芯片給銀河通用使用。在銀河通用的WRC展臺上展示了全球首款搭載了英偉達(dá)Jetson Thor芯片的機(jī)器人Galbot G1 Premium,被現(xiàn)場觀眾評價(jià)為“干活最麻利的人形機(jī)器人”。
如果說“腦子關(guān)”限制了人形機(jī)器人的能力,那么“成本關(guān)”則決定了它能否大規(guī)模普及。
在本次WRC大會上,人形機(jī)器人的身價(jià)天差地別,但整體都價(jià)格不菲,大部分在幾十萬的區(qū)間。最貴的一臺將近百萬,被網(wǎng)友調(diào)侃為“土豪專屬”,當(dāng)然,也有少數(shù)“親民款”,比如宇樹科技Unitree G1人形機(jī)器人,售價(jià)9.9萬元,但對普通家庭來說仍不算便宜。
高昂的價(jià)格讓人望而卻步,從業(yè)者解釋,這并非漫天要價(jià),事實(shí)是,造一臺人形機(jī)器人成本很高。機(jī)器人領(lǐng)域很多核心零部件的成本和汽車產(chǎn)業(yè)類似,甚至連供應(yīng)商都是同一撥,硬件成本不低,也讓機(jī)器人短期內(nèi)難以像其他家電那樣進(jìn)入千家萬戶。
即便人形機(jī)器人面臨著智力與成本的雙重考驗(yàn),對于這一行業(yè)的前景,市場仍十分看好。
從宏觀數(shù)據(jù)看,行業(yè)規(guī)模正高速增長。本次2025世界機(jī)器人大會開幕式上公布了一組數(shù)據(jù):今年上半年,我國機(jī)器人產(chǎn)業(yè)營收同比增長27.8%。工業(yè)機(jī)器人和服務(wù)機(jī)器人產(chǎn)量增長同樣顯著,同比分別增長35.6%和25.5%。我國已連續(xù)12年位居全球最大工業(yè)機(jī)器人應(yīng)用市場。
企業(yè)端和資本端的熱度更勝一籌。
企查查數(shù)據(jù)顯示,截至目前,今年前7個(gè)月已注冊機(jī)器人相關(guān)企業(yè)15.28萬家,較去年同期相比,增長43.81%,增速遠(yuǎn)超去年全年注冊水平。截至8月12日,國內(nèi)現(xiàn)存機(jī)器人相關(guān)企業(yè)95.8萬家。
與此同時(shí),很多企業(yè)已經(jīng)瞄準(zhǔn)了資本市場。公開信息顯示,目前全球已有超20家人形機(jī)器人公司啟動(dòng)IPO或傳出有IPO意向,其中中國占16家,包括宇樹科技、智元機(jī)器人、傅利葉智能等。
各家聚焦的應(yīng)用場景和優(yōu)勢也都不一樣。
比如宇樹科技的優(yōu)勢集中在核心技術(shù)與商業(yè)化落地能力上。其95%以上的核心硬件實(shí)現(xiàn)自主研發(fā),在商業(yè)化方面,旗下產(chǎn)品G1基礎(chǔ)版以9.9萬元起的售價(jià)展現(xiàn)出高性價(jià)比,落地應(yīng)用已較為成熟。
圖源: 宇樹科技官網(wǎng)
智元機(jī)器人則主打全鏈條布局。從硬件到軟件均堅(jiān)持自主研發(fā),同時(shí)通過投資機(jī)器人產(chǎn)業(yè)鏈上的多家創(chuàng)業(yè)公司,構(gòu)建起產(chǎn)業(yè)生態(tài)。
傅利葉智能聚焦特定場景深耕,重點(diǎn)發(fā)力醫(yī)療康復(fù)領(lǐng)域。最近推出了首款主打交互陪伴、具備“可觸摸”特性的全尺寸人形Care-bot GR-3,其具有社交陪伴和輔助陪護(hù)功能,整體外觀形似“大白”,還有微表情反饋。
至于如何判斷一家人形機(jī)器人公司的實(shí)力,不同從業(yè)者給出了不同參考標(biāo)準(zhǔn)。
gashero認(rèn)為人形機(jī)器人和自動(dòng)駕駛領(lǐng)域具有一定的相似性,因此也可借鑒其評估方式,先把這些公司進(jìn)行分類,劃分為人工智能(具身智能)和機(jī)器人兩大派。人工智能派致力于“大腦”——更高的智能水平,機(jī)器人派則側(cè)重于“身體”——更強(qiáng)的硬件能力。
在這兩派中,gashero認(rèn)為,“大腦”是人形機(jī)器人在未來突破的關(guān)鍵所在,因此更傾向于將數(shù)據(jù)方面具備更強(qiáng)實(shí)力的公司放進(jìn)第一梯隊(duì)。
Kris則強(qiáng)調(diào),落地場景對于人形機(jī)器人的商業(yè)前景起著決定性作用。但如果從這一維度來看,企業(yè)梯隊(duì)劃分又會呈現(xiàn)出明顯差異,因此他更偏向于認(rèn)為行業(yè)還處在發(fā)展早期,人形機(jī)器人公司各自在不同的應(yīng)用領(lǐng)域探索、拓展市場,很難從某一固定維度分出高下。
也有從業(yè)者認(rèn)為,依據(jù)估值來劃分人形機(jī)器人公司的實(shí)力,是一種較為直觀的方法。
按照這種劃分方式,智元機(jī)器人、宇樹科技、銀河通用處于第一梯隊(duì),估值超70億;它石智航、千尋智能、自變量機(jī)器人等公司排在第二梯隊(duì),估值在20億-50億;其余熱門公司估值大致在20億以下。
不難發(fā)現(xiàn),無論是從“大腦”與“身體”的技術(shù)側(cè)重,還是落地場景的探索,以及估值規(guī)模的評估,不同的維度展現(xiàn)出市場看待人形機(jī)器人行業(yè)的多元視角,恰恰顯示出這是一個(gè)高速生長、遠(yuǎn)未定型的行業(yè)。這也意味著,人形機(jī)器人的未來,將有無限可能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.