具身智能還沒(méi)有迎來(lái)ChatGPT時(shí)刻,人形機(jī)器人還需要在不斷嘗試各種應(yīng)用場(chǎng)景中等待真正爆發(fā)的機(jī)會(huì)。
文|邱慧
編輯|張劍
一個(gè)月前,宇樹(shù)科技G1 人形機(jī)器人在全球首個(gè)以人形機(jī)器人為參賽主體的格斗賽上,展示了刺拳、勾拳、踢腿等格斗動(dòng)作。
一如此前人形機(jī)器人的馬拉松賽事,這場(chǎng)格斗賽同樣引來(lái)網(wǎng)友爭(zhēng)議:“機(jī)器人為何要參加人類(lèi)賽事?”
6月6日,在第七屆“北京智源大會(huì)”上,獲得格斗比賽冠軍的“AI策算師”向到場(chǎng)觀(guān)眾展示了一套格斗動(dòng)作后,宇樹(shù)科技CEO王興興首次回應(yīng)外界對(duì)機(jī)器人參加各項(xiàng)賽事的質(zhì)疑。
王興興表示,過(guò)去無(wú)論是春晚上的表演還是格斗比賽,宇樹(shù)希望給大家真正展示一下當(dāng)前全球機(jī)器人發(fā)展的情況,同時(shí)也能帶動(dòng)整個(gè)機(jī)器人行業(yè)的發(fā)展。
他坦言,目前“還不能直接去家里和工廠(chǎng)干活”是全球機(jī)器人行業(yè)都面臨的現(xiàn)實(shí)性問(wèn)題。王興興稱(chēng),宇樹(shù)終極目標(biāo)就是希望人形機(jī)器人真正去干活,但在真正干活之前,參加各類(lèi)賽事,也是希望展示已經(jīng)達(dá)到的技術(shù)成果,并且做更多的商業(yè)化拓展和嘗試。
具身智能還沒(méi)到ChatGPT時(shí)刻?
過(guò)去的兩年里,無(wú)論是資本市場(chǎng)還是AI賽道,具身智能都是毋庸置疑的“頂流”。
企業(yè)前赴后繼,爭(zhēng)相涌進(jìn)具身智能賽道。然而,盡管廠(chǎng)商蜂擁而至,但具身智能面臨的挑戰(zhàn)仍不少。
智源研究院院長(zhǎng)王仲遠(yuǎn)指出,當(dāng)下的具身智能大模型面臨“不好用、不通用、不易用”的特點(diǎn)?!安缓糜谩笔侵妇呱泶竽P瓦h(yuǎn)沒(méi)有到ChatGPT時(shí)刻;“不通用”是指具身大模型只能用于一個(gè)本體或同一品牌的本體;“不易用”是指大腦、小腦本體的適配難度比較高。
王仲遠(yuǎn)坦言,當(dāng)下由于具身智能硬件依然不夠成熟,帶來(lái)數(shù)據(jù)短缺問(wèn)題,由此導(dǎo)致模型能力弱、落地應(yīng)用難、機(jī)器人難以量產(chǎn)等壁壘性問(wèn)題。王仲遠(yuǎn)表示,這些問(wèn)題構(gòu)成了一個(gè)發(fā)展中的循環(huán)悖論,為了破解這些挑戰(zhàn)和瓶頸,就需要行業(yè)里各個(gè)參與方的共同努力。
2025年,通過(guò)參加人類(lèi)賽事的人形機(jī)器人進(jìn)入公眾視野,從長(zhǎng)跑到格斗、分揀貨品,技能無(wú)一不令觀(guān)者嘆服。大眾對(duì)人形機(jī)器人入戶(hù)“解放勞動(dòng)力”的期待值日漸拉滿(mǎn)。
但王興興認(rèn)為,目前讓人形機(jī)器人進(jìn)入家庭干活“還是不現(xiàn)實(shí)”的。他指出,從今年1月份的春晚到格斗比賽,人形機(jī)器人的露出多是展示了目前行業(yè)的發(fā)展水平。
“宇樹(shù)的核心本質(zhì)是希望通過(guò)AI技術(shù),讓一個(gè)機(jī)器人尤其人形機(jī)器人可以做各種類(lèi)似跳舞和格斗的全身動(dòng)作,入戶(hù)后的端茶倒水或者洗衣做飯,同樣也是全身動(dòng)作的一部分?!彼硎?,“但在讓人形機(jī)器人去真正干活這個(gè)終極目標(biāo)未實(shí)現(xiàn)之前,宇樹(shù)選擇先參加一些表演、參加一些格斗比賽來(lái)給大家展示一下機(jī)器人的情況,并且產(chǎn)生一部分商業(yè)價(jià)值。”
北京人形機(jī)器人創(chuàng)新中心總經(jīng)理熊友軍同樣認(rèn)為,機(jī)器人賽事更像是機(jī)器人知識(shí)普及的機(jī)會(huì),同時(shí)也是讓人形機(jī)器人能夠走出實(shí)驗(yàn)室,走向人類(lèi)真實(shí)生活場(chǎng)景的技術(shù)訓(xùn)練場(chǎng)。對(duì)于行業(yè)而言,有可能會(huì)促成機(jī)器人加速產(chǎn)業(yè)化,或加速在真實(shí)場(chǎng)景里做試點(diǎn)的應(yīng)用。
人形機(jī)器人“炫技”背后,如何讓具身智能走向產(chǎn)業(yè)化是行業(yè)內(nèi)尚在尋求共識(shí)的命題?!半m然我們看到了(機(jī)器人)很多炫酷的功能,但也一定要反思這樣的技能在新環(huán)境下,在客戶(hù)需要百分百成功率的情況下,能不能成功。”銀河通用創(chuàng)始人王鶴分享了他與聯(lián)合團(tuán)隊(duì)思考后的結(jié)果,即先把最重要的技能打通。
“如果我們能讓人形機(jī)器人24小時(shí)服務(wù),這樣就能讓具身智能真正走向產(chǎn)業(yè)化、真正服務(wù)人民,是創(chuàng)造生產(chǎn)力的開(kāi)始?!蓖斛Q透露,目前,銀河通用機(jī)器人已經(jīng)在北京開(kāi)了7家無(wú)人藥店,由銀河通用的人形機(jī)器人24小時(shí)分揀藥品、對(duì)接騎手,無(wú)人藥店可以在夜間為急需用藥的患者服務(wù),且不需要人類(lèi)24小時(shí)在崗,“2025年,我們將在北京、上海、深圳一共開(kāi)100家藥店?!?/p>
另有與會(huì)學(xué)者談及,在特定的場(chǎng)景下,機(jī)器人具備多樣式的能力,但后續(xù)的問(wèn)題是如何將這些技能泛化。該學(xué)者認(rèn)為,目前,機(jī)器人技能泛化領(lǐng)域,還處于早期階段,在大語(yǔ)言模型等方面,還有很多工作待完善。此外,他提到,要讓機(jī)器人能夠更加穩(wěn)定,持續(xù)地表現(xiàn)出高效和可靠性,還需要通過(guò)更加精確的數(shù)據(jù)集對(duì)它們進(jìn)行預(yù)先和預(yù)后培訓(xùn)。
在王仲遠(yuǎn)看來(lái),未來(lái)三年,具身智能最可能在諸如工廠(chǎng)一樣、相對(duì)封閉的特定場(chǎng)景里規(guī)?;涞貞?yīng)用,規(guī)避當(dāng)前具身智能不成熟安全隱患的同時(shí),也能代替人類(lèi)進(jìn)行重復(fù)性勞動(dòng)任務(wù)。
具身智能商業(yè)化突破的臨界點(diǎn)在哪?
然而,在以人形機(jī)器人為代表的具身智能發(fā)展階段,學(xué)界、業(yè)界內(nèi)外尚存分歧的問(wèn)題是,機(jī)器人形態(tài)選擇上為什么要“類(lèi)人”?通俗而言,就是具身智能最終呈現(xiàn)的形態(tài)一定是人形機(jī)器人嗎?
此前,清華計(jì)算機(jī)系張鈸院士曾公開(kāi)表示,人形機(jī)器人不是具身智能和AGI的最佳路徑,走向通用機(jī)器人,硬件要多樣化,軟件要通用性。
王興興認(rèn)為,機(jī)器人在A(yíng)GI或通用AI發(fā)生以后,可以是千奇百怪的形態(tài),并不一定是人形。“工廠(chǎng)里干活、醫(yī)療的機(jī)器人,到時(shí)候形式比現(xiàn)在多很多,甚至?xí)?00倍?!蓖跖d興說(shuō),現(xiàn)階段,之所以大家喜歡用人形,尤其是上半身保持人的樣子,是因?yàn)楝F(xiàn)在A(yíng)I基于人的數(shù)據(jù)進(jìn)行采集和訓(xùn)練,尤其是上半身和人的動(dòng)作一致,數(shù)據(jù)采集方便很多,也方便AI做訓(xùn)練。
熊友軍也認(rèn)同于此。他提到,現(xiàn)在具身智能的發(fā)展和形式,確實(shí)是多種多樣,不一定要局限于人形,人形只是具身智能研究最佳的載體。他指出,今天機(jī)器人可以不必像人,也可以是四足與輪式。從市場(chǎng)的應(yīng)用情況來(lái)看,最多的場(chǎng)景是走路、商用和家庭,今天的工廠(chǎng)應(yīng)用場(chǎng)景只是開(kāi)胃小菜,“人形機(jī)器人的市場(chǎng)容量比其他的機(jī)器人容量要大?!?/p>
從人機(jī)交互來(lái)說(shuō),熊友軍認(rèn)為,在不遠(yuǎn)的將來(lái),人形機(jī)器人會(huì)走入人類(lèi)家庭和生活,成為人類(lèi)的朋友,從接受程度上而言,人形機(jī)器人的確有一些優(yōu)勢(shì)。除此之外,目前大部分應(yīng)用環(huán)境是人設(shè)計(jì)的,人形機(jī)器人也可以更方便地適應(yīng)這些環(huán)境。
熊友軍直言,自己了解行業(yè)里的擔(dān)心,“現(xiàn)在成本和技術(shù)不占優(yōu)勢(shì)。但放在歷史比較長(zhǎng)的角度來(lái)看,我堅(jiān)持人形機(jī)器人是一個(gè)很好的載體?!?/p>
需要注意的是,具身智能領(lǐng)域有包括視頻、語(yǔ)音等多模態(tài),成本、技術(shù)研發(fā)的另一重困境是,具身智能及多模態(tài)大模型應(yīng)用的商業(yè)化、持續(xù)造血問(wèn)題。
多模態(tài)大模型應(yīng)用商業(yè)化的臨界點(diǎn)是否已經(jīng)到來(lái)?智象未來(lái)創(chuàng)始人梅濤認(rèn)為,突破這類(lèi)商業(yè)化困境最關(guān)鍵是要把多模態(tài)模型進(jìn)行應(yīng)用。比如,在一個(gè)合適的商業(yè)場(chǎng)景里,把視頻和圖像等多模態(tài)技術(shù)應(yīng)用于客戶(hù)的場(chǎng)景,幫助客戶(hù)創(chuàng)造價(jià)值。
智譜CEO張鵬提到,傳統(tǒng)的CV模型落地應(yīng)用比較成熟,大模型在視覺(jué)理解能力變強(qiáng)且泛化后,可以迅速替代和填補(bǔ)原來(lái)傳統(tǒng)的視覺(jué)模型應(yīng)用領(lǐng)域的空白需求,“通過(guò)壓縮成本形成規(guī)模化應(yīng)用,即可達(dá)到商業(yè)化應(yīng)用的臨界點(diǎn)。”
但不可忽視的問(wèn)題是,訓(xùn)練數(shù)據(jù)帶來(lái)的正面局限。張鵬提到,市場(chǎng)上的數(shù)據(jù)被用于大量訓(xùn)練,這其中就會(huì)涉及到版權(quán)、成本等問(wèn)題,或許會(huì)對(duì)新技術(shù)的進(jìn)展有一些影響。
令張鵬欣喜的是,隨著技術(shù)不斷的迭代,如今模型的復(fù)雜推理能力、深度思考的推理能力,已經(jīng)有了大幅度提升。同時(shí),基于推理能力的增強(qiáng),使得模型在智能體的能力上,有了長(zhǎng)足的進(jìn)步,大模型自己能規(guī)劃任務(wù)、執(zhí)行任務(wù),根據(jù)環(huán)境的反饋?zhàn)孕姓{(diào)整任務(wù)流程。
至于包括具身智能在內(nèi)的多模態(tài)大模型公司如何解決商業(yè)化“最后一公里”?梅濤認(rèn)為,目前有兩條路,分別適合不同類(lèi)型的公司。對(duì)諸如OpenAI或Gemini類(lèi)模型即產(chǎn)品的公司而言,如果其底座模型做得優(yōu)秀,有流量、資源優(yōu)勢(shì),可以在很短時(shí)間內(nèi)獲取大量的用戶(hù),提供一些較底層的服務(wù)。另一種即是構(gòu)建垂直商業(yè)閉環(huán)的場(chǎng)景,“對(duì)整個(gè)商業(yè)或垂類(lèi)應(yīng)用非常理解其業(yè)務(wù)流程,形成閉環(huán)的業(yè)務(wù)?!?/p>
“產(chǎn)經(jīng)在線(xiàn)”注意到,與會(huì)嘉賓反復(fù)提到的是,目前,行業(yè)內(nèi)對(duì)于最適合多模態(tài)模型的技術(shù)路線(xiàn)仍在探索中,還未形成普適性共識(shí)?!叭斯ぶ悄軓臄?shù)字世界跨向物理世界就需要突破數(shù)字世界的隔閡,其中最重要的隔閡就是是對(duì)空間與時(shí)間的感知?!蓖踔龠h(yuǎn)說(shuō)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.