本文來源:時(shí)代周報(bào) 作者:朱成呈
億元級(jí)訂單密集落地,百億規(guī)?;鸺铀偃雸觯度谫Y與 IPO 不斷涌現(xiàn),資本市場的追捧推動(dòng)相關(guān)概念股輪番飛漲。2025年,人形機(jī)器人產(chǎn)業(yè)正迎來前所未有的集體高光時(shí)刻。
9月29日,優(yōu)必選再度簽下3000萬元人形機(jī)器人大單,總訂單金額逼近4.3億元。更早之前,7月11日,中國移動(dòng)旗下中移(杭州)信息技術(shù)有限公司的人形雙足機(jī)器人代工服務(wù)采購項(xiàng)目在業(yè)內(nèi)引發(fā)關(guān)注,項(xiàng)目預(yù)算高達(dá)1.24億元,成為國內(nèi)迄今最大單筆公開招標(biāo)訂單。
資本市場與產(chǎn)業(yè)鏈的熱度相互推高。然而另一面,真正的規(guī)?;涞厝杂泻芏嗦芬?。上海交通大學(xué)博士生導(dǎo)師,上海人工智能研究院首席科學(xué)家閆維新在接受時(shí)代周報(bào)記者專訪時(shí)直言,目前頭部人形機(jī)器人公司2025年已能實(shí)現(xiàn)百至千臺(tái)級(jí)批量交付,多用于教育、交互服務(wù)和數(shù)據(jù)采集等用圖,離真正的規(guī)?;笈可a(chǎn)還有距離。
在人形機(jī)器人領(lǐng)域,閆維新有著長期的學(xué)術(shù)與實(shí)踐積累,主持和參與過多個(gè)國家級(jí)重大項(xiàng)目,亦多次獲得國內(nèi)外科研獎(jiǎng)項(xiàng)。他坦言,人形機(jī)器人復(fù)雜性遠(yuǎn)超以往任何智能設(shè)備。它需要集成機(jī)械設(shè)計(jì)、傳感器技術(shù)、動(dòng)力系統(tǒng)、控制算法、人工智能等多領(lǐng)域技術(shù)。
然而,當(dāng)前不同企業(yè)的硬件接口互不兼容,軟件平臺(tái)各自獨(dú)立,數(shù)據(jù)格式千差萬別。這不僅造成大量的重復(fù)建設(shè)和資源浪費(fèi),也極大提高系統(tǒng)集成和產(chǎn)業(yè)協(xié)作的成本,延緩了技術(shù)創(chuàng)新和產(chǎn)品迭代的速度。
在閆維新看來,人形機(jī)器人是未來的燈塔,是帶動(dòng)若干行業(yè)一起發(fā)展的指明燈?!耙呑?、邊落地、邊推出。過程中凝練出的關(guān)鍵技術(shù)點(diǎn),完全可以向其他行業(yè)遷移。”他說。
需要上億萬條數(shù)據(jù)
時(shí)代周報(bào):具身智能訓(xùn)練面臨最大問題是缺乏真實(shí)數(shù)據(jù)。你認(rèn)為突破點(diǎn)在哪里,是依賴更多物理環(huán)境采集,還是通過虛擬仿真、世界模型來補(bǔ)足?
閆維新:具身智能的數(shù)據(jù)問題確實(shí)是當(dāng)前最大的瓶頸之一,目前整個(gè)行業(yè)嚴(yán)重缺乏數(shù)據(jù),擁有的具身智能交互數(shù)據(jù)只有幾百萬條,實(shí)際所需的規(guī)模可能在上千萬甚至上億萬條。
和大語言模型(LLM)的 “數(shù)據(jù)邏輯” 完全不同,LLM 的數(shù)據(jù)主要來自網(wǎng)上的文本、書籍、圖像,是過去幾十年積累的 “靜態(tài)數(shù)據(jù)”,維度清晰、獲取難度低;但機(jī)器人需要的是 “動(dòng)態(tài)交互數(shù)據(jù)”,比如手指在抓東西時(shí)的力反饋、走路時(shí)身體的微調(diào)。這樣的數(shù)據(jù)不僅稀缺,更難以定義。到底采什么,是機(jī)器人的運(yùn)動(dòng)軌跡、人的操作動(dòng)作,還是視覺、力的變化?行業(yè)里目前還沒有統(tǒng)一的標(biāo)準(zhǔn),各自為政,數(shù)據(jù)自然沒法互通。
同時(shí),不同構(gòu)型的機(jī)器人在參數(shù)和動(dòng)作方式上差異明顯,使得通用數(shù)據(jù)集難以直接復(fù)用。真實(shí)數(shù)據(jù)天然存在采樣偏差,難以覆蓋所有可能情況。更麻煩的是,數(shù)據(jù)的格式也沒統(tǒng)一,不同公司采的數(shù)據(jù)完全不能共用,只能重復(fù)造輪子。
數(shù)據(jù)采集方法方面,目前流行遙操作去采集,數(shù)據(jù)質(zhì)量參差不齊?,F(xiàn)在有些人嘗試采用采集人的操作數(shù)據(jù),再映射到機(jī)器人,這方向沒錯(cuò),但問題在于力很難復(fù)現(xiàn)——人拿杯子時(shí)到底用了多大勁,機(jī)器人怎么才能精確還原,這是核心難題。
我認(rèn)為,仿真數(shù)據(jù)提供了一種潛在解決方案,但其自身也存在明顯局限性。無論物理引擎如何精進(jìn),都無法完全復(fù)刻真實(shí)世界的如復(fù)雜摩擦、材料變形、光線散射、傳感器噪聲等所有物理效應(yīng)和不可預(yù)測的人類行為。
將真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)相融合,是目前比較行之有效的突破口。它的關(guān)鍵是新型采集技術(shù)的突破,改變真實(shí)數(shù)據(jù)采集的成本結(jié)構(gòu)和效率水平。業(yè)界正在形成關(guān)于真實(shí)數(shù)據(jù)與仿真數(shù)據(jù)混合比例的共識(shí),沒有一刀切的最優(yōu)解,需要根據(jù)具體應(yīng)用場景和需求靈活調(diào)整。
時(shí)代周報(bào):目前人形機(jī)器人初創(chuàng)公司眾多,底層硬件、軟件體系比較分散。你覺得是否有必要推動(dòng)統(tǒng)一標(biāo)準(zhǔn)?現(xiàn)在業(yè)內(nèi)有沒有相關(guān)嘗試?
閆維新:在人形機(jī)器人技術(shù)快速演進(jìn)的不確定期,過早或過度的標(biāo)準(zhǔn)化可能帶來一系列風(fēng)險(xiǎn)。其中最主要的是技術(shù)路徑鎖定風(fēng)險(xiǎn)——一旦某種技術(shù)被確立為標(biāo)準(zhǔn),即使后續(xù)出現(xiàn)更優(yōu)秀的技術(shù)方案,也難以替代已經(jīng)形成生態(tài)的現(xiàn)有標(biāo)準(zhǔn)。這種風(fēng)險(xiǎn)在人形機(jī)器人發(fā)展的當(dāng)前階段尤為突出,因?yàn)樵S多基礎(chǔ)技術(shù)仍在快速迭代中。
這種情況下,分級(jí)分類的標(biāo)準(zhǔn)推進(jìn)策略成為一種平衡之道。這種策略根據(jù)不同技術(shù)成熟度和應(yīng)用領(lǐng)域,采取不同的標(biāo)準(zhǔn)化節(jié)奏和方法。對于技術(shù)相對成熟的領(lǐng)域,可以積極推進(jìn)標(biāo)準(zhǔn)制定。尤其在人形機(jī)器人數(shù)據(jù)格式、通信協(xié)議、安全要求等方面,技術(shù)已經(jīng)相對穩(wěn)定,標(biāo)準(zhǔn)化條件較為成熟。對于技術(shù)尚在快速演進(jìn)的核心領(lǐng)域,則宜采取更為靈活的標(biāo)準(zhǔn)策略??梢韵劝l(fā)布技術(shù)指南或最佳實(shí)踐,為行業(yè)提供參考而不強(qiáng)制統(tǒng)一。
時(shí)代周報(bào):世界模型和VLA模型都被認(rèn)為是關(guān)鍵技術(shù),你認(rèn)為哪條路線更有前景?兩者是否可能互補(bǔ)?
閆維新:人工智能正經(jīng)歷從感知智能向決策智能的重大轉(zhuǎn)變,其中世界模型(World Model)和視覺-語言-行動(dòng)模型(Vision-Language-Action,VLA)是兩條備受關(guān)注的技術(shù)路線。
世界模型以視覺與運(yùn)動(dòng)數(shù)據(jù)為基礎(chǔ),通過生成式建模技術(shù)預(yù)測環(huán)境變化和行為后果。它具備強(qiáng)大的時(shí)空預(yù)測能力,能夠?qū)Νh(huán)境變化和車輛運(yùn)動(dòng)進(jìn)行高精度預(yù)測。世界模型在難例場景構(gòu)建方面表現(xiàn)出色,能夠處理那些在現(xiàn)實(shí)世界中罕見但至關(guān)重要的極端情況,如緊急避障、極端天氣條件下的駕駛等。世界模型的響應(yīng)速度極快,不過也面臨一些挑戰(zhàn)。比如,世界模型對算力需求極高,硬件成本比VLA模型高40%以上。
VLA模型通過融合視覺輸入和自然語言指令,直接生成可執(zhí)行的物理動(dòng)作。它通過語言和文字這一中間環(huán)節(jié),將具象化的路況、圖像進(jìn)行歸類并進(jìn)行“抽象化”,而不只是單純地對看過的數(shù)據(jù)“死記硬背”,從而使模型能取得更好的泛化能力。
世界模型與VLA模型雖然技術(shù)路徑不同,但存在顯著的互補(bǔ)潛力。世界模型擅長環(huán)境動(dòng)態(tài)預(yù)測和物理規(guī)律理解,而VLA模型強(qiáng)于多模態(tài)融合和語義推理,兩者的結(jié)合可以構(gòu)建更加強(qiáng)大和全面的智能系統(tǒng)。
世界模型與VLA模型融合的核心是 “場景化裁剪 + 功能互補(bǔ)”。第一,不要做覆蓋全場景的 “大而全” 世界模型,而是針對具體應(yīng)用場景做 “模型包”。比如汽車裝配場景,只保留 “螺絲、扳手、車身” 相關(guān)的物理引擎模塊,砍掉無關(guān)的比如 “布料模擬” 模塊,這樣能把算力需求降低 70%。
第二,讓世界模型負(fù)責(zé) “預(yù)測”,VLA模型負(fù)責(zé) “實(shí)操”。比如機(jī)器人要擰螺絲,先讓世界模型預(yù)測 “擰螺絲需要的扭矩、角度”,再讓 VR 模型根據(jù)視覺圖像定位螺絲的位置,兩者協(xié)同工作,既保證操作的準(zhǔn)確性,又降低算力成本。
時(shí)代周報(bào):行業(yè)常說人形機(jī)器人要在 100—300 毫秒內(nèi)完成反饋,但大模型推理延遲往往是秒級(jí)。你覺得解決延遲問題更可能依靠算力架構(gòu)優(yōu)化,還是在模型側(cè)做優(yōu)化?
閆維新:我認(rèn)為,人形機(jī)器人的延遲問題來源于一個(gè)復(fù)雜的技術(shù)鏈條:環(huán)境感知、數(shù)據(jù)處理、決策推理、運(yùn)動(dòng)控制。每個(gè)環(huán)節(jié)都可能成為延遲的貢獻(xiàn)者,而大模型推理只是整個(gè)鏈條中的一個(gè)環(huán)節(jié),雖然是當(dāng)前最突出的瓶頸。
目前,基于“云-邊-端”的協(xié)同計(jì)算將成為解決實(shí)時(shí)響應(yīng)的方案,未來的人工智能系統(tǒng)不會(huì)是純粹的端側(cè)或云側(cè),而是分層協(xié)同、動(dòng)態(tài)優(yōu)化的智能體系。云端負(fù)責(zé)復(fù)雜大規(guī)模模型的訓(xùn)練、海量數(shù)據(jù)融合、模型版本管理和下發(fā)。邊緣節(jié)點(diǎn)作為區(qū)域中心,處理多個(gè)端側(cè)設(shè)備匯聚的數(shù)據(jù),運(yùn)行比端側(cè)更大、比云端更敏捷的模型。端側(cè)負(fù)責(zé)極致低延遲的實(shí)時(shí)推理和高隱私要求的任務(wù)。
這種技術(shù)發(fā)展趨勢將帶來端側(cè)大模型的興起,將經(jīng)過裁剪和優(yōu)化后的模型直接部署在終端上。實(shí)現(xiàn)完全離線的智能控制、交互對話、文本摘要、內(nèi)容生成等功能,隱私性極佳、響應(yīng)瞬間完成。
缺乏商業(yè)吸引力
時(shí)代周報(bào):機(jī)器人要想真正大規(guī)模進(jìn)入工業(yè)、服務(wù)等場景,你覺得在“大腦—小腦”協(xié)同體系中,還缺哪幾個(gè)關(guān)鍵環(huán)節(jié)?
閆維新:“大腦”決策與“小腦”控制之間的協(xié)同銜接,決定了機(jī)器人能否在復(fù)雜不確定的環(huán)境中高效、可靠地完成任務(wù)。
我認(rèn)為,機(jī)器人大規(guī)模進(jìn)入工業(yè)、服務(wù)等場景首先缺失的是統(tǒng)一的世界模型與物理推理。人類大腦能夠構(gòu)建一個(gè)一致且持續(xù)更新的環(huán)境心理模型,并基于此進(jìn)行物理常識(shí)推理,預(yù)測行動(dòng)后果。而現(xiàn)有機(jī)器人系統(tǒng)往往缺乏這種能力,導(dǎo)致其在面對新場景或需要物理直覺的任務(wù)時(shí)表現(xiàn)不佳。
其次是自適應(yīng)運(yùn)動(dòng)規(guī)劃與控制,它是小腦的核心功能,但目前還未達(dá)到真正自適應(yīng)的能力。人類小腦能夠根據(jù)任務(wù)需求、環(huán)境變化和身體狀態(tài)自動(dòng)調(diào)整控制策略,實(shí)現(xiàn)從粗大運(yùn)動(dòng)到精細(xì)操作的平滑過渡。而現(xiàn)有機(jī)器人系統(tǒng)往往需要在精度、速度和魯棒性之間進(jìn)行權(quán)衡,難以適應(yīng)動(dòng)態(tài)變化的環(huán)境。
再次是人類意圖理解與多模態(tài)交互,尤其是在服務(wù)場景中,機(jī)器人與人類的自然交互能力至關(guān)重要,而當(dāng)前系統(tǒng)在理解人類意圖和進(jìn)行多模態(tài)交互方面仍存在不足。人類大腦能夠從模糊的指令、手勢、眼神甚至語境中推斷他人意圖,而現(xiàn)有機(jī)器人系統(tǒng)往往需要明確、結(jié)構(gòu)化的指令。非語言指令理解是一個(gè)關(guān)鍵缺失環(huán)節(jié)。
最后是能耗效率與實(shí)時(shí)性能。人類大腦功耗僅約20瓦,卻能實(shí)現(xiàn)復(fù)雜的認(rèn)知和運(yùn)動(dòng)控制功能,而現(xiàn)有機(jī)器人系統(tǒng)往往需要高昂的能耗和計(jì)算資源才能實(shí)現(xiàn)相對簡單的任務(wù)。計(jì)算資源分配優(yōu)化是關(guān)鍵挑戰(zhàn)。
時(shí)代周報(bào):電池續(xù)航不足會(huì)不會(huì)成為人形機(jī)器人商業(yè)化的主要瓶頸?在提高電池本身續(xù)航能力,以及降低整體能耗方面,業(yè)內(nèi)目前有哪些探索?
閆維新:當(dāng)前大多數(shù)人形機(jī)器人單次充電僅能工作1-2小時(shí),而實(shí)際工業(yè)應(yīng)用通常需要至少4-8小時(shí)的持續(xù)工作時(shí)間。更嚴(yán)峻的是,人形機(jī)器人在高負(fù)載任務(wù)中瞬時(shí)功率可高達(dá)30KW,對電池放電能力提出極高要求。這種能量需求與供應(yīng)能力之間的差距,直接影響了人形機(jī)器人的實(shí)用性和經(jīng)濟(jì)性。
核心是解決 “高功率密度” 和 “高能量密度” 的矛盾:高功率密度需要瞬間爆發(fā)力(如雙足跳躍),高能量密度需要長續(xù)航(如 8 小時(shí)連續(xù)工作),現(xiàn)有磷酸鐵鋰、三元鋰電池都無法同時(shí)滿足。未來的方向是 “異構(gòu)電池系統(tǒng)”:用不同類型電池搭配,再通過 BMS(電池管理系統(tǒng))實(shí)現(xiàn)智能切換。
時(shí)代周報(bào):現(xiàn)在人形機(jī)器人更多是表演、導(dǎo)覽等場景。要真正大規(guī)模走向產(chǎn)業(yè)應(yīng)用,還缺哪幾塊關(guān)鍵拼圖?
閆維新:在我看來,人形機(jī)器人要真正實(shí)現(xiàn)產(chǎn)業(yè)化應(yīng)用,需要克服技術(shù)、成本、生態(tài)、政策等多重障礙。
在技術(shù)上,許多演示場景中的舞蹈動(dòng)作是預(yù)設(shè)提前訓(xùn)練的,并不具備真實(shí)場景決策能力。這種“偽智能”困局嚴(yán)重限制了機(jī)器人在復(fù)雜產(chǎn)業(yè)環(huán)境中的適用性。人形機(jī)器人需要處理高度復(fù)雜和動(dòng)態(tài)變化的場景,現(xiàn)有系統(tǒng)往往需要重新采集數(shù)據(jù)并進(jìn)行訓(xùn)練,這個(gè)過程可能耗時(shí)數(shù)天,無法滿足實(shí)時(shí)性要求高的生產(chǎn)環(huán)境。
成本與商業(yè)化瓶頸方面,當(dāng)前高端人形機(jī)器人單機(jī)成本在20-40萬元之間,投資回報(bào)周期長達(dá)15-30個(gè)月,缺乏商業(yè)吸引力。此外,測試驗(yàn)證體系不完善是人形機(jī)器人產(chǎn)業(yè)化的另一個(gè)障礙。產(chǎn)業(yè)應(yīng)用對可靠性和安全性要求極高,但缺乏權(quán)威的測試平臺(tái)和評(píng)估標(biāo)準(zhǔn)來驗(yàn)證機(jī)器人在各種場景下的性能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.