2025 年具身智能行業(yè)投融資熱度持續(xù)攀升,行業(yè)內(nèi)已形成明確共識(shí):要實(shí)現(xiàn)從 L1 特定任務(wù)具身智能到 L2 組合任務(wù)具身智能的技術(shù)跨越,乃至向更高階通用能力邁進(jìn),數(shù)據(jù)采集是必須突破的核心環(huán)節(jié)。
不同于語言、圖像等低維數(shù)據(jù)的獲取,具身智能需要的是物理世界絕對(duì)坐標(biāo)系下的精確測(cè)量數(shù)據(jù),其獲取難度、成本投入與標(biāo)注周期,都遠(yuǎn)超傳統(tǒng)模型訓(xùn)練需求。
據(jù)清華大學(xué)相關(guān)測(cè)算,若要達(dá)到人眼級(jí)別的三維感知能力,同時(shí)實(shí)現(xiàn)對(duì)上千類物體的理解,需構(gòu)建10億+量級(jí)的數(shù)據(jù)集。這一數(shù)據(jù)規(guī)模背后,是整個(gè)行業(yè)對(duì)高效、高質(zhì)量數(shù)據(jù)采集方案的迫切探索。
從當(dāng)前技術(shù)路徑來看,遙操作、仿真、UMI 多模態(tài)傳感器融合、視頻學(xué)習(xí)四大方案形成了差異化競(jìng)爭(zhēng)格局,不同技術(shù)路線在成本控制、數(shù)據(jù)精度、場(chǎng)景適配性上呈現(xiàn)出差異化。它們不僅是連接硬件設(shè)備與算法模型的關(guān)鍵橋梁,更直接決定了具身智能模型的訓(xùn)練效率與實(shí)際部署上限。
▍數(shù)據(jù)采集成具身智能進(jìn)階的 “關(guān)鍵變量”
具身智能的核心目標(biāo),是讓機(jī)器人在物理世界中具備 “舉一反三” 的常識(shí)理解能力,面對(duì)未曾接觸過的物體和任務(wù),能像人類一樣依托過往經(jīng)驗(yàn)推導(dǎo)操作邏輯。而這一能力的構(gòu)建基礎(chǔ),正是高質(zhì)量、多模態(tài)的交互數(shù)據(jù)。
當(dāng)前國內(nèi)頭部企業(yè)仍處于 L1 前期發(fā)展階段,可完成特定環(huán)境下的單工位操作任務(wù);而 π0.5 模型通過融合操作數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、語言指令等多源信息的預(yù)訓(xùn)練方式,在家庭真實(shí)環(huán)境長(zhǎng)程任務(wù)中的準(zhǔn)確率已突破 60%,接近 L2 水平。
行業(yè)普遍認(rèn)為,預(yù)訓(xùn)練是具身智能技術(shù)進(jìn)階的核心,而預(yù)訓(xùn)練效果直接取決于數(shù)據(jù)的 “量” 與 “質(zhì)”:一方面,L1 級(jí)模型已需 1 萬小時(shí) + 的數(shù)據(jù)量支撐訓(xùn)練,且 Scaling Law 規(guī)模定律在具身智能領(lǐng)域仍未見頂,數(shù)據(jù)規(guī)模的擴(kuò)大仍能持續(xù)推動(dòng)模型性能提升。
另一方面,數(shù)據(jù)必須覆蓋多樣化場(chǎng)景 —— 從家庭環(huán)境中百種移動(dòng)機(jī)械臂的操作,到實(shí)驗(yàn)室里跨形態(tài)機(jī)器人的交互,再到生產(chǎn)線上的垂類工序,只有足夠豐富的數(shù)據(jù),才能讓模型擺脫場(chǎng)景依賴,具備泛化能力。
更關(guān)鍵的是,具身智能數(shù)據(jù)采集的特殊性遠(yuǎn)超傳統(tǒng) AI 領(lǐng)域。語言、圖像數(shù)據(jù)可通過互聯(lián)網(wǎng)大規(guī)模爬取,而具身智能需要的是物理交互數(shù)據(jù),不僅包括視覺信息,還需慣性、觸覺、力反饋等多模態(tài)信號(hào),且必須在絕對(duì)坐標(biāo)系下實(shí)現(xiàn)精確對(duì)齊。這種高門檻使得數(shù)據(jù)采集成為產(chǎn)業(yè)鏈中的關(guān)鍵瓶頸,也催生了多樣化的技術(shù)方案探索。
▍四大核心方案:各有優(yōu)劣,適配不同場(chǎng)景需求
具身智能數(shù)據(jù)采集方案的選擇,本質(zhì)是對(duì) “成本、精度、泛化能力” 三者的平衡。不同企業(yè)根據(jù)自身資金實(shí)力、技術(shù)儲(chǔ)備與目標(biāo)場(chǎng)景,形成了差異化的路徑選擇。
遙操作方案:高精度與高成本擁有較高行業(yè)門檻
遙操作是當(dāng)前數(shù)據(jù)質(zhì)量最高的方案之一,其核心邏輯是通過人類直接操控機(jī)器人完成任務(wù),同步采集動(dòng)作與環(huán)境數(shù)據(jù)。以 Optimus(早期方案)、智元為代表的頭部企業(yè),采用 VR 遙操 + 動(dòng)捕手套的組合,實(shí)現(xiàn)人機(jī)動(dòng)作的精準(zhǔn)映射。人類通過頭顯觀察機(jī)器人視野,通過動(dòng)捕手套控制機(jī)械臂動(dòng)作,使采集的數(shù)據(jù)能直接反映人類操作習(xí)慣,且在長(zhǎng)距離移動(dòng)中可實(shí)現(xiàn)極低的位置漂移,為復(fù)雜協(xié)調(diào)動(dòng)作提供可靠數(shù)據(jù)基礎(chǔ)。
從應(yīng)用場(chǎng)景來看,遙操作方案已形成規(guī)模化落地案例。深圳某企業(yè)在天津搭建的近 12000 平方米數(shù)據(jù)采集工廠,構(gòu)建了 “15+N” 全場(chǎng)景矩陣,覆蓋汽車制造、3C 裝配、家庭、醫(yī)療康養(yǎng)等 15 大領(lǐng)域,部署 150 個(gè)標(biāo)準(zhǔn)化采集單元,采集數(shù)據(jù)既包括拾取放置、手持操作等元?jiǎng)幼鲾?shù)據(jù),也涵蓋咖啡拉花等商業(yè)垂類數(shù)據(jù)。
但遙操作方案的短板同樣突出,高成本是其最大制約。一套完整設(shè)備價(jià)格超20萬元,疊加人力成本后,單小時(shí)數(shù)據(jù)采集成本可能突破萬元。特斯拉2025年Q2財(cái)報(bào)顯示,其機(jī)器人業(yè)務(wù)收入占比預(yù)計(jì)超 30%,但整體營(yíng)收同比下滑 12%,凈利潤(rùn)同比減少 20.7%,遙操作數(shù)據(jù)采集的高投入被認(rèn)為是拖累短期財(cái)務(wù)表現(xiàn)的重要因素。此外,數(shù)據(jù)采集的 “實(shí)時(shí)性與精度平衡”“設(shè)備重量與易用性” 也是亟待解決的問題,過重的設(shè)備會(huì)增加操作人員負(fù)擔(dān),而追求實(shí)時(shí)性可能導(dǎo)致精度下降,反之亦然。
仿真方案:雖然低成本但存在分布偏移問題
與遙操作的 “真實(shí)采集” 不同,仿真方案通過構(gòu)建虛擬環(huán)境生成數(shù)據(jù),核心工具包括 Gazebo、Unity ML-Agents、PyBullet 等仿真引擎。其最大優(yōu)勢(shì)在于 “高效低成本”,無需物理硬件投入,可快速復(fù)制標(biāo)準(zhǔn)化場(chǎng)景,例如訓(xùn)練抓取動(dòng)作時(shí),能在仿真器中生成 N 種不同形狀、材質(zhì)的杯子、盤子,或快速構(gòu)建廚房、衛(wèi)生間等場(chǎng)景,大幅節(jié)省時(shí)間與費(fèi)用,尤其適合初期模型的快速迭代。
但仿真方案的致命痛點(diǎn),是 “數(shù)據(jù)分布偏移”。虛擬環(huán)境無法完全模擬真實(shí)世界的物理規(guī)律,如流體阻力、軟體物體形變、物體表面摩擦力等細(xì)節(jié),導(dǎo)致仿真數(shù)據(jù)訓(xùn)練出的模型,在真實(shí)場(chǎng)景中往往 “水土不服”。Physical Intelligence 聯(lián)創(chuàng) Sergey Levine 曾明確表示:“不使用模擬數(shù)據(jù),是因?yàn)榕c真實(shí)世界場(chǎng)景的互動(dòng)難以準(zhǔn)確建模,存在分布偏移?!?學(xué)術(shù)界也普遍擔(dān)憂,在復(fù)雜交互場(chǎng)景中,仿真數(shù)據(jù)的局限性會(huì)被無限放大,無法覆蓋機(jī)器人實(shí)際面臨的多樣化情況。
目前,仿真方案更多用于 “預(yù)訓(xùn)練初始化”。先用仿真數(shù)據(jù)讓模型掌握基礎(chǔ)動(dòng)作邏輯,再通過真實(shí)數(shù)據(jù)進(jìn)行 “微調(diào)”,以降低整體訓(xùn)練成本。但要實(shí)現(xiàn)純仿真數(shù)據(jù)支撐的高精度模型,仍需物理引擎技術(shù)的突破性進(jìn)展,例如更精準(zhǔn)的材質(zhì)模擬、更真實(shí)的環(huán)境物理參數(shù)還原。
UMI 多模態(tài)傳感器融合:中小創(chuàng)企業(yè)的性價(jià)比之選
面對(duì)遙操作的高成本與仿真的低精度,由斯坦福、哥倫比亞大學(xué)、豐田研究院聯(lián)合提出的 UMI 采集器,給出了 “平衡方案”。其硬件配置簡(jiǎn)潔且低成本:GoPro 相機(jī)配備魚眼鏡頭、側(cè)面鏡、RealSense T265、夾爪調(diào)節(jié)裝置,整體成本僅萬元級(jí)別,遠(yuǎn)低于遙操作方案的20萬+投入。
UMI 的核心價(jià)值,是解決了具身智能數(shù)據(jù)采集的 “雞與蛋” 悖論 —— 既不需要依賴昂貴的機(jī)器人本體,又能采集到可直接部署策略的高精度動(dòng)作數(shù)據(jù)。其技術(shù)關(guān)鍵在于 “視覺 - 慣性融合”:通過魚眼鏡頭捕捉環(huán)境視覺信息,結(jié)合 RealSense T265 的慣性測(cè)量數(shù)據(jù),在動(dòng)態(tài)操作場(chǎng)景下保持對(duì)末端執(zhí)行器的精確跟蹤,同時(shí)支持觸覺模塊擴(kuò)展,形成 “視覺 + 慣性 + 觸覺” 的多模態(tài)數(shù)據(jù)采集能力。
從應(yīng)用反饋來看,UMI 在夾爪任務(wù)中表現(xiàn)突出,已獲得多家創(chuàng)業(yè)公司青睞。更重要的是,UMI 擁有開源生態(tài),降低了技術(shù)壁壘 —— 中小規(guī)模企業(yè)無需自建復(fù)雜的采集系統(tǒng),通過開源方案即可構(gòu)建高質(zhì)量數(shù)據(jù)集,打破了頭部企業(yè)在數(shù)據(jù)采集領(lǐng)域的 “硬件壟斷”。
不過,UMI 并非完美方案,其局限性在于 “全身動(dòng)作捕捉能力不足”。當(dāng)前 UMI 主要聚焦于機(jī)械臂末端的操作數(shù)據(jù)采集,難以覆蓋機(jī)器人全身協(xié)調(diào)動(dòng)作,這使其在需要全身交互的場(chǎng)景中應(yīng)用受限。但對(duì)于聚焦單一操作任務(wù)的中小企業(yè)而言,UMI 仍是當(dāng)前階段 “成本與精度平衡” 的最優(yōu)解之一。
視頻學(xué)習(xí)方案:特斯拉引領(lǐng)的 “低成本探索”
作為遙操作方案的行業(yè)標(biāo)桿,特斯拉近年開始探索新路徑,視頻學(xué)習(xí)方案,即通過錄制員工執(zhí)行任務(wù)的視頻,提取動(dòng)作信息訓(xùn)練 Optimus 機(jī)器人。這一方案的出現(xiàn),為數(shù)據(jù)采集提供了 “低成本規(guī)?;?的新思路。國內(nèi)企業(yè)樞途科技也發(fā)布了自研SynaData數(shù)據(jù)管線算法,成本將至行業(yè)平均水平的千分之五,成本相較于遙操作降低200倍!
視頻學(xué)習(xí)的優(yōu)勢(shì)極為明顯:首先是成本極低,無需昂貴的動(dòng)捕設(shè)備或機(jī)械臂,僅需普通攝像頭與存儲(chǔ)設(shè)備即可;其次效率高,可同時(shí)錄制多名員工的操作視頻,快速擴(kuò)大數(shù)據(jù)規(guī)模,解決了遙操作 “單設(shè)備低效率” 的問題;同時(shí)場(chǎng)景多樣性強(qiáng),可在真實(shí)工作場(chǎng)景中直接采集,覆蓋更多邊緣場(chǎng)景,提升模型泛化能力。
特斯拉的轉(zhuǎn)型邏輯具有行業(yè)代表性。其新任負(fù)責(zé)人Ashok Elluswamy認(rèn)為,“放棄動(dòng)作捕捉服和遠(yuǎn)程操作,將使團(tuán)隊(duì)更快擴(kuò)大數(shù)據(jù)收集規(guī)模”。這一判斷背后,是對(duì) “數(shù)據(jù)規(guī)模優(yōu)先于單條數(shù)據(jù)精度” 的戰(zhàn)略選擇。特斯拉希望通過海量視頻數(shù)據(jù),結(jié)合其在機(jī)器視覺領(lǐng)域的技術(shù)積累,讓模型自主學(xué)習(xí)動(dòng)作邏輯,而非依賴人類精確操控的 “手把手教學(xué)”。
但視頻學(xué)習(xí)方案仍處于探索階段,面臨三大核心挑戰(zhàn):一是 “缺乏交互體驗(yàn)”,視頻僅能提供視覺信息,無法捕捉觸覺、力反饋等關(guān)鍵信號(hào),而這些信號(hào)對(duì)機(jī)器人理解 “操作力度” 至關(guān)重要;二是 “數(shù)據(jù)標(biāo)注難度大”,需對(duì)視頻中的動(dòng)作步驟、物體類別、操作位置進(jìn)行精確標(biāo)注,否則模型無法準(zhǔn)確提取有效信息,而大規(guī)模標(biāo)注將帶來新的人力成本;三是 “處理要求高”,需要強(qiáng)大的技術(shù)處理海量視頻數(shù)據(jù),提取動(dòng)作特征,這對(duì)計(jì)算資源提出了更高要求。
盡管挑戰(zhàn)重重,視頻學(xué)習(xí)方案仍被視為未來的重要方向之一。若能解決無交互信息與標(biāo)注成本 問題,其低成本規(guī)?;膬?yōu)勢(shì)將徹底改變數(shù)據(jù)采集格局,推動(dòng)具身智能向更廣泛場(chǎng)景普及。
▍產(chǎn)業(yè)邁向多方案融合 數(shù)據(jù)生態(tài)成競(jìng)爭(zhēng)關(guān)鍵
從當(dāng)前發(fā)展來看,具身智能數(shù)據(jù)采集并未形成單一最優(yōu)解,未來的趨勢(shì),必然是多方案融合,通過不同方案的優(yōu)勢(shì)互補(bǔ),實(shí)現(xiàn) “成本、精度、規(guī)?!?的三者平衡。
具身智能數(shù)據(jù)采集的終極目標(biāo),是實(shí)現(xiàn) “自主數(shù)據(jù)閉環(huán)”,機(jī)器人在真實(shí)場(chǎng)景中自主完成任務(wù)、采集數(shù)據(jù)、優(yōu)化模型,無需人類干預(yù)。但要達(dá)到這一目標(biāo),仍需突破三大技術(shù)瓶頸:一是更高效的多模態(tài)傳感器融合技術(shù),降低數(shù)據(jù)采集硬件成本;二是更智能的自動(dòng)標(biāo)注方式,減少人力依賴;三是更精準(zhǔn)的場(chǎng)景適配方法,解決不同場(chǎng)景間的數(shù)據(jù)分布差異。
2025 年,具身智能數(shù)據(jù)采集仍處于探索期,但具身智能數(shù)據(jù)采集的四個(gè)技術(shù)方向,證明了數(shù)據(jù)不再是越多越好,而是 “越精準(zhǔn)、越多樣、越低成本越好”。誰能在這三者的平衡中找到最優(yōu)解,誰就能在具身智能的競(jìng)爭(zhēng)中占據(jù)先機(jī)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.