今日,國產(chǎn)靈巧手賽道頭部企業(yè)靈巧智能重磅出擊,向外界分享其在機器人靈巧操作領(lǐng)域的最新研究成果,正式發(fā)布靈巧智能DexCanvas數(shù)據(jù)集。該數(shù)據(jù)集規(guī)模達20TB,包含1000小時真人操作記錄,是涵蓋多模態(tài)人手操作數(shù)據(jù)的重磅資源,將為機器人靈巧操作領(lǐng)域注入強勁動力。
▍成本、規(guī)模、真實性難以兼得,具身智能數(shù)據(jù)采集困境待解
當(dāng)前AI在物理世界的應(yīng)用中,雖已實現(xiàn)理解人類語言、識別物體與場景、規(guī)劃任務(wù)步驟等能力,但在物理世界中的“最后一公里”,即讓機器人像人類一樣靈活地抓握、理解語言、識別物體和場景、感知并調(diào)節(jié)力度、適應(yīng)不同物體等方面,仍是一個待突破的難題。這一瓶頸很大程度上源于當(dāng)前大規(guī)模、高質(zhì)量、多模態(tài)交互數(shù)據(jù)集的缺乏。
一般來說,機器人在實際場景中的操作表現(xiàn)往往受到感知不確定性、動力學(xué)復(fù)雜性和環(huán)境變化敏感性的制約,也因此數(shù)據(jù)集的規(guī)模與質(zhì)量直接決定了模型在真實環(huán)境中的表現(xiàn)。從技術(shù)實現(xiàn)路徑來看,具身智能操作的數(shù)據(jù)采集方式目前主要為遙操作、視頻學(xué)習(xí)和仿真合成。
遙操作通過專業(yè)設(shè)備記錄人類專家的動作和力控信息,能獲得高質(zhì)量、高精度的真實數(shù)據(jù),尤其適合精密力控任務(wù),但存在設(shè)備昂貴、效率低以及人機“機構(gòu)差異”的映射難題。視頻學(xué)習(xí)利用大量現(xiàn)有視頻,以極低成本提取視覺任務(wù)模式,易于擴展,適用于宏觀規(guī)劃,但缺乏機器執(zhí)行所需的底層動作與感知信息,存在“視角差異”和“動作缺失”,導(dǎo)致執(zhí)行精度不足。仿真合成依托虛擬環(huán)境生成大量多樣化標(biāo)注數(shù)據(jù),成本低、效率高,適合強化學(xué)習(xí)與罕見場景,但其核心問題在于“仿真到現(xiàn)實”的物理偏差,需經(jīng)過額外適配才能應(yīng)用于真實系統(tǒng)。
以上三類主流數(shù)據(jù)采集方式雖然為機器人操作能力的學(xué)習(xí)提供了重要數(shù)據(jù)基礎(chǔ),但它們各自存在明顯的局限性。如何高效、低成本地獲取既物理真實又足以支持泛化策略學(xué)習(xí)的大規(guī)模操作數(shù)據(jù)集仍是實現(xiàn)機器人靈巧操作過程中亟待解決的問題。
▍破解機器人靈巧操作數(shù)據(jù)難題,開源DexCanvas數(shù)據(jù)集降低門檻
這一挑戰(zhàn)在靈巧手操作任務(wù)中表現(xiàn)得尤為突出,其難點可歸結(jié)為三個相互關(guān)聯(lián)的核心層面。在數(shù)據(jù)采集層面,高質(zhì)量示范數(shù)據(jù)獲取困難,且常缺失力覺接觸信息;在物理一致性層面,傳統(tǒng)幾何關(guān)系動作捕捉存在厘米級誤差,無法獲取力覺信息,易導(dǎo)致遮擋、穿模、虛接觸等問題;在控制復(fù)雜度層面,不同構(gòu)型操作設(shè)備的自由度差異顯著,例如機械臂+夾爪僅有7個自由度和2種操作狀態(tài),僅能覆蓋20%的操作場景,而完整類人上肢雖擁有26個自由度和超100萬種操作狀態(tài),可覆蓋80%場景,但高自由度也帶來了高維決策難題。
面對上述問題,靈巧智能推出的DexCanvas數(shù)據(jù)集在數(shù)據(jù)獲取機制、動作捕捉、語義規(guī)則提取等方面的系統(tǒng)性革新。
在數(shù)據(jù)獲取機制上,靈巧智能摒棄了“以采集設(shè)備為中心”的傳統(tǒng)思路,轉(zhuǎn)向“以人+物體的交互為中心”的采集理念,通過“人手采集+合成”的方式,同步采集人手運動軌跡、被操作物體屬性及兩者之間的接觸力學(xué)數(shù)據(jù)等多模態(tài)信息,實現(xiàn)了RGB、深度、動作捕捉及力覺信息的一體化融合。與遙操作、視頻學(xué)習(xí)、仿真合成相比,這一方式避免了傳統(tǒng)方式設(shè)備昂貴或缺乏物理真實性的問題,在成本可控的前提下顯著提升了數(shù)據(jù)的規(guī)模和質(zhì)量,為數(shù)據(jù)規(guī)?;e累創(chuàng)造了條件。
在物理一致性方面,DexCanvas數(shù)據(jù)集通過對人手操作過程的精細感知與數(shù)據(jù)處理,實現(xiàn)了毫米級幾何精度和接觸點、接觸力信息的物理級復(fù)現(xiàn),有效解決了傳統(tǒng)動作捕捉中因遮擋、穿模和虛接觸導(dǎo)致的誤差問題,可為模型學(xué)習(xí)提供高度可信的交互動態(tài)信息。
在控制復(fù)雜度方面,為應(yīng)對高維狀態(tài)空間帶來的決策挑戰(zhàn),靈巧智能提出了一套基于語義規(guī)則提取的系統(tǒng)方法。該方法在人類常見操作模式的基礎(chǔ)上抽象出33類操作原型和6種關(guān)鍵語義規(guī)則參數(shù),為復(fù)雜操作任務(wù)的表示與泛化提供了結(jié)構(gòu)化、可解釋的策略基礎(chǔ)。
基于系統(tǒng)性的多模態(tài)采集架構(gòu)、物理一致性保障機制與語義化抽象能力,靈巧智能推出了DexCanvas數(shù)據(jù)集,為學(xué)術(shù)界和工業(yè)界提供了規(guī)模龐大、質(zhì)量可靠且可直接用于訓(xùn)練的數(shù)據(jù)資源。該數(shù)據(jù)集的建成與開源不僅大幅降低了相關(guān)領(lǐng)域的研究門檻,更將加速具身智能模型在真實場景中的落地應(yīng)用。而從長遠來看,這一解決方案不僅為靈巧操作模型的訓(xùn)練建立了高質(zhì)量的數(shù)據(jù)基準(zhǔn),更探索出一條融合物理規(guī)則與語義抽象的具身智能發(fā)展路徑,對推動整個機器人操作能力的發(fā)展具有重要意義。
據(jù)悉,DexCanvas數(shù)據(jù)集將于10月中旬在HuggingFace和Github進行開源,其技術(shù)報告后續(xù)也將在ArXiv發(fā)布,歡迎學(xué)術(shù)界、產(chǎn)業(yè)界與研究機構(gòu)關(guān)注其官方發(fā)布渠道,以獲取數(shù)據(jù)集開源進展、技術(shù)報告與相關(guān)成果的第一手信息,如需申請搶先體驗,可掃描下方二維碼填寫信息與數(shù)據(jù)需求,靈巧智能將在數(shù)據(jù)集正式開源后第一時間通過郵件為您發(fā)送預(yù)覽版本。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.