網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

三五條樣本擊敗英偉達,國內(nèi)首個超少樣本具身模型,還斬獲頂會冠軍

2025-10-16 14:22:06　來源: 機器之心Pro

北京舉報

分享至

機器之心發(fā)布

機器之心編輯部

國內(nèi)首個少樣本通用具身操作基礎(chǔ)模型發(fā)布，跨越視覺語言與機器人操作的鴻溝。

具身智能領(lǐng)域終于要突破 “數(shù)據(jù)桎梏” 了嗎？

相較于自然語言、視覺領(lǐng)域，具身智能的數(shù)據(jù)天然稀缺。真實世界的機器人操作往往涉及復(fù)雜的物理交互、實時反饋與環(huán)境變化，導(dǎo)致數(shù)據(jù)采集不僅成本高、效率低，并且還難以規(guī)?；?。因此，現(xiàn)實中能達到數(shù)十萬以及百萬物理交互的數(shù)據(jù)集并不多見。

另外，當(dāng)前的視覺 - 語言 - 動作（VLA）模型雖然已經(jīng)具備了強大的語義理解能力，但在實際操作層面仍依賴大規(guī)模標(biāo)注數(shù)據(jù)來彌補泛化能力的不足。

如何讓具身機器人在極少樣本下也能快速學(xué)習(xí)、準(zhǔn)確執(zhí)行、靈活遷移，成為決定它們真正走出實驗室、進入工業(yè)生產(chǎn)與人機協(xié)作場景的關(guān)鍵因素。

近日，國內(nèi)通用具身智能創(chuàng)企中科第五紀(jì)（FiveAges）正式發(fā)布新一代具身操作基礎(chǔ)模型 FiveAges Manipulator-1（FAM-1），其核心架構(gòu)源于團隊入選 NeurIPS 2025 的《BridgeVLA: Bridging the Gap between Large Vision-Language Model and 3D Robotic Manipulation》，首次實現(xiàn)了大規(guī)模視覺語言模型（VLM）與三維機器人操作控制之間的高效知識遷移與空間建模融合。

特別地，該模型在少樣本學(xué)習(xí)、跨場景適應(yīng)及復(fù)雜任務(wù)理解方面實現(xiàn)重大突破，僅需 3-5 條機器人數(shù)據(jù) / 任務(wù)即可完成精準(zhǔn)具身操作學(xué)習(xí)，成功率高達 97% 并且全面超越 SOTA?；谠撃Ｐ停瑘F隊斬獲 CVPR 2025 具身操作競賽冠軍，擊敗國內(nèi)外眾多競爭對手。

FAM-1：從 VLA 到 BridgeVLA，

國內(nèi)首個少樣本通用具身操作基礎(chǔ)模型

為了緩解缺少高質(zhì)量操作數(shù)據(jù)的困境，切實提升跨場景、跨任務(wù)下的泛化性，中科第五紀(jì)以 BridgeVLA 為核心框架，構(gòu)建首個少樣本通用具身操作基礎(chǔ)模型 FAM-1。

與傳統(tǒng)的 VLA 架構(gòu)相比，BridgeVLA 實現(xiàn)了以下兩個方面的技術(shù)創(chuàng)新：

整合多類型數(shù)據(jù)，構(gòu)建多維度的操作知識庫，以二次預(yù)訓(xùn)練的方式挖掘 VLM 隱含知識，解決操作目標(biāo)和場景理解不準(zhǔn)確、泛化性差的問題；
利用三維熱力圖對齊 VLM 與 VLA 的輸出與輸入，通過 3-5 條非常少量的樣本微調(diào)，解決視覺空間理解力弱、數(shù)據(jù)利用效率低的問題。

這些技術(shù)不僅在數(shù)個國際公開評測數(shù)據(jù)集上取得當(dāng)前 SOTA 性能，還在僅有少量標(biāo)注數(shù)據(jù)的真實開放場景下，穩(wěn)定實現(xiàn)跨光照、跨場景、跨任務(wù)的泛化性

具體來說，F(xiàn)AM-1 是由知識驅(qū)動的預(yù)訓(xùn)練（Knowledge-driven Pretraining, KP）和三維少樣本微調(diào)（3D Few-shot Fine-tuning, FF）兩大核心模塊組成：

知識驅(qū)動的預(yù)訓(xùn)練：目前大多數(shù)具身操作模型是基于非操作數(shù)據(jù)預(yù)訓(xùn)練的 VLM，僅能在一定程度上緩解操作目標(biāo)和場景泛化的問題。這種跨域差異性的存在，導(dǎo)致模型無法真正發(fā)揮 VLM 在泛化性方面的巨大潛力。因此，中科第五紀(jì)利用從網(wǎng)絡(luò)上收集海量圖像視頻數(shù)據(jù)并構(gòu)建面向操作場景的知識庫，然后對預(yù)訓(xùn)練的 VLM 進行二次預(yù)訓(xùn)練。通過挖掘和引導(dǎo)模型隱含的操作知識，對機械臂關(guān)鍵點位置和軌跡進行預(yù)測，進而逐步實現(xiàn)在操作場景下的跨域適應(yīng)。

三維少樣本樣本微調(diào)：現(xiàn)有 VLM+VLA 架構(gòu)大多是將三維視覺信息壓縮到一維向量，然后再預(yù)測三維動作，形式上類似沙漏結(jié)構(gòu)。這種架構(gòu)中間的 “維度瓶頸” 讓模型損失大量三維結(jié)構(gòu)信息，導(dǎo)致需要依賴大規(guī)模有標(biāo)注數(shù)據(jù)進行暴力擬合。因此，中科第五紀(jì)將 VLM 和 VLA 的輸出和輸入升維到三維熱力圖。這樣在模型微調(diào)的過程中，不僅能充分利用三維空間結(jié)構(gòu)信息，更顯著降低了模型對于樣本數(shù)量的依賴。

主要實驗效果：

FAM-1 在國際基準(zhǔn)中全面超越 SOTA

基于 BridgeVLA 的創(chuàng)新架構(gòu)，中科第五紀(jì)將 FAM-1 在國際公開評測基準(zhǔn) RLBench、Colosseum 等與微軟、MIT、斯坦福等頂尖團隊工作進行了公開比較，大量實驗結(jié)果驗證了模型的優(yōu)越性。

例如，在 RLBench 上，F(xiàn)AM-1 可以取得 88.2% 的操作成功率，遠(yuǎn)遠(yuǎn)超過 RVT-2、Act3D、3D Diffuser Actor 等 SOTA 模型 6% 以上，特別是在 “Insert Peg”、“Open Drawer”、“Sort Shape”、“Door Close”、“Hammer Strike” 等任務(wù)上成功率大幅領(lǐng)先，平均成功率大幅提升了 30% 以上。

真機部署效果：

少樣本下基礎(chǔ)任務(wù)成功率 97%，挑戰(zhàn)任務(wù)領(lǐng)先對比模型 30%+

中科第五紀(jì)還將 FAM-1 在真機上與 RVT-2（英偉達）、PI0（Physical Intelligence）、SpatialVLA（Shanghai AI Lab 等）等先進模型進行了全面對比，特別是在少樣本情況下的基礎(chǔ)任務(wù)（Basic）和挑戰(zhàn)任務(wù)（Distractor、Lighting、Background、Height、Combination、Category）上的對比。FAM-1 在僅使用 3-5 條樣本每個 Basic 任務(wù)的情況下，可以達到 97% 成功率，遠(yuǎn)超其它對比模型。

這些結(jié)果充分驗證了中科第五紀(jì)在少樣本實體部署方面的優(yōu)勢，尤其能夠在不同干擾物體、不同光照條件、不同背景絕大多數(shù)復(fù)雜因素且極具產(chǎn)業(yè)化價值的能力下顯著提升模型的泛化性。

總結(jié)與展望：

致力于打造工業(yè)級通用具身智能體系

FAM-1 是面向機械臂操作的少樣本通用基礎(chǔ)模型，通過遷移多模態(tài)大模型隱含知識和建模三維空間結(jié)構(gòu)信息，讓機器人獲得了前所未有的跨場景任務(wù)的泛化能力和少樣本快速學(xué)習(xí)能力。

基于此，中科第五紀(jì)未來將繼續(xù)深耕以下三大方向：

進一步面向操作場景，提升通用基礎(chǔ)模型的泛化性、可靠性和適應(yīng)性；
推動基礎(chǔ)模型在工業(yè)場景下的更多應(yīng)用；
面向?qū)Ш綀鼍巴瞥鐾ㄓ没A(chǔ)模型。

此外，團隊另一項成果 EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Embodiment-Centric Flow 已被 ICCV 2025 接收，展示了從無標(biāo)注人類操作視頻中自監(jiān)督學(xué)習(xí)操控策略的新路徑，進一步展現(xiàn)了中科第五紀(jì)在具身智能核心技術(shù)上的系統(tǒng)性創(chuàng)新能力。這意味著未來機器人或可通過觀察人類操作視頻，自主學(xué)習(xí)操控策略，進一步降低應(yīng)用門檻。

從定義具身大模型新標(biāo)準(zhǔn)，到發(fā)布國內(nèi)首個少樣本通用具身操作基礎(chǔ)模型，中科第五紀(jì)的探索正推動具身智能從 “單點技術(shù)突破” 走向 “體系化落地”，為機器人真正走進工業(yè)生產(chǎn)、日常生活提供了技術(shù)支撐。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.