機器之心發(fā)布
機器之心編輯部
國內(nèi)首個少樣本通用具身操作基礎(chǔ)模型發(fā)布,跨越視覺語言與機器人操作的鴻溝。
具身智能領(lǐng)域終于要突破 “數(shù)據(jù)桎梏” 了嗎?
相較于自然語言、視覺領(lǐng)域,具身智能的數(shù)據(jù)天然稀缺。真實世界的機器人操作往往涉及復(fù)雜的物理交互、實時反饋與環(huán)境變化,導(dǎo)致數(shù)據(jù)采集不僅成本高、效率低,并且還難以規(guī)?;?。因此,現(xiàn)實中能達到數(shù)十萬以及百萬物理交互的數(shù)據(jù)集并不多見。
另外,當(dāng)前的視覺 - 語言 - 動作(VLA)模型雖然已經(jīng)具備了強大的語義理解能力,但在實際操作層面仍依賴大規(guī)模標(biāo)注數(shù)據(jù)來彌補泛化能力的不足。
如何讓具身機器人在極少樣本下也能快速學(xué)習(xí)、準(zhǔn)確執(zhí)行、靈活遷移,成為決定它們真正走出實驗室、進入工業(yè)生產(chǎn)與人機協(xié)作場景的關(guān)鍵因素。
近日,國內(nèi)通用具身智能創(chuàng)企中科第五紀(jì)(FiveAges)正式發(fā)布新一代具身操作基礎(chǔ)模型 FiveAges Manipulator-1(FAM-1),其核心架構(gòu)源于團隊入選 NeurIPS 2025 的《BridgeVLA: Bridging the Gap between Large Vision-Language Model and 3D Robotic Manipulation》,首次實現(xiàn)了大規(guī)模視覺語言模型(VLM)與三維機器人操作控制之間的高效知識遷移與空間建模融合。
特別地,該模型在少樣本學(xué)習(xí)、跨場景適應(yīng)及復(fù)雜任務(wù)理解方面實現(xiàn)重大突破,僅需 3-5 條機器人數(shù)據(jù) / 任務(wù)即可完成精準(zhǔn)具身操作學(xué)習(xí),成功率高達 97% 并且全面超越 SOTA?;谠撃P停瑘F隊斬獲 CVPR 2025 具身操作競賽冠軍,擊敗國內(nèi)外眾多競爭對手。
FAM-1:從 VLA 到 BridgeVLA,
國內(nèi)首個少樣本通用具身操作基礎(chǔ)模型
為了緩解缺少高質(zhì)量操作數(shù)據(jù)的困境,切實提升跨場景、跨任務(wù)下的泛化性,中科第五紀(jì)以 BridgeVLA 為核心框架,構(gòu)建首個少樣本通用具身操作基礎(chǔ)模型 FAM-1。
與傳統(tǒng)的 VLA 架構(gòu)相比,BridgeVLA 實現(xiàn)了以下兩個方面的技術(shù)創(chuàng)新:
- 整合多類型數(shù)據(jù),構(gòu)建多維度的操作知識庫,以二次預(yù)訓(xùn)練的方式挖掘 VLM 隱含知識,解決操作目標(biāo)和場景理解不準(zhǔn)確、泛化性差的問題;
- 利用三維熱力圖對齊 VLM 與 VLA 的輸出與輸入,通過 3-5 條非常少量的樣本微調(diào),解決視覺空間理解力弱、數(shù)據(jù)利用效率低的問題。
這些技術(shù)不僅在數(shù)個國際公開評測數(shù)據(jù)集上取得當(dāng)前 SOTA 性能,還在僅有少量標(biāo)注數(shù)據(jù)的真實開放場景下,穩(wěn)定實現(xiàn)跨光照、跨場景、跨任務(wù)的泛化性
具體來說,F(xiàn)AM-1 是由知識驅(qū)動的預(yù)訓(xùn)練(Knowledge-driven Pretraining, KP)和三維少樣本微調(diào)(3D Few-shot Fine-tuning, FF)兩大核心模塊組成:
知識驅(qū)動的預(yù)訓(xùn)練:目前大多數(shù)具身操作模型是基于非操作數(shù)據(jù)預(yù)訓(xùn)練的 VLM,僅能在一定程度上緩解操作目標(biāo)和場景泛化的問題。這種跨域差異性的存在,導(dǎo)致模型無法真正發(fā)揮 VLM 在泛化性方面的巨大潛力。因此,中科第五紀(jì)利用從網(wǎng)絡(luò)上收集海量圖像視頻數(shù)據(jù)并構(gòu)建面向操作場景的知識庫,然后對預(yù)訓(xùn)練的 VLM 進行二次預(yù)訓(xùn)練。通過挖掘和引導(dǎo)模型隱含的操作知識,對機械臂關(guān)鍵點位置和軌跡進行預(yù)測,進而逐步實現(xiàn)在操作場景下的跨域適應(yīng)。
三維少樣本樣本微調(diào):現(xiàn)有 VLM+VLA 架構(gòu)大多是將三維視覺信息壓縮到一維向量,然后再預(yù)測三維動作,形式上類似沙漏結(jié)構(gòu)。這種架構(gòu)中間的 “維度瓶頸” 讓模型損失大量三維結(jié)構(gòu)信息,導(dǎo)致需要依賴大規(guī)模有標(biāo)注數(shù)據(jù)進行暴力擬合。因此,中科第五紀(jì)將 VLM 和 VLA 的輸出和輸入升維到三維熱力圖。這樣在模型微調(diào)的過程中,不僅能充分利用三維空間結(jié)構(gòu)信息,更顯著降低了模型對于樣本數(shù)量的依賴。
主要實驗效果:
FAM-1 在國際基準(zhǔn)中全面超越 SOTA
基于 BridgeVLA 的創(chuàng)新架構(gòu),中科第五紀(jì)將 FAM-1 在國際公開評測基準(zhǔn) RLBench、Colosseum 等與微軟、MIT、斯坦福等頂尖團隊工作進行了公開比較,大量實驗結(jié)果驗證了模型的優(yōu)越性。
例如,在 RLBench 上,F(xiàn)AM-1 可以取得 88.2% 的操作成功率,遠(yuǎn)遠(yuǎn)超過 RVT-2、Act3D、3D Diffuser Actor 等 SOTA 模型 6% 以上,特別是在 “Insert Peg”、“Open Drawer”、“Sort Shape”、“Door Close”、“Hammer Strike” 等任務(wù)上成功率大幅領(lǐng)先,平均成功率大幅提升了 30% 以上。
真機部署效果:
少樣本下基礎(chǔ)任務(wù)成功率 97%,挑戰(zhàn)任務(wù)領(lǐng)先對比模型 30%+
中科第五紀(jì)還將 FAM-1 在真機上與 RVT-2(英偉達)、PI0(Physical Intelligence)、SpatialVLA(Shanghai AI Lab 等)等先進模型進行了全面對比,特別是在少樣本情況下的基礎(chǔ)任務(wù)(Basic)和挑戰(zhàn)任務(wù)(Distractor、Lighting、Background、Height、Combination、Category)上的對比。FAM-1 在僅使用 3-5 條樣本每個 Basic 任務(wù)的情況下,可以達到 97% 成功率,遠(yuǎn)超其它對比模型。
這些結(jié)果充分驗證了中科第五紀(jì)在少樣本實體部署方面的優(yōu)勢,尤其能夠在不同干擾物體、不同光照條件、不同背景絕大多數(shù)復(fù)雜因素且極具產(chǎn)業(yè)化價值的能力下顯著提升模型的泛化性。
總結(jié)與展望:
致力于打造工業(yè)級通用具身智能體系
FAM-1 是面向機械臂操作的少樣本通用基礎(chǔ)模型,通過遷移多模態(tài)大模型隱含知識和建模三維空間結(jié)構(gòu)信息,讓機器人獲得了前所未有的跨場景任務(wù)的泛化能力和少樣本快速學(xué)習(xí)能力。
基于此,中科第五紀(jì)未來將繼續(xù)深耕以下三大方向:
- 進一步面向操作場景,提升通用基礎(chǔ)模型的泛化性、可靠性和適應(yīng)性;
- 推動基礎(chǔ)模型在工業(yè)場景下的更多應(yīng)用;
- 面向?qū)Ш綀鼍巴瞥鐾ㄓ没A(chǔ)模型。
此外,團隊另一項成果 EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Embodiment-Centric Flow 已被 ICCV 2025 接收,展示了從無標(biāo)注人類操作視頻中自監(jiān)督學(xué)習(xí)操控策略的新路徑,進一步展現(xiàn)了中科第五紀(jì)在具身智能核心技術(shù)上的系統(tǒng)性創(chuàng)新能力。這意味著未來機器人或可通過觀察人類操作視頻,自主學(xué)習(xí)操控策略,進一步降低應(yīng)用門檻。
從定義具身大模型新標(biāo)準(zhǔn),到發(fā)布國內(nèi)首個少樣本通用具身操作基礎(chǔ)模型,中科第五紀(jì)的探索正推動具身智能從 “單點技術(shù)突破” 走向 “體系化落地”,為機器人真正走進工業(yè)生產(chǎn)、日常生活提供了技術(shù)支撐。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.