超大參數(shù)量具身VLM開源：首創(chuàng)DPPO訓(xùn)練范式，模型性價比天花板

2025-11-14 18:43:40　來源: 機器之心Pro

北京舉報

分享至

機器之心發(fā)布

機器之心編輯部

最近，國內(nèi)具身智能的開源 VLM 登頂了行業(yè)之巔。2025 年以來，具身智能的行業(yè)研發(fā)力似乎也迎來了井噴式爆發(fā)。

11 月 13 日，北京人形機器人創(chuàng)新中心正式開源了具身智能 VLM 模型 ——Pelican-VL 1.0，根據(jù)介紹，該模型覆蓋 7B、72B 參數(shù)規(guī)模，被稱為 “最大規(guī)模的開源具身多模態(tài)大腦模型”。

項目鏈接：https://pelican-vl.github.io/
Github：https://github.com/Open-X-Humanoid/pelican-vl
Huggingface：https://huggingface.co/collections/X-Humanoid/pelican-vl-10
Modelscope：https://modelscope.cn/collections/Pelican10-VL-1036b65bbdfe46

官方資料顯示，其核心優(yōu)勢在于深度整合海量數(shù)據(jù)與自適應(yīng)學(xué)習(xí)機制：并在由 1000+ A800 GPU 組成的集群上訓(xùn)練，單次檢查點訓(xùn)練耗費超過 50,000 A800 GPU - 小時；團(tuán)隊從原始數(shù)據(jù)中蒸餾出包含數(shù)億 token 的高質(zhì)量元數(shù)據(jù)以做訓(xùn)練基石。在基線基礎(chǔ)上性能提升 20.3%，超過同級別開源模型 10.6%。根據(jù)測試，其平均性能超越 GPT-5 和 Google gemini 等閉源系列模型，成為了目前最強具身性能的開源多模態(tài)大模型。

DPPO 造就 “VLM 快速高效提升”

簡單來說，Pelican-VL 就像一名刻苦鉆研的學(xué)生：每次訓(xùn)練循環(huán)都會 “看視頻 — 自主練習(xí) — 發(fā)現(xiàn)錯誤 — 糾正提升”，這得益于北京人形開創(chuàng)性的運用了 “刻意練習(xí)” DPPO（Deliberate Practice Policy Optimization）訓(xùn)練范式。

DPPO 模仿人類元認(rèn)知的學(xué)習(xí)方式，通過強化學(xué)習(xí)（RL）探索弱點、生成失敗樣本，再進(jìn)行有針對性的監(jiān)督微調(diào)（SFT），讓模型不斷自我糾錯和迭代進(jìn)步。正如學(xué)生做錯題后總結(jié)經(jīng)驗一樣，Pelican-VL 能在訓(xùn)練中發(fā)現(xiàn) “薄弱知識點” 并補齊，從而持續(xù)提高在視覺 - 語言和具身任務(wù)上的能力。通過這種機制，模型能夠更準(zhǔn)確地理解圖像內(nèi)容、語言指令和物理常識，在空間 - 時間推理和動作規(guī)劃方面實現(xiàn)突破。更具體的如圖所示，DPPO 框架包含兩個主要階段：強化學(xué)習(xí)（RL）和監(jiān)督微調(diào)（SFT）。首先在 RL 階段通過多樣化獎勵機制和難度過濾，自動發(fā)現(xiàn)模型薄弱點，并對能力進(jìn)行快速提升。之后進(jìn)入 SFT 階段，針對弱點數(shù)據(jù)進(jìn)行知識擴展與模式對齊，通過蒸餾和數(shù)據(jù)構(gòu)建進(jìn)一步鞏固模型能力。整個過程通過難度感知采樣與滾動日志記錄，實現(xiàn) RL 與 SFT 的迭代循環(huán)，使得模型既能快速學(xué)習(xí)新技能，又能保持穩(wěn)定性與全面性。

同時，憑借 DPPO，Pelican-VL 實現(xiàn)【性能大幅提升 20.3%】，成為同類具身模型性能最強。在以下具身特定能力方面大幅得到了提升：

多模態(tài)理解與推理能力：Pelican-VL 同時處理視覺和文本輸入，訓(xùn)練時使用了海量圖像、視頻及跨模態(tài)標(biāo)注數(shù)據(jù)。它不僅能準(zhǔn)確識別物體，還能基于場景進(jìn)行物理推理、空間關(guān)系理解和功能預(yù)測。例如，在封閉廚房或商超場景中，它能夠分辨果蔬擺放、柜臺位置等，并據(jù)此規(guī)劃取物和放置動作。
空間 - 時間認(rèn)知：模型訓(xùn)練包含數(shù)萬小時的視頻和動態(tài)場景問答，使其具備了連續(xù)時序的理解能力。在處理視頻幀時，Pelican-VL 能捕捉物體移動、操作步驟的時間先后關(guān)系，從而對復(fù)雜連貫的任務(wù)序列做出合理推斷，比如判斷 “先搬動哪個物品再操作下一個”。
具身交互能力：在諸如物體抓取、導(dǎo)航、協(xié)作等機器人任務(wù)中，Pelican-VL 不僅能理解任務(wù)目標(biāo)，還能輸出細(xì)化的動作步驟和評估每步可行性。這意味著它在看到指令后，可以設(shè)計出機器人關(guān)節(jié)的移動軌跡、抓取點和操作策略。其多任務(wù)能力覆蓋抓取、導(dǎo)航、人機交互等不同應(yīng)用場景，體現(xiàn)出跨任務(wù)的強大泛化性。
自我糾錯與迭代學(xué)習(xí)：借助 DPPO 循環(huán)訓(xùn)練，Pelican-VL 具有 “自我糾錯” 特質(zhì)。每輪強化學(xué)習(xí)后，模型都會自動生成新的難題樣本并進(jìn)行再訓(xùn)練，如同不斷練習(xí)和復(fù)盤。隨著訓(xùn)練的進(jìn)行，它的弱點被逐步修補，能力不斷提升。這一過程類似 “刻意練習(xí)” 的學(xué)習(xí)范式，使得 Pelican-VL 在迭代中持續(xù)進(jìn)步并達(dá)到與頂級閉源系統(tǒng)持平的表現(xiàn)。

開源 “大腦”，加速產(chǎn)業(yè)落地

這些改進(jìn)并非紙上談兵。北京人形團(tuán)隊在多項真實的具身任務(wù)上給出評測：在接觸豐富的觸覺操控（例如需要調(diào)整握力以抓取軟物體）上，Pelican-VL 成功實現(xiàn)了閉環(huán)預(yù)測與實時調(diào)節(jié)；在以 “可供性（affordance）” 為核心的物體搬取策略中，模型能零樣本生成可行的操作方案；在長程任務(wù)規(guī)劃方面，一個統(tǒng)一大腦也能協(xié)調(diào)多臺機器人完成級聯(lián)任務(wù)?？傮w上，論文報告稱相較基線模型，在空間理解和時間推理等能力上出現(xiàn)顯著提升，并在若干公開基準(zhǔn)上超過了部分 100B 量級的開源系統(tǒng)，甚至接近一些閉源模型的水平。

同時，團(tuán)隊還在九個維度的具身智能分類體系中，對 Pelican-VL 的各項技能進(jìn)行了評測，如下雷達(dá)圖分布顯示，各項指標(biāo)均勻、均衡且在關(guān)鍵維度上表現(xiàn)突出。

粗體數(shù)字和帶下劃線的數(shù)字分別表示最佳結(jié)果和次佳結(jié)果。符號 “?” 標(biāo)記的結(jié)果與官方報告存在差異或異常偏低，這可能是因為官方評估采用了模型專屬提示詞（模型對提示詞較為敏感），而本研究的結(jié)果是在統(tǒng)一實驗方案下獲得的，以確保對比的公平性。星號 “*” 表示結(jié)果來源于官方渠道。黃色單元格標(biāo)記的是本文提出的 Pelican-VL 1.0 模型。

對產(chǎn)業(yè)與研究界而言，Pelican-VL 有兩層現(xiàn)實意義：一它提供了一套 “視覺理解 → 長期規(guī)劃→物理操作 ” 串聯(lián)的可復(fù)用訓(xùn)練范式，降低了在機器人中使用 VLM 的門檻；二是團(tuán)隊選擇開源基礎(chǔ)模型和推理代碼，意味著其他實驗室或企業(yè)可以在這個 “腦” 上做定制化訓(xùn)練，加速落地探索。

北京人形團(tuán)隊也在討論中指出，盡管取得進(jìn)步，但高質(zhì)量具身數(shù)據(jù)的稀缺性、評測基準(zhǔn)的局限以及如何安全、可靠地在人類環(huán)境中部署仍是下一步需要直面的挑戰(zhàn)。

讀者如果想把這則研究的影響具象化：想象家里的助手機器人不僅能識別碗盤在哪兒，還能判斷 “這個杯子能用來拿湯嗎？”、“這個蘋果該怎樣輕拿輕放才不擠壞？” 并在實際失敗后自己學(xué)會改進(jìn) ——Pelican-VL 正是在朝這個方向邁出一大步。

國際模型對比：技術(shù)路線與應(yīng)用場景

Pelican-VL 代表了國內(nèi)具身智能的一種端到端解法，與國外一些知名模型在策略和場景上各有側(cè)重。

對于國外 AI 大廠：

英偉達(dá)團(tuán)隊在 25 年 3 月提出來 Cosmos-Reason1 是 NVIDIA 發(fā)布的專為物理智能（Physical AI）打造的多模態(tài)大模型，包含 8B 和 56B 兩種尺寸。模型在空間、時間和基礎(chǔ)物理三大常識范疇下，融合視覺與文本信息，具備強大的物理常識推理和具身推理能力。采用 ViT-300M 視覺編碼器、Mamba-MLP-Transformer 主干，以及多階段訓(xùn)練流程（包括視覺預(yù)訓(xùn)練、通用與物理智能 SFT、強化學(xué)習(xí)），配合 1 億級多模態(tài)樣本和千萬級具身與物理常識數(shù)據(jù)。在物理推理、空間認(rèn)知等多項基準(zhǔn)測試上遠(yuǎn)超現(xiàn)有主流模型，并開源了權(quán)重與代碼。

Google 的 embodied reasoning 以 Gemini Robotics-ER 模型為代表，核心目標(biāo)是讓 AI 能夠在真實物理環(huán)境中理解、規(guī)劃并做出決策，主要應(yīng)用于機器人領(lǐng)域。Gemini Robotics-ER 具備多模態(tài)推理能力，能夠處理物體檢測、空間理解、抓取預(yù)測和三維軌跡規(guī)劃等任務(wù)，并將視覺感知轉(zhuǎn)化為機器人可執(zhí)行的高階指令。模型支持多步規(guī)劃和環(huán)境反饋動態(tài)調(diào)整，利用如 ERQA 數(shù)據(jù)集等基準(zhǔn)評估其現(xiàn)實任務(wù)能力。此外，Google 探索 “內(nèi)心獨白” 機制，讓機器人在動態(tài)環(huán)境下能自我思考、實時調(diào)整，實現(xiàn)高魯棒性的具身智能。相關(guān)技術(shù)已集成于 Google AI Studio、Gemini API 和 Vertex AI，為自動化生產(chǎn)、導(dǎo)航、操作等機器人實際應(yīng)用提供支持。

而 GPT-5 是通用視覺 - 語言大模型同樣具備強大的圖像理解和跨模態(tài)推理能力，但它們原本并非專為物理執(zhí)行而設(shè)計。GPT-5 可以回答視覺問題、生成圖像描述，但缺少與機器人硬件對接的控制層。

相比國外閉源模型，Pelican-VL 在國內(nèi)開源模型基礎(chǔ)上進(jìn)行預(yù)訓(xùn)練，利用少量的數(shù)據(jù)和訓(xùn)練資源，即達(dá)到了相當(dāng)?shù)男阅?，甚至更好的性能，整體數(shù)據(jù)利用率達(dá)到了其他模型的 10 倍～50 倍。另外，因為 Pelican-VL 是開源的模型，可以賦能國內(nèi)外具身行業(yè)。此外，在國內(nèi) Pelican-VL 也是性能最好的具身智能模型，相比于國內(nèi)同類模型，平均提升了 10%+ 的性能。

結(jié)語

從搭建 “具身天工” 和 “慧思開物” 這一硬一軟的通用平臺開始，再到如今，以算法推動行業(yè)研發(fā)、以數(shù)據(jù)利用率加速模型迭代、以開源策略為產(chǎn)業(yè)落地夯實基礎(chǔ)，北京人形似乎都在以一個更宏觀的視角在探索具身智能的這條道路。這種 “平臺 + 生態(tài)” 的布局，或許也將促進(jìn)打破技術(shù)閉環(huán)與數(shù)據(jù)孤島，更讓具身智能從實驗室的單點突破，走向產(chǎn)業(yè)鏈協(xié)同的規(guī)?；l(fā)展。

當(dāng)越來越多企業(yè)借助開源工具降低研發(fā)門檻，當(dāng)真實場景數(shù)據(jù)持續(xù)反哺模型進(jìn)化，具身智能或許能真正加速滲透工業(yè)、家庭、物流等多元場景，最終讓機器人真正具備 “感知 - 思考 - 行動” 的通用能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.