夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

超大參數(shù)量具身VLM開源:首創(chuàng)DPPO訓(xùn)練范式,模型性價比天花板

0
分享至



機器之心發(fā)布

機器之心編輯部

最近,國內(nèi)具身智能的開源 VLM 登頂了行業(yè)之巔。2025 年以來,具身智能的行業(yè)研發(fā)力似乎也迎來了井噴式爆發(fā)。

11 月 13 日,北京人形機器人創(chuàng)新中心正式開源了具身智能 VLM 模型 ——Pelican-VL 1.0,根據(jù)介紹,該模型覆蓋 7B、72B 參數(shù)規(guī)模,被稱為 “最大規(guī)模的開源具身多模態(tài)大腦模型”。



  • 項目鏈接:https://pelican-vl.github.io/
  • Github:https://github.com/Open-X-Humanoid/pelican-vl
  • Huggingface:https://huggingface.co/collections/X-Humanoid/pelican-vl-10
  • Modelscope:https://modelscope.cn/collections/Pelican10-VL-1036b65bbdfe46

官方資料顯示,其核心優(yōu)勢在于深度整合海量數(shù)據(jù)與自適應(yīng)學(xué)習(xí)機制:并在由 1000+ A800 GPU 組成的集群上訓(xùn)練,單次檢查點訓(xùn)練耗費超過 50,000 A800 GPU - 小時;團(tuán)隊從原始數(shù)據(jù)中蒸餾出包含數(shù)億 token 的高質(zhì)量元數(shù)據(jù)以做訓(xùn)練基石。在基線基礎(chǔ)上性能提升 20.3%,超過同級別開源模型 10.6%。根據(jù)測試,其平均性能超越 GPT-5 和 Google gemini 等閉源系列模型,成為了目前最強具身性能的開源多模態(tài)大模型 。



DPPO 造就 “VLM 快速高效提升”

簡單來說,Pelican-VL 就像一名刻苦鉆研的學(xué)生:每次訓(xùn)練循環(huán)都會 “看視頻 — 自主練習(xí) — 發(fā)現(xiàn)錯誤 — 糾正提升”,這得益于北京人形開創(chuàng)性的運用了 “刻意練習(xí)” DPPO(Deliberate Practice Policy Optimization)訓(xùn)練范式。



DPPO 模仿人類元認(rèn)知的學(xué)習(xí)方式,通過強化學(xué)習(xí)(RL)探索弱點、生成失敗樣本,再進(jìn)行有針對性的監(jiān)督微調(diào)(SFT),讓模型不斷自我糾錯和迭代進(jìn)步。正如學(xué)生做錯題后總結(jié)經(jīng)驗一樣,Pelican-VL 能在訓(xùn)練中發(fā)現(xiàn) “薄弱知識點” 并補齊,從而持續(xù)提高在視覺 - 語言和具身任務(wù)上的能力。通過這種機制,模型能夠更準(zhǔn)確地理解圖像內(nèi)容、語言指令和物理常識,在空間 - 時間推理和動作規(guī)劃方面實現(xiàn)突破。更具體的如圖所示,DPPO 框架包含兩個主要階段:強化學(xué)習(xí)(RL)和監(jiān)督微調(diào)(SFT)。首先在 RL 階段通過多樣化獎勵機制和難度過濾,自動發(fā)現(xiàn)模型薄弱點,并對能力進(jìn)行快速提升。之后進(jìn)入 SFT 階段,針對弱點數(shù)據(jù)進(jìn)行知識擴展與模式對齊,通過蒸餾和數(shù)據(jù)構(gòu)建進(jìn)一步鞏固模型能力。整個過程通過難度感知采樣與滾動日志記錄,實現(xiàn) RL 與 SFT 的迭代循環(huán),使得模型既能快速學(xué)習(xí)新技能,又能保持穩(wěn)定性與全面性。

同時,憑借 DPPO,Pelican-VL 實現(xiàn)【性能大幅提升 20.3%】,成為同類具身模型性能最強。在以下具身特定能力方面大幅得到了提升:

  • 多模態(tài)理解與推理能力:Pelican-VL 同時處理視覺和文本輸入,訓(xùn)練時使用了海量圖像、視頻及跨模態(tài)標(biāo)注數(shù)據(jù)。它不僅能準(zhǔn)確識別物體,還能基于場景進(jìn)行物理推理、空間關(guān)系理解和功能預(yù)測。例如,在封閉廚房或商超場景中,它能夠分辨果蔬擺放、柜臺位置等,并據(jù)此規(guī)劃取物和放置動作。
  • 空間 - 時間認(rèn)知:模型訓(xùn)練包含數(shù)萬小時的視頻和動態(tài)場景問答,使其具備了連續(xù)時序的理解能力。在處理視頻幀時,Pelican-VL 能捕捉物體移動、操作步驟的時間先后關(guān)系,從而對復(fù)雜連貫的任務(wù)序列做出合理推斷,比如判斷 “先搬動哪個物品再操作下一個”。
  • 具身交互能力:在諸如物體抓取、導(dǎo)航、協(xié)作等機器人任務(wù)中,Pelican-VL 不僅能理解任務(wù)目標(biāo),還能輸出細(xì)化的動作步驟和評估每步可行性。這意味著它在看到指令后,可以設(shè)計出機器人關(guān)節(jié)的移動軌跡、抓取點和操作策略。其多任務(wù)能力覆蓋抓取、導(dǎo)航、人機交互等不同應(yīng)用場景,體現(xiàn)出跨任務(wù)的強大泛化性。
  • 自我糾錯與迭代學(xué)習(xí):借助 DPPO 循環(huán)訓(xùn)練,Pelican-VL 具有 “自我糾錯” 特質(zhì)。每輪強化學(xué)習(xí)后,模型都會自動生成新的難題樣本并進(jìn)行再訓(xùn)練,如同不斷練習(xí)和復(fù)盤。隨著訓(xùn)練的進(jìn)行,它的弱點被逐步修補,能力不斷提升。這一過程類似 “刻意練習(xí)” 的學(xué)習(xí)范式,使得 Pelican-VL 在迭代中持續(xù)進(jìn)步并達(dá)到與頂級閉源系統(tǒng)持平的表現(xiàn)。

開源 “大腦”,加速產(chǎn)業(yè)落地

這些改進(jìn)并非紙上談兵。北京人形團(tuán)隊在多項真實的具身任務(wù)上給出評測:在接觸豐富的觸覺操控(例如需要調(diào)整握力以抓取軟物體)上,Pelican-VL 成功實現(xiàn)了閉環(huán)預(yù)測與實時調(diào)節(jié);在以 “可供性(affordance)” 為核心的物體搬取策略中,模型能零樣本生成可行的操作方案;在長程任務(wù)規(guī)劃方面,一個統(tǒng)一大腦也能協(xié)調(diào)多臺機器人完成級聯(lián)任務(wù)??傮w上,論文報告稱相較基線模型,在空間理解和時間推理等能力上出現(xiàn)顯著提升,并在若干公開基準(zhǔn)上超過了部分 100B 量級的開源系統(tǒng),甚至接近一些閉源模型的水平。





同時,團(tuán)隊還在九個維度的具身智能分類體系中,對 Pelican-VL 的各項技能進(jìn)行了評測,如下雷達(dá)圖分布顯示,各項指標(biāo)均勻、均衡且在關(guān)鍵維度上表現(xiàn)突出。









粗體數(shù)字和帶下劃線的數(shù)字分別表示最佳結(jié)果和次佳結(jié)果。符號 “?” 標(biāo)記的結(jié)果與官方報告存在差異或異常偏低,這可能是因為官方評估采用了模型專屬提示詞(模型對提示詞較為敏感),而本研究的結(jié)果是在統(tǒng)一實驗方案下獲得的,以確保對比的公平性。星號 “*” 表示結(jié)果來源于官方渠道。黃色單元格標(biāo)記的是本文提出的 Pelican-VL 1.0 模型。

對產(chǎn)業(yè)與研究界而言,Pelican-VL 有兩層現(xiàn)實意義:一它提供了一套 “視覺理解 → 長期規(guī)劃→物理操作 ” 串聯(lián)的可復(fù)用訓(xùn)練范式,降低了在機器人中使用 VLM 的門檻;二是團(tuán)隊選擇開源基礎(chǔ)模型和推理代碼,意味著其他實驗室或企業(yè)可以在這個 “腦” 上做定制化訓(xùn)練,加速落地探索。

北京人形團(tuán)隊也在討論中指出,盡管取得進(jìn)步,但高質(zhì)量具身數(shù)據(jù)的稀缺性、評測基準(zhǔn)的局限以及如何安全、可靠地在人類環(huán)境中部署仍是下一步需要直面的挑戰(zhàn)。

讀者如果想把這則研究的影響具象化:想象家里的助手機器人不僅能識別碗盤在哪兒,還能判斷 “這個杯子能用來拿湯嗎?”、“這個蘋果該怎樣輕拿輕放才不擠壞?” 并在實際失敗后自己學(xué)會改進(jìn) ——Pelican-VL 正是在朝這個方向邁出一大步。

國際模型對比:技術(shù)路線與應(yīng)用場景

Pelican-VL 代表了國內(nèi)具身智能的一種端到端解法,與國外一些知名模型在策略和場景上各有側(cè)重。

對于國外 AI 大廠:

英偉達(dá)團(tuán)隊在 25 年 3 月提出來 Cosmos-Reason1 是 NVIDIA 發(fā)布的專為物理智能(Physical AI)打造的多模態(tài)大模型,包含 8B 和 56B 兩種尺寸。模型在空間、時間和基礎(chǔ)物理三大常識范疇下,融合視覺與文本信息,具備強大的物理常識推理和具身推理能力。采用 ViT-300M 視覺編碼器、Mamba-MLP-Transformer 主干,以及多階段訓(xùn)練流程(包括視覺預(yù)訓(xùn)練、通用與物理智能 SFT、強化學(xué)習(xí)),配合 1 億級多模態(tài)樣本和千萬級具身與物理常識數(shù)據(jù)。在物理推理、空間認(rèn)知等多項基準(zhǔn)測試上遠(yuǎn)超現(xiàn)有主流模型,并開源了權(quán)重與代碼。

Google 的 embodied reasoning 以 Gemini Robotics-ER 模型為代表,核心目標(biāo)是讓 AI 能夠在真實物理環(huán)境中理解、規(guī)劃并做出決策,主要應(yīng)用于機器人領(lǐng)域。Gemini Robotics-ER 具備多模態(tài)推理能力,能夠處理物體檢測、空間理解、抓取預(yù)測和三維軌跡規(guī)劃等任務(wù),并將視覺感知轉(zhuǎn)化為機器人可執(zhí)行的高階指令。模型支持多步規(guī)劃和環(huán)境反饋動態(tài)調(diào)整,利用如 ERQA 數(shù)據(jù)集等基準(zhǔn)評估其現(xiàn)實任務(wù)能力。此外,Google 探索 “內(nèi)心獨白” 機制,讓機器人在動態(tài)環(huán)境下能自我思考、實時調(diào)整,實現(xiàn)高魯棒性的具身智能。相關(guān)技術(shù)已集成于 Google AI Studio、Gemini API 和 Vertex AI,為自動化生產(chǎn)、導(dǎo)航、操作等機器人實際應(yīng)用提供支持。

而 GPT-5 是通用視覺 - 語言大模型同樣具備強大的圖像理解和跨模態(tài)推理能力,但它們原本并非專為物理執(zhí)行而設(shè)計。GPT-5 可以回答視覺問題、生成圖像描述,但缺少與機器人硬件對接的控制層。

相比國外閉源模型,Pelican-VL 在國內(nèi)開源模型基礎(chǔ)上進(jìn)行預(yù)訓(xùn)練,利用少量的數(shù)據(jù)和訓(xùn)練資源,即達(dá)到了相當(dāng)?shù)男阅?,甚至更好的性能,整體數(shù)據(jù)利用率達(dá)到了其他模型的 10 倍~50 倍。另外,因為 Pelican-VL 是開源的模型,可以賦能國內(nèi)外具身行業(yè)。此外,在國內(nèi) Pelican-VL 也是性能最好的具身智能模型,相比于國內(nèi)同類模型,平均提升了 10%+ 的性能。

結(jié)語

從搭建 “具身天工” 和 “慧思開物” 這一硬一軟的通用平臺開始,再到如今,以算法推動行業(yè)研發(fā)、以數(shù)據(jù)利用率加速模型迭代、以開源策略為產(chǎn)業(yè)落地夯實基礎(chǔ),北京人形似乎都在以一個更宏觀的視角在探索具身智能的這條道路。這種 “平臺 + 生態(tài)” 的布局,或許也將促進(jìn)打破技術(shù)閉環(huán)與數(shù)據(jù)孤島,更讓具身智能從實驗室的單點突破,走向產(chǎn)業(yè)鏈協(xié)同的規(guī)?;l(fā)展。

當(dāng)越來越多企業(yè)借助開源工具降低研發(fā)門檻,當(dāng)真實場景數(shù)據(jù)持續(xù)反哺模型進(jìn)化,具身智能或許能真正加速滲透工業(yè)、家庭、物流等多元場景,最終讓機器人真正具備 “感知 - 思考 - 行動” 的通用能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
深圳電動車主天塌了!市民曝光嚴(yán)重超速,90碼追不上,官方回應(yīng)了

深圳電動車主天塌了!市民曝光嚴(yán)重超速,90碼追不上,官方回應(yīng)了

林子說事
2025-11-14 10:04:30
對話|日本問題權(quán)威專家:不能將高市早苗涉臺言論視為偶然和孤立性事件

對話|日本問題權(quán)威專家:不能將高市早苗涉臺言論視為偶然和孤立性事件

澎湃新聞
2025-11-14 15:12:30
樂隊否認(rèn)“阿珍”遭汽車電動座椅擠壓去世,其朋友稱是舞臺電動座椅,事發(fā)場館:已與家屬協(xié)商,有關(guān)部門也上門調(diào)查

樂隊否認(rèn)“阿珍”遭汽車電動座椅擠壓去世,其朋友稱是舞臺電動座椅,事發(fā)場館:已與家屬協(xié)商,有關(guān)部門也上門調(diào)查

極目新聞
2025-11-13 23:31:35
最希望中國武統(tǒng)臺灣的2個國家:一個是俄羅斯,另一個是“敵國”

最希望中國武統(tǒng)臺灣的2個國家:一個是俄羅斯,另一個是“敵國”

趣生活
2025-11-08 22:04:51
高市早苗徹底呆住了,解放軍還沒動手,日本掀起內(nèi)訌了。

高市早苗徹底呆住了,解放軍還沒動手,日本掀起內(nèi)訌了。

荊楚寰宇文樞
2025-11-13 21:53:10
老鷹力克爵士4連勝:杰倫31+18+14+7創(chuàng)歷史首人紀(jì)錄 馬卡40+7

老鷹力克爵士4連勝:杰倫31+18+14+7創(chuàng)歷史首人紀(jì)錄 馬卡40+7

醉臥浮生
2025-11-14 12:33:38
不回頭了?富士康決定轉(zhuǎn)移3000億產(chǎn)能,外媒:郭臺銘把飯碗端走了

不回頭了?富士康決定轉(zhuǎn)移3000億產(chǎn)能,外媒:郭臺銘把飯碗端走了

混沌錄
2025-10-22 21:54:06
演都不演了?李連杰、洪金寶變化突出,疑“血液凈化”,牽連成龍

演都不演了?李連杰、洪金寶變化突出,疑“血液凈化”,牽連成龍

動物奇奇怪怪
2025-11-12 09:28:26
上海藏著五萬日本人:不旅游只扎根,直接把中國城市當(dāng)?shù)诙枢l(xiāng)?

上海藏著五萬日本人:不旅游只扎根,直接把中國城市當(dāng)?shù)诙枢l(xiāng)?

寒士之言本尊
2025-11-13 16:15:58
薄一波晚年反省,當(dāng)年不該支持此人上臺,他給國家?guī)泶舐闊?>
    </a>
        <h3>
      <a href=揚平說史
2025-11-06 20:22:42
“退押金不成遭房東連扇四巴掌”后續(xù):當(dāng)事人申請再審被駁回,打人者已書面道歉

“退押金不成遭房東連扇四巴掌”后續(xù):當(dāng)事人申請再審被駁回,打人者已書面道歉

紅星新聞
2025-11-14 20:40:37
鄧超曬照為兒子慶生,14歲等等顏值出眾又高又帥,父子同框超有愛

鄧超曬照為兒子慶生,14歲等等顏值出眾又高又帥,父子同框超有愛

蔡潔
2025-11-15 04:14:43
柬埔寨“太子集團(tuán)”首度發(fā)聲:否認(rèn)從事非法活動,辯稱12.7萬枚比特幣4年多前被黑客竊取

柬埔寨“太子集團(tuán)”首度發(fā)聲:否認(rèn)從事非法活動,辯稱12.7萬枚比特幣4年多前被黑客竊取

紅星新聞
2025-11-13 19:47:43
地鐵未打碼不雅視頻瘋傳,警方已介入!

地鐵未打碼不雅視頻瘋傳,警方已介入!

中吳網(wǎng)
2025-11-14 10:32:15
8勝5負(fù),奪冠熱門滑落!總薪資高居聯(lián)盟第一,你們離重建不遠(yuǎn)了

8勝5負(fù),奪冠熱門滑落!總薪資高居聯(lián)盟第一,你們離重建不遠(yuǎn)了

老梁體育漫談
2025-11-15 00:46:44
美駐日大使:如果中國不按美國的意愿行事,就讓十四億人陷入饑荒

美駐日大使:如果中國不按美國的意愿行事,就讓十四億人陷入饑荒

荊楚寰宇文樞
2025-09-28 21:58:22
神舟二十一號返回!超快速:神20航天員回來了,比神19短3.5小時

神舟二十一號返回!超快速:神20航天員回來了,比神19短3.5小時

火星一號
2025-11-14 12:56:11
嚴(yán)懲裁判,全運會三人籃球惡意驅(qū)逐四人,對手躺贏,演都不演了

嚴(yán)懲裁判,全運會三人籃球惡意驅(qū)逐四人,對手躺贏,演都不演了

宗介說體育
2025-11-14 13:26:22
詹姆斯首秀!在發(fā)展聯(lián)盟,打滿了全程

詹姆斯首秀!在發(fā)展聯(lián)盟,打滿了全程

夢醉為紅顏一笑
2025-11-14 13:35:08
越秀領(lǐng)導(dǎo),被央企告了!

越秀領(lǐng)導(dǎo),被央企告了!

風(fēng)聲聲
2025-11-14 16:00:55
2025-11-15 05:59:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11720文章數(shù) 142505關(guān)注度
往期回顧 全部

科技要聞

京東“失去的五年”后,找到新增長了嗎?

頭條要聞

中方連發(fā)六張雙語海報@高市早苗 媒體:總該看懂了吧

頭條要聞

中方連發(fā)六張雙語海報@高市早苗 媒體:總該看懂了吧

體育要聞

7-0狂勝!15萬人口小島離世界杯只差1分

娛樂要聞

王家衛(wèi)讓古二替秦雯寫劇情主線?

財經(jīng)要聞

財政部:加強逆周期和跨周期調(diào)節(jié)

汽車要聞

小鵬X9超級增程動態(tài)評測全網(wǎng)首發(fā) 高速實測車內(nèi)65分貝

態(tài)度原創(chuàng)

親子
家居
本地
旅游
公開課

親子要聞

細(xì)思極恐!全球1.14億孩子患高血壓,3大原因你娃可能都有!

家居要聞

現(xiàn)代簡逸 尋找生活的光

本地新聞

云游安徽 | 江聲浩蕩閱千年,文脈相承看蕪湖

旅游要聞

避開人潮!5 個零商業(yè)化冷門地,藏著中國最本真的詩和遠(yuǎn)方

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 九九热精品在线视频| 成人羞羞视频一区二区三区| 日韩人妻精品久久九九| 色AV一区二区三区| 国产免费的又黄又爽又色| 国产精品无码av天天爽播放器| 97激情久久| 肥老熟妇伦子伦456视频| 久久人人97超碰国产精品| 日本sm/羞辱/调教/捆绑视频| 国产在线无码不卡影视影院| 久久综合亚洲色HEZYO社区| 无码人妻精品一区二区三区99仓本 | 色伊人亚洲综合网站| 欧美午夜精品久久久久久8888| 最近中文字幕MV在线看| 国产熟女大屁股喷水91精品| 在线无码专区AV| 国产一区传媒| 国产精品久久AV自慰工具无码| 欧美成人国产| 久久国产影视| 无码无套少妇毛多18pxxxx| 亚洲AV永久无码久久久久 | 亚洲美免无码中文字幕在线| 99蜜桃臀久久久欧美精品网站| 国产精品v欧美精品∨日韩| 一区二区中文字幕av| 原干惠被躁57分钟| 日韩一区二区影院| av中文字幕潮喷人妻系列| 国产精品线在线精品| 日本69AV| 国产熟女白浆精品视频2 | 中文8天堂网| 一炕四女被窝交换啪啪| 777日韩无码| 国产综合久久久久| 亚洲国产成人无码网站大全| 亚洲AV伊人久久综合密臀性色| 亚洲AV字幕无码一区未广纯|