網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

邱錫鵬團(tuán)隊(duì)新作：讓機(jī)器人學(xué)會(huì)「察言觀色」

2025-11-05 14:05:15　來源: AI科技評(píng)論

廣東舉報(bào)

分享至

跳出VLA框架限制，具身全模態(tài)模型來了。

作者丨齊鋮湧

編輯丨馬曉寧

人類究竟需要什么樣的具身智能？

先來回答一道閱讀理解題：

在一個(gè)家庭場(chǎng)景中，作為一個(gè)非常聰慧的家庭機(jī)器人，你聽到孩子和媽媽展開了一段對(duì)話：

孩子：媽，我渴了

媽媽：冰箱里有橙汁和可樂

孩子不太情愿地說：呃，橙汁······（非常排斥的語氣）

這時(shí)，孩子看向了你，作為機(jī)智的機(jī)器人，你應(yīng)該怎么做？

顯然，你聽出了孩子不想喝酸酸的橙汁，如此機(jī)智聰慧的你，肯定會(huì)主動(dòng)問孩子：那我給你拿一罐肥仔快樂水？

這個(gè)小劇場(chǎng)，不是段子，而是出現(xiàn)在一篇嚴(yán)肅論文里的內(nèi)容。

最近，來自復(fù)旦大學(xué)、上海創(chuàng)智學(xué)院及新加坡國立大學(xué)研究團(tuán)隊(duì)發(fā)布了一個(gè)全新的操作框架 RoboOmni ，讓機(jī)器人學(xué)會(huì)了“察言觀色”。

https://arxiv.org/pdf/2510.23763

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

01
傳統(tǒng) VLA 帶來的具身局限：

極度依賴「顯式指令」

過去一段時(shí)間，多模態(tài)大語言模型（MLLMs）的發(fā)展，推動(dòng)了VLA（視覺-語言-動(dòng)作）模型的快速繁榮，也給機(jī)器人領(lǐng)域帶來了巨大的變化。

盡管 VLA（視覺-語言-動(dòng)作）范式愈發(fā)成熟，但依舊存在一個(gè)巨大的局限性：

“機(jī)器人的推理能力，極度依賴「顯式指令」”。

而在現(xiàn)實(shí)世界交互中，人類很少直接發(fā)出指令。有效的協(xié)作往往需要機(jī)器人主動(dòng)推斷人類的意圖。

比如，大部分機(jī)器人只能理解 “從冰箱里拿出可樂放到餐桌上” ，或者“打開冰箱門，取出紅色罐狀物體，然后關(guān)上冰箱門，再將紅色罐狀物給我”這樣的指令。

但大部分現(xiàn)實(shí)場(chǎng)景中，人類卻經(jīng)常發(fā)出“隱式指令”，比如“呃，橙汁······（非常排斥的語氣）”。

于是，復(fù)旦大學(xué)、上海創(chuàng)智學(xué)院及新加坡國立大學(xué)研究團(tuán)隊(duì)發(fā)布引入了跨模態(tài)情境指令，以此創(chuàng)造了一個(gè)新的場(chǎng)景：從口語對(duì)話、環(huán)境聲音和視覺提示中推導(dǎo)出來的場(chǎng)景，而不是顯式命令。

為了應(yīng)對(duì)這一新場(chǎng)景，研究團(tuán)隊(duì)提出了 RoboOmni，這是一個(gè)基于端到端全模態(tài) LLMs 的感知者-思考者-說話者-執(zhí)行者框架，它統(tǒng)一了意圖識(shí)別、交互確認(rèn)和動(dòng)作執(zhí)行。

仿真和現(xiàn)實(shí)環(huán)境中的實(shí)驗(yàn)表明，RoboOmni 在成功率、推理速度、意圖識(shí)別和主動(dòng)輔助方面超越了基于文本和 ASR 的基線。

這樣的表現(xiàn)，讓我們對(duì)真正的智能有了新的期待。

02
智能與否，在于機(jī)器人能否聽出

“話里有話”

在這項(xiàng)研究里，團(tuán)隊(duì)提出了一個(gè)關(guān)鍵的問題：

“機(jī)器人能否整合跨模態(tài)上下文，包括語音、環(huán)境音頻和視覺觀察，以主動(dòng)推斷和驗(yàn)證用戶意圖？

想要做出主動(dòng)推斷，機(jī)器人必須從音頻和視覺觀察中推斷隱含意圖，也就是“話里的話”。

但現(xiàn)有數(shù)據(jù)集缺乏這種模態(tài)組合（大多數(shù)缺乏音頻模態(tài)）以及意圖推理所需的推斷指令。

為解決這一差距，團(tuán)隊(duì)引入了 OmniAction。RoboOmni 融合了聽覺和視覺信號(hào)，以實(shí)現(xiàn)魯棒的意圖識(shí)別，同時(shí)支持直接語音交互。

并且，為了解決機(jī)器人操作中主動(dòng)意圖識(shí)別缺乏訓(xùn)練數(shù)據(jù)的問題，團(tuán)隊(duì)構(gòu)建了 OmniAction 大規(guī)模情境指令數(shù)據(jù)集，包含 140k多模態(tài)樣本、5 千多名說話人、2.4k事件聲音、640 個(gè)背景和六種情境指令類型。

OmniAction 數(shù)據(jù)集構(gòu)建流程概述及示例

在語料庫的基礎(chǔ)上，RoboOmni 融入了六種上下文指令類型。

包括身份線索（比如是孩子想喝東西，不是媽媽），非語言線索，重疊語音，情感線索（比如“呃，橙汁太酸了”暗示要求提供替代品）等等。

基于以上， RoboOmni 的開發(fā)團(tuán)隊(duì)，建立了一個(gè)用于操控的、端到端多模態(tài)框架。

這意味著，在文章開始的案例中，從最開始意圖識(shí)別（聽媽媽和孩子對(duì)話）、交互確認(rèn)（是否需要可樂）和動(dòng)作執(zhí)行（拿可樂），都包含在內(nèi)，從而形成了“感知-思考-回應(yīng)-執(zhí)行”統(tǒng)一架構(gòu)，在同一模型中完成語音理解、語音對(duì)話與動(dòng)作執(zhí)行。

03
機(jī)器人的高情商，

來自“跨模態(tài)上下文指令”

看到這里，大家一定關(guān)心的是 RoboOmni 的具體研究過程：

與先前方法不同，RoboOmni 不需要直接指令，而是跨模態(tài)上下文指令。

作為一種新的機(jī)器人操作環(huán)境，它的指令形式要求機(jī)器人從多模態(tài)上下文（視覺、環(huán)境聲音和語音）中主動(dòng)推斷用戶指令，而不是被動(dòng)等待明確的指令。

研究團(tuán)隊(duì)進(jìn)一步評(píng)估了 RoboOmni 在真實(shí)人類錄音的直接音頻指令下的魯棒性。

他們用了 OmniAction-LIBERO-Real 基準(zhǔn)測(cè)試，測(cè)試顯示 RoboOmni 實(shí)現(xiàn)了最高的平均性能（76.6%），超越了強(qiáng)大的基于文本的 VLA，包括π（73.8%）、OpenVLA（40.1%）和 NORA（17.4%）。

不難發(fā)現(xiàn)，RoboOmni 直接處理語音，能夠避免了 ASR 管道錯(cuò)誤，效果不錯(cuò)。

在基線模型方面，當(dāng)前開源的視覺-語言-動(dòng)作（VLA）模型主要設(shè)計(jì)用于文本指令，無法直接處理音頻輸入，因此研究團(tuán)隊(duì)構(gòu)建了兩種基線范式來驗(yàn)證端到端音頻處理必要性：

第一是真實(shí)文本提示，將預(yù)先標(biāo)注的語音指令轉(zhuǎn)錄直接輸入 VLA 模型；第二是語音-ASR-文本提示，其中語音指令首先使用 ASR 模型 Whisper large-v3轉(zhuǎn)錄為文本，然后輸入 VLA 模型。

過程中，將 RoboOmni 與兩種范式的四個(gè)代表 VLA 基線進(jìn)行比較，分別是OpenVLA、OpenVLA-OFT、π和 NORA。

在實(shí)現(xiàn)細(xì)節(jié)上，團(tuán)隊(duì)使用 224×224 的輸入圖像分辨率、16,000 Hz 的音頻采樣率和 6 的動(dòng)作分塊大小來訓(xùn)練模型。對(duì)于大規(guī)模預(yù)訓(xùn)練，RoboOmni 在 64 個(gè) A100 GPU 組成的集群上進(jìn)行了 10 天的優(yōu)化，總共對(duì)應(yīng) 15,360 個(gè) A100 小時(shí)，比較扎實(shí)。

訓(xùn)練過程使用學(xué)習(xí)率為 5×10 的 10 個(gè) epoch，其中前 1k 步保留用于預(yù)熱。對(duì)于下游任務(wù)的監(jiān)督微調(diào)（SFT），團(tuán)隊(duì)采用學(xué)習(xí)率為 5×10，并使用 8 個(gè) A100 GPU 進(jìn)行 10-30k 步的訓(xùn)練。

同時(shí)，為了驗(yàn)證 RoboOmni 的功能是否超越模擬環(huán)境，團(tuán)隊(duì)在WidowX 250S 上使用演示數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)，研究團(tuán)隊(duì)找了10名志愿者，錄制了這份數(shù)據(jù)集。

RoboOmni 在真實(shí)世界的 WidowX 250S 機(jī)械臂上成功案例的演示：在多個(gè)干擾物中定位正確的物體并將其放入指定的花盆中

在試驗(yàn)過程中，RoboOmni 在三個(gè)維度的表現(xiàn)都很突出：

強(qiáng)大的意圖識(shí)別：根據(jù)音頻識(shí)別物體，并根據(jù)視覺場(chǎng)景確定容器是花盆；

有效的交互：在推斷出用戶的潛在意圖后主動(dòng)詢問澄清問題（例如，“我應(yīng)該……嗎？”），并在收到確認(rèn)后執(zhí)行操作；

可靠的執(zhí)行：成功執(zhí)行確認(rèn)的操作；

在模擬和現(xiàn)實(shí)世界場(chǎng)景中的評(píng)估中，RoboOmni 展現(xiàn)出新興的認(rèn)知智能，在成功率、推理速度以及更有效的主動(dòng)輔助和意圖識(shí)別方面優(yōu)于基線模型。

這使得 RoboOmni 能夠在真實(shí)機(jī)器人上運(yùn)行，并處理多樣化的語音指令（例如，情感、重疊提示）。

于是，就有了前面的場(chǎng)景中，機(jī)器人聽到孩子和媽媽的對(duì)話，一通分析，判斷孩子不喜歡橙子，主動(dòng)問孩子：那我給你拿個(gè)可樂？得到孩子肯定回答后，就吭哧吭哧去拿了。

什么是高情商，這才是高情商。

04
OmniAction-LIBERO是什么？

前面提到，研究團(tuán)隊(duì)在 RoboOmni 的探索過程中，除了大量的高質(zhì)量數(shù)據(jù)喂養(yǎng)和上下文指令類型外，還需要評(píng)估機(jī)器人理解的準(zhǔn)確性。

這就需要用到 OpenMoss 團(tuán)隊(duì)的另一個(gè)殺手锏： OmniAction-LIBERO。

這是一個(gè)針對(duì)主流 VLA 模型的系統(tǒng)性、全方面、細(xì)粒度的魯棒性分析框架，它的核心目的就是對(duì) VLA 模型進(jìn)行泛化性能測(cè)試。

OmniAction-LIBERO 的原理機(jī)制和論文鏈接如下：

LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

https://arxiv.org/pdf/2510.13626v1

在OmniAction-LIBERO-TTS 基準(zhǔn)測(cè)試中，不同機(jī)器人操作模型在四種任務(wù)套件（空間、目標(biāo)、物體、長(zhǎng)時(shí)程）下，針對(duì)六種上下文指令類型的性能表現(xiàn)：

加粗值表示最佳性能

RoboOmni 的框架，形成了一個(gè)感知者-思考者-說話者-執(zhí)行者架構(gòu)：

感知來自多模態(tài)輸入編碼，它負(fù)責(zé)將異構(gòu)輸入模態(tài)編碼到一個(gè)統(tǒng)一的嵌入空間中；思考來自全模態(tài)推理，思考者是中央推理引擎，基于 LLM 主干構(gòu)建。它處理感知器提供的統(tǒng)一多模態(tài)表；執(zhí)行器負(fù)責(zé)動(dòng)作生成，為了實(shí)現(xiàn)機(jī)器人控制在語言模型框架中的無縫集成；它將視覺、文本和音頻統(tǒng)一到一個(gè)共享的標(biāo)記空間中，以生成動(dòng)作和語音，且將語音、環(huán)境音頻、視覺和機(jī)器人動(dòng)作統(tǒng)一在一個(gè)自回歸模型中，形成一個(gè)閉環(huán)。

05
足夠復(fù)雜的情境，可能是AGI的突破口

RoboOmni 框架的形成，在這個(gè)團(tuán)隊(duì)過去的研究中，是有跡可循的。

今年上半年，新的訓(xùn)練路徑探索中，RoboOmni 團(tuán)隊(duì)的通訊作者復(fù)旦大學(xué)/上海創(chuàng)智學(xué)院邱錫鵬教授就曾在中提出過一個(gè)新思路：

Context Scaling

與參數(shù)規(guī)模、后訓(xùn)練推理等路徑不一樣，Context Scaling 更看重如何讓 AI 真正理解并適應(yīng)復(fù)雜、多變、模糊的情境（Context）。

邱錫鵬教授非常推崇情境理解，并將它轉(zhuǎn)化為一個(gè)新的探索方向：

情境智能（Contextual Intelligence）

這次 RoboOmni 的發(fā)布，正是他們團(tuán)隊(duì)在情境智能方向探索的的一次成果匯報(bào)。

這也給很多科學(xué)家探索真正的智能，提供了一種思路。

人類之所以表現(xiàn)出智能，是因?yàn)槿四軌蚶斫馊蝿?wù)的模糊與復(fù)雜。

在語言交流中，人類能聽懂朋友的“暗示”，能形成“只可意會(huì)不可言傳”的默契，這讓我們能夠高效合作與共贏；在勞動(dòng)中，我們能夠橫跨很多領(lǐng)域?qū)W習(xí)，從蝙蝠的飛行智慧中領(lǐng)悟雷達(dá)的原理，從荷葉表面學(xué)會(huì)不粘鍋。

不難發(fā)現(xiàn)，這些行為，都不是簡(jiǎn)單的狀態(tài) - 動(dòng)作 - 獎(jiǎng)勵(lì)循環(huán)而是在足夠豐富的情境中交互，才能涌現(xiàn)出的智能和突破。RoboOmni重新定義了機(jī)器人交互：從“執(zhí)行命令”到“主動(dòng)理解”，讓機(jī)器人洞察人意，從而開啟了具身智能的“共情時(shí)代”。

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.