網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

被動(dòng)執(zhí)行到主動(dòng)協(xié)作，復(fù)旦Ask-to-Clarify框架重塑人機(jī)交互范式

2025-09-30 18:57:08　來(lái)源: 機(jī)器人大講堂

安徽舉報(bào)

分享至

在人與機(jī)器不斷走近的今天，人機(jī)交互卻常常面臨這樣的困境：當(dāng)桌上放著多個(gè)不同杯子時(shí)，如果對(duì)設(shè)備說(shuō)“把杯子給我”，它可能會(huì)隨意拿起一個(gè)（但不是那個(gè)最合適的），或者干脆無(wú)法響應(yīng)。這類場(chǎng)景，正反映出當(dāng)前智能系統(tǒng)在理解模糊指令時(shí)的能力局限。

人類之間的交流，往往依賴語(yǔ)境與默契，大量表達(dá)在字面上并不完整。例如我們常說(shuō)“一會(huì)兒提醒我”（具體什么時(shí)間？）、“把空調(diào)開(kāi)大點(diǎn)”（開(kāi)大多少？）、“找個(gè)最近的店”（依據(jù)步行還是駕車？）。對(duì)人而言，這類信息缺口很容易通過(guò)追問(wèn)或推斷來(lái)補(bǔ)全；但對(duì)機(jī)器而言，模糊即意味著無(wú)法執(zhí)行。傳統(tǒng)自動(dòng)化系統(tǒng)往往只能響應(yīng)明確、結(jié)構(gòu)化的指令，而未來(lái)的智能體，必須學(xué)會(huì)在模糊中主動(dòng)溝通，在協(xié)作中完成任務(wù)。

這一挑戰(zhàn)也推動(dòng)著智能體從“被動(dòng)執(zhí)行者”向“主動(dòng)協(xié)作者”的角色轉(zhuǎn)變。具身智能體的發(fā)展目標(biāo)，是成為人類在物理世界中的合作伙伴，而非停留在腳本定式的工具。與虛擬環(huán)境中的AI不同，具身智能體必須應(yīng)對(duì)現(xiàn)實(shí)場(chǎng)景的開(kāi)放性與不確定性。無(wú)論是在家庭、工廠還是公共空間中，它們都面臨一個(gè)根本性的新課題：如何與人進(jìn)行高效、自然、雙向的協(xié)同作業(yè)。

近年來(lái)，視覺(jué)-語(yǔ)言-動(dòng)作模型（VLA）的發(fā)展為實(shí)現(xiàn)這一目標(biāo)帶來(lái)了新的希望。這些模型能夠?qū)C(jī)器人的視覺(jué)觀察與語(yǔ)言指令聯(lián)系起來(lái)，并生成相應(yīng)的動(dòng)作。然而，目前大多數(shù)基于VLA的具身智能體仍以簡(jiǎn)單的單向模式運(yùn)行：接收指令，立即執(zhí)行，不需要任何反饋或澄清。這種被動(dòng)模式在指令明確時(shí)可能有效，但在面對(duì)現(xiàn)實(shí)中常見(jiàn)的模糊指令時(shí)就會(huì)顯得力不從心。

▍“Ask-to-Clarify”詢問(wèn)澄清框架的創(chuàng)新突破

為了解決這一核心挑戰(zhàn)，來(lái)自復(fù)旦大學(xué)的研究團(tuán)隊(duì)提出了“詢問(wèn)澄清”（Ask-to-Clarify）框架，通過(guò)多輪對(duì)話澄清歧義后，端到端生成低級(jí)動(dòng)作，實(shí)現(xiàn)具身智能體從“被動(dòng)執(zhí)行者” 到 “主動(dòng)協(xié)作者” 的轉(zhuǎn)型，為真實(shí)人機(jī)協(xié)作提供新路徑。

具體來(lái)說(shuō)，該框架的運(yùn)作模式類似于人與人之間的協(xié)作：當(dāng)接收到模糊指令時(shí)，智能體會(huì)通過(guò)多輪對(duì)話提出澄清問(wèn)題，逐步明確任務(wù)要求，只有在完全理解指令后才會(huì)執(zhí)行相應(yīng)的低級(jí)動(dòng)作。這種雙向交互模式使智能體能夠從模糊指令中推斷出用戶的真實(shí)意圖，大大提高了任務(wù)執(zhí)行的準(zhǔn)確性。

框架的核心組成

“Ask-to-Clarify”框架由兩個(gè)關(guān)鍵組件組成：負(fù)責(zé)協(xié)作的視覺(jué)-語(yǔ)言模型（VLM）和專門生成動(dòng)作的擴(kuò)散模型。

視覺(jué)-語(yǔ)言模型負(fù)責(zé)理解視覺(jué)場(chǎng)景和語(yǔ)言指令，并在需要時(shí)生成澄清問(wèn)題。例如，當(dāng)看到多個(gè)杯子時(shí)，VLM會(huì)分析場(chǎng)景中的物體屬性（顏色、形狀、位置等），并確定需要澄清的信息點(diǎn)。

擴(kuò)散模型則充當(dāng)智能體的“肢體控制系統(tǒng)”，負(fù)責(zé)生成實(shí)現(xiàn)任務(wù)所需的連續(xù)、流暢的低級(jí)動(dòng)作。與依賴“拿起物體”、“向右移動(dòng)”等高級(jí)指令的系統(tǒng)不同，低級(jí)動(dòng)作允許直接控制和端到端學(xué)習(xí)，使智能體能夠應(yīng)對(duì)更復(fù)雜的任務(wù)場(chǎng)景。

為了使這兩個(gè)組件順暢協(xié)作，研究人員還設(shè)計(jì)了一個(gè)連接模塊將兩者緊密集成。該模塊基于VLM的輸出為擴(kuò)散模型生成條件，使用指令調(diào)整觀察結(jié)果，創(chuàng)造出更可靠的動(dòng)作生成條件，確保智能體的思考與行動(dòng)保持一致。這就像一個(gè)有經(jīng)驗(yàn)的翻譯，不僅準(zhǔn)確傳遞信息，還會(huì)根據(jù)上下文調(diào)整表達(dá)方式。

獨(dú)特的訓(xùn)練策略

為了使智能體同時(shí)具備對(duì)話能力和動(dòng)作執(zhí)行能力，研究人員設(shè)計(jì)了一種兩階段“知識(shí)隔離”訓(xùn)練策略。

第一階段專注于培養(yǎng)智能體的溝通能力。研究人員使用專門設(shè)計(jì)的歧義解決對(duì)話數(shù)據(jù)對(duì)協(xié)作組件進(jìn)行訓(xùn)練，使智能體學(xué)會(huì)識(shí)別指令中的模糊點(diǎn)，并生成恰當(dāng)?shù)某吻鍐?wèn)題。例如，當(dāng)訓(xùn)練數(shù)據(jù)中包含多個(gè)相似物體時(shí)，智能體學(xué)習(xí)關(guān)注它們之間的區(qū)別性特征，并就此提問(wèn)。

第二階段則專注于動(dòng)作生成能力的培養(yǎng)，同時(shí)通過(guò)“凍結(jié)”協(xié)作組件來(lái)保留已學(xué)會(huì)的對(duì)話能力。這種知識(shí)隔離策略防止了智能體在學(xué)習(xí)新技能時(shí)遺忘已有能力，類似于人類在學(xué)習(xí)新知識(shí)時(shí)不忘記基本溝通技能。

這種訓(xùn)練策略確保了智能體能夠首先通過(guò)多輪對(duì)話澄清指令歧義，然后以端到端的方式生成精確的低級(jí)動(dòng)作。

▍8項(xiàng)任務(wù)全面測(cè)試，“Ask-to-Clarify”框架的表現(xiàn)亮眼

為了驗(yàn)證“Ask-to-Clarify”框架的有效性，研究人員在8個(gè)實(shí)際任務(wù)中對(duì)其進(jìn)行了全面測(cè)試，包括將特定水果放在盤子上、將指定顏色杯子中的水倒入盤子，以及將不同顏色的積木堆疊在一起等任務(wù)。

實(shí)驗(yàn)結(jié)果顯示，在這8項(xiàng)涵蓋日常操作的任務(wù)測(cè)試中，“Ask-to-Clarify”框架表現(xiàn)十分亮眼。該框架在所有任務(wù)中均顯著優(yōu)于當(dāng)前最先進(jìn)的視覺(jué)-語(yǔ)言-動(dòng)作模型（VLA）。例如，在放置水果任務(wù)中，其成功率達(dá)到了95%；倒水任務(wù)中高達(dá)98.3%；即便在較為復(fù)雜的堆疊積木任務(wù)中，也實(shí)現(xiàn)了90%的成功率。

尤為值得注意的是，這些測(cè)試中“Ask-to-Clarify”框架接收的均為模糊指令，需通過(guò)主動(dòng)對(duì)話澄清意圖；而作為對(duì)比的基線模型則直接接收明確指令。即便在這樣的不對(duì)等條件下，該框架依然表現(xiàn)卓越，充分證明了其主動(dòng)協(xié)作機(jī)制在實(shí)際應(yīng)用中的顯著價(jià)值。

為進(jìn)一步驗(yàn)證框架在真實(shí)環(huán)境中的適用性，研究團(tuán)隊(duì)還專門測(cè)試了其在非理想條件下的魯棒性，包括低光照環(huán)境和存在視覺(jué)干擾物的場(chǎng)景。在低光照條件下，傳統(tǒng)模型性能大幅下降，而“Ask-to-Clarify”框架僅受到輕微影響，成功率從90%降至80%，仍保持較高水平；

當(dāng)環(huán)境中存在相似物體干擾時(shí)（例如蘋果與石榴并存），該框架仍能維持80%的成功率，明顯高于傳統(tǒng)模型的65%。這種對(duì)復(fù)雜環(huán)境的強(qiáng)適應(yīng)能力，源于框架設(shè)計(jì)中視覺(jué)編碼器的凍結(jié)策略，使智能體能夠更好地應(yīng)對(duì)視覺(jué)變化，而傳統(tǒng)模型往往因?qū)τ?xùn)練數(shù)據(jù)過(guò)度擬合，難以適應(yīng)現(xiàn)實(shí)世界的多變場(chǎng)景。

▍結(jié)語(yǔ)

“Ask-to-Clarify”框架的提出意味著具身智能體發(fā)展的來(lái)到了嶄新一頁(yè)。它不僅在技術(shù)上實(shí)現(xiàn)了智能體從單向執(zhí)行到雙向協(xié)作的轉(zhuǎn)變，更在理念上重新定義了人機(jī)協(xié)作的可能性。

隨著這項(xiàng)技術(shù)的發(fā)展，我們可以預(yù)見(jiàn)更多能夠與人類自然溝通的智能系統(tǒng)出現(xiàn)在日常生活中。從家庭助手到工業(yè)機(jī)器人，從醫(yī)療護(hù)理到教育培訓(xùn)，具備協(xié)作能力的具身智能體將在各個(gè)領(lǐng)域發(fā)揮重要作用。

然而，這一研究也只是構(gòu)建真正智能協(xié)作系統(tǒng)的起點(diǎn)。未來(lái)研究還需要解決如何在更復(fù)雜的環(huán)境中進(jìn)行有效對(duì)話、如何理解人類的非語(yǔ)言溝通（如手勢(shì)和眼神），以及如何在長(zhǎng)時(shí)間互動(dòng)中維持對(duì)話上下文等挑戰(zhàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.