在人與機(jī)器不斷走近的今天,人機(jī)交互卻常常面臨這樣的困境:當(dāng)桌上放著多個(gè)不同杯子時(shí),如果對(duì)設(shè)備說(shuō)“把杯子給我”,它可能會(huì)隨意拿起一個(gè)(但不是那個(gè)最合適的),或者干脆無(wú)法響應(yīng)。這類場(chǎng)景,正反映出當(dāng)前智能系統(tǒng)在理解模糊指令時(shí)的能力局限。
人類之間的交流,往往依賴語(yǔ)境與默契,大量表達(dá)在字面上并不完整。例如我們常說(shuō)“一會(huì)兒提醒我”(具體什么時(shí)間?)、“把空調(diào)開(kāi)大點(diǎn)”(開(kāi)大多少?)、“找個(gè)最近的店”(依據(jù)步行還是駕車?)。對(duì)人而言,這類信息缺口很容易通過(guò)追問(wèn)或推斷來(lái)補(bǔ)全;但對(duì)機(jī)器而言,模糊即意味著無(wú)法執(zhí)行。傳統(tǒng)自動(dòng)化系統(tǒng)往往只能響應(yīng)明確、結(jié)構(gòu)化的指令,而未來(lái)的智能體,必須學(xué)會(huì)在模糊中主動(dòng)溝通,在協(xié)作中完成任務(wù)。
這一挑戰(zhàn)也推動(dòng)著智能體從“被動(dòng)執(zhí)行者”向“主動(dòng)協(xié)作者”的角色轉(zhuǎn)變。具身智能體的發(fā)展目標(biāo),是成為人類在物理世界中的合作伙伴,而非停留在腳本定式的工具。與虛擬環(huán)境中的AI不同,具身智能體必須應(yīng)對(duì)現(xiàn)實(shí)場(chǎng)景的開(kāi)放性與不確定性。無(wú)論是在家庭、工廠還是公共空間中,它們都面臨一個(gè)根本性的新課題:如何與人進(jìn)行高效、自然、雙向的協(xié)同作業(yè)。
近年來(lái),視覺(jué)-語(yǔ)言-動(dòng)作模型(VLA)的發(fā)展為實(shí)現(xiàn)這一目標(biāo)帶來(lái)了新的希望。這些模型能夠?qū)C(jī)器人的視覺(jué)觀察與語(yǔ)言指令聯(lián)系起來(lái),并生成相應(yīng)的動(dòng)作。然而,目前大多數(shù)基于VLA的具身智能體仍以簡(jiǎn)單的單向模式運(yùn)行:接收指令,立即執(zhí)行,不需要任何反饋或澄清。這種被動(dòng)模式在指令明確時(shí)可能有效,但在面對(duì)現(xiàn)實(shí)中常見(jiàn)的模糊指令時(shí)就會(huì)顯得力不從心。
▍“Ask-to-Clarify”詢問(wèn)澄清框架的創(chuàng)新突破
為了解決這一核心挑戰(zhàn),來(lái)自復(fù)旦大學(xué)的研究團(tuán)隊(duì)提出了“詢問(wèn)澄清”(Ask-to-Clarify)框架,通過(guò)多輪對(duì)話澄清歧義后,端到端生成低級(jí)動(dòng)作,實(shí)現(xiàn)具身智能體從“被動(dòng)執(zhí)行者” 到 “主動(dòng)協(xié)作者” 的轉(zhuǎn)型,為真實(shí)人機(jī)協(xié)作提供新路徑。
具體來(lái)說(shuō),該框架的運(yùn)作模式類似于人與人之間的協(xié)作:當(dāng)接收到模糊指令時(shí),智能體會(huì)通過(guò)多輪對(duì)話提出澄清問(wèn)題,逐步明確任務(wù)要求,只有在完全理解指令后才會(huì)執(zhí)行相應(yīng)的低級(jí)動(dòng)作。這種雙向交互模式使智能體能夠從模糊指令中推斷出用戶的真實(shí)意圖,大大提高了任務(wù)執(zhí)行的準(zhǔn)確性。
框架的核心組成
“Ask-to-Clarify”框架由兩個(gè)關(guān)鍵組件組成:負(fù)責(zé)協(xié)作的視覺(jué)-語(yǔ)言模型(VLM)和專門生成動(dòng)作的擴(kuò)散模型。
視覺(jué)-語(yǔ)言模型負(fù)責(zé)理解視覺(jué)場(chǎng)景和語(yǔ)言指令,并在需要時(shí)生成澄清問(wèn)題。例如,當(dāng)看到多個(gè)杯子時(shí),VLM會(huì)分析場(chǎng)景中的物體屬性(顏色、形狀、位置等),并確定需要澄清的信息點(diǎn)。
擴(kuò)散模型則充當(dāng)智能體的“肢體控制系統(tǒng)”,負(fù)責(zé)生成實(shí)現(xiàn)任務(wù)所需的連續(xù)、流暢的低級(jí)動(dòng)作。與依賴“拿起物體”、“向右移動(dòng)”等高級(jí)指令的系統(tǒng)不同,低級(jí)動(dòng)作允許直接控制和端到端學(xué)習(xí),使智能體能夠應(yīng)對(duì)更復(fù)雜的任務(wù)場(chǎng)景。
為了使這兩個(gè)組件順暢協(xié)作,研究人員還設(shè)計(jì)了一個(gè)連接模塊將兩者緊密集成。該模塊基于VLM的輸出為擴(kuò)散模型生成條件,使用指令調(diào)整觀察結(jié)果,創(chuàng)造出更可靠的動(dòng)作生成條件,確保智能體的思考與行動(dòng)保持一致。這就像一個(gè)有經(jīng)驗(yàn)的翻譯,不僅準(zhǔn)確傳遞信息,還會(huì)根據(jù)上下文調(diào)整表達(dá)方式。
獨(dú)特的訓(xùn)練策略
為了使智能體同時(shí)具備對(duì)話能力和動(dòng)作執(zhí)行能力,研究人員設(shè)計(jì)了一種兩階段“知識(shí)隔離”訓(xùn)練策略。
第一階段專注于培養(yǎng)智能體的溝通能力。研究人員使用專門設(shè)計(jì)的歧義解決對(duì)話數(shù)據(jù)對(duì)協(xié)作組件進(jìn)行訓(xùn)練,使智能體學(xué)會(huì)識(shí)別指令中的模糊點(diǎn),并生成恰當(dāng)?shù)某吻鍐?wèn)題。例如,當(dāng)訓(xùn)練數(shù)據(jù)中包含多個(gè)相似物體時(shí),智能體學(xué)習(xí)關(guān)注它們之間的區(qū)別性特征,并就此提問(wèn)。
第二階段則專注于動(dòng)作生成能力的培養(yǎng),同時(shí)通過(guò)“凍結(jié)”協(xié)作組件來(lái)保留已學(xué)會(huì)的對(duì)話能力。這種知識(shí)隔離策略防止了智能體在學(xué)習(xí)新技能時(shí)遺忘已有能力,類似于人類在學(xué)習(xí)新知識(shí)時(shí)不忘記基本溝通技能。
這種訓(xùn)練策略確保了智能體能夠首先通過(guò)多輪對(duì)話澄清指令歧義,然后以端到端的方式生成精確的低級(jí)動(dòng)作。
▍8項(xiàng)任務(wù)全面測(cè)試,“Ask-to-Clarify”框架的表現(xiàn)亮眼
為了驗(yàn)證“Ask-to-Clarify”框架的有效性,研究人員在8個(gè)實(shí)際任務(wù)中對(duì)其進(jìn)行了全面測(cè)試,包括將特定水果放在盤子上、將指定顏色杯子中的水倒入盤子,以及將不同顏色的積木堆疊在一起等任務(wù)。
實(shí)驗(yàn)結(jié)果顯示,在這8項(xiàng)涵蓋日常操作的任務(wù)測(cè)試中,“Ask-to-Clarify”框架表現(xiàn)十分亮眼。該框架在所有任務(wù)中均顯著優(yōu)于當(dāng)前最先進(jìn)的視覺(jué)-語(yǔ)言-動(dòng)作模型(VLA)。例如,在放置水果任務(wù)中,其成功率達(dá)到了95%;倒水任務(wù)中高達(dá)98.3%;即便在較為復(fù)雜的堆疊積木任務(wù)中,也實(shí)現(xiàn)了90%的成功率。
尤為值得注意的是,這些測(cè)試中“Ask-to-Clarify”框架接收的均為模糊指令,需通過(guò)主動(dòng)對(duì)話澄清意圖;而作為對(duì)比的基線模型則直接接收明確指令。即便在這樣的不對(duì)等條件下,該框架依然表現(xiàn)卓越,充分證明了其主動(dòng)協(xié)作機(jī)制在實(shí)際應(yīng)用中的顯著價(jià)值。
為進(jìn)一步驗(yàn)證框架在真實(shí)環(huán)境中的適用性,研究團(tuán)隊(duì)還專門測(cè)試了其在非理想條件下的魯棒性,包括低光照環(huán)境和存在視覺(jué)干擾物的場(chǎng)景。在低光照條件下,傳統(tǒng)模型性能大幅下降,而“Ask-to-Clarify”框架僅受到輕微影響,成功率從90%降至80%,仍保持較高水平;
當(dāng)環(huán)境中存在相似物體干擾時(shí)(例如蘋果與石榴并存),該框架仍能維持80%的成功率,明顯高于傳統(tǒng)模型的65%。這種對(duì)復(fù)雜環(huán)境的強(qiáng)適應(yīng)能力,源于框架設(shè)計(jì)中視覺(jué)編碼器的凍結(jié)策略,使智能體能夠更好地應(yīng)對(duì)視覺(jué)變化,而傳統(tǒng)模型往往因?qū)τ?xùn)練數(shù)據(jù)過(guò)度擬合,難以適應(yīng)現(xiàn)實(shí)世界的多變場(chǎng)景。
▍結(jié)語(yǔ)
“Ask-to-Clarify”框架的提出意味著具身智能體發(fā)展的來(lái)到了嶄新一頁(yè)。它不僅在技術(shù)上實(shí)現(xiàn)了智能體從單向執(zhí)行到雙向協(xié)作的轉(zhuǎn)變,更在理念上重新定義了人機(jī)協(xié)作的可能性。
隨著這項(xiàng)技術(shù)的發(fā)展,我們可以預(yù)見(jiàn)更多能夠與人類自然溝通的智能系統(tǒng)出現(xiàn)在日常生活中。從家庭助手到工業(yè)機(jī)器人,從醫(yī)療護(hù)理到教育培訓(xùn),具備協(xié)作能力的具身智能體將在各個(gè)領(lǐng)域發(fā)揮重要作用。
然而,這一研究也只是構(gòu)建真正智能協(xié)作系統(tǒng)的起點(diǎn)。未來(lái)研究還需要解決如何在更復(fù)雜的環(huán)境中進(jìn)行有效對(duì)話、如何理解人類的非語(yǔ)言溝通(如手勢(shì)和眼神),以及如何在長(zhǎng)時(shí)間互動(dòng)中維持對(duì)話上下文等挑戰(zhàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.