復(fù)旦大學(xué)：讓AI機器人擁有"想象力"，規(guī)劃任務(wù)效率提升33%

2025-08-01 17:47:28　來源: 至頂頭條

北京舉報

分享至

至頂科技

這項由復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院邱錫鵬教授團隊領(lǐng)導(dǎo)的研究發(fā)表于2025年3月的arXiv預(yù)印本平臺，論文標題為"World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning"。研究團隊還包括來自上海創(chuàng)新研究院、新加坡國立大學(xué)和上海交通大學(xué)的研究人員。有興趣深入了解的讀者可以通過arXiv:2503.10480v1訪問完整論文。

當(dāng)我們讓機器人去廚房拿個蘋果時，聽起來很簡單，但對機器人來說卻是個巨大挑戰(zhàn)。它需要知道先找到蘋果在哪里，然后走過去，伸手去拿，還要避免把其他東西撞倒。更復(fù)雜的是，如果要求機器人"把一個冷蘋果放進冰箱"，它就需要理解一系列連續(xù)動作：找蘋果、拿蘋果、找冰箱、打開冰箱、把蘋果放進去、關(guān)上冰箱門。每一步都必須按正確順序進行，就像做菜必須按食譜步驟一樣。

目前的AI機器人在執(zhí)行這類任務(wù)時經(jīng)常出錯，就像一個健忘的助手，可能會先去開冰箱卻忘記拿蘋果，或者重復(fù)做同一個動作。問題的根源在于，這些機器人缺乏對周圍世界的"想象力"——它們不能預(yù)測自己的行動會產(chǎn)生什么后果，就像下棋時只看當(dāng)前一步而不考慮后續(xù)幾步的棋手。

復(fù)旦大學(xué)的研究團隊提出了一個革命性的解決方案：給機器人裝上"想象力"。他們開發(fā)了一套名為"雙重偏好優(yōu)化"（D?PO）的新方法，讓機器人在執(zhí)行動作前先在"腦海"中模擬一遍，預(yù)測每個動作會帶來什么結(jié)果。這就像讓機器人變成了一個會思考的廚師，不僅知道要做什么，還能想象每一步操作后廚房會變成什么樣子。

一、讓機器人學(xué)會"腦內(nèi)彩排"

傳統(tǒng)的機器人訓(xùn)練方法就像教一個學(xué)生背標準答案——遇到情況A就執(zhí)行動作B，遇到情況C就執(zhí)行動作D。但現(xiàn)實世界充滿變數(shù)，背答案的方法往往行不通。復(fù)旦團隊的創(chuàng)新之處在于，他們不僅教機器人"該做什么"，更重要的是教它"這樣做會發(fā)生什么"。

研究團隊把這個過程比作訓(xùn)練一個優(yōu)秀的象棋選手。優(yōu)秀的棋手不會只看當(dāng)前棋局，而是會在腦海中演練："如果我走這一步，對手可能會那樣應(yīng)對，然后我可以這樣反擊……"機器人的"雙重偏好優(yōu)化"方法正是基于同樣的思路。

具體來說，這套系統(tǒng)包含兩個相互配合的學(xué)習(xí)過程。第一個過程叫"動作選擇優(yōu)化"，教機器人在特定情況下選擇最合適的動作，就像教一個新手廚師學(xué)會在什么時候該切菜、什么時候該開火。第二個過程叫"狀態(tài)預(yù)測優(yōu)化"，教機器人預(yù)測每個動作的后果，就像讓廚師能夠想象"如果我現(xiàn)在把這個鍋放到火上，5分鐘后會是什么樣子"。

這兩個過程不是分開進行的，而是同時學(xué)習(xí)、相互促進。當(dāng)機器人預(yù)測動作后果的能力提高時，它選擇動作的能力也會隨之改善。反過來，當(dāng)它學(xué)會做出更好的動作選擇時，對世界的理解也會更加深入。這種相互促進的學(xué)習(xí)模式讓機器人的整體能力實現(xiàn)了顯著提升。

二、通過"試錯游戲"自動收集訓(xùn)練數(shù)據(jù)

傳統(tǒng)的機器人訓(xùn)練需要大量人工標注的數(shù)據(jù)，就像需要老師手把手教學(xué)生每一個步驟。這不僅耗時耗力，還限制了訓(xùn)練數(shù)據(jù)的多樣性。復(fù)旦團隊開發(fā)了一套自動化的數(shù)據(jù)收集系統(tǒng)，讓機器人通過"試錯游戲"自己學(xué)習(xí)。

這套系統(tǒng)的工作原理類似于探索迷宮的過程。機器人面對一個任務(wù)時，會系統(tǒng)性地嘗試不同的動作路徑，就像在迷宮中探索所有可能的路線。每次嘗試后，系統(tǒng)會評估這條路徑的效果：是否達成了目標？用了多少步？是否有更高效的方法？

評估過程采用了雙重標準。首先是"語義評分"，由GPT-4o這樣的大語言模型來判斷每個動作是否符合任務(wù)邏輯，就像有一個智能助教在旁邊指導(dǎo)；其次是"環(huán)境可行性評分"，檢查這個動作在當(dāng)前環(huán)境中是否真的能夠執(zhí)行，比如不能在沒有蘋果的桌子上"拿蘋果"。

通過這種方式，系統(tǒng)能夠自動生成大量高質(zhì)量的訓(xùn)練樣本。每個成功的任務(wù)執(zhí)行路徑都會被分解成許多個"好選擇"和"壞選擇"的對比樣本。比如，在"把蘋果放進冰箱"的任務(wù)中，"先找蘋果再打開冰箱"就是一個好選擇，而"先打開冰箱再找蘋果"就是一個相對較差的選擇。

這種自動化的數(shù)據(jù)收集方法不僅大大減少了人工工作量，還能產(chǎn)生比人工標注更加豐富多樣的訓(xùn)練數(shù)據(jù)。機器人可以探索人類專家可能沒有想到的動作組合，從而學(xué)到更全面的任務(wù)執(zhí)行策略。

三、建立全新的視覺任務(wù)測試平臺

為了驗證新方法的效果，研究團隊構(gòu)建了一個名為VoTa-Bench的全新測試平臺。這個平臺基于AI2-THOR模擬環(huán)境，就像為機器人搭建了一個虛擬的家庭環(huán)境，包括廚房、客廳、臥室和浴室等場景。

VoTa-Bench的獨特之處在于，它要求機器人完全依靠視覺信息來理解環(huán)境和規(guī)劃動作，就像人類在陌生房間里需要用眼睛觀察一樣。機器人看到的是第一人稱視角的圖像，需要從這些圖像中識別物體、理解空間關(guān)系，然后決定下一步行動。

測試平臺包含六種不同類型的任務(wù)，難度遞增。最簡單的是"檢查和照明"任務(wù)，比如"用臺燈照亮花瓶然后觀察"，平均需要4個步驟。最復(fù)雜的是"加熱和放置"任務(wù)，比如"把土豆片加熱后放到餐桌上勺子旁邊"，平均需要18個步驟。這些任務(wù)涵蓋了日常生活中常見的各種物品操作場景。

特別值得注意的是，測試平臺不僅包含訓(xùn)練時見過的"熟悉場景"，還專門設(shè)計了"陌生場景"來測試機器人的泛化能力。這就像讓一個學(xué)會在自己家做飯的人去朋友家廚房做同樣的菜，考驗的是在新環(huán)境中應(yīng)用已學(xué)知識的能力。

四、實驗結(jié)果證明顯著優(yōu)勢

實驗結(jié)果令人震撼。在熟悉場景的測試中，使用雙重偏好優(yōu)化方法的7B參數(shù)模型在任務(wù)成功率上比傳統(tǒng)方法提高了31.4%，在規(guī)劃效率上提高了33.0%。更令人驚訝的是，這個相對較小的模型甚至超越了GPT-4o的表現(xiàn)，盡管GPT-4o在參數(shù)規(guī)模上大得多。

在陌生場景的測試中，新方法同樣表現(xiàn)出色。這證明了機器人不僅能夠在訓(xùn)練環(huán)境中執(zhí)行任務(wù)，還能將學(xué)到的知識成功應(yīng)用到全新的環(huán)境中，這種泛化能力對于實際應(yīng)用至關(guān)重要。

研究團隊還進行了詳細的錯誤分析，發(fā)現(xiàn)雙重偏好優(yōu)化方法顯著減少了三種主要錯誤類型。依賴性錯誤（比如沒拿到蘋果就想放進冰箱）從212個減少到141個，交互錯誤（比如用錯誤的方式操作物品）從144個減少到128個，低效錯誤（比如重復(fù)執(zhí)行不必要的動作）從141個減少到78個。

特別有趣的是，研究團隊比較了兩種不同的"想象"方式。一種是"基于動作的想象"，機器人在執(zhí)行動作前預(yù)測結(jié)果；另一種是"基于目標的想象"，機器人直接從當(dāng)前狀態(tài)想象達成目標后的狀態(tài)。結(jié)果發(fā)現(xiàn)，在熟悉環(huán)境中，基于動作的想象效果更好，但在陌生環(huán)境中，基于目標的想象展現(xiàn)出更強的適應(yīng)性。

五、技術(shù)創(chuàng)新的深層意義

這項研究的技術(shù)創(chuàng)新主要體現(xiàn)在幾個方面。首先是"偏好學(xué)習(xí)"思想的巧妙應(yīng)用。傳統(tǒng)方法通常需要明確的獎勵信號來指導(dǎo)學(xué)習(xí)，但現(xiàn)實世界中很難定義完美的獎勵函數(shù)。偏好學(xué)習(xí)則通過比較"這樣做更好還是那樣做更好"來進行優(yōu)化，更符合人類的認知方式。

其次是"世界建模"概念的具體實現(xiàn)。讓機器人學(xué)會預(yù)測行動后果聽起來簡單，但在技術(shù)上極具挑戰(zhàn)性。研究團隊巧妙地使用自然語言來描述世界狀態(tài)的變化，比如"蘋果在桌子上，機器人空著手"變成了"蘋果在機器人手中，桌子是空的"。這種方法既充分利用了大語言模型的先驗知識，又保持了足夠的靈活性。

第三個創(chuàng)新是雙重優(yōu)化的協(xié)同設(shè)計。動作選擇和狀態(tài)預(yù)測兩個任務(wù)相互促進，形成了一個良性循環(huán)。當(dāng)機器人更好地理解世界時，它就能做出更好的動作選擇；而當(dāng)它學(xué)會更好的動作選擇時，對世界的理解也會更加深入。

最后是自動化數(shù)據(jù)收集系統(tǒng)的設(shè)計。這套系統(tǒng)不僅解決了訓(xùn)練數(shù)據(jù)稀缺的問題，還能生成比人工標注更加豐富的學(xué)習(xí)樣本。機器人可以探索各種可能的動作序列，從成功和失敗中學(xué)習(xí)，就像人類通過反復(fù)練習(xí)掌握技能一樣。

六、實用前景與未來展望

這項研究的實用價值不容小覷。在家庭服務(wù)機器人領(lǐng)域，這種技術(shù)能讓機器人更好地理解和執(zhí)行復(fù)雜的家務(wù)任務(wù)。例如，當(dāng)你要求機器人"準備一頓簡單的晚餐"時，它能理解這需要一系列協(xié)調(diào)的動作：檢查冰箱里有什么食材、決定做什么菜、按正確順序準備食材、控制烹飪過程等等。

在工業(yè)自動化領(lǐng)域，這種"有預(yù)見性"的機器人能更好地處理復(fù)雜的裝配任務(wù)。它們不僅知道要做什么，還能預(yù)測每個步驟的結(jié)果，從而避免錯誤操作導(dǎo)致的生產(chǎn)線停頓。

在醫(yī)療護理領(lǐng)域，具備"想象力"的機器人助手能更安全地協(xié)助醫(yī)護人員。它們能預(yù)測每個動作的后果，避免可能導(dǎo)致危險的操作序列。

當(dāng)然，這項技術(shù)目前還面臨一些挑戰(zhàn)。最主要的是"仿真到現(xiàn)實"的轉(zhuǎn)移問題。雖然在虛擬環(huán)境中表現(xiàn)出色，但現(xiàn)實世界的復(fù)雜性和不確定性仍然是巨大考驗。研究團隊也坦誠地承認了這個局限性，并指出他們設(shè)計的算法具有環(huán)境無關(guān)性，為未來在真實環(huán)境中的應(yīng)用奠定了基礎(chǔ)。

另一個挑戰(zhàn)是計算資源的需求。目前的數(shù)據(jù)收集過程需要GPT-4o作為評判標準，這增加了計算成本。不過，隨著視覺語言模型能力的快速提升，這個問題有望在不久的將來得到解決。

七、對AI發(fā)展的更廣泛影響

這項研究的意義遠超機器人領(lǐng)域本身，它為人工智能的發(fā)展提供了重要啟示。傳統(tǒng)的AI系統(tǒng)往往專注于模式識別和分類任務(wù)，而這項研究展示了如何讓AI系統(tǒng)具備"前瞻性思維"的能力。

這種"想象力"不僅適用于物理世界的任務(wù)規(guī)劃，也可能應(yīng)用到其他需要序列決策的領(lǐng)域。比如，在自動駕駛中，車輛不僅需要識別當(dāng)前的交通狀況，還需要預(yù)測其他車輛和行人的行為；在金融投資中，AI系統(tǒng)需要預(yù)測不同投資決策的長期后果。

更深層的啟示是，這項研究展示了如何讓AI系統(tǒng)從"被動響應(yīng)"轉(zhuǎn)向"主動規(guī)劃"。傳統(tǒng)AI更像是一個條件反射系統(tǒng)，遇到特定輸入就產(chǎn)生特定輸出。而具備世界建模能力的AI系統(tǒng)更像是一個會思考的代理，能夠權(quán)衡不同選擇的后果，制定更優(yōu)的行動策略。

這種能力的發(fā)展可能推動AI向著更高層次的智能演進。當(dāng)AI系統(tǒng)不僅能夠處理當(dāng)前信息，還能模擬未來可能的情況時，它們就具備了類似人類的規(guī)劃和決策能力。這為實現(xiàn)更通用的人工智能奠定了重要基礎(chǔ)。

說到底，這項研究最吸引人的地方在于它讓冰冷的機器具備了一種近似"直覺"的能力。就像一個有經(jīng)驗的廚師能夠預(yù)見每個烹飪步驟的結(jié)果，這些AI機器人也開始學(xué)會在行動前"想一想"。這不僅提高了它們完成任務(wù)的成功率，更重要的是讓它們的行為變得更加智能和可預(yù)測。當(dāng)然，我們距離真正智能的機器人助手還有很長的路要走，但這項研究無疑為我們指明了一個充滿希望的方向。對于那些關(guān)心AI技術(shù)發(fā)展的讀者，這項研究展現(xiàn)了人工智能正在從簡單的模式匹配向真正的智能規(guī)劃演進的可能性。

Q&A

Q1：什么是"雙重偏好優(yōu)化"？它是如何工作的？ A：雙重偏好優(yōu)化是一種新的AI訓(xùn)練方法，包含兩個部分：教AI選擇正確動作，同時教它預(yù)測動作后果。就像訓(xùn)練一個廚師不僅要知道先放什么調(diào)料，還要能想象放了調(diào)料后菜會變成什么味道。這兩種能力相互促進，讓AI變得更聰明。

Q2：這種技術(shù)會不會很快應(yīng)用到家庭機器人中？ A：目前還處于實驗室階段，主要在虛擬環(huán)境中測試。要應(yīng)用到真實家庭環(huán)境還需要解決很多技術(shù)挑戰(zhàn)，比如處理現(xiàn)實世界的復(fù)雜性和不確定性。不過這項研究為未來的家庭機器人指明了方向，預(yù)計幾年內(nèi)會有更多實際應(yīng)用。

Q3：為什么說這種AI機器人有"想象力"？ A：傳統(tǒng)機器人只能對當(dāng)前情況做出反應(yīng)，而這種新方法讓機器人能夠在執(zhí)行動作前預(yù)測結(jié)果，就像人類會想象"如果我這樣做會發(fā)生什么"。這種預(yù)測未來狀態(tài)的能力被研究者比作"想象力"，讓機器人的行為更加智能和高效。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.