復(fù)旦大學(xué):讓AI機器人擁有"想象力",規(guī)劃任務(wù)效率提升33%
至頂科技
這項由復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院邱錫鵬教授團隊領(lǐng)導(dǎo)的研究發(fā)表于2025年3月的arXiv預(yù)印本平臺,論文標題為"World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning"。研究團隊還包括來自上海創(chuàng)新研究院、新加坡國立大學(xué)和上海交通大學(xué)的研究人員。有興趣深入了解的讀者可以通過arXiv:2503.10480v1訪問完整論文。
當(dāng)我們讓機器人去廚房拿個蘋果時,聽起來很簡單,但對機器人來說卻是個巨大挑戰(zhàn)。它需要知道先找到蘋果在哪里,然后走過去,伸手去拿,還要避免把其他東西撞倒。更復(fù)雜的是,如果要求機器人"把一個冷蘋果放進冰箱",它就需要理解一系列連續(xù)動作:找蘋果、拿蘋果、找冰箱、打開冰箱、把蘋果放進去、關(guān)上冰箱門。每一步都必須按正確順序進行,就像做菜必須按食譜步驟一樣。
目前的AI機器人在執(zhí)行這類任務(wù)時經(jīng)常出錯,就像一個健忘的助手,可能會先去開冰箱卻忘記拿蘋果,或者重復(fù)做同一個動作。問題的根源在于,這些機器人缺乏對周圍世界的"想象力"——它們不能預(yù)測自己的行動會產(chǎn)生什么后果,就像下棋時只看當(dāng)前一步而不考慮后續(xù)幾步的棋手。
復(fù)旦大學(xué)的研究團隊提出了一個革命性的解決方案:給機器人裝上"想象力"。他們開發(fā)了一套名為"雙重偏好優(yōu)化"(D?PO)的新方法,讓機器人在執(zhí)行動作前先在"腦海"中模擬一遍,預(yù)測每個動作會帶來什么結(jié)果。這就像讓機器人變成了一個會思考的廚師,不僅知道要做什么,還能想象每一步操作后廚房會變成什么樣子。
一、讓機器人學(xué)會"腦內(nèi)彩排"
傳統(tǒng)的機器人訓(xùn)練方法就像教一個學(xué)生背標準答案——遇到情況A就執(zhí)行動作B,遇到情況C就執(zhí)行動作D。但現(xiàn)實世界充滿變數(shù),背答案的方法往往行不通。復(fù)旦團隊的創(chuàng)新之處在于,他們不僅教機器人"該做什么",更重要的是教它"這樣做會發(fā)生什么"。
研究團隊把這個過程比作訓(xùn)練一個優(yōu)秀的象棋選手。優(yōu)秀的棋手不會只看當(dāng)前棋局,而是會在腦海中演練:"如果我走這一步,對手可能會那樣應(yīng)對,然后我可以這樣反擊……"機器人的"雙重偏好優(yōu)化"方法正是基于同樣的思路。
具體來說,這套系統(tǒng)包含兩個相互配合的學(xué)習(xí)過程。第一個過程叫"動作選擇優(yōu)化",教機器人在特定情況下選擇最合適的動作,就像教一個新手廚師學(xué)會在什么時候該切菜、什么時候該開火。第二個過程叫"狀態(tài)預(yù)測優(yōu)化",教機器人預(yù)測每個動作的后果,就像讓廚師能夠想象"如果我現(xiàn)在把這個鍋放到火上,5分鐘后會是什么樣子"。
這兩個過程不是分開進行的,而是同時學(xué)習(xí)、相互促進。當(dāng)機器人預(yù)測動作后果的能力提高時,它選擇動作的能力也會隨之改善。反過來,當(dāng)它學(xué)會做出更好的動作選擇時,對世界的理解也會更加深入。這種相互促進的學(xué)習(xí)模式讓機器人的整體能力實現(xiàn)了顯著提升。
二、通過"試錯游戲"自動收集訓(xùn)練數(shù)據(jù)
傳統(tǒng)的機器人訓(xùn)練需要大量人工標注的數(shù)據(jù),就像需要老師手把手教學(xué)生每一個步驟。這不僅耗時耗力,還限制了訓(xùn)練數(shù)據(jù)的多樣性。復(fù)旦團隊開發(fā)了一套自動化的數(shù)據(jù)收集系統(tǒng),讓機器人通過"試錯游戲"自己學(xué)習(xí)。
這套系統(tǒng)的工作原理類似于探索迷宮的過程。機器人面對一個任務(wù)時,會系統(tǒng)性地嘗試不同的動作路徑,就像在迷宮中探索所有可能的路線。每次嘗試后,系統(tǒng)會評估這條路徑的效果:是否達成了目標?用了多少步?是否有更高效的方法?
評估過程采用了雙重標準。首先是"語義評分",由GPT-4o這樣的大語言模型來判斷每個動作是否符合任務(wù)邏輯,就像有一個智能助教在旁邊指導(dǎo);其次是"環(huán)境可行性評分",檢查這個動作在當(dāng)前環(huán)境中是否真的能夠執(zhí)行,比如不能在沒有蘋果的桌子上"拿蘋果"。
通過這種方式,系統(tǒng)能夠自動生成大量高質(zhì)量的訓(xùn)練樣本。每個成功的任務(wù)執(zhí)行路徑都會被分解成許多個"好選擇"和"壞選擇"的對比樣本。比如,在"把蘋果放進冰箱"的任務(wù)中,"先找蘋果再打開冰箱"就是一個好選擇,而"先打開冰箱再找蘋果"就是一個相對較差的選擇。
這種自動化的數(shù)據(jù)收集方法不僅大大減少了人工工作量,還能產(chǎn)生比人工標注更加豐富多樣的訓(xùn)練數(shù)據(jù)。機器人可以探索人類專家可能沒有想到的動作組合,從而學(xué)到更全面的任務(wù)執(zhí)行策略。
三、建立全新的視覺任務(wù)測試平臺
為了驗證新方法的效果,研究團隊構(gòu)建了一個名為VoTa-Bench的全新測試平臺。這個平臺基于AI2-THOR模擬環(huán)境,就像為機器人搭建了一個虛擬的家庭環(huán)境,包括廚房、客廳、臥室和浴室等場景。
VoTa-Bench的獨特之處在于,它要求機器人完全依靠視覺信息來理解環(huán)境和規(guī)劃動作,就像人類在陌生房間里需要用眼睛觀察一樣。機器人看到的是第一人稱視角的圖像,需要從這些圖像中識別物體、理解空間關(guān)系,然后決定下一步行動。
測試平臺包含六種不同類型的任務(wù),難度遞增。最簡單的是"檢查和照明"任務(wù),比如"用臺燈照亮花瓶然后觀察",平均需要4個步驟。最復(fù)雜的是"加熱和放置"任務(wù),比如"把土豆片加熱后放到餐桌上勺子旁邊",平均需要18個步驟。這些任務(wù)涵蓋了日常生活中常見的各種物品操作場景。
特別值得注意的是,測試平臺不僅包含訓(xùn)練時見過的"熟悉場景",還專門設(shè)計了"陌生場景"來測試機器人的泛化能力。這就像讓一個學(xué)會在自己家做飯的人去朋友家廚房做同樣的菜,考驗的是在新環(huán)境中應(yīng)用已學(xué)知識的能力。
四、實驗結(jié)果證明顯著優(yōu)勢
實驗結(jié)果令人震撼。在熟悉場景的測試中,使用雙重偏好優(yōu)化方法的7B參數(shù)模型在任務(wù)成功率上比傳統(tǒng)方法提高了31.4%,在規(guī)劃效率上提高了33.0%。更令人驚訝的是,這個相對較小的模型甚至超越了GPT-4o的表現(xiàn),盡管GPT-4o在參數(shù)規(guī)模上大得多。
在陌生場景的測試中,新方法同樣表現(xiàn)出色。這證明了機器人不僅能夠在訓(xùn)練環(huán)境中執(zhí)行任務(wù),還能將學(xué)到的知識成功應(yīng)用到全新的環(huán)境中,這種泛化能力對于實際應(yīng)用至關(guān)重要。
研究團隊還進行了詳細的錯誤分析,發(fā)現(xiàn)雙重偏好優(yōu)化方法顯著減少了三種主要錯誤類型。依賴性錯誤(比如沒拿到蘋果就想放進冰箱)從212個減少到141個,交互錯誤(比如用錯誤的方式操作物品)從144個減少到128個,低效錯誤(比如重復(fù)執(zhí)行不必要的動作)從141個減少到78個。
特別有趣的是,研究團隊比較了兩種不同的"想象"方式。一種是"基于動作的想象",機器人在執(zhí)行動作前預(yù)測結(jié)果;另一種是"基于目標的想象",機器人直接從當(dāng)前狀態(tài)想象達成目標后的狀態(tài)。結(jié)果發(fā)現(xiàn),在熟悉環(huán)境中,基于動作的想象效果更好,但在陌生環(huán)境中,基于目標的想象展現(xiàn)出更強的適應(yīng)性。
五、技術(shù)創(chuàng)新的深層意義
這項研究的技術(shù)創(chuàng)新主要體現(xiàn)在幾個方面。首先是"偏好學(xué)習(xí)"思想的巧妙應(yīng)用。傳統(tǒng)方法通常需要明確的獎勵信號來指導(dǎo)學(xué)習(xí),但現(xiàn)實世界中很難定義完美的獎勵函數(shù)。偏好學(xué)習(xí)則通過比較"這樣做更好還是那樣做更好"來進行優(yōu)化,更符合人類的認知方式。
其次是"世界建模"概念的具體實現(xiàn)。讓機器人學(xué)會預(yù)測行動后果聽起來簡單,但在技術(shù)上極具挑戰(zhàn)性。研究團隊巧妙地使用自然語言來描述世界狀態(tài)的變化,比如"蘋果在桌子上,機器人空著手"變成了"蘋果在機器人手中,桌子是空的"。這種方法既充分利用了大語言模型的先驗知識,又保持了足夠的靈活性。
第三個創(chuàng)新是雙重優(yōu)化的協(xié)同設(shè)計。動作選擇和狀態(tài)預(yù)測兩個任務(wù)相互促進,形成了一個良性循環(huán)。當(dāng)機器人更好地理解世界時,它就能做出更好的動作選擇;而當(dāng)它學(xué)會更好的動作選擇時,對世界的理解也會更加深入。
最后是自動化數(shù)據(jù)收集系統(tǒng)的設(shè)計。這套系統(tǒng)不僅解決了訓(xùn)練數(shù)據(jù)稀缺的問題,還能生成比人工標注更加豐富的學(xué)習(xí)樣本。機器人可以探索各種可能的動作序列,從成功和失敗中學(xué)習(xí),就像人類通過反復(fù)練習(xí)掌握技能一樣。
六、實用前景與未來展望
這項研究的實用價值不容小覷。在家庭服務(wù)機器人領(lǐng)域,這種技術(shù)能讓機器人更好地理解和執(zhí)行復(fù)雜的家務(wù)任務(wù)。例如,當(dāng)你要求機器人"準備一頓簡單的晚餐"時,它能理解這需要一系列協(xié)調(diào)的動作:檢查冰箱里有什么食材、決定做什么菜、按正確順序準備食材、控制烹飪過程等等。
在工業(yè)自動化領(lǐng)域,這種"有預(yù)見性"的機器人能更好地處理復(fù)雜的裝配任務(wù)。它們不僅知道要做什么,還能預(yù)測每個步驟的結(jié)果,從而避免錯誤操作導(dǎo)致的生產(chǎn)線停頓。
在醫(yī)療護理領(lǐng)域,具備"想象力"的機器人助手能更安全地協(xié)助醫(yī)護人員。它們能預(yù)測每個動作的后果,避免可能導(dǎo)致危險的操作序列。
當(dāng)然,這項技術(shù)目前還面臨一些挑戰(zhàn)。最主要的是"仿真到現(xiàn)實"的轉(zhuǎn)移問題。雖然在虛擬環(huán)境中表現(xiàn)出色,但現(xiàn)實世界的復(fù)雜性和不確定性仍然是巨大考驗。研究團隊也坦誠地承認了這個局限性,并指出他們設(shè)計的算法具有環(huán)境無關(guān)性,為未來在真實環(huán)境中的應(yīng)用奠定了基礎(chǔ)。
另一個挑戰(zhàn)是計算資源的需求。目前的數(shù)據(jù)收集過程需要GPT-4o作為評判標準,這增加了計算成本。不過,隨著視覺語言模型能力的快速提升,這個問題有望在不久的將來得到解決。
七、對AI發(fā)展的更廣泛影響
這項研究的意義遠超機器人領(lǐng)域本身,它為人工智能的發(fā)展提供了重要啟示。傳統(tǒng)的AI系統(tǒng)往往專注于模式識別和分類任務(wù),而這項研究展示了如何讓AI系統(tǒng)具備"前瞻性思維"的能力。
這種"想象力"不僅適用于物理世界的任務(wù)規(guī)劃,也可能應(yīng)用到其他需要序列決策的領(lǐng)域。比如,在自動駕駛中,車輛不僅需要識別當(dāng)前的交通狀況,還需要預(yù)測其他車輛和行人的行為;在金融投資中,AI系統(tǒng)需要預(yù)測不同投資決策的長期后果。
更深層的啟示是,這項研究展示了如何讓AI系統(tǒng)從"被動響應(yīng)"轉(zhuǎn)向"主動規(guī)劃"。傳統(tǒng)AI更像是一個條件反射系統(tǒng),遇到特定輸入就產(chǎn)生特定輸出。而具備世界建模能力的AI系統(tǒng)更像是一個會思考的代理,能夠權(quán)衡不同選擇的后果,制定更優(yōu)的行動策略。
這種能力的發(fā)展可能推動AI向著更高層次的智能演進。當(dāng)AI系統(tǒng)不僅能夠處理當(dāng)前信息,還能模擬未來可能的情況時,它們就具備了類似人類的規(guī)劃和決策能力。這為實現(xiàn)更通用的人工智能奠定了重要基礎(chǔ)。
說到底,這項研究最吸引人的地方在于它讓冰冷的機器具備了一種近似"直覺"的能力。就像一個有經(jīng)驗的廚師能夠預(yù)見每個烹飪步驟的結(jié)果,這些AI機器人也開始學(xué)會在行動前"想一想"。這不僅提高了它們完成任務(wù)的成功率,更重要的是讓它們的行為變得更加智能和可預(yù)測。當(dāng)然,我們距離真正智能的機器人助手還有很長的路要走,但這項研究無疑為我們指明了一個充滿希望的方向。對于那些關(guān)心AI技術(shù)發(fā)展的讀者,這項研究展現(xiàn)了人工智能正在從簡單的模式匹配向真正的智能規(guī)劃演進的可能性。
Q&A
Q1:什么是"雙重偏好優(yōu)化"?它是如何工作的? A:雙重偏好優(yōu)化是一種新的AI訓(xùn)練方法,包含兩個部分:教AI選擇正確動作,同時教它預(yù)測動作后果。就像訓(xùn)練一個廚師不僅要知道先放什么調(diào)料,還要能想象放了調(diào)料后菜會變成什么味道。這兩種能力相互促進,讓AI變得更聰明。
Q2:這種技術(shù)會不會很快應(yīng)用到家庭機器人中? A:目前還處于實驗室階段,主要在虛擬環(huán)境中測試。要應(yīng)用到真實家庭環(huán)境還需要解決很多技術(shù)挑戰(zhàn),比如處理現(xiàn)實世界的復(fù)雜性和不確定性。不過這項研究為未來的家庭機器人指明了方向,預(yù)計幾年內(nèi)會有更多實際應(yīng)用。
Q3:為什么說這種AI機器人有"想象力"? A:傳統(tǒng)機器人只能對當(dāng)前情況做出反應(yīng),而這種新方法讓機器人能夠在執(zhí)行動作前預(yù)測結(jié)果,就像人類會想象"如果我這樣做會發(fā)生什么"。這種預(yù)測未來狀態(tài)的能力被研究者比作"想象力",讓機器人的行為更加智能和高效。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.