夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

復(fù)旦大學(xué):讓AI機器人擁有"想象力",規(guī)劃任務(wù)效率提升33%

0
分享至

復(fù)旦大學(xué):讓AI機器人擁有"想象力",規(guī)劃任務(wù)效率提升33%

至頂科技


這項由復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院邱錫鵬教授團隊領(lǐng)導(dǎo)的研究發(fā)表于2025年3月的arXiv預(yù)印本平臺,論文標題為"World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning"。研究團隊還包括來自上海創(chuàng)新研究院、新加坡國立大學(xué)和上海交通大學(xué)的研究人員。有興趣深入了解的讀者可以通過arXiv:2503.10480v1訪問完整論文。

當(dāng)我們讓機器人去廚房拿個蘋果時,聽起來很簡單,但對機器人來說卻是個巨大挑戰(zhàn)。它需要知道先找到蘋果在哪里,然后走過去,伸手去拿,還要避免把其他東西撞倒。更復(fù)雜的是,如果要求機器人"把一個冷蘋果放進冰箱",它就需要理解一系列連續(xù)動作:找蘋果、拿蘋果、找冰箱、打開冰箱、把蘋果放進去、關(guān)上冰箱門。每一步都必須按正確順序進行,就像做菜必須按食譜步驟一樣。

目前的AI機器人在執(zhí)行這類任務(wù)時經(jīng)常出錯,就像一個健忘的助手,可能會先去開冰箱卻忘記拿蘋果,或者重復(fù)做同一個動作。問題的根源在于,這些機器人缺乏對周圍世界的"想象力"——它們不能預(yù)測自己的行動會產(chǎn)生什么后果,就像下棋時只看當(dāng)前一步而不考慮后續(xù)幾步的棋手。

復(fù)旦大學(xué)的研究團隊提出了一個革命性的解決方案:給機器人裝上"想象力"。他們開發(fā)了一套名為"雙重偏好優(yōu)化"(D?PO)的新方法,讓機器人在執(zhí)行動作前先在"腦海"中模擬一遍,預(yù)測每個動作會帶來什么結(jié)果。這就像讓機器人變成了一個會思考的廚師,不僅知道要做什么,還能想象每一步操作后廚房會變成什么樣子。

一、讓機器人學(xué)會"腦內(nèi)彩排"

傳統(tǒng)的機器人訓(xùn)練方法就像教一個學(xué)生背標準答案——遇到情況A就執(zhí)行動作B,遇到情況C就執(zhí)行動作D。但現(xiàn)實世界充滿變數(shù),背答案的方法往往行不通。復(fù)旦團隊的創(chuàng)新之處在于,他們不僅教機器人"該做什么",更重要的是教它"這樣做會發(fā)生什么"。

研究團隊把這個過程比作訓(xùn)練一個優(yōu)秀的象棋選手。優(yōu)秀的棋手不會只看當(dāng)前棋局,而是會在腦海中演練:"如果我走這一步,對手可能會那樣應(yīng)對,然后我可以這樣反擊……"機器人的"雙重偏好優(yōu)化"方法正是基于同樣的思路。

具體來說,這套系統(tǒng)包含兩個相互配合的學(xué)習(xí)過程。第一個過程叫"動作選擇優(yōu)化",教機器人在特定情況下選擇最合適的動作,就像教一個新手廚師學(xué)會在什么時候該切菜、什么時候該開火。第二個過程叫"狀態(tài)預(yù)測優(yōu)化",教機器人預(yù)測每個動作的后果,就像讓廚師能夠想象"如果我現(xiàn)在把這個鍋放到火上,5分鐘后會是什么樣子"。

這兩個過程不是分開進行的,而是同時學(xué)習(xí)、相互促進。當(dāng)機器人預(yù)測動作后果的能力提高時,它選擇動作的能力也會隨之改善。反過來,當(dāng)它學(xué)會做出更好的動作選擇時,對世界的理解也會更加深入。這種相互促進的學(xué)習(xí)模式讓機器人的整體能力實現(xiàn)了顯著提升。

二、通過"試錯游戲"自動收集訓(xùn)練數(shù)據(jù)

傳統(tǒng)的機器人訓(xùn)練需要大量人工標注的數(shù)據(jù),就像需要老師手把手教學(xué)生每一個步驟。這不僅耗時耗力,還限制了訓(xùn)練數(shù)據(jù)的多樣性。復(fù)旦團隊開發(fā)了一套自動化的數(shù)據(jù)收集系統(tǒng),讓機器人通過"試錯游戲"自己學(xué)習(xí)。

這套系統(tǒng)的工作原理類似于探索迷宮的過程。機器人面對一個任務(wù)時,會系統(tǒng)性地嘗試不同的動作路徑,就像在迷宮中探索所有可能的路線。每次嘗試后,系統(tǒng)會評估這條路徑的效果:是否達成了目標?用了多少步?是否有更高效的方法?

評估過程采用了雙重標準。首先是"語義評分",由GPT-4o這樣的大語言模型來判斷每個動作是否符合任務(wù)邏輯,就像有一個智能助教在旁邊指導(dǎo);其次是"環(huán)境可行性評分",檢查這個動作在當(dāng)前環(huán)境中是否真的能夠執(zhí)行,比如不能在沒有蘋果的桌子上"拿蘋果"。

通過這種方式,系統(tǒng)能夠自動生成大量高質(zhì)量的訓(xùn)練樣本。每個成功的任務(wù)執(zhí)行路徑都會被分解成許多個"好選擇"和"壞選擇"的對比樣本。比如,在"把蘋果放進冰箱"的任務(wù)中,"先找蘋果再打開冰箱"就是一個好選擇,而"先打開冰箱再找蘋果"就是一個相對較差的選擇。

這種自動化的數(shù)據(jù)收集方法不僅大大減少了人工工作量,還能產(chǎn)生比人工標注更加豐富多樣的訓(xùn)練數(shù)據(jù)。機器人可以探索人類專家可能沒有想到的動作組合,從而學(xué)到更全面的任務(wù)執(zhí)行策略。

三、建立全新的視覺任務(wù)測試平臺

為了驗證新方法的效果,研究團隊構(gòu)建了一個名為VoTa-Bench的全新測試平臺。這個平臺基于AI2-THOR模擬環(huán)境,就像為機器人搭建了一個虛擬的家庭環(huán)境,包括廚房、客廳、臥室和浴室等場景。

VoTa-Bench的獨特之處在于,它要求機器人完全依靠視覺信息來理解環(huán)境和規(guī)劃動作,就像人類在陌生房間里需要用眼睛觀察一樣。機器人看到的是第一人稱視角的圖像,需要從這些圖像中識別物體、理解空間關(guān)系,然后決定下一步行動。

測試平臺包含六種不同類型的任務(wù),難度遞增。最簡單的是"檢查和照明"任務(wù),比如"用臺燈照亮花瓶然后觀察",平均需要4個步驟。最復(fù)雜的是"加熱和放置"任務(wù),比如"把土豆片加熱后放到餐桌上勺子旁邊",平均需要18個步驟。這些任務(wù)涵蓋了日常生活中常見的各種物品操作場景。

特別值得注意的是,測試平臺不僅包含訓(xùn)練時見過的"熟悉場景",還專門設(shè)計了"陌生場景"來測試機器人的泛化能力。這就像讓一個學(xué)會在自己家做飯的人去朋友家廚房做同樣的菜,考驗的是在新環(huán)境中應(yīng)用已學(xué)知識的能力。

四、實驗結(jié)果證明顯著優(yōu)勢

實驗結(jié)果令人震撼。在熟悉場景的測試中,使用雙重偏好優(yōu)化方法的7B參數(shù)模型在任務(wù)成功率上比傳統(tǒng)方法提高了31.4%,在規(guī)劃效率上提高了33.0%。更令人驚訝的是,這個相對較小的模型甚至超越了GPT-4o的表現(xiàn),盡管GPT-4o在參數(shù)規(guī)模上大得多。

在陌生場景的測試中,新方法同樣表現(xiàn)出色。這證明了機器人不僅能夠在訓(xùn)練環(huán)境中執(zhí)行任務(wù),還能將學(xué)到的知識成功應(yīng)用到全新的環(huán)境中,這種泛化能力對于實際應(yīng)用至關(guān)重要。

研究團隊還進行了詳細的錯誤分析,發(fā)現(xiàn)雙重偏好優(yōu)化方法顯著減少了三種主要錯誤類型。依賴性錯誤(比如沒拿到蘋果就想放進冰箱)從212個減少到141個,交互錯誤(比如用錯誤的方式操作物品)從144個減少到128個,低效錯誤(比如重復(fù)執(zhí)行不必要的動作)從141個減少到78個。

特別有趣的是,研究團隊比較了兩種不同的"想象"方式。一種是"基于動作的想象",機器人在執(zhí)行動作前預(yù)測結(jié)果;另一種是"基于目標的想象",機器人直接從當(dāng)前狀態(tài)想象達成目標后的狀態(tài)。結(jié)果發(fā)現(xiàn),在熟悉環(huán)境中,基于動作的想象效果更好,但在陌生環(huán)境中,基于目標的想象展現(xiàn)出更強的適應(yīng)性。

五、技術(shù)創(chuàng)新的深層意義

這項研究的技術(shù)創(chuàng)新主要體現(xiàn)在幾個方面。首先是"偏好學(xué)習(xí)"思想的巧妙應(yīng)用。傳統(tǒng)方法通常需要明確的獎勵信號來指導(dǎo)學(xué)習(xí),但現(xiàn)實世界中很難定義完美的獎勵函數(shù)。偏好學(xué)習(xí)則通過比較"這樣做更好還是那樣做更好"來進行優(yōu)化,更符合人類的認知方式。

其次是"世界建模"概念的具體實現(xiàn)。讓機器人學(xué)會預(yù)測行動后果聽起來簡單,但在技術(shù)上極具挑戰(zhàn)性。研究團隊巧妙地使用自然語言來描述世界狀態(tài)的變化,比如"蘋果在桌子上,機器人空著手"變成了"蘋果在機器人手中,桌子是空的"。這種方法既充分利用了大語言模型的先驗知識,又保持了足夠的靈活性。

第三個創(chuàng)新是雙重優(yōu)化的協(xié)同設(shè)計。動作選擇和狀態(tài)預(yù)測兩個任務(wù)相互促進,形成了一個良性循環(huán)。當(dāng)機器人更好地理解世界時,它就能做出更好的動作選擇;而當(dāng)它學(xué)會更好的動作選擇時,對世界的理解也會更加深入。

最后是自動化數(shù)據(jù)收集系統(tǒng)的設(shè)計。這套系統(tǒng)不僅解決了訓(xùn)練數(shù)據(jù)稀缺的問題,還能生成比人工標注更加豐富的學(xué)習(xí)樣本。機器人可以探索各種可能的動作序列,從成功和失敗中學(xué)習(xí),就像人類通過反復(fù)練習(xí)掌握技能一樣。

六、實用前景與未來展望

這項研究的實用價值不容小覷。在家庭服務(wù)機器人領(lǐng)域,這種技術(shù)能讓機器人更好地理解和執(zhí)行復(fù)雜的家務(wù)任務(wù)。例如,當(dāng)你要求機器人"準備一頓簡單的晚餐"時,它能理解這需要一系列協(xié)調(diào)的動作:檢查冰箱里有什么食材、決定做什么菜、按正確順序準備食材、控制烹飪過程等等。

在工業(yè)自動化領(lǐng)域,這種"有預(yù)見性"的機器人能更好地處理復(fù)雜的裝配任務(wù)。它們不僅知道要做什么,還能預(yù)測每個步驟的結(jié)果,從而避免錯誤操作導(dǎo)致的生產(chǎn)線停頓。

在醫(yī)療護理領(lǐng)域,具備"想象力"的機器人助手能更安全地協(xié)助醫(yī)護人員。它們能預(yù)測每個動作的后果,避免可能導(dǎo)致危險的操作序列。

當(dāng)然,這項技術(shù)目前還面臨一些挑戰(zhàn)。最主要的是"仿真到現(xiàn)實"的轉(zhuǎn)移問題。雖然在虛擬環(huán)境中表現(xiàn)出色,但現(xiàn)實世界的復(fù)雜性和不確定性仍然是巨大考驗。研究團隊也坦誠地承認了這個局限性,并指出他們設(shè)計的算法具有環(huán)境無關(guān)性,為未來在真實環(huán)境中的應(yīng)用奠定了基礎(chǔ)。

另一個挑戰(zhàn)是計算資源的需求。目前的數(shù)據(jù)收集過程需要GPT-4o作為評判標準,這增加了計算成本。不過,隨著視覺語言模型能力的快速提升,這個問題有望在不久的將來得到解決。

七、對AI發(fā)展的更廣泛影響

這項研究的意義遠超機器人領(lǐng)域本身,它為人工智能的發(fā)展提供了重要啟示。傳統(tǒng)的AI系統(tǒng)往往專注于模式識別和分類任務(wù),而這項研究展示了如何讓AI系統(tǒng)具備"前瞻性思維"的能力。

這種"想象力"不僅適用于物理世界的任務(wù)規(guī)劃,也可能應(yīng)用到其他需要序列決策的領(lǐng)域。比如,在自動駕駛中,車輛不僅需要識別當(dāng)前的交通狀況,還需要預(yù)測其他車輛和行人的行為;在金融投資中,AI系統(tǒng)需要預(yù)測不同投資決策的長期后果。

更深層的啟示是,這項研究展示了如何讓AI系統(tǒng)從"被動響應(yīng)"轉(zhuǎn)向"主動規(guī)劃"。傳統(tǒng)AI更像是一個條件反射系統(tǒng),遇到特定輸入就產(chǎn)生特定輸出。而具備世界建模能力的AI系統(tǒng)更像是一個會思考的代理,能夠權(quán)衡不同選擇的后果,制定更優(yōu)的行動策略。

這種能力的發(fā)展可能推動AI向著更高層次的智能演進。當(dāng)AI系統(tǒng)不僅能夠處理當(dāng)前信息,還能模擬未來可能的情況時,它們就具備了類似人類的規(guī)劃和決策能力。這為實現(xiàn)更通用的人工智能奠定了重要基礎(chǔ)。

說到底,這項研究最吸引人的地方在于它讓冰冷的機器具備了一種近似"直覺"的能力。就像一個有經(jīng)驗的廚師能夠預(yù)見每個烹飪步驟的結(jié)果,這些AI機器人也開始學(xué)會在行動前"想一想"。這不僅提高了它們完成任務(wù)的成功率,更重要的是讓它們的行為變得更加智能和可預(yù)測。當(dāng)然,我們距離真正智能的機器人助手還有很長的路要走,但這項研究無疑為我們指明了一個充滿希望的方向。對于那些關(guān)心AI技術(shù)發(fā)展的讀者,這項研究展現(xiàn)了人工智能正在從簡單的模式匹配向真正的智能規(guī)劃演進的可能性。

Q&A

Q1:什么是"雙重偏好優(yōu)化"?它是如何工作的? A:雙重偏好優(yōu)化是一種新的AI訓(xùn)練方法,包含兩個部分:教AI選擇正確動作,同時教它預(yù)測動作后果。就像訓(xùn)練一個廚師不僅要知道先放什么調(diào)料,還要能想象放了調(diào)料后菜會變成什么味道。這兩種能力相互促進,讓AI變得更聰明。

Q2:這種技術(shù)會不會很快應(yīng)用到家庭機器人中? A:目前還處于實驗室階段,主要在虛擬環(huán)境中測試。要應(yīng)用到真實家庭環(huán)境還需要解決很多技術(shù)挑戰(zhàn),比如處理現(xiàn)實世界的復(fù)雜性和不確定性。不過這項研究為未來的家庭機器人指明了方向,預(yù)計幾年內(nèi)會有更多實際應(yīng)用。

Q3:為什么說這種AI機器人有"想象力"? A:傳統(tǒng)機器人只能對當(dāng)前情況做出反應(yīng),而這種新方法讓機器人能夠在執(zhí)行動作前預(yù)測結(jié)果,就像人類會想象"如果我這樣做會發(fā)生什么"。這種預(yù)測未來狀態(tài)的能力被研究者比作"想象力",讓機器人的行為更加智能和高效。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
小刀前夫要再婚了?趙露思家人恢復(fù)能力強?吳倩張雨劍假離婚?魏大勛沒組可進?姨太問答

小刀前夫要再婚了?趙露思家人恢復(fù)能力強?吳倩張雨劍假離婚?魏大勛沒組可進?姨太問答

毒舌扒姨太
2025-08-05 22:44:20
爆冷!陳盈駿3分8中6爆砍34分率隊擊敗菲律賓 布朗利19分5犯離場

爆冷!陳盈駿3分8中6爆砍34分率隊擊敗菲律賓 布朗利19分5犯離場

狼叔評論
2025-08-06 04:41:08
專家再預(yù)測中國樓市走勢,或大概率是正確的,提前做好2個準備

專家再預(yù)測中國樓市走勢,或大概率是正確的,提前做好2個準備

詩詞中國
2025-08-05 18:50:00
2024年,四川“燒妻案”唐路被注射死刑,行刑前渾身哆嗦,崩潰痛哭

2024年,四川“燒妻案”唐路被注射死刑,行刑前渾身哆嗦,崩潰痛哭

起喜電影
2025-08-05 11:18:18
一位退休6年的阿姨直言:多數(shù)退休老人不旅游,總?cè)ヂ糜蔚氖沁@幾種

一位退休6年的阿姨直言:多數(shù)退休老人不旅游,總?cè)ヂ糜蔚氖沁@幾種

澤澤先生
2025-08-05 11:23:24
溫州一國企迎來新董事長

溫州一國企迎來新董事長

溫州草根
2025-08-05 22:52:31
宗慶后杜建英曝出新大瓜,網(wǎng)傳杜建英趁宗慶后重病,逼迫他立遺囑

宗慶后杜建英曝出新大瓜,網(wǎng)傳杜建英趁宗慶后重病,逼迫他立遺囑

花哥扒娛樂
2025-07-25 23:08:30
2025年唯一0投檔的大學(xué),降分都無人報考,家長被學(xué)費集體勸退!

2025年唯一0投檔的大學(xué),降分都無人報考,家長被學(xué)費集體勸退!

教育導(dǎo)向分享
2025-08-05 11:16:46
租房不交稅將成歷史!新《條例》允許自行備案,租房稅或成新財源

租房不交稅將成歷史!新《條例》允許自行備案,租房稅或成新財源

石辰搞笑日常
2025-08-01 00:43:06
哇塞!楊冪開粉藍定制法拉利現(xiàn)身上海外灘,全程不戴口罩引關(guān)注

哇塞!楊冪開粉藍定制法拉利現(xiàn)身上海外灘,全程不戴口罩引關(guān)注

局勢維度
2025-08-04 12:25:26
特朗普簽了,1周內(nèi)生效!美對華稱呼升級,真正贏家是中美友誼!

特朗普簽了,1周內(nèi)生效!美對華稱呼升級,真正贏家是中美友誼!

影孖看世界
2025-08-05 23:54:57
王菲女兒李嫣換頭成功!18年天價費用修復(fù)兔唇,真堪比換頭

王菲女兒李嫣換頭成功!18年天價費用修復(fù)兔唇,真堪比換頭

一盅情懷
2025-07-16 19:22:12
38歲前國腳:中國永不能出梅羅級別巨星!有范志毅孫繼海就不錯了

38歲前國腳:中國永不能出梅羅級別巨星!有范志毅孫繼海就不錯了

我愛英超
2025-08-05 23:33:07
為什么全民繳納社保,以為反對是老板,沒想到是打工人。

為什么全民繳納社保,以為反對是老板,沒想到是打工人。

阿傖說事
2025-08-04 09:15:11
第31周新勢力銷量榜:樂道銷量首次超越蔚來!零跑超問界獲周冠!

第31周新勢力銷量榜:樂道銷量首次超越蔚來!零跑超問界獲周冠!

生活魔術(shù)專家
2025-08-06 02:03:29
微信“對講機”爆紅全網(wǎng):喊一句over over,消息自動飛出去了

微信“對講機”爆紅全網(wǎng):喊一句over over,消息自動飛出去了

小8說科技
2025-07-24 18:45:55
19年冠軍成員!Shams:布歇與凱爾特人簽下一年330萬合同

19年冠軍成員!Shams:布歇與凱爾特人簽下一年330萬合同

直播吧
2025-08-06 06:37:06
60歲老阿姨大實話:男人一旦上了60歲,對女人來說就只剩一個用處

60歲老阿姨大實話:男人一旦上了60歲,對女人來說就只剩一個用處

青青會講故事
2025-08-05 15:18:15
別被騙了,《浪浪山小妖怪》是個徹頭徹尾的悲劇

別被騙了,《浪浪山小妖怪》是個徹頭徹尾的悲劇

亮見
2025-08-05 16:43:01
年輕時的杜建英和宗慶后的唯一合照,老員工曝2005年他們已經(jīng)領(lǐng)證

年輕時的杜建英和宗慶后的唯一合照,老員工曝2005年他們已經(jīng)領(lǐng)證

史書無明
2025-07-16 13:44:10
2025-08-06 08:03:00
至頂頭條 incentive-icons
至頂頭條
記錄和推動數(shù)字化創(chuàng)新
13327文章數(shù) 49642關(guān)注度
往期回顧 全部

科技要聞

理想i8“版型瘦身”,一次遲到的果斷

頭條要聞

21歲小伙被騙緬甸用支付寶求救:有人遭體罰被搞到吐

頭條要聞

21歲小伙被騙緬甸用支付寶求救:有人遭體罰被搞到吐

體育要聞

“孫興慜就是熱刺,熱刺就是孫興慜”

娛樂要聞

吳倩張雨劍被曝已復(fù)合,是真是假?

財經(jīng)要聞

王貽芳院士:AI離人腦還有巨大差距

汽車要聞

續(xù)寫變革篇章,雷諾集團的福蘭時代來了

態(tài)度原創(chuàng)

家居
健康
時尚
本地
藝術(shù)

家居要聞

通透大方 開放收納設(shè)計

呼吸科專家破解呼吸道九大謠言!

但丁《神曲》的愛與救贖,在700年后迎來了答案

本地新聞

非遺里的天津|掐絲凝彩,手藝人的指尖藏多少歲月匠心?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關(guān)懷版 口述久久久久j| 大陆极品AV内射AAAAA| 白嫩无码人妻熟妇啪啪区潘甜甜| 精品一区二区三区波多野结衣| 免费观看欧美性一级| 欧美日韩蜜桃精品性色视频在线播放| 91高清免费国产自产拍| 菠萝菠萝蜜午夜视频在线播放观看| 日本免费一区二区三区久久 | 国产天堂亚洲国产碰碰| 天天看片天天爽| 爱情岛成人网站| 国产亚洲日韩在线aaaa| 欧美少妇性视频| 三级AV自慰网站| 欧美午夜理伦三级在线观看| 熟女av一区二区| 日本1234区在线观看| 他一边曰一边吃我奶小说免看| 18禁网站在线| 激情内射日本一区二区三区| 老熟妇露脸大白屁股| 99视频精品国产免费观看| 最新无码天堂| 人人妻人人人澡人人爽欧美一区| 国内无遮码无码| 无遮挡男女激烈动态图| 91人人妻人人爱。人人操| 肉大捧一进一出免费视频| 久久猫咪伊人有精品| 性a资源网站在线| 国产精品无码a∨麻豆| 最新av中文网资源| 国产区女主播在线观看| 精品夜夜澡人妻无码av| 无码精品人妻| 亚洲一区观看| 图图国产亚洲综合网站| 天天综合网,日日夜夜| 被站着糟蹋的丰满少妇| 国产av地址|