從倉庫里的物流機(jī)器人到科幻電影中的「賈維斯」,我們對智能機(jī)器人的想象從未停止。學(xué)術(shù)界在模擬器里實(shí)現(xiàn)了越來越復(fù)雜的協(xié)作任務(wù),工業(yè)界也讓機(jī)器人學(xué)會了韋伯斯特空翻。
然而,一個殘酷的現(xiàn)實(shí)是:當(dāng)下的機(jī)器「人」更像是提線木偶,而非真正自主的智能體。
想象一下,機(jī)器人每做一個動作都要延遲十幾秒,完成同樣的任務(wù)比人類慢上十倍,這樣的效率如何走入我們的生活?這個從虛擬到現(xiàn)實(shí)的「最后一公里」,其瓶頸常常被忽視:高昂的時間延遲和低下的協(xié)作效率。它像一道無形的墻,將真正的具身智能困在了實(shí)驗(yàn)室里。
- 論文標(biāo)題:ReCA: Integrated Acceleration for Real-Time and Efficient Cooperative Embodied Autonomous Agents
- 論文地址:
- https://dl.acm.org/doi/10.1145/3676641.3716016
為了打破這一僵局,來自佐治亞理工學(xué)院、明尼蘇達(dá)大學(xué)和哈佛大學(xué)的研究團(tuán)隊(duì)將目光從單純的「成功」轉(zhuǎn)向了「成功且高效」。他們推出了名為ReCA的集成加速框架,針對多機(jī)協(xié)作具身系統(tǒng),通過軟硬件協(xié)同設(shè)計(jì)跨層次優(yōu)化,旨在保證不影響任務(wù)成功率的前提下,提升實(shí)時性能和系統(tǒng)效率,為具身智能落地奠定基礎(chǔ)。
簡單來說:ReCA 不再滿足于讓智能體「完成」任務(wù),而是要讓它們「實(shí)時、高效地完成」任務(wù)。
這份工作發(fā)表于計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域的頂級會議 ASPLOS'25,是體系結(jié)構(gòu)領(lǐng)域接收的首批具身智能計(jì)算論文,同時入選 Industry-Academia Partnership (IAP) Highlight。
三大瓶頸:
當(dāng)前模塊化具身智能的「效率之殤」
研究團(tuán)隊(duì)首先對當(dāng)前的協(xié)同具身智能系統(tǒng)(如 COELA, COMBO, MindAgent)進(jìn)行了系統(tǒng)性分析,定位了三大性能瓶頸:
高昂的規(guī)劃與通信延遲:系統(tǒng)嚴(yán)重依賴基于 LLM 的模塊進(jìn)行高階規(guī)劃和智能體間通信。每一步行動都可能涉及多次 LLM 的順序調(diào)用,其中網(wǎng)絡(luò)延遲和 API 調(diào)用成本更是雪上加霜,使得實(shí)時交互成為奢望。
有限的可擴(kuò)展性:隨著智能體數(shù)量的增加,去中心化系統(tǒng)會面臨通信輪次爆炸性增長和效率下降的問題;而中心化系統(tǒng)則由于單一規(guī)劃者難以處理復(fù)雜的多智能體協(xié)同,導(dǎo)致任務(wù)成功率急劇下滑。
底層執(zhí)行的敏感性:LLM 生成的高階計(jì)劃需要被精確翻譯成底層的控制指令,底層執(zhí)行的效率和魯棒性直接關(guān)系到任務(wù)的成敗。
ReCA 的「三板斧」:
從算法到系統(tǒng)再到硬件的跨層協(xié)同優(yōu)化
針對上述挑戰(zhàn),ReCA 提出了一個貫穿算法、系統(tǒng)和硬件三個層面的跨層次協(xié)同設(shè)計(jì)框架,旨在提升協(xié)同具身智能系統(tǒng)的效率和可擴(kuò)展性。
算法層面:更聰明的規(guī)劃與執(zhí)行
- 本地化模型處理:通過部署更小的、本地化的經(jīng)過微調(diào)的開源 LLM,ReCA 擺脫了對外部 API 的依賴,消除了網(wǎng)絡(luò)延遲瓶頸,同時保障了數(shù)據(jù)隱私。
- 規(guī)劃指導(dǎo)下的多步執(zhí)行:顛覆了傳統(tǒng)「規(guī)劃一步、執(zhí)行一步」的模式。ReCA 讓 LLM 一次性生成可指導(dǎo)連續(xù)多步底層動作的高階計(jì)劃,大幅減少了 LLM 的調(diào)用頻率,顯著降低了端到端延遲。
系統(tǒng)層面:更高效的記憶與協(xié)作
- 雙重記憶結(jié)構(gòu):借鑒了人類認(rèn)知的「雙系統(tǒng)理論」,ReCA 設(shè)計(jì)了長短時記憶分離的結(jié)構(gòu)。
- 長期記憶以圖結(jié)構(gòu)存儲環(huán)境布局等靜態(tài)信息。
- 短期記憶則動態(tài)刷新智能體狀態(tài)、任務(wù)進(jìn)度等實(shí)時信息。
有效解決了 LLM 在長任務(wù)中 prompt 過長導(dǎo)致「遺忘」關(guān)鍵信息的痛點(diǎn),提升了規(guī)劃的連貫性和準(zhǔn)確性。
- 分層協(xié)作規(guī)劃:為了解決擴(kuò)展性難題,ReCA 引入了一種新穎的分層協(xié)作模式。在小范圍的「簇」內(nèi),采用「父-子」智能體的中心化模式高效規(guī)劃;在「簇」之間,則采用去中心化模式進(jìn)行通信,更新彼此進(jìn)度。這種混合模式兼顧了規(guī)劃效率和系統(tǒng)規(guī)模。
硬件層面:更專業(yè)的加速單元
- 異構(gòu)硬件系統(tǒng):ReCA 為高階和低階規(guī)劃匹配了最合適的計(jì)算單元。它采用 GPU 子系統(tǒng)處理 LLM 的高階規(guī)劃,同時為精準(zhǔn)路徑規(guī)劃等低階任務(wù)設(shè)計(jì)了專門的硬件加速器。
- 專用路徑規(guī)劃處理器:研究表明,在系統(tǒng)優(yōu)化后,原本占比不高的 A-star 路徑規(guī)劃延遲會成為新的瓶頸。ReCA 的專用 A-Star Processing Unit(APU)通過定制化的計(jì)算單元和訪存設(shè)計(jì),大幅提升了低階規(guī)劃的效率和能效。
效率提升:
5-10 倍速度提升,成功率不降反升
通過跨越六個基準(zhǔn)測試和三大主流協(xié)同系統(tǒng)的評估,ReCA 展現(xiàn)了其強(qiáng)大的實(shí)力:
- 效率:在任務(wù)步驟僅增加 3.2% 的情況下,實(shí)現(xiàn)了平均5-10 倍的端到端任務(wù)加速。原本需要近一小時的復(fù)雜任務(wù),ReCA 能在 20 分鐘內(nèi)完成。
- 成功率:在大幅提升速度的同時,任務(wù)成功率平均還提升了4.3%。這得益于其優(yōu)化的記憶和協(xié)作機(jī)制,證明了效率與性能可以兼得。
- 可擴(kuò)展性:即使在 12 個智能體的大規(guī)模協(xié)作場景下,ReCA 依然能保持 80-90% 的高成功率,而基線系統(tǒng)的成功率已跌至 70% 以下。
- 能效:其定制的 A-star 硬件加速器(APU)相較于 GPU 實(shí)現(xiàn),取得了4.6 倍的速度提升和281 倍能效改進(jìn)。
影響與未來
ReCA 的意義,遠(yuǎn)不止于一組性能提升的數(shù)據(jù)。它更像一塊基石,為具身智能的未來發(fā)展鋪設(shè)了三條關(guān)鍵路徑:
從「能用」到「好用」的跨越:此前,研究的焦點(diǎn)大多是如何讓機(jī)器人「成功」完成任務(wù)。ReCA 則明確地提出,「成功且高效」是更關(guān)鍵的目標(biāo)。這項(xiàng)工作有助于推動領(lǐng)域的研究范式轉(zhuǎn)變,讓延遲、效率和可擴(kuò)展性也成為衡量具身智能系統(tǒng)的核心指標(biāo),加速其在家庭服務(wù)、智能制造等場景的落地。
「軟硬協(xié)同」釋放效能提升:ReCA 通過算法、系統(tǒng)、硬件的跨層次協(xié)同優(yōu)化,突破了過往「單點(diǎn)優(yōu)化」的局限。未來的具身智能系統(tǒng),有望像 ReCA 一樣,在不同層面協(xié)同設(shè)計(jì)的產(chǎn)物。它為 GPU 處理高階規(guī)劃、硬件加速器處理底層精確任務(wù)的異構(gòu)計(jì)算模式提供了范本,為下一代機(jī)器人「大腦」+「小腦」的設(shè)計(jì)提供了一種可行方案。
突破瓶頸,解鎖想象力:當(dāng)延遲不再是瓶頸,我們可以大膽想象:一個機(jī)器人管家團(tuán)隊(duì)能在你下班前,實(shí)時協(xié)作,烹飪好一頓豐盛的晚餐,并打掃干凈房間;又或者在災(zāi)難救援現(xiàn)場,多個機(jī)器人能實(shí)時共享信息,高效協(xié)同,在黃金救援時間內(nèi)完成搜索與拯救任務(wù)。在自動化科學(xué)實(shí)驗(yàn)室里,機(jī)器人集群能夠 7x24 小時不間斷地進(jìn)行復(fù)雜的協(xié)同實(shí)驗(yàn),以前所未有的速度推動科學(xué)發(fā)現(xiàn)。
總而言之,ReCA 的工作不僅解決了一個關(guān)鍵的技術(shù)瓶頸,更是為具身智能從實(shí)驗(yàn)室走向真實(shí)世界,架起了一座堅(jiān)實(shí)的橋梁。我們距離那個能實(shí)時響應(yīng)、高效協(xié)作的「賈維斯」式智能助手,確實(shí)又近了一大步。
作者介紹
萬梓燊是佐治亞理工學(xué)院博士生,研究方向?yàn)橛?jì)算機(jī)體系架構(gòu)和集成電路,聚焦通過系統(tǒng)-架構(gòu)-芯片的跨層軟硬件協(xié)同設(shè)計(jì),為具身智能機(jī)器人和神經(jīng)符號 AI 構(gòu)建高效、可靠的計(jì)算平臺。個人主頁
https://zishenwan.github.io/
杜宇航是 Yang Zhao 教授和 Vijay Janapa Reddi 教授指導(dǎo)的本科研究員,研究方向?yàn)橛?jì)算機(jī)體系架構(gòu)和集成電路,致力于通過系統(tǒng)級的性能分析與協(xié)同設(shè)計(jì),為智能體在真實(shí)世界的計(jì)算打造基礎(chǔ)設(shè)施。
Mohamed Ibrahim是佐治亞理工學(xué)院博士后研究員,研究方向?yàn)檐浻布f(xié)同設(shè)計(jì),融合類腦計(jì)算與 VLSI 系統(tǒng),構(gòu)建具備高適應(yīng)性與高可靠性的創(chuàng)新硬件架構(gòu)。
錢家熠是佐治亞理工學(xué)院博士生,研究方向?yàn)楦咝C(jī)器學(xué)習(xí)算法與系統(tǒng)、計(jì)算機(jī)體系結(jié)構(gòu)與硬件設(shè)計(jì),聚焦面向具身智能與神經(jīng)-符號系統(tǒng)的協(xié)同優(yōu)化與加速。
Jason Jabbour是哈佛大學(xué)計(jì)算機(jī)科學(xué)系博士生,研究方向?yàn)闄C(jī)器學(xué)習(xí)、機(jī)器人和自動駕駛。
Yang (Katie) Zhao是明尼蘇達(dá)大學(xué)電子與計(jì)算機(jī)工程系助理教授,研究方向聚焦于計(jì)算機(jī)體系架構(gòu)、硬件設(shè)計(jì)與機(jī)器學(xué)習(xí)的交叉領(lǐng)域,致力于通過從算法、芯片到系統(tǒng)的全棧式協(xié)同設(shè)計(jì),為大語言模型等新興應(yīng)用提供高效、可靠的硬件加速方案。
Tushar Krishna是佐治亞理工學(xué)院電子與計(jì)算機(jī)工程學(xué)院副教授,入選 ISCA、HPCA 和 MICRO 名人堂。長期致力于計(jì)算機(jī)體系架構(gòu)、NOC 與 AI/ML 加速器等領(lǐng)域的研究,相關(guān)成果被引用超過 20000 次。曾有多篇論文入選 IEEE Micro 最佳論文推薦(Top Picks)或榮獲最佳論文獎,現(xiàn)任 ML Commons Chakra 工作組聯(lián)合主席。
Arijit Raychowdhury是佐治亞理工學(xué)院電子與計(jì)算機(jī)工程學(xué)院院長,IEEE Fellow。長期致力于低功耗數(shù)字與混合信號電路、專用加速器設(shè)計(jì)等領(lǐng)域的研究,在國際頂級期刊與會議發(fā)表論文 250 余篇,擁有超過 27 項(xiàng)美國及國際專利。擔(dān)任 ISSCC、VLSI、DAC 等多個頂級會議的技術(shù)委員會委員。
Vijay Janapa Reddi是哈佛大學(xué)工程與應(yīng)用科學(xué)學(xué)院教授,入選 MICRO 與 HPCA 名人堂。長期致力于計(jì)算機(jī)體系架構(gòu)、機(jī)器學(xué)習(xí)系統(tǒng)與自主智能體的交叉領(lǐng)域研究,是 TinyML 領(lǐng)域的開拓者之一,并聯(lián)合領(lǐng)導(dǎo)創(chuàng)建了 MLPerf。曾獲 MICRO、HPCA 最佳論文獎及多次入選 IEEE Micro 最佳論文,現(xiàn)任 MLCommons 董事會成員和聯(lián)合主席。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.