這項由清華大學(xué)、北京人工智能研究院以及BeingBeyond公司聯(lián)合完成的研究發(fā)表于2025年5月,論文標(biāo)題為《Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills》。感興趣的讀者可以通過arXiv:2503.12533v2訪問完整論文。
你有沒有想過,未來的機(jī)器人管家會是什么樣子?不是那種只會掃地或者簡單對話的機(jī)器人,而是真正能像人類一樣思考、規(guī)劃并完成復(fù)雜任務(wù)的智能助手。清華大學(xué)的研究團(tuán)隊剛剛向我們展示了這樣一個令人驚嘆的成果——他們開發(fā)出了一個名為Being-0的人形機(jī)器人系統(tǒng),這個機(jī)器人不僅長著人的樣子,更重要的是,它真的具備了類似人類的思維能力。
Being-0就像是一個擁有完整大腦、眼睛和雙手的智能助手。它能夠理解你的語言指令,比如"給我泡杯咖啡",然后自己制定詳細(xì)的行動計劃:先找到杯子,再走到咖啡機(jī)前,把杯子放好,選擇咖啡類型,等待制作完成。整個過程中,它會像人一樣觀察環(huán)境,遇到障礙時調(diào)整策略,甚至在找不到物品時主動搜索。
這個機(jī)器人系統(tǒng)最神奇的地方在于它的"三層大腦"結(jié)構(gòu)。最頂層是一個強(qiáng)大的基礎(chǔ)模型(類似于ChatGPT這樣的AI大腦),負(fù)責(zé)理解任務(wù)和制定總體策略。中間層是一個叫做"連接器"的創(chuàng)新模塊,它就像人類的小腦一樣,負(fù)責(zé)將大腦的想法轉(zhuǎn)化為具體的身體動作。最底層則是各種專門的技能模塊,就像人類掌握的走路、抓取、操作等基本能力。
**一、機(jī)器人的"身體構(gòu)造"與挑戰(zhàn)**
Being-0使用的是一臺身高1.8米的Unitree H1-2人形機(jī)器人,這臺機(jī)器人擁有41個關(guān)節(jié),就像人類一樣可以靈活運動。它的雙手是精密的多指靈巧手,能夠進(jìn)行復(fù)雜的抓取和操作動作。更有趣的是,它的"眼睛"——一對雙目攝像頭——安裝在可以轉(zhuǎn)動的"脖子"上,能夠主動調(diào)整視角來觀察環(huán)境,就像人類會轉(zhuǎn)頭尋找物品一樣。
但是,讓人形機(jī)器人真正像人一樣工作并不簡單。傳統(tǒng)的機(jī)器人要么只能執(zhí)行預(yù)設(shè)的動作序列,要么需要人類遠(yuǎn)程操控每一個細(xì)節(jié)。而且,不同于那些有輪子的機(jī)器人可以精確地移動到指定位置,人形機(jī)器人用兩條腿走路本身就是一個充滿挑戰(zhàn)的任務(wù)。它需要不斷保持平衡,步伐會有細(xì)微的偏差,這就意味著機(jī)器人很難精確地按照預(yù)定路線到達(dá)目標(biāo)位置。
更復(fù)雜的是,當(dāng)機(jī)器人需要完成"制作咖啡"這樣的長期任務(wù)時,它必須將這個大任務(wù)分解成多個小步驟:導(dǎo)航到桌子、抓取杯子、導(dǎo)航到咖啡機(jī)、放置杯子、操作咖啡機(jī)等等。每一個步驟都可能因為環(huán)境變化或執(zhí)行偏差而需要調(diào)整,這就要求機(jī)器人具備實時的判斷和適應(yīng)能力。
**二、革命性的"三層大腦"架構(gòu)**
面對這些挑戰(zhàn),研究團(tuán)隊設(shè)計了一個極其巧妙的解決方案。他們沒有試圖用一個萬能的AI來處理所有問題,而是創(chuàng)建了一個分工明確的"三層大腦"系統(tǒng)。
最頂層的基礎(chǔ)模型就像是機(jī)器人的"戰(zhàn)略指揮官"。它負(fù)責(zé)理解人類的指令,分析當(dāng)前環(huán)境,并制定總體的行動策略。比如,當(dāng)你說"給我泡杯咖啡"時,這個指揮官會分析:"首先需要找到杯子,然后去咖啡機(jī)那里,接著操作咖啡機(jī)制作咖啡。"這一層使用的是GPT-4o這樣的先進(jìn)語言模型,具備強(qiáng)大的理解和推理能力。
中間層的"連接器"模塊則是整個系統(tǒng)的核心創(chuàng)新。它就像是機(jī)器人的"執(zhí)行經(jīng)理",負(fù)責(zé)將指揮官的戰(zhàn)略轉(zhuǎn)化為具體可執(zhí)行的動作指令。當(dāng)指揮官說"去找杯子"時,連接器會觀察當(dāng)前環(huán)境,判斷杯子在哪個方向,然后給出具體的移動指令:"向左轉(zhuǎn)30度"、"前進(jìn)2米"、"向右調(diào)整10度"等等。這個連接器使用了一個輕量級的視覺-語言模型,經(jīng)過專門訓(xùn)練來理解機(jī)器人的視角和空間關(guān)系。
最底層的技能模塊庫就像是機(jī)器人的"肌肉記憶"。這里存儲著各種基礎(chǔ)技能:穩(wěn)定行走、精確抓取、物品放置、按鈕操作等等。每個技能都經(jīng)過大量訓(xùn)練,能夠在各種情況下穩(wěn)定執(zhí)行。當(dāng)連接器發(fā)出"抓取杯子"的指令時,相應(yīng)的抓取技能就會激活,自動處理手部的精細(xì)動作控制。
**三、智能"連接器"的神奇功能**
這個連接器模塊的設(shè)計可以說是整個系統(tǒng)的點睛之筆。研究團(tuán)隊發(fā)現(xiàn),直接讓大型AI模型控制機(jī)器人存在幾個嚴(yán)重問題:反應(yīng)太慢、對3D空間理解不準(zhǔn)確、容易在復(fù)雜環(huán)境中"迷路"。
為了解決這些問題,他們開發(fā)了一個專門針對機(jī)器人控制優(yōu)化的輕量級AI模型。這個模型接受了大量機(jī)器人第一人稱視角圖像的訓(xùn)練,學(xué)會了從機(jī)器人的角度理解世界。它知道如何判斷物品的距離和方向,能夠預(yù)測接下來應(yīng)該執(zhí)行什么動作,甚至可以在找不到目標(biāo)物品時主動搜索。
連接器的一個重要功能是"視覺導(dǎo)航"。當(dāng)機(jī)器人需要走到某個物品前時,連接器會分析攝像頭看到的畫面,找到目標(biāo)物品,計算它的相對位置,然后規(guī)劃一條路徑。如果目標(biāo)物品不在視野中,連接器會讓機(jī)器人轉(zhuǎn)動頭部或身體進(jìn)行搜索,就像人類尋找東西時會四處張望一樣。
更巧妙的是,連接器還具備"姿態(tài)調(diào)整"功能。由于人形機(jī)器人走路時會有輕微的偏差,它可能會以一個不太合適的角度接近目標(biāo)物品。連接器能夠識別這種情況,并指導(dǎo)機(jī)器人進(jìn)行微調(diào),確保機(jī)器人最終能以最佳姿態(tài)完成后續(xù)的操作任務(wù)。
**四、模塊化技能庫的構(gòu)建**
Being-0的技能庫就像是一個經(jīng)驗豐富工匠的工具箱,里面裝滿了各種專門的"工具"。研究團(tuán)隊將機(jī)器人的能力分為兩大類:運動技能和操作技能。
運動技能主要負(fù)責(zé)機(jī)器人的移動。團(tuán)隊使用強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練出了一個穩(wěn)定的步行控制器,這個控制器可以根據(jù)"操縱桿指令"讓機(jī)器人朝不同方向移動:直行、后退、左轉(zhuǎn)、右轉(zhuǎn)、側(cè)步等等。這就像是給機(jī)器人安裝了一個虛擬的游戲手柄,連接器可以通過發(fā)送相應(yīng)的指令來控制機(jī)器人的移動。
操作技能則更加復(fù)雜和多樣化。研究團(tuán)隊使用了一種叫做"示教學(xué)習(xí)"的方法來獲取這些技能。他們讓人類操作員戴上Apple Vision Pro頭顯設(shè)備,在虛擬現(xiàn)實環(huán)境中演示各種操作動作。頭顯會捕捉人類的頭部、手腕和手指動作,然后將這些動作轉(zhuǎn)換為機(jī)器人可以執(zhí)行的指令序列。
通過這種方法,團(tuán)隊收集了大量的操作技能:抓取瓶子、放置物品、操作籃子、使用咖啡機(jī)、下棋、玩積木等等。每個技能只需要50到200個演示樣本就能訓(xùn)練完成,這大大提高了技能獲取的效率。更重要的是,每個技能都有自然語言描述,比如"抓取咖啡杯"、"放置物品到桌上",這樣連接器就能根據(jù)當(dāng)前需要選擇合適的技能。
**五、主動視覺系統(tǒng)的重要作用**
Being-0的一個突出特點是它具備"主動視覺"能力。不同于那些攝像頭固定不動的機(jī)器人,Being-0可以像人類一樣主動調(diào)整視角來觀察環(huán)境。
這種能力的重要性可以通過一個簡單的例子來理解。當(dāng)你在廚房找東西時,你會自然地轉(zhuǎn)頭看向不同的方向,甚至俯身查看桌面或抬頭看向高處。Being-0也具備類似的能力。它的攝像頭安裝在一個可以上下左右轉(zhuǎn)動的"脖子"上,能夠根據(jù)任務(wù)需要調(diào)整觀察角度。
研究團(tuán)隊發(fā)現(xiàn),這種主動視覺能力對于機(jī)器人的性能至關(guān)重要。在導(dǎo)航任務(wù)中,機(jī)器人需要將視線調(diào)整到合適的角度來尋找目標(biāo)物品。在操作任務(wù)中,機(jī)器人需要俯視桌面來準(zhǔn)確定位物品位置。如果使用固定角度的攝像頭,機(jī)器人在很多情況下都無法獲得足夠的視覺信息來完成任務(wù)。
實驗結(jié)果顯示,配備主動視覺系統(tǒng)的Being-0在各種任務(wù)中都達(dá)到了完美的成功率,而使用固定攝像頭的版本在許多任務(wù)中都會失敗。這證明了主動視覺對于人形機(jī)器人系統(tǒng)的重要性。
**六、復(fù)雜任務(wù)的執(zhí)行過程**
讓我們通過一個具體的例子來看看Being-0是如何工作的。假設(shè)你對它說:"給我制作一杯咖啡。"
首先,頂層的基礎(chǔ)模型會分析這個指令,理解這是一個需要多個步驟的復(fù)雜任務(wù)。它會生成一個大致的計劃:找到杯子、拿起杯子、找到咖啡機(jī)、操作咖啡機(jī)制作咖啡。
接下來,基礎(chǔ)模型會發(fā)出第一個子任務(wù)指令:"找到并抓取杯子。"連接器接收到這個指令后,開始分析當(dāng)前的視覺輸入。它會在畫面中搜索杯子,如果沒有看到,就會指導(dǎo)機(jī)器人轉(zhuǎn)動頭部或身體進(jìn)行搜索。
一旦發(fā)現(xiàn)杯子,連接器會計算杯子的位置和距離,然后生成具體的導(dǎo)航指令。機(jī)器人開始向杯子走去,連接器持續(xù)監(jiān)控前進(jìn)過程,根據(jù)需要調(diào)整方向和速度。當(dāng)機(jī)器人接近杯子時,連接器會評估當(dāng)前的位置和姿態(tài),如果發(fā)現(xiàn)角度不太合適,就會指導(dǎo)機(jī)器人進(jìn)行微調(diào)。
當(dāng)機(jī)器人處于合適位置后,連接器會激活"抓取杯子"技能。這個技能會控制機(jī)器人的手臂和手指,精確地抓取杯子。抓取完成后,連接器會向基礎(chǔ)模型報告任務(wù)完成。
基礎(chǔ)模型收到報告后,會發(fā)出下一個指令:"找到咖啡機(jī)并放置杯子。"整個過程重復(fù)進(jìn)行,連接器負(fù)責(zé)導(dǎo)航到咖啡機(jī)、放置杯子、操作咖啡機(jī)選擇咖啡類型、確認(rèn)制作等等。
在整個過程中,如果遇到意外情況(比如杯子被移動了位置,或者咖啡機(jī)前有障礙物),連接器能夠?qū)崟r調(diào)整策略,甚至向基礎(chǔ)模型請求新的指令。這種分層協(xié)作的方式使得機(jī)器人能夠靈活應(yīng)對各種復(fù)雜情況。
**七、實驗驗證與性能表現(xiàn)**
為了驗證Being-0的能力,研究團(tuán)隊在一個面積400平方米的大型辦公環(huán)境中進(jìn)行了全面測試。這個環(huán)境包含多個辦公隔間、會議室、接待區(qū)域和走廊,就像一個真實的工作場所。
團(tuán)隊設(shè)計了五類不同復(fù)雜程度的任務(wù)來測試機(jī)器人的能力。最簡單的是"取物任務(wù)",比如"去桌子那里拿一個瓶子"。稍復(fù)雜的是"遞送任務(wù)",比如"把籃子拿到桌子上"。最復(fù)雜的是"制作咖啡"相關(guān)任務(wù),包括準(zhǔn)備咖啡、制作咖啡和遞送咖啡,這些任務(wù)需要機(jī)器人完成多個步驟的復(fù)雜操作。
實驗結(jié)果令人印象深刻。在最復(fù)雜的長期任務(wù)中,Being-0達(dá)到了平均84.4%的成功率。更重要的是,與沒有連接器模塊的基礎(chǔ)版本相比,完整的Being-0系統(tǒng)在大多數(shù)任務(wù)中都實現(xiàn)了從0%到80-90%的巨大性能提升。
特別值得關(guān)注的是效率方面的改進(jìn)。由于連接器模塊可以在本地設(shè)備上運行,不需要頻繁訪問云端的大型AI模型,Being-0的導(dǎo)航速度比完全依賴云端AI的系統(tǒng)快了4.2倍。這意味著機(jī)器人能夠更快速、更流暢地執(zhí)行任務(wù)。
研究團(tuán)隊還進(jìn)行了詳細(xì)的消融實驗,驗證了系統(tǒng)各個組件的重要性。他們發(fā)現(xiàn),連接器模塊對于系統(tǒng)性能至關(guān)重要,特別是在需要精確定位和姿態(tài)調(diào)整的任務(wù)中。主動視覺系統(tǒng)同樣不可或缺,沒有它機(jī)器人在很多情況下都無法獲得足夠的環(huán)境信息。
**八、技術(shù)創(chuàng)新與突破意義**
Being-0系統(tǒng)的技術(shù)創(chuàng)新主要體現(xiàn)在幾個方面。首先是分層架構(gòu)的設(shè)計理念。不同于之前試圖用單一AI模型解決所有問題的方法,Being-0將認(rèn)知、決策和執(zhí)行分離到不同層次,每一層都針對特定任務(wù)進(jìn)行優(yōu)化。這種設(shè)計不僅提高了系統(tǒng)的整體性能,還增強(qiáng)了可擴(kuò)展性和維護(hù)性。
連接器模塊的設(shè)計是另一個重要創(chuàng)新。這個模塊專門針對機(jī)器人的空間理解和動作規(guī)劃進(jìn)行了優(yōu)化,填補(bǔ)了高級認(rèn)知和低級控制之間的空白。它不僅能夠理解自然語言指令,還能將這些指令轉(zhuǎn)化為機(jī)器人可以執(zhí)行的具體動作序列。
模塊化技能庫的構(gòu)建方法也具有重要意義。通過將復(fù)雜的機(jī)器人控制分解為可復(fù)用的技能模塊,系統(tǒng)能夠快速獲得新的能力。每個技能只需要相對少量的訓(xùn)練數(shù)據(jù)就能掌握,這大大降低了系統(tǒng)開發(fā)和維護(hù)的成本。
從更廣泛的角度來看,Being-0代表了人形機(jī)器人發(fā)展的一個重要里程碑。它證明了通過合理的系統(tǒng)架構(gòu)設(shè)計,可以讓機(jī)器人具備類似人類的綜合能力:理解語言、規(guī)劃行動、靈活移動、精確操作。這為未來開發(fā)更加智能和實用的機(jī)器人系統(tǒng)提供了重要的技術(shù)路徑。
**九、應(yīng)用前景與未來發(fā)展**
Being-0系統(tǒng)的成功開發(fā)為機(jī)器人在各個領(lǐng)域的應(yīng)用開辟了新的可能性。在家庭服務(wù)領(lǐng)域,這樣的機(jī)器人可以成為真正的智能管家,不僅能夠完成清潔、整理等基礎(chǔ)工作,還能夠協(xié)助烹飪、照料老人、陪伴兒童等更復(fù)雜的任務(wù)。
在工業(yè)和商業(yè)環(huán)境中,Being-0這樣的系統(tǒng)可以在倉庫、工廠、醫(yī)院、酒店等場所發(fā)揮重要作用。它們能夠理解復(fù)雜的工作指令,在動態(tài)環(huán)境中自主導(dǎo)航,與人類同事協(xié)作完成各種任務(wù)。
教育和科研領(lǐng)域也將從這項技術(shù)中受益。機(jī)器人可以作為教學(xué)助手,幫助演示實驗過程,協(xié)助學(xué)生完成項目。在科研環(huán)境中,它們可以協(xié)助科學(xué)家進(jìn)行實驗操作,處理危險物質(zhì),或者在惡劣環(huán)境中收集數(shù)據(jù)。
不過,研究團(tuán)隊也坦誠地指出了當(dāng)前系統(tǒng)的局限性。Being-0目前主要在平地環(huán)境中工作,還不具備爬樓梯、蹲下、跳躍等更復(fù)雜的運動能力。此外,系統(tǒng)仍然需要依賴云端的大型AI模型進(jìn)行高級決策,這在一定程度上限制了其完全自主的工作能力。
未來的發(fā)展方向包括增強(qiáng)機(jī)器人的運動能力,使其能夠在更多樣化的環(huán)境中工作。同時,研究團(tuán)隊也在努力開發(fā)更加輕量化的AI模型,希望能夠?qū)⒏嗟闹悄軟Q策能力集成到機(jī)器人本體中,減少對外部計算資源的依賴。
說到底,Being-0的意義不僅在于它展示了當(dāng)前機(jī)器人技術(shù)的最高水平,更重要的是它為我們描繪了一個機(jī)器人與人類和諧共存的未來圖景。在這個未來中,機(jī)器人不再是簡單的工具,而是能夠理解我們需求、協(xié)助我們工作、甚至與我們交流的智能伙伴。雖然這個未來還沒有完全到來,但Being-0已經(jīng)讓我們看到了實現(xiàn)這一愿景的可能性。
這項研究也提醒我們,真正智能的機(jī)器人系統(tǒng)需要的不僅僅是先進(jìn)的AI算法,還需要精心設(shè)計的系統(tǒng)架構(gòu)、高質(zhì)量的訓(xùn)練數(shù)據(jù),以及各個技術(shù)模塊之間的完美協(xié)調(diào)。正如Being-0所展示的,當(dāng)這些要素有機(jī)結(jié)合時,機(jī)器人就能夠展現(xiàn)出令人驚嘆的智能和能力。
對于那些對人工智能和機(jī)器人技術(shù)感興趣的讀者,Being-0系統(tǒng)的成功開發(fā)無疑是一個令人鼓舞的里程碑。它不僅推進(jìn)了學(xué)術(shù)研究的邊界,也為產(chǎn)業(yè)應(yīng)用提供了實際可行的技術(shù)路徑。隨著技術(shù)的不斷進(jìn)步和成本的逐步降低,我們有理由相信,類似Being-0這樣的智能機(jī)器人將在不久的將來走入我們的日常生活,成為我們工作和生活中不可或缺的助手。
Q&A
Q1:Being-0和普通機(jī)器人有什么區(qū)別? A:Being-0最大的區(qū)別在于它具備了類似人類的"思考"能力。普通機(jī)器人只能執(zhí)行預(yù)設(shè)程序,而Being-0能夠理解自然語言指令,自主制定行動計劃,并在執(zhí)行過程中根據(jù)環(huán)境變化靈活調(diào)整策略。它就像是一個真正會思考的機(jī)器人管家。
Q2:Being-0現(xiàn)在能在家庭中使用嗎? A:目前Being-0還處于研究階段,主要用于學(xué)術(shù)驗證和技術(shù)展示。雖然它已經(jīng)能夠完成制作咖啡、取物遞送等家庭任務(wù),但要成為真正的家用產(chǎn)品,還需要在成本控制、安全性保障和使用便利性方面進(jìn)行進(jìn)一步優(yōu)化。
Q3:Being-0的"三層大腦"架構(gòu)有什么優(yōu)勢? A:這種分層架構(gòu)最大的優(yōu)勢是各司其職、協(xié)同工作。頂層負(fù)責(zé)理解和規(guī)劃,中間層負(fù)責(zé)轉(zhuǎn)化和協(xié)調(diào),底層負(fù)責(zé)具體執(zhí)行。這樣既保證了決策的智能性,又確保了執(zhí)行的準(zhǔn)確性和效率,避免了單一AI模型處理所有任務(wù)時可能出現(xiàn)的問題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.