清華大學(xué)：全能思考型人形機(jī)器人問世

2025-08-01 23:50:42　來源: 至頂頭條

北京舉報

分享至

這項由清華大學(xué)、北京人工智能研究院以及BeingBeyond公司聯(lián)合完成的研究發(fā)表于2025年5月，論文標(biāo)題為《Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills》。感興趣的讀者可以通過arXiv:2503.12533v2訪問完整論文。

你有沒有想過，未來的機(jī)器人管家會是什么樣子？不是那種只會掃地或者簡單對話的機(jī)器人，而是真正能像人類一樣思考、規(guī)劃并完成復(fù)雜任務(wù)的智能助手。清華大學(xué)的研究團(tuán)隊剛剛向我們展示了這樣一個令人驚嘆的成果——他們開發(fā)出了一個名為Being-0的人形機(jī)器人系統(tǒng)，這個機(jī)器人不僅長著人的樣子，更重要的是，它真的具備了類似人類的思維能力。

Being-0就像是一個擁有完整大腦、眼睛和雙手的智能助手。它能夠理解你的語言指令，比如"給我泡杯咖啡"，然后自己制定詳細(xì)的行動計劃：先找到杯子，再走到咖啡機(jī)前，把杯子放好，選擇咖啡類型，等待制作完成。整個過程中，它會像人一樣觀察環(huán)境，遇到障礙時調(diào)整策略，甚至在找不到物品時主動搜索。

這個機(jī)器人系統(tǒng)最神奇的地方在于它的"三層大腦"結(jié)構(gòu)。最頂層是一個強(qiáng)大的基礎(chǔ)模型（類似于ChatGPT這樣的AI大腦），負(fù)責(zé)理解任務(wù)和制定總體策略。中間層是一個叫做"連接器"的創(chuàng)新模塊，它就像人類的小腦一樣，負(fù)責(zé)將大腦的想法轉(zhuǎn)化為具體的身體動作。最底層則是各種專門的技能模塊，就像人類掌握的走路、抓取、操作等基本能力。

**一、機(jī)器人的"身體構(gòu)造"與挑戰(zhàn)**

Being-0使用的是一臺身高1.8米的Unitree H1-2人形機(jī)器人，這臺機(jī)器人擁有41個關(guān)節(jié)，就像人類一樣可以靈活運動。它的雙手是精密的多指靈巧手，能夠進(jìn)行復(fù)雜的抓取和操作動作。更有趣的是，它的"眼睛"——一對雙目攝像頭——安裝在可以轉(zhuǎn)動的"脖子"上，能夠主動調(diào)整視角來觀察環(huán)境，就像人類會轉(zhuǎn)頭尋找物品一樣。

但是，讓人形機(jī)器人真正像人一樣工作并不簡單。傳統(tǒng)的機(jī)器人要么只能執(zhí)行預(yù)設(shè)的動作序列，要么需要人類遠(yuǎn)程操控每一個細(xì)節(jié)。而且，不同于那些有輪子的機(jī)器人可以精確地移動到指定位置，人形機(jī)器人用兩條腿走路本身就是一個充滿挑戰(zhàn)的任務(wù)。它需要不斷保持平衡，步伐會有細(xì)微的偏差，這就意味著機(jī)器人很難精確地按照預(yù)定路線到達(dá)目標(biāo)位置。

更復(fù)雜的是，當(dāng)機(jī)器人需要完成"制作咖啡"這樣的長期任務(wù)時，它必須將這個大任務(wù)分解成多個小步驟：導(dǎo)航到桌子、抓取杯子、導(dǎo)航到咖啡機(jī)、放置杯子、操作咖啡機(jī)等等。每一個步驟都可能因為環(huán)境變化或執(zhí)行偏差而需要調(diào)整，這就要求機(jī)器人具備實時的判斷和適應(yīng)能力。

**二、革命性的"三層大腦"架構(gòu)**

面對這些挑戰(zhàn)，研究團(tuán)隊設(shè)計了一個極其巧妙的解決方案。他們沒有試圖用一個萬能的AI來處理所有問題，而是創(chuàng)建了一個分工明確的"三層大腦"系統(tǒng)。

最頂層的基礎(chǔ)模型就像是機(jī)器人的"戰(zhàn)略指揮官"。它負(fù)責(zé)理解人類的指令，分析當(dāng)前環(huán)境，并制定總體的行動策略。比如，當(dāng)你說"給我泡杯咖啡"時，這個指揮官會分析："首先需要找到杯子，然后去咖啡機(jī)那里，接著操作咖啡機(jī)制作咖啡。"這一層使用的是GPT-4o這樣的先進(jìn)語言模型，具備強(qiáng)大的理解和推理能力。

中間層的"連接器"模塊則是整個系統(tǒng)的核心創(chuàng)新。它就像是機(jī)器人的"執(zhí)行經(jīng)理"，負(fù)責(zé)將指揮官的戰(zhàn)略轉(zhuǎn)化為具體可執(zhí)行的動作指令。當(dāng)指揮官說"去找杯子"時，連接器會觀察當(dāng)前環(huán)境，判斷杯子在哪個方向，然后給出具體的移動指令："向左轉(zhuǎn)30度"、"前進(jìn)2米"、"向右調(diào)整10度"等等。這個連接器使用了一個輕量級的視覺-語言模型，經(jīng)過專門訓(xùn)練來理解機(jī)器人的視角和空間關(guān)系。

最底層的技能模塊庫就像是機(jī)器人的"肌肉記憶"。這里存儲著各種基礎(chǔ)技能：穩(wěn)定行走、精確抓取、物品放置、按鈕操作等等。每個技能都經(jīng)過大量訓(xùn)練，能夠在各種情況下穩(wěn)定執(zhí)行。當(dāng)連接器發(fā)出"抓取杯子"的指令時，相應(yīng)的抓取技能就會激活，自動處理手部的精細(xì)動作控制。

**三、智能"連接器"的神奇功能**

這個連接器模塊的設(shè)計可以說是整個系統(tǒng)的點睛之筆。研究團(tuán)隊發(fā)現(xiàn)，直接讓大型AI模型控制機(jī)器人存在幾個嚴(yán)重問題：反應(yīng)太慢、對3D空間理解不準(zhǔn)確、容易在復(fù)雜環(huán)境中"迷路"。

為了解決這些問題，他們開發(fā)了一個專門針對機(jī)器人控制優(yōu)化的輕量級AI模型。這個模型接受了大量機(jī)器人第一人稱視角圖像的訓(xùn)練，學(xué)會了從機(jī)器人的角度理解世界。它知道如何判斷物品的距離和方向，能夠預(yù)測接下來應(yīng)該執(zhí)行什么動作，甚至可以在找不到目標(biāo)物品時主動搜索。

連接器的一個重要功能是"視覺導(dǎo)航"。當(dāng)機(jī)器人需要走到某個物品前時，連接器會分析攝像頭看到的畫面，找到目標(biāo)物品，計算它的相對位置，然后規(guī)劃一條路徑。如果目標(biāo)物品不在視野中，連接器會讓機(jī)器人轉(zhuǎn)動頭部或身體進(jìn)行搜索，就像人類尋找東西時會四處張望一樣。

更巧妙的是，連接器還具備"姿態(tài)調(diào)整"功能。由于人形機(jī)器人走路時會有輕微的偏差，它可能會以一個不太合適的角度接近目標(biāo)物品。連接器能夠識別這種情況，并指導(dǎo)機(jī)器人進(jìn)行微調(diào)，確保機(jī)器人最終能以最佳姿態(tài)完成后續(xù)的操作任務(wù)。

**四、模塊化技能庫的構(gòu)建**

Being-0的技能庫就像是一個經(jīng)驗豐富工匠的工具箱，里面裝滿了各種專門的"工具"。研究團(tuán)隊將機(jī)器人的能力分為兩大類：運動技能和操作技能。

運動技能主要負(fù)責(zé)機(jī)器人的移動。團(tuán)隊使用強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練出了一個穩(wěn)定的步行控制器，這個控制器可以根據(jù)"操縱桿指令"讓機(jī)器人朝不同方向移動：直行、后退、左轉(zhuǎn)、右轉(zhuǎn)、側(cè)步等等。這就像是給機(jī)器人安裝了一個虛擬的游戲手柄，連接器可以通過發(fā)送相應(yīng)的指令來控制機(jī)器人的移動。

操作技能則更加復(fù)雜和多樣化。研究團(tuán)隊使用了一種叫做"示教學(xué)習(xí)"的方法來獲取這些技能。他們讓人類操作員戴上Apple Vision Pro頭顯設(shè)備，在虛擬現(xiàn)實環(huán)境中演示各種操作動作。頭顯會捕捉人類的頭部、手腕和手指動作，然后將這些動作轉(zhuǎn)換為機(jī)器人可以執(zhí)行的指令序列。

通過這種方法，團(tuán)隊收集了大量的操作技能：抓取瓶子、放置物品、操作籃子、使用咖啡機(jī)、下棋、玩積木等等。每個技能只需要50到200個演示樣本就能訓(xùn)練完成，這大大提高了技能獲取的效率。更重要的是，每個技能都有自然語言描述，比如"抓取咖啡杯"、"放置物品到桌上"，這樣連接器就能根據(jù)當(dāng)前需要選擇合適的技能。

**五、主動視覺系統(tǒng)的重要作用**

Being-0的一個突出特點是它具備"主動視覺"能力。不同于那些攝像頭固定不動的機(jī)器人，Being-0可以像人類一樣主動調(diào)整視角來觀察環(huán)境。

這種能力的重要性可以通過一個簡單的例子來理解。當(dāng)你在廚房找東西時，你會自然地轉(zhuǎn)頭看向不同的方向，甚至俯身查看桌面或抬頭看向高處。Being-0也具備類似的能力。它的攝像頭安裝在一個可以上下左右轉(zhuǎn)動的"脖子"上，能夠根據(jù)任務(wù)需要調(diào)整觀察角度。

研究團(tuán)隊發(fā)現(xiàn)，這種主動視覺能力對于機(jī)器人的性能至關(guān)重要。在導(dǎo)航任務(wù)中，機(jī)器人需要將視線調(diào)整到合適的角度來尋找目標(biāo)物品。在操作任務(wù)中，機(jī)器人需要俯視桌面來準(zhǔn)確定位物品位置。如果使用固定角度的攝像頭，機(jī)器人在很多情況下都無法獲得足夠的視覺信息來完成任務(wù)。

實驗結(jié)果顯示，配備主動視覺系統(tǒng)的Being-0在各種任務(wù)中都達(dá)到了完美的成功率，而使用固定攝像頭的版本在許多任務(wù)中都會失敗。這證明了主動視覺對于人形機(jī)器人系統(tǒng)的重要性。

**六、復(fù)雜任務(wù)的執(zhí)行過程**

讓我們通過一個具體的例子來看看Being-0是如何工作的。假設(shè)你對它說："給我制作一杯咖啡。"

首先，頂層的基礎(chǔ)模型會分析這個指令，理解這是一個需要多個步驟的復(fù)雜任務(wù)。它會生成一個大致的計劃：找到杯子、拿起杯子、找到咖啡機(jī)、操作咖啡機(jī)制作咖啡。

接下來，基礎(chǔ)模型會發(fā)出第一個子任務(wù)指令："找到并抓取杯子。"連接器接收到這個指令后，開始分析當(dāng)前的視覺輸入。它會在畫面中搜索杯子，如果沒有看到，就會指導(dǎo)機(jī)器人轉(zhuǎn)動頭部或身體進(jìn)行搜索。

一旦發(fā)現(xiàn)杯子，連接器會計算杯子的位置和距離，然后生成具體的導(dǎo)航指令。機(jī)器人開始向杯子走去，連接器持續(xù)監(jiān)控前進(jìn)過程，根據(jù)需要調(diào)整方向和速度。當(dāng)機(jī)器人接近杯子時，連接器會評估當(dāng)前的位置和姿態(tài)，如果發(fā)現(xiàn)角度不太合適，就會指導(dǎo)機(jī)器人進(jìn)行微調(diào)。

當(dāng)機(jī)器人處于合適位置后，連接器會激活"抓取杯子"技能。這個技能會控制機(jī)器人的手臂和手指，精確地抓取杯子。抓取完成后，連接器會向基礎(chǔ)模型報告任務(wù)完成。

基礎(chǔ)模型收到報告后，會發(fā)出下一個指令："找到咖啡機(jī)并放置杯子。"整個過程重復(fù)進(jìn)行，連接器負(fù)責(zé)導(dǎo)航到咖啡機(jī)、放置杯子、操作咖啡機(jī)選擇咖啡類型、確認(rèn)制作等等。

在整個過程中，如果遇到意外情況（比如杯子被移動了位置，或者咖啡機(jī)前有障礙物），連接器能夠?qū)崟r調(diào)整策略，甚至向基礎(chǔ)模型請求新的指令。這種分層協(xié)作的方式使得機(jī)器人能夠靈活應(yīng)對各種復(fù)雜情況。

**七、實驗驗證與性能表現(xiàn)**

為了驗證Being-0的能力，研究團(tuán)隊在一個面積400平方米的大型辦公環(huán)境中進(jìn)行了全面測試。這個環(huán)境包含多個辦公隔間、會議室、接待區(qū)域和走廊，就像一個真實的工作場所。

團(tuán)隊設(shè)計了五類不同復(fù)雜程度的任務(wù)來測試機(jī)器人的能力。最簡單的是"取物任務(wù)"，比如"去桌子那里拿一個瓶子"。稍復(fù)雜的是"遞送任務(wù)"，比如"把籃子拿到桌子上"。最復(fù)雜的是"制作咖啡"相關(guān)任務(wù)，包括準(zhǔn)備咖啡、制作咖啡和遞送咖啡，這些任務(wù)需要機(jī)器人完成多個步驟的復(fù)雜操作。

實驗結(jié)果令人印象深刻。在最復(fù)雜的長期任務(wù)中，Being-0達(dá)到了平均84.4%的成功率。更重要的是，與沒有連接器模塊的基礎(chǔ)版本相比，完整的Being-0系統(tǒng)在大多數(shù)任務(wù)中都實現(xiàn)了從0%到80-90%的巨大性能提升。

特別值得關(guān)注的是效率方面的改進(jìn)。由于連接器模塊可以在本地設(shè)備上運行，不需要頻繁訪問云端的大型AI模型，Being-0的導(dǎo)航速度比完全依賴云端AI的系統(tǒng)快了4.2倍。這意味著機(jī)器人能夠更快速、更流暢地執(zhí)行任務(wù)。

研究團(tuán)隊還進(jìn)行了詳細(xì)的消融實驗，驗證了系統(tǒng)各個組件的重要性。他們發(fā)現(xiàn)，連接器模塊對于系統(tǒng)性能至關(guān)重要，特別是在需要精確定位和姿態(tài)調(diào)整的任務(wù)中。主動視覺系統(tǒng)同樣不可或缺，沒有它機(jī)器人在很多情況下都無法獲得足夠的環(huán)境信息。

**八、技術(shù)創(chuàng)新與突破意義**

Being-0系統(tǒng)的技術(shù)創(chuàng)新主要體現(xiàn)在幾個方面。首先是分層架構(gòu)的設(shè)計理念。不同于之前試圖用單一AI模型解決所有問題的方法，Being-0將認(rèn)知、決策和執(zhí)行分離到不同層次，每一層都針對特定任務(wù)進(jìn)行優(yōu)化。這種設(shè)計不僅提高了系統(tǒng)的整體性能，還增強(qiáng)了可擴(kuò)展性和維護(hù)性。

連接器模塊的設(shè)計是另一個重要創(chuàng)新。這個模塊專門針對機(jī)器人的空間理解和動作規(guī)劃進(jìn)行了優(yōu)化，填補(bǔ)了高級認(rèn)知和低級控制之間的空白。它不僅能夠理解自然語言指令，還能將這些指令轉(zhuǎn)化為機(jī)器人可以執(zhí)行的具體動作序列。

模塊化技能庫的構(gòu)建方法也具有重要意義。通過將復(fù)雜的機(jī)器人控制分解為可復(fù)用的技能模塊，系統(tǒng)能夠快速獲得新的能力。每個技能只需要相對少量的訓(xùn)練數(shù)據(jù)就能掌握，這大大降低了系統(tǒng)開發(fā)和維護(hù)的成本。

從更廣泛的角度來看，Being-0代表了人形機(jī)器人發(fā)展的一個重要里程碑。它證明了通過合理的系統(tǒng)架構(gòu)設(shè)計，可以讓機(jī)器人具備類似人類的綜合能力：理解語言、規(guī)劃行動、靈活移動、精確操作。這為未來開發(fā)更加智能和實用的機(jī)器人系統(tǒng)提供了重要的技術(shù)路徑。

**九、應(yīng)用前景與未來發(fā)展**

Being-0系統(tǒng)的成功開發(fā)為機(jī)器人在各個領(lǐng)域的應(yīng)用開辟了新的可能性。在家庭服務(wù)領(lǐng)域，這樣的機(jī)器人可以成為真正的智能管家，不僅能夠完成清潔、整理等基礎(chǔ)工作，還能夠協(xié)助烹飪、照料老人、陪伴兒童等更復(fù)雜的任務(wù)。

在工業(yè)和商業(yè)環(huán)境中，Being-0這樣的系統(tǒng)可以在倉庫、工廠、醫(yī)院、酒店等場所發(fā)揮重要作用。它們能夠理解復(fù)雜的工作指令，在動態(tài)環(huán)境中自主導(dǎo)航，與人類同事協(xié)作完成各種任務(wù)。

教育和科研領(lǐng)域也將從這項技術(shù)中受益。機(jī)器人可以作為教學(xué)助手，幫助演示實驗過程，協(xié)助學(xué)生完成項目。在科研環(huán)境中，它們可以協(xié)助科學(xué)家進(jìn)行實驗操作，處理危險物質(zhì)，或者在惡劣環(huán)境中收集數(shù)據(jù)。

不過，研究團(tuán)隊也坦誠地指出了當(dāng)前系統(tǒng)的局限性。Being-0目前主要在平地環(huán)境中工作，還不具備爬樓梯、蹲下、跳躍等更復(fù)雜的運動能力。此外，系統(tǒng)仍然需要依賴云端的大型AI模型進(jìn)行高級決策，這在一定程度上限制了其完全自主的工作能力。

未來的發(fā)展方向包括增強(qiáng)機(jī)器人的運動能力，使其能夠在更多樣化的環(huán)境中工作。同時，研究團(tuán)隊也在努力開發(fā)更加輕量化的AI模型，希望能夠?qū)⒏嗟闹悄軟Q策能力集成到機(jī)器人本體中，減少對外部計算資源的依賴。

說到底，Being-0的意義不僅在于它展示了當(dāng)前機(jī)器人技術(shù)的最高水平，更重要的是它為我們描繪了一個機(jī)器人與人類和諧共存的未來圖景。在這個未來中，機(jī)器人不再是簡單的工具，而是能夠理解我們需求、協(xié)助我們工作、甚至與我們交流的智能伙伴。雖然這個未來還沒有完全到來，但Being-0已經(jīng)讓我們看到了實現(xiàn)這一愿景的可能性。

這項研究也提醒我們，真正智能的機(jī)器人系統(tǒng)需要的不僅僅是先進(jìn)的AI算法，還需要精心設(shè)計的系統(tǒng)架構(gòu)、高質(zhì)量的訓(xùn)練數(shù)據(jù)，以及各個技術(shù)模塊之間的完美協(xié)調(diào)。正如Being-0所展示的，當(dāng)這些要素有機(jī)結(jié)合時，機(jī)器人就能夠展現(xiàn)出令人驚嘆的智能和能力。

對于那些對人工智能和機(jī)器人技術(shù)感興趣的讀者，Being-0系統(tǒng)的成功開發(fā)無疑是一個令人鼓舞的里程碑。它不僅推進(jìn)了學(xué)術(shù)研究的邊界，也為產(chǎn)業(yè)應(yīng)用提供了實際可行的技術(shù)路徑。隨著技術(shù)的不斷進(jìn)步和成本的逐步降低，我們有理由相信，類似Being-0這樣的智能機(jī)器人將在不久的將來走入我們的日常生活，成為我們工作和生活中不可或缺的助手。

Q&A

Q1：Being-0和普通機(jī)器人有什么區(qū)別？ A：Being-0最大的區(qū)別在于它具備了類似人類的"思考"能力。普通機(jī)器人只能執(zhí)行預(yù)設(shè)程序，而Being-0能夠理解自然語言指令，自主制定行動計劃，并在執(zhí)行過程中根據(jù)環(huán)境變化靈活調(diào)整策略。它就像是一個真正會思考的機(jī)器人管家。

Q2：Being-0現(xiàn)在能在家庭中使用嗎？ A：目前Being-0還處于研究階段，主要用于學(xué)術(shù)驗證和技術(shù)展示。雖然它已經(jīng)能夠完成制作咖啡、取物遞送等家庭任務(wù)，但要成為真正的家用產(chǎn)品，還需要在成本控制、安全性保障和使用便利性方面進(jìn)行進(jìn)一步優(yōu)化。

Q3：Being-0的"三層大腦"架構(gòu)有什么優(yōu)勢？ A：這種分層架構(gòu)最大的優(yōu)勢是各司其職、協(xié)同工作。頂層負(fù)責(zé)理解和規(guī)劃，中間層負(fù)責(zé)轉(zhuǎn)化和協(xié)調(diào)，底層負(fù)責(zé)具體執(zhí)行。這樣既保證了決策的智能性，又確保了執(zhí)行的準(zhǔn)確性和效率，避免了單一AI模型處理所有任務(wù)時可能出現(xiàn)的問題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.