網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

“一腦多用”，自變量機(jī)器人精準(zhǔn)實(shí)現(xiàn)跨場(chǎng)景多任務(wù)復(fù)雜精細(xì)操作

2025-08-18 09:44:46　來源: DeepTech深科技

北京舉報(bào)

分享至

7月末，2025世界人工智能大會(huì)現(xiàn)場(chǎng)人潮涌動(dòng)。智能終端展區(qū)H3館內(nèi)，兩臺(tái)名為“小量”和“小白”的通用輪式雙臂機(jī)器人“量子1號(hào)”，成為全場(chǎng)焦點(diǎn)。一舉一動(dòng)，皆引參展者駐足。在復(fù)雜開放的會(huì)場(chǎng)環(huán)境下，只需簡(jiǎn)單的語音指令，“小量”就能根據(jù)參展者喜好，自主拿起對(duì)應(yīng)顏色的香包，制作個(gè)性化香囊。任務(wù)全部完成后，還能把香囊精準(zhǔn)遞送到參展者手中。和“小量”同時(shí)執(zhí)行任務(wù)的，是家務(wù)整理區(qū)的“小白”。它正在將廢紙團(tuán)、空飲料瓶等垃圾扔進(jìn)垃圾桶，并把隨機(jī)散落的衣物收納進(jìn)臟衣簍。家務(wù)整理完畢后，“小白”主動(dòng)將存放在貨架上的香囊材料放至補(bǔ)貨臺(tái)，等待“小量”過來拿取。

（來源：資料圖）

8月初，在2025年世界機(jī)器人大會(huì)召開前夕，該公司同步發(fā)布新品——新一代具身輪式仿人形機(jī)器人“量子2號(hào)”。該機(jī)器人采用仿生擬人構(gòu)型、輪式底盤設(shè)計(jì)和7自由度仿生機(jī)械臂，能精準(zhǔn)覆蓋0-2m立體作業(yè)空間，不僅能完美適配商業(yè)綜合體及公共場(chǎng)所移動(dòng)需求，還可實(shí)現(xiàn)多場(chǎng)景任務(wù)秒級(jí)切換，運(yùn)動(dòng)表現(xiàn)能與人類媲美。

（來源：資料圖）

這家公司便是自變量機(jī)器人（X Square Robot），其成立于2023年12月，核心團(tuán)隊(duì)匯聚全球頂尖AI與機(jī)器人領(lǐng)域?qū)＜?，致力于推?dòng)具身智能與機(jī)器人技術(shù)創(chuàng)新與發(fā)展。據(jù)了解，截至目前，該公司已完成7輪融資，累計(jì)金額超過10億元人民幣，融資節(jié)奏與規(guī)模均屬國內(nèi)具身智能領(lǐng)域第一梯隊(duì)。

創(chuàng)始人兼CEO王潛。在清華大學(xué)先后獲得學(xué)士和碩士學(xué)位，碩士期間，他發(fā)表論文成為全球最早提出Attention機(jī)制的研究者之一，該研究后來成為Transformer架構(gòu)的核心。碩士畢業(yè)后，他赴美深造，在美國南加州大學(xué)攻讀博士學(xué)位，聚焦機(jī)器人學(xué)習(xí)與人機(jī)交互研究。懷揣著對(duì)機(jī)器人技術(shù)的熱情，他在回國后創(chuàng)立了這家具身智能企業(yè)。

自研完全端到端統(tǒng)一VLA模型，消除機(jī)器人從感知到動(dòng)作生成的巨大鴻溝

自變量自研的完全端到端統(tǒng)一視覺-語言-動(dòng)作（VLA，Vision-Language-Action）模型WALL-A。可以實(shí)現(xiàn)機(jī)器人自主感知、決策與高精度操作，解決從感知到最后動(dòng)作生成之間的巨大鴻溝。

它的核心突破，主要體現(xiàn)在三個(gè)方面。

第一，強(qiáng)大的泛化能力。模型在部分未見過的物理場(chǎng)景中，無需針對(duì)新場(chǎng)景進(jìn)行額外訓(xùn)練，已經(jīng)能部分實(shí)現(xiàn)零樣本泛化。

其二，具身思維鏈（CoT，Chain of Thought）。模型通過多步邏輯推理，將抽象任務(wù)拆解為可執(zhí)行的子步驟，并能夠根據(jù)實(shí)時(shí)變化調(diào)整行動(dòng)策略。

其三，統(tǒng)一架構(gòu)。將視覺、語言、動(dòng)作等所有模態(tài)信息，轉(zhuǎn)換為統(tǒng)一的token序列，再送入一個(gè)Transformer核心，從而實(shí)現(xiàn)端到端統(tǒng)一學(xué)習(xí)。這能讓系統(tǒng)在面對(duì)新任務(wù)時(shí)，可以像人類一樣思考和工作，不再依賴模塊化的信息傳遞。

（來源：資料圖）

目前，WALL-A模型已經(jīng)能完成拉拉鏈、扣扣子等長序列復(fù)雜精細(xì)操作，并在展會(huì)前夕短短幾天時(shí)間內(nèi)學(xué)會(huì)香囊制作等長流程柔性物體處理，多機(jī)協(xié)作、跨任務(wù)切換及抗干擾場(chǎng)景。具體表現(xiàn)為：在簡(jiǎn)單任務(wù)中自主學(xué)習(xí)到了少量數(shù)據(jù)訓(xùn)練的動(dòng)作模式；融合視覺、語言與動(dòng)作實(shí)時(shí)進(jìn)行推理規(guī)劃；任務(wù)被打斷或物體移位時(shí)，能依據(jù)環(huán)境修正動(dòng)作以持續(xù)完成任務(wù)。

關(guān)于COT，必須指出的是，其在具身智能領(lǐng)域的應(yīng)用與純語言模型存在本質(zhì)差異。如王潛所言，行業(yè)內(nèi)多數(shù)聲稱采用COT的做法，其實(shí)是調(diào)用語言模型做high level的規(guī)劃推理。

要想將COT真正引入具身世界，需要攻克兩大核心難題。首先，多模態(tài)輸入輸出匹配。具身智能的COT需構(gòu)建“輸入-輸出”閉環(huán)，即模型輸出需能重新輸入自身以形成思維鏈。

針對(duì)此，自變量機(jī)器人打造多模態(tài)理解生成一體化模型，突破常規(guī)VLA模型的局限，實(shí)現(xiàn)視覺、語言、動(dòng)作等多模態(tài)的輸入輸出匹配，進(jìn)而構(gòu)建完整的思維鏈閉環(huán)。

“常規(guī)VLA模型輸入的是視覺和語言，輸出的是動(dòng)作，但我們構(gòu)建的長思維鏈，要求輸出中包含語言和視覺。”王潛表示。

另外，還通過后訓(xùn)練方式，進(jìn)一步提升模型對(duì)空間位置、任務(wù)的深入理解與規(guī)劃能力，實(shí)現(xiàn)端到端的深度整合。

據(jù)王潛介紹，模型可輸出完整思維序列與過程，除語言外，還能通過視覺、動(dòng)作等多模態(tài)記錄，且能根據(jù)人類提供的新信息重新思考，更貼近人類從思考到行動(dòng)的邏輯；即便人類在交互中隨時(shí)打斷或干預(yù)，模型也能重新規(guī)劃推理。

從模型能力看，現(xiàn)階段難點(diǎn)仍聚焦于構(gòu)建長思維鏈，需要進(jìn)一步打通視覺、語言與行動(dòng)的壁壘，實(shí)現(xiàn)機(jī)器人在行動(dòng)中感知、感知中思考，融合物理反饋與行動(dòng)思考過程，讓思考結(jié)果及時(shí)轉(zhuǎn)化為行動(dòng)，以適應(yīng)復(fù)雜的物理世界。

王潛解釋道：“這需要融合物理與虛擬世界的思考、物理反饋與干涉動(dòng)作，遠(yuǎn)比單純多模態(tài)或語言模型中的CoT更復(fù)雜困難?！?/p>

可廣泛應(yīng)用在泛商業(yè)、康養(yǎng)、工業(yè)等場(chǎng)景，將助力未來機(jī)器人走入千家萬戶

“量子1號(hào)”在大會(huì)上重點(diǎn)展示的制作香囊任務(wù)引發(fā)關(guān)注。作為全場(chǎng)最難任務(wù)，該任務(wù)涵蓋上下料、分揀、填充、貼標(biāo)簽等長序列流程，需處理柔性物體與高度不可控環(huán)境，且允許游客干擾以驗(yàn)證抗干擾與泛化能力。

該任務(wù)背后的核心技術(shù)能力體現(xiàn)在：模型僅需幾天短訓(xùn)即能完成復(fù)雜任務(wù)；同一模型“一腦多用”，支持同步制作香囊、交互及自主移動(dòng)上下料；清理垃圾、收納臟衣服；多機(jī)器人協(xié)同補(bǔ)料；在物流和工業(yè)場(chǎng)景中的任務(wù)完成速度媲美人為操作；能判斷人手狀態(tài)、理解人類意圖，實(shí)現(xiàn)精準(zhǔn)避障與安全控制。

顯然，“量子1號(hào)”能完成的任務(wù)已非常廣泛。那么，自變量機(jī)器人又為何決定推出“量子2號(hào)”呢？

首先，解決負(fù)載問題。“量子2號(hào)”通過硬件升級(jí)，能應(yīng)對(duì)高負(fù)載操作需求。

其次，拓展工作空間與操作范圍。“量子2號(hào)”身高1.72米，再加上臂展長度，可觸及0-2m的工作空間，且腰部采用折疊式設(shè)計(jì)，可實(shí)現(xiàn)類似人踮腳、彎腰等動(dòng)作，能直接夠到地面及高處，覆蓋空間更全面。

另外，增強(qiáng)交互性與場(chǎng)景適配?！傲孔?號(hào)”配備交互屏，能提供更豐富的人機(jī)交互價(jià)值，更適配服務(wù)場(chǎng)景中的交互需求。

兩款機(jī)器人均為輪式地盤構(gòu)造。和傳統(tǒng)雙足機(jī)器人相比，它們的主要區(qū)別體現(xiàn)在結(jié)構(gòu)復(fù)雜性、成本、安全性等方面。雖然后者更適應(yīng)戶外復(fù)雜地形，且因外形更接近人類，而更能滿足人類對(duì)交互對(duì)象的情緒需求。但前者由于結(jié)構(gòu)復(fù)雜度低，所以不管是成本還是安全性，都要比后者高，在室內(nèi)場(chǎng)景下的表現(xiàn)更優(yōu)。

基于此，從應(yīng)用場(chǎng)景來看，自變量機(jī)器人可廣泛應(yīng)用于酒店、零售店等泛商業(yè)場(chǎng)景，養(yǎng)老機(jī)構(gòu)等康養(yǎng)場(chǎng)景，以及工業(yè)和家庭場(chǎng)景。

據(jù)了解，目前該公司已與頭部酒店、養(yǎng)老機(jī)構(gòu)合作探索落地場(chǎng)景，包括清潔任務(wù)、基礎(chǔ)服務(wù)等。

綜上可以看出，自變量機(jī)器人既是一家基礎(chǔ)模型公司，又是面向終端的產(chǎn)品公司?！拔覀兤谕磥頇C(jī)器人能走入千家萬戶，替代千行百業(yè)中需要人工完成的工作?！蓖鯘摫硎尽?/p>

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.