7月末,2025世界人工智能大會(huì)現(xiàn)場(chǎng)人潮涌動(dòng)。智能終端展區(qū)H3館內(nèi),兩臺(tái)名為“小量”和“小白”的通用輪式雙臂機(jī)器人“量子1號(hào)”,成為全場(chǎng)焦點(diǎn)。一舉一動(dòng),皆引參展者駐足。在復(fù)雜開放的會(huì)場(chǎng)環(huán)境下,只需簡(jiǎn)單的語音指令,“小量”就能根據(jù)參展者喜好,自主拿起對(duì)應(yīng)顏色的香包,制作個(gè)性化香囊。任務(wù)全部完成后,還能把香囊精準(zhǔn)遞送到參展者手中。和“小量”同時(shí)執(zhí)行任務(wù)的,是家務(wù)整理區(qū)的“小白”。它正在將廢紙團(tuán)、空飲料瓶等垃圾扔進(jìn)垃圾桶,并把隨機(jī)散落的衣物收納進(jìn)臟衣簍。家務(wù)整理完畢后,“小白”主動(dòng)將存放在貨架上的香囊材料放至補(bǔ)貨臺(tái),等待“小量”過來拿取。
(來源:資料圖)
8月初,在2025年世界機(jī)器人大會(huì)召開前夕,該公司同步發(fā)布新品——新一代具身輪式仿人形機(jī)器人“量子2號(hào)”。該機(jī)器人采用仿生擬人構(gòu)型、輪式底盤設(shè)計(jì)和7自由度仿生機(jī)械臂,能精準(zhǔn)覆蓋0-2m立體作業(yè)空間,不僅能完美適配商業(yè)綜合體及公共場(chǎng)所移動(dòng)需求,還可實(shí)現(xiàn)多場(chǎng)景任務(wù)秒級(jí)切換,運(yùn)動(dòng)表現(xiàn)能與人類媲美。
(來源:資料圖)
這家公司便是自變量機(jī)器人(X Square Robot),其成立于2023年12月,核心團(tuán)隊(duì)匯聚全球頂尖AI與機(jī)器人領(lǐng)域?qū)<?,致力于推?dòng)具身智能與機(jī)器人技術(shù)創(chuàng)新與發(fā)展。據(jù)了解,截至目前,該公司已完成7輪融資,累計(jì)金額超過10億元人民幣,融資節(jié)奏與規(guī)模均屬國內(nèi)具身智能領(lǐng)域第一梯隊(duì)。
創(chuàng)始人兼CEO王潛。在清華大學(xué)先后獲得學(xué)士和碩士學(xué)位,碩士期間,他發(fā)表論文成為全球最早提出Attention機(jī)制的研究者之一,該研究后來成為Transformer架構(gòu)的核心。碩士畢業(yè)后,他赴美深造,在美國南加州大學(xué)攻讀博士學(xué)位,聚焦機(jī)器人學(xué)習(xí)與人機(jī)交互研究。懷揣著對(duì)機(jī)器人技術(shù)的熱情,他在回國后創(chuàng)立了這家具身智能企業(yè)。
自研完全端到端統(tǒng)一VLA模型,消除機(jī)器人從感知到動(dòng)作生成的巨大鴻溝
自變量自研的完全端到端統(tǒng)一視覺-語言-動(dòng)作(VLA,Vision-Language-Action)模型WALL-A。可以實(shí)現(xiàn)機(jī)器人自主感知、決策與高精度操作,解決從感知到最后動(dòng)作生成之間的巨大鴻溝。
它的核心突破,主要體現(xiàn)在三個(gè)方面。
第一,強(qiáng)大的泛化能力。模型在部分未見過的物理場(chǎng)景中,無需針對(duì)新場(chǎng)景進(jìn)行額外訓(xùn)練,已經(jīng)能部分實(shí)現(xiàn)零樣本泛化。
其二,具身思維鏈(CoT,Chain of Thought)。模型通過多步邏輯推理,將抽象任務(wù)拆解為可執(zhí)行的子步驟,并能夠根據(jù)實(shí)時(shí)變化調(diào)整行動(dòng)策略。
其三,統(tǒng)一架構(gòu)。將視覺、語言、動(dòng)作等所有模態(tài)信息,轉(zhuǎn)換為統(tǒng)一的token序列,再送入一個(gè)Transformer核心,從而實(shí)現(xiàn)端到端統(tǒng)一學(xué)習(xí)。這能讓系統(tǒng)在面對(duì)新任務(wù)時(shí),可以像人類一樣思考和工作,不再依賴模塊化的信息傳遞。
(來源:資料圖)
目前,WALL-A模型已經(jīng)能完成拉拉鏈、扣扣子等長序列復(fù)雜精細(xì)操作,并在展會(huì)前夕短短幾天時(shí)間內(nèi)學(xué)會(huì)香囊制作等長流程柔性物體處理,多機(jī)協(xié)作、跨任務(wù)切換及抗干擾場(chǎng)景。具體表現(xiàn)為:在簡(jiǎn)單任務(wù)中自主學(xué)習(xí)到了少量數(shù)據(jù)訓(xùn)練的動(dòng)作模式;融合視覺、語言與動(dòng)作實(shí)時(shí)進(jìn)行推理規(guī)劃;任務(wù)被打斷或物體移位時(shí),能依據(jù)環(huán)境修正動(dòng)作以持續(xù)完成任務(wù)。
關(guān)于COT,必須指出的是,其在具身智能領(lǐng)域的應(yīng)用與純語言模型存在本質(zhì)差異。如王潛所言,行業(yè)內(nèi)多數(shù)聲稱采用COT的做法,其實(shí)是調(diào)用語言模型做high level的規(guī)劃推理。
要想將COT真正引入具身世界,需要攻克兩大核心難題。首先,多模態(tài)輸入輸出匹配。具身智能的COT需構(gòu)建“輸入-輸出”閉環(huán),即模型輸出需能重新輸入自身以形成思維鏈。
針對(duì)此,自變量機(jī)器人打造多模態(tài)理解生成一體化模型,突破常規(guī)VLA模型的局限,實(shí)現(xiàn)視覺、語言、動(dòng)作等多模態(tài)的輸入輸出匹配,進(jìn)而構(gòu)建完整的思維鏈閉環(huán)。
“常規(guī)VLA模型輸入的是視覺和語言,輸出的是動(dòng)作,但我們構(gòu)建的長思維鏈,要求輸出中包含語言和視覺。”王潛表示。
另外,還通過后訓(xùn)練方式,進(jìn)一步提升模型對(duì)空間位置、任務(wù)的深入理解與規(guī)劃能力,實(shí)現(xiàn)端到端的深度整合。
據(jù)王潛介紹,模型可輸出完整思維序列與過程,除語言外,還能通過視覺、動(dòng)作等多模態(tài)記錄,且能根據(jù)人類提供的新信息重新思考,更貼近人類從思考到行動(dòng)的邏輯;即便人類在交互中隨時(shí)打斷或干預(yù),模型也能重新規(guī)劃推理。
從模型能力看,現(xiàn)階段難點(diǎn)仍聚焦于構(gòu)建長思維鏈,需要進(jìn)一步打通視覺、語言與行動(dòng)的壁壘,實(shí)現(xiàn)機(jī)器人在行動(dòng)中感知、感知中思考,融合物理反饋與行動(dòng)思考過程,讓思考結(jié)果及時(shí)轉(zhuǎn)化為行動(dòng),以適應(yīng)復(fù)雜的物理世界。
王潛解釋道:“這需要融合物理與虛擬世界的思考、物理反饋與干涉動(dòng)作,遠(yuǎn)比單純多模態(tài)或語言模型中的CoT更復(fù)雜困難?!?/p>
可廣泛應(yīng)用在泛商業(yè)、康養(yǎng)、工業(yè)等場(chǎng)景,將助力未來機(jī)器人走入千家萬戶
“量子1號(hào)”在大會(huì)上重點(diǎn)展示的制作香囊任務(wù)引發(fā)關(guān)注。作為全場(chǎng)最難任務(wù),該任務(wù)涵蓋上下料、分揀、填充、貼標(biāo)簽等長序列流程,需處理柔性物體與高度不可控環(huán)境,且允許游客干擾以驗(yàn)證抗干擾與泛化能力。
該任務(wù)背后的核心技術(shù)能力體現(xiàn)在:模型僅需幾天短訓(xùn)即能完成復(fù)雜任務(wù);同一模型“一腦多用”,支持同步制作香囊、交互及自主移動(dòng)上下料;清理垃圾、收納臟衣服;多機(jī)器人協(xié)同補(bǔ)料;在物流和工業(yè)場(chǎng)景中的任務(wù)完成速度媲美人為操作;能判斷人手狀態(tài)、理解人類意圖,實(shí)現(xiàn)精準(zhǔn)避障與安全控制。
顯然,“量子1號(hào)”能完成的任務(wù)已非常廣泛。那么,自變量機(jī)器人又為何決定推出“量子2號(hào)”呢?
首先,解決負(fù)載問題。“量子2號(hào)”通過硬件升級(jí),能應(yīng)對(duì)高負(fù)載操作需求。
其次,拓展工作空間與操作范圍。“量子2號(hào)”身高1.72米,再加上臂展長度,可觸及0-2m的工作空間,且腰部采用折疊式設(shè)計(jì),可實(shí)現(xiàn)類似人踮腳、彎腰等動(dòng)作,能直接夠到地面及高處,覆蓋空間更全面。
另外,增強(qiáng)交互性與場(chǎng)景適配?!傲孔?號(hào)”配備交互屏,能提供更豐富的人機(jī)交互價(jià)值,更適配服務(wù)場(chǎng)景中的交互需求。
兩款機(jī)器人均為輪式地盤構(gòu)造。和傳統(tǒng)雙足機(jī)器人相比,它們的主要區(qū)別體現(xiàn)在結(jié)構(gòu)復(fù)雜性、成本、安全性等方面。雖然后者更適應(yīng)戶外復(fù)雜地形,且因外形更接近人類,而更能滿足人類對(duì)交互對(duì)象的情緒需求。但前者由于結(jié)構(gòu)復(fù)雜度低,所以不管是成本還是安全性,都要比后者高,在室內(nèi)場(chǎng)景下的表現(xiàn)更優(yōu)。
基于此,從應(yīng)用場(chǎng)景來看,自變量機(jī)器人可廣泛應(yīng)用于酒店、零售店等泛商業(yè)場(chǎng)景,養(yǎng)老機(jī)構(gòu)等康養(yǎng)場(chǎng)景,以及工業(yè)和家庭場(chǎng)景。
據(jù)了解,目前該公司已與頭部酒店、養(yǎng)老機(jī)構(gòu)合作探索落地場(chǎng)景,包括清潔任務(wù)、基礎(chǔ)服務(wù)等。
綜上可以看出,自變量機(jī)器人既是一家基礎(chǔ)模型公司,又是面向終端的產(chǎn)品公司?!拔覀兤谕磥頇C(jī)器人能走入千家萬戶,替代千行百業(yè)中需要人工完成的工作?!蓖鯘摫硎尽?/p>
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.