夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

《現(xiàn)代電影技術(shù)》|吳振等:基于具身智能的舞蹈人形機器人系統(tǒng)框架研究

0
分享至


本文刊發(fā)于《現(xiàn)代電影技術(shù)》2025年第11期

專家點評

具身智能人形機器人研究是當(dāng)前人工智能的前沿領(lǐng)域,旨在打造適配人類環(huán)境、能替代體力勞動的通用具身智能體,具有重要的理論意義和實際應(yīng)用價值。其核心技術(shù)涵蓋雙足動態(tài)運動、全身協(xié)調(diào)控制、多模態(tài)感知融合以及高密度能源系統(tǒng)等,但動態(tài)穩(wěn)定性與動作協(xié)調(diào)性仍極具挑戰(zhàn)。近年來,舞蹈人形機器人逐漸進入人們的視野,比如宇樹科技的舞蹈人形機器人Unitree H1在春節(jié)聯(lián)歡晚會完成了令人印象深刻的扭秧歌表演。與通用人形機器人相比,舞蹈人形機器人面臨更多的技術(shù)挑戰(zhàn),比如音樂與動作的精準(zhǔn)同步;藝術(shù)性、表現(xiàn)力、情感傳達等。具身智能是人工智能領(lǐng)域非?;钴S的一個重要分支,通過物理實體與環(huán)境實時交互,實現(xiàn)感知、認(rèn)知、決策和行動一體化?!痘诰呱碇悄艿奈璧溉诵螜C器人系統(tǒng)框架研究》一文提出一種基于具身智能的舞蹈人形機器人系統(tǒng)框架,通過多步運動處理和自適應(yīng)運動追蹤,增加對機身線速度內(nèi)部潛在狀態(tài)的估計器和探索性好奇心獎勵機制訓(xùn)練人形機器人掌握復(fù)雜的英歌舞。該框架提升了機器人在復(fù)雜舞蹈動作中的學(xué)習(xí)與表現(xiàn)能力,而且在舞蹈動作的穩(wěn)定性與自然性方面有一定的突破,為影視創(chuàng)作、藝術(shù)展演與人機交互等領(lǐng)域提供了新的技術(shù)手段。

—— 劉世光

教授

天津大學(xué)計算機科學(xué)與技術(shù)學(xué)院博士生導(dǎo)師

【項目信息】2024年北京高等教育本科教學(xué)改革創(chuàng)新項目“人工智能編舞及其舞臺視覺設(shè)計方法研究”(0625013)。

作 者 簡 介


吳 振

王文強

北京舞蹈學(xué)院副教授,主要研究方向:藝術(shù)與科技。

松延動力(北京)科技有限公司算法副總裁,主要研究方向:機器人運動控制。

崔文昊

覃幫羽

王文強

松延動力(北京)科技有限公司算法工程師,主要研究方向:機器人運動控制。

北京舞蹈學(xué)院教授,主要研究方向:舞臺藝術(shù)設(shè)計。

周立新

基于具身智能的舞蹈人形機器人通過模仿人類動作掌握舞蹈技能,但即使經(jīng)過獎勵和課程設(shè)計,現(xiàn)有算法也僅能追蹤平滑、低速的人類運動。本文提出一種舞蹈人形機器人系統(tǒng)框架,在基于物理的人形運動控制(PBHC)方法基礎(chǔ)上,通過多步運動處理和自適應(yīng)運動追蹤,增加對機身線速度內(nèi)部潛在狀態(tài)的估計器(Estimator)和探索性好奇心獎勵(Curiosity Reward)機制,訓(xùn)練人形機器人掌握復(fù)雜的英歌舞。實驗成功將動作數(shù)據(jù)部署到松延動力N2人形機器人上,N2在現(xiàn)實場景中展示的步態(tài)和舞蹈動作與模擬器中的圖像保持了高度一致性。研究表明,該框架不僅提升了機器人在復(fù)雜舞蹈動作中的學(xué)習(xí)與表現(xiàn)能力,還在舞蹈動作的穩(wěn)定性與自然性方面取得了突破,為舞蹈機器人在影視創(chuàng)作、藝術(shù)展演與人機交互領(lǐng)域的應(yīng)用提供了新的技術(shù)路徑。

關(guān)鍵詞

具身智能;舞蹈;人形機器人;人形運動控制

1引言

具身(Embodiment) 最初的概念是“身體對心靈有意義”,指支持感覺和運動的物理身體[1]。具身智能(Embodied Intelligence, EI) 是人工智能(AI)的一個子領(lǐng)域,指專注于與物理環(huán)境交互的智能體,其通過物理實體與環(huán)境實時交互,實現(xiàn)感知、認(rèn)知、決策和行動一體化,即感覺運動耦合和情境智能。與單純的被動觀察不同,EI智能體對其環(huán)境采取行動并從反應(yīng)中學(xué)習(xí)[2]。人形機器人通常被定義為具有人類外觀或擬人化特征的機器人[3]。憑借其類人的形態(tài)結(jié)構(gòu),人形機器人被視為具身智能體的理想載體。然而,相較于四足機器人,人形機器人因重心較高、自由度更大以及體型更為龐大,在運動技能學(xué)習(xí)與控制方面面臨更大挑戰(zhàn)[4]。本文所研究的人形機器人屬于智能型機器人,具備具身智能,能夠復(fù)制人類的形態(tài)與功能,并在執(zhí)行不同任務(wù)時模仿多樣化的人類行為[5]。隨著技術(shù)的進步,機器人開始逐漸涉足如舞蹈表演這類更復(fù)雜和藝術(shù)化的任務(wù),并有望作為“演員”參與電影表演,承擔(dān)部分特技動作,舞蹈人形機器人研究應(yīng)運而生。

本文借鑒基于物理的人形運動控制(Physics?Based Humanoid motion Control,PBHC)[6]方法,在該方法基礎(chǔ)上,加入機身線速度內(nèi)部潛在狀態(tài)的估計器(Estimator),可有效解決人形機器人在舞蹈動作執(zhí)行過程中無法完成抬腿和劇烈抖動的技術(shù)難題;同時,通過在獎勵機制中引入探索性好奇心獎勵(Curiosity Reward),促進人形機器人在訓(xùn)練過程中加速策略的探索,從而有效提升其對專家數(shù)據(jù)動作的學(xué)習(xí)能力。該框架應(yīng)用于松延動力(北京)科技有限公司(以下簡稱“松延動力”)N2人形機器人的訓(xùn)練與部署,使其通過模仿專業(yè)演員的表演動作具備了穩(wěn)定且富有表現(xiàn)力的舞蹈表演效果。

2研究背景

當(dāng)前,舞蹈人形機器人正逐漸成為展演領(lǐng)域的重要技術(shù)形態(tài)。2024年春節(jié)聯(lián)歡晚會上,宇樹 H1 機器人完成了扭秧歌表演;2025年8月于北京舉辦的2025世界人形機器人運動會亦將機器人單機舞蹈與群舞項目納入正式賽事。追溯其歷史淵源,早在1952年,華特迪士尼公司即設(shè)立幻想工程(Imagineering)研發(fā)部門,并通過自動機(Automatronics)等系列計劃推動智能表演機器人研究,其中包括能夠替代人類完成高難度空中特技表演的“超級英雄特技”(Stuntronics)機器人[7]。此外,雙足機器人 Blue 已在游樂園環(huán)境中實現(xiàn)連續(xù) 10 小時無跌倒運行,其兼具表現(xiàn)力動作與穩(wěn)定動態(tài)移動的技術(shù)特征,使其能夠與觀眾進行有效交互[8]。

機器人學(xué)界普遍認(rèn)為,使機器人掌握更多動作能力對于推動該領(lǐng)域的發(fā)展具有重要意義[9]。自20世紀(jì)90年代以來,強化學(xué)習(xí)(Reinforcement Learning, RL)與模仿學(xué)習(xí)(Imitation Learning, IL)已成為機器人研究中取得顯著成果的兩類主要機器學(xué)習(xí)(ML)方法[10]。其中,強化學(xué)習(xí)是一種通過智能體與環(huán)境交互來學(xué)習(xí)最優(yōu)決策策略的機器學(xué)習(xí)范式[11],在以最少先驗知識教授人形機器人基本運動技能方面表現(xiàn)出突出的效果。然而,當(dāng)獎勵信號較弱時,探索過程往往會導(dǎo)致不自然的步態(tài),從而引發(fā)高能耗與機械磨損,進而對實際部署造成限制。模仿學(xué)習(xí)是一類通過模仿專家行為來訓(xùn)練智能體的機器學(xué)習(xí)方法[12]。其側(cè)重于從專家行為數(shù)據(jù)中提取有價值的信息〔本文利用動作捕捉(Motion Capture)技術(shù)獲取專家行為數(shù)據(jù)〕,并結(jié)合分類或回歸等機器學(xué)習(xí)技術(shù)對模型進行訓(xùn)練,使其再現(xiàn)專家行為。模仿學(xué)習(xí)的主要優(yōu)勢在于數(shù)據(jù)效率較高,可充分利用已有專家行為數(shù)據(jù),在有限樣本條件下快速獲得具備基本行為能力的模型,從而使機器人能夠較快掌握復(fù)雜動作。然而,其局限性在于高度依賴專家演示,且所學(xué)技能往往難以泛化至未包含于演示中的新情境。

與在游戲或動畫影像純數(shù)據(jù)虛擬環(huán)境中的模擬相比,機器人在物理世界中需要同時處理感知與行動問題,從而使任務(wù)復(fù)雜性顯著增加,并面臨具有本質(zhì)差異的挑戰(zhàn)。

強化學(xué)習(xí)在位移運動(Locomotion)任務(wù)中,仿真訓(xùn)練和真實世界部署的最大差異主要體現(xiàn)在環(huán)境、硬件和訓(xùn)練部署3方面。在環(huán)境方面,仿真環(huán)境的物理屬性和干擾因素相對簡化且穩(wěn)定,而真實世界中物理參數(shù)復(fù)雜多變且存在大量不可預(yù)測的干擾。硬件方面,每臺真實機器人都存在制造誤差、零部件磨損以及傳感器精度受限等問題;而仿真環(huán)境中,每個零部件執(zhí)行期都是精密、準(zhǔn)確、零公差的,二者存在較大差異。在訓(xùn)練與部署上,仿真訓(xùn)練樣本效率高、試錯成本低,但策略直接遷移到真實世界時,由于環(huán)境和硬件差異,常面臨性能下降和仿真到現(xiàn)實差距(Sim?to?Real Gap)的挑戰(zhàn)。因此,在舞蹈人形機器人動作訓(xùn)練中,通常采用模仿學(xué)習(xí)的方法,并探索利用少量真實數(shù)據(jù)對仿真訓(xùn)練進行校準(zhǔn),以提升物理逼真度,縮小機器人在仿真與現(xiàn)實間的性能差距[13]。

近年來,動作捕捉系統(tǒng)與動作生成方法取得進展, AIST++ 等涵蓋人類舞蹈并附帶文本描述的大規(guī)模舞蹈動作數(shù)據(jù)集的發(fā)布,使人形機器人在全身控制與復(fù)雜舞蹈模仿方面展現(xiàn)出廣闊的發(fā)展前景[14]。然而,該領(lǐng)域仍面臨多重挑戰(zhàn):其一,傳統(tǒng)人形機器人訓(xùn)練方法雖能支持走路、揮手等低速、平滑動作的模仿,但在復(fù)雜高速舞蹈動作中效率較低,通常一次僅能穩(wěn)定訓(xùn)練約10 s甚至更短的動作片段;其二,人類演員的動作序列往往與人形機器人在關(guān)節(jié)約束、自由度(DoF)分布及動力學(xué)特性上存在差異,易出現(xiàn)違反關(guān)節(jié)或穩(wěn)定性約束的情況,導(dǎo)致物理維度的不可行,從而產(chǎn)生較大誤差、動作失敗乃至跌倒。此外,現(xiàn)有方法普遍缺乏自適應(yīng)的誤差容忍機制,進一步限制了其在真實舞蹈表演場景中的應(yīng)用。

3基于具身智能的舞蹈人形機器人系統(tǒng)

3.1系統(tǒng)框架

在2025世界人形機器人運動會上,北京舞蹈學(xué)院與松延動力組成聯(lián)合代表隊參加了單機舞蹈表演賽事,選用松延動力N2人形機器人[15],其身高1.2 m,體重30 kg,外形相對小巧,具18個自由度用于控制,每條手臂具4個自由度,每條腿具5個自由度,最大關(guān)節(jié)輸出扭矩可達 200 N·m。

為提升人形機器人在高動態(tài)、復(fù)雜全身舞蹈動作模仿與表演中的穩(wěn)定性,研究團隊在對N2的英歌舞訓(xùn)練任務(wù)中引入PBHC方法,以彌合仿真到現(xiàn)實的差距。在此基礎(chǔ)上,研究團隊提出的改進框架(圖1)包含3個核心模塊:(1)使用動作捕捉提取和處理動作;(2)基于最佳追蹤因子的自適應(yīng)運動追蹤;(3)強化學(xué)習(xí)訓(xùn)練框架和仿真到現(xiàn)實的部署。


圖1 總體框架圖

研究團隊通過兩階段框架來應(yīng)對英歌舞中快速大幅運動帶來的挑戰(zhàn)。(1)在運動處理階段使用光學(xué)動作捕捉技術(shù)從演員舞蹈表演中提取動作,建立基于物理的指標(biāo)來評估人體模型的物理量,從而過濾超出人形機器人物理極限的運動。之后,計算運動的接觸掩碼(Contact Masks)進行運動校正,使用逆向運動學(xué)(Inverse Kinematics, IK)將處理后的運動重映射到人形機器人上。(2)在運動模仿階段借鑒自適應(yīng)運動追蹤機制通過追蹤因子調(diào)整追蹤獎勵,根據(jù)追蹤誤差調(diào)整追蹤因子以適應(yīng)不同的運動。隨后,制定雙層優(yōu)化(Bi?level Optimization, BLO) [16]來推導(dǎo)最優(yōu)因子,并設(shè)計了一種自適應(yīng)更新規(guī)則,該規(guī)則在線估計追蹤誤差,在訓(xùn)練過程中動態(tài)優(yōu)化追蹤因子。

基于以上框架,研究團隊設(shè)計了一種用于策略優(yōu)化的非對稱演員-評論家(Actor?Critic)架構(gòu)。演員(Actor)完全依賴于局部觀測,即決策時只使用人形機器人能實時感知到的局部傳感數(shù)據(jù),而不依賴于全局或額外信息,從而保證策略能在真實環(huán)境中落地;評論家(Critic)則采用了獎勵向量化技術(shù),利用特權(quán)信息來改進值估計。另外,我們在此基礎(chǔ)上增加了對機身線速度內(nèi)部潛在狀態(tài)的估計器和探索性好奇心獎勵機制。

3.2 驗證實驗

基于具身智能的舞蹈人形機器人系統(tǒng)框架驗證實驗選取廣東汕頭、潮州、揭陽、汕尾及福建漳州等地區(qū)的英歌舞作為研究對象,并對舞蹈動作進行適當(dāng)改編。為保證動作數(shù)據(jù)的準(zhǔn)確性,邀請與人形機器人身高相近的演員完成表演,并利用光學(xué)動作捕捉技術(shù)采集相關(guān)數(shù)據(jù)(圖2)。隨后,對采集數(shù)據(jù)進行濾波處理,并重定向至 N2骨架進行可視化,以檢驗其是否符合預(yù)期動作表現(xiàn);若結(jié)果不符合要求,則對動作進行修正;若符合要求,則進入強化學(xué)習(xí)訓(xùn)練環(huán)節(jié),并通過仿真模擬進一步驗證動作效果。若仿真結(jié)果仍未達到預(yù)期,則再次調(diào)整動作;若符合標(biāo)準(zhǔn),則開展人形機器人實機適配與驗證。最終,經(jīng)多輪確認(rèn)與優(yōu)化,人形機器人能實現(xiàn)穩(wěn)定且富有表現(xiàn)力的舞蹈表演。


圖2 研究團隊對英歌舞動作進行簡化,通過光學(xué)動作捕捉技術(shù)進行數(shù)據(jù)采集

具體訓(xùn)練流程(圖3)可概括為以下4個階段:(1)準(zhǔn)備階段,研究團隊對英歌舞動作進行簡化,并對人形機器人無法完成的部分進行修改,最終設(shè)計出一段時長約 1 分 30 秒的動作序列;(2)仿真階段,在強化學(xué)習(xí)的物理仿真環(huán)境中對舞蹈動作及獎勵機制進行建模,使人形機器人能在虛擬環(huán)境中逐步掌握英歌舞動作模式;(3)實機階段,將訓(xùn)練結(jié)果遷移至人形機器人進行適配與驗證;(4)優(yōu)化階段,在動作確認(rèn)無誤后,對整體動作序列進行集中優(yōu)化。


圖3 人形機器人英歌舞訓(xùn)練流程

3.3 訓(xùn)練方法

(1)創(chuàng)建公式。研究團隊將運動模仿問題公式化為一個目標(biāo)條件強化學(xué)習(xí)問題,其數(shù)學(xué)建模為馬爾可夫決策過程,即:


M=(S, A, S
ref
,γ, r, P

式(1)中,

S
S
ref
分別表示人形機器人和參考運動的狀態(tài)空間;
A
為人形機器人的動作空間;
為折扣因子(Discount Factor),用于控制未來獎勵的重要性,取值范圍為0<
r
是由運動追蹤和正則化獎勵組成的混合獎勵函數(shù);
P
表示依賴于人形機器人形態(tài)和物理約束的狀態(tài)轉(zhuǎn)移函數(shù)。



(2)參考運動處理。SMPL(Skinned Multi?Person Linear)模型[18]為人體運動提供了一種通用表示形式。研究團隊首先利用動作捕捉技術(shù)提取并處理動作數(shù)據(jù),并將其轉(zhuǎn)換為SMPL格式的運動序列。隨后,通過逆向運動學(xué)方法將該序列重新映射至N2,從而生成可用于運動追蹤的參考動作。

(3)改進PBHC方法。首先,生成的運動序列通過基于物理的指標(biāo)進行篩選;隨后,將精煉后的動作序列重映射至N2。在訓(xùn)練期間,利用接觸掩碼進行落腳點的獎勵設(shè)計,幫助人形機器人學(xué)會在應(yīng)該落地的時刻落地,在應(yīng)該騰空的時刻保持騰空;最終得到的動作軌跡作為強化學(xué)習(xí)訓(xùn)練的參考,并部署于真實N2。在此過程中,額外引入了機身線速度內(nèi)部潛在狀態(tài)的估計器和探索性好奇心獎勵,以提升表演的流暢性與穩(wěn)定性,并有效消除動作抖動、站立不穩(wěn)等不良狀態(tài)。

(4) 好奇心獎勵機制。為鼓勵人形機器人探索,多樣化技能的獲取需要人形機器人在不同關(guān)節(jié)角度空間中進行充分試探。然而,簡單的預(yù)定義獎勵函數(shù)難以全面刻畫這種多樣性。因此,研究團隊引入探索性好奇心獎勵,引導(dǎo)人形機器人自主探索未見的狀態(tài)-動作空間。具體而言,除了任務(wù)獎勵

r
,還將好奇心獎勵
r
c
融入價值函數(shù),以促進更高效的探索與學(xué)習(xí)。



3.3.1 運動處理路徑

在訓(xùn)練人形機器人表演英歌舞的過程中,研究團隊提出了一條運動處理路徑,用于提取和轉(zhuǎn)換舞蹈動作,以實現(xiàn)人形機器人的運動追蹤。該路徑包括以下4個步驟,以確保生成的動作在物理上合理且能有效遷移至人形機器人平臺。

(1)采用光學(xué)動作捕捉技術(shù)采集舞蹈數(shù)據(jù)并轉(zhuǎn)換為SMPL格式

使用光學(xué)動作捕捉系統(tǒng)(Optical Motion Capture System)對舞者進行全身三維動作數(shù)據(jù)采集。該系統(tǒng)通過在舞者身體關(guān)鍵部位布設(shè)反光標(biāo)記點,并利用多臺高速相機同步追蹤這些標(biāo)記點的空間位置,獲得高精度的關(guān)節(jié)運動軌跡。隨后,采用人體參數(shù)化模型 SMPL對捕捉到的動作數(shù)據(jù)進行擬合與優(yōu)化,將離散的標(biāo)記點坐標(biāo)轉(zhuǎn)化為具有骨骼與表面網(wǎng)格結(jié)構(gòu)的統(tǒng)一運動表示,最終得到 SMPL 格式的動作估計序列,為后續(xù)的物理過濾與人形機器人映射奠定基礎(chǔ)。

(2)基于物理學(xué)的運動過濾

基于物理學(xué)的運動過濾是指結(jié)合人形機器人自身的物理特性對動作捕捉數(shù)據(jù)進行約束與調(diào)整,使其在物理上可執(zhí)行。該過程旨在消除不符合動力學(xué)規(guī)律的動作,如滑步、穿透、關(guān)節(jié)超限及力矩超限等。具體包括兩個環(huán)節(jié):其一,物理過濾,即通過檢測質(zhì)心(Center of Mass, CoM)與壓力中心(Center of Pressure, CoP)的距離,判斷并剔除不穩(wěn)定或不可實現(xiàn)的動作;其二,接觸修正,即識別腳部與地面的接觸點,對漂浮或腳滑等不合理現(xiàn)象進行校正,從而獲得物理上合理且可遷移的運動數(shù)據(jù)。

(3)基于接觸感知的運動校正


(4)運動重定向

采用基于逆向運動學(xué)的重定向方法,將處理后的 SMPL 格式動作映射至 N2的骨架結(jié)構(gòu)。該方法通過構(gòu)建一個可微分的優(yōu)化問題,在保證關(guān)節(jié)限制的前提下,使末端執(zhí)行器的運動軌跡盡可能與參考動作對齊。具體流程(圖4)包括:首先,利用動作捕捉系統(tǒng)采集人類舞者的運動數(shù)據(jù),并將其作為N2的參考運動;其次,識別膝關(guān)節(jié)、肘關(guān)節(jié)等關(guān)鍵點,并對源運動進行尺度變換以匹配人形機器人的體型比例;隨后,應(yīng)用逆向運動學(xué)求解關(guān)節(jié)角度位置,實現(xiàn)動作的合理映射;最后,在仿真環(huán)境中播放生成的動作文件,以驗證身體運動的對稱性和執(zhí)行效果。


圖 4 從專家數(shù)據(jù)(左)運動重定向到N2(右)

3.3.2 自適應(yīng)運動追蹤

在PBHC中,獎勵函數(shù)采用指數(shù)形式的追蹤獎勵,由兩部分組成:(1)任務(wù)特定獎勵,用于強制追蹤參考運動;(2)正則化獎勵,用于促進整體動作的穩(wěn)定性和平滑性。其中,對齊關(guān)節(jié)狀態(tài)與剛體狀態(tài)的追蹤均采用指數(shù)形式,其獎勵函數(shù)定義為:


r(x
=exp(-x/σ
(6)

式(6)中,

表示追蹤誤差,
為追蹤因子,用于控制誤差容忍度。當(dāng)
遠大于
的典型范圍時,獎勵接近1,且對誤差變化不敏感;當(dāng)
遠小于
的典型范圍時,獎勵趨近于0,導(dǎo)致訓(xùn)練過于苛刻。合理選擇
可增強追蹤效果并提高精度。為確定最佳
,本文基于簡化的運動追蹤模型展開分析。





圖5 自適應(yīng)機制中追蹤因子的閉環(huán)調(diào)整



3.3.3 非對稱演員-評論家RL訓(xùn)練框架


3.4 效果測試

人形機器人在現(xiàn)實環(huán)境中展現(xiàn)出的一系列高動態(tài)技能,驗證了其在運動控制與模仿學(xué)習(xí)方面的先進能力。圖6中,人形機器人在現(xiàn)實場景中實現(xiàn)的步態(tài)與舞蹈動作,與模擬器中的圖像保持了高度一致性。例如,在英歌舞的代表性動作“轉(zhuǎn)槌花”的起勢環(huán)節(jié)中,由于N2的手腕結(jié)構(gòu)未配置電機,無法完成槌棒在手中的內(nèi)旋動作,因此對該動作進行了適當(dāng)簡化。具體而言,人形機器人雙手緊握英歌棒,由彎腰姿態(tài)過渡至直立:首先屈膝,下肢動作表現(xiàn)為左腳向上蹬、右腳向后抬,上肢同時完成右臂上舉;隨后動作交替進行,即右腳向上蹬、左腳向后抬,同時左臂上舉。


圖6 N2在真實世界中穩(wěn)定地跳英歌舞(上),動作與模擬器中的圖像(下)高度一致

這一過程表明,人形機器人能夠?qū)W習(xí)包括英歌舞在內(nèi)的高動態(tài)、全身協(xié)調(diào)技能,而不僅局限于簡單的動作模仿。在訓(xùn)練與測試過程中,我們不斷對控制策略進行優(yōu)化。例如,早期實驗發(fā)現(xiàn)N2在執(zhí)行彎腰后退動作時無法抬腳,而表現(xiàn)為原地靜止。通過在訓(xùn)練框架中引入接觸掩碼,該問題得以解決。同時,我們還觀察到人形機器人在舞蹈表演中出現(xiàn)頻繁抖動。為此在訓(xùn)練框架中加入狀態(tài)估計器,顯著減少了抖動現(xiàn)象。

為進一步評估所提出策略的追蹤性能,我們對英歌舞動作進行了10次重復(fù)實驗,并基于機載傳感器數(shù)據(jù)計算相應(yīng)的性能指標(biāo)(機身位姿以及各關(guān)節(jié)的角度和速度)。實驗結(jié)果顯示,現(xiàn)實環(huán)境中的評估指標(biāo)與在仿真平臺Isaac Gym中獲得的指標(biāo)高度一致,驗證了訓(xùn)練框架在跨虛擬與現(xiàn)實場景中的有效性與穩(wěn)定性。

4總結(jié)與思考

研究團隊在借鑒 PBHC 方法的基礎(chǔ)上,對舞蹈動作進行了過濾與修正,并采用自適應(yīng)追蹤機制以動態(tài)調(diào)整誤差容忍度,從而改進強化學(xué)習(xí)架構(gòu),以提升訓(xùn)練穩(wěn)定性并縮小從仿真到現(xiàn)實的差距。然而,在人形機器人舞蹈創(chuàng)作過程中,仍會遇到超出訓(xùn)練數(shù)據(jù)能力范圍以及從仿真到現(xiàn)實不一致等問題。例如,首次舞蹈數(shù)據(jù)采集的舞者為身高約 1.8 m的男性,其舞蹈動作在映射到身高僅 1.2 m的人形機器人時,由于結(jié)構(gòu)差異,導(dǎo)致其動作幅度與運動方式與人類存在顯著偏差。當(dāng)演員動作幅度超出人形機器人可實現(xiàn)的運動極限時,人形機器人容易出現(xiàn)抽搐、抖動等異常。為應(yīng)對這一問題,團隊在第二次采集過程中選擇了身高約 1.4 m、與人形機器人尺寸更為接近的女性舞者,并針對人形機器人的機械結(jié)構(gòu)特性對動作進行了適配性修改,從而取得了更為理想的效果。

這一實踐過程表明,舞蹈創(chuàng)作需要舞蹈編導(dǎo)與算法工程師的深度協(xié)同:舞蹈編導(dǎo)需深入理解人形機器人的機械構(gòu)造,以判斷動作的可被實現(xiàn)程度;算法工程師則需掌握舞蹈動作的細節(jié)特征。例如,英歌舞在最終實現(xiàn)過程中被拆分為三個片段,并在軟件中進行編排與優(yōu)化,以確保舞蹈表演既符合技術(shù)可行性,又保持藝術(shù)感染力。與此同時,創(chuàng)作者還需進一步思考,當(dāng)人類舞蹈動作被遷移到人形機器人時,哪些特質(zhì)會喪失,哪些意想不到的表現(xiàn)效果可能出現(xiàn),以及人形機器人是否具備發(fā)展出不完全依賴于模仿人類的獨特運動風(fēng)格的潛力。

5結(jié)語

本文提出了一個人形機器人舞蹈動作學(xué)習(xí)框架,該框架參考了 PBHC方法,并在此基礎(chǔ)上引入了機身線速度內(nèi)部潛在狀態(tài)的估計器和探索性好奇心獎勵。依托這一新型全身運動控制強化學(xué)習(xí)框架,人形機器人在實際部署中展現(xiàn)出兼具運動與藝術(shù)表現(xiàn)力的魯棒行為。在英歌舞實踐中,其動作精度得到了充分驗證,并最終獲得2025世界人形機器人運動會單機舞蹈類銀牌。這一成果推動了人形機器人運動控制技術(shù)的邊界擴展,為實現(xiàn)更敏捷、穩(wěn)定,強魯棒性的實際應(yīng)用奠定了基礎(chǔ)。然而,該方法當(dāng)前仍存在局限:首先,缺乏對環(huán)境的感知能力(如地形感知與避障),從而限制了其在非結(jié)構(gòu)化場景中的應(yīng)用;其次,每個策略均針對單一動作進行訓(xùn)練,需要針對不同舞蹈創(chuàng)作進行人類動作數(shù)據(jù)采集,并開展人類數(shù)據(jù)在人形機器人上的重定向,人形機器人訓(xùn)練、獎勵函數(shù)參數(shù)微調(diào)、部署這一系列冗雜繁瑣的流程。

目前,人形機器人舞蹈仍需大量人工編舞與編程才能實現(xiàn)。未來的研究方向應(yīng)聚焦于革新人機協(xié)作模式,即通過領(lǐng)域?qū)<姨峁┥倭?、直觀且精準(zhǔn)的指導(dǎo),結(jié)合人形機器人自身的先驗知識,使其能夠快速習(xí)得新任務(wù),從而降低部署門檻。理想狀態(tài)下,人形機器人應(yīng)如同生物體一般,在整個生命周期中持續(xù)學(xué)習(xí)與適應(yīng),而非依賴一次性訓(xùn)練。此外,如何實現(xiàn)跨任務(wù)、跨環(huán)境甚至跨人形機器人平臺的高效技能遷移,以及如何賦予人形機器人即興舞蹈創(chuàng)作能力,仍是亟待解決的挑戰(zhàn)。可以預(yù)見,在不久的將來,圍繞人形機器人訓(xùn)練的安全、倫理、高效性與可持續(xù)性等問題也將逐步獲得有效應(yīng)對。隨著具身智能和機器人技術(shù)在運動控制、環(huán)境感知和自主決策等方面的發(fā)展,人形機器人或?qū)⒊袚?dān)電影特技表演任務(wù),并擴展電影拍攝的可能性。其不僅能在電影中完成人類演員難以勝任的高難度動作,還能在動態(tài)環(huán)境中保持穩(wěn)定性和安全性,或是在危險環(huán)境中進行拍攝。此外,人形機器人與影視行業(yè)的深度融合還將催生新的商業(yè)模式和內(nèi)容創(chuàng)作生產(chǎn)方式。

參考文獻

(向下滑動閱讀)

[1] BERGEN B. 1. Embodiment[M]//DABROWSKA E, DIVJAK D. Handbook of Cognitive Linguistics. Berlin, München, Boston: De Gruyter Mouton, 2015: 10?30.

[2] PAOLO G, GONZALEZ-BILLANDON J, KéGL B. A call for embodied AI [EB/OL]. (2024?02?06)[2025?09?12]. https://arxiv.org/abs/2402.03824v4.

[3] GOSWAMI A, VADAKKEPAT P. Humanoid robotics: a reference[M]. Dordrecht: Springer, 2019.

[4] HUANG H, CUI W, ZHANG T, et al. Think on Your Feet: Seamless Transition Between Human?Like Locomotion in Response to Changing Commands[C]//2025 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2025: 15965?15971. DOI:10.1109/icra55743.2025.11127948.

[5] GU Z, LI J, SHEN W, et al. Humanoid Locomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning[EB/OL]. (2025?01?03)[2025?09?12]. https://arxiv.org/abs/2501.02116v2.

[6] XIE W, HAN J, ZHENG J, et al. KungfuBot: Physics?Based Humanoid Whole?Body Control for Learning Highly?Dynamic Skills[EB/OL]. (2025?06?15)[2025?09?12]. https://arxiv.org/abs/2506.12851v1.

[7] BARNES B. Are You Ready for Sentient Disney Robots? [EB/OL]. (2021?08?19) [2025?09?12] .https://www.nytimes.com/2021/08/19/business/media/disney-parks-robots.html.

[8] GRANDIA R, KNOOP E, HOPKINS M, et al. Design and Control of a Bipedal Robotic Character[C]//Robotics: Science and Systems XX. Robotics: Science and Systems Foundation, 2024.

[9] 搜狐. 王興興回應(yīng)爭議:格斗、跳舞的意義,具身智能并非“非人形不可”?[EB/OL].(2025?06?07) [2025?09?12] .https://www.sohu.com/a/902166736_476872.

[10] 李孟陽,武兵,李利娜,等.機器人模仿學(xué)習(xí)優(yōu)化方法研究[J/OL].機械設(shè)計與制造,1?5[2025?09?05].https://doi.org/10.19356/j.cnki.1001-3997.20250808.007.

[11] 苗中華,朱子煜,張偉,等.具身智能農(nóng)業(yè)機器人關(guān)鍵技術(shù)與發(fā)展趨勢[J].農(nóng)業(yè)機械學(xué)報,2025,56(09):212?239.

[12] 張超,白文松,杜歆,等.模仿學(xué)習(xí)綜述:傳統(tǒng)與新進展[J].中國圖象圖形學(xué)報,2023,28(06):1585?1607.

[13] DE F A, MILANO M. Robotic Choreography Creation Through Symbolic AI Techniques[M]//Lecture Notes in Computer Science. Springer Nature Singapore, 2023: 346?351.

[14] LI R, YANG S, ROSS A D, et al. AI Choreographer: Music Conditioned 3D Dance Generation with AIST++ [EB/OL]. (2021?01?21)[2025?09?12]. https://arxiv.org/abs/2101.08779v3.

[15] Noetix Robotics. 從N2的矯健身姿到E1的溫暖雙臂,松延動力雙子星以硬核科技重新定義“機器人伙伴”![EB/OL]. (2025?05?28) [2025?09?12]. https://noetixrobotics.com/newsInfo-46.html.

[16] ZHANG Y, KHANDURI P, TSAKNAKIS I, et al. An Introduction to Bilevel Optimization: Foundations and applications in signal processing and machine learning[J]. IEEE Signal Processing Magazine, 2024, 41(1): 38?59. DOI:10.1109/msp.2024.3358284.

[17] SCHULMAN J, WOLSKI F, DHARIWA P, et al. Proximal Policy Optimization Algorithms[EB/OL]. (2017?07?20)[2025?09?12]. https://arxiv.org/abs/1707.06347v2.

[18] LOPER M, MAHMOOD N, ROMERO J, et al. SMPL: a skinned multi?person linear model [J]. ACM Transactions on Graphics, 2015, 34(6): 1?16. DOI:10.1145/2816795.2818013.

[19] TANG H, HOUTHOOFT R, FOOTE D, et al. : A Study of Count?Based Exploration for Deep Reinforcement Learning[EB/OL]. (2016?11?15)[2025?09?12]. https://arxiv.org/abs/1611.04717v3.

[20] XIE W, BAI C, SHI J, et al. Humanoid Whole?Body Locomotion on Narrow Terrain via Dynamic Balance and Reinforcement Learning[EB/OL]. (2025?02?24)[2025?09?12]. https://arxiv.org/abs/2502.17219v2.

[21] PENG B X, ABBEEL P, LEVINE S, et al. DeepMimic: Example?Guided Deep Reinforcement Learning of Physics?Based Character Skills[EB/OL]. (2018?04?08)[2025?09?12]. https://arxiv.org/abs/1804.02717v3.


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
女籃名將展淑萍:兒子六歲丈夫去世,再婚帶兒子付豪改嫁給裁判

女籃名將展淑萍:兒子六歲丈夫去世,再婚帶兒子付豪改嫁給裁判

豐譚筆錄
2026-01-02 09:25:00
南博往事被扒!1994年丟失15天明代山水畫的報紙,居然被學(xué)生撿到

南博往事被扒!1994年丟失15天明代山水畫的報紙,居然被學(xué)生撿到

火山詩話
2026-01-02 16:28:11
現(xiàn)貨白銀漲4%,報74.34美元/盎司;現(xiàn)貨黃金漲1.54%,報4385.35美元/盎司

現(xiàn)貨白銀漲4%,報74.34美元/盎司;現(xiàn)貨黃金漲1.54%,報4385.35美元/盎司

每日經(jīng)濟新聞
2026-01-02 16:20:05
為什么,很多子女到了五六十歲后,慢慢對家里老人變得不孝了?

為什么,很多子女到了五六十歲后,慢慢對家里老人變得不孝了?

詩詞中國
2026-01-01 18:58:07
征信“更新”!多地網(wǎng)友曬貸款逾期記錄清零截圖

征信“更新”!多地網(wǎng)友曬貸款逾期記錄清零截圖

21世紀(jì)經(jīng)濟報道
2026-01-02 10:31:41
笑不活了!畫死主角劉昴星后,《中華小當(dāng)家》的作者還是后悔了

笑不活了!畫死主角劉昴星后,《中華小當(dāng)家》的作者還是后悔了

二次元那些事
2026-01-01 19:57:06
新加坡2025年第四季度GDP同比增長5.7%

新加坡2025年第四季度GDP同比增長5.7%

每日經(jīng)濟新聞
2026-01-02 08:12:03
床墊被機油浸透商家拒收德邦拒賠 快遞站點稱佛山是家具運輸“高風(fēng)險地區(qū)”

床墊被機油浸透商家拒收德邦拒賠 快遞站點稱佛山是家具運輸“高風(fēng)險地區(qū)”

信網(wǎng)
2025-12-31 15:13:10
大學(xué)生吐槽一個月2500生活費像低保戶,父母:是我們一個月血汗錢

大學(xué)生吐槽一個月2500生活費像低保戶,父母:是我們一個月血汗錢

詩意世界
2026-01-01 16:13:56
“老虎”哈桑被詐騙!流亡的阿薩德家族,揮金如土卻被嚴(yán)密控制

“老虎”哈桑被詐騙!流亡的阿薩德家族,揮金如土卻被嚴(yán)密控制

鷹眼Defence
2026-01-02 16:33:51
特朗普轉(zhuǎn)載文章:俄羅斯總統(tǒng)普京是和平路上的絆腳石

特朗普轉(zhuǎn)載文章:俄羅斯總統(tǒng)普京是和平路上的絆腳石

一種觀點
2026-01-01 11:51:31
上海落下重要一“豎”:百億元級交通工程南北通道,今天開工

上海落下重要一“豎”:百億元級交通工程南北通道,今天開工

上觀新聞
2026-01-02 07:20:08
隊報:加蓬體育部長宣布暫停國家隊一切活動,開除奧巴梅揚

隊報:加蓬體育部長宣布暫停國家隊一切活動,開除奧巴梅揚

懂球帝
2026-01-01 19:20:12
央企“最牛女副處長”落馬:兩年與上司開房410次,細節(jié)曝光

央企“最牛女副處長”落馬:兩年與上司開房410次,細節(jié)曝光

西門老爹
2025-12-16 15:35:31
燒光350億,又一家國產(chǎn)造車新勢力倒下,正式宣告破產(chǎn)

燒光350億,又一家國產(chǎn)造車新勢力倒下,正式宣告破產(chǎn)

詩意世界
2025-12-31 10:45:29
1973年,曾志被調(diào)回北京,汪東興:不要工作算離休,由中組部供養(yǎng)

1973年,曾志被調(diào)回北京,汪東興:不要工作算離休,由中組部供養(yǎng)

輿圖看世界
2025-11-16 15:40:03
浙江杭州一位陳女士要和丈夫離婚當(dāng)她說出離婚的理由人們都驚呆了

浙江杭州一位陳女士要和丈夫離婚當(dāng)她說出離婚的理由人們都驚呆了

小小包工頭阿汾
2026-01-02 11:31:14
這才是鐵哥們!還清中國81億欠債,贈百億大禮,西方各國都眼紅

這才是鐵哥們!還清中國81億欠債,贈百億大禮,西方各國都眼紅

霽寒飄雪
2025-12-30 11:54:50
跨年夜男子醉駕上高速,和別人發(fā)生事故口出狂言:“我常酒后開車,從來沒被查過”

跨年夜男子醉駕上高速,和別人發(fā)生事故口出狂言:“我常酒后開車,從來沒被查過”

揚子晚報
2026-01-02 14:06:56
女孩在家被人打傷后續(xù)!被認(rèn)定互毆,警方回應(yīng),上門家長錄音克制

女孩在家被人打傷后續(xù)!被認(rèn)定互毆,警方回應(yīng),上門家長錄音克制

奇思妙想草葉君
2025-12-28 01:17:28
2026-01-02 18:15:00
電影技術(shù)微刊 incentive-icons
電影技術(shù)微刊
電影技術(shù)微刊
632文章數(shù) 209關(guān)注度
往期回顧 全部

科技要聞

新勢力年榜:零跑險勝華為,蔚來小鵬新高

頭條要聞

政府采購項目評標(biāo)委員會7名專家 其中6人"走過場"被罰

頭條要聞

政府采購項目評標(biāo)委員會7名專家 其中6人"走過場"被罰

體育要聞

英超離譜夜?4戰(zhàn)全平3場0-0 曼城紅軍翻車

娛樂要聞

田亮一家新年全家福!森碟變清純少女

財經(jīng)要聞

8200億擴產(chǎn)潮下的鋰電供應(yīng)鏈之戰(zhàn)

汽車要聞

奇瑞汽車12月銷量超23萬輛 全年超263萬輛

態(tài)度原創(chuàng)

教育
親子
健康
旅游
公開課

教育要聞

西南油氣田2026校招468人,博士113碩士275人,西南石大斷層領(lǐng)先

親子要聞

這孩子以前是當(dāng)領(lǐng)導(dǎo)的吧

元旦舉家出行,注意防流感

旅游要聞

追光蒙山巔,啟幕新一年

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 波多野结衣无内裤护士| 91人人妻人人操| 国产成人av大片在线观看 | 久久亚洲av成人无码| 亚洲一区五码| 日日碰日日摸夜夜爽无码| 香港三级韩国三级日本三级国产| 有没有看Av的网站| 国产高清精品自在线看| AV日韩美电影网| 激情婷婷开心五月蜜臀| 国产精品中文字幕久久| 二区三区免费| 欧美精品视频在线观亚洲| 无码人妻精品一区二| 欧美一级AⅤ一区二区三区成人片| 日本免费a级毛一片| 国产精品毛片久久久久久l| 人妻久久一区二区三区| 国产精品偷伦| 精品三级在线| 岛国国产一区| 日本人妻 蜜桃在线| 亚洲国产综合专区在线播放| 久久久久久亚洲av成人无码国产| 久久人妻无码AⅤ毛片花絮| 国产香蕉一区二区三区在线视频| 成熟的丰满少妇中文字幕| 成人AV专区精品无码国产| 免费一级黄色好看的国产| 高清av一区二区| 加勒比免费AV| 成人午夜大片免费看爽爽爽| 国产精品久久久久无码| 6080成人| 亚洲AV无码乱码精品裸果| 最新版天堂资源中文官网| 国产在线观看av| 你懂的资源无码| 日本少妇高潮喷水xxxxxxx| 国产伦理一区二区久久精品|