henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
機(jī)器人打乒乓球,這(zhei)您受得了嗎?
關(guān)鍵玩的還都是高難度:并步接球!
0.42秒極限反應(yīng)回?fù)艨矍颍?/p>
最高還能對(duì)拉106拍!
打不過,反正我是打不過。
這位乒乓球場(chǎng)上的機(jī)器人高手,出自清華姚班本科生蘇智(師從吳翼教授)的最新論文——《HITTER: A HumanoId Table TEnnis Robot via Hierarchical Planning and Learning》。
在這篇論文中,研究者們提出了一套結(jié)合模型規(guī)劃與強(qiáng)化學(xué)習(xí)的分層框架,實(shí)現(xiàn)了人形機(jī)器人在亞秒級(jí)(sub-second)反應(yīng)下的穩(wěn)定連續(xù)對(duì)打。
這是怎么做到的?
基于規(guī)劃與控制的分層框架
總的來說,為了教機(jī)器人打乒乓球,研究團(tuán)隊(duì)提出了一個(gè)將高層規(guī)劃與低層控制分開處理的框架。
其中,在高層規(guī)劃中,基于模型的規(guī)劃器(model-based planner)能夠?qū)Ш角虻能壽E,并預(yù)測(cè)擊球位置、速度和時(shí)機(jī)。
在低層框架中,基于強(qiáng)化學(xué)習(xí)(RL)的全身控制器,能夠根據(jù)規(guī)劃器的預(yù)測(cè),生成協(xié)調(diào)的手臂和腿部動(dòng)作來執(zhí)行與人類相似的打擊動(dòng)作。
具體來說,研究團(tuán)隊(duì)直接將宇樹G1的手掌變成了乒乓球拍,并讓它站在一張標(biāo)準(zhǔn)尺寸的乒乓球臺(tái)上進(jìn)行訓(xùn)練。
在感知方面,研究采用了九個(gè)OptiTrack攝像頭(運(yùn)行頻率為360 Hz)來追蹤球的位置,這達(dá)到了毫米級(jí)的精度。
在規(guī)劃方面,基于模型的規(guī)劃器在每個(gè)時(shí)間步接收球的位置數(shù)據(jù),并預(yù)測(cè)球拍的擊球位置、速度和時(shí)機(jī)。
這些預(yù)測(cè)被交付給全身控制器,以生成宇樹G1所需的擊球時(shí)機(jī)和球拍速度。
之后,機(jī)器人根據(jù)強(qiáng)化學(xué)習(xí)不斷調(diào)整擊球策略,提高運(yùn)動(dòng)表現(xiàn)。
此外,為了鼓勵(lì)機(jī)器人做出類似人類的揮拍動(dòng)作,研究人員還在策略訓(xùn)練中加入了人類動(dòng)作參考(正手和反手)。
通過人類動(dòng)作參考進(jìn)行訓(xùn)練,機(jī)器人產(chǎn)生了與人類動(dòng)作非常相似的擊球行為:例如下圖中機(jī)器人擊球時(shí)的腰部旋轉(zhuǎn)。
在真實(shí)世界的實(shí)驗(yàn)中,團(tuán)隊(duì)向機(jī)器人投擲了26個(gè)球,機(jī)器人成功回球24次,擊中后未回球1次,完全失球1次,達(dá)到了96.2%的擊球率和92.3%的回球率。
而且,就像我們開頭提到的,G1在與人類對(duì)手對(duì)打時(shí),實(shí)現(xiàn)了多達(dá)106次的連續(xù)擊球,這一連拍遠(yuǎn)遠(yuǎn)超過了休閑人類玩家的水平。
此外,G1還表現(xiàn)出了回?fù)艨矍虻哪芰Α?/p>
最后,值得一提的是,除了與人類進(jìn)行對(duì)戰(zhàn),機(jī)器人也可以在完全自主的匹配環(huán)境中持續(xù)進(jìn)行對(duì)戰(zhàn)。
為什么是乒乓球?
在前段時(shí)間的機(jī)器人運(yùn)動(dòng)會(huì)上,我們已經(jīng)看到了不少機(jī)器人參與的運(yùn)動(dòng)項(xiàng)目(如跑步、拳擊、足球等)。
不過,這些運(yùn)動(dòng)往往留給機(jī)器人較長(zhǎng)的調(diào)整與反應(yīng)時(shí)間。
而在現(xiàn)實(shí)生活中,機(jī)器人常常需要在動(dòng)態(tài)環(huán)境下與快速移動(dòng)的物體交互,這種交互從根本上講更難:
因?yàn)樗鼈?strong>不僅需要各個(gè)關(guān)節(jié)的協(xié)調(diào)控制,還需要在極限時(shí)間測(cè)量?jī)?nèi)運(yùn)行的精密感知-行動(dòng)閉環(huán),而乒乓球正是此類交互的絕佳例子。
相對(duì)于網(wǎng)球或羽毛球等運(yùn)動(dòng),乒乓球的距離更短、攻防轉(zhuǎn)換更快、反應(yīng)時(shí)間窗口更?。ㄇ蛩俪^5米/秒)。
這就意味著機(jī)器人系統(tǒng)必須在瞬間內(nèi)完成感知、預(yù)測(cè)、規(guī)劃和擊球以及與移動(dòng)或靜態(tài)的不同操作。
更難的是,成功的擊球需要敏捷的全身運(yùn)動(dòng),包括快速擺動(dòng)手臂、轉(zhuǎn)動(dòng)腰部、快速墊步和恢復(fù)平衡,以確保準(zhǔn)確擊球并為下一次打做好準(zhǔn)備。
所以,打乒乓球,對(duì)人形機(jī)器人來說,還真不是一件容易的事。
已經(jīng)開始期待下一次的機(jī)器人運(yùn)動(dòng)會(huì)了!
[1]https://arxiv.org/pdf/2508.21043
[2]https://humanoid-table-tennis.github.io
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.