李飛飛要用ImageNet的方式,推動具身智能了。
依然是一個“挑戰(zhàn)賽”。
就在最近,由李飛飛團隊發(fā)起、英偉達贊助(其中之一)的首屆BEHAVIOR家務(wù)挑戰(zhàn)賽正式啟動。
這一次,他們下定決心凝聚學(xué)術(shù)界和產(chǎn)業(yè)界的力量,共同向機器人做家務(wù)這一高地發(fā)起沖擊。
簡單來說,參賽者需要統(tǒng)一使用星海圖R1 Pro(雙手操作+輪式移動)作為本體,在逼真的BEHAVIOR-1K虛擬家庭環(huán)境中,解決50項完整的家務(wù)任務(wù)(涵蓋重新布置、烹飪、清潔等各種活動)。
參賽者可以自由選擇算法,官方還提供了1萬條專家演示軌跡(約1200小時),方便大家用模仿學(xué)習(xí)快速上手。
具體賽道則有兩條可選:
- 標準賽道(Standard Track):機器人只能用“自己能看到的東西”決策。
- 特權(quán)賽道(Privileged Track):機器人可以獲取更詳細的環(huán)境狀態(tài)信息(比如物體坐標、房間結(jié)構(gòu))。
然后官方會在固定的50個任務(wù)上,讓所有機器人跑相同測試,用以下標準打分(主要):
- 任務(wù)完成率:能否完全把任務(wù)做完,比如“把餐具放進洗碗機”真的被完成。
- 部分完成度:如果只做到一半,比如“拿起盤子但沒放進去”,也會給部分分數(shù)。
其他次要指標包括:模擬時間(完成任務(wù)用了多長時間)、導(dǎo)航距離(走了多遠)、手部位移(動了多少次機械臂)、穩(wěn)定性等。最終排名主要看平均任務(wù)完成率。
比賽提交截止期日為2025年11月15日,最終獲獎前三名還有最高1000美元獎金及RTX 5080可拿。
OK,說完比賽內(nèi)容,那么接下來的問題是——
為什么要發(fā)起B(yǎng)EHAVIOR?
關(guān)于發(fā)起B(yǎng)EHAVIOR的背后原因,李飛飛在和Jim Fan(英偉達具身智能實驗室聯(lián)合負責人、也是李飛飛學(xué)生)、 Edmar(英偉達Omniverse社區(qū)經(jīng)理) 的一場爐邊談話中進行了詳細闡述。
整體而言,BEHAVIOR的發(fā)起正是受到ImageNet的啟發(fā)。
2009年,李飛飛帶領(lǐng)的研究團隊在CVPR發(fā)表論文《ImageNet: A Large-Scale Hierarchical Image Database》。伴隨著ImageNet挑戰(zhàn)賽舉辦,這一成果已然成為了計算機視覺領(lǐng)域的試金石,開啟了一個新的時代。
此時再回顧ImageNet,李飛飛坦言最初并未預(yù)想到它會完全重塑AI,她只是追隨自己的好奇心。
在她看來,ImageNet與神經(jīng)網(wǎng)絡(luò)(特別是卷積神經(jīng)網(wǎng)絡(luò))以及英偉達的GPU一起,共同定義了深度學(xué)習(xí)的開端。
所以這一次,回到當下大熱的具身智能領(lǐng)域,她打算用同樣的方式再做一遍。
而具體到機器人做家務(wù)這件事上,目前機器人學(xué)習(xí)存在的痛點包括:
- 機器人學(xué)習(xí)缺乏標準化;
- 任務(wù)選擇通常是零散的,使得論文之間的結(jié)果很難進行比較;
- 訓(xùn)練數(shù)據(jù)匱乏,這有點類似于ImageNet出現(xiàn)之前計算機視覺領(lǐng)域所面臨的問題。
因此,李飛飛將BEHAVIOR也看做機器人領(lǐng)域的“北極星”任務(wù),她希望借助社區(qū)力量推動具身智能向前發(fā)展。
BEHAVIOR挑戰(zhàn)賽有哪些看點?
另外,BEHAVIOR除了自帶李飛飛光環(huán),這個挑戰(zhàn)賽本身也很有看點。
首先從理念上,BEHAVIOR被設(shè)計為以人為中心,尤為強調(diào)AI是為了增強(augment)和賦能(empower)人類,而非取而代之。
這種理念貫穿著BEHAVIOR的所有環(huán)節(jié)。例如,團隊會在任務(wù)定義、數(shù)據(jù)選擇和倫理價值導(dǎo)向上,來始終確保機器人的目標與人類的需求相符。
其次,BEHAVIOR核心瞄準做家務(wù)這一賽道,并首次明確提出了相關(guān)標準——
一個真正的家庭機器人,必須同時具備跨房間導(dǎo)航、雙手精細操控、長期規(guī)劃與動態(tài)適應(yīng)等多項能力。
而且為了訓(xùn)練機器人學(xué)習(xí)相關(guān)能力,BEHAVIOR的規(guī)模也講求一個“大”。
它覆蓋了1000個家庭活動,50個完整長程挑戰(zhàn),平均單個任務(wù)需要6.6分鐘連續(xù)操作。
所以,以人為本、目標清晰、規(guī)模巨大的BEHAVIOR,無疑具備成為“下一個ImageNet”的潛力。至于最終結(jié)果如何,一切都要交給時間,畢竟ImageNet也不是一朝一夕成就的。
Anyway,如果說ImageNet開啟了視覺智能的黃金時代,那BEHAVIOR,或許正是具身智能的第一聲號角。
以及關(guān)于機器人做家務(wù)這件事,最近也都成了具身智能項目爭相整活的任務(wù)。以后拍視頻,可能就都是家務(wù)場景了。
大語言模型的檢測是做題,具身智能機器人的檢測是做家務(wù)。
潮水趨勢,已經(jīng)很明確了。
大賽詳情頁:
https://behavior.stanford.edu/challenge/index.html
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.