時令 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
只靠說話和AI眼鏡互動,確實(shí)有點(diǎn)不方便。
現(xiàn)在新玩法來了!數(shù)字替身幫你“隔空抓物”,混合現(xiàn)實(shí)即時選擇現(xiàn)實(shí)世界的物體作為上下文。
書籍檢索,輕松get~
建筑導(dǎo)航?手拿把掐。
多無人機(jī)協(xié)作?也是毫不遜色。
該技術(shù)被稱為Reality Proxy——一種直接操控界面,讓你可以瞬間選中現(xiàn)實(shí)世界中的物體。
研究者Xiaoan Liu甚至表示,這使我們離賈維斯又進(jìn)了一步。
Reality Proxy打破物理?xiàng)l件限制
混合現(xiàn)實(shí)(XR)正在重塑人機(jī)交互的邊界。通過頭戴設(shè)備,它有望將物理世界與數(shù)字世界融合,讓用戶能同時操控現(xiàn)實(shí)與虛擬中的對象。
然而,傳統(tǒng)的XR設(shè)備通常通過光線投射來選擇物體,但由于目標(biāo)在視野中尺寸較小、視線不穩(wěn)定以及手部顫抖等原因,這一過程往往容易出錯。
因此,研究團(tuán)隊提出Reality Proxy(現(xiàn)實(shí)代理)——現(xiàn)實(shí)物體的抽象數(shù)字表示。
他們將交互目標(biāo)從物體無縫轉(zhuǎn)移到其代理上,選擇代理等同于選擇實(shí)際物體,便于用戶擺脫距離或大小等限制,實(shí)現(xiàn)輕松選擇物體。
如上所示,Reality Proxy流程包括三個主要步驟:
激活代理:捕獲層級和語義場景結(jié)構(gòu)
當(dāng)用戶捏合確認(rèn)選擇時,它會自動檢測用戶視線范圍內(nèi)的真實(shí)世界物體,并將其抽象為手部的交互代理。
如果用戶成功選中目標(biāo)物體(用戶視線默認(rèn)瞄準(zhǔn)的物體),他們可以繼續(xù)執(zhí)行預(yù)期操作;否則,他們可以使用手邊的代理優(yōu)化選擇。
生成代理:保留空間關(guān)系
在這一步驟中,系統(tǒng)可以將上一步驟中場景的層級、語義表示轉(zhuǎn)換為代理 —— 用戶可操作的對象。
默認(rèn)情況下,系統(tǒng)僅為用戶擴(kuò)展視線范圍內(nèi)的1級物體生成代理。這些代理保留彼此的相對空間關(guān)系。
每個代理可通過長按和雙手縮放等標(biāo)準(zhǔn)手勢操作,即使在用戶釋放捏合后也保持在原位。
由于代理僅作為交互的抽象表示,所以其物理大小并不關(guān)鍵。因此,在實(shí)現(xiàn)過程中,每個代理表示為固定大小的矩形3D對象。
與代理交互:保持對現(xiàn)實(shí)世界的關(guān)注
為使用戶能主要關(guān)注現(xiàn)實(shí)物體, Reality Proxy在與代理交互時,將關(guān)鍵視覺反饋直接顯示在物理物體上。
例如,當(dāng)一個物體被選中時,它會以亮色高亮顯示,相應(yīng)的代理也會高亮,提供雙重反饋。
為確保代理易于訪問且無需持續(xù)視覺關(guān)注,研究應(yīng)用 “延遲跟隨”機(jī)制,將代理放在用戶手部附近。
當(dāng)手保持在特定閾值內(nèi)時,代理保持靜止;如果手移動超出該范圍,代理會平滑跟隨 —— 使其保持在可達(dá)范圍內(nèi),而不會對輕微的手部抖動做出反應(yīng)。
這種設(shè)計減少了用戶低頭查找代理的需求,并實(shí)現(xiàn)在關(guān)注現(xiàn)實(shí)世界與快速查看代理信息之間的平滑切換。
此外,Reality Proxy還支持多種交互功能,使用戶與現(xiàn)實(shí)物體的互動更加靈活。
1、瀏覽預(yù)覽物體:用戶手指在多個代理上滑動,就能快速瀏覽物體的信息,比如快速查看多本書的內(nèi)容。
2、多對象刷選:用雙手捏合的手勢劃定一個區(qū)域,就能選中多個代理對應(yīng)的現(xiàn)實(shí)物體。
3、按屬性過濾物體:長按一個物體的代理,調(diào)出屬性面板,滑動手指到某個屬性的代理上,就能選中所有有相同屬性的物體,比如篩選出所有紅色的杯子。
4、借助物理特征的交互:代理可結(jié)合真實(shí)世界的物理功能促進(jìn)直觀交互。
例如,放在物理表面(如桌子)上的代理可以將這些表面轉(zhuǎn)換為自然的觸摸板。
用戶可以使用熟悉的觸摸設(shè)備手勢與真實(shí)世界物體交互,如在表面上拖動手指選擇多個物體、分開手指擴(kuò)大選擇范圍,或回溯路徑調(diào)整選擇等。
5、語義分組:雙擊一個代理,就能把有相同屬性的物體歸為一組。
6、空間縮放分組:用雙手縮放的手勢,在層級結(jié)構(gòu)中導(dǎo)航,比如從查看整棟樓縮小到查看某一層的房間。
7、自定義分組:在空處用刷選的手勢畫一個立方體容器,把選中的代理放進(jìn)里面,就能創(chuàng)建自定義分組,方便進(jìn)行整體操作,比如計算一組書的總價。
除此之外,研究者還通過幾個場景展示了此技術(shù)的實(shí)用性。
日常信息檢索
在辦公室里,老師可以用它快速找到特定的書,計算書的總價。
在廚房里也能實(shí)現(xiàn)與不同粒度級別的物體交互,比如選中微波爐的不同部件。
建筑導(dǎo)航
Reality Proxy讓在大型建筑中高效導(dǎo)航和交互成為可能。
無人機(jī)控制
Reality Proxy還允許控制動態(tài)真實(shí)世界物體。
為展示這一點(diǎn),研究者開發(fā)了一個基于混合現(xiàn)實(shí)的無人機(jī)控制應(yīng)用,該應(yīng)用用無人機(jī)中嵌入的跟蹤器代替AI場景理解組件。
此研究招募了12名經(jīng)驗(yàn)豐富的XR開發(fā)者和研究人員(7名男性,5名女性,年齡在18歲到38歲之間)。
由于兩名參與者參與了完善研究方案的預(yù)試驗(yàn)環(huán)節(jié),因此被排除在以下報告的評分中。
評估結(jié)果顯示,這個系統(tǒng)在實(shí)用性、易學(xué)性和易用性方面評價普遍積極。
參與者認(rèn)為Reality Proxy在實(shí)用性上表現(xiàn)突出,能有效解決與遙遠(yuǎn)、密集或難觸及物體的交互問題。
相比傳統(tǒng)方式更快捷,可減少身體疲勞、擴(kuò)展交互能力(如批量選擇、按屬性篩選),對行動不便或視線不穩(wěn)定用戶也更友好。
不過參與者也指出了一些問題,比如新手可能需要一定的學(xué)習(xí)時間,代理的定位精度還有待提高等。
團(tuán)隊介紹
Xiaoan Liu,本科畢業(yè)于江南大學(xué),碩士畢業(yè)于紐約大學(xué)。
他于2019年3月創(chuàng)立了Fusion Reality。2023在清華大學(xué)擔(dān)任研究助理。2024年11月至2025年5月期間在谷歌工作。
他最近的一項(xiàng)比較有意思的研究還包括RealiTips(稿件準(zhǔn)備中)——一款可以指導(dǎo)你一步步煮咖啡的助手。
值得一提的是,他本科時期就設(shè)計出很多XR設(shè)備和游戲。
Mar Gonzalez-Franco,2014年,她在英國創(chuàng)建了沉浸式技術(shù)實(shí)驗(yàn)室,研究航空背景下的AR、VR和混合現(xiàn)實(shí)。
2015年,她以高級研究科學(xué)家的身份加入初創(chuàng)公司Traity,該公司完成了470萬美元的A輪融資,擁有超過450萬用戶,是硅谷500 Startups和Seedcamp(全球知名的風(fēng)險投資基金和創(chuàng)業(yè)加速器)的校友企業(yè)。2016年,她還曾擔(dān)任微軟EPIC團(tuán)隊的首席研究員。
Xianhao Carton Liu,本科就讀于浙江大學(xué)竺可楨學(xué)院,曾獲圖靈班的人工智能榮譽(yù)學(xué)士。博士就讀于明尼蘇達(dá)大學(xué)計算機(jī)科學(xué)專業(yè),研究方向?yàn)槿藱C(jī)交互。曾在斯坦福大學(xué)和哈佛大學(xué)任研究實(shí)習(xí)生。
Chen Zhu-Tian,本科畢業(yè)于華南理工大學(xué),博士畢業(yè)于香港科技大學(xué),現(xiàn)任明尼蘇達(dá)大學(xué)雙城分校CSE系(計算機(jī)科學(xué)與工程系)助理教授。
參考鏈接:
[1]https://x.com/_seanliu/status/1952770318034190420
[2]https://arxiv.org/abs/2507.17248
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.