你有沒有想過,快遞機(jī)器人分揀包裹時,是如何精準(zhǔn)判斷該把哪個包裹放進(jìn)哪個貨架的?當(dāng)維修工戴上AR眼鏡檢修機(jī)器,眼前的虛擬圖紙為何能嚴(yán)絲合縫地“貼”在零件上?這些酷炫場景的背后,都離不開一項關(guān)鍵技術(shù)——6D位姿估計。簡單來說,它就是讓機(jī)器不僅能感知物體“在哪兒”(3D位置),還能識別它“怎么擺”(3D姿態(tài))。就像我們一眼就能看出杯子是立著還是倒著、離自己有多遠(yuǎn)一樣,機(jī)器也正在學(xué)會這樣的空間洞察力。
這項技術(shù)的重要性不言而喻。工業(yè)機(jī)器人需要它來精準(zhǔn)抓取零件;自動駕駛汽車依靠它識別周圍車輛的位置和朝向;AR應(yīng)用則用它將虛擬物體準(zhǔn)確疊加到真實(shí)世界中。
然而,這項任務(wù)在現(xiàn)實(shí)環(huán)境中仍然極其困難:預(yù)掃描的CAD模型很少可用,多視圖捕獲不切實(shí)際,單視圖重建存在尺度模糊性。因此,盡管從單幅圖像進(jìn)行可靠的一次性6D姿態(tài)估計在模擬中起著核心作用,但長期以來人們一直認(rèn)為它幾乎是不可能的。
而機(jī)器人與物理世界的交互,恰恰依賴這種精準(zhǔn)的空間感知。
近期,由北京智源研究院、清華大學(xué)、南洋理工大學(xué)等機(jī)構(gòu)聯(lián)合提出的OnePoseViaGen框架,創(chuàng)新性地將單視圖3D生成與生成式領(lǐng)域隨機(jī)化相結(jié)合,為解決“單參考圖像估計未知物體6D位姿”這一難題提供了全新思路。
▍創(chuàng)新方案:OnePoseViaGen的工作原理
面對這些挑戰(zhàn),OnePoseViaGen提出“單視圖3D生成→尺度-位姿聯(lián)合優(yōu)化→生成式領(lǐng)域增強(qiáng)”的端到端解決方案,目標(biāo)很明確:僅需一張參考圖,即可高精度估計未知物體的6D位姿。
OnePoseViaGen 概述
從照片到3D模型
首先,該方法從單張錨點(diǎn)圖像出發(fā),通過先進(jìn)的單視圖3D生成技術(shù)構(gòu)建初始的物體模型。具體而言分為三個步驟:
背景噪聲抑制:采用實(shí)例分割工具(如SAM 2)對參考圖像中的物體區(qū)域進(jìn)行提取,剔除背景干擾,確保后續(xù)生成過程聚焦于目標(biāo)物體;
提取法線信息輔助建模:通過Image-to-Normal工具提取物體表面法線向量信息,該信息可反映物體表面凹凸結(jié)構(gòu)(如邊緣、凹槽),將其與裁剪后的RGB圖像共同輸入改進(jìn)版Hi3DGen模型;
歸一化3D模型輸出:Hi3DGen通過“法線向量橋接2D-3D幾何關(guān)系”的機(jī)制,在“物體中心坐標(biāo)系”下生成歸一化紋理網(wǎng)格模型。該模型保留物體精細(xì)幾何特征,但尺度為歸一化單位(無物理意義),需通過后續(xù)模塊實(shí)現(xiàn)尺度對齊。
解決尺度模糊的關(guān)鍵創(chuàng)新
拿到標(biāo)準(zhǔn)化模型后,核心矛盾轉(zhuǎn)為“如何將歸一化模型與真實(shí)世界對齊”。
這是OnePoseViaGen最核心的突破。由于模型的尺度和位姿與中的真實(shí)物體不匹配,直接使用會導(dǎo)致嚴(yán)重的位姿估計誤差,于是研究團(tuán)隊設(shè)計了“粗對齊→精對齊”的兩步優(yōu)化策略,解決單視圖重建的尺度模糊問題。
粗對齊階段,系統(tǒng)通過多視角渲染、2D特征匹配并結(jié)合深度信息,利用PnP算法估算出一個初始的6D位姿和存在模糊的尺度,隨后通過優(yōu)化3D點(diǎn)云的重投影誤差來求解出準(zhǔn)確的全局尺度因子;
精對齊階段則在此基礎(chǔ)上,引入類似FoundationPose的迭代優(yōu)化框架,通過不斷渲染、比較并預(yù)測位姿增量來精細(xì)化位姿,同時在每次迭代后重新優(yōu)化尺度,直至結(jié)果收斂,最終獲得在真實(shí)世界坐標(biāo)系下度量精確的模型與位姿。
跨越領(lǐng)域鴻溝
為解決生成模型與真實(shí)圖像間的差異,團(tuán)隊提出了文本引導(dǎo)的生成式領(lǐng)域隨機(jī)化技術(shù)。
簡單來說,就是為同一物體生成多種不同紋理的變體——一個杯子可以有花紋、純色、磨砂等不同外觀,但保持相同幾何結(jié)構(gòu)。隨后,在虛擬環(huán)境中渲染這些變體模型,并隨機(jī)改變光照、背景和遮擋條件,生成大規(guī)模合成數(shù)據(jù)集。最終,利用該數(shù)據(jù)集對位姿估計網(wǎng)絡(luò)進(jìn)行微調(diào),有效彌合了生成模型與真實(shí)圖像之間的域差距,顯著增強(qiáng)了對各種真實(shí)世界挑戰(zhàn)的適應(yīng)能力。
▍實(shí)際表現(xiàn):從實(shí)驗到真實(shí)場景的驗證
為驗證OnePoseViaGen的性能,研究團(tuán)隊在多個主流6D位姿估計基準(zhǔn)數(shù)據(jù)集上進(jìn)行了測試,并與現(xiàn)有先進(jìn)方法進(jìn)行了對比。在YCBInEOAT數(shù)據(jù)集上的測試結(jié)果顯示,OnePoseViaGen在ADD指標(biāo)上實(shí)現(xiàn)了81.27%的平均精度,遠(yuǎn)超基線方法的45.6%。特別是在低紋理、高遮擋物體上優(yōu)勢更加明顯。
與 YCBInEOAT 數(shù)據(jù)集上的 SOTA 進(jìn)行比較
在復(fù)雜光照場景和高遮擋場景的測試中,OnePoseViaGen同樣表現(xiàn)優(yōu)異,證明其在挑戰(zhàn)性環(huán)境下的強(qiáng)魯棒性。
但最令人印象深刻的,還是真實(shí)機(jī)器人實(shí)驗。
研究團(tuán)隊使用ROKAE機(jī)械臂搭載靈巧手和AgileX PiPER雙臂機(jī)器人,完成了兩項任務(wù):單臂抓取-放置和雙臂協(xié)作。
在測試中,機(jī)器人面對15類不同物體,每類進(jìn)行30次實(shí)驗,均表現(xiàn)出高成功率和亞厘米級的精度。即使在物體交接的動態(tài)遮擋場景中,系統(tǒng)也能穩(wěn)定工作,為機(jī)械臂提供可靠的抓取姿態(tài)指導(dǎo)。
▍結(jié)語與展望
OnePoseViaGen的技術(shù)突破,對多個領(lǐng)域?qū)a(chǎn)生深遠(yuǎn)影響。
在工業(yè)自動化方面,生產(chǎn)線可以快速適應(yīng)新產(chǎn)品,無需為每個零件預(yù)先建立精細(xì)的3D模型,大幅降低自動化改造的成本和時間。
在物流領(lǐng)域,機(jī)器人能夠處理海量不同形狀、尺寸的包裹,真正實(shí)現(xiàn)柔性分揀。
在家庭服務(wù)機(jī)器人方面,機(jī)器可以快速學(xué)習(xí)認(rèn)識新物體,理解用戶的指令,如“拿那個紅色的杯子”或“找到電視遙控器”。
甚至在文化遺產(chǎn)保護(hù)中,研究人員可以通過簡單拍照,快速獲取文物的精確三維位置和姿態(tài),為數(shù)字化保護(hù)提供支持。
這項技術(shù)的獨(dú)特價值在于它極大降低了機(jī)器感知世界的門檻。傳統(tǒng)的6D位姿估計需要精密傳感器、復(fù)雜校準(zhǔn)流程和詳盡的物體模型,而OnePoseViaGen僅需一張普通照片,這種“降維打擊”使其具備大規(guī)模應(yīng)用的前景。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.