夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

西湖大學修宇亮:數(shù)字人重建,慢慢都會變成基礎模型的微調(diào)任務 | GAIR 2025

0
分享至



臟數(shù)據(jù)變廢為寶,1.5秒完成數(shù)字人重建。

作者丨梁丙鑒

編輯丨馬曉寧


12月12日,第八屆 GAIR 全球人工智能與機器人大會于深圳正式拉開帷幕。

本次大會為期兩天,由GAIR研究院與雷峰網(wǎng)聯(lián)合主辦,高文院士任指導委員會主席,楊強院士與朱曉蕊教授任大會主席。大會共開設三個主題論壇,聚焦大模型、具身智能、算力變革、強化學習與世界模型等多個議題,描繪AI最前沿的探索群像,折射學界與產(chǎn)業(yè)界共建的智能未來。

作為 AI 產(chǎn)學研投界標桿盛會,GAIR自2016年創(chuàng)辦以來,始終堅守 “傳承+創(chuàng)新” 內(nèi)核,是 AI 學界思想接力的陣地、技術(shù)交流的平臺,更是中國 AI 四十年發(fā)展的精神家園。過去四年大模型驅(qū)動 AI 產(chǎn)業(yè)加速變革,歲末年初 GAIR 如約而至,以高質(zhì)量觀點碰撞,為行業(yè)與大眾呈現(xiàn)AI時代的前沿洞見。

在12月13日的“世界模型”專場,西湖大學助理教授,遠兮實驗室負責人修宇亮進行了以《走出蠟像館,交互新世界:開拓三維數(shù)字人研究新疆域》為主題的演講,分享了其關(guān)于高精度數(shù)字人重建的三項最新進展。

修宇亮分享了遠兮實驗室最新的三個工作,分別為 UP2You,ETCH 和 Human3R。

由于兼具相機位姿變化和人物動作變化的特點,如何從無限制的日常采集圖像(如手機相冊)出發(fā),進行高精度的三維重建,是一個非常有挑戰(zhàn)性的問題。修宇亮在博士期間,提出了第一套,先圖生文,再文生 3D的兩步走解決方案。這套方案可以兼容虛擬試衣和基于文字的穿搭編輯等下游應用,但效率非常低,DreamBooth和SDS(Score Distillation Sampling)漫長的微調(diào)和優(yōu)化流程,導致單個數(shù)字人建模任務需要3至4個小時。

遠兮實驗室的最新成果UP2You,將上述時間從4小時壓縮到了1.5 分鐘。其核心思想是將臟數(shù)據(jù)直接轉(zhuǎn)化成對后續(xù)重建友好的多視角正交圖片,在此基礎上套用已有的多視角重建算法,實現(xiàn)提效。

相較于傳統(tǒng)方案,UP2You的優(yōu)勢,一是快——從一坨臟數(shù)據(jù)中,只需要1.5 分鐘就可以拿到高質(zhì)量的帶紋理數(shù)字人;二是多多益善——用數(shù)量換質(zhì)量,重建質(zhì)量可以隨輸入圖片數(shù)量的增加而穩(wěn)定變好。修宇亮總結(jié),“無論圖片有多臟,這個方案只要保證圖片源源不斷灌進來,更細節(jié)的幾何和更完整的紋理,就可以立竿見影?!?/p>

修宇亮分享的第二項工作名為ETCH,旨在從穿衣服的人物三維掃描中,得到解剖學上正確的內(nèi)部人體。由于此前的其他嘗試,很少建模人體和衣服之間的厚度,往往直接將最外層服裝視為人體皮膚來做人體模型擬合,這就導致擬合結(jié)果普遍偏胖。而ETCH則是通過等變向量,定義了衣服和皮膚之間的厚度關(guān)系,從而獲得更準確的內(nèi)部人體結(jié)構(gòu),而且由于旋轉(zhuǎn)等變性的引入,也可以大大減少訓練數(shù)據(jù)。在今年的ICCV上,ETCH獲評Highlight Paper。

最后一項工作名為Human3R,旨在實現(xiàn)人物及場景的實時動態(tài)重建?!澳愫茈y只從人體動作出發(fā),就看懂人在做什么”,修宇亮解釋,“但如果把場景也給到你,語義就相對清晰?!?/p>

據(jù)介紹,Human3R在同時實現(xiàn)場景重建和人體狀態(tài)預測、追蹤的基礎上,可以做到實時15FPS 的推理,8GB顯存占用。這意味著僅需一張商用GPU,即可實現(xiàn)SOTA級性能。單張顯卡訓一天,單個模型跑一遍,多人跟蹤實時出,場景還更準了些。

為了實現(xiàn)這一點,Human3R基本保留了CUT3R的 backbone,同時新增了一條人體回歸的分支,借鑒了VPT(Visual-Prompt Tuning)策略,以實現(xiàn)高效微調(diào),這樣就可以在不破壞CUT3R 已有的場景重建能力的基礎上,對人體相關(guān)的幾何信息解碼成 SMPL,場景在這里,可以視為一種上下文,保證人體被正確的放置到場景中。

展望未來,修宇亮最后分享了自身對于數(shù)字人技術(shù)的觀察。更強大的通用3D重建模型正在讓越來越多數(shù)字人重建任務迎刃而解?!皵?shù)字人的重建任務,慢慢都會變成基礎模型的微調(diào)任務。”修宇亮指出。

以下為修宇亮的現(xiàn)場演講內(nèi)容,雷峰網(wǎng)進行了不改變原意的編輯整理:

非常榮幸來介紹我們實驗室的最新工作進展。我今天分享的題目是《走出蠟像館,交互新世界》,起這個題目的主要原因是,在我看來,數(shù)字人無非就是研究兩個問題。一個是研究靜態(tài),就是怎么建模一個栩栩如生的數(shù)字人。另一個就是動態(tài),怎么讓這個人可以活靈活現(xiàn)地動起來,這是兩個非常關(guān)鍵的問題。

我今天分享的有三個工作。第一個工作是關(guān)于三維形象重建,怎么從日常的圖像里面去做高精度的數(shù)字人重建。第二個工作是ETCH,如果我們已經(jīng)拿到了一個高精度的,穿著衣服的人體幾何建模,怎么能夠再從這里拿到一個解剖學上正確的內(nèi)部的人體結(jié)構(gòu)?第三個是Human3R,我們往往要把人的行為放到一個場景里才能更好地理解,所以我們最新的工作Human3R,就是把人和場景放到一起去做重建。

在講之前,我先把數(shù)字人重建會用到的數(shù)據(jù)類型總結(jié)一下。我們以相機和人動不動作為量綱,比如Snapshot這個數(shù)據(jù)集,它是相機靜止,但是人在運動著的數(shù)據(jù),綠色就是運動,紅色就是靜止,那當然這個運動的幅度也可以更大一些。這邊是我從Youtube上找到的一個視頻,它也是相機靜止,人在運動。當然這件事也可以反過來。我們也可以讓人固定不動,讓相機進行轉(zhuǎn)動。這邊這個就是,因為要保持人的穩(wěn)定,就加了兩個三腳架做人的姿態(tài)固定,這樣也可以做重建。

我們?nèi)绻剂肯鄼C陣列采集,從單個相機來看,它是相機固定,人在動的情況。如果我們把具體的某一時刻的多相機采集結(jié)果拿出來看,就又變成了一個相機在動,但是人靜止的情況。也就是本質(zhì)上來講,密集陣列相機采集能夠work,還是因為它在重建過程里嘗試把兩個變量變成一個變量。同時還有最極端的,就是單張圖片,相機和人都是不動的。

那現(xiàn)在就有一個很自然而然的問題,如果相機是動的,人也是動的,我們有沒有辦法去做重建?我給出一個例子,手機相冊,實際上我們每天拍攝的照片就是這樣。除了這個人和穿的衣服,其它所有因素都是變化的。相機的位姿、人的動作、圖像的比例,然后有大頭照、有全身照、有半身照、有遮擋、有圖像剪切……任何情況都可能會出現(xiàn)。在這樣非常臟的數(shù)據(jù)下,我們能不能夠把重建這個事情給做了?這就是我博士期間開始研究的一個問題。


這個問題的難點在哪呢?坦誠地講,我們不算是第一個來嘗試解決這個問題的。最早一個相關(guān)工作就是Photo Tourism,做場景重建的同學或者老師肯定知道。比如我要重建巴黎圣母院,這個工作就是從整個互聯(lián)網(wǎng)上把所有巴黎圣母院的照片拿下來,嘗試去跑SFM(Structure from Motion),拿到相機位姿,然后重建出它的點云。

但他們解決的問題其實比我們這個要簡單一點。為什么呢?因為巴黎圣母院是不會動的。它燒了之后當然形變了,但它沒燒之前是不形變的,永遠是那個樣子,所以就有辦法拿到相對準確的相機位姿。但是對于人這個場景,人的動作是會動的,相機也是動的,你沒有辦法跑這種傳統(tǒng)的structure from motion拿到一個準確的相機位姿。所以我們這個問題就顯得更有挑戰(zhàn),于是我在博士期間就做了PuzzleAvatar。

這是我接下來要講的工作的一個前序工作。其實我們的解決思路是非常簡單的,一句話就可以講清楚。我們首先嘗試把這些圖片壓成token,或者說壓縮成文字,然后我們再做文生3D,就這么簡單,這是個非常符合直覺的做法。然后人分很多個part,我們有上衣、褲子、臉,為了保證從圖像到文字的壓縮是無損的,我們就用很多的token去表達人的臉、上衣、褲子或者鞋。

整個流程其實非常簡單。我們把這些圖片輸入之后,首先嘗試去做分割,這樣就可以分割出一堆褲子、一堆臉、一堆鞋,然后我們對每一撮數(shù)據(jù)都分別用DreamBooth給學習到一個文生圖模型里。比如臉是asset 01,上衣是asset 02,以此類推,這樣就把圖片壓縮成了文字形式。然后我們再對文字做文生3D,因為23、24年那個時候還沒有現(xiàn)在這么多很快速的文生3D方式,我們就用最原始的SDS把人優(yōu)化出來。整個優(yōu)化是兩個流程,先嘗試恢復幾何,然后用SDS跑優(yōu)化文生3D。幾何跑得差不多了,我們就嘗試固定幾何,再跑它的紋理,這樣我們就可以把這個人帶紋理的幾何模型給重建出來。

這樣的做法有什么好處呢?因為我們相當于把所有圖片都壓縮成文字了,那就可以做這樣的事情。大家可以看到,左側(cè)是我的圖片,右側(cè)是我同事的圖片,都壓縮成文字之后,文字之間是可以進行交換的。那我們就做最簡單的事情,比如我的shirt叫A shirt,她的shirt叫B shirt,我們做一下交換,我就把她的衣服穿上了。這在數(shù)字人里就是很典型的一個任務,虛擬試衣。同時因為我的所有圖像都壓縮成文字了,文字是很容易編輯的,我們可以把褲子改成牛仔褲,或者衣服改成hoodie。這種改變同時也可以作用于幾何和紋理,所以整套 pipeline 就變得非常非常的干凈。

但是這里有一個問題,就是這個工作是沒有辦法落地的,因為它時間非常長。如果訓過DreamBooth,或者用過SDS的肯定知道,這兩個流程是曠日持久。在那種普通的GPU上,DreamBooth大概微調(diào)要一個小時左右,SDS 優(yōu)化要3個小時,那4個小時出一個人,這個時間是不可接受的。所以我們前不久發(fā)了一篇新的工作,嘗試把這個時間從4個小時壓縮到了1.5分鐘。


我們嘗試了一種全新的思路去做這個問題。直白來講,PuzzleAvatar的思路是先把圖像盡可能無損壓縮成文字,然后從文字恢復3D?,F(xiàn)在我們換了一種思路,就是能不能找到一種方式把dirty data 轉(zhuǎn)化成 clean data,把它洗干凈。什么叫洗干凈呢?洗干凈就是說,把這些圖片全轉(zhuǎn)化成多視角的正交圖片,像中間展示的這樣子。那這樣的圖片對于后續(xù)的重建是非常非常友好的,你可以套用任何現(xiàn)有的多視角重建算法,很快就能出來我們想要的結(jié)果,所以我們有辦法把時間壓到一分半。

我們做了一個動畫效果讓大家感受一下這個任務,就好像是你拿了一個卡片相機,圍著一個動的人不斷地拍。拍下來的圖片,我們有辦法把它從臟圖片洗成干凈的圖片。有了這些干凈的圖片,包括RGB,包括法向,我們就可以重建出質(zhì)量比較高的數(shù)字人。這個工作叫UP2You,UP是unconstrained photos的縮寫,you就是yourself。

這邊就是一個大概的pipeline。我們輸入的是這樣一些臟臟的圖片,首先有一個模塊嘗試從這些臟圖片里面拿到一個相對準確的人形,也就是這個人到底胖還是瘦。有了這個大概的人體形狀,我們就可以渲染出多視角的法向圖。接下來的問題就是,我有一些法向圖控制人體姿態(tài),我又有一些臟臟的圖片,它們定義了這個人的外表,那我們怎么把這兩個結(jié)合起來,最后生成一個多視角的圖像?

關(guān)鍵就是這個Correlation Map。它是做啥的呢?簡單地講,就是我現(xiàn)在給你一個人體的pose,我需要按需去取這上面的像素,拿到每一張臟圖片和這個姿態(tài)之間的相關(guān)性。大家看右邊的可視化,可以看出來,當這個姿態(tài)是一個正面姿態(tài)的時候,那些圖像的正面部分,權(quán)重或者置信度就會相對高。那這個人不斷旋轉(zhuǎn),置信度也在不斷變化,這個模塊非常非常關(guān)鍵。

我們這個方法最大的優(yōu)勢是什么呢?這也是一個我特別喜歡的性質(zhì),就是隨著輸入圖片的增多,重建質(zhì)量可以穩(wěn)定地變好。換句話來講,我們輸入的是大量非常臟的圖片,但無論它有多臟,只要能夠保證源源不斷地輸入圖片,最后重建的質(zhì)量就可以穩(wěn)定變好,多多益善。


中間就是我們的重建結(jié)果。最右邊是光場掃描的一個ground truth,你可以看到一張圖片的結(jié)果、兩張圖片,十張圖片,隨著輸入圖片的增多,我能拿到這個人的外表、正面、反面、背面、側(cè)面,我能拿到的信息更全面,那理論上講我們也可以恢復出更好的幾何和紋理。

我們的整個訓練是在合成數(shù)據(jù)上完成的,所以我們也測試了在真實場景下的效果。這是我們實驗室的同學,我們用他們隨便拍的照片做測試,發(fā)現(xiàn)也是可以泛化的。這是第一個工作,UP2You,主要講的是如何從臟圖片里面去做三維重建。

第二個工作是ETCH。當我已經(jīng)有了一個穿著衣服的人的幾何結(jié)構(gòu),怎么拿到解剖學正確的內(nèi)部人體結(jié)構(gòu)?今年ICCV,我們這項工作被選為了Highlight Paper。簡單來說,我們這個任務就是將一個參數(shù)化的人體模型,最常見的比如SMPL?X或者 MHR,想辦法把它準確塞到三維掃描里。


這個準確怎么定義呢?大家可以看到,這張圖最左邊是原始的輸入,一個三維掃描的穿衣服人體建模,藍色部分是真實的人體。用之前一些方法拿到的結(jié)果,你會發(fā)現(xiàn)這個人是有點偏胖的。原因也很簡單,之前我們分不清到底是衣服還是內(nèi)部皮膚,所以我們只能把衣服當成皮膚,然后去做body fitting,最后得到的結(jié)果往往就是偏胖。而第四個fitting,就是我們現(xiàn)在方案的結(jié)果。


在這個工作里,我們主要的創(chuàng)新點就是嘗試建模衣服和人體之間的厚度關(guān)系,把這個厚度關(guān)系減掉,就可以把衣服剝離,這樣我們就可以更準確地建模內(nèi)部人體。

我們整個pipeline,首先是掃描,在上面做均勻的采樣變成點云,對于每個點,我們找到一個指向內(nèi)部人體的向量,我們叫它Tightness Vector。接下來我們把這些點聚類到382 個marker,然后我們針對這些marker做fitting就可以了。整個pipeline其實非常非常符合直覺,過程也非??欤蟾艓酌腌娋涂梢愿愣?。這邊是一些最后的人體擬合結(jié)果。你會看到第三列的紅色、黃色,其實就是定義了衣服到底距離人體有多遠。


我們應該是第一個嘗試用向量來定義衣服和人體之間的關(guān)系的工作。那為什么要用向量做這件事情呢?因為如果用向量,我們就可以利用旋轉(zhuǎn)等變性來訓練這個網(wǎng)絡。那為什么要用旋轉(zhuǎn)等變性呢?因為這樣訓練可以更省數(shù)據(jù)。我們其實受到了馮海文的ArtEq這項工作的啟發(fā),簡單來講它的輸入是裸體的人,我們做的是穿著衣服的點云,但其實問題本質(zhì)上是比較相似的。衣服有非剛體形變,所以我們的旋轉(zhuǎn)等變性并不完美,但我們依然可以利用這樣的性質(zhì),大大減少訓練數(shù)據(jù)。

那又回到剛才那個問題。之前的數(shù)據(jù)集,往往相機和人只能動一個,而我們?nèi)粘O鄡岳锏臄?shù)據(jù)是人和相機都在動。但其實還有一種人和相機都在動的情況,就是我們?nèi)粘W畛R姷模诨ヂ?lián)網(wǎng)上到處都有的這種視頻。我們拍視頻的時候,相機不可能是靜止不動的,它往往也會隨著人去移動,只是和相冊比起來,相冊的圖片比較離散,視頻里面的這種采集,相對更連續(xù)一些,但它依然是人和相機都在運動著的情況。

那這邊就講一下我們最后一個工作,叫Human3R。這個工作的這個初衷是,我們能不能夠?qū)崟r地,并且前用前饋式的方式同時重建人和場景,并且只用一個模型。

這邊是結(jié)果,右下角是一個電影場景,我們可以看到隨著這個電影場景的播放,這個場景本身是可以重建出來的,包括場景中人的姿態(tài)我們也可以很準確地預測出來,并且不同人體的tracking也可以做到。這整個重建的pipeline,我們可以做到實時15 FPS,8GB顯存占用,所以在一個商用的GPU上也可以跑得很好。

這邊要講一下為什么我們要嘗試把人體和場景放到一塊去做重建,很重要的一個原因是為了更好地理解人的行為。我舉一個例子,其實你其實很難單純從動作里面看到,一個人究竟在做什么。但是如果我們把場景也給到你,你就可以非常清晰地看出來,這個語義就相對清晰了。這就是為什么我們要嘗試把人和場景放到一塊重建,因為這樣可以更好地理解人的行為。

我們這個工作的題目叫Everyone,Everywhere,All at Once,是借鑒了楊紫瓊老師的電影Everything,Everywhere,All at Once。這個名字是我起的,我覺得還是比較符合我們整個工作的特點。為什么叫 All at Once呢?首先我們只有一個模型,沒有很多個part,one model,而且one stage。我們也是 one shot,也就是說不需要一個人一個人地出,我們是所有人一塊出。另外我們整個訓練只需要一張GPU,訓一天就可以了。五個one,all at once,一股腦地、實時地把所有結(jié)果全部跑出來。


我們的輸入就是一個普通的單目視頻,輸出包括一個全局坐標系下的人體姿態(tài),包括三維場景重建以及camera pose。

我們這個工作和之前的工作,最大的差別是什么?我們把之前的很多工作總結(jié)了一下,大概就是這樣的范式,它們都是multi stage。比如我給一個視頻,首先要做detection,檢測到人的bounding box,然后對每個bounding box里面的人做tracking,拿到trajectory,再然后每個人都要做HMR(Human Mesh Recovery),都要跑出一個人體的pose,同時我們還要做整個場景的深度估計,還要做分割,要預測相機的pose。最后所有的這些,場景的點云,人的pose,全部要放到一個框架里面進行聯(lián)合優(yōu)化,整個流程基本上都要跑幾個小時。


這是大家之前的做法。我們現(xiàn)在把這些非常復雜的流程全部砍掉,只用一個模型,一個stage就可以解決問題。很大程度上這項工作是受王倩倩老師做的CUT3R的啟發(fā),它是一個online的4D重建工作,圖片一張一張往里面進,整個4D的場景,包括人,包括物,一幀一幀地重建,都可以 online地去跑下去。我非常喜歡這個工作。

但是如果你看CUT3R的文章,它也是在一個非常大規(guī)模的數(shù)據(jù)上訓練的。我們?nèi)绻猣rom scratch去訓練的話,也同樣需要大量的數(shù)據(jù)。但是問題在于,其實人和場景交互沒有那么多的數(shù)據(jù),我們可能可以拿到很多的3D場景數(shù)據(jù),但是很難拿到一個場景和人都在,而且場景和人的深度交互也都有的數(shù)據(jù),所以我們不得不嘗試只用一個很小的數(shù)據(jù)集把這東西給train起來。

我們的做法在這邊。大家可以看到,上面所有帶雪花的都是CUT3R原始的backbone,我們沒有改動,因為我們需要它保持原有的對場景的重建能力。同時我們加了一個branch,專門從這個場景里面read out出人的點云,然后read out出這個人體的pose。然后我們還借鑒了VPT(Visual-Prompt Tuning),這樣可以非常高效地做微調(diào),就可以實現(xiàn)一天、一張GPU,把這個模型給訓出來,而且達到 SOTA 的性能。

這邊展示了更多的結(jié)果。這是一個3DPW(3D Pose in the Wild)的場景,兩個人在一條路上行走,你可以看到這個人的軌跡是非常平滑的,整個場景也可以都重建出來。但是我們也嘗試做一下回環(huán)檢測,這個人跑一圈,最后整個場景和人是不是也都能重建出來?效果其實也是比較滿意的。這是在一個相對長程的場景里,這是一個實驗室,你可以看到隨著這個人在各個房間里面走動,最后整個房間被重建出來,然后整個人的軌跡也可以拿到。

這是我們最喜歡的一個case,一個電影場景,兩個人,不光做pose,人的ID也可以同時做跟蹤,而且隨著視頻跑得越來越多,整個場景也會不斷地完善。

這邊是一些我們?nèi)梭w的pose預測和ground truth之間的對比,黑色的影子就是 ground truth,藍色的就是人體估計的動作,大家可以看到幾乎是嚴絲合縫的,我們的準確性是非常高的。

當然也有一些failure case,這是比較經(jīng)典的一個,因為我們這個方法還是前饋式的,就是一步到位把所有結(jié)果給到你,沒有任何后續(xù)的優(yōu)化,所以有的時候難免會出現(xiàn)這種人和場景之間的交叉。比如人坐到沙發(fā)里,或者腳跑到地底下穿模,這種情況還是有的。以及如果這個人在和場景交互的同時,還和一些物體交互,比如說拿了一把吉他,那這個吉他相當于也是一個動態(tài)的,那這種情況我們目前沒有辦法建模,只能在處理的過程中我們把這個東西摳掉,只做靜態(tài)場景和人的重建,動態(tài)場景目前沒法處理。

這里可以順勢講一下,其實我們認為這個工作有個非常自然的extension,就是把Everyone,Everywhere,All at Once,拓展成Everything,Everyone,Everywhere All at Once,人、場景、物全部一股腦地出來。我們可以提前把這些物體給建模,然后只做 6D pose,也可以online地去把這物體重建出來。那這個問題怎么解決呢?各位老師如果感興趣的話,一會我們可以再聊。

那這項工作給了我們一個什么啟發(fā)呢?因為我是做數(shù)字人的,這其實是一個比較悲傷的事情,我發(fā)現(xiàn)很多數(shù)字人的問題隨著更通用的3D重建模型變得越來越強大,正在迎刃而解。比如Human3R,簡單來講,我們拿了一個有場景感知能力的視覺基礎模型,稍微微調(diào)一下就可以做人體的pose。同時最近我發(fā)現(xiàn)了一篇曹旭老師新工作,叫KaoLRM,他們拿object centric的LRM,去做臉部的重建,和之前的方法相比,在跨視角上獲得了更好的穩(wěn)定性。所以我的一個感覺是,可能未來數(shù)字人的很多重建任務,慢慢都會變?yōu)橐粋€基礎模型的微調(diào)任務。

剛才講的三個工作我們?nèi)慷奸_源了,也在網(wǎng)站上提供了一些可以交互的demo,歡迎大家去我們的網(wǎng)站上使用下載,如果有bug也可以和我講,我們盡快修復。


最后summarize一下,我們今天講了三個工作。第一個是三維形象重建UP2You,主要解決的問題是怎么把臟數(shù)據(jù)變廢為寶,怎么用臟數(shù)據(jù)做三維重建。我們提出來的解決方案是數(shù)據(jù)整流器,就好像交流電變直流電一樣,我們把臟數(shù)據(jù)變成干凈數(shù)據(jù),重建的問題就更好解決。

第二個工作是三維體型估計ETCH,我們和之前的工作不一樣的點是,之前做相關(guān)任務是從一個幾何視角出發(fā)的,把衣服當成皮膚,然后去做fitting。而我們是解剖學視角,我們希望拿到衣服之下那個真實人體的、解剖學正確的人體體型。我們的解決方案就是嘗試建模從衣服到人體之間的厚度,我們叫它Thightness Vector,等變緊度向量。

第三個是Human3R,人和場景的實時動態(tài)重建。之前的工作都是先分后總,先做人,再做場景,然后人和場景聯(lián)合優(yōu)化,非常費時費力。我們的思路反過來,先總后分,先拿到一個大的重建結(jié)果,然后再從這個大的重建結(jié)果里面,一點一點把我們需要的,比如人體的pose或者物體的pose給讀出來,最后可以實現(xiàn)人和場景端到端直出地效果。這是我們思路上的區(qū)別。

最后給我們實驗室打個廣告。因為我是剛剛回國任教,我們實驗室主要還是做關(guān)于人的一切,我們做人臉,做人體,做人和物的交互,人和場景的交互,人和人的交互,我們做衣服,我們做肌肉,我們做骨骼,做靜態(tài)的人、動態(tài)的動作,我們都會做,只要是和人相關(guān)的,都是我們研究的重點,另外,小動物也是我們感興趣的。我們實驗室也在招聘各種各樣的訪問的同學,實習生,RA,PhD以及 Postdoc,所以如果大家對我們的工作感興趣,歡迎后續(xù)跟蹤我們的最新進展,也歡迎加入我們一起干,謝謝。

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
錢再多也沒用!向太曝馬伊琍已再婚,原來當年文章過不了心里那關(guān)

錢再多也沒用!向太曝馬伊琍已再婚,原來當年文章過不了心里那關(guān)

一娛三分地
2025-12-15 13:26:07
25000分2000斷比肩喬丹!年薪363萬打成球隊老大,今夏最成功撿漏

25000分2000斷比肩喬丹!年薪363萬打成球隊老大,今夏最成功撿漏

你的籃球頻道
2025-12-28 10:00:16
美國抗議無效!中國20家美企+10名高管被鎖死,這次真打疼了

美國抗議無效!中國20家美企+10名高管被鎖死,這次真打疼了

音樂時光的娛樂
2025-12-28 13:34:56
鳳姐在美國15年,是如何躲過斬殺線的?

鳳姐在美國15年,是如何躲過斬殺線的?

胡嚴亂語
2025-12-26 17:18:31
廣東一小伙,因入住毛坯房而走紅,花費僅1萬,卻無一絲窮酸氣!

廣東一小伙,因入住毛坯房而走紅,花費僅1萬,卻無一絲窮酸氣!

阿離家居
2025-12-28 10:19:49
奶奶狂扇孫女后續(xù):監(jiān)控全程曝光,連打7次嘴已腫,父親憤怒發(fā)聲

奶奶狂扇孫女后續(xù):監(jiān)控全程曝光,連打7次嘴已腫,父親憤怒發(fā)聲

丹妮觀
2025-12-28 10:55:54
對越自衛(wèi)反擊戰(zhàn)勝利結(jié)束后,鄧小平不再兼任總參謀長,由楊得志接任該職務,許世友也隨之離開軍隊

對越自衛(wèi)反擊戰(zhàn)勝利結(jié)束后,鄧小平不再兼任總參謀長,由楊得志接任該職務,許世友也隨之離開軍隊

史海孤雁
2025-12-19 17:46:12
60歲女兒考營養(yǎng)師搭配98歲父親一日三餐,老人臉色白里透紅仿佛“年輕30歲”

60歲女兒考營養(yǎng)師搭配98歲父親一日三餐,老人臉色白里透紅仿佛“年輕30歲”

瀟湘晨報
2025-12-27 15:23:15
《老舅》收官,演技大洗牌:郭京飛9.6分倒數(shù),第一當之無愧

《老舅》收官,演技大洗牌:郭京飛9.6分倒數(shù),第一當之無愧

白面書誏
2025-12-26 16:04:00
百年龐家故事大揭秘:他們?yōu)楹尾贿x擇離開大陸?

百年龐家故事大揭秘:他們?yōu)楹尾贿x擇離開大陸?

金牌輿情官
2025-12-25 20:15:34
砂舞江湖:啃老族的提款機與嬢嬢們的生存戰(zhàn)。2025年12月25日。

砂舞江湖:啃老族的提款機與嬢嬢們的生存戰(zhàn)。2025年12月25日。

成都人的故事
2025-12-28 11:30:07
黎筍之子黎堅誠坦言:父親選擇同中國開戰(zhàn),是其畢生最大的失策

黎筍之子黎堅誠坦言:父親選擇同中國開戰(zhàn),是其畢生最大的失策

磊子講史
2025-12-24 11:04:05
老婆敗光20億家產(chǎn)傳聞真相大白10個月,曝張學友近況,一點不意外

老婆敗光20億家產(chǎn)傳聞真相大白10個月,曝張學友近況,一點不意外

素衣讀史
2025-12-26 17:30:27
人社部表態(tài),2026年養(yǎng)老金或迎“22連漲”,漲幅能超2%嗎?

人社部表態(tài),2026年養(yǎng)老金或迎“22連漲”,漲幅能超2%嗎?

財話連篇
2025-12-27 14:03:43
一個老護工大實話:在養(yǎng)老院,沒人敢欺負的往往不是有錢老人!

一個老護工大實話:在養(yǎng)老院,沒人敢欺負的往往不是有錢老人!

我不叫阿哏
2025-12-27 00:16:02
據(jù)說全球僅20例!巴西一女子在同一晚與2名男子發(fā)生了關(guān)系

據(jù)說全球僅20例!巴西一女子在同一晚與2名男子發(fā)生了關(guān)系

忠于法紀
2025-12-04 11:25:07
少年烤雞停業(yè),不是敗給競爭,是被流量壓垮了

少年烤雞停業(yè),不是敗給競爭,是被流量壓垮了

前沿天地
2025-12-28 06:00:31
海南“火山口”施工進度曝光,2027年完工!

海南“火山口”施工進度曝光,2027年完工!

GA環(huán)球建筑
2025-12-27 23:43:38
僅差1個!僅差27個!約基奇迎神級里程碑,威少的紀錄也保不住了

僅差1個!僅差27個!約基奇迎神級里程碑,威少的紀錄也保不住了

世界體育圈
2025-12-28 11:13:30
最近的蔚來,讓人倒吸一口涼氣

最近的蔚來,讓人倒吸一口涼氣

雷峰網(wǎng)
2025-12-25 19:59:51
2025-12-28 15:19:00
AI科技評論 incentive-icons
AI科技評論
點評學術(shù),服務AI
7025文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

AR眼鏡第一案,究竟在爭什么?

頭條要聞

四川原副省長葉寒冰被通報:長期出入私人會所聚餐飲酒

頭條要聞

四川原副省長葉寒冰被通報:長期出入私人會所聚餐飲酒

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

姚晨打卡絕版機位 高崎機場背后的遺憾

財經(jīng)要聞

英偉達的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

旅游
家居
時尚
本地
軍事航空

旅游要聞

雙山聯(lián)動啟新歲!松江冬日文旅:在自然人文間藏盡治愈時光

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

瑞典拉普蘭:凜冽北境的萬物平衡之道

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

軍事要聞

與特朗普會晤前 澤連斯基亮明“紅線”

無障礙瀏覽 進入關(guān)懷版 日韩中文字幕国产精品| 国产嫖妓免费视频在线观看| 亚洲AV成人无码一区在线观看| 在线免费欧美| 国产精品高跟| 久久人人爽人人爽人人片aV免费| 福利一区二区不卡国产| 不卡一区二区在线视频| 1000部啪啪免费视频| 国产成人美女视频网站| 蜜芽黄色无码| 波多野结衣在线看| 亚洲永久网址| 无码日韩做暖暖大全免费不卡| 人人妻人人澡人人爽精品欧美| 国产特级毛片aaaaaa| 久久婷婷色五月综合图区| 嗯嗯啊好深国产精品| 97男人操人人。| 人妻无码aⅴ中文系列久久免费| 亚洲性爱小说视频| 人妻系列无码专区69影院| 亚洲福利午夜a| 国产精品多p对白交换绿帽| 国产成人免费一区二区| 翁公小雪在厨房张开腿进出| 久久免费国产精品一区二区| 波多结衣野被操57分钟| 24小时成人免费网站| 无码人妻精品一区二区三区东京热| 884aa四虎影成人精品| www插插插无码免费视频网站| 国产精品a成v人在线播放| 日韩免费码中文在线观看| 国产亚洲精久久久久久无码桃子| 久久人妻无码AⅤ大片| 狠狠躁夜夜躁人人爽天天不卡软件| 精品女同一区二区免费播放| 一区二区视频| 护士拔下内裤让我爽一夜| 一本一道黄色网|