網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

西湖大學修宇亮：數(shù)字人重建，慢慢都會變成基礎模型的微調(diào)任務 | GAIR 2025

2025-12-16 19:32:58　來源: AI科技評論

廣東舉報

分享至

臟數(shù)據(jù)變廢為寶，1.5秒完成數(shù)字人重建。

作者丨梁丙鑒

編輯丨馬曉寧

12月12日，第八屆 GAIR 全球人工智能與機器人大會于深圳正式拉開帷幕。

本次大會為期兩天，由GAIR研究院與雷峰網(wǎng)聯(lián)合主辦，高文院士任指導委員會主席，楊強院士與朱曉蕊教授任大會主席。大會共開設三個主題論壇，聚焦大模型、具身智能、算力變革、強化學習與世界模型等多個議題，描繪AI最前沿的探索群像，折射學界與產(chǎn)業(yè)界共建的智能未來。

作為 AI 產(chǎn)學研投界標桿盛會，GAIR自2016年創(chuàng)辦以來，始終堅守 “傳承+創(chuàng)新” 內(nèi)核，是 AI 學界思想接力的陣地、技術(shù)交流的平臺，更是中國 AI 四十年發(fā)展的精神家園。過去四年大模型驅(qū)動 AI 產(chǎn)業(yè)加速變革，歲末年初 GAIR 如約而至，以高質(zhì)量觀點碰撞，為行業(yè)與大眾呈現(xiàn)AI時代的前沿洞見。

在12月13日的“世界模型”專場，西湖大學助理教授，遠兮實驗室負責人修宇亮進行了以《走出蠟像館，交互新世界：開拓三維數(shù)字人研究新疆域》為主題的演講，分享了其關(guān)于高精度數(shù)字人重建的三項最新進展。

修宇亮分享了遠兮實驗室最新的三個工作，分別為 UP2You，ETCH 和 Human3R。

由于兼具相機位姿變化和人物動作變化的特點，如何從無限制的日常采集圖像（如手機相冊）出發(fā)，進行高精度的三維重建，是一個非常有挑戰(zhàn)性的問題。修宇亮在博士期間，提出了第一套，先圖生文，再文生 3D的兩步走解決方案。這套方案可以兼容虛擬試衣和基于文字的穿搭編輯等下游應用，但效率非常低，DreamBooth和SDS（Score Distillation Sampling）漫長的微調(diào)和優(yōu)化流程，導致單個數(shù)字人建模任務需要3至4個小時。

遠兮實驗室的最新成果UP2You，將上述時間從4小時壓縮到了1.5 分鐘。其核心思想是將臟數(shù)據(jù)直接轉(zhuǎn)化成對后續(xù)重建友好的多視角正交圖片，在此基礎上套用已有的多視角重建算法，實現(xiàn)提效。

相較于傳統(tǒng)方案，UP2You的優(yōu)勢，一是快——從一坨臟數(shù)據(jù)中，只需要1.5 分鐘就可以拿到高質(zhì)量的帶紋理數(shù)字人；二是多多益善——用數(shù)量換質(zhì)量，重建質(zhì)量可以隨輸入圖片數(shù)量的增加而穩(wěn)定變好。修宇亮總結(jié)，“無論圖片有多臟，這個方案只要保證圖片源源不斷灌進來，更細節(jié)的幾何和更完整的紋理，就可以立竿見影?！?/p>

修宇亮分享的第二項工作名為ETCH，旨在從穿衣服的人物三維掃描中，得到解剖學上正確的內(nèi)部人體。由于此前的其他嘗試，很少建模人體和衣服之間的厚度，往往直接將最外層服裝視為人體皮膚來做人體模型擬合，這就導致擬合結(jié)果普遍偏胖。而ETCH則是通過等變向量，定義了衣服和皮膚之間的厚度關(guān)系，從而獲得更準確的內(nèi)部人體結(jié)構(gòu)，而且由于旋轉(zhuǎn)等變性的引入，也可以大大減少訓練數(shù)據(jù)。在今年的ICCV上，ETCH獲評Highlight Paper。

最后一項工作名為Human3R，旨在實現(xiàn)人物及場景的實時動態(tài)重建?！澳愫茈y只從人體動作出發(fā)，就看懂人在做什么”，修宇亮解釋，“但如果把場景也給到你，語義就相對清晰?！?/p>

據(jù)介紹，Human3R在同時實現(xiàn)場景重建和人體狀態(tài)預測、追蹤的基礎上，可以做到實時15FPS 的推理，8GB顯存占用。這意味著僅需一張商用GPU，即可實現(xiàn)SOTA級性能。單張顯卡訓一天，單個模型跑一遍，多人跟蹤實時出，場景還更準了些。

為了實現(xiàn)這一點，Human3R基本保留了CUT3R的 backbone，同時新增了一條人體回歸的分支，借鑒了VPT（Visual-Prompt Tuning）策略，以實現(xiàn)高效微調(diào)，這樣就可以在不破壞CUT3R 已有的場景重建能力的基礎上，對人體相關(guān)的幾何信息解碼成 SMPL，場景在這里，可以視為一種上下文，保證人體被正確的放置到場景中。

展望未來，修宇亮最后分享了自身對于數(shù)字人技術(shù)的觀察。更強大的通用3D重建模型正在讓越來越多數(shù)字人重建任務迎刃而解?！皵?shù)字人的重建任務，慢慢都會變成基礎模型的微調(diào)任務。”修宇亮指出。

以下為修宇亮的現(xiàn)場演講內(nèi)容，雷峰網(wǎng)進行了不改變原意的編輯整理：

非常榮幸來介紹我們實驗室的最新工作進展。我今天分享的題目是《走出蠟像館，交互新世界》，起這個題目的主要原因是，在我看來，數(shù)字人無非就是研究兩個問題。一個是研究靜態(tài)，就是怎么建模一個栩栩如生的數(shù)字人。另一個就是動態(tài)，怎么讓這個人可以活靈活現(xiàn)地動起來，這是兩個非常關(guān)鍵的問題。

我今天分享的有三個工作。第一個工作是關(guān)于三維形象重建，怎么從日常的圖像里面去做高精度的數(shù)字人重建。第二個工作是ETCH，如果我們已經(jīng)拿到了一個高精度的，穿著衣服的人體幾何建模，怎么能夠再從這里拿到一個解剖學上正確的內(nèi)部的人體結(jié)構(gòu)？第三個是Human3R，我們往往要把人的行為放到一個場景里才能更好地理解，所以我們最新的工作Human3R，就是把人和場景放到一起去做重建。

在講之前，我先把數(shù)字人重建會用到的數(shù)據(jù)類型總結(jié)一下。我們以相機和人動不動作為量綱，比如Snapshot這個數(shù)據(jù)集，它是相機靜止，但是人在運動著的數(shù)據(jù)，綠色就是運動，紅色就是靜止，那當然這個運動的幅度也可以更大一些。這邊是我從Youtube上找到的一個視頻，它也是相機靜止，人在運動。當然這件事也可以反過來。我們也可以讓人固定不動，讓相機進行轉(zhuǎn)動。這邊這個就是，因為要保持人的穩(wěn)定，就加了兩個三腳架做人的姿態(tài)固定，這樣也可以做重建。

我們?nèi)绻剂肯鄼C陣列采集，從單個相機來看，它是相機固定，人在動的情況。如果我們把具體的某一時刻的多相機采集結(jié)果拿出來看，就又變成了一個相機在動，但是人靜止的情況。也就是本質(zhì)上來講，密集陣列相機采集能夠work，還是因為它在重建過程里嘗試把兩個變量變成一個變量。同時還有最極端的，就是單張圖片，相機和人都是不動的。

那現(xiàn)在就有一個很自然而然的問題，如果相機是動的，人也是動的，我們有沒有辦法去做重建？我給出一個例子，手機相冊，實際上我們每天拍攝的照片就是這樣。除了這個人和穿的衣服，其它所有因素都是變化的。相機的位姿、人的動作、圖像的比例，然后有大頭照、有全身照、有半身照、有遮擋、有圖像剪切……任何情況都可能會出現(xiàn)。在這樣非常臟的數(shù)據(jù)下，我們能不能夠把重建這個事情給做了？這就是我博士期間開始研究的一個問題。

這個問題的難點在哪呢？坦誠地講，我們不算是第一個來嘗試解決這個問題的。最早一個相關(guān)工作就是Photo Tourism，做場景重建的同學或者老師肯定知道。比如我要重建巴黎圣母院，這個工作就是從整個互聯(lián)網(wǎng)上把所有巴黎圣母院的照片拿下來，嘗試去跑SFM（Structure from Motion），拿到相機位姿，然后重建出它的點云。

但他們解決的問題其實比我們這個要簡單一點。為什么呢？因為巴黎圣母院是不會動的。它燒了之后當然形變了，但它沒燒之前是不形變的，永遠是那個樣子，所以就有辦法拿到相對準確的相機位姿。但是對于人這個場景，人的動作是會動的，相機也是動的，你沒有辦法跑這種傳統(tǒng)的structure from motion拿到一個準確的相機位姿。所以我們這個問題就顯得更有挑戰(zhàn)，于是我在博士期間就做了PuzzleAvatar。

這是我接下來要講的工作的一個前序工作。其實我們的解決思路是非常簡單的，一句話就可以講清楚。我們首先嘗試把這些圖片壓成token，或者說壓縮成文字，然后我們再做文生3D，就這么簡單，這是個非常符合直覺的做法。然后人分很多個part，我們有上衣、褲子、臉，為了保證從圖像到文字的壓縮是無損的，我們就用很多的token去表達人的臉、上衣、褲子或者鞋。

整個流程其實非常簡單。我們把這些圖片輸入之后，首先嘗試去做分割，這樣就可以分割出一堆褲子、一堆臉、一堆鞋，然后我們對每一撮數(shù)據(jù)都分別用DreamBooth給學習到一個文生圖模型里。比如臉是asset 01，上衣是asset 02，以此類推，這樣就把圖片壓縮成了文字形式。然后我們再對文字做文生3D，因為23、24年那個時候還沒有現(xiàn)在這么多很快速的文生3D方式，我們就用最原始的SDS把人優(yōu)化出來。整個優(yōu)化是兩個流程，先嘗試恢復幾何，然后用SDS跑優(yōu)化文生3D。幾何跑得差不多了，我們就嘗試固定幾何，再跑它的紋理，這樣我們就可以把這個人帶紋理的幾何模型給重建出來。

這樣的做法有什么好處呢？因為我們相當于把所有圖片都壓縮成文字了，那就可以做這樣的事情。大家可以看到，左側(cè)是我的圖片，右側(cè)是我同事的圖片，都壓縮成文字之后，文字之間是可以進行交換的。那我們就做最簡單的事情，比如我的shirt叫A shirt，她的shirt叫B shirt，我們做一下交換，我就把她的衣服穿上了。這在數(shù)字人里就是很典型的一個任務，虛擬試衣。同時因為我的所有圖像都壓縮成文字了，文字是很容易編輯的，我們可以把褲子改成牛仔褲，或者衣服改成hoodie。這種改變同時也可以作用于幾何和紋理，所以整套 pipeline 就變得非常非常的干凈。

但是這里有一個問題，就是這個工作是沒有辦法落地的，因為它時間非常長。如果訓過DreamBooth，或者用過SDS的肯定知道，這兩個流程是曠日持久。在那種普通的GPU上，DreamBooth大概微調(diào)要一個小時左右，SDS 優(yōu)化要3個小時，那4個小時出一個人，這個時間是不可接受的。所以我們前不久發(fā)了一篇新的工作，嘗試把這個時間從4個小時壓縮到了1.5分鐘。

我們嘗試了一種全新的思路去做這個問題。直白來講，PuzzleAvatar的思路是先把圖像盡可能無損壓縮成文字，然后從文字恢復3D?，F(xiàn)在我們換了一種思路，就是能不能找到一種方式把dirty data 轉(zhuǎn)化成 clean data，把它洗干凈。什么叫洗干凈呢？洗干凈就是說，把這些圖片全轉(zhuǎn)化成多視角的正交圖片，像中間展示的這樣子。那這樣的圖片對于后續(xù)的重建是非常非常友好的，你可以套用任何現(xiàn)有的多視角重建算法，很快就能出來我們想要的結(jié)果，所以我們有辦法把時間壓到一分半。

我們做了一個動畫效果讓大家感受一下這個任務，就好像是你拿了一個卡片相機，圍著一個動的人不斷地拍。拍下來的圖片，我們有辦法把它從臟圖片洗成干凈的圖片。有了這些干凈的圖片，包括RGB，包括法向，我們就可以重建出質(zhì)量比較高的數(shù)字人。這個工作叫UP2You，UP是unconstrained photos的縮寫，you就是yourself。

這邊就是一個大概的pipeline。我們輸入的是這樣一些臟臟的圖片，首先有一個模塊嘗試從這些臟圖片里面拿到一個相對準確的人形，也就是這個人到底胖還是瘦。有了這個大概的人體形狀，我們就可以渲染出多視角的法向圖。接下來的問題就是，我有一些法向圖控制人體姿態(tài)，我又有一些臟臟的圖片，它們定義了這個人的外表，那我們怎么把這兩個結(jié)合起來，最后生成一個多視角的圖像？

關(guān)鍵就是這個Correlation Map。它是做啥的呢？簡單地講，就是我現(xiàn)在給你一個人體的pose，我需要按需去取這上面的像素，拿到每一張臟圖片和這個姿態(tài)之間的相關(guān)性。大家看右邊的可視化，可以看出來，當這個姿態(tài)是一個正面姿態(tài)的時候，那些圖像的正面部分，權(quán)重或者置信度就會相對高。那這個人不斷旋轉(zhuǎn)，置信度也在不斷變化，這個模塊非常非常關(guān)鍵。

我們這個方法最大的優(yōu)勢是什么呢？這也是一個我特別喜歡的性質(zhì)，就是隨著輸入圖片的增多，重建質(zhì)量可以穩(wěn)定地變好。換句話來講，我們輸入的是大量非常臟的圖片，但無論它有多臟，只要能夠保證源源不斷地輸入圖片，最后重建的質(zhì)量就可以穩(wěn)定變好，多多益善。

中間就是我們的重建結(jié)果。最右邊是光場掃描的一個ground truth，你可以看到一張圖片的結(jié)果、兩張圖片，十張圖片，隨著輸入圖片的增多，我能拿到這個人的外表、正面、反面、背面、側(cè)面，我能拿到的信息更全面，那理論上講我們也可以恢復出更好的幾何和紋理。

我們的整個訓練是在合成數(shù)據(jù)上完成的，所以我們也測試了在真實場景下的效果。這是我們實驗室的同學，我們用他們隨便拍的照片做測試，發(fā)現(xiàn)也是可以泛化的。這是第一個工作，UP2You，主要講的是如何從臟圖片里面去做三維重建。

第二個工作是ETCH。當我已經(jīng)有了一個穿著衣服的人的幾何結(jié)構(gòu)，怎么拿到解剖學正確的內(nèi)部人體結(jié)構(gòu)？今年ICCV，我們這項工作被選為了Highlight Paper。簡單來說，我們這個任務就是將一個參數(shù)化的人體模型，最常見的比如SMPL?X或者 MHR，想辦法把它準確塞到三維掃描里。

這個準確怎么定義呢？大家可以看到，這張圖最左邊是原始的輸入，一個三維掃描的穿衣服人體建模，藍色部分是真實的人體。用之前一些方法拿到的結(jié)果，你會發(fā)現(xiàn)這個人是有點偏胖的。原因也很簡單，之前我們分不清到底是衣服還是內(nèi)部皮膚，所以我們只能把衣服當成皮膚，然后去做body fitting，最后得到的結(jié)果往往就是偏胖。而第四個fitting，就是我們現(xiàn)在方案的結(jié)果。

在這個工作里，我們主要的創(chuàng)新點就是嘗試建模衣服和人體之間的厚度關(guān)系，把這個厚度關(guān)系減掉，就可以把衣服剝離，這樣我們就可以更準確地建模內(nèi)部人體。

我們整個pipeline，首先是掃描，在上面做均勻的采樣變成點云，對于每個點，我們找到一個指向內(nèi)部人體的向量，我們叫它Tightness Vector。接下來我們把這些點聚類到382 個marker，然后我們針對這些marker做fitting就可以了。整個pipeline其實非常非常符合直覺，過程也非?？欤蟾艓酌腌娋涂梢愿愣?。這邊是一些最后的人體擬合結(jié)果。你會看到第三列的紅色、黃色，其實就是定義了衣服到底距離人體有多遠。

我們應該是第一個嘗試用向量來定義衣服和人體之間的關(guān)系的工作。那為什么要用向量做這件事情呢？因為如果用向量，我們就可以利用旋轉(zhuǎn)等變性來訓練這個網(wǎng)絡。那為什么要用旋轉(zhuǎn)等變性呢？因為這樣訓練可以更省數(shù)據(jù)。我們其實受到了馮海文的ArtEq這項工作的啟發(fā)，簡單來講它的輸入是裸體的人，我們做的是穿著衣服的點云，但其實問題本質(zhì)上是比較相似的。衣服有非剛體形變，所以我們的旋轉(zhuǎn)等變性并不完美，但我們依然可以利用這樣的性質(zhì)，大大減少訓練數(shù)據(jù)。

那又回到剛才那個問題。之前的數(shù)據(jù)集，往往相機和人只能動一個，而我們?nèi)粘Ｏ鄡岳锏臄?shù)據(jù)是人和相機都在動。但其實還有一種人和相機都在動的情況，就是我們?nèi)粘Ｗ畛Ｒ姷模诨ヂ?lián)網(wǎng)上到處都有的這種視頻。我們拍視頻的時候，相機不可能是靜止不動的，它往往也會隨著人去移動，只是和相冊比起來，相冊的圖片比較離散，視頻里面的這種采集，相對更連續(xù)一些，但它依然是人和相機都在運動著的情況。

那這邊就講一下我們最后一個工作，叫Human3R。這個工作的這個初衷是，我們能不能夠?qū)崟r地，并且前用前饋式的方式同時重建人和場景，并且只用一個模型。

這邊是結(jié)果，右下角是一個電影場景，我們可以看到隨著這個電影場景的播放，這個場景本身是可以重建出來的，包括場景中人的姿態(tài)我們也可以很準確地預測出來，并且不同人體的tracking也可以做到。這整個重建的pipeline，我們可以做到實時15 FPS，8GB顯存占用，所以在一個商用的GPU上也可以跑得很好。

這邊要講一下為什么我們要嘗試把人體和場景放到一塊去做重建，很重要的一個原因是為了更好地理解人的行為。我舉一個例子，其實你其實很難單純從動作里面看到，一個人究竟在做什么。但是如果我們把場景也給到你，你就可以非常清晰地看出來，這個語義就相對清晰了。這就是為什么我們要嘗試把人和場景放到一塊重建，因為這樣可以更好地理解人的行為。

我們這個工作的題目叫Everyone，Everywhere，All at Once，是借鑒了楊紫瓊老師的電影Everything，Everywhere，All at Once。這個名字是我起的，我覺得還是比較符合我們整個工作的特點。為什么叫 All at Once呢？首先我們只有一個模型，沒有很多個part，one model，而且one stage。我們也是 one shot，也就是說不需要一個人一個人地出，我們是所有人一塊出。另外我們整個訓練只需要一張GPU，訓一天就可以了。五個one，all at once，一股腦地、實時地把所有結(jié)果全部跑出來。

我們的輸入就是一個普通的單目視頻，輸出包括一個全局坐標系下的人體姿態(tài)，包括三維場景重建以及camera pose。

我們這個工作和之前的工作，最大的差別是什么？我們把之前的很多工作總結(jié)了一下，大概就是這樣的范式，它們都是multi stage。比如我給一個視頻，首先要做detection，檢測到人的bounding box，然后對每個bounding box里面的人做tracking，拿到trajectory，再然后每個人都要做HMR（Human Mesh Recovery），都要跑出一個人體的pose，同時我們還要做整個場景的深度估計，還要做分割，要預測相機的pose。最后所有的這些，場景的點云，人的pose，全部要放到一個框架里面進行聯(lián)合優(yōu)化，整個流程基本上都要跑幾個小時。

這是大家之前的做法。我們現(xiàn)在把這些非常復雜的流程全部砍掉，只用一個模型，一個stage就可以解決問題。很大程度上這項工作是受王倩倩老師做的CUT3R的啟發(fā)，它是一個online的4D重建工作，圖片一張一張往里面進，整個4D的場景，包括人，包括物，一幀一幀地重建，都可以 online地去跑下去。我非常喜歡這個工作。

但是如果你看CUT3R的文章，它也是在一個非常大規(guī)模的數(shù)據(jù)上訓練的。我們?nèi)绻猣rom scratch去訓練的話，也同樣需要大量的數(shù)據(jù)。但是問題在于，其實人和場景交互沒有那么多的數(shù)據(jù)，我們可能可以拿到很多的3D場景數(shù)據(jù)，但是很難拿到一個場景和人都在，而且場景和人的深度交互也都有的數(shù)據(jù)，所以我們不得不嘗試只用一個很小的數(shù)據(jù)集把這東西給train起來。

我們的做法在這邊。大家可以看到，上面所有帶雪花的都是CUT3R原始的backbone，我們沒有改動，因為我們需要它保持原有的對場景的重建能力。同時我們加了一個branch，專門從這個場景里面read out出人的點云，然后read out出這個人體的pose。然后我們還借鑒了VPT（Visual-Prompt Tuning），這樣可以非常高效地做微調(diào)，就可以實現(xiàn)一天、一張GPU，把這個模型給訓出來，而且達到 SOTA 的性能。

這邊展示了更多的結(jié)果。這是一個3DPW（3D Pose in the Wild）的場景，兩個人在一條路上行走，你可以看到這個人的軌跡是非常平滑的，整個場景也可以都重建出來。但是我們也嘗試做一下回環(huán)檢測，這個人跑一圈，最后整個場景和人是不是也都能重建出來？效果其實也是比較滿意的。這是在一個相對長程的場景里，這是一個實驗室，你可以看到隨著這個人在各個房間里面走動，最后整個房間被重建出來，然后整個人的軌跡也可以拿到。

這是我們最喜歡的一個case，一個電影場景，兩個人，不光做pose，人的ID也可以同時做跟蹤，而且隨著視頻跑得越來越多，整個場景也會不斷地完善。

這邊是一些我們?nèi)梭w的pose預測和ground truth之間的對比，黑色的影子就是 ground truth，藍色的就是人體估計的動作，大家可以看到幾乎是嚴絲合縫的，我們的準確性是非常高的。

當然也有一些failure case，這是比較經(jīng)典的一個，因為我們這個方法還是前饋式的，就是一步到位把所有結(jié)果給到你，沒有任何后續(xù)的優(yōu)化，所以有的時候難免會出現(xiàn)這種人和場景之間的交叉。比如人坐到沙發(fā)里，或者腳跑到地底下穿模，這種情況還是有的。以及如果這個人在和場景交互的同時，還和一些物體交互，比如說拿了一把吉他，那這個吉他相當于也是一個動態(tài)的，那這種情況我們目前沒有辦法建模，只能在處理的過程中我們把這個東西摳掉，只做靜態(tài)場景和人的重建，動態(tài)場景目前沒法處理。

這里可以順勢講一下，其實我們認為這個工作有個非常自然的extension，就是把Everyone，Everywhere，All at Once，拓展成Everything，Everyone，Everywhere All at Once，人、場景、物全部一股腦地出來。我們可以提前把這些物體給建模，然后只做 6D pose，也可以online地去把這物體重建出來。那這個問題怎么解決呢？各位老師如果感興趣的話，一會我們可以再聊。

那這項工作給了我們一個什么啟發(fā)呢？因為我是做數(shù)字人的，這其實是一個比較悲傷的事情，我發(fā)現(xiàn)很多數(shù)字人的問題隨著更通用的3D重建模型變得越來越強大，正在迎刃而解。比如Human3R，簡單來講，我們拿了一個有場景感知能力的視覺基礎模型，稍微微調(diào)一下就可以做人體的pose。同時最近我發(fā)現(xiàn)了一篇曹旭老師新工作，叫KaoLRM，他們拿object centric的LRM，去做臉部的重建，和之前的方法相比，在跨視角上獲得了更好的穩(wěn)定性。所以我的一個感覺是，可能未來數(shù)字人的很多重建任務，慢慢都會變?yōu)橐粋€基礎模型的微調(diào)任務。

剛才講的三個工作我們?nèi)慷奸_源了，也在網(wǎng)站上提供了一些可以交互的demo，歡迎大家去我們的網(wǎng)站上使用下載，如果有bug也可以和我講，我們盡快修復。

最后summarize一下，我們今天講了三個工作。第一個是三維形象重建UP2You，主要解決的問題是怎么把臟數(shù)據(jù)變廢為寶，怎么用臟數(shù)據(jù)做三維重建。我們提出來的解決方案是數(shù)據(jù)整流器，就好像交流電變直流電一樣，我們把臟數(shù)據(jù)變成干凈數(shù)據(jù)，重建的問題就更好解決。

第二個工作是三維體型估計ETCH，我們和之前的工作不一樣的點是，之前做相關(guān)任務是從一個幾何視角出發(fā)的，把衣服當成皮膚，然后去做fitting。而我們是解剖學視角，我們希望拿到衣服之下那個真實人體的、解剖學正確的人體體型。我們的解決方案就是嘗試建模從衣服到人體之間的厚度，我們叫它Thightness Vector，等變緊度向量。

第三個是Human3R，人和場景的實時動態(tài)重建。之前的工作都是先分后總，先做人，再做場景，然后人和場景聯(lián)合優(yōu)化，非常費時費力。我們的思路反過來，先總后分，先拿到一個大的重建結(jié)果，然后再從這個大的重建結(jié)果里面，一點一點把我們需要的，比如人體的pose或者物體的pose給讀出來，最后可以實現(xiàn)人和場景端到端直出地效果。這是我們思路上的區(qū)別。

最后給我們實驗室打個廣告。因為我是剛剛回國任教，我們實驗室主要還是做關(guān)于人的一切，我們做人臉，做人體，做人和物的交互，人和場景的交互，人和人的交互，我們做衣服，我們做肌肉，我們做骨骼，做靜態(tài)的人、動態(tài)的動作，我們都會做，只要是和人相關(guān)的，都是我們研究的重點，另外，小動物也是我們感興趣的。我們實驗室也在招聘各種各樣的訪問的同學，實習生，RA，PhD以及 Postdoc，所以如果大家對我們的工作感興趣，歡迎后續(xù)跟蹤我們的最新進展，也歡迎加入我們一起干，謝謝。

未經(jīng)「AI科技評論」授權(quán)，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.