極客號(Daydx.com)12月15日 消息:在最新的研究中,卡內(nèi)基梅隆大學(CMU)和馬克斯·普朗克智能系統(tǒng)研究所的研究人員共同發(fā)布了一項名為WHAM(World-grounded Humans with Accurate Motion)的創(chuàng)新性AI方法。這一方法在精準性和效率方面實現(xiàn)了從視頻中準確估計3D人體運動的突破。
3D人體運動重建是一個復(fù)雜的過程,涉及準確捕捉和建模人體在三維空間中的運動。當處理由移動攝像機在現(xiàn)實世界環(huán)境中拍攝的視頻時,這一任務(wù)變得更加具有挑戰(zhàn)性,因為這些視頻通常包含腳滑等問題。然而,CMU和馬克斯·普朗克智能系統(tǒng)研究所的研究人員通過WHAM方法成功解決了這些挑戰(zhàn),實現(xiàn)了精準的3D人體運動重建。
從圖像中恢復(fù)3D人體姿勢和形狀的兩種方法:無模型和基于模型。它強調(diào)了在基于模型的方法中使用深度學習技術(shù)來估計統(tǒng)計身體模型的參數(shù)。現(xiàn)有的基于視頻的3D人體姿勢估計方法通過各種神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)引入時間信息。一些方法使用額外的傳感器,如慣性傳感器,但它們可能會產(chǎn)生侵擾。WHAM通過有效地結(jié)合3D人體運動和視頻上下文,利用先驗知識,并在全球坐標系中準確重建3D人體活動而脫穎而出。
該研究解決了從單眼視頻中準確估計3D人體姿勢和形狀的挑戰(zhàn),強調(diào)了全球坐標一致性、計算效率和真實足地接觸。利用AMASS運動捕捉和視頻數(shù)據(jù)集,WHAM結(jié)合了運動編碼器-解碼器網(wǎng)絡(luò),用于將2D關(guān)鍵點轉(zhuǎn)換為3D姿勢,具有用于時間線索的特征整合器,以及用于全局運動估計考慮足地接觸的軌跡細化網(wǎng)絡(luò),提高了在非平面表面上的準確性。
WHAM采用單向RNN進行在線推斷和精確的3D運動重建,具有用于上下文提取的運動編碼器和用于SMPL參數(shù)、相機平移和足地接觸概率的運動解碼器。利用邊界框歸一化技術(shù)有助于運動上下文的提取。在人體網(wǎng)格恢復(fù)的預(yù)訓(xùn)練圖像編碼器通過特征整合器網(wǎng)絡(luò)捕捉和整合圖像特征與運動特征。軌跡解碼器預(yù)測全局方向,而細化過程最小化足滑動。在合成AMASS數(shù)據(jù)上進行訓(xùn)練,WHAM在評估中優(yōu)于現(xiàn)有方法。
WHAM超越了當前的最先進方法,在逐幀和基于視頻的3D人體姿勢和形狀估計中表現(xiàn)出卓越的準確性。通過利用運動上下文和足地接觸信息實現(xiàn)了精確的全球軌跡估計,最小化了足滑動,并提高了國際協(xié)調(diào)性。該方法整合了2D關(guān)鍵點和像素的特征,提高了3D人體運動重建的準確性。在野外基準測試中,WHAM在MPJPE、PA-MPJPE和PVE等指標上展現(xiàn)出卓越的性能。軌跡細化技術(shù)進一步提升了全局軌跡估計,并通過改善的誤差指標證明了減少足滑動的效果。
總的來說,這項研究的主要觀點可以總結(jié)為以下幾點:
1. WHAM引入了一種結(jié)合3D人體運動和視頻背景的開創(chuàng)性方法。
2. 該技術(shù)增強了3D人體姿勢和形狀的回歸。
3. 該方法使用了一個全球軌跡估計框架,包括運動上下文和足地接觸。
4. 該方法解決了足滑動的問題,并確保在非平面表面上準確跟蹤3D運動。
5. WHAM的方法在包括3DPW、RICH和EMDB在內(nèi)的多樣化基準數(shù)據(jù)集上表現(xiàn)出色。
6. 該方法在全球坐標系中實現(xiàn)了高效的人體姿勢和形狀估計。
7. 該方法的特征整合和軌跡細化顯著提高了運動和全局軌跡的準確性。
8. 通過深入的剖析研究,驗證了該方法的準確性。
論文網(wǎng)址:https://arxiv.org/abs/2312.07531
項目網(wǎng)址:https://wham.is.tue.mpg.de/