最近來自馬克斯·普朗克計算機科學(xué)研究所、MIT CSAIL和Google的研究員,研究了一種新的GAN控制方法DragGAN。只需點擊拖拽,用戶就可以 “改變汽車的尺寸,將人物嘴巴張開或合上等。
DragGAN” 類似于 Photoshop 中的扭曲變形(Warp)工具,但更為強大,因為它會重新生成物體,甚至包括旋轉(zhuǎn)3D 圖像。這種工具的潛力在于,從AI生成圖像并不總是能產(chǎn)生你想要的結(jié)果。
所以,可以在生成圖像之后再次編輯而不必重新生成一個新圖像。研究中提供了一些演示案例,包括增加山峰的高度,改變持桿人的姿勢、衣服的長度和形狀,張開或閉合獅子的嘴巴,以及將一個人的表情從平淡變成笑容等。
目前有很多公司都在嘗試為AI生成內(nèi)容提供一些功能,但不能編輯由AI生成的圖像。
許多人已經(jīng)關(guān)注該論文。然而,由于演示視頻基于低分辨率圖像,也不清楚什么時候會正式推出,并且效果如何。不過這項技術(shù)潛力巨大,如果你也收到“把大象翻過來”的需求,未來這項技術(shù)或可完成任務(wù)。
那么,怎么使用 DragGAN?
通過拖拉快速修改圖像的細節(jié)。
這個名為DragGAN的模型本質(zhì)上是為各種GAN開發(fā)的一種交互式圖像操作方法。
論文以StyleGAN2框架為基礎(chǔ),實現(xiàn)了點點鼠標(biāo)、拖拉控制和目標(biāo)點的P圖效果。只需圈出想要移動的區(qū)域(例如狗頭),就可以設(shè)置幾個控制點(紅點)和目標(biāo)點(藍點)。
其后模型將迭代執(zhí)行運動監(jiān)控和點跟蹤這兩個步驟。其中運動監(jiān)控會強制移動紅色控制點到藍色目標(biāo)點,點跟蹤則用于更新控制點,并追蹤圖像中被修改的對象。
這個過程將一直持續(xù)到控制點到達其對應(yīng)的目標(biāo)點。
論文地址:https://vcai.mpi-inf.mpg.de/projects/DragGAN/data/paper.pdf
項目地址(代碼6月開源):https://github.com/XingangPan/DragGAN