在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

<menu id="lky3g"></menu>

<pre id="lky3g"><tt id="lky3g"></tt></pre>

無(wú)需微調(diào)，一張照片即可換臉、換背景，NUS等華人團(tuán)隊(duì)破局個(gè)性化視頻生成

用戶(hù)投稿 ? 2023年5月26日 12:34 ? 熱點(diǎn)

這項(xiàng)研究為個(gè)性化視頻編輯領(lǐng)域帶來(lái)了新的可能性，使得生成個(gè)性化內(nèi)容變得更加簡(jiǎn)便和高效。

?隨著擴(kuò)散模型的發(fā)展，基于輸入文本生成高質(zhì)量的圖片和視頻已經(jīng)成為現(xiàn)實(shí)，但是僅使用文本生成視覺(jué)內(nèi)容的可控性有限。

為了克服這個(gè)問(wèn)題，研究人員們開(kāi)始探索額外的控制信號(hào)和對(duì)現(xiàn)有內(nèi)容進(jìn)行編輯的方法。這兩個(gè)方向在一定程度上實(shí)現(xiàn)了生成過(guò)程的可控性，但仍然需要依賴(lài)文本來(lái)描述目標(biāo)生成內(nèi)容。

在實(shí)際應(yīng)用中，我們面臨著一個(gè)新的需求:如果用戶(hù)想要生成的內(nèi)容無(wú)法用語(yǔ)言描述呢?

例如，用戶(hù)想生成某一個(gè)普通人的視頻，但僅在輸入文本中使用普通人的名字是無(wú)意義的，因?yàn)檎Z(yǔ)言模型無(wú)法識(shí)別不在訓(xùn)練語(yǔ)料中的個(gè)體姓名。

針對(duì)這個(gè)問(wèn)題，一種可行的解決方案是基于給定個(gè)體訓(xùn)練個(gè)性化的模型。

例如，DreamBooth和Dreamix通過(guò)多張圖片理解個(gè)體概念，從而進(jìn)行個(gè)性化的內(nèi)容生成，不過(guò)這兩種方法需要對(duì)每個(gè)個(gè)體分別進(jìn)行學(xué)習(xí)，并且需要該個(gè)體的多張訓(xùn)練圖片和精細(xì)化調(diào)參。

最近，來(lái)自新加坡國(guó)立大學(xué)（NUS）和華為諾亞實(shí)驗(yàn)室的研究者們?cè)趥€(gè)性化視頻編輯上取得了新的進(jìn)展，通過(guò)多個(gè)集成模型的協(xié)同工作，無(wú)需對(duì)個(gè)性化概念進(jìn)行額外的訓(xùn)練和微調(diào)，僅僅需要一張目標(biāo)參考圖片，就能實(shí)現(xiàn)對(duì)已有視頻的主角替換、背景替換以及特定主角的文生視頻。

這項(xiàng)研究為個(gè)性化視頻編輯領(lǐng)域帶來(lái)了新的可能性，使得生成個(gè)性化內(nèi)容變得更加簡(jiǎn)便和高效。

介紹

Make-A-Protagonist將視頻分為主角和背景，對(duì)二者使用視覺(jué)或語(yǔ)言參考信息，從而實(shí)現(xiàn)主角編輯、背景編輯和特定主角的文生視頻。

主角編輯功能允許用戶(hù)使用相同的場(chǎng)景描述，但通過(guò)參考圖像來(lái)替換視頻中的主角。這意味著用戶(hù)可以使用自己選擇的圖像來(lái)替換視頻中的主要角色。

背景編輯功能允許用戶(hù)使用與原始視頻相同的主角描述（例「Suzuki Jimny」），并使用原始視頻幀作為視覺(jué)信息，但可以更改對(duì)場(chǎng)景的文字描述(例如「in the rain」)。這樣，用戶(hù)可以保持相同的主角，但改變場(chǎng)景的描述，營(yíng)造出不同的視覺(jué)效果。

特定主角的文生視頻功能將主角編輯和背景編輯結(jié)合起來(lái)。用戶(hù)可以使用參考圖像作為主角，并對(duì)場(chǎng)景進(jìn)行描述，從而創(chuàng)造出全新的視頻內(nèi)容。此外，對(duì)于多主角視頻，Make-A-Protagonist還可以對(duì)單個(gè)或多個(gè)角色進(jìn)行更改。

與DreamBooth和Dreamix不同，Make-A-Protagonist僅需要單張參考圖像，不需要對(duì)每個(gè)概念進(jìn)行微調(diào)，因此在應(yīng)用場(chǎng)景上更加靈活多樣。Make-A-Protagonist為用戶(hù)提供了一種簡(jiǎn)便而高效的方式來(lái)實(shí)現(xiàn)個(gè)性化的視頻編輯和生成。

方法

Make-A-Protagonist使用多個(gè)強(qiáng)大的專(zhuān)家模型，對(duì)原視頻、視覺(jué)和語(yǔ)言信息進(jìn)行解析，并結(jié)合基于視覺(jué)語(yǔ)言的視頻生成模型和基于掩碼的去噪采樣算法，實(shí)現(xiàn)通用視頻編輯。該模型主要由三個(gè)關(guān)鍵部分組成:原視頻解析，視覺(jué)和語(yǔ)言信息解析，以及視頻生成。

具體來(lái)說(shuō)，Make-A-Protagonist推理過(guò)程包括以下三步:首先使用BLIP-2， GroundingDINO、Segment Anything 和 XMem等模型對(duì)原視頻進(jìn)行解析，獲得視頻的主角掩碼，并解析原視頻的控制信號(hào)。

接下來(lái)，使用CLIP和DALL-E2Prior對(duì)視覺(jué)和語(yǔ)言信息進(jìn)行解析。最后，使用基于視覺(jué)語(yǔ)言的視頻生成模型和基于掩碼的去噪采樣算法，利用解析信息生成新的內(nèi)容。

Make-A-Protagonist的創(chuàng)新之處在于引入了基于視覺(jué)語(yǔ)言的視頻生成模型和基于掩碼的去噪采樣算法，通過(guò)整合多個(gè)專(zhuān)家模型并解析、融合多種信息，實(shí)現(xiàn)了視頻編輯的突破。

這些模型的運(yùn)用使得該系統(tǒng)更加精準(zhǔn)地理解原視頻、視覺(jué)和語(yǔ)言信息，并能夠生成高質(zhì)量的視頻內(nèi)容。

Make-A-Protagonist為用戶(hù)提供了一款強(qiáng)大而靈活的工具，讓他們能夠輕松進(jìn)行通用的視頻編輯，創(chuàng)作出獨(dú)特而令人驚艷的視覺(jué)作品。

1.原視頻解析

原視頻解析的目標(biāo)是獲取原視頻的語(yǔ)言描述（caption）、主角文字描述、主角分割結(jié)果以及ControlNet所需的控制信號(hào)。

針對(duì)caption和主角文字描述，Make-A-Protagonist采用了BLIP-2模型。

通過(guò)對(duì)BLIP-2的圖像網(wǎng)絡(luò)進(jìn)行修改，實(shí)現(xiàn)了對(duì)視頻的解析，并使用captioning模式生成視頻的描述，這些描述在訓(xùn)練和視頻編輯中用于視頻生成網(wǎng)絡(luò)。

對(duì)于主角文字描述，Make-A-Protagonist使用VQA模式，提出問(wèn)題:「視頻的主角是什么?」并使用答案進(jìn)一步解析原視頻中的主角信息。

在原視頻中的主角分割方面，Make-A-Protagonist利用上述得到的主角文字描述，在第一幀中使用GroundingDINO模型來(lái)定位相應(yīng)的檢測(cè)內(nèi)容，并使用Segment Anything模型獲得第一幀的分割掩碼。然后，借助跟蹤網(wǎng)絡(luò)（XMem），Make-A-Protagonist得到整個(gè)視頻序列的分割結(jié)果。

除此之外，Make-A-Protagonist利用ControlNet來(lái)保留原視頻的細(xì)節(jié)和動(dòng)作，因此需要提取原視頻的控制信號(hào)。文中使用了深度信號(hào)和姿態(tài)信號(hào)。

通過(guò)這些創(chuàng)新的解析方法和技術(shù)，Make-A-Protagonist能夠準(zhǔn)確地解析原視頻的語(yǔ)言描述、主角信息和分割結(jié)果，并提取控制信號(hào)，為后續(xù)的視頻生成和編輯打下了堅(jiān)實(shí)的基礎(chǔ)。

2.視覺(jué)和語(yǔ)言信息解析

對(duì)于視覺(jué)信號(hào)，Make-A-Protagonist在本文中采用CLIP image embedding作為生成條件，為了去除參考圖像背景的影響，類(lèi)似于原視頻解析，Make-A-Protagonist使用GroundingDINO和Segment Anything得到參考圖像主角的分割掩碼，使用掩碼將分割后的圖像輸入CLIP視覺(jué)模型，以獲取參考視覺(jué)信息。

語(yǔ)言信息主要用于控制背景，本文將語(yǔ)言信息用于兩方面，一方面使用CLIP語(yǔ)言模型提取特征，作為注意力網(wǎng)絡(luò)的key和value。

另一方面，使用DALL-E2Prior網(wǎng)絡(luò)，將語(yǔ)言特征轉(zhuǎn)化為視覺(jué)特征，從而增強(qiáng)表征能力。

3.視頻生成

3.1視頻生成網(wǎng)絡(luò)訓(xùn)練

為了充分利用視覺(jué)信息，Make-A-Protagonist使用Stable UnCLIP作為預(yù)訓(xùn)練模型，并對(duì)原視頻進(jìn)行微調(diào)，從而實(shí)現(xiàn)利用視覺(jué)信息進(jìn)行視頻生成。

在每個(gè)訓(xùn)練迭代中，Make-A-Protagonist提取視頻中隨機(jī)一幀的CLIP image embedding，將其作為視覺(jué)信息輸入到Residual block中。

3.2基于掩碼的去噪采樣

為融合視覺(jué)信息和語(yǔ)言信息，本文提出基于掩碼的去噪采樣，在特征空間和隱空間對(duì)兩種信息進(jìn)行融合。

具體來(lái)說(shuō)，在特征域，Make-A-Protagonist使用原視頻的主角掩碼，將主角對(duì)應(yīng)部分使用視覺(jué)信息，背景對(duì)應(yīng)部分使用DALL-E2Prior轉(zhuǎn)化后的語(yǔ)言信息:

在隱空間中，Make-A-Protagonist將僅使用視覺(jué)信息的推理結(jié)果和經(jīng)過(guò)特征融合的推理結(jié)果按照原視頻的主角掩碼進(jìn)行融合:

通過(guò)特征空間和隱空間的信息融合，生成的結(jié)果更加真實(shí)，并且與視覺(jué)語(yǔ)言表述更加一致。

總結(jié)

Make-A-Protagonist引領(lǐng)了一種全新的視頻編輯框架，充分利用了視覺(jué)和語(yǔ)言信息。

該框架為實(shí)現(xiàn)對(duì)視覺(jué)和語(yǔ)言的獨(dú)立編輯提供了解決方案，通過(guò)多個(gè)專(zhuān)家網(wǎng)絡(luò)對(duì)原視頻、視覺(jué)和語(yǔ)言信息進(jìn)行解析，并采用視頻生成網(wǎng)絡(luò)和基于掩碼的采樣策略將這些信息融合在一起。

Make-A-Protagonist展現(xiàn)了出色的視頻編輯能力，可廣泛應(yīng)用于主角編輯、背景編輯和特定主角的文生視頻任務(wù)。

Make-A-Protagonist的出現(xiàn)為視頻編輯領(lǐng)域帶來(lái)了新的可能性。它為用戶(hù)創(chuàng)造了一個(gè)靈活且創(chuàng)新的工具，讓他們能夠以前所未有的方式編輯和塑造視頻內(nèi)容。

無(wú)論是專(zhuān)業(yè)編輯人員還是創(chuàng)意愛(ài)好者，都能夠通過(guò)Make-A-Protagonist打造出獨(dú)特而精彩的視覺(jué)作品。

參考資料:

https://make-a-protagonist.github.io/

鄭重聲明：本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng)，不代表本站立場(chǎng)，版權(quán)歸原作者所有，如有侵權(quán)請(qǐng)聯(lián)系管理員(admin#wlmqw.com)刪除。

贊 (0)

用戶(hù)投稿

內(nèi)蒙古天空驚現(xiàn)天空之眼由于強(qiáng)對(duì)流天氣造成

上一篇 2023年5月26日 12:34

谷歌宣布對(duì)更多用戶(hù)開(kāi)放搜索中對(duì)新的生成式 AI 功能的訪問(wèn)

下一篇 2023年5月26日 12:34

2022年租房退稅能退多少 2022年租房退稅需要什么條件
近幾年關(guān)于租房退稅事件有許多小伙伴還不知道，還房貸和租房的人群，退稅也能省一筆，那么今年租房退稅的具體金額是可以退多少呢？租房退稅需要哪些條件？和小編一起來(lái)詳細(xì)了解一下吧。 202…
2022年7月26日
0
刀郎羅剎海市是什么意思(刀郎羅剎海市是什么唱法)
最近，刀郎發(fā)布的《羅剎海市》這首新歌在網(wǎng)上掀起了不小的爭(zhēng)論。歌曲從歌名到歌詞，再到編曲、演唱風(fēng)格都極具個(gè)性化和神秘色彩，引起了聽(tīng)眾的熱烈解讀，也極大激發(fā)了網(wǎng)友們的想象力。據(jù)稱(chēng)，這首…
2023年7月27日
0
央視曝光個(gè)人電影投資騙局是怎么回事
在很多人的眼里，演藝圈的錢(qián)好像非常好賺，一部電影動(dòng)不動(dòng)就是票房上億、十幾億、幾十億。也因此，近年來(lái)，一些二所謂的“電影投資”項(xiàng)目吸引了不少普通民眾參與，那么個(gè)人投資電影真的靠譜嗎？…
2023年2月25日
0
為什么最近疫情這么嚴(yán)重遍地開(kāi)花(最近香港疫情為什么這么嚴(yán)重)
近期，我國(guó)新冠肺炎疫情可以說(shuō)是在全國(guó)遍地開(kāi)花了，每日?qǐng)?bào)告確診病例數(shù)和無(wú)癥狀感染者人數(shù)都在上萬(wàn)例，不少城市都面臨著抗疫三年以來(lái)最為嚴(yán)峻復(fù)雜的局面。很多朋友都十分好奇，為什么最近疫情會(huì)…
2022年11月30日
0
你是我的觀音菩薩我是你的劉德華完整版歌詞分享(你是我的觀音菩薩是什么歌)
“你是我的觀音菩薩我是你的劉德華”，這是最近抖音里面一首非常洗腦的說(shuō)唱歌曲，吸引了許多網(wǎng)友關(guān)注，作為樂(lè)壇的全新潮流風(fēng)格佤&B，第一遍不上頭沒(méi)關(guān)系，第二遍就開(kāi)始在腦海揮之不去…
2023年2月25日
0
太平洋太享貸客服電話是多少？怎么轉(zhuǎn)人工服務(wù)熱線?
1.太平洋太享貸官網(wǎng)客服熱線:0771-545-5195 2.太平洋太享貸app客服熱線:0357-4529-888 3.太平洋太享貸官網(wǎng)在線客服:0771-545-5195 4.…
2023年4月19日
0
牛奶和香蕉可以一起煮著吃嗎?？
香蕉和牛奶可以一起吃嗎？關(guān)于不能和牛奶一起吃的食物，網(wǎng)上有很多說(shuō)法。其中，“香蕉不能和牛奶一起吃”的說(shuō)法解釋是香蕉中含有的果酸會(huì)使牛奶中含有的蛋白質(zhì)變性沉淀，使人體難以消化吸收，…
2023年10月19日
0
潘粵明的廣告代言，翻了！
12月20日，潘粵明突然之間引發(fā)網(wǎng)友熱議，此次并不是因?yàn)轭A(yù)測(cè)分析世界杯賽，也并不是有最新作品上架，反而是爆出來(lái)被罰款51萬(wàn)余元，緣故更加是讓大家都不敢相信，到底是怎么回事？沒(méi)想到…
2023年1月29日
0
盤(pán)點(diǎn)電腦小技巧大全(電腦上非常實(shí)用的小技巧)
今天給大家分享5個(gè)不起眼的電腦小技巧，它會(huì)讓你的工作效率事半功倍，建議收藏喲！技巧一：快速切換多個(gè)文檔相信大家都會(huì)打開(kāi)一個(gè)文檔吧，那么多個(gè)文檔我們?cè)撛趺纯焖偾袚Q呢？你是不是還是…
2023年4月23日
0
最好的法律專(zhuān)業(yè)大學(xué)排名(法律專(zhuān)業(yè)大學(xué)排名)
法學(xué)類(lèi)大學(xué)排名 1、武漢大學(xué) 武漢大學(xué)法學(xué)教育源于1908年創(chuàng)辦的湖北法政學(xué)堂。 2、法學(xué)類(lèi)大學(xué)排名是：第一名中國(guó)政法大學(xué)、第二名中國(guó)人民大學(xué)、第三名武漢大學(xué)、第四名西南政法大學(xué)、…
2023年11月4日
0

聯(lián)系我們

聯(lián)系郵箱：admin#wlmqw.com
工作時(shí)間：周一至周五，10:30-18:30，節(jié)假日休息

<bdo id="w65jg"></bdo>

<bdo id="w65jg"></bdo><address id="w65jg"><nav id="w65jg"></nav></address>

<dfn id="w65jg"><var id="w65jg"></var></dfn>

<address id="w65jg"><var id="w65jg"><source id="w65jg"></source></var></address>