極客號(Daydx.com)11月1日 消息:Cutie是一種用于自動識別和追蹤視頻中特定物體的技術(shù)。它具有高級的對象理解能力,可以識別整個物體的形狀和特性,而不僅僅是像素級的信息。同時,它還能夠精確地將目標物體從背景物體中分離出來。
無論在復雜場景中還是在有多個物體和復雜背景的視頻中,Cutie都可以準確地進行對象分割。雖然功能強大,但它的運行速度也相當快,適用于需要實時處理的應(yīng)用場景。
論文地址:https://hkchengrex.com/Cutie/
Cutie的工作原理如下:首先,在視頻的第一幀中,Cutie會找到并記住你想跟蹤的物體的位置和形狀。然后,它會存儲物體的詳細像素信息,就像給物體拍了一張身份證照片。
當視頻繼續(xù)播放時,Cutie會使用之前記住的信息快速找到物體,并用存儲的詳細信息來精確確認物體的位置和形狀。Cutie同時使用粗略特征和詳細信息,所以它能在視頻中快速而準確地找到并跟蹤物體。這樣,無論物體如何移動或變化,Cutie都能準確地追蹤它,這在安全監(jiān)控、自動駕駛車輛或醫(yī)學研究等領(lǐng)域非常有用。
Cutie主要采用了對象級別的內(nèi)存讀取能力。與傳統(tǒng)的像素級內(nèi)存讀取方法不同,Cutie使用一種自上而下的對象級內(nèi)存讀取方式,這可以提高在復雜數(shù)據(jù)集上的性能。Cutie使用對象變換器與底層像素特征進行交互,這些對象變換器作為目標對象的高級摘要,而高分辨率的特征圖用于精確的分割。
此外,Cutie還引入了前景-背景掩碼注意力機制,使得部分對象查詢只關(guān)注前景,其余部分只關(guān)注背景,從而更清晰地分離前景對象和背景的語義。除了像素內(nèi)存外,Cutie還引入了一個緊湊的對象內(nèi)存,用于總結(jié)目標對象的特征,從而實現(xiàn)了目標對象的有效長期表示。
在實際評估中,使用MOSE標準測試,Cutie的性能比XMem方法提高了8.7分。與DeAOT方法相比,Cutie獲得了4.2分的高分,并且處理速度比DeAOT快三倍。
總的來說,Cutie是一種功能強大的對象識別和追蹤技術(shù),可以應(yīng)用于各種場合,包括自動駕駛、視頻編輯和安全監(jiān)控等。它的高級對象理解和精確分割能力使其在復雜場景中表現(xiàn)出色,并且其快速準確的特點使其適用于實時處理的需求。通過采用對象級別的內(nèi)存讀取和前景-背景掩碼注意力機制,Cutie在性能和效果上都有很大的提升。