在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

  • <menu id="lky3g"></menu>
  • <style id="lky3g"></style>
    <pre id="lky3g"><tt id="lky3g"></tt></pre>

    中國研究人員提出DualToken-ViT:CNN和視覺Transformer的融合,提高圖像處理效率和準確性

    極客號(Daydx.com)10月2日 消息:最近,視覺Transformer(ViT)成為各類視覺任務如物體識別和圖片分類的有效架構。這是因為自注意力可以從圖片中提取全局信息,而卷積核大小限制了卷積神經(jīng)網(wǎng)絡(CNN)只能提取局部信息。隨著ViT模型和數(shù)據(jù)集規(guī)模的增大,相比CNN具有更好的擴展性。但在輕量級模型上,由于缺乏某些歸納偏置,CNN優(yōu)于ViT。

    自注意力的二次復雜度導致ViT計算成本潛在很高,構建輕量高效的ViT并不容易。為此,提出金字塔結(jié)構,將模型分為多個階段,每階段令牌數(shù)減少,通道數(shù)增加,以構建更輕量高效的ViT。簡化自注意力結(jié)構以減輕其復雜度,但以犧牲注意力有效性為代價。一個典型策略是下采樣自注意力的key和value,減少參與注意力過程的令牌數(shù)。

    中國研究人員提出DualToken-ViT:CNN和視覺Transformer的融合,提高圖像處理效率和準確性

    論文地址:https://arxiv.org/abs/2309.12424

    本研究中,華東師范大學和阿里巴巴集團的研究人員提出了緊湊高效的視覺Transformer模型DualToken-ViT。他們的方法使用卷積和自注意力聯(lián)合提取局部和全局信息,再將兩者輸出融合形成有效的注意力結(jié)構。盡管窗口自注意力也可以提取局部信息,但他們發(fā)現(xiàn),在輕量模型上卷積更有效。他們采用逐步下采樣的方式生成key和value特征圖,在下采樣過程中保留更多信息,降低自注意力在傳播全局信息時的計算成本。

    此外,他們在每個級別使用位置感知全局令牌來提高全局數(shù)據(jù)質(zhì)量。與標準全局令牌不同,他們的位置感知全局令牌還可以維護和傳遞圖像位置信息,在視覺任務中為模型提供優(yōu)勢。如圖1所示,圖像中的關鍵令牌與位置感知全局令牌中的對應令牌產(chǎn)生了更大的相關性。

    總之,他們的貢獻有:1)提出了緊湊高效的視覺Transformer模型DualToken-ViT,通過卷積和自注意力的優(yōu)勢實現(xiàn)有效的注意力結(jié)構;2)提出位置感知全局令牌,通過圖像位置信息來增強全局信息;3)DualToken-ViT在相同F(xiàn)LOPs下在多個視覺任務上表現(xiàn)最好。

    鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場,版權歸原作者所有,如有侵權請聯(lián)系管理員(admin#wlmqw.com)刪除。
    (0)
    用戶投稿
    上一篇 2023年10月2日 21:46
    下一篇 2023年10月2日 21:47

    相關推薦

    聯(lián)系我們

    聯(lián)系郵箱:admin#wlmqw.com
    工作時間:周一至周五,10:30-18:30,節(jié)假日休息