文章概要:
meta 在 Apache2.0許可下發(fā)布其計算機視覺模型 DINOv2,為開發(fā)人員和研究人員提供下游任務(wù)的更大靈活性。meta 還發(fā)布了一系列基于 DINOv2的密集預(yù)測模型,用于語義圖像分割和單目深度估計。
meta 還引入了FACET,這是一個評估計算機視覺模型在分類和分割等任務(wù)中的公平性的基準(zhǔn)。該數(shù)據(jù)集包含50,000人的32,000張圖像,除了身體特征之外,還具有感知性別和年齡組等人口統(tǒng)計屬性。FACET旨在成為評估計算機視覺模型公平性的標(biāo)準(zhǔn)基準(zhǔn),并鼓勵設(shè)計和開發(fā)考慮更多人的模型。
DINOv2是一種自監(jiān)督學(xué)習(xí)訓(xùn)練的模型,在各種視覺任務(wù)上的表現(xiàn)可與當(dāng)前主流的專用系統(tǒng)可相媲美甚至更好。該模型可以為下游任務(wù)提供更大的靈活性,是一種通用的計算機視覺工具。
DINOv2經(jīng)過1.42億張圖像的訓(xùn)練,可以直接作為各種視覺任務(wù)的輸入特征使用,包括圖像級任務(wù)(圖像分類、實例檢索、視頻理解等)和像素級任務(wù)(深度估計、語義分割等)。DINOv2模型可能在各種應(yīng)用中發(fā)揮作用,如森林繪圖、動物密度估計、生物學(xué)研究等。
DINOv2核心特色功能包括:
基于PyTorch實現(xiàn)的DINOv2自監(jiān)督學(xué)習(xí)方法的代碼和預(yù)訓(xùn)練模型
不需要任何標(biāo)簽或注釋即可在包含1.42億張圖像的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練
產(chǎn)生高性能的視覺特征,可以直接與簡單的線性層組合在各種計算機視覺任務(wù)上使用
預(yù)訓(xùn)練模型效果強勁,在不進(jìn)行微調(diào)的情況下也能跨域泛化
提供多個預(yù)訓(xùn)練模型 BACKBONE(ViT-S/14、ViT-B/14等)可通過PyTorch Hub加載
提供了對應(yīng)預(yù)訓(xùn)練任務(wù)頭,如圖像分類、深度估計、語義分割等
代碼模塊化,可以方便訓(xùn)練、評估和微調(diào)
模型和代碼均基于Apache2.0許可證開源
meta公司計劃將DINOv2與大規(guī)模語言模型相結(jié)合,創(chuàng)造出更強大的圖像分析和處理系統(tǒng)。語言模型受輸入字幕限制,而DINOv2可以為復(fù)雜的AI系統(tǒng)提供更豐富的圖像信息,實現(xiàn)更深層次的圖像推理。DINOv2的開源發(fā)布是計算機視覺領(lǐng)域的重要進(jìn)展。