極客號(Daydx.com)8月17日 消息:FoodSAM 是一種用于食物圖像分割的創(chuàng)新框架,結(jié)合了 Segment Anything Model(SAM)、語義分割器和物體檢測器。它能夠生成類別無關(guān)的二進(jìn)制掩碼,通過與掩碼 – 類別匹配獲取食物類別標(biāo)簽,并為背景掩碼提供非食物類別。通過合并策略增強(qiáng)語義掩碼,實(shí)現(xiàn)實(shí)例和全景分割,并具備可提示的分割能力。
雖然段落任意模型(SAM)在各種數(shù)據(jù)集的分割任務(wù)中表現(xiàn)優(yōu)異,但在面具的特定類別細(xì)節(jié)上存在疏漏。FoodSAM 成功克服了這一問題。它結(jié)合了 SAM 的優(yōu)勢和新的特性,有效地分割食品圖像,甚至識別出場景中的單個(gè)食品和其他物體。FoodSAM 是首個(gè)在食物圖像上實(shí)現(xiàn)實(shí)例、全景和可提示分割的工作。
核心功能:
語義分割:能夠?qū)⑹澄飯D像進(jìn)行語義分割,生成類別標(biāo)簽和語義掩碼。
實(shí)例分割:通過合并策略,將語義掩碼增強(qiáng)為實(shí)例分割結(jié)果,能夠分割出不同的食物實(shí)例。
全景分割:結(jié)合物體檢測器,將 FoodSAM 的零樣本能力擴(kuò)展到全景分割,有效捕捉非食物對象信息。
可提示分割:集成了無縫提示 – 優(yōu)先選擇機(jī)制,實(shí)現(xiàn)可提示的分割,提供更靈活的分割結(jié)果。