Gangke & Microsoft | Semantic-SAM : modèle de segmentation universel sémantique multi-granularité

Titre : SAM sémantique : segmenter et reconnaître n'importe quoi à n'importe quelle granularité
Article : arxiv.org/pdf/2307.04…
Code : github.com/ux-decoder/…

guide

Cet article présente Semantic-SAM , un modèle général de segmentation d'image qui peut segmenter et reconnaître des images à n'importe quelle granularité souhaitée . Le modèle a deux points forts : la conscience sémantique et une granularité riche . Afin d'atteindre une conscience sémantique, l'article intègre plusieurs ensembles de données de différentes granularités et entraîne la classification d'objets découplés (objet) et de parties (Part) . Cela permet au modèle de l'article d'effectuer un transfert de connaissances dans des informations sémantiques riches. Pour atteindre la capacité de multi-granularité, le document propose un schéma d'apprentissage à choix multiples qui permet à chaque point de clic de générer plusieurs niveaux de masques correspondant à plusieurs masques de vérité au sol . Il s'agit notamment de la première tentative d'entraînement conjoint d'un modèle sur SA-1B, ensembles de données fractionnés généraux et partiels. Les résultats expérimentaux et les démonstrations de visualisation montrent que le modèle de l'article atteint avec succès la conscience sémantique et la richesse granulaire. De plus, la combinaison de la formation SA-1B avec d'autres tâches de segmentation telles que la segmentation panoptique et partielle améliore les performances.

contribuer

Les principales contributions de cet article sont les suivantes :

  • ** Richesse multi-granularité : ** Grâce au schéma d'apprentissage à choix multiples, le modèle est capable de générer des masques de segmentation à plusieurs granularités, de l'ensemble de l'objet aux parties détaillées, et réalise la capacité de segmentation de différentes granularités. Cette richesse multi-grain permet au modèle de mieux s'adapter aux différentes tâches de segmentation et scénarios d'application.

  • **Conscience sémantique :**En intégrant plusieurs ensembles de données et en dissociant la classification des objets et des pièces, le modèle peut transférer des connaissances sur les informations sémantiques et réaliser la capacité de percevoir des informations sémantiques riches.

  • Des expériences complètes sont menées sur plusieurs ensembles de données et démontrent les performances supérieures du modèle Semantic-SAM en termes de conscience sémantique et d'exhaustivité granulaire. Pendant ce temps, la robustesse et l'applicabilité du modèle sont démontrées par des expériences et des analyses sur plusieurs aspects du modèle.

méthode

Intégration des ensembles de données

L'article utilise sept ensembles de données contenant des masques de différents niveaux de granularité, notamment SA-1B, panorama COCO, panorama ADE20k, partie PASCAL, PACO, PartImageNet et Objects365. Ces ensembles de données fournissent des informations sémantiques riches couvrant les masques au niveau de l'objet et de la partie ainsi que les étiquettes de catégorie. Les détails peuvent être trouvés dans le tableau 1, et la distribution des données des différents types de données est illustrée dans la figure 2.

Sémantique-SAM

Le flux global du modèle est illustré à la figure 3. Dans Semantic-SAM, cliquer sur les cases d'ancrage au format unifié indiqué b = ( X , y , w , h ) b = (x, y, l, h) sont codés respectivement en K incorporations de contenu et une intégration positionnelle. Les intégrations de contenu sont représentées sous la forme d'un ensemble de vecteurs de requête Q = ( q 1 , . . . , q K ) Q = (q_1, ..., q_K) ,其中每个查询向量 q i q_i 由粒度级别嵌入 q i level q_i^{\text{niveau}} 和查询类型嵌入 q i type q_i^{\text{type}} 组成。位置嵌入通过正弦编码实现:

使用图像编码器的输出特征 F F 作为输入,Semantic-SAM的掩码解码器将输入图像上的点击表示为:

DeformDec ( , , ) \text{DeformDec}(\cdot, \cdot, \cdot) 是一个可变形解码器,它接受查询特征、参考框和图像特征,并输出查询特征。每个查询特征 o i = ( c i , m i ) o_i = (c_i, m_i) 包含预测的语义类别 c i c_i 和掩码 m i m_i ,用于构建概念识别损失和掩码预测损失。

Training

Recognize Anything

论文训练模型时使用了不同类型的数据,其中包括包含object-level注释的数据(如COCO数据集),同时也包含了object-level和 part-level注释的数据(如Pascal Part数据集),而SA-1B数据集没有语义注释,但包含了各种语义级别的掩码。

为了更好地传递不同粒度的语义信息,论文提出了一种分离object和part识别的方法。使用共享的文本编码器对object和part进行编码,以实现它们的分别分割。需要注意的是,不同类型的数据共享相同的格式,但损失函数的设计因数据类型而异

Segment at any granularity

为了赋予模型多粒度的分割能力,论文使用多对多的匹配方法,通过重新组织数据和使用匈牙利算法,使单个点击能够预测多个级别的掩码。对于盒状输入和通用分割,论文采用了类似的方法,通过添加噪声盒子和使用可学习的令牌作为提示,实现了盒状区域的掩码生成和通用分割。这种方法允许论文在训练过程中进行更准确的预测和匹配。

如图5所示,与以往的交互式分割模型相比,语义sam与以往的分割模型有两个方面的不同,首先,训练模型输出所有可能的分割掩模。其次,输出粒度更丰富,以生成不同的输出掩模

实验

分割性能

结果方面,主要是COCO Val2017和SA-1B的一个子集(包含1000张图像)刷一下:

Semantic Segmentation

在表5中,评估了SAM和Semantic-SAM在COCO Val2017上的模型的1次点击mIoU。在相同的设置下,Semantic-SAM的性能优于SAM。

对比了SAM和Semantic-SAM在单击时输出的粒度上的表现。

Dans la figure 6, Semantic-SAM est comparé à SAM, qui est capable de produire une meilleure qualité de segmentation et une granularité plus riche .

L'article a également constaté que l'invite de contenu (invite de contenu K = 6) intégrant l'apprentissage de chaque point correspond à une granularité fixe . Comme le montre la figure 7, lorsque les masques sont visualisés dans un ordre spécifique correspondant aux incorporations de contenu, les masques sont toujours disposés par ordre croissant dans chaque ligne. Cela démontre que chaque contenu intégré dans le modèle représente un niveau de granularité sémantique.

Résumer

Cet article présente Semantic-SAM, qui peut segmenter et reconnaître n'importe quel objet à n'importe quelle granularité souhaitée. En plus d'effectuer une segmentation générale du vocabulaire ouvert, Semantic-SAM démontre les avantages de la conscience sémantique et de la granularité riche. Pour réaliser ces avantages, le document apporte des améliorations aux données, aux modèles et à la formation, en tirant parti des ensembles de données à plusieurs niveaux de granularité et de sémantique, des méthodes de formation pour l'apprentissage à choix multiples et d'un cadre de modélisation général. Des expériences et des visualisations complètes valident la conscience sémantique et la riche granularité de notre modèle. De plus, Semantic-SAM est la première tentative réussie de formation conjointe sur SA-1B et d'autres ensembles de données de segmentation classiques. Les résultats expérimentaux montrent également que l'entraînement avec SA-1B peut améliorer d'autres tâches telles que la segmentation panoptique et la segmentation partielle.

Je suppose que tu aimes

Origine juejin.im/post/7258526520167219237
conseillé
Classement