本改进已同步到Magic框架
1 原理解析
摘要翻译
在图像操作定位(IML)领域,非语义特征(或称语义无关特征)是指与图像内容无关但对图像操作敏感的特征。现有的方法通常依赖于手工设计的特征提取器来获取这些非语义特征,这可能会限制模型在未知或复杂场景中的泛化能力。为此,本文提出了一种稀疏视觉Transformer(SparseViT),将传统ViT中的密集全局自注意力机制重新设计为稀疏离散的形式。这种稀疏自注意力机制打破了图像的语义关联,促使SparseViT自适应地提取图像的非语义特征。此外,与现有的IML模型相比,稀疏自注意力机制显著减少了模型规模(FLOPs减少最多达80%),实现了出色的参数效率和计算量降低。大量实验表明,在无需任何手工特征提取器的情况下,SparseViT在基准数据集上表现出更好的泛化性和效率。
- 论文英文原名称: Can We Get Rid of Handcrafted Feature Extractors? SparseV