论文精讲 | 基于昇思MindSpore的零售商品视觉结算原型学习PLACO,实现准确率提升2.89%

作者:李锐锋 

论文标题

Prototype Learning for Automatic Check-Out

论文来源

IEEE TMM

论文链接

https://ieeexplore.ieee.org/document/10049664/

代码链接

https://github.com/msfuxian/PLACO

昇思MindSpore作为一个开源的AI框架,为产学研和开发人员带来端边云全场景协同、极简开发、极致性能,超大规模AI预训练、极简开发、安全可信的体验,2020.3.28开源来已超过500万的下载量,昇思MindSpore已支持数百+AI顶会论文,走入Top100+高校教学,通过HMS在5000+App上商用,拥有数量众多的开发者,在AI计算中心,金融、智能制造、金融、云、无线、数通、能源、消费者1+8+N、智能汽车等端边云车全场景逐步广泛应用,是Gitee指数最高的开源软件。欢迎大家参与开源贡献、套件、模型众智、行业创新与应用、算法创新、学术合作、AI书籍合作等,贡献您在云侧、端侧、边侧以及安全领域的应用案例。

在科技界、学术界和工业界对昇思MindSpore的广泛支持下,基于昇思MindSpore的AI论文2023年在所有AI框架中占比7%,连续两年进入全球第二,感谢CAAI和各位高校老师支持,我们一起继续努力做好AI科研创新。昇思MindSpore社区支持顶级会议论文研究,持续构建原创AI成果。我会不定期挑选一些优秀的论文来推送和解读,希望更多的产学研专家跟MindSpore合作,一起推动原创AI研究,昇思MindSpore社区会持续支撑好AI创新和AI应用,本文是昇思MindSpore AI顶会论文系列第16篇,我选择了来自南京理工大学计算机科学与工程学院的魏秀参老****师团队的一篇论文解读,感谢各位专家教授同学的投稿。

扫描二维码关注公众号,回复: 17388932 查看本文章

昇思MindSpore旨在实现易开发、高效执行、全场景覆盖三大目标。通过使用体验,昇思MindSpore这一深度学习框架的发展速度飞快,它的各类API的设计都在朝着更合理、更完整、更强大的方向不断优化。此外,昇思不断涌现的各类开发工具也在辅助这一生态圈营造更加便捷强大的开发手段,例如MindSpore Insight,它可以将模型架构以图的形式呈现出来,也可以动态监控模型运行时各个指标和参数的变化,使开发过程更加方便。

本文主要涉及目标检测相关问题,通过目标检测实现对一幅图像中不同类别不同数量的零售商品的准确检测,最终可以得到“商品类别:商品数量”对应的购物清单。目标检测部分代码可以按照昇思MindSpore官方文档案例,或社区提供的目标检测相关代码和模型,可以轻松实现本文实验所需,十分方便快捷。

01

研究背景

零售商品视觉结算是智能零售行业的一个子领域,其常见应用场景为超市、商店、便利店等存在无人收银台的区域,顾客将想要购买的零售商品放置在收银台上,然后由一个固定机位的摄像头获取这些零售商品的图像,再经过一个可以识别产品类别并精确计数的自动视觉结算系统,最后输出一个带有总金额的完整购物清单。

零售商品视觉结算任务的核心在于准确识别与计数计算图像中的零售商品,然而该任务中存在三个主要挑战,即大规模零售商品数据、单品示例与结算图像间的域间隙、商品类别的细粒度属性。为了应对这些挑战,Wei等人提出了一种目标检测框架的基线方法,通过从分割出来的单品示例合成与渲染商品结算图像来弥合这两个域之间的差异和间隙。与之类似的,IncreACO、DPNet和DPSNet对Wei等人的合成渲染策略进行了改进,以获得更好的域适应能力,从而促进ACO精度的提高。此外,S2MC2还采用梯度反转层作为特征层域适应方法,取代了合成渲染策略。

图片

图1 零售商品视觉结算示意图

02

团队介绍

Visual Intelligence & Perception (VIP) Group,负责人为魏秀参教授。团队在相关领域国际顶级期刊如IEEE TPAMI、IEEE TIP、IEEE TNNLS、IEEE TKDE、Machine Learning Journal、《中国科学:信息科学》等,及国际顶级会议如NeurIPS、CVPR、ICCV、ECCV、IJCAI、AAAI等发表论文五十余篇,相关工作获得DIGIX 2023、SnakeCLEF 2022、iWildCam 2020、iNaturalist 2019、Apparent Personality Analysis 2016等计算机视觉领域国际权威赛事共7项世界冠军。

03

论文简介

在本文中,我们提出了一种称为“零售商品视觉结算原型学习(PLACO)” 的方法,通过执行由基于原型的分类器学习和原型对齐组成的原型学习,尝试解决单品示例(作为训练)和结算图像(作为测试)之间的域差距,整体结构如图2所示。具体而言,原型是一种在视觉空间中准确表示类别语义的向量表示(即真正的类别表示),通常由特定类别的特征中心实现。利用产品原型进行零售商品视觉结算的另一个好处是,除了有可能解决域差异问题外,还能避免单品示例的多视图问题。与单一视图或多个视图的示例图像相比,类别原型能更准确地代表产品的类别语义,这也证明了其通用性和鲁棒性。此外,我们还设计了一个原型对齐模块作为领域适应解决方案。在获得单品示例和结算图像领域的类别原型后,我们通过缩小同类原型之间的距离和扩大异类原型之间的距离来增强类别内的紧凑性和类别间的稀疏性,从而实现域适应。

图片

图2 PLACO框架示意图

为了进一步提高这些学习到的分类器的判别能力,我们开发了一种判别重排方法,通过调整这些产品建议的预测得分来提高其判别能力,参见图3。具体来说,我们将真实类别的预测得分排在最高,以提高预测置信度,同时根据背景分类器的特点,将背景得分重新排在第二位,即硬重排策略。此外,考虑到商品的细粒度特性,我们还引入了一个松弛变量作为软重排策略,为细粒度产品的预测得分提供合理的排序可能性。此外,我们还在PLACO中加入了多标签识别损失,对结账图像中的商品共现情况进行建模,从而进一步提高了零售商品视觉结算的准确性。

图片

图3 两种判别性重排方法示意图

04

实验结果

我们在RPC数据集上对共七种方法的零售商品视觉结算性能进行对比实验。其中Wei等人方法、IncreACO、DPNet和DPSNet均使用了合成数据与渲染数据共同训练的方式,这些方法的目标检测骨干框架为Faster RCNN或Mask RCNN;S2MC2使用更弱的点级注释进行监督训练,是一种根据密度图进行点级物体计数的方法;PSP是本文PLACO的会议版本方法,PLACO针对PSP进行了原型对齐模块的加强,这两种方法均有Faster RCNN与Cascade RCNN两种目标检测骨干框架的实验结果。由于RPC数据按照图像中零售商品的类别和数量分为了简单、中等和困难三级,我们在报告实验结果时同样报告这三级结果以及整体的平均结果。

由结果可知,本文PLACO方法在Faster RCNN与Cascade RCNN两种目标检测骨干框架中基本都达到了最佳结果,尤其是在主要检测指标结算准确率(cAcc)上。表中“↑”表示结果越大性能越好,“↓”表示结果越小性能越好,基于Faster RCNN框架的最佳结果用蓝色加粗表示,基于Cascade RCNN框架的最佳结果用红色加粗表示。

表1 七种方法在RPC数据集上的零售商品视觉结算对比结果

图片

05

总结与展望

本文提出了一种用于自动结账的原型学习方法PLACO,包括基于原型的分类器学习模块、判别重排模块和原型对齐模块。开发基于原型的分类器学习模块是为了隐式地缓解作为训练的示例与作为测试的结账图像之间的领域差距。此外,本文采用了原型对齐模块作为显式领域适应解决方案。本文设计了一种判别再排序方法,通过在分类器学习和细粒度类别中引入更多的判别能力来提高 PLACO的性能。本文应用了多标签损失来模拟结账图像中产品的共现情况。在大规模基准 RPC 数据集上,PLACO 实现了91.03%的结算准确率,比之前的最优方法高出2.89%。由于本文主要涉及mu表检测问题,可以按照MindSpore官方文档案例,或社区提供的目标检测相关代码和模型,可以轻松实现本文实验所需,十分方便快捷。

90后程序员开发视频搬运软件、不到一年获利超 700 万,结局很刑! 谷歌证实裁员,涉及 Flutter、Dart 和 Python 团队 中国码农的“35岁魔咒” Xshell 8 开启 Beta 公测:支持 RDP 协议、可远程连接 Windows 10/11 ​MySQL 的第一个长期支持版 8.4 GA 开源日报 | 微软挤兑Chrome;阳痿中年的福报玩具;神秘AI能力太强被疑GPT-4.5;通义千问3个月开源8模型 Arc Browser for Windows 1.0 正式 GA Windows 10 市场份额达 70%,Windows 11 持续下滑 GitHub 发布 AI 原生开发工具 GitHub Copilot Workspace JAVA 下唯一一款搞定 OLTP+OLAP 的强类型查询这就是最好用的 ORM 相见恨晚
{{o.name}}
{{m.name}}