저자: 리 루이펑
논문 제목
자동 체크아웃을 위한 프로토타입 학습
용지 공급
IEEE TMM
종이 링크
https://ieeeexplore.ieee.org/document/10049664/
코드 링크
https://github.com/msfuxian/PLACO
오픈 소스 AI 프레임워크인 MindSpore는 산학연-연구 및 개발자에게 전체 시나리오 장치-에지-클라우드 협업, 미니멀리스트 개발, 최고의 성능, 초대형 AI 사전 훈련, 미니멀리스트 개발 및 안전하고 신뢰할 수 있는 솔루션을 제공합니다. 경험, 2020.3.28 오픈 소스는 500만 건 이상의 다운로드를 보유하고 있으며 수백 건 이상의 AI 상위 컨퍼런스 논문을 지원하고 상위 100개 이상의 대학 교육에 참여했으며 HMS를 통해 5000개 이상의 앱에서 상업적으로 사용할 수 있습니다. 개발자이며 AI 컴퓨팅 센터에 있으며, 금융, 스마트 제조, 금융, 클라우드, 무선, 데이터 통신, 에너지, 소비자 1+8+N, 스마트 자동차 및 기타 엔드 에지 클라우드 자동차 시나리오가 점차 광범위해지고 있습니다. 사용되며 Gitee 지수가 가장 높은 오픈 소스 소프트웨어입니다. 누구나 오픈 소스 기여, 키트, 모델 크라우드 인텔리전스, 산업 혁신 및 응용, 알고리즘 혁신, 학술 협력, AI 도서 협력 등에 참여하고 클라우드 측, 장치 측, 엣지 측 및 애플리케이션 사례에 기여할 수 있습니다. 보안 분야.
과학기술계, 학계, 산업계의 SunSilicon MindSpore의 광범위한 지원으로 SunSilicon MindSpore를 기반으로 한 AI 논문은 2023년 전체 AI 프레임워크의 7%를 차지하여 2년 연속 세계 2위를 차지했습니다. 모든 대학은 교사들의 지원을 받아 AI 연구와 혁신을 위해 계속 함께 열심히 노력할 것입니다. MindSpore 커뮤니티는 최고의 컨퍼런스 논문 연구를 지원하고 독창적인 AI 결과를 지속적으로 구축합니다. 때때로 우수한 논문을 선정하여 추진하고 해석할 것입니다. 업계, 학계 및 연구 분야의 더 많은 전문가가 MindSpore와 협력하여 독창적인 AI 연구를 촉진하기를 바랍니다. Shengsi MindSpore 커뮤니티는 AI 혁신과 AI 응용 프로그램을 계속해서 지원할 것입니다. AI 컨퍼런스 논문 시리즈 16번째 기사에서는 난징 과학기술대학교 컴퓨터 과학 및 공학부 Wei Xiushen 박사 팀의 논문을 해석하기로 했습니다 . 모든 전문가, 교수 및 동급생의 기여에 감사드립니다.
MindSpore는 손쉬운 개발, 효율적인 실행, 전체 시나리오 적용이라는 세 가지 주요 목표를 달성하는 것을 목표로 합니다. 사용 경험을 통해 딥러닝 프레임워크인 MindSpore는 빠르게 발전하고 있으며 다양한 API의 디자인은 보다 합리적이고 완전하며 강력한 방향으로 지속적으로 최적화되고 있습니다. 또한 Shengsi에서 지속적으로 등장하는 다양한 개발 도구도 이 생태계를 지원하여 모델 아키텍처를 다이어그램 형식으로 제시하고 다양한 측면을 동적으로 모니터링할 수 있는 MindSpore Insight와 같이 보다 편리하고 강력한 개발 방법을 만들 수 있습니다. 런타임 중 모델의 표시기와 매개변수가 변경되면 개발 프로세스가 더욱 편리해집니다.
본 글은 주로 타겟 검출과 관련된 이슈를 다룬다. 타겟 검출을 통해 이미지 내에서 다양한 카테고리와 수량의 소매 상품을 정확하게 검출하고 최종적으로 "상품 카테고리: 상품 수량"에 해당하는 쇼핑 목록을 얻을 수 있다. 표적 탐지를 위한 코드의 일부는 MindSpore의 공식 문서를 기반으로 하거나 커뮤니티에서 제공하는 표적 탐지와 관련된 코드 및 모델을 기반으로 할 수 있으며 이 기사의 실험 요구 사항을 쉽게 실현할 수 있으며 이는 매우 편리하고 빠릅니다. .
01
연구배경
소매 상품의 시각적 결제는 스마트 소매 산업의 하위 분야입니다. 일반적인 적용 시나리오는 슈퍼마켓, 상점, 편의점 등 무인 계산대가 있는 영역입니다. 고정 위치 카메라는 이러한 소매 품목의 이미지를 캡처하며, 이는 제품 카테고리를 식별하고 정확하게 계산할 수 있는 자동 시각적 체크아웃 시스템을 통과한 다음 최종적으로 총 금액이 포함된 전체 쇼핑 목록을 출력합니다.
소매상품 시각적 정산 작업의 핵심은 이미지 속 소매상품을 정확하게 식별하고 개수를 계산하는 것입니다. 그러나 이 작업에는 대규모 소매상품 데이터, 단일 상품 예시와 결제 이미지 간의 도메인 격차라는 세 가지 주요 과제가 있습니다. 및 제품 카테고리의 세부적인 속성이 다릅니다. 이러한 문제를 해결하기 위해 Wei et al.은 분할된 단일 제품 예에서 제품 체크아웃 이미지를 합성하고 렌더링하여 두 영역 간의 차이점과 격차를 해소하는 객체 감지 프레임워크에 대한 기본 방법을 제안했습니다. 마찬가지로 IncreACO, DPNet 및 DPSNet은 Wei 등의 합성 렌더링 전략을 개선하여 더 나은 도메인 적응성을 얻음으로써 ACO 정확도의 향상을 촉진합니다. 또한 S2MC2는 합성 렌더링 전략을 대체하는 특징 레이어 도메인 적응 방법으로 그라디언트 반전 레이어를 사용합니다.
그림 1 소매상품의 시각적 정산 모식도
02
팀 소개
Wei Xiushen 교수 가 이끄는 VIP(Visual Intelligence & Perception) 그룹 . IEEE TPAMI, IEEE TIP, IEEE TNNLS, IEEE TKDE, Machine Learning Journal, "China Science: Information Science" 등 관련 분야 최고의 국제 저널과 NeurIPS, CVPR, ICCV, ECCV, IJCAI, AAAI 등 50편 이상의 논문을 발표했으며, 관련 연구로 DIGIX 2023, SnakeCLEF 2022, iWildCam 2020, iNaturalist 2019 및 겉보기 성격 분석 2016.
03
논문 소개
본 논문에서는 단일 항목 예시(훈련)와 정산 이미지(테스트)를 해결하려고 시도하는 "PLACO(Prototype Learning for Retail Merchandise Visual Checkout)"라는 방법을 제안하며, 전체 구조는 다음과 같습니다. 그림 2. 특히 프로토타입은 일반적으로 카테고리별 기능 센터에 의해 구현되는 시각적 공간에서 카테고리의 의미(즉, 실제 카테고리 표현)를 정확하게 나타내는 벡터 표현입니다. 소매 상품의 시각적 정착을 위해 제품 프로토타입을 활용하는 또 다른 이점은 도메인 차이를 잠재적으로 해결할 수 있을 뿐만 아니라 단일 제품 예시의 다중 뷰 문제를 피할 수 있다는 것입니다. 카테고리 프로토타입은 단일 보기 또는 다중 보기 예시 이미지보다 제품의 카테고리 의미를 더 정확하게 표현하며, 이는 일반성과 견고성도 입증합니다. 또한 도메인 적응 솔루션으로 프로토타입 정렬 모듈을 설계했습니다. 정산 이미지 도메인에서 단일 제품 예시와 카테고리 프로토타입을 획득한 후, 동종 프로토타입 간의 거리를 줄이고 이종 프로토타입 간의 거리를 확대하여 카테고리 내 컴팩트화 및 카테고리 간 희소성을 향상시켜 도메인 적응을 달성합니다.
그림 2 PLACO 프레임워크의 개략도
이러한 학습된 분류기의 판별 능력을 더욱 향상시키기 위해 우리는 이러한 제품 추천의 예측 점수를 조정하여 판별 능력을 향상시키는 판별 재배열 방법을 개발합니다(그림 3 참조). 구체적으로, 예측 신뢰도를 높이기 위해 실제 카테고리의 예측 점수를 가장 높은 순위로 매기고, 배경 분류기의 특성, 즉 하드 재배열 전략에 따라 배경 점수를 두 번째 위치로 다시 순위화합니다. 또한 품목의 세분화된 특성을 고려하여 세분화된 제품의 예측 점수에 대한 합리적인 순위 지정 가능성을 제공하기 위한 소프트 재배열 전략으로 여유 변수도 도입합니다. 또한 체크아웃 이미지에서 항목의 동시 발생을 모델링하기 위해 PLACO에 다중 라벨 인식 손실을 추가하여 소매 항목의 시각적 체크아웃 정확도를 더욱 향상시켰습니다.
그림 3 두 가지 차별적 재배열 방법의 개략도
04
실험 결과
RPC 데이터 세트를 대상으로 7가지 방법의 시각적 확인 성능에 대한 비교 실험을 수행했습니다. 그중 Wei et al.의 방법인 IncreACO, DPNet 및 DPSNet은 모두 합성 데이터와 렌더링 데이터를 사용하여 이러한 방법의 대상 탐지 백본 프레임워크는 Faster RCNN 또는 Mask RCNN을 사용합니다. 지도 학습은 밀도 맵을 기반으로 포인트 수준 객체를 계산하는 방법입니다. PSP는 이 기사에서 PLACO의 컨퍼런스 버전 방법입니다. PLACO는 두 가지 방법 모두 Faster RCNN의 프로토타입 정렬 모듈을 갖습니다. 및 캐스케이드 RCNN 프레임워크의 실험 결과. RPC 데이터는 이미지 속 소매상품의 카테고리와 수량에 따라 쉬움, 보통, 어려움의 3가지 레벨로 나누어져 있으므로, 실험 결과를 보고할 때 이 3가지 레벨의 결과와 전체 평균 결과도 함께 보고합니다.
이 기사의 PLACO 방법은 기본적으로 Faster RCNN 및 Cascade RCNN 백본 타겟 탐지 프레임워크 모두에서, 특히 주요 탐지 지표 정착 정확도(cAcc)에서 최상의 결과를 달성했다는 결과를 볼 수 있습니다. 표의 "↑"는 결과가 클수록 성능이 좋음을 나타내고, "↓"는 Faster RCNN 프레임워크를 기반으로 한 최상의 결과가 굵은 파란색으로 표시됨을 나타냅니다. Cascade RCNN 프레임워크를 기반으로 한 최상의 결과는 빨간색으로 강조 표시됩니다.
표 1 RPC 데이터 세트에 대한 7가지 방법을 사용한 소매 상품의 시각적 정산 비교 결과
05
요약 및 전망
본 논문에서는 프로토타입 기반 분류자 학습 모듈, 판별 재배열 모듈, 프로토타입 정렬 모듈을 포함하는 자동 체크아웃을 위한 프로토타입 학습 방법 PLACO를 제안합니다. 프로토타입 기반 분류자 학습 모듈은 훈련에 사용된 예제와 테스트에 사용된 결제 이미지 간의 도메인 격차를 암시적으로 완화하기 위해 개발되었습니다. 또한 본 논문에서는 명시적인 도메인 적응 솔루션으로 프로토타입 정렬 모듈을 채택합니다. 본 논문에서는 분류기 학습 및 세분화된 범주에 보다 차별적인 기능을 도입하여 PLACO의 성능을 향상시키기 위한 차별적인 재순위 지정 방법을 설계합니다. 본 논문에서는 결제 이미지에서 제품의 동시 발생을 시뮬레이션하기 위해 다중 라벨 손실을 적용합니다. 대규모 벤치마크 RPC 데이터 세트에서 PLACO는 이전 최고 방법보다 2.89% 높은 91.03%의 정산 정확도를 달성했습니다. 본 글은 주로 뮤 테이블 탐지 문제를 다루고 있기 때문에 공식 MindSpore 문서 사례나 커뮤니티에서 제공하는 타겟 탐지 관련 코드 및 모델을 따르면 본 글에서 요구하는 실험을 쉽게 구현할 수 있어 매우 편리하고 빠릅니다.
1990년대에 태어난 프로그래머가 비디오 포팅 소프트웨어를 개발하여 1년도 안 되어 700만 개 이상의 수익을 올렸습니다. 결말은 매우 처참했습니다! Google은 Flutter, Dart 및 Python 팀의 중국 코더의 "35세 저주"와 관련된 정리해고를 확인했습니다 . | Daily Windows 1.0용 Arc Browser가 3개월 만에 공식적으로 GA Windows 10 시장 점유율이 70%에 도달했으며 Windows 11 GitHub는 AI 기본 개발 도구 GitHub Copilot Workspace JAVA를 계속해서 출시했습니다 . OLTP+OLAP을 처리할 수 있는 유일한 강력한 유형의 쿼리입니다. 우리는 너무 늦게 만났습니다 .