**저자:** 리 루이펑
논문 제목
등각기저 벡터
용지 공급
CVPR 2023
종이 링크
https://arxiv.org/abs/2303.11637
코드 링크
https://github.com/msfuxian/EBV
오픈 소스 AI 프레임워크인 MindSpore는 산학연-연구 및 개발자에게 전체 시나리오 장치-에지-클라우드 협업, 미니멀리스트 개발, 최고의 성능, 초대형 AI 사전 훈련, 미니멀리스트 개발 및 안전하고 신뢰할 수 있는 솔루션을 제공합니다. 경험, 2020.3.28 오픈 소스는 500만 건 이상의 다운로드를 보유하고 있으며 수백 건 이상의 AI 상위 컨퍼런스 논문을 지원하고 상위 100개 이상의 대학 교육에 참여했으며 HMS를 통해 5000개 이상의 앱에서 상업적으로 사용할 수 있습니다. 개발자이며 AI 컴퓨팅 센터에 있으며, 금융, 스마트 제조, 금융, 클라우드, 무선, 데이터 통신, 에너지, 소비자 1+8+N, 스마트 자동차 및 기타 엔드 에지 클라우드 자동차 시나리오가 점차 광범위해지고 있습니다. 사용되며 Gitee 지수가 가장 높은 오픈 소스 소프트웨어입니다. 누구나 오픈 소스 기여, 키트, 모델 크라우드 인텔리전스, 산업 혁신 및 응용, 알고리즘 혁신, 학술 협력, AI 도서 협력 등에 참여하고 클라우드 측, 장치 측, 엣지 측 및 애플리케이션 사례에 기여할 수 있습니다. 보안 분야.
과학기술계, 학계, 산업계의 SunSilicon MindSpore의 광범위한 지원으로 SunSilicon MindSpore를 기반으로 한 AI 논문은 2023년 전체 AI 프레임워크의 7%를 차지하여 2년 연속 세계 2위를 차지했습니다. 모든 대학은 교사들의 지원을 받아 AI 연구와 혁신을 위해 계속 함께 열심히 노력할 것입니다. MindSpore 커뮤니티는 최고의 컨퍼런스 논문 연구를 지원하고 독창적인 AI 결과를 지속적으로 구축합니다. 때때로 우수한 논문을 선정하여 추진하고 해석할 것입니다. 업계, 학계 및 연구 분야의 더 많은 전문가가 MindSpore와 협력하여 독창적인 AI 연구를 촉진하기를 바랍니다. Shengsi MindSpore 커뮤니티는 AI 혁신과 AI 응용 프로그램을 계속해서 지원할 것입니다. AI 컨퍼런스 논문 시리즈 17번째 기사에서는 난징 과학기술대학교 컴퓨터 과학 및 공학부 Wei Xiushen 박사 팀의 논문을 해석하기로 했습니다 . 모든 전문가, 교수 및 동급생의 기여에 감사드립니다.
MindSpore는 손쉬운 개발, 효율적인 실행, 전체 시나리오 적용이라는 세 가지 주요 목표를 달성하는 것을 목표로 합니다. 사용 경험을 통해 딥러닝 프레임워크인 MindSpore는 빠르게 발전하고 있으며 다양한 API의 디자인은 보다 합리적이고 완전하며 강력한 방향으로 지속적으로 최적화되고 있습니다. 또한 Shengsi에서 지속적으로 등장하는 다양한 개발 도구도 이 생태계를 지원하여 모델 아키텍처를 다이어그램 형식으로 제시하고 다양한 측면을 동적으로 모니터링할 수 있는 MindSpore Insight와 같이 보다 편리하고 강력한 개발 방법을 만들 수 있습니다. 런타임 중 모델의 표시기와 매개변수가 변경되면 개발 프로세스가 더욱 편리해집니다.
이 글에서 연구하고 싶은 문제는 10만개, 100만개 카테고리의 분류 문제 등 대규모 카테고리의 분류 문제이다. ResNet-50과 같은 네트워크의 경우 이러한 분류 문제를 처리하는 마지막 선형 레이어에는 2048×100000 또는 2048×1000000의 매개변수 양이 필요하며, 이로 인해 fc는 이전 특징 추출 레이어의 매개변수 양보다 커집니다.
반면, 일반적인 분류 문제에서는 원-핫 벡터를 레이블로 선택하는데, 이는 두 벡터 사이의 각도가 90도인 직교 기반으로 이해될 수 있습니다. 2021년 말, Annual Journal of Mathematics에는 차원 D가 무한대에 가까워지는 경우 주어진 각도에 대해 위에서 언급한 동일한 각도를 갖는 직선의 개수가 D와 선형적으로 관련된다는 기사가 있었습니다( 각도가 고정된 등각선을 참조하세요.)
따라서 각도가 완전히 같다면 범주의 개수도 크고 D도 커야 합니다. 따라서 이 문서의 시작 부분에 있는 아이디어는 각도를 대략 83-97(축 대칭)로 제한하면 5000차원이 100,000개 범주의 기반을 수용할 수 있으며 동시에 각도를 최적화하는 것입니다. 분류 성능에 큰 영향을 미치지 않으며 해당 데이터 세트도 오픈 소스로 제공됩니다. 또한 각도가 0인 경우 공간에는 이러한 기저 벡터가 무수히 있으므로 이는 사실이어야 합니다. 그러나 α, 공간 차원 및 이러한 벡터의 수에 대한 고정된 수학적 해는 없으며 일부 특수한 경우에만 해당됩니다. 답변을 보려면 "Sparse and Redundant Representations – From Theory to Application in Signal and Image Process" 책을 참조하세요. 분류 작업 코드 부분은 MindSpore의 공식 문서에 제공된 예제를 따르므로 간단히 데이터 세트를 수정하면 완료될 수 있어 매우 편리합니다.
01
연구배경
패턴 분류 분야는 입력 신호를 두 개 이상의 범주에 할당하는 것을 목표로 합니다. 최근 몇 년 동안 딥 러닝 모델은 이미지, 비디오, 오디오, 텍스트 및 기타 데이터 처리에 획기적인 발전을 가져왔습니다. 하드웨어의 급속한 발전에 힘입어 오늘날의 딥 러닝 방법은 백만 개의 이미지를 쉽게 맞출 수 있으며 패턴 분류 작업에서 수작업으로 만든 특징 품질이 좋지 않았던 이전의 장애물을 극복할 수 있습니다. 원격 감지, 소수 학습, 롱테일 문제 등과 같은 다양한 시나리오 및 설정에서 분류 문제를 해결하기 위해 많은 딥러닝 기반 방법이 생겨나고 사용되었습니다.
그림 1은 몇 가지 일반적인 분류 작업 패러다임을 보여줍니다. 현재 다수의 딥러닝 방법은 분류기로 소프트맥스와 결합된 학습 가능한 완전 연결 레이어를 사용합니다. 그러나 카테고리의 개수가 고정되어 있기 때문에 이러한 분류기는 확장성이 좋지 않으며, 카테고리의 개수가 증가할수록 분류기의 훈련 가능한 매개변수 수도 증가하게 됩니다. 예를 들어, 완전 연결 계층의 메모리 소비는 범주 수 N이 증가함에 따라 선형적으로 증가하고, 완전 연결 계층과 d차원 기능 간 행렬 곱셈의 계산 비용도 증가합니다. 고전적인 메트릭 학습을 기반으로 하는 일부 방법은 모든 훈련 샘플을 고려하고 긍정적/부정적 샘플 쌍을 설계한 다음 각 범주에 대한 클래스 센터를 최적화해야 하며, 이는 특히 사전 훈련 작업의 경우 대규모 데이터 세트에 대해 많은 추가 계산이 필요합니다. .
그림 1 일반적인 분류 패러다임과 EBV의 비교
1. k-way 완전 연결 레이어와 소프트맥스로 끝나는 분류기. 더 많은 범주가 추가되면 분류기의 훈련 가능한 매개변수가 선형적으로 증가합니다.
2. 전통적인 메트릭 학습 방법의 예로 "Triplelet Embedding"을 사용하면 M개의 이미지가 주어지면 복잡성이 증가
합니다
.
3. 우리가 제안한 EBV. EBV는 다양한 카테고리에 대해 고정된 정규화된 임베딩을 미리 정의합니다. 네트워크의 학습 가능한 매개변수는 범주 수가 증가해도 변경되지 않는 반면, 계산 복잡성은 에서 까지만 증가합니다
.
02
팀 소개
Wei Xiushen 교수 가 이끄는 VIP(Visual Intelligence & Perception) 그룹 . IEEE TPAMI, IEEE TIP, IEEE TNNLS, IEEE TKDE, Machine Learning Journal, "China Science: Information Science" 등 관련 분야 최고의 국제 저널과 NeurIPS, CVPR, ICCV, ECCV, IJCAI, AAAI 등 50편 이상의 논문을 발표했으며, 관련 연구로 DIGIX 2023, SnakeCLEF 2022, iWildCam 2020, iNaturalist 2019 및 겉보기 성격 분석 2016.
03
논문 소개
본 논문에서는 심층 신경망 분류 작업에서 일반적으로 사용되는 분류기를 대체하기 위해 등각 벡터 기반(EBV)을 제안합니다. EBV는 모든 범주에 대해 고정된 정규화된 기본 벡터를 미리 정의하며 이러한 기본 벡터 간의 각도는 동일하며 가능한 한 상호 직교하도록 제한됩니다. 특히, d차원 단위 하이퍼스피어에서 분류 작업의 각 범주에 대해 EBV는 하이퍼스피어 표면에 d차원 정규화된 임베딩을 정의합니다. 이러한 임베딩 기반 벡터를 호출합니다. 각 기본 벡터 쌍의 구면 거리는 임의의 두 기본 벡터 간의 관계를 가능한 한 직교에 가깝고 유사한 각도로 만드는 정의된 규칙을 충족합니다. 범주 수가 증가함에 따라 심층 신경망의 훈련 가능한 매개변수를 일정하게 유지하기 위해 Tammes 문제와 등각선의 두 가지 수학적 문제를 기반으로 EBV의 정의를 제공합니다.
먼저 EBV에 대한 구체적인 정의를 제시합니다. 우리는 d 직교 벡터 베이스가 d 차원 유클리드 공간을 구성할 수 있다는 것을 알고 있습니다 . 동시에 두 벡터가 직교 관계에 있으면 수학에서는 두 벡터에 상관 관계가 없다고 믿습니다. 그러나 이러한 d차원 공간은 최대 d개의 벡터 베이스, 즉 수용할 수 있는 범주 수를 수용할 수 있으며
, 대규모 분류를 위한 메모리 공간 감소 요구 사항을 충족할 수 없습니다. 따라서 서로 다른 벡터 베이스 간의 각도 관계를 최적화해야 합니다. 단위 초구체 에서 임의 의 두 벡터 베이스의 각도 범위를
로 취하고 정의한다고 가정합니다 . 주어진 범주 수량 N에 대해 조건을 충족하는 최소값을 찾거나 허용 가능한 항목에 대해 공간에서 범주 수량 N의 값 범위를 찾으면 EBV 정의가 완료됩니다. 수학적 표현은 다음과 같이 조건을 충족하는 동일한 각도를 갖는 벡터의 기본 집합을 찾는 것으로 요약될 수 있습니다 .
그 중 , , 는 유클리드 표준을 나타 냅니다
. 그런 다음 단위 구면 거리의 미터법 함수라고 가정하면 쿼리할 모든 특징 벡터에 대해 벡터 베이스와의 상관 관계는 다음과 같이 표현될 수 있습니다 .
그 중 은 벡터 기본 집합에 포함된 N개의 기본 벡터를 나타냅니다 . 는 마찬가지로 계산할 모든 기저 벡터의 첨자를 나타냅니다 .
그런 다음 EBV 생성 방법을 제공합니다. 등각 벡터 기본 집합을 나타내기 위해 행렬을 무작위로 초기화했습니다
. 여기서 d는 각 기본 벡터의 차원을 나타내고 N은 필요한 기본 벡터의 수를 나타냅니다. 그런 다음
의 각 d차원 기저 벡터를 정규화하여 의
두 기저 벡터의 합이 , , ,
로
표현될 수 있도록 합니다 . 이런 식으로 과 의 구면 거리는 코사인 유사도로 대체될 수 있으며, 로 표현됩니다 . 확률적 경사하강법 과정에서 만족하는 기본 벡터 쌍의 경사는 경사 클리핑을 통해 절단되고 나머지 기저 벡터 쌍은 동시에 최적화됩니다. 전체 최적화 함수는 다음과 같이 표현할 수 있습니다.
즉 , 해당 그래디언트가 잘려지고 더 이상 최적화가 수행되지 않습니다.
마지막으로 분류 작업에 사용될 때 EBV에 대한 최적화 방법을 제공합니다. N개의 범주에 총 데이터 샘플이 포함되어 있고 해당 레이블이 해당 레이블을 나타내는 데이터를 나타내는
이라고 가정합니다. 해당 특징 벡터는 다음과 같이 표현될 수 있다 . 여기서는 특징 추출기를 나타내며, 이는 일반적으로 최적화할 심층신경망으로 이해될 수 있으며, 최적화할 특징 추출기의 매개변수를 나타낸다. 따라서 해당 데이터 에 해당하는 특징 벡터가 카테고리로 추정될 확률은 다음과 같이 표현될 수 있다.
그 중 는 J번째 범주 가중치
의 전치를 나타냅니다. EBV 생성 과정에서 세트
의 각 기본 벡터는
정규화 되어
공식 (4)의 범주 가중치로 대체되었습니다.
마지막으로 EBV를 달성하기 위한 목적 함수는 다음과 같습니다.
그 중 은 해당 특징 벡터 의 정규화를 나타내며 , 이는 최적화의 난이도를 줄이기 위해 사용되는 하이퍼파라미터이다. 그런 다음 최적화 목표는 최종적으로 결합 분포 확률을 최대화하는 것으로 변환됩니다. 여기서는 특징 추출기를 통해 얻은 특징 벡터가 카테고리로 간주될 확률을 나타내는 연결 함수를 나타내며, 최적화 목표는 을 최소화하는 것으로 다시 작성할 수 있습니다. 다음과 같은 음의 로그 우도 함수:
04
실험 결과
ImageNet-1K 데이터 세트의 분류 작업, MS COCO 데이터 세트의 인스턴스 분할 및 대상 탐지 작업, ADE20K 데이터 세트의 의미 분할 및 다수의 다운스트림 분류 작업에 대한 비교 실험을 수행했습니다. 1K의 분류 결과는 방법의 효율성을 설명하기 위한 예로 사용됩니다. 제안된 EBV의 효율성을 입증하기 위해 기준 비교 방법은 TorchVision에서 제공하는 최첨단 훈련 방법을 참조합니다. 우리는 세 가지 훈련 설정을 제공합니다:
1. 원본 ResNet 텍스트의 훈련 설정을 나타내도록 A0을 설정합니다.
2. A1을 설정한다는 것은 코사인 붕괴 학습률 스케줄러를 사용하고 워밍업 훈련 전략을 채택하는 동시에 체중 감소 및 TrivialAugment와 같은 향상 전략을 사용하는 것을 의미합니다.
3. A2를 설정한다는 것은 A1을 기반으로 1abel-smoothing, cutmix, mixup의 세 가지 전략을 추가하는 것을 의미합니다.
표 1에서 볼 수 있듯이 실험 결과는 동일한 실험 설정에서 EBV가 기존 분류기보다 더 크게 개선되었음을 보여줍니다.
표 1 ImageNet-1K 검증 세트의 비교 결과
05
요약 및 전망
본 논문에서는 분류 작업을 위한 새로운 패러다임인 EBV(등각 벡터 베이스)를 제안합니다. 심층 신경망에서 모델은 일반적으로 소프트맥스를 사용하는 k-way 완전 연결 레이어로 분류 작업을 처리하며 이러한 방법의 학습 목표는 학습된 특징 표현을 샘플의 레이블 공간에 매핑하는 것으로 요약될 수 있습니다. 메트릭 학습 방법에서 학습 목표는 원래 공간의 훈련 데이터 포인트를 새로운 공간에 매핑하고 공간 내 동일한 유형의 샘플 포인트를 더 가깝게 만들고 서로 다른 공간 사이의 거리를 만드는 매핑 기능을 학습하는 것으로 요약할 수 있습니다. 포인트 유형이 더 멀어집니다. 위의 방법과 달리 EBV는 모든 범주에 대해 고정된 정규화된 기본 벡터를 미리 정의합니다. 사전 정의 과정에서 이들 기저 벡터 사이의 각도는 동일하며 최대한 서로 직교하도록 제한됩니다. 훈련 단계에서 이러한 기본 벡터는 다양한 카테고리의 샘플에 대한 고정 매핑 대상으로 직접 사용되며 EBV의 학습 목표도 이미지 특징 임베딩과 사전 정의된 기본 벡터 사이의 구형 거리를 최소화하는 것으로 변경됩니다. 검증 단계에서는 각 카테고리가 고정된 기저 벡터에 묶여 있으므로 이미지의 특징 임베딩과 모든 기저 벡터 사이의 구면 거리의 최소값으로 이미지의 라벨을 판단할 수 있습니다. 분류 문제이기 때문에 MindSpore의 공식 샘플 코드에 따르면 훈련이 매우 빠르게 완료될 수 있습니다.
1990년대에 태어난 프로그래머가 비디오 포팅 소프트웨어를 개발하여 1년도 안 되어 700만 개 이상의 수익을 올렸습니다. 결말은 매우 처참했습니다! Google은 Flutter, Dart 및 Python 팀의 중국 코더의 "35세 저주"와 관련된 정리해고를 확인했습니다 . | Daily Windows 1.0용 Arc Browser가 3개월 만에 공식적으로 GA Windows 10 시장 점유율이 70%에 도달했으며 Windows 11 GitHub는 AI 기본 개발 도구 GitHub Copilot Workspace JAVA를 계속해서 출시했습니다 . OLTP+OLAP을 처리할 수 있는 유일한 강력한 유형의 쿼리입니다. 우리는 너무 늦게 만났습니다 .