Ensaio de papel | A explicação detalhada do desempenho de classificação de bases de vetores de ângulos iguais (EBVs) com base em Shengsi é significativamente melhor do que os classificadores tradicionais

A equipe da comunidade de código aberto da China fez sua primeira transmissão ao vivo, contando a história por trás da comunidade de código aberto da China em nome do compartilhamento."

**Autor:** Li Ruifeng

Título do artigo

Vetores de base equiangular

Fonte de papel

CVPR 2023

Link de papel

https://arxiv.org/abs/2303.11637

link de código

https://github.com/msfuxian/EBV

Como uma estrutura de IA de código aberto, MindSpore traz colaboração entre dispositivos e nuvem de cenário completo entre indústria, universidade, pesquisa e desenvolvedores, desenvolvimento minimalista, desempenho máximo, pré-treinamento de IA em escala ultralarga, desenvolvimento minimalista e um ambiente seguro e confiável. experiência, 2020.3.28 O código aberto tem mais de 5 milhões de downloads. O MindSpore apoiou centenas de artigos de conferências importantes sobre IA, entrou no ensino das 100 melhores universidades e está disponível comercialmente em mais de 5.000 aplicativos por meio do HMS. desenvolvedores e está no centro de computação de IA, finanças, manufatura inteligente, finanças, nuvem, sem fio, comunicações de dados, energia, consumidor 1 + 8 + N, carros inteligentes e outros cenários de carros em nuvem de ponta estão gradualmente se espalhando. usado, e é o software de código aberto com o maior índice Gitee. Todos são bem-vindos para participar de contribuições de código aberto, kits, modelo de inteligência coletiva, inovação e aplicações da indústria, inovação de algoritmos, cooperação acadêmica, cooperação de livros de IA, etc., e contribuir com seus casos de aplicação no lado da nuvem, no lado do dispositivo, no lado da borda e campos de segurança.

Com o amplo apoio do SunSilicon MindSpore da comunidade científica e tecnológica, da academia e da indústria, os artigos de IA baseados no SunSilicon MindSpore representaram 7% de todas as estruturas de IA em 2023, ocupando o segundo lugar no mundo por dois anos consecutivos. Obrigado ao CAAI e. todas as universidades Com o apoio dos professores, continuaremos a trabalhar arduamente juntos para fazer pesquisa e inovação em IA. A comunidade MindSpore apoia as principais pesquisas de artigos de conferências e continua a construir resultados originais de IA. Ocasionalmente, selecionarei alguns artigos excelentes para promover e interpretar. Espero que mais especialistas da indústria, da academia e da pesquisa cooperem com a MindSpore para promover pesquisas originais em IA. de Shengsi MindSpore Para o 17º artigo da série de artigos de conferências de IA, escolhi interpretar um artigo da equipe do Dr. Wei Xiushen da Escola de Ciência da Computação e Engenharia da Universidade de Ciência e Tecnologia de Nanjing . agradecer a todos os especialistas, professores e colegas por suas contribuições.

MindSpore visa atingir três objetivos principais: fácil desenvolvimento, execução eficiente e cobertura completa de cenários. Através da experiência de uso, MindSpore, uma estrutura de aprendizagem profunda, está se desenvolvendo rapidamente, e o design de suas diversas APIs está sendo constantemente otimizado em uma direção mais razoável, completa e poderosa. Além disso, várias ferramentas de desenvolvimento que surgem constantemente de Shengsi também estão ajudando este ecossistema a criar métodos de desenvolvimento mais convenientes e poderosos, como o MindSpore Insight, que pode apresentar a arquitetura do modelo na forma de um diagrama e também monitorar dinamicamente vários aspectos do modelo durante o tempo de execução. Mudanças nos indicadores e parâmetros tornam o processo de desenvolvimento mais conveniente.

O problema que este artigo pretende estudar é o problema de classificação de grandes categorias, como problemas de classificação de 100.000 ou 1 milhão de categorias. Para uma rede como ResNet-50, a última camada linear para lidar com esse problema de classificação requer um valor de parâmetro de 2.048 × 100.000 ou 2.048 × 1.000.000, o que tornará fc maior do que o valor do parâmetro da camada de extração de recursos anterior.

Por outro lado, problemas gerais de classificação escolhem vetores one-hot como rótulos, o que pode ser entendido como uma base ortogonal onde o ângulo entre quaisquer dois vetores é de 90 graus. No final de 2021, saiu um artigo no Annual Journal of Mathematics que dizia que quando a dimensão D tende ao infinito, para um determinado ângulo, o número das retas acima mencionadas com ângulos iguais está linearmente relacionado a D ( consulte Linhas equiangulares com ângulo fixo).

Portanto, se os ângulos forem completamente iguais, o número de categorias é grande e D também deve ser grande. Portanto, a ideia no início deste artigo é fazer algumas otimizações no ângulo. Quando o ângulo é aproximadamente restrito a 83-97 (simetria axial), 5.000 dimensões podem acomodar a base de 100.000 categorias e, ao mesmo tempo, isso irá acomodar. não tem um grande impacto no desempenho da classificação. Tem um enorme impacto e o conjunto de dados correspondente também é de código aberto. Além disso, quando o ângulo é 0, existem inúmeros vetores de base no espaço, portanto, deve ser verdade. No entanto, não existe uma solução matemática fixa para α, dimensões espaciais e o número de tais vetores, apenas em alguns casos especiais. . Para respostas, consulte o livro "Representações Esparsas e Redundantes – Da Teoria às Aplicações em Processamento de Sinais e Imagens". A parte do código da tarefa de classificação segue o exemplo fornecido na documentação oficial do MindSpore. Pode ser concluída simplesmente modificando o conjunto de dados, o que é muito conveniente.

Antecedentes da Pesquisa

O campo de classificação de padrões visa atribuir sinais de entrada em duas ou mais categorias. Nos últimos anos, os modelos de aprendizagem profunda trouxeram avanços no processamento de imagens, vídeos, áudio, texto e outros dados. Auxiliados por rápidas melhorias no hardware, os métodos atuais de aprendizagem profunda podem facilmente ajustar um milhão de imagens e superar o obstáculo anterior de baixa qualidade de recursos artesanais em tarefas de classificação de padrões. Muitos métodos baseados em aprendizagem profunda surgiram e foram usados para resolver problemas de classificação em vários cenários e configurações, como sensoriamento remoto, aprendizagem de poucas tentativas, problemas de cauda longa, etc.

A Figura 1 ilustra alguns paradigmas típicos de tarefas de classificação. Atualmente, um grande número de métodos de aprendizagem profunda usam camadas treináveis totalmente conectadas combinadas com softmax como classificadores. No entanto, como o número de categorias é fixo, tal classificador tem baixa escalabilidade, e o número de parâmetros treináveis do classificador também aumentará à medida que o número de categorias aumentar. Por exemplo, foto o consumo de memória da camada totalmente conectada aumenta linearmente à medida que o número de categorias N aumenta, e o custo computacional da multiplicação de matrizes entre a camada totalmente conectada e os recursos d-dimensionais também aumenta. Alguns métodos baseados na aprendizagem métrica clássica devem considerar todas as amostras de treinamento e projetar pares de amostras positivas/negativas e, em seguida, otimizar um centro de classe para cada categoria, o que requer muitos cálculos adicionais para conjuntos de dados em grande escala, especialmente para tarefas de pré-treinamento .

foto

Figura 1 Comparação entre paradigmas de classificação típicos e EBVs

1. Classificador terminando com camada totalmente conectada k-way e softmax. À medida que mais categorias são adicionadas, os parâmetros treináveis do classificador crescem linearmente.

2. Tomando a "incorporação tripla" como exemplo do método clássico de aprendizagem métrica, quando M imagens são fornecidas, sua complexidade aumenta. Quando foto uma nova categoria com amostras é adicionada foto , a complexidade aumentará para foto .

3. Nossos EBVs propostos. Os EBVs pré-definem embeddings normalizados fixos para diferentes categorias. Os parâmetros treináveis da rede não mudam à medida que o número de categorias aumenta, enquanto a complexidade computacional só foto cresce de para foto .

introdução da equipe

Grupo de Inteligência Visual e Percepção (VIP), liderado pelo Professor Wei Xiushen . A equipe publicou nas principais revistas internacionais em áreas relacionadas, como IEEE TPAMI, IEEE TIP, IEEE TNNLS, IEEE TKDE, Machine Learning Journal, "Chinese Science: Information Science", etc., e nas principais conferências internacionais, como NeurIPS, CVPR, ICCV, ECCV, IJCAI, AAAI, etc. Ele publicou mais de cinquenta artigos e trabalhos relacionados ganhou um total de 7 campeonatos mundiais em competições internacionais de autoridade no campo da visão computacional, incluindo DIGIX 2023, SnakeCLEF 2022, iWildCam 2020, iNaturalist 2019 e Análise de Personalidade Aparente 2016.

Introdução ao artigo

Neste artigo, propomos bases de vetores de ângulos iguais (EBVs) para substituir classificadores comumente usados em tarefas de classificação de redes neurais profundas. Os EBVs pré-definem um vetor de base normalizado fixo para todas as categorias. Os ângulos entre esses vetores de base são os mesmos e são restritos para serem mutuamente ortogonais, tanto quanto possível. Especificamente, em uma hiperesfera unitária d-dimensional, para cada categoria na tarefa de classificação, os EBVs definem uma incorporação normalizada d-dimensional na superfície da hiperesfera. Chamamos esses vetores de base de incorporação. A distância esférica de cada par de vetores de base satisfaz uma regra definida que torna a relação entre quaisquer dois vetores de base o mais próximo possível da ortogonal e com ângulos semelhantes. A fim de manter constantes os parâmetros treináveis da rede neural profunda à medida que o número de categorias aumenta, fornecemos então a definição de EBVs com base nos dois problemas matemáticos do Problema de Tammes e das Linhas Equiangulares.

Primeiro, damos uma definição específica de EBVs. Sabemos que d bases vetoriais ortogonais podem construir um espaço euclidiano d-dimensional foto . Ao mesmo tempo, se dois vetores estão em uma relação ortogonal, em matemática acreditamos que os dois vetores não têm correlação. No entanto, tal espaço d-dimensional pode acomodar até d bases vetoriais, ou seja, o número de categorias que pode acomodar foto , e não pode atender aos requisitos de redução do espaço de memória para classificação em larga escala. Portanto, precisamos otimizar a relação angular entre diferentes bases vetoriais. Supondo que na hiperesfera unitária foto , tome foto e defina o intervalo de ângulos de quaisquer duas bases vetoriais como foto . Para uma determinada quantidade de categoria N, encontre foto o valor mínimo que atenda às condições ou, para um valor aceitável foto , encontre foto a faixa de valores da quantidade de categoria N no espaço, que completa a definição de EBVs. Sua expressão matemática pode ser resumida como encontrar um conjunto base de vetores com ângulos iguais que atenda às condições foto para que satisfaça:

foto

Entre eles, foto e foto média foto , foto representam foto a norma euclidiana. Então, assumindo foto que é uma função métrica da distância esférica unitária, para qualquer vetor de características a ser consultado foto , sua foto correlação com a base do vetor pode ser expressa como:

foto

Entre eles, foto representa foto os N vetores de base no conjunto de bases vetoriais. foto então representa os subscritos de todos os vetores de base a serem calculados, de forma semelhante foto ,.

Em seguida damos o método de geração de EBVs. Inicializamos aleatoriamente uma matriz foto para representar o conjunto de bases de vetores de ângulo igual foto , onde d representa a dimensão de cada vetor de base e N representa o número de vetores de base necessários. Em seguida, normalize foto cada vetor de base d-dimensional em, de modo que foto a soma de quaisquer dois vetores de base possa ser expressa foto como e , e ,. Desta forma, a distância esférica de e pode ser substituída pela similaridade de cosseno, expressa como . No processo de descida gradiente estocástica, o gradiente de qualquer par de vetores de base satisfatório é cortado por meio do recorte de gradiente e os pares de vetores de base restantes são otimizados ao mesmo tempo. A função de otimização geral pode ser expressa como: foto foto foto foto foto foto foto foto foto foto

foto

Ou seja, se foto , o gradiente correspondente for truncado e a otimização não for mais realizada.

Finalmente, fornecemos um método de otimização para EBVs quando usados em tarefas de classificação. Suponha que N categorias contenham um total foto de amostras de dados e seus rótulos correspondentes sejam foto , foto que representa os dados, foto que representam os rótulos correspondentes. foto O vetor de recursos correspondente pode ser expresso como foto , onde foto representa um extrator de recursos, que geralmente pode ser entendido como uma rede neural profunda a ser otimizada, e foto representa os parâmetros do extrator de recursos a serem otimizados. Portanto, a probabilidade foto de o vetor de características correspondente aos dados foto ser estimado como uma categoria foto pode ser expressa como:

foto

Dentre eles, representa a transposição do foto peso da categoria J. foto No processo de geração de EBVs, foto cada vetor base do conjunto foi foto regularizado foto e substituído pelo peso da categoria na fórmula (4). foto Finalmente, a função objetivo para atingir os EBVs pode ser obtida:

foto

Entre eles, foto representa a regularização do foto vetor de características correspondente , que é um hiperparâmetro utilizado para reduzir a dificuldade de otimização. Em seguida, o objetivo de otimização é finalmente convertido em maximizar a probabilidade de distribuição conjunta , onde representa a função de conexão, que representa a probabilidade de que o vetor de recursos obtido pelo extrator de recursos seja considerado uma categoria, então o objetivo de otimização pode ser reescrito como minimizando o log de probabilidade negativa da seguinte forma: foto foto foto foto foto foto foto foto

foto

Resultados experimentais

Conduzimos experimentos comparativos em tarefas de classificação no conjunto de dados ImageNet-1K, segmentação de instâncias e tarefas de detecção de alvo no conjunto de dados MS COCO, segmentação semântica no conjunto de dados ADE20K e um grande número de tarefas de classificação downstream. os resultados da classificação em 1K são tomados como exemplo para ilustrar a eficácia do método. A fim de provar a eficácia dos EBVs propostos, nosso método de comparação de linha de base refere-se ao método de treinamento de última geração fornecido pela TorchVision. Oferecemos três configurações de treinamento diferentes:

1. Defina A0 para representar as configurações de treinamento no texto ResNet original;

2. Definir A1 significa usar o programador de taxa de aprendizagem de decaimento de cosseno e adotar a estratégia de treinamento de aquecimento, enquanto usa estratégias de aprimoramento, como redução de peso e TrivialAugment;

3. Definir A2 significa adicionar as três estratégias de 1abel-smoothing, cutmix e mixup com base em A1.

Conforme mostrado na Tabela 1, os resultados experimentais mostram que os EBVs apresentam uma melhoria maior do que os classificadores tradicionais nas mesmas configurações experimentais.

Tabela 1 Resultados de comparação no conjunto de validação ImageNet-1K

foto

Resumo e Perspectiva

Este artigo propõe um novo paradigma para tarefas de classificação: bases de vetores de ângulos iguais (EBVs). Em redes neurais profundas, os modelos geralmente lidam com tarefas de classificação com camadas totalmente conectadas k-way com softmax, e os objetivos de aprendizado desses métodos podem ser resumidos como mapear as representações de recursos aprendidas para o espaço de rótulo da amostra. No método de aprendizagem métrica, o objetivo de aprendizagem pode ser resumido como aprender uma função de mapeamento para mapear os pontos de dados de treinamento do espaço original para um novo espaço e tornar o mesmo tipo de pontos de amostra no espaço mais próximo e a distância entre diferentes tipos de pontos ficam mais distantes. Diferente dos métodos acima, os EBVs pré-definem um vetor de base normalizado fixo para todas as categorias. No processo de pré-definição, os ângulos entre estes vetores de base são os mesmos e são obrigados a serem ortogonais entre si, tanto quanto possível. No estágio de treinamento, esses vetores de base servem diretamente como alvos de mapeamento fixos para amostras de diferentes categorias, e o objetivo de aprendizado dos EBVs também muda para minimizar a distância esférica entre a incorporação de recursos de imagem e os vetores de base predefinidos. Na fase de verificação, como cada categoria está vinculada a um vetor de base fixo, o rótulo da imagem pode ser julgado pelo valor mínimo da distância esférica entre a incorporação de recursos da imagem e todos os vetores de base. Por se tratar de um problema de classificação, o treinamento pode ser concluído muito rapidamente de acordo com o código de amostra oficial do MindSpore.

Ensaio de papel | A explicação detalhada do desempenho de classificação de bases de vetores de ângulos iguais (EBVs) com base em Shengsi é significativamente melhor do que os classificadores tradicionais

Acho que você gosta