Como uma empresa treina seu próprio modelo grande?

[Shenzhen] Yuanchuanghui: 17h26, o salão de festas está esperando por você.”

Hoje, grandes modelos de linguagem de IA tornaram-se a chave para o desenvolvimento futuro. As empresas de tecnologia nacionais e estrangeiras começaram a desenvolver de forma independente grandes modelos exclusivos.

O que é um modelo de linguagem grande? É um algoritmo de aprendizagem autônomo que possui diversas funções, como resumir, traduzir e gerar texto. Ele pode criar conteúdo de direitos autorais de forma independente, sem controle humano. Em comparação com os modelos de algoritmos tradicionais, os grandes modelos de linguagem estão mais inclinados a utilizar a aprendizagem para dominar um conhecimento sistemático e aplicá-lo a várias tarefas de trabalho para maximizar os seus benefícios.

Como aplicar grandes modelos de linguagem a vários setores? A resposta é construir um grande modelo do domínio. Modelos de domínio grande referem-se a modelos de linguagem grandes que podem auxiliar na anotação de dados de domínio e no ajuste fino do modelo em aplicativos corporativos. O atual modelo operacional comum no mercado é uma grande estrutura de modelo baseada em grandes empresas. As empresas em vários campos verticais podem escolher e ajustar livremente modelos que atendam às suas próprias necessidades. Com base nisso, podemos resumir as etapas para as empresas treinarem seus próprios grandes modelos.

1. Escolha um modelo básico grande adequado

As empresas devem estabelecer um sistema sistemático de indicadores com base nas suas próprias operações comerciais, tais como precisão, interpretabilidade, estabilidade, custo, etc. Após quantificar os indicadores, analisar e comparar as características de cada modelo.

Tomemos como exemplo o projeto BenTsao. Quando o projeto foi estabelecido pela primeira vez, os desenvolvedores precisavam criar um mapa de conhecimento médico confiável e coletar literatura médica relevante. E aproveite a API ChatGPT para construir um conjunto de dados ajustado. Ajuste as instruções para obter o efeito de perguntas e respostas de conhecimento médico. É claro que, quando as empresas selecionam modelos, devem também considerar as capacidades básicas e as capacidades de programação do próprio modelo. As capacidades básicas do próprio modelo precisam ser suficientemente fortes, não moduladas com precisão. Porque quando as empresas se desenvolvem, muitas vezes desenvolvem-se com base nas capacidades básicas do modelo. Atualmente, os melhores modelos incluem Code LLaMA (34B) e Starcoder (15B).

2. Limpe e rotule os dados

Este é um elo fundamental relacionado à operação final de limpeza de dados que afetará o efeito da apresentação do modelo. A limpeza de dados é realizada em ordem, com as seguintes etapas principais:

Limpeza básica: remova informações duplicadas registradas, corrija erros de baixo nível e garanta formato de dados unificado para fácil visualização;
Limpeza estruturada: Com base no formato unificado, os dados são transformados e criados, e o desempenho do modelo pode ser selecionado e melhorado;
Limpeza de conteúdo: identificação semântica, fusão e processamento de dados discrepantes podem ser realizados.
Limpeza avançada: A síntese de dados pode ser realizada por meios técnicos, e informações de dados complexos, como imagens e bebidas, podem ser processadas além de informações de texto, garantindo a privacidade do usuário. Este programa é limitado a aplicações específicas.
Auditoria e verificação: Contrate especialistas do setor para realizar uma auditoria e verificar se a qualidade da limpeza de dados está de acordo com o padrão. Este processo envolve muitos padrões de inspeção e processos de controle.

A anotação de dados é a chave para determinar diretamente a direção da coleta e treinamento de dados no estágio inicial do projeto do modelo. A anotação de dados pode ser dividida em 9 etapas: Determinar tarefas e requisitos de anotação - Coletar informações de dados originais - Limpar e pré-processar dados - Projetar planos correspondentes - Anotação de dados - Controlar qualidade e precisão - Expandir e aprimorar os dados - estabelecer planos de treinamento correspondentes, verificar e testar os resultados - manter um método de trabalho de supervisão e atualização contínua.

Entre eles, quando coletamos dados originais, podemos coletar informações públicas fornecidas por instituições de pesquisa acadêmica ou empresas para facilitar a aplicação em campo do modelo de treinamento e avaliação. Durante o processo, deve-se atentar para a conformidade legal dos dados. Em alguns casos, também podem ser realizadas anotação de entidade, anotação emocional e anotação gramatical.

3. Treinamento e ajuste fino

O treinamento é o processo de aprendizado profundo em um modelo grande para desenvolver um modelo que possa compreender e gerar texto em linguagem natural. Durante este período, as empresas precisam processar e coletar dados de texto em grande escala e aprender suas leis inerentes, semântica e relações internas entre o contexto e o contexto do texto. Atualmente, as principais rotas de treinamento no mercado nacional são TPU + XLA + TensorFlow liderada pelo Google e GPU + PyTorch + Megatron-LM + DeepSpeed controlada pela NVIDIA, Meta, Microsoft e outros grandes fabricantes.

O ajuste fino é controlar o modelo a ser treinado com base nos dados anotados de uma tarefa específica. O principal objetivo desta etapa é modificar a camada de saída e ajustar os parâmetros apropriados enquanto o preço do minério do modelo permanece inalterado, para que o modelo. pode se adaptar à tarefa específica.

A avaliação final e iteração, implantação e monitoramento concentram-se em atualizações pós-venda e monitoramento em tempo real após o desenvolvimento do modelo. Nesses dois links, os desenvolvedores precisam avaliar o desempenho do modelo de acordo com os padrões da área. Eles podem contratar profissionais para dar sugestões de avaliação, e os desenvolvedores farão melhorias e atualizações iterativas com base na avaliação.

Depois que o modelo for executado normalmente, os desenvolvedores também precisarão monitorar e implantar a operação diária do modelo.

Durante todo o processo de treinamento, a API desempenha um papel importante. Ele pode ajudar os desenvolvedores a processar dados de maneira eficiente e econômica. Ele também pode atualizar dinamicamente os dados do modelo, garantindo ao mesmo tempo que os dados privados possam ser acessados com segurança em modelos grandes.

HBase : o serviço [HBase] é uma solução de armazenamento e recuperação de big data de alto desempenho e altamente escalonável, baseada na tecnologia central do Apache HBase, um sistema de banco de dados de coluna distribuído de código aberto. Ele foi projetado para fornecer análise de big data, empresa em tempo real. aplicativos de nível superior em vários cenários de negócios, como processamento de dados, Internet das Coisas (IoT), gerenciamento de logs e controle de risco financeiro, fornecem recursos de gerenciamento de dados eficientes e confiáveis.

Serviço de log : Cloud Log Service (CLS) é uma plataforma de serviço de log completa fornecida pela Tencent Cloud. Ele fornece vários serviços, desde coleta de log, armazenamento de log até recuperação de log, análise de gráfico, monitoramento de alarmes, entrega de log e outros serviços para auxiliar os usuários. use logs para resolver múltiplas funções, como operação e manutenção de negócios e monitoramento de serviços. Além disso, o Tencent Cloud CLS adota um design de arquitetura distribuída altamente disponível e realiza armazenamento de backup multi-redundante de dados de log para evitar que os dados fiquem indisponíveis devido ao tempo de inatividade do serviço de nó único, fornecendo disponibilidade de serviço de até 99,9% e fornecendo serviços estáveis e confiáveis. serviços para dados de registro.

Cloud Monitor : O Cloud Monitor oferece suporte à configuração de alarmes de limite de indicador para recursos de produtos em nuvem e recursos relatados personalizados. Fornece monitoramento tridimensional de dados de produtos em nuvem, análise inteligente de dados, alarmes anormais em tempo real e exibição visual de dados. Com a coleta de segundo nível cobrindo todos os dados dos indicadores, você pode experimentar as alterações mais granulares dos indicadores e fornecer uma experiência refinada de monitoramento de produtos em nuvem. O monitoramento em nuvem fornece armazenamento gratuito 24 horas por dia de dados de monitoramento de segundo nível e suporta visualização on-line e download de dados.