Sistema de inferência sem servidor de modelo grande

Clique para ver a análise completa do evento: https://my.oschina.net/u/4489239/blog/11105657

Clique para acessar a prévia da Conferência Shenzhen Yuanchuang em 18 de maio: https://www.oschina.net/event/2332004

Em 20 de abril, a 102ª Conferência Yuanchuang foi realizada com sucesso em Wuhan. Esta edição convida especialistas em inteligência artificial do Instituto de Pesquisa de Inteligência Artificial de Wuhan, Huawei, MindSpore, JD Cloud e Gitee AI para fazer palestras sobre o tema [Competição de Grandes Modelos e Otimização de Desempenho]. Atualmente, algumas partes ou plataformas modelo fornecerão aos usuários individuais algum poder de computação gratuito para usar tecnologia de modelo grande. Gitee.AI, como uma grande plataforma de agregação de modelos, também fornece poder de computação gratuito para usuários individuais. Lin Jiazhen, consultor especialista da Gitee AI e do Instituto de Computação de Alto Desempenho da Universidade de Tsinghua, fez um discurso sobre "Sistema de Inferência sem Servidor de Grandes Modelos".
 
Lin Jiazhen destacou que Gitee.AI atualmente agrega mais de 2.000 modelos, mas os recursos computacionais gratuitos são limitados. Portanto, é necessário alocar de forma mais eficiente esses recursos computacionais gratuitos para desenvolvedores sob demanda, o que é um grande desafio no momento. problemas. Por exemplo, quando a tecnologia de contêineres era usada para desenvolvimento externo no passado, a troca, a troca e a ativação de um único contêiner eram muito rápidas. No entanto, isso se tornou difícil na era dos grandes modelos. A ativação e a suspensão do modelo dificultam o gerenciamento de troca e troca de contêineres no passado. O cenário é igualmente eficiente.
 
A IA sem servidor tem quatro vantagens principais, incluindo implantação simples, uso pronto para uso, custos reduzidos de uso de energia de computação, cobertura de modelos convencionais e suporte para uma variedade de hardware de computação. Há um problema com o mecanismo do modelo atual, ou com a forma de adquirir e utilizar o poder computacional, ou seja, programas de usuário, modelos e chips de inferência estão todos vinculados a um contêiner, ocupando o chip de hardware e utilizando serviços de poder computacional. O mecanismo de inferência sem servidor integra e otimiza recursos de poder de computação, reduz o acoplamento entre aplicativos, modelos e poder de computação por meio de vários níveis de desagregação, aloca poder de computação sob demanda e melhora a utilização de recursos.
 
A arquitetura do sistema sem servidor é dividida em três camadas. A camada mais baixa é a camada do compilador. O carregamento do modelo no contêiner é alterado para o modo de chamada rpc para o serviço remoto. inferência de back-end para realizar o modelo e a despolimerização. rpc é fornecido ao mecanismo de inferência no nível superior. O mecanismo de inferência é o cluster onde os cálculos realmente ocorrem. Por exemplo, suponha um cenário de tarefa onde dez cartões satisfazem a solicitação de agendamento de 3.000 modelos. Neste momento, não há como carregar um modelo grande fixamente em um cartão. É necessário carregar temporária e dinamicamente o modelo desejado de acordo com o modelo. solicitação Portanto, os pesos calculados do chip e do modelo são desagregados e o modelo é colocado no TanserGraph, que é um sistema de memória heterogêneo que pode suportar a desagregação de chips e modelos de poder de computação. Na camada superior, são realizadas a camada Serverless, aplicação, inferência e agregação.
 
A principal capacidade da arquitetura do sistema sem servidor é a memória interconectada heterogênea para resolver o problema de peso do modelo. A arquitetura geral do data center tem algumas limitações, como baixa utilização de recursos e escalabilidade de hardware limitada. A tecnologia de desagregação pode separar fisicamente cada componente da arquitetura geral e usar uma certa interconexão para vincular a interface de controle (Plano de Controle) de cada componente e dados. interface (Data Plane) para realizar a alocação e expansão sob demanda de vários recursos. Além disso, a desagregação de memória também traz vantagens de aplicação em cenários de nuvem, incluindo a melhoria da utilização de recursos do ambiente de nuvem e a facilitação do atendimento à crescente demanda por recursos de memória.
 
No entanto, o sistema de memória hierárquica existente não é adequado para a elevada flexibilidade de hardware sob a arquitectura de desagregação, e a escalabilidade do sistema também é limitada. Além disso, devido às limitações da estrutura interna do sistema, as capacidades da interface de gestão de memória existente são limitadas. A memória interconectada heterogênea pode resolver esses problemas por meio de três links: estatísticas de acesso ao hardware, estratégias programáveis ​​e migração de páginas. Tomando a CPU como exemplo, para estatísticas de acesso baseadas em PEBs, o hardware é suportado para coletar o status de acesso à memória do programa em execução, registrar as instruções, TID, endereço de destino, etc., e então carregar os pesos do modelo sob demanda.
 
Além disso, a arquitetura do sistema sem servidor também possui vários outros recursos, como tecnologia de otimização de compilação de rede neural multinível baseada em MLIR e mecanismo leve de serviço de sistema baseado na tecnologia de isolamento do espaço do usuário. O mecanismo de inferência sem servidor é construído com base em duas tecnologias principais de propriedade intelectual. Além disso, ele também integra várias tecnologias atuais de otimização do sistema de inferência.
 
Atualmente, o Llama 3 foi lançado no Gitee AI. Copie o link abaixo para o seu navegador e entre na plataforma para experimentá-lo (código de convite: llama3):
https://ai.gitee.com/hf-models/shenzhi-wang/Llama3-8B-Chinese-Chat
 
Digitalize o código QR para assistir ao replay da palestra "Large Model Serverless Inference System" ⬇️
Estudantes do ensino médio criam sua própria linguagem de programação de código aberto como uma cerimônia de maioridade - comentários contundentes de internautas: Contando com a defesa, a Apple lançou o chip M4 RustDesk Os serviços domésticos foram suspensos devido a fraude desenfreada. No futuro, ele planeja produzir um jogo independente na plataforma Windows Taobao (taobao.com) Reiniciar o trabalho de otimização da versão web, destino dos programadores, Visual Studio Code 1.89 lança Java 17, a versão Java LTS mais comumente usada, Windows 10 tem um participação de mercado de 70%, o Windows 11 continua diminuindo Open Source Daily | Google apoia Hongmeng para assumir o controle do Rabbit R1 de código aberto; a ansiedade e as ambições da Microsoft encerraram a plataforma aberta;
{{o.nome}}
{{m.nome}}

Acho que você gosta

Origin my.oschina.net/u/4489239/blog/11105667
Recomendado
Clasificación