Recomendações de artigos
O GPT-4o foi lançado e os usuários o analisaram imediatamente. Existe algum exagero no OpenAI?
Este artigo vem do resumo de Wu Jun do Ant após sua participação no QCon no ano passado. Ele se concentrará no AI Agent e nas aplicações e desafios atuais do AI Agent. A seguir está o texto original:
**Sobre o autor:** Wu Jun (Yide), TL da equipe de engenharia de IA do Departamento de Tecnologia de Dutos de Ar do Ant Group, é atualmente responsável pela engenharia de aplicação de modelos de grande porte de dutos de ar e é responsável por grandes avaliação de modelos e raciocínio de modelos grandes de alguns cenários de negócios de dutos de ar. Otimização e implementação de aplicações de modelos grandes.
O importante protagonista deste QCon é, sem dúvida, o grande modelo. Os três aspectos dos grandes modelos nos dois dias também podem corresponder às camadas clássicas da atual arquitetura de grandes modelos, a saber: camada de aplicação, camada de ferramenta, camada de modelo e infra-AI:
- ** Camada de aplicação - aplicação de modelo grande: ** Revelado principalmente no modelo de primeira geração do Agente RAG&AI Os principais cenários de implementação incluem análise de dados internos-GBI, que é BI generativo, código gerador de melhoria de eficiência auxiliar de P&D e usuários externos e. pequenas empresas 2. Perguntas e respostas da base de conhecimento - como ChatPDF;
- ** Camada de ferramentas - recursos de construção de aplicativos: ** Apresenta principalmente como construir grandes aplicativos de modelo de maneira eficiente e rápida de seus próprios cenários (com foco na construção de Agente de IA. Existem ferramentas de construção de aplicativos - LangChain, estruturas de desenvolvimento de agentes, como: Plataformas MetaGPT e MaaS, como ModelScop-Agent&Agents para Amazon Bedrock, etc.;
- ** Camada de modelo e infraestrutura - aceleração de otimização de grande modelo: ** A exploração do núcleo na aceleração de inferência de modelo atenderá aos requisitos de desempenho e segurança da produção em larga escala de aplicativos de modelo grande sob poder de computação limitado no futuro. também competindo Para explorar os pontos-chave do avanço.
O que é agente de IA?
Definição de Agente de IA
Agente AI é o conceito de Agente de Inteligência Artificial. É uma entidade inteligente que pode perceber o ambiente, tomar decisões e realizar ações. Geralmente é baseado em aprendizado de máquina e tecnologia de inteligência artificial e possui autonomia e capacidade de adaptação. em uma tarefa ou domínio . Um Agente mais completo deve interagir totalmente com o ambiente. Consiste em duas partes - uma é a parte do Agente e a outra é a parte do ambiente . O Agente neste momento é como um “ser humano” no mundo físico, e o mundo físico é o “ambiente externo” dos seres humanos.
Principais componentes do AI Agent
Em um sistema de agente autônomo habilitado para LLM (Agente LLM), o LLM atua como o cérebro do agente e colabora com vários componentes principais.
planejamento
- Decomposição de subobjetivos: o agente divide tarefas grandes em subobjetivos menores e gerenciáveis para que tarefas complexas possam ser processadas com eficácia.
- Reflexão e melhoria: O agente pode autocrítica e autorreflexão sobre ações históricas, aprender com os erros e melhorar nas etapas subsequentes, melhorando assim a qualidade do resultado final.
Memória
- Memória de curto prazo: a aprendizagem contextual é a aprendizagem da memória de curto prazo por meio de modelos.
- Memória de longo prazo: Fornece ao agente a capacidade de reter e recuperar informações de longo prazo, geralmente implementada usando armazenamento e recuperação de vetores externos.
uso de ferramenta
- Para informações perdidas nos pesos do modelo, o agente aprende a chamar APIs externas para obter informações adicionais, incluindo informações atuais, capacidades de execução de código, acesso a fontes de informações proprietárias, etc.
Ação
- O módulo de ação é a parte do agente que realmente executa a decisão ou resposta. Enfrentando diversas tarefas, o sistema agente possui um conjunto completo de estratégias de ação, podendo escolher as ações a serem executadas na tomada de decisões, como a conhecida recuperação de memória, raciocínio, aprendizagem, programação, etc.
Modo de colaboração homem-máquina
Os agentes baseados em grandes modelos não só permitirão que todos tenham um assistente inteligente dedicado com capacidades melhoradas, mas também mudarão o modelo de colaboração homem-máquina e proporcionarão uma integração mais ampla entre homem e máquina. A revolução inteligente da IA generativa evoluiu até agora e surgiram três modos de colaboração homem-máquina:
Modo incorporado:
Os usuários cooperam com a IA por meio da comunicação linguística, usam palavras imediatas para definir metas e a IA auxilia na conclusão de tarefas. Por exemplo, os usuários usam IA generativa para criar romances, obras musicais, conteúdo 3D, etc. Neste modo, a IA executa ordens e os humanos são os tomadores de decisão e comandantes.
Modo co-piloto:
Humanos e IA são parceiros e participam juntos do fluxo de trabalho. A IA fornece sugestões e auxilia em tarefas, como escrever código para programadores, detectar erros ou otimizar o desempenho no desenvolvimento de software. A IA é um parceiro experiente, não uma ferramenta simples.
Modo agente:
Os humanos estabelecem metas e fornecem recursos, a IA realiza a maior parte do trabalho de forma independente e os humanos supervisionam o processo e avaliam os resultados. A IA incorpora autonomia e adaptabilidade, aproximando-se de atores independentes, e os humanos desempenham o papel de supervisores e avaliadores. O modo agente é mais eficiente que o modo incorporado e o modo copiloto e pode se tornar o principal modo de colaboração homem-máquina no futuro.
No modo de colaboração homem-máquina dos agentes inteligentes, cada indivíduo comum tem o potencial de se tornar um superindivíduo, com a sua própria equipa de IA e fluxo de trabalho de tarefas automatizado. Eles podem estabelecer relações colaborativas mais inteligentes e automatizadas com outros superindivíduos. Já existem algumas empresas individuais e superindivíduos no setor que estão explorando ativamente esse modelo.
Aplicativo Agente AI
Atualmente, o AI Agent é reconhecido como uma das formas eficazes de implementar grandes modelos de linguagem. Ele permite que mais pessoas vejam claramente a direção do empreendedorismo de grandes modelos de linguagem, bem como as perspectivas de integração e aplicação de LLM, Agent e existentes. tecnologias da indústria. Atualmente, grandes agentes de modelos de linguagem têm vários projetos de código aberto ou fechado em muitos campos, como geração de código, análise de dados, resposta a perguntas gerais, pesquisa científica, etc., o que mostra o quão populares eles são.
Exemplos de agentes de IA relacionados ao setor
Aplicativo Agente AI
Este artigo se concentra em três tipos de aplicativos ou cenários: BI generativo ABI/GBI ou assistente de código de agente de código e perguntas e respostas de conhecimento baseadas na tecnologia RAG;
01. Agente de BI (Análise de Dados) - BI Gerativo
Experiência prática e exploração do LLM em pesquisa e desenvolvimento de aplicações de inteligência financeira
Em termos de BI generativo (Data Agent), durante o discurso especial do dia, ouvi um tópico compartilhado pelo diretor técnico da Tencent Cloud. Ele compartilhou o design do sistema inteligente de perguntas e respostas txt2SQL e a precisão geral pode. atingir surpreendentes 99% (geração pura de modelos grandes e a precisão do SQL com baixa complexidade é de cerca de 80% +). Mas, em essência, sua solução depende principalmente de recursos de engenharia e não usa totalmente os recursos de geração NL2SQL de modelos grandes. Em vez disso, ela combina RAG e usa Query para combinar problemas de consulta comuns e exemplos SQL correspondentes em RAG e, em seguida, com base no recuperado. SQL está conectado à fonte de dados.
Aplicação do SwiftAgent, um grande modelo digital, na área de análise de negócios
O produto DataAgent semelhante -swiftAgent, compartilhado pelo gerente geral de tecnologia/produtos digitais financeiros da Shushi, reconstrói o produto de processo completo manual tradicional de BI (GUI) por meio de um grande modelo baseado no modo de linguagem (LUI), incluindo consulta de indicador interativo, atribuição de insight inteligente , geração automática de relatórios de análise, gerenciamento completo do ciclo de vida de indicadores e outros recursos.
A integração do AIGC e da análise de dados cria um novo modelo de consumo de dados
Os especialistas em soluções de big data da NetEase Shufan compartilharam o trabalho da NetEase no Data Agent. Diante de erros em modelos grandes, eles se concentraram na direção da confiabilidade e trabalharam muito na interação do produto para garantir que os dados consultados pelo NL2SQL fossem confiáveis:
- A demanda é compreensível: por meio do grande modelo exclusivo NL2SQL autodesenvolvido, funções relevantes relacionadas a dados, como funções de classificação do mesmo ano/cadeia para grupo/grupo, são aprimoradas.
- O processo é verificável: ao gerar explicações de consulta em linguagem natural na interface interativa, os usuários podem identificar facilmente os acertos e erros do processo de geração de modelo para garantir a credibilidade do processo de geração.
- Os usuários podem intervir: Com base na explicação da consulta, os usuários podem ajustar manualmente as condições de consulta dos resultados da consulta e obter resultados corretos por meios determinísticos.
- Resultados operacionais: Otimize continuamente a correção da geração de grandes modelos por meio de rotulagem em tempo real e feedback de resultados corretos e incorretos.
Além disso, algumas empresas tentaram cenários relacionados ao NL2SQL e não vou listá-los um por um aqui.
02. Agente de codificação
Como tive profunda experiência com Github Copilot, codeGeex, CodeFuse, etc. no estágio inicial, a função principal é ajudar os programadores na geração de código, otimização de código, detecção de código e outras assistências de pesquisa e desenvolvimento para melhorar a eficiência. Neste cenário, o foco principal está mais na questão da segurança do código. Não entrarei em detalhes aqui. Os links relevantes para compartilhamento e download de PPT são os seguintes:
- Prática de aplicação do modelo de código aiXcoder em empresas:
https://qcon.infoq.cn/2023/shanghai/presentation/5683
- Exploração de P&D de próxima geração baseada em CodeFuse:
https://qcon.infoq.cn/2023/shanghai/presentation/5681
- Exploração e prática de implementação de grandes modelos em cenários de assistente de código:
https://qcon.infoq.cn/2023/shanghai/presentation/5690
- Prática de melhoria da eficiência do assistente de código inteligente orientada por modelo grande do Baidu:
https://qcon.infoq.cn/2023/shanghai/presentation/5679
03. Pergunta e resposta de conhecimento baseado em RAG
Devido a restrições de espaço, as aplicações de grandes modelos relacionadas ao RAG serão elaboradas e decompostas em outro artigo.
desafio
Do ponto de vista técnico, o desenvolvimento do Agente AI ainda é lento, e a maioria das aplicações ainda está em POC ou estágio experimental teórico. Atualmente, é quase raro ver aplicações de agentes de IA em grande escala que possam ser totalmente autônomas em cenários de domínio complexos. A principal razão é que o modelo LLM que serve como cérebro do Agente AI ainda não é poderoso o suficiente. Mesmo o GPT4 mais poderoso ainda enfrenta alguns problemas quando aplicado:
1. O comprimento do contexto é limitado, limitando a inclusão de informações históricas, descrições detalhadas, contexto de chamada de API e respostas;
2. O planeamento a longo prazo e a decomposição de tarefas continuam a ser um desafio;
3. O atual sistema de Agentes depende da linguagem natural como interface com componentes externos, mas a confiabilidade da saída do modelo é questionável.
Além disso, o custo do Agente AI é relativamente alto, especialmente sistemas multiagentes. Em muitos cenários, em comparação com o modo Copilot, o efeito da utilização do AI Agent não é significativamente melhorado ou o aumento do custo não pode ser coberto. A maioria das tecnologias de Agentes de IA ainda está em fase de pesquisa. Finalmente, o Agente de IA pode enfrentar muitos desafios, tais como segurança e privacidade, ética e responsabilidade, impactos económicos e sociais no emprego, etc.
"Trusted AI Progress" A conta oficial é dedicada à disseminação da mais recente tecnologia confiável de inteligência artificial e ao cultivo de tecnologia de código aberto, abrangendo aprendizado de gráficos em grande escala, raciocínio causal, gráficos de conhecimento, grandes modelos e outros campos técnicos. escaneie o código QR para seguir e desbloquear mais informações de IA ~