Análise aprofundada do AI Agent: um novo mundo inteligente com potencial e desafios

Recomendações de artigos

O GPT-4o foi lançado e os usuários o analisaram imediatamente. Existe algum exagero no OpenAI?

As formigas estão se divertindo juntas! A jornada desejada da IA ​​do “510 Parents and Friends Day” do Ant

Contagem regressiva de transmissão ao vivo da OpenAI, GPT-5 está ausente, GPT-3.5 a 5, entenda a grande diferença na evolução da IA ​​​​em um artigo!

Este artigo vem do resumo de Wu Jun do Ant após sua participação no QCon no ano passado. Ele se concentrará no AI Agent e nas aplicações e desafios atuais do AI Agent. A seguir está o texto original:

**Sobre o autor:** Wu Jun (Yide), TL da equipe de engenharia de IA do Departamento de Tecnologia de Dutos de Ar do Ant Group, é atualmente responsável pela engenharia de aplicação de modelos de grande porte de dutos de ar e é responsável por grandes avaliação de modelos e raciocínio de modelos grandes de alguns cenários de negócios de dutos de ar. Otimização e implementação de aplicações de modelos grandes.

O importante protagonista deste QCon é, sem dúvida, o grande modelo. Os três aspectos dos grandes modelos nos dois dias também podem corresponder às camadas clássicas da atual arquitetura de grandes modelos, a saber: camada de aplicação, camada de ferramenta, camada de modelo e infra-AI:

  • ** Camada de aplicação - aplicação de modelo grande: ** Revelado principalmente no modelo de primeira geração do Agente RAG&AI Os principais cenários de implementação incluem análise de dados internos-GBI, que é BI generativo, código gerador de melhoria de eficiência auxiliar de P&D e usuários externos e. pequenas empresas 2. Perguntas e respostas da base de conhecimento - como ChatPDF;
  • ** Camada de ferramentas - recursos de construção de aplicativos: ** Apresenta principalmente como construir grandes aplicativos de modelo de maneira eficiente e rápida de seus próprios cenários (com foco na construção de Agente de IA. Existem ferramentas de construção de aplicativos - LangChain, estruturas de desenvolvimento de agentes, como: Plataformas MetaGPT e MaaS, como ModelScop-Agent&Agents para Amazon Bedrock, etc.;
  • ** Camada de modelo e infraestrutura - aceleração de otimização de grande modelo: ** A exploração do núcleo na aceleração de inferência de modelo atenderá aos requisitos de desempenho e segurança da produção em larga escala de aplicativos de modelo grande sob poder de computação limitado no futuro. também competindo Para explorar os pontos-chave do avanço.

O que é agente de IA?

Definição de Agente de IA

Agente AI é o conceito de Agente de Inteligência Artificial. É uma entidade inteligente que pode perceber o ambiente, tomar decisões e realizar ações. Geralmente é baseado em aprendizado de máquina e tecnologia de inteligência artificial e possui autonomia e capacidade de adaptação. em uma tarefa ou domínio . Um Agente mais completo deve interagir totalmente com o ambiente. Consiste em duas partes - uma é a parte do Agente e a outra é a parte do ambiente . O Agente neste momento é como um “ser humano” no mundo físico, e o mundo físico é o “ambiente externo” dos seres humanos.

Principais componentes do AI Agent

Em um sistema de agente autônomo habilitado para LLM (Agente LLM), o LLM atua como o cérebro do agente e colabora com vários componentes principais.

planejamento

  • Decomposição de subobjetivos: o agente divide tarefas grandes em subobjetivos menores e gerenciáveis ​​para que tarefas complexas possam ser processadas com eficácia.
  • Reflexão e melhoria: O agente pode autocrítica e autorreflexão sobre ações históricas, aprender com os erros e melhorar nas etapas subsequentes, melhorando assim a qualidade do resultado final.

Memória

  • Memória de curto prazo: a aprendizagem contextual é a aprendizagem da memória de curto prazo por meio de modelos.
  • Memória de longo prazo: Fornece ao agente a capacidade de reter e recuperar informações de longo prazo, geralmente implementada usando armazenamento e recuperação de vetores externos.

uso de ferramenta

  • Para informações perdidas nos pesos do modelo, o agente aprende a chamar APIs externas para obter informações adicionais, incluindo informações atuais, capacidades de execução de código, acesso a fontes de informações proprietárias, etc.

Ação

  • O módulo de ação é a parte do agente que realmente executa a decisão ou resposta. Enfrentando diversas tarefas, o sistema agente possui um conjunto completo de estratégias de ação, podendo escolher as ações a serem executadas na tomada de decisões, como a conhecida recuperação de memória, raciocínio, aprendizagem, programação, etc.

Modo de colaboração homem-máquina

Os agentes baseados em grandes modelos não só permitirão que todos tenham um assistente inteligente dedicado com capacidades melhoradas, mas também mudarão o modelo de colaboração homem-máquina e proporcionarão uma integração mais ampla entre homem e máquina. A revolução inteligente da IA ​​generativa evoluiu até agora e surgiram três modos de colaboração homem-máquina:

Modo incorporado:

Os usuários cooperam com a IA por meio da comunicação linguística, usam palavras imediatas para definir metas e a IA auxilia na conclusão de tarefas. Por exemplo, os usuários usam IA generativa para criar romances, obras musicais, conteúdo 3D, etc. Neste modo, a IA executa ordens e os humanos são os tomadores de decisão e comandantes.

Modo co-piloto:

Humanos e IA são parceiros e participam juntos do fluxo de trabalho. A IA fornece sugestões e auxilia em tarefas, como escrever código para programadores, detectar erros ou otimizar o desempenho no desenvolvimento de software. A IA é um parceiro experiente, não uma ferramenta simples.

Modo agente:

Os humanos estabelecem metas e fornecem recursos, a IA realiza a maior parte do trabalho de forma independente e os humanos supervisionam o processo e avaliam os resultados. A IA incorpora autonomia e adaptabilidade, aproximando-se de atores independentes, e os humanos desempenham o papel de supervisores e avaliadores. O modo agente é mais eficiente que o modo incorporado e o modo copiloto e pode se tornar o principal modo de colaboração homem-máquina no futuro.

No modo de colaboração homem-máquina dos agentes inteligentes, cada indivíduo comum tem o potencial de se tornar um superindivíduo, com a sua própria equipa de IA e fluxo de trabalho de tarefas automatizado. Eles podem estabelecer relações colaborativas mais inteligentes e automatizadas com outros superindivíduos. Já existem algumas empresas individuais e superindivíduos no setor que estão explorando ativamente esse modelo.

Aplicativo Agente AI

Atualmente, o AI Agent é reconhecido como uma das formas eficazes de implementar grandes modelos de linguagem. Ele permite que mais pessoas vejam claramente a direção do empreendedorismo de grandes modelos de linguagem, bem como as perspectivas de integração e aplicação de LLM, Agent e existentes. tecnologias da indústria. Atualmente, grandes agentes de modelos de linguagem têm vários projetos de código aberto ou fechado em muitos campos, como geração de código, análise de dados, resposta a perguntas gerais, pesquisa científica, etc., o que mostra o quão populares eles são.

Exemplos de agentes de IA relacionados ao setor

Aplicativo Agente AI

Este artigo se concentra em três tipos de aplicativos ou cenários: BI generativo ABI/GBI ou assistente de código de agente de código e perguntas e respostas de conhecimento baseadas na tecnologia RAG;

01. Agente de BI (Análise de Dados) - BI Gerativo

Experiência prática e exploração do LLM em pesquisa e desenvolvimento de aplicações de inteligência financeira

Em termos de BI generativo (Data Agent), durante o discurso especial do dia, ouvi um tópico compartilhado pelo diretor técnico da Tencent Cloud. Ele compartilhou o design do sistema inteligente de perguntas e respostas txt2SQL e a precisão geral pode. atingir surpreendentes 99% (geração pura de modelos grandes e a precisão do SQL com baixa complexidade é de cerca de 80% +). Mas, em essência, sua solução depende principalmente de recursos de engenharia e não usa totalmente os recursos de geração NL2SQL de modelos grandes. Em vez disso, ela combina RAG e usa Query para combinar problemas de consulta comuns e exemplos SQL correspondentes em RAG e, em seguida, com base no recuperado. SQL está conectado à fonte de dados.

Aplicação do SwiftAgent, um grande modelo digital, na área de análise de negócios

O produto DataAgent semelhante -swiftAgent, compartilhado pelo gerente geral de tecnologia/produtos digitais financeiros da Shushi, reconstrói o produto de processo completo manual tradicional de BI (GUI) por meio de um grande modelo baseado no modo de linguagem (LUI), incluindo consulta de indicador interativo, atribuição de insight inteligente , geração automática de relatórios de análise, gerenciamento completo do ciclo de vida de indicadores e outros recursos.

A integração do AIGC e da análise de dados cria um novo modelo de consumo de dados

Os especialistas em soluções de big data da NetEase Shufan compartilharam o trabalho da NetEase no Data Agent. Diante de erros em modelos grandes, eles se concentraram na direção da confiabilidade e trabalharam muito na interação do produto para garantir que os dados consultados pelo NL2SQL fossem confiáveis:

  • A demanda é compreensível: por meio do grande modelo exclusivo NL2SQL autodesenvolvido, funções relevantes relacionadas a dados, como funções de classificação do mesmo ano/cadeia para grupo/grupo, são aprimoradas.
  • O processo é verificável: ao gerar explicações de consulta em linguagem natural na interface interativa, os usuários podem identificar facilmente os acertos e erros do processo de geração de modelo para garantir a credibilidade do processo de geração.
  • Os usuários podem intervir: Com base na explicação da consulta, os usuários podem ajustar manualmente as condições de consulta dos resultados da consulta e obter resultados corretos por meios determinísticos.
  • Resultados operacionais: Otimize continuamente a correção da geração de grandes modelos por meio de rotulagem em tempo real e feedback de resultados corretos e incorretos.

Além disso, algumas empresas tentaram cenários relacionados ao NL2SQL e não vou listá-los um por um aqui.

02. Agente de codificação

Como tive profunda experiência com Github Copilot, codeGeex, CodeFuse, etc. no estágio inicial, a função principal é ajudar os programadores na geração de código, otimização de código, detecção de código e outras assistências de pesquisa e desenvolvimento para melhorar a eficiência. Neste cenário, o foco principal está mais na questão da segurança do código. Não entrarei em detalhes aqui. Os links relevantes para compartilhamento e download de PPT são os seguintes:

  • Prática de aplicação do modelo de código aiXcoder em empresas:

https://qcon.infoq.cn/2023/shanghai/presentation/5683

  • Exploração de P&D de próxima geração baseada em CodeFuse:

https://qcon.infoq.cn/2023/shanghai/presentation/5681

  • Exploração e prática de implementação de grandes modelos em cenários de assistente de código:

https://qcon.infoq.cn/2023/shanghai/presentation/5690

  • Prática de melhoria da eficiência do assistente de código inteligente orientada por modelo grande do Baidu:

https://qcon.infoq.cn/2023/shanghai/presentation/5679

03. Pergunta e resposta de conhecimento baseado em RAG

Devido a restrições de espaço, as aplicações de grandes modelos relacionadas ao RAG serão elaboradas e decompostas em outro artigo.

desafio

Do ponto de vista técnico, o desenvolvimento do Agente AI ainda é lento, e a maioria das aplicações ainda está em POC ou estágio experimental teórico. Atualmente, é quase raro ver aplicações de agentes de IA em grande escala que possam ser totalmente autônomas em cenários de domínio complexos. A principal razão é que o modelo LLM que serve como cérebro do Agente AI ainda não é poderoso o suficiente. Mesmo o GPT4 mais poderoso ainda enfrenta alguns problemas quando aplicado:

1. O comprimento do contexto é limitado, limitando a inclusão de informações históricas, descrições detalhadas, contexto de chamada de API e respostas;

2. O planeamento a longo prazo e a decomposição de tarefas continuam a ser um desafio;

3. O atual sistema de Agentes depende da linguagem natural como interface com componentes externos, mas a confiabilidade da saída do modelo é questionável.

Além disso, o custo do Agente AI é relativamente alto, especialmente sistemas multiagentes. Em muitos cenários, em comparação com o modo Copilot, o efeito da utilização do AI Agent não é significativamente melhorado ou o aumento do custo não pode ser coberto. A maioria das tecnologias de Agentes de IA ainda está em fase de pesquisa. Finalmente, o Agente de IA pode enfrentar muitos desafios, tais como segurança e privacidade, ética e responsabilidade, impactos económicos e sociais no emprego, etc.

"Trusted AI Progress" A conta oficial é dedicada à disseminação da mais recente tecnologia confiável de inteligência artificial e ao cultivo de tecnologia de código aberto, abrangendo aprendizado de gráficos em grande escala, raciocínio causal, gráficos de conhecimento, grandes modelos e outros campos técnicos. escaneie o código QR para seguir e desbloquear mais informações de IA ~

A equipe de IA da Microsoft na China fez as malas e foi para os Estados Unidos, envolvendo centenas de pessoas. Quanta receita um projeto de código aberto desconhecido pode trazer? A Huawei anunciou oficialmente que a posição da Universidade de Ciência e Tecnologia de Yu Chengdong foi ajustada. abriu oficialmente o acesso à rede externa Os fraudadores usaram o TeamViewer para transferir 3,98 milhões! O que os fornecedores de desktop remoto devem fazer? A primeira biblioteca de visualização front-end e fundador do conhecido projeto de código aberto ECharts do Baidu - um ex-funcionário de uma conhecida empresa de código aberto que "foi para o mar" deu a notícia: Depois de ser desafiado por seus subordinados, o técnico O líder ficou furioso e rude e demitiu a funcionária grávida. A OpenAI considerou permitir que a IA gerasse conteúdo pornográfico. A Microsoft relatou à The Rust Foundation doou 1 milhão de dólares americanos. ?
{{o.nome}}
{{m.nome}}

Acho que você gosta

Origin my.oschina.net/u/7032067/blog/11149174
Recomendado
Clasificación