Análisis en profundidad de AI Agent: un nuevo mundo inteligente con potencial y desafíos

El equipo de la comunidad de código abierto de China realizó su primera transmisión en vivo, contando la historia detrás de la comunidad de código abierto de China en nombre de compartir".

Recomendaciones de artículos

Se lanzó GPT-4o y los usuarios lo revisaron de inmediato. ¿Hay alguna exageración en OpenAI?

¡Las hormigas se divierten juntas! El viaje de deseos de la IA del “Día 510 de familiares y amigos” de Ant

Cuenta regresiva de transmisión en vivo de OpenAI, se confirma que GPT-5 está ausente, GPT-3.5 a 5, ¡comprenda la gran diferencia en la evolución de la IA en un artículo!

Este artículo proviene del resumen de Ant's Wu Jun después de participar en QCon el año pasado. Se centrará en AI Agent y se centrará en las aplicaciones y desafíos actuales de AI Agent. El siguiente es el texto original:

**Acerca del autor:** Wu Jun (Yide), TL del equipo de ingeniería de IA del Departamento de Tecnología de Conductos de Aire de Ant Group, actualmente es responsable de la ingeniería de aplicaciones de modelos grandes de conductos de aire y es responsable de grandes Evaluación de modelos y razonamiento de modelos grandes de algunos escenarios comerciales de conductos de aire. Optimización e implementación de aplicaciones de modelos grandes.

El protagonista importante de esta QCon es, sin duda, el modelo grande. Los tres aspectos del modelo grande en los dos días también pueden corresponder a las capas clásicas de la arquitectura de modelo grande actual, a saber: capa de aplicación, capa de herramienta, capa de modelo e infraestructura AI:

**Capa de aplicación: aplicación de modelo grande: ** Revelado principalmente en el modelo de primera generación de RAG&AI Agent. Los principales escenarios de implementación incluyen análisis de datos internos: GBI, que es BI generativo, código generativo de mejora de la eficiencia auxiliar de I + D y usuarios externos. pequeñas empresas 2. Preguntas y respuestas sobre la base de conocimientos, como ChatPDF;
** Capa de herramientas: capacidades de construcción de aplicaciones: ** Presenta principalmente cómo crear de manera eficiente y rápida aplicaciones de modelos grandes de sus propios escenarios (centrándose en la construcción de AI Agent). Existen herramientas de construcción de aplicaciones: LangChain y marcos de desarrollo de agentes, como: MetaGPT y plataformas MaaS como ModelScop-Agent&Agents para Amazon Bedrock, etc.;
** Capa de modelo e infraestructura: aceleración de optimización de modelos grandes: ** La exploración del núcleo en la aceleración de inferencia de modelos cumplirá con los requisitos de rendimiento y seguridad de la producción a gran escala de aplicaciones de modelos grandes con una potencia informática limitada en el futuro. también compitiendo para explorar los puntos clave de avance.

¿Qué es el agente AI?

Definición de agente de IA

AI Agent es el concepto de Agente de Inteligencia Artificial. Es una entidad inteligente que puede percibir el entorno, tomar decisiones y realizar acciones. Suele basarse en tecnología de aprendizaje automático e inteligencia artificial y tiene autonomía y adaptabilidad. en una tarea o dominio . Un Agente más completo debe interactuar completamente con el entorno. Consta de dos partes: una es la parte del Agente y la otra es la parte del entorno . El Agente en este momento es como un "ser humano" en el mundo físico, y el mundo físico es el "entorno externo" de los seres humanos.

Componentes principales del Agente AI

En un sistema de agente autónomo potenciado por LLM (LLM Agent), LLM actúa como el cerebro del agente y colabora con varios componentes clave.

planificación

Descomposición de subobjetivos: el agente divide las tareas grandes en subobjetivos más pequeños y manejables para que las tareas complejas puedan procesarse de manera efectiva.
Reflexión y mejora: El agente puede autocriticarse y autorreflexionar sobre las acciones históricas, aprender de los errores y mejorar en pasos posteriores, mejorando así la calidad del resultado final.

Memoria

Memoria a corto plazo: el aprendizaje contextual es un aprendizaje de memoria a corto plazo utilizando modelos.
Memoria a largo plazo: proporciona al agente la capacidad de retener y recordar información a largo plazo, generalmente implementada mediante almacenamiento y recuperación de vectores externos.

uso de herramientas

Para la información perdida en los pesos del modelo, el agente aprende a llamar a API externas para obtener información adicional, incluida información actual, capacidades de ejecución de código, acceso a fuentes de información patentadas, etc.

Acción

El módulo de acción es la parte del agente que realmente realiza la decisión o respuesta. Ante diferentes tareas, el sistema agente dispone de un conjunto completo de estrategias de acción, pudiendo elegir las acciones a realizar a la hora de tomar decisiones, como la conocida recuperación de memoria, razonamiento, aprendizaje, programación, etc.

Modo de colaboración hombre-máquina

Los agentes basados en modelos grandes no sólo permitirán que todos tengan un asistente inteligente dedicado con capacidades mejoradas, sino que también cambiarán el modelo de colaboración entre humanos y máquinas y lograrán una integración más amplia entre humanos y máquinas. La revolución inteligente de la IA generativa ha evolucionado hasta ahora y han surgido tres modos de colaboración entre humanos y máquinas:

Modo integrado:

Los usuarios cooperan con la IA a través de la comunicación lingüística, utilizan palabras clave para establecer objetivos y la IA ayuda a completar tareas. Por ejemplo, los usuarios utilizan la IA generativa para crear novelas, obras musicales, contenido 3D, etc. En este modo, la IA ejecuta órdenes y los humanos son los que toman las decisiones y los comandantes.

Modo copiloto:

Los humanos y la IA son socios y participan juntos en el flujo de trabajo. La IA proporciona sugerencias y ayuda con tareas, como escribir código para programadores, detectar errores u optimizar el rendimiento en el desarrollo de software. La IA es un socio informado, no una simple herramienta.

Modo agente:

Los humanos establecen objetivos y proporcionan recursos, la IA realiza la mayor parte del trabajo de forma independiente y los humanos supervisan el proceso y evalúan los resultados. La IA encarna autonomía y adaptabilidad, se acerca a actores independientes y los humanos desempeñan el papel de supervisores y evaluadores. El modo agente es más eficiente que el modo integrado y el modo copiloto, y puede convertirse en el principal modo de colaboración hombre-máquina en el futuro.

En el modo de colaboración hombre-máquina de los agentes inteligentes, cada individuo común y corriente tiene el potencial de convertirse en un súper individuo, con su propio equipo de inteligencia artificial y un flujo de trabajo de tareas automatizado. Pueden establecer relaciones de colaboración más inteligentes y automatizadas con otros superindividuos. Ya existen algunas empresas unipersonales y súper individuos en la industria que están explorando activamente este modelo.

Aplicación del agente de IA

Actualmente, AI Agent es reconocido como una de las formas efectivas de implementar grandes modelos lingüísticos. Permite que más personas vean claramente la dirección del emprendimiento de grandes modelos lingüísticos, así como las perspectivas para la integración y aplicación de LLM, Agent y existentes. tecnologías de la industria. Actualmente, los grandes agentes de modelos de lenguaje tienen varios proyectos de código abierto o de código cerrado en muchos campos, como la generación de código, el análisis de datos, la respuesta a preguntas generales, la investigación científica, etc., lo que demuestra su popularidad.

Ejemplos de agentes de IA relacionados con la industria

Aplicación del agente de IA

Este artículo se centra en tres tipos de aplicaciones o escenarios: BI generativo ABI/GBI o análisis de datos; asistente de código de Code Agent y preguntas y respuestas de conocimiento basadas en tecnología RAG;

01. Agente BI (Análisis de Datos) - BI Generativo

Experiencia práctica y exploración de LLM en investigación y desarrollo de aplicaciones de inteligencia financiera.

En términos de BI generativo (Agente de datos), durante el discurso especial del día, escuché un tema compartido por el director técnico de Tencent Cloud. Él compartió el diseño del sistema inteligente de preguntas y respuestas txt2SQL y la precisión general. alcanza un sorprendente 99% (generación pura de modelos grandes y la precisión de SQL de baja complejidad es de aproximadamente 80%+). Pero, en esencia, su solución se basa principalmente en capacidades de ingeniería y no utiliza completamente las capacidades de generación NL2SQL de modelos grandes. En cambio, combina RAG y usa Query para hacer coincidir problemas de consulta comunes y ejemplos de SQL correspondientes en RAG, y luego se basa en Los recuperados. SQL está conectado a la fuente de datos.

Aplicación de SwiftAgent, un gran modelo digital, en el campo del análisis empresarial

El producto DataAgent similar -swiftAgent, compartido por Shushi Technology/Financial Digital Products General Manager, reconstruye el producto de proceso completo (GUI) manual de BI tradicional a través de un modelo grande basado en el modo de lenguaje (LUI), que incluye consulta de indicadores interactivos y atribución de información inteligente. , generación automática de informes de análisis, gestión del ciclo de vida completo de indicadores y otras capacidades.

La integración de AIGC y el análisis de datos crea un nuevo modelo de consumo de datos

Los expertos en soluciones de big data de NetEase Shufan compartieron el trabajo de NetEase en Data Agent. Ante los errores en modelos grandes, se centraron en la dirección de la confiabilidad y trabajaron mucho en la interacción del producto para garantizar que los datos consultados por NL2SQL fueran confiables:

La demanda es comprensible: a través del modelo grande exclusivo de NL2SQL de desarrollo propio, se mejoran las funciones relevantes relacionadas con los datos, como las funciones de clasificación del mismo año/cadena a grupo/grupo.
El proceso es verificable: al generar explicaciones de consultas en lenguaje natural en la interfaz interactiva, los usuarios pueden identificar fácilmente los aciertos y errores del proceso de generación del modelo para garantizar la credibilidad del proceso de generación.
Los usuarios pueden intervenir: según la explicación de la consulta, los usuarios pueden ajustar manualmente las condiciones de la consulta de los resultados de la consulta y obtener resultados correctos por medios deterministas.
Resultados operativos: optimice continuamente la exactitud de la generación de modelos grandes mediante etiquetado en tiempo real y retroalimentación de resultados correctos e incorrectos.

Además, algunas empresas han probado escenarios relacionados con NL2SQL y no los enumeraré uno por uno aquí.

02. Agente codificador

Debido a que he tenido una experiencia profunda con Github Copilot, codeGeex, CodeFuse, etc. en la etapa inicial, la función principal es ayudar a los programadores con la generación de código, la optimización del código, la detección de código y otra asistencia de investigación y desarrollo para mejorar la eficiencia. En el escenario, el enfoque principal está más en la cuestión de la seguridad del código. No entraré en detalles aquí. Los enlaces relevantes para compartir y descargar PPT son los siguientes:

Práctica de aplicación del modelo de código aiXcoder en empresas:

https://qcon.infoq.cn/2023/shanghai/presentation/5683

Exploración de I+D de próxima generación basada en CodeFuse:

https://qcon.infoq.cn/2023/shanghai/presentation/5681

Exploración y práctica de la implementación de modelos grandes en escenarios de asistente de código:

https://qcon.infoq.cn/2023/shanghai/presentation/5690

Práctica de mejora de la eficiencia del asistente de código inteligente impulsado por modelos grandes de Baidu:

https://qcon.infoq.cn/2023/shanghai/presentation/5679

03. Preguntas y respuestas sobre conocimientos basados en RAG

Debido a limitaciones de espacio, las aplicaciones de modelos grandes relacionados con RAG se elaborarán y descompondrán en otro artículo.

desafío

Desde un punto de vista técnico, el desarrollo de AI Agent aún es lento y la mayoría de las aplicaciones aún se encuentran en la etapa POC o experimental teórica. En la actualidad, es casi raro ver aplicaciones de agentes de IA a gran escala que puedan ser completamente autónomas en escenarios de dominio complejos. La razón principal es que el modelo LLM que sirve como cerebro de AI Agent todavía no es lo suficientemente potente. Incluso el GPT4 más potente todavía enfrenta algunos problemas cuando se aplica:

1. La longitud del contexto es limitada, lo que limita la inclusión de información histórica, descripciones detalladas, contexto de llamadas API y respuestas;

2. La planificación a largo plazo y la descomposición de tareas siguen siendo un desafío;

3. El sistema Agente actual se basa en el lenguaje natural como interfaz con componentes externos, pero la confiabilidad del resultado del modelo es cuestionable.

Además, el costo del agente AI es relativamente alto, especialmente los sistemas multiagente. En muchos escenarios, en comparación con el modo Copiloto, el efecto del uso del Agente AI no mejora significativamente o no se puede cubrir el aumento del costo. La mayoría de las tecnologías de agentes de IA todavía se encuentran en la etapa de investigación. Finalmente, AI Agent puede enfrentar muchos desafíos, como seguridad y privacidad, ética y responsabilidad, impactos económicos y sociales en el empleo, etc.

"Trusted AI Progress" La cuenta oficial está dedicada a la difusión de la última tecnología de inteligencia artificial confiable y al cultivo de tecnología de código abierto, que cubre el aprendizaje de gráficos a gran escala, razonamiento causal, gráficos de conocimiento, modelos grandes y otros campos técnicos. escanea el código QR para seguir y desbloquear más información de IA ~