Analyse approfondie d'AI Agent : un nouveau monde intelligent avec à la fois du potentiel et des défis

Recommandations d'articles

GPT-4o a été publié et les utilisateurs l'ont immédiatement examiné. Y a-t-il une exagération dans OpenAI ?

Les fourmis s'amusent ensemble ! Le voyage pieux de l'IA de la « Journée des 510 parents et amis » de Ant

Compte à rebours de diffusion en direct d'OpenAI, GPT-5 est confirmé absent, GPT-3.5 à 5, comprenez la grande différence dans l'évolution de l'IA en un seul article !

Cet article est issu du résumé de Wu Jun d'Ant après sa participation à QCon l'année dernière. Il se concentrera sur AI Agent et se concentrera sur les applications et les défis actuels de AI Agent. Voici le texte original :

**À propos de l'auteur :** Wu Jun (Yide), TL de l'équipe d'ingénierie IA du département de technologie des conduits d'air d'Ant Group, est actuellement responsable de l'ingénierie d'application de grands modèles de conduits d'air et est responsable des grands évaluation de modèles et raisonnement sur grands modèles de certains scénarios commerciaux de conduits d'air. Optimisation et mise en œuvre d'applications sur grands modèles.

Le protagoniste important de ce QCon est sans aucun doute le grand modèle. Les trois aspects des grands modèles des deux jours peuvent également correspondre à la superposition classique de l'architecture actuelle des grands modèles, à savoir : couche application, couche outils, couche modèle & AI Infra :

  • **Couche application - application grand modèle : ** Principalement révélé dans le modèle de première génération de RAG&AI Agent. Les principaux scénarios de mise en œuvre incluent l'analyse des données internes-GBI, qui est une BI générative, un code génératif d'amélioration de l'efficacité auxiliaire de R&D et des utilisateurs externes et. petites entreprises. 2. Questions et réponses sur la base de connaissances - telle que ChatPDF ;
  • **Couche d'outils - capacités de construction d'applications : ** Présente principalement comment créer efficacement et rapidement des applications de grands modèles de vos propres scénarios (en se concentrant sur la construction de l'agent AI). Il existe des outils de construction d'applications - LangChain, des cadres de développement d'agents tels que : Plateformes MetaGPT et MaaS telles que ModelScop-Agent&Agents pour Amazon Bedrock, etc. ;
  • **Couche de modèle et d'infrastructure - accélération de l'optimisation des grands modèles : **L'exploration du noyau dans l'accélération de l'inférence de modèle répondra aux exigences de performances et de sécurité de la production à grande échelle d'applications de grands modèles avec une puissance de calcul limitée à l'avenir. également en compétition Pour explorer les points clés de la percée.

Qu’est-ce que l’agent IA ?

Définition de l'agent IA

AI Agent est le concept d'agent d'intelligence artificielle. Il s'agit d'une entité intelligente capable de percevoir l'environnement, de prendre des décisions et d'effectuer des actions. Elle est généralement basée sur la technologie de l'apprentissage automatique et de l'intelligence artificielle et possède une capacité d'apprentissage et d'adaptation de manière autonome. dans une tâche ou un domaine . Un agent plus complet doit interagir pleinement avec l'environnement. Il se compose de deux parties : l'une est la partie Agent et l'autre est la partie environnement . L'Agent en ce moment est comme un « être humain » dans le monde physique, et le monde physique est « l'environnement externe » des êtres humains.

Principaux composants de l'agent AI

Dans un système d'agent autonome doté de LLM (LLM Agent), LLM agit comme le cerveau de l'agent et collabore avec plusieurs composants clés.

planification

  • Décomposition des sous-objectifs : l'agent divise les tâches volumineuses en sous-objectifs plus petits et gérables afin que les tâches complexes puissent être traitées efficacement.
  • Réflexion et amélioration : l'agent peut s'autocritiquer et réfléchir sur ses actions historiques, apprendre de ses erreurs et s'améliorer dans les étapes ultérieures, améliorant ainsi la qualité du résultat final.

Mémoire

  • Mémoire à court terme : l'apprentissage contextuel est un apprentissage de la mémoire à court terme à l'aide de modèles.
  • Mémoire à long terme : offre à l'agent la capacité de conserver et de rappeler des informations à long terme, généralement mises en œuvre à l'aide du stockage et de la récupération de vecteurs externes.

utilisation des outils

  • Pour les informations perdues dans les pondérations du modèle, l'agent apprend à appeler des API externes pour obtenir des informations supplémentaires, notamment des informations actuelles, des capacités d'exécution de code, un accès à des sources d'informations propriétaires, etc.

Action

  • Le module d'action est la partie de l'agent qui exécute réellement la décision ou la réponse. Face à différentes tâches, le système d'agents dispose d'un ensemble complet de stratégies d'action et peut choisir les actions à effectuer lors de la prise de décision, comme la célèbre récupération de mémoire, le raisonnement, l'apprentissage, la programmation, etc.

Mode collaboration homme-machine

Les agents basés sur de grands modèles permettront non seulement à chacun de disposer d'un assistant intelligent dédié doté de capacités améliorées, mais modifieront également le modèle de collaboration homme-machine et entraîneront une intégration homme-machine plus large. La révolution intelligente de l’IA générative a évolué jusqu’à présent et trois modes de collaboration homme-machine ont émergé :

Mode intégré :

Les utilisateurs coopèrent avec l'IA via la communication linguistique, utilisent des mots d'invite pour définir des objectifs et l'IA les aide à accomplir des tâches. Par exemple, les utilisateurs utilisent l'IA générative pour créer des romans, des œuvres musicales, du contenu 3D, etc. Dans ce mode, l’IA exécute les ordres et les humains sont les décideurs et les commandants.

Mode copilote :

Les humains et l’IA sont partenaires et participent ensemble au flux de travail. L'IA fournit des suggestions et aide dans des tâches telles que l'écriture de code pour les programmeurs, la détection d'erreurs ou l'optimisation des performances dans le développement de logiciels. L’IA est un partenaire compétent, pas un simple outil.

Mode agent :

Les humains fixent des objectifs et fournissent des ressources, l’IA entreprend la plupart du travail de manière indépendante et les humains supervisent le processus et évaluent les résultats. L’IA incarne l’autonomie et l’adaptabilité, s’approchant d’acteurs indépendants, et les humains jouent le rôle de superviseurs et d’évaluateurs. Le mode agent est plus efficace que le mode embarqué et le mode copilote, et pourrait devenir le principal mode de collaboration homme-machine à l'avenir.

Dans le mode de collaboration homme-machine des agents intelligents, chaque individu ordinaire a le potentiel de devenir un super individu, doté de sa propre équipe d’IA et d’un flux de tâches automatisé. Ils peuvent établir des relations de collaboration plus intelligentes et automatisées avec d’autres super-individus. Il existe déjà des entreprises individuelles et des super-individus dans l’industrie qui explorent activement ce modèle.

Application d'agent IA

Actuellement, AI Agent est reconnu comme l'un des moyens efficaces de mettre en œuvre de grands modèles de langage. Il permet à un plus grand nombre de personnes de voir clairement la direction de l'entrepreneuriat de grands modèles de langage, ainsi que les perspectives d'intégration et d'application du LLM, de l'Agent et des modèles existants. technologies industrielles. Actuellement, les grands agents de modèles de langage ont un certain nombre de projets open source ou fermés dans de nombreux domaines tels que la génération de code, l'analyse de données, la réponse aux questions générales, la recherche scientifique, etc., ce qui montre à quel point ils sont populaires.

Exemples d'agents IA liés à l'industrie

Application d'agent IA

Cet article se concentre sur trois types d'applications ou de scénarios : BI générative ABI/GBI ou analyse de données ; assistant de code Code Agent et questions-réponses de connaissances basées sur la technologie RAG ;

01. Agent BI (Analyse de Données) - BI Générative

Expérience pratique et exploration du LLM dans la recherche et le développement d'applications de renseignement financier

En termes de BI générative (Data Agent), lors du discours spécial de la journée, j'ai écouté un sujet partagé par le directeur technique de Tencent Cloud. Il a partagé la conception du système de questions et réponses intelligent txt2SQL, et la précision globale peut. atteindre un étonnant 99 % (génération pure de grands modèles et la précision de SQL avec une faible complexité est d'environ 80 %+). Mais en substance, leur solution repose principalement sur des capacités d'ingénierie et n'utilise pas pleinement les capacités de génération NL2SQL des grands modèles. Au lieu de cela, elle combine RAG et utilise Query pour faire correspondre les problèmes de requête courants et les exemples SQL correspondants dans RAG, puis sur la base des éléments récupérés. SQL est connecté à la source de données.

Application de SwiftAgent, une grande maquette numérique, dans le domaine de l'analyse commerciale

Le produit DataAgent similaire -swiftAgent, partagé par le directeur général de Shushi Technology/Financial Digital Products, reconstruit le produit de processus complet (GUI) manuel de BI traditionnel via un grand modèle basé sur le mode langage (LUI), comprenant une enquête d'indicateur interactive et une attribution intelligente d'informations. , génération automatique de rapports d'analyse, gestion du cycle de vie complet des indicateurs et autres fonctionnalités.

L'intégration de l'AIGC et de l'analyse des données crée un nouveau modèle de consommation de données

Les experts en solutions Big Data de NetEase Shufan ont partagé le travail de NetEase sur Data Agent. Face aux erreurs dans les grands modèles, ils se sont concentrés sur le sens de la fiabilité et ont effectué un gros travail sur l'interaction produit pour s'assurer que les données interrogées par NL2SQL sont dignes de confiance :

  • La demande est compréhensible : grâce au grand modèle exclusif NL2SQL auto-développé, les fonctions pertinentes liées aux données telles que les fonctions de tri par année/chaîne à groupe/groupe sont améliorées.
  • Le processus est vérifiable : en générant des explications de requêtes en langage naturel sur l'interface interactive, les utilisateurs peuvent facilement identifier les bons et les mauvais côtés du processus de génération de modèle pour garantir la crédibilité du processus de génération.
  • Les utilisateurs peuvent intervenir : sur la base de l'explication de la requête, les utilisateurs peuvent ajuster manuellement les conditions de requête des résultats de la requête et obtenir des résultats corrects par des moyens déterministes.
  • Résultats opérationnels : optimisez en permanence l'exactitude de la génération de grands modèles grâce à l'étiquetage en temps réel et au retour des résultats corrects et incorrects.

De plus, certaines entreprises ont essayé des scénarios liés à NL2SQL, et je ne les listerai pas un par un ici.

02. Agent de codage

Parce que j'ai eu une expérience approfondie avec Github Copilot, codeGeex, CodeFuse, etc. au début, la fonction principale est d'aider les programmeurs dans la génération de code, l'optimisation du code, la détection de code et d'autres aides à la recherche et au développement pour améliorer l'efficacité. Dans le scénario, l'accent est davantage mis sur la question de la sécurité du code. Je n'entrerai pas dans les détails ici. Les liens de partage et de téléchargement PPT pertinents sont les suivants :

  • Pratique d'application du modèle de code aiXcoder dans les entreprises :

https://qcon.infoq.cn/2023/shanghai/presentation/5683

  • Exploration R&D de nouvelle génération basée sur CodeFuse :

https://qcon.infoq.cn/2023/shanghai/presentation/5681

  • Exploration et pratique de l'implémentation de grands modèles dans des scénarios d'assistant de code :

https://qcon.infoq.cn/2023/shanghai/presentation/5690

  • Pratique d'amélioration de l'efficacité de l'assistant de code intelligent basé sur un grand modèle Baidu :

https://qcon.infoq.cn/2023/shanghai/presentation/5679

03. Questions et réponses de connaissances basées sur RAG

En raison de contraintes d'espace, les applications de grands modèles liées à RAG seront élaborées et décomposées dans un autre article.

défi

D'un point de vue technique, le développement d'AI Agent est encore lent et la plupart des applications sont encore au stade POC ou expérimental théorique. À l’heure actuelle, il est presque rare de voir des applications d’agents IA à grande échelle capables d’être totalement autonomes dans des scénarios de domaine complexes. La raison principale est que le modèle LLM qui sert de cerveau à AI Agent n’est toujours pas assez puissant. Même le GPT4 le plus puissant rencontre encore quelques problèmes lorsqu’il est appliqué :

1. La longueur du contexte est limitée, ce qui limite l'inclusion d'informations historiques, de descriptions détaillées, du contexte des appels d'API et des réponses ;

2. La planification à long terme et la décomposition des tâches restent difficiles ;

3. Le système Agent actuel s'appuie sur le langage naturel comme interface avec les composants externes, mais la fiabilité des résultats du modèle est discutable.

De plus, le coût d’AI Agent est relativement élevé, en particulier pour les systèmes multi-agents. Dans de nombreux scénarios, par rapport au mode Copilot, l'effet de l'utilisation de l'agent AI n'est pas significativement amélioré, ou l'augmentation du coût ne peut pas être couverte. La plupart des technologies AI Agent sont encore au stade de la recherche. Enfin, l’agent IA peut être confronté à de nombreux défis tels que la sécurité et la confidentialité, l’éthique et la responsabilité, les impacts économiques et sociaux sur l’emploi, etc.

"Trusted AI Progress" Le compte officiel est dédié à la diffusion des dernières technologies d'intelligence artificielle fiables et à la culture de la technologie open source, couvrant l'apprentissage des graphes à grande échelle, le raisonnement causal, les graphiques de connaissances, les grands modèles et d'autres domaines techniques. Bienvenue sur. scannez le code QR pour suivre et débloquer plus d'informations sur l'IA ~

L'équipe chinoise d'IA de Microsoft a fait ses valises et s'est rendue aux États-Unis, impliquant des centaines de personnes. Combien de revenus un projet open source inconnu peut-il rapporter ? Huawei a officiellement annoncé que la position de la station miroir open source de l'Université des sciences et technologies de Yu Huazhong a été ajustée. L'accès au réseau externe a été officiellement ouvert. Les fraudeurs ont utilisé TeamViewer pour transférer 3,98 millions ! Que doivent faire les fournisseurs de postes de travail à distance ? La première bibliothèque de visualisation frontale et fondateur du célèbre projet open source de Baidu, ECharts - un ancien employé d'une société open source bien connue qui "est allée à la mer" a annoncé la nouvelle : après avoir été interpellé par ses subordonnés, le technicien Le leader est devenu furieux et grossier et a licencié l'employée enceinte. OpenAI a envisagé d'autoriser l'IA à générer du contenu pornographique. Microsoft a déclaré à la Fondation Rust qu'elle avait fait un don de 1 million de dollars américains. Veuillez me dire quel est le rôle de time.sleep(6) ici. ?
{{o.name}}
{{m.nom}}

Je suppose que tu aimes

Origine my.oschina.net/u/7032067/blog/11149174
conseillé
Classement