Eingehende Analyse von AI Agent: eine neue intelligente Welt mit Potenzial und Herausforderungen

Das Open-Source-Community-Team China machte seine erste Live-Übertragung und erzählte im Namen des Teilens die Geschichte hinter der Open-Source-Community China.“

Artikelempfehlungen

GPT-4o wurde veröffentlicht und von Benutzern sofort überprüft. Gibt es Übertreibungen in OpenAI?

Ameisen haben gemeinsam Spaß! Ants KI-Wunschreise „Tag der 510 Verwandten und Freunde“.

OpenAI-Live-Übertragungs-Countdown, GPT-5 wird als abwesend bestätigt, GPT-3,5 bis 5, verstehen Sie den großen Unterschied in der KI-Entwicklung in einem Artikel!

Dieser Artikel stammt aus der Zusammenfassung von Ants Wu Jun nach der Teilnahme an der QCon im letzten Jahr. Er konzentriert sich auf AI Agent und konzentriert sich auf die aktuellen Anwendungen und Herausforderungen von AI Agent. Das Folgende ist der Originaltext:

**Über den Autor:** Wu Jun (Yide), TL des AI-Engineering-Teams der Abteilung für Luftkanaltechnologie der Ant Group, ist derzeit für die große Modellanwendungstechnik von Luftkanälen verantwortlich und verantwortlich für große Modellbewertung und große Modellbegründung einiger Geschäftsszenarien von Luftkanälen. Optimierung und Implementierung großer Modellanwendungen.

Der wichtige Protagonist dieser QCon ist zweifellos das große Modell. Die drei Aspekte großer Modelle in den beiden Tagen können auch der klassischen Schichtung der aktuellen großen Modellarchitektur entsprechen, nämlich: Anwendungsschicht, Werkzeugschicht, Modellschicht und KI-Infrastruktur:

**Anwendungsschicht – große Modellanwendung: ** Wird hauptsächlich im Modell der ersten Generation des RAG&AI-Agenten offenbart. Zu den Hauptimplementierungsszenarien gehören interne Datenanalyse – GBI, generativer Code zur Verbesserung der F&E-Hilfseffizienz und externe Benutzer kleine Unternehmen. 2. Wissensdatenbank mit Fragen und Antworten – wie ChatPDF;
**Tool-Ebene – Anwendungskonstruktionsfunktionen: ** Einführung in die effiziente und schnelle Erstellung großer Modellanwendungen für Ihre eigenen Szenarien (mit Schwerpunkt auf der Erstellung von AI-Agenten). Es gibt Anwendungskonstruktionstools wie LangChain und Agentenentwicklungs-Frameworks. MetaGPT und MaaS-Plattformen wie ModelScop-Agent&Agents für Amazon Bedrock usw.;
**Modell- und Infrastrukturschicht – Beschleunigung der Optimierung großer Modelle: **Die Erforschung der Modellinferenzbeschleunigung durch den Kern wird in Zukunft die Leistungs- und Sicherheitsanforderungen der Massenproduktion großer Modellanwendungen unter begrenzter Rechenleistung erfüllen auch konkurrierend Um die Schlüsselpunkte des Durchbruchs zu erkunden.

Was ist AI Agent?

Definition des KI-Agenten

KI-Agent ist das Konzept des Künstlichen Intelligenz-Agenten. Es handelt sich um eine intelligente Einheit, die die Umgebung wahrnehmen, Entscheidungen treffen und Aktionen ausführen kann. Sie basiert normalerweise auf maschinellem Lernen und künstlicher Intelligenz und verfügt über die Fähigkeit, autonom zu lernen und sich zu verbessern in einer Aufgabe oder Domäne . Ein vollständigerer Agent muss vollständig mit der Umgebung interagieren. Er besteht aus zwei Teilen – einem ist der Agententeil und der andere ist der Umgebungsteil . Der Agent ist in diesem Moment wie ein „Mensch“ in der physischen Welt, und die physische Welt ist die „äußere Umgebung“ des Menschen.

Hauptkomponenten von AI Agent

In einem LLM-gestützten autonomen Agentensystem (LLM-Agent) fungiert LLM als Gehirn des Agenten und arbeitet mit mehreren Schlüsselkomponenten zusammen.

Planung

Teilzielzerlegung: Der Agent zerlegt große Aufgaben in kleinere, überschaubare Teilziele, sodass komplexe Aufgaben effektiv bearbeitet werden können.
Reflexion und Verbesserung: Der Agent kann historische Handlungen selbst kritisieren und reflektieren, aus Fehlern lernen und sich in nachfolgenden Schritten verbessern, wodurch die Qualität des Endergebnisses verbessert wird.

Erinnerung

Kurzzeitgedächtnis: Kontextuelles Lernen ist das Lernen des Kurzzeitgedächtnisses mithilfe von Modellen.
Langzeitgedächtnis: Bietet dem Agenten die Möglichkeit, Langzeitinformationen zu behalten und abzurufen, was normalerweise durch externe Vektorspeicherung und -abfrage implementiert wird.

Werkzeuggebrauch

Für Informationen, die in Modellgewichten verloren gehen, lernt der Agent, externe APIs aufzurufen, um zusätzliche Informationen zu erhalten, einschließlich aktueller Informationen, Codeausführungsfunktionen, Zugriff auf proprietäre Informationsquellen usw.

Aktion

Das Aktionsmodul ist der Teil des Agenten, der die Entscheidung oder Reaktion tatsächlich ausführt. Für verschiedene Aufgaben verfügt das Agentensystem über einen vollständigen Satz an Aktionsstrategien und kann die Aktionen auswählen, die bei der Entscheidungsfindung ausgeführt werden sollen, z. B. das bekannte Abrufen von Erinnerungen, Denken, Lernen, Programmieren usw.

Modus für die Zusammenarbeit zwischen Mensch und Maschine

Auf großen Modellen basierende Agenten ermöglichen nicht nur jedem einen dedizierten intelligenten Assistenten mit erweiterten Fähigkeiten, sondern werden auch das Modell der Mensch-Maschine-Zusammenarbeit verändern und eine umfassendere Mensch-Maschine-Integration bewirken. Die intelligente Revolution der generativen KI hat sich bisher entwickelt und es haben sich drei Modi der Mensch-Maschine-Zusammenarbeit herausgebildet:

Eingebetteter Modus:

Benutzer kooperieren mit KI durch Sprachkommunikation, verwenden schnelle Worte, um Ziele zu setzen, und KI unterstützt bei der Erledigung von Aufgaben. Benutzer verwenden beispielsweise generative KI, um Romane, Musikwerke, 3D-Inhalte usw. zu erstellen. In diesem Modus führt die KI Befehle aus und der Mensch ist der Entscheidungsträger und Befehlshaber.

Co-Pilot-Modus:

Mensch und KI sind Partner und nehmen gemeinsam am Arbeitsablauf teil. KI gibt Vorschläge und unterstützt bei Aufgaben, etwa beim Schreiben von Code für Programmierer, beim Erkennen von Fehlern oder beim Optimieren der Leistung in der Softwareentwicklung. KI ist ein kompetenter Partner, kein einfaches Werkzeug.

Agentenmodus:

Der Mensch setzt Ziele und stellt Ressourcen bereit, die KI übernimmt den Großteil der Arbeit selbstständig und der Mensch überwacht den Prozess und bewertet die Ergebnisse. KI verkörpert Autonomie und Anpassungsfähigkeit, nähert sich unabhängigen Akteuren und Menschen spielen die Rolle von Vorgesetzten und Bewertern. Der Agentenmodus ist effizienter als der eingebettete Modus und der Co-Pilot-Modus und könnte in Zukunft zum Hauptmodus der Mensch-Maschine-Zusammenarbeit werden.

Im Mensch-Maschine-Kollaborationsmodus intelligenter Agenten hat jeder gewöhnliche Mensch das Potenzial, ein Super-Individuum zu werden, mit seinem eigenen KI-Team und automatisierten Aufgabenabläufen. Sie können intelligentere und automatisiertere Kooperationsbeziehungen mit anderen Super-Individuen aufbauen. Es gibt bereits einige Ein-Personen-Unternehmen und Super-Individuen in der Branche, die dieses Modell aktiv erkunden.

AI Agent-Anwendung

Derzeit gilt AI Agent als eine der effektivsten Methoden zur Implementierung großer Sprachmodelle. Es ermöglicht mehr Menschen, die Richtung des Unternehmertums mit großen Sprachmodellen sowie die Aussichten für die Integration und Anwendung von LLM, Agent und vorhandenen Modellen klar zu erkennen Branchentechnologien. Derzeit verfügen große Sprachmodellagenten über eine Reihe von Open-Source- oder Closed-Source-Projekten in vielen Bereichen wie Codegenerierung, Datenanalyse, allgemeine Fragebeantwortung, wissenschaftliche Forschung usw., was zeigt, wie beliebt sie sind.

Beispiele für branchenbezogene KI-Agenten

AI Agent-Anwendung

Dieser Artikel konzentriert sich auf drei Arten von Anwendungen oder Szenarien: ABI/GBI generative BI oder Datenanalyse;

01. BI-Agent (Datenanalyse) – Generative BI

LLMs praktische Erfahrung und Exploration in der Forschung und Entwicklung von Financial-Intelligence-Anwendungen

In Bezug auf generative BI (Data Agent) habe ich mir während der Sonderrede des Tages ein Thema angehört, das vom technischen Direktor von Tencent Cloud geteilt wurde. Er teilte das Design des intelligenten Frage- und Antwortsystems txt2SQL und die Gesamtgenauigkeit mit Erreichen Sie erstaunliche 99 % (reine große Modellgenerierung und die Genauigkeit von SQL mit geringer Komplexität beträgt etwa 80 %+). Im Wesentlichen basiert ihre Lösung jedoch hauptsächlich auf technischen Fähigkeiten und nutzt nicht vollständig die NL2SQL-Generierungsfunktionen großer Modelle. Stattdessen werden RAG und Abfragen kombiniert, um häufige Abfrageprobleme und entsprechende SQL-Beispiele in RAG abzugleichen, und dann werden sie abgerufen SQL ist mit der Datenquelle verbunden.

Anwendung von SwiftAgent, einem großen digitalen Modell, im Bereich der Geschäftsanalyse

Das ähnliche DataAgent-Produkt -swiftAgent, das vom General Manager von Shushi Technology/Financial Digital Products gemeinsam genutzt wird, rekonstruiert das traditionelle manuelle BI-Vollprozessprodukt (GUI) mithilfe eines großen sprachbasierten Modells (LUI), einschließlich interaktiver Indikatorabfragen und intelligenter Erkenntniszuordnung , automatische Erstellung von Analyseberichten, vollständiges Lebenszyklusmanagement von Indikatoren und andere Funktionen.

Durch die Integration von AIGC und Datenanalyse entsteht ein neues Modell des Datenverbrauchs

Die Big-Data-Lösungsexperten von NetEase Shufan teilten die Arbeit von NetEase am Data Agent. Angesichts von Fehlern in großen Modellen konzentrierten sie sich auf die Richtung der Vertrauenswürdigkeit und arbeiteten intensiv an der Produktinteraktion, um sicherzustellen, dass die von NL2SQL abgefragten Daten vertrauenswürdig sind:

Der Bedarf ist verständlich: Durch das selbst entwickelte NL2SQL-exklusive große Modell werden relevante datenbezogene Funktionen wie Same-to-Year-/Chain-to-Group-/Group-Sortierfunktionen verbessert.
Der Prozess ist überprüfbar: Durch die Generierung von Abfrageerklärungen in natürlicher Sprache auf der interaktiven Schnittstelle können Benutzer die Rechte und Fehler des Modellgenerierungsprozesses leicht erkennen und so die Glaubwürdigkeit des Generierungsprozesses sicherstellen.
Benutzer können eingreifen: Basierend auf der Abfrageerklärung können Benutzer die Abfragebedingungen der Abfrageergebnisse manuell anpassen und durch deterministische Mittel korrekte Ergebnisse erhalten.
Betriebsergebnisse: Optimieren Sie kontinuierlich die Korrektheit der Generierung großer Modelle durch Echtzeit-Kennzeichnung und Rückmeldung richtiger und falscher Ergebnisse.

Darüber hinaus haben einige Unternehmen Szenarien im Zusammenhang mit NL2SQL ausprobiert, und ich werde sie hier nicht einzeln auflisten.

02. Codierungsagent

Da ich in der Anfangsphase umfangreiche Erfahrungen mit Github Copilot, CodeGeex, CodeFuse usw. gesammelt habe, besteht meine Kernfunktion darin, Programmierern bei der Codegenerierung, Codeoptimierung, Codeerkennung und anderen Forschungs- und Entwicklungsunterstützungen zu helfen, um die Effizienz zu verbessern Im Szenario liegt der Schwerpunkt mehr auf der Frage der Codesicherheit. Ich werde hier nicht auf Details eingehen. Die relevanten Freigabe- und PPT-Download-Links sind wie folgt:

Anwendungspraxis des aiXcoder-Codemodells in Unternehmen:

https://qcon.infoq.cn/2023/shanghai/presentation/5683

F&E-Exploration der nächsten Generation basierend auf CodeFuse:

https://qcon.infoq.cn/2023/shanghai/presentation/5681

Erkundung und Praxis der Implementierung großer Modelle in Code-Assistent-Szenarien:

https://qcon.infoq.cn/2023/shanghai/presentation/5690

Baidu-Praxis zur Effizienzverbesserung durch große modellgesteuerte intelligente Code-Assistenten:

https://qcon.infoq.cn/2023/shanghai/presentation/5679

03. RAG-basierte Wissensfrage und Antwort

Aus Platzgründen werden RAG-bezogene Großmodellanwendungen in einem anderen Artikel näher erläutert und zerlegt.

Herausforderung

Aus technischer Sicht ist die Entwicklung von AI Agent noch langsam und die meisten Anwendungen befinden sich noch im POC- oder theoretischen Experimentierstadium. Derzeit sieht man fast selten groß angelegte KI-Agent-Anwendungen, die in komplexen Domänenszenarien völlig autonom sein können. Der Hauptgrund dafür ist, dass das LLM-Modell, das als Gehirn des AI Agent dient, immer noch nicht leistungsfähig genug ist. Selbst das leistungsstärkste GPT4 hat bei der Anwendung noch mit einigen Problemen zu kämpfen:

1. Die Kontextlänge ist begrenzt, wodurch die Einbeziehung historischer Informationen, detaillierter Beschreibungen, API-Aufrufkontext und Antworten eingeschränkt wird.

2. Langfristige Planung und Aufgabenverteilung bleiben eine Herausforderung;

3. Das aktuelle Agentensystem basiert auf natürlicher Sprache als Schnittstelle zu externen Komponenten, aber die Zuverlässigkeit der Modellausgabe ist fraglich.

Darüber hinaus sind die Kosten für KI-Agenten relativ hoch, insbesondere für Systeme mit mehreren Agenten. In vielen Szenarien wird der Effekt der Verwendung von AI Agent im Vergleich zum Copilot-Modus nicht wesentlich verbessert oder die erhöhten Kosten können nicht gedeckt werden. Die meisten KI-Agent-Technologien befinden sich noch im Forschungsstadium. Schließlich steht der KI-Agent möglicherweise vor vielen Herausforderungen wie Sicherheit und Datenschutz, Ethik und Verantwortung, wirtschaftliche und soziale Auswirkungen auf die Beschäftigung usw.

„Trusted AI Progress“ Der offizielle Account widmet sich der Verbreitung der neuesten vertrauenswürdigen künstlichen Intelligenztechnologie und der Kultivierung von Open-Source-Technologie und deckt groß angelegtes Graphenlernen, kausales Denken, Wissensgraphen, große Modelle und andere technische Bereiche ab Scannen Sie den QR-Code, um weitere KI-Informationen zu verfolgen und freizuschalten