Wenn Unternehmen ihre Angebote um künstliche Intelligenz erweitern, werden Dateningenieure eine wesentliche Rolle bei der Skalierung von Infrastruktur und Governance spielen, um neue Modelle und Technologien zu integrieren.
Übersetzt aus „3 Gründe, warum Dateningenieure die unbesungenen Helden von GenAI sind“ , Autor Barr Moses.
In den letzten 18 Monaten haben Fortschritte in der generativen KI großes Interesse bei Vorstandsetagen und Unternehmensführern geweckt. Im September gaben 87 % der von IDC befragten C-Level-Führungskräfte an, dass sie zumindest potenzielle Anwendungsfälle prüfen würden. Laut einem Salesforce- Bericht vom November 2023 sind weitere 77 % der Unternehmensleiter besorgt, dass sie die Vorteile von GenAI verpasst haben.
Aber Datenverantwortliche wissen, dass die Implementierung des neuesten LLM mit Bedacht erfolgen muss, ganz gleich, wie viel FOMO ihre CEOs nach dem Ansehen einer glitzernden Demo erleben. Um einen sinnvollen Geschäftswert zu liefern, müssen diese Modelle qualitativ hochwertige Daten bereitstellen – und gleichzeitig Sicherheit, Datenschutz und Skalierbarkeit gewährleisten.
In den meisten Organisationen gibt es einige wichtige Mitarbeiter, die diese Arbeit bereits erledigen: Dateningenieure . Angesichts der aktuellen Situation in Unternehmen, die KI auf Unternehmensniveau implementieren , werden Dateningenieure immer wichtiger.
Die wichtige Rolle von Dateningenieuren in der Unternehmens-KI
In jedem modernen Datenteam sind Dateningenieure für den Aufbau und die Wartung der Infrastruktur des Datenstapels verantwortlich. Ihre Pipelines und Workflows ermöglichen es Anwendungen, Analysten, Geschäftskunden und Datenwissenschaftlern, auf die Daten zuzugreifen und diese zu nutzen, die sie für ihre Arbeit benötigen.
Wenn Unternehmen beginnen, generative KI in ihre Produkte zu integrieren, werden Dateningenieure eine wesentliche Rolle bei der Erweiterung der bestehenden Infrastruktur und Governance spielen, um die neuesten Modelle und Technologien einzubeziehen. Lassen Sie uns drei konkrete Möglichkeiten untersuchen, wie Dateningenieure zum KI-Erfolg beitragen können .
1. RAG fördern, um die LLM-Leistung zu verbessern
Derzeit verwenden die meisten Organisationen, die mit GenAI erfolgreich sind, Retrieval Augmented Generation (RAG) . Dazu gehört die Einbeziehung einer Wissensquelle oder eines Datensatzes in den Generierungsprozess, wodurch der LLM als Reaktion auf Eingabeaufforderungen Zugriff auf eine dynamische Datenbank erhält. Durch die vollständige Implementierung von RAG können verbraucherorientierte Chatbots beispielsweise spezifische Kundendaten als Referenz bei Supportinteraktionen abrufen.
Für die meisten Anwendungsfälle ist RAG besser geeignet als eine Feinabstimmung – das Neutraining eines vorhandenen LLM auf einem kleineren, spezifischen Datensatz. Die Feinabstimmung erfordert erhebliche Rechenressourcen und große Datenmengen und birgt oft ein hohes Risiko einer Überanpassung.
Für eine effektive Umsetzung von RAG sind hochwertige Datenpipelines erforderlich, um Unternehmensdaten in KI-Modelle einzuspeisen. Dateningenieure sind dafür verantwortlich, Folgendes sicherzustellen:
- Die Datenbank ist korrekt und relevant und wird regelmäßig aktualisiert und auf Qualität überprüft
- Der Abrufprozess wird optimiert und Anfragen werden mithilfe korrekter und kontextbezogener Daten gelöst
- Überwachen und optimieren Sie die Dateneingabe kontinuierlich mit Datenbeobachtbarkeit
Die Präferenzen für RAG können sich mit dem technologischen Fortschritt ändern, aber derzeit wird es allgemein als der praktischste Weg für die Unternehmens-KI angesehen. Es trägt auch dazu bei, Illusionen und Ungenauigkeiten zu reduzieren und gleichzeitig die Transparenz für Datenteams zu erhöhen.
2. Sorgen Sie für Sicherheit und Privatsphäre
Dateningenieure spielen bereits eine Schlüsselrolle bei der Datenverwaltung und stellen sicher, dass Datenbanken über geeignete integrierte Rollen und Sicherheitskontrollen verfügen, um Datenschutz und Compliance zu gewährleisten. Bei der Implementierung von RAG müssen diese Kontrollen erweitert und in der gesamten Pipeline konsistent angewendet werden.
Beispielsweise sollte das LLM eines Unternehmens keine seiner Kundendaten für seine eigenen Schulungen verwenden, während ein kundenorientierter Chatbot die Identität und Berechtigungen eines Benutzers bestätigen muss, bevor er sensible Daten weitergibt. Dateningenieure spielen eine entscheidende Rolle bei der Einhaltung von Vorschriften und Best Practices.
3. Zuverlässige, qualitativ hochwertige Daten
Letztlich hängt der Erfolg von GenAI von der Datenqualität ab. Selbst die fortschrittlichsten Modelle können ohne kontinuierliche Bereitstellung präziser und zuverlässiger Daten an das LLM keine brauchbare Ausgabe liefern.
In den letzten fünf Jahren haben führende Dateningenieure Observability-Tools (einschließlich automatisierter Überwachung und Alarmierung, ähnlich der Observability-Software DevOps) eingeführt, um zur Verbesserung der Datenqualität beizutragen. Observability unterstützt Datenteams bei der Überwachung und proaktiven Reaktion auf Ereignisse wie fehlgeschlagene Airflow-Jobs, beschädigte APIs und fehlerhafte Daten von Drittanbietern, die die Datengesundheit gefährden. Mit einer durchgängigen Datenherkunft können Teams vor- und nachgelagerte Abhängigkeiten verstehen.
Dateningenieure können für Transparenz sorgen, wenn Observability-Tools auf moderne KI-Stacks, einschließlich Vektordatenbanken, angewendet werden. Lineage ermöglicht es Ingenieuren, die Quelle der Daten zu verfolgen, während diese in Einbettungen umgewandelt werden, und diese Daten dann zu verwenden, um den Rich Text zu generieren, den LLM den Benutzern präsentiert. Diese Transparenz hilft Datenteams, die Funktionsweise von LLM zu verstehen, seine Ergebnisse zu verbessern und Vorfälle schnell zu beheben.
Vishnu Ram, Vice President of Engineering bei CreditKarma, sagte uns : „Wir müssen in der Lage sein, die Daten zu beobachten. Wir müssen verstehen, welche Daten wir in das LLM eingeben, und wenn das LLM eigene Ideen entwickelt, müssen wir das wissen.“ – und dann wissen, was man damit machen soll. Wenn man nicht beobachten kann, was in das LLM hineingeht und was herauskommt, ist man am Arsch.
Dateningenieure sind die Zukunft KI-gesteuerter Organisationen
Die KI-Technologie entwickelt sich rasant weiter. Aber auch wenn fein abgestimmte Modelle und fortgeschrittenere individuelle Schulungen für Unternehmen machbar werden, wird sich die Notwendigkeit, Datenqualität, Sicherheit und Datenschutz zu gewährleisten, nicht ändern.
Wenn Unternehmen in generative KI-Anwendungen investieren, werden die Qualität und Verfügbarkeit ihrer Daten wertvoller denn je. Das bedeutet, dass sich Arbeitsabläufe und Data-Engineering-Prozesse ändern können, ihre Bedeutung in Unternehmen jedoch erst am Anfang steht.
Ein in den 1990er Jahren geborener Programmierer hat eine Videoportierungssoftware entwickelt und in weniger als einem Jahr über 7 Millionen verdient. Das Ende war sehr bestrafend! High-School-Schüler erstellen im Rahmen einer Coming-of-Age-Zeremonie ihre eigene Open-Source-Programmiersprache – scharfe Kommentare von Internetnutzern: Der inländische Dienst Taobao (taobao.com) verließ sich aufgrund des grassierenden Betrugs auf RustDesk und stellte die inländischen Dienste ein und startete die Arbeit zur Optimierung der Webversion von Java neu 17 ist die am häufigsten verwendete Java LTS-Version. Windows 11 erreicht weiterhin einen Rückgang. Open Source Daily unterstützt die Übernahme von Open Source Rabbit R1; Electric schließt die offene Plattform Apple veröffentlicht M4-Chip Google löscht Android Universal Kernel (ACK) Unterstützung für RISC-V-Architektur Yunfeng ist von Alibaba zurückgetreten und plant, in Zukunft unabhängige Spiele für Windows-Plattformen zu produzierenDieser Artikel wurde zuerst auf Yunyunzhongsheng ( https://yylives.cc/ ) veröffentlicht, jeder ist herzlich willkommen.