A medida que las organizaciones agreguen inteligencia artificial a sus ofertas, los ingenieros de datos serán fundamentales para escalar la infraestructura y la gobernanza para incorporar nuevos modelos y tecnologías.
Traducido de 3 razones por las que los ingenieros de datos son los héroes anónimos de GenAI , autor Barr Moses.
Durante los últimos 18 meses, los avances en la IA generativa han generado un gran interés entre las salas de juntas y los líderes empresariales. En septiembre, el 87% de los ejecutivos de nivel C encuestados por IDC dijeron que al menos estaban explorando posibles casos de uso. Según un informe de Salesforce de noviembre de 2023 , a otro 77% de los líderes empresariales les preocupa haberse perdido los beneficios de GenAI.
Pero los líderes de datos entienden que no importa cuánto FOMO experimenten sus directores ejecutivos después de ver una demostración deslumbrante, la implementación del último LLM debe ser reflexiva. Para ofrecer un valor empresarial significativo, estos modelos deben proporcionar datos de alta calidad y, al mismo tiempo, mantener la seguridad, la privacidad y la escalabilidad.
En la mayoría de las organizaciones, hay algunos contribuyentes clave que ya realizan este trabajo: los ingenieros de datos . Dado el estado actual de las empresas que implementan IA de nivel empresarial , los ingenieros de datos serán cada vez más importantes.
El importante papel de los ingenieros de datos en la IA empresarial
En cualquier equipo de datos moderno, los ingenieros de datos son responsables de construir y mantener la infraestructura de la pila de datos. Sus canales y flujos de trabajo permiten que las aplicaciones, los analistas, los consumidores empresariales y los científicos de datos accedan y consuman los datos que necesitan para realizar su trabajo.
A medida que las organizaciones comiencen a incorporar IA generativa en sus productos, los ingenieros de datos serán fundamentales para ampliar la infraestructura y la gobernanza existentes para incluir los últimos modelos y tecnologías. Exploremos tres formas específicas en que los ingenieros de datos contribuirán al éxito de la IA .
1. Promover RAG para mejorar los resultados de LLM
Actualmente, la mayoría de las organizaciones que tienen éxito con GenAI utilizan la generación aumentada de recuperación (RAG) . Esto implica incorporar una fuente de conocimiento o un conjunto de datos en su proceso de generación, proporcionando al LLM acceso a una base de datos dinámica en respuesta a las solicitudes. Por ejemplo, al implementar RAG por completo, los chatbots orientados al consumidor podrán extraer datos específicos del cliente como referencia durante las interacciones de soporte.
Para la mayoría de los casos de uso, RAG es más adecuado que el ajuste fino : volver a capacitar a un LLM existente en un conjunto de datos más pequeño y específico. El ajuste requiere importantes recursos computacionales y grandes cantidades de datos y, a menudo, implica un alto riesgo de sobreajuste.
La implementación efectiva de RAG requiere canales de datos de alta calidad para alimentar los datos de la empresa en los modelos de IA. Los ingenieros de datos son responsables de garantizar:
- La base de datos es precisa y relevante, con actualizaciones periódicas y controles de calidad.
- El proceso de recuperación se optimiza y las indicaciones se resuelven utilizando datos correctos y contextualmente apropiados.
- Supervise y optimice continuamente la entrada de datos con observabilidad de datos
Las preferencias por RAG pueden cambiar a medida que avanza la tecnología, pero por ahora, generalmente se considera el camino más práctico a seguir para la IA empresarial. También ayuda a reducir las ilusiones e imprecisiones al tiempo que aumenta la transparencia para los equipos de datos.
2. Mantener la seguridad y la privacidad
Los ingenieros de datos ya desempeñan un papel clave en la gestión de datos, garantizando que las bases de datos tengan funciones integradas y controles de seguridad adecuados para garantizar la privacidad y el cumplimiento. Al implementar RAG, estos controles deben ampliarse y aplicarse de manera consistente en todo el proceso.
Por ejemplo, el LLM de una empresa no debería utilizar ninguno de los datos de sus clientes para su propia formación, mientras que un chatbot de cara al cliente debe confirmar la identidad y los permisos del usuario antes de compartir datos confidenciales. Los ingenieros de datos desempeñan un papel vital en el mantenimiento del cumplimiento de las regulaciones y las mejores prácticas.
3. Datos fiables y de alta calidad
En última instancia, el éxito de GenAI depende de la calidad de los datos. Incluso los modelos más avanzados no pueden producir resultados útiles sin el suministro continuo de datos precisos y confiables al LLM.
Durante los últimos cinco años, los principales ingenieros de datos han adoptado herramientas de observabilidad (incluido el monitoreo y las alertas automatizados, similares al software de observabilidad DevOps) para ayudar a mejorar la calidad de los datos. La observabilidad ayuda a los equipos de datos a monitorear y responder proactivamente a eventos como trabajos fallidos de Airflow, API corruptas y datos de terceros con formato incorrecto que ponen en riesgo la salud de los datos. Con un linaje de datos de un extremo a otro, los equipos pueden comprender las dependencias ascendentes y descendentes.
Los ingenieros de datos pueden brindar transparencia cuando se aplican herramientas de observabilidad a las pilas de IA modernas, incluidas las bases de datos vectoriales. Lineage permite a los ingenieros rastrear la fuente de datos a medida que se convierten en incrustaciones y luego usar esos datos para generar el texto enriquecido que LLM coloca frente a los usuarios. Esta visibilidad ayuda a los equipos de datos a comprender cómo funciona LLM, mejorar su producción y solucionar incidentes rápidamente.
Como nos dijo el vicepresidente de ingeniería de CreditKarma, Vishnu Ram : “Necesitamos poder observar los datos. Necesitamos comprender qué datos estamos ingresando en el LLM y, si el LLM presenta sus propias ideas, debemos saberlo. - y luego saber qué hacer con la situación. Si no puedes observar lo que entra en el LLM y lo que sale, estás jodido".
Los ingenieros de datos son el futuro de las organizaciones impulsadas por la IA
La tecnología de IA se está desarrollando a un ritmo vertiginoso. Pero incluso cuando los modelos perfeccionados y la capacitación personalizada más avanzada se vuelvan factibles para las empresas, la necesidad de garantizar la calidad, la seguridad y la privacidad de los datos no cambiará.
A medida que las organizaciones inviertan en aplicaciones de IA generativa, la calidad y disponibilidad de sus datos serán más valiosas que nunca. Esto significa que los flujos de trabajo y los procesos de ingeniería de datos pueden cambiar, pero su importancia en las organizaciones apenas comienza.
Un programador nacido en los años 90 desarrolló un software de portabilidad de vídeo y ganó más de 7 millones en menos de un año. ¡El final fue muy duro! Los estudiantes de secundaria crean su propio lenguaje de programación de código abierto como una ceremonia de mayoría de edad: comentarios agudos de los internautas: debido al fraude desenfrenado, confiando en RustDesk, el servicio doméstico Taobao (taobao.com) suspendió los servicios domésticos y reinició el trabajo de optimización de la versión web Java 17 es la versión Java LTS más utilizada. Cuota de mercado de Windows 10. Alcanzando el 70%, Windows 11 continúa disminuyendo. Open Source Daily | Google apoya a Hongmeng para hacerse cargo de los teléfonos Android de código abierto respaldados por Docker; Electric cierra la plataforma abierta Apple lanza el chip M4 Google elimina el kernel universal de Android (ACK) Soporte para la arquitectura RISC-V Yunfeng renunció a Alibaba y planea producir juegos independientes para plataformas Windows en el futuroEste artículo se publicó por primera vez en Yunyunzhongsheng ( https://yylives.cc/ ), todos son bienvenidos a visitarlo.