À medida que as organizações adicionam inteligência artificial às suas ofertas, os engenheiros de dados serão essenciais para dimensionar a infraestrutura e a governança para incorporar novos modelos e tecnologias.
Traduzido de 3 razões pelas quais os engenheiros de dados são os heróis desconhecidos da GenAI , autor Barr Moses.
Nos últimos 18 meses, os avanços na IA generativa geraram grande interesse entre conselhos de administração e líderes empresariais. Em setembro, 87% dos executivos de nível C entrevistados pela IDC disseram que estavam pelo menos explorando possíveis casos de uso. De acordo com um relatório da Salesforce de novembro de 2023 , outros 77% dos líderes empresariais estão preocupados por terem perdido os benefícios do GenAI.
Mas os líderes de dados entendem que não importa quanto FOMO seus CEOs experimentem depois de assistir a uma demonstração chamativa, a implementação do LLM mais recente deve ser cuidadosa. Para agregar valor comercial significativo, esses modelos precisam fornecer dados de alta qualidade, mantendo a segurança, a privacidade e a escalabilidade.
Na maioria das organizações, existem alguns colaboradores importantes que já fazem esse trabalho: engenheiros de dados . Dado o estado atual das empresas que implementam IA de nível empresarial , os engenheiros de dados tornar-se-ão cada vez mais importantes.
O importante papel dos engenheiros de dados na IA empresarial
Em qualquer equipe de dados moderna, os engenheiros de dados são responsáveis por construir e manter a infraestrutura da pilha de dados. Seus pipelines e fluxos de trabalho permitem que aplicativos, analistas, consumidores empresariais e cientistas de dados acessem e consumam os dados necessários para realizar seu trabalho.
À medida que as organizações começam a incorporar IA generativa nos seus produtos, os engenheiros de dados serão essenciais para alargar a infraestrutura e a governação existentes para incluir os modelos e tecnologias mais recentes. Vamos explorar três maneiras específicas pelas quais os engenheiros de dados contribuirão para o sucesso da IA .
1. Promova o RAG para melhorar a produção do LLM
Atualmente, a maioria das organizações que obtêm sucesso com GenAI estão usando Retrieval Augmented Generation (RAG) . Isto envolve a incorporação de uma fonte de conhecimento ou conjunto de dados em seu processo de geração - fornecendo ao LLM acesso a um banco de dados dinâmico em resposta a solicitações. Por exemplo, ao implementar totalmente o RAG, os chatbots voltados para o consumidor serão capazes de extrair dados específicos do cliente para referência durante as interações de suporte.
Para a maioria dos casos de uso, o RAG é mais adequado do que o ajuste fino – retreinar um LLM existente em um conjunto de dados menor e específico. O ajuste fino requer recursos computacionais significativos e grandes quantidades de dados, e muitas vezes envolve um alto risco de overfitting.
A implementação eficaz do RAG requer pipelines de dados de alta qualidade para alimentar os dados da empresa em modelos de IA. Os engenheiros de dados são responsáveis por garantir:
- O banco de dados é preciso e relevante, com atualizações regulares e verificações de qualidade
- O processo de recuperação é otimizado e os prompts são resolvidos usando dados corretos e contextualmente apropriados
- Monitore e otimize continuamente a entrada de dados com observabilidade de dados
As preferências pelo RAG podem mudar à medida que a tecnologia avança, mas, por enquanto, é geralmente considerado o caminho mais prático para a IA empresarial. Também ajuda a reduzir ilusões e imprecisões, ao mesmo tempo que aumenta a transparência para as equipes de dados.
2. Mantenha a segurança e a privacidade
Os engenheiros de dados já desempenham um papel fundamental na governança de dados, garantindo que os bancos de dados tenham funções integradas adequadas e controles de segurança para garantir a privacidade e a conformidade. Ao implementar o RAG, estes controlos precisam de ser alargados e aplicados de forma consistente em todo o pipeline.
Por exemplo, o LLM de uma empresa não deve usar nenhum dado de seus clientes para seu próprio treinamento, enquanto um chatbot voltado para o cliente deve confirmar a identidade e as permissões de um usuário antes de compartilhar dados confidenciais. Os engenheiros de dados desempenham um papel vital na manutenção da conformidade com os regulamentos e as melhores práticas.
3. Dados confiáveis e de alta qualidade
Em última análise, o sucesso do GenAI depende da qualidade dos dados. Mesmo os modelos mais avançados não podem produzir resultados úteis sem o fornecimento contínuo de dados precisos e confiáveis ao LLM.
Nos últimos cinco anos, os principais engenheiros de dados adotaram ferramentas de observabilidade (incluindo monitoramento e alertas automatizados, semelhantes ao software de observabilidade DevOps) para ajudar a melhorar a qualidade dos dados. A observabilidade ajuda as equipes de dados a monitorar e responder proativamente a eventos como falhas em trabalhos do Airflow, APIs corrompidas e dados de terceiros malformados que colocam a integridade dos dados em risco. Com a linhagem de dados ponta a ponta, as equipes podem entender as dependências upstream e downstream.
Os engenheiros de dados podem fornecer transparência quando ferramentas de observabilidade são aplicadas a pilhas modernas de IA, incluindo bancos de dados vetoriais. O Lineage permite que os engenheiros rastreiem a fonte dos dados à medida que eles são convertidos em incorporações e, em seguida, usem esses dados para gerar o rich text que o LLM coloca na frente dos usuários. Essa visibilidade ajuda as equipes de dados a entender como o LLM está operando, melhorar seus resultados e solucionar incidentes rapidamente.
Como nos disse o vice-presidente de engenharia da CreditKarma, Vishnu Ram : “Precisamos ser capazes de observar os dados. Precisamos entender quais dados estamos colocando no LLM e, se o LLM tiver suas próprias ideias, precisamos saber disso. - e então saber o que fazer com isso. Se você não consegue observar o que entra no LLM e o que sai, você está ferrado.
Os engenheiros de dados são o futuro das organizações orientadas por IA
A tecnologia de IA está se desenvolvendo em um ritmo vertiginoso. Mas mesmo que modelos aperfeiçoados e formação personalizada mais avançada se tornem viáveis para as empresas, a necessidade de garantir a qualidade, a segurança e a privacidade dos dados não mudará.
À medida que as organizações investem em aplicações generativas de IA, a qualidade e a disponibilidade dos seus dados serão mais valiosas do que nunca. Isto significa que os fluxos de trabalho e os processos de engenharia de dados podem mudar, mas a sua importância nas organizações está apenas começando.
Um programador nascido na década de 1990 desenvolveu um software de portabilidade de vídeo e faturou mais de 7 milhões em menos de um ano. O final foi muito punitivo! Alunos do ensino médio criam sua própria linguagem de programação de código aberto como uma cerimônia de maioridade - comentários contundentes de internautas: Contando com RustDesk devido a fraude desenfreada, serviço doméstico Taobao (taobao.com) suspendeu serviços domésticos e reiniciou o trabalho de otimização de versão web Java 17 é a versão Java LTS mais comumente usada no mercado do Windows 10 Atingindo 70%, o Windows 11 continua a diminuir Open Source Daily | Google apoia Hongmeng para assumir o controle de telefones Android de código aberto apoiados pela ansiedade e ambição da Microsoft; Electric desliga a plataforma aberta Apple lança chip M4 Google exclui kernel universal do Android (ACK) Suporte para arquitetura RISC-V Yunfeng renunciou ao Alibaba e planeja produzir jogos independentes para plataformas Windows no futuroEste artigo foi publicado pela primeira vez em Yunyunzhongsheng ( https://yylives.cc/ ), todos são bem-vindos para visitar.