조직이 제품에 인공 지능을 추가함에 따라 데이터 엔지니어는 새로운 모델과 기술을 통합하기 위해 인프라 및 거버넌스를 확장하는 데 필수적입니다.
데이터 엔지니어가 GenAI의 알려지지 않은 영웅인 3가지 이유 (저자 Barr Moses) 에서 번역되었습니다 .
지난 18개월 동안 생성 AI의 발전은 이사회와 비즈니스 리더들 사이에서 큰 관심을 불러일으켰습니다. 9월 현재 IDC가 조사한 C레벨 경영진의 87% 는 적어도 잠재적인 사용 사례를 탐색하고 있다고 답했습니다. 2023년 11월 Salesforce 보고서 에 따르면 비즈니스 리더의 77%가 GenAI 의 이점을 놓쳤다고 우려하고 있습니다.
그러나 데이터 리더는 CEO가 화려한 데모를 본 후 아무리 많은 FOMO를 경험하더라도 최신 LLM을 구현하는 것은 신중해야 한다는 것을 이해합니다. 의미 있는 비즈니스 가치를 제공하려면 이러한 모델은 보안, 개인 정보 보호 및 확장성을 유지하면서 고품질 데이터를 제공해야 합니다.
대부분의 조직에는 이미 이 작업을 수행하는 몇 가지 주요 기여자가 있습니다: 데이터 엔지니어 . 엔터프라이즈급 AI를 구현하는 기업의 현재 상태를 고려할 때 데이터 엔지니어는 점점 더 중요해질 것입니다.
엔터프라이즈 AI에서 데이터 엔지니어의 중요한 역할
최신 데이터 팀에서 데이터 엔지니어는 데이터 스택의 인프라를 구축하고 유지 관리하는 일을 담당합니다. 파이프라인과 워크플로우를 통해 애플리케이션, 분석가, 비즈니스 소비자 및 데이터 과학자는 업무를 수행하는 데 필요한 데이터에 액세스하고 사용할 수 있습니다.
조직이 생성 AI를 제품에 추가하기 시작하면 데이터 엔지니어는 최신 모델과 기술을 포함하도록 기존 인프라와 거버넌스를 확장하는 데 필수적입니다. 데이터 엔지니어가 AI 성공에 기여할 세 가지 구체적인 방법을 살펴보겠습니다 .
1. RAG를 홍보하여 LLM 성과 개선
현재 GenAI로 성공한 대부분의 조직은 RAG(Retrieval Augmented Generation)를 사용하고 있습니다 . 여기에는 지식 소스 또는 데이터 세트를 생성 프로세스에 통합하여 프롬프트에 응답하여 LLM에 동적 데이터베이스에 대한 액세스를 제공하는 것이 포함됩니다. 예를 들어, RAG를 완벽하게 구현하면 소비자 대면 챗봇이 지원 상호 작용 중에 참조용으로 특정 고객 데이터를 가져올 수 있습니다.
대부분의 사용 사례에서 RAG는 미세 조정( 더 작고 특정 데이터 세트에서 기존 LLM을 재교육)보다 더 적합합니다. 미세 조정에는 상당한 계산 리소스와 많은 양의 데이터가 필요하며 종종 과적합 위험이 높습니다.
RAG를 효과적으로 구현하려면 회사 데이터를 AI 모델에 공급하기 위한 고품질 데이터 파이프라인이 필요합니다 . 데이터 엔지니어는 다음을 보장할 책임이 있습니다.
- 정기적인 업데이트와 품질 점검을 통해 데이터베이스가 정확하고 관련성이 높습니다.
- 검색 프로세스가 최적화되고 정확하고 상황에 맞는 데이터를 사용하여 프롬프트가 해결됩니다.
- 데이터 관찰 가능성을 통해 데이터 입력을 지속적으로 모니터링하고 최적화합니다.
RAG에 대한 선호도는 기술이 발전함에 따라 바뀔 수 있지만 현재로서는 일반적으로 엔터프라이즈 AI를 향한 가장 실용적인 경로로 간주됩니다. 또한 데이터 팀의 투명성을 높이는 동시에 환상 과 부정확성을 줄이는 데도 도움이 됩니다 .
2. 보안 및 개인 정보 보호 유지
데이터 엔지니어는 이미 데이터 거버넌스에서 중요한 역할을 수행하여 데이터베이스에 개인정보 보호 및 규정 준수를 보장하는 적절한 기본 역할과 보안 제어 기능이 내장되어 있는지 확인합니다. RAG를 구현할 때 이러한 제어는 파이프라인 전체에 걸쳐 일관되게 확장되고 적용되어야 합니다.
예를 들어, 회사의 LLM은 자체 교육을 위해 고객 데이터를 사용해서는 안 되는 반면, 고객 대면 챗봇은 민감한 데이터를 공유하기 전에 사용자의 신원과 권한을 확인해야 합니다. 데이터 엔지니어는 규정 및 모범 사례를 준수하는 데 중요한 역할을 합니다.
3. 신뢰할 수 있는 고품질 데이터
결국 GenAI의 성공은 데이터 품질에 달려 있습니다. 가장 발전된 모델이라도 LLM에 정확하고 신뢰할 수 있는 데이터를 지속적으로 제공하지 않으면 유용한 결과를 생성할 수 없습니다.
지난 5년 동안 선도적인 데이터 엔지니어들은 데이터 품질을 개선하는 데 도움이 되는 관찰 도구(DevOps 관찰 소프트웨어와 유사한 자동 모니터링 및 경고 포함)를 채택했습니다. 관찰 가능성은 데이터 팀이 실패한 Airflow 작업, 손상된 API, 데이터 상태를 위험에 빠뜨리는 잘못된 형식의 타사 데이터와 같은 이벤트를 모니터링하고 사전에 대응하는 데 도움이 됩니다. 엔드투엔드 데이터 계보를 통해 팀은 업스트림 및 다운스트림 종속성을 이해할 수 있습니다.
데이터 엔지니어는 벡터 데이터베이스를 포함한 최신 AI 스택에 관측 가능성 도구를 적용할 때 투명성을 제공할 수 있습니다. 계보를 사용하면 엔지니어는 데이터가 임베딩으로 변환될 때 데이터 소스를 추적한 다음 해당 데이터를 사용하여 LLM이 사용자 앞에 배치하는 서식 있는 텍스트를 생성할 수 있습니다. 이러한 가시성은 데이터 팀이 LLM의 운영 방식을 이해하고 결과를 개선하며 사고 문제를 신속하게 해결하는 데 도움이 됩니다.
CreditKarma의 엔지니어링 부사장인 Vishnu Ram은 다음과 같이 말했습니다 . — 그리고 그 상황을 어떻게 해야 할지 알 수 있습니다. LLM에 무엇이 들어가고 무엇이 나오는지 관찰할 수 없다면, 당신은 망한 것입니다."
데이터 엔지니어는 AI 기반 조직의 미래입니다
AI 기술은 어지러운 속도로 발전하고 있다. 그러나 미세 조정된 모델과 더욱 발전된 맞춤형 교육이 기업에서 실현 가능해지더라도 데이터 품질, 보안 및 개인 정보 보호를 보장해야 하는 필요성은 변하지 않을 것입니다.
조직이 생성 AI 애플리케이션에 투자함에 따라 데이터의 품질과 가용성은 그 어느 때보다 중요해질 것입니다. 이는 워크플로와 데이터 엔지니어링 프로세스가 변경될 수 있지만 조직에서 이들의 중요성은 이제 막 시작되었음을 의미합니다.
1990년대에 태어난 프로그래머가 비디오 포팅 소프트웨어를 개발하여 1년도 안 되어 700만 개 이상의 수익을 올렸습니다. 결말은 매우 처참했습니다! 고등학생들이 성인식으로 자신만의 오픈소스 프로그래밍 언어 만든다 - 네티즌 날카로운 지적: 만연한 사기로 러스트데스크 의존, 가사 서비스 타오바오(taobao.com)가 가사 서비스를 중단하고 웹 버전 최적화 작업 재개 자바 17은 가장 일반적으로 사용되는 Java LTS 버전입니다. Windows 10 시장 점유율 70%에 도달, Windows 11은 계속해서 Open Source Daily를 지원합니다. Google은 Docker가 지원하는 오픈 소스 Rabbit R1을 지원합니다. Electric, 개방형 플랫폼 종료 Apple, M4 칩 출시 Google, Android 범용 커널(ACK) 삭제 RISC-V 아키텍처 지원 Yunfeng은 Alibaba에서 사임하고 향후 Windows 플랫폼용 독립 게임을 제작할 계획이 기사는 Yunyunzhongsheng ( https://yylives.cc/ ) 에 처음 게재되었습니다 . 누구나 방문하실 수 있습니다.