データエンジニアがGENAI時代の縁の下の力持ちである理由

オープンソースの中国コミュニティチームは、共有の名のもとに、オープンソースの中国コミュニティの背後にあるストーリーを伝える初のライブブロードキャストを行いました。」

組織が自社の製品に人工知能を追加するにつれて、データエンジニアはインフラストラクチャとガバナンスの拡張に不可欠な存在となり、新しいモデルやテクノロジーを組み込むことができます。

著者 Barr Moses の「3 Reasons Data Engineers Are the Unsung Heroes of GenAI」より翻訳。

過去 18 か月にわたり、生成 AI の進歩は役員会やビジネスリーダーの間で強い関心を集めてきました。 9 月の時点で、 IDC が調査した経営幹部の 87% は、少なくとも潜在的なユースケースを検討していると回答しました。 2023 年 11 月の Salesforceレポートによると、さらに77% のビジネスリーダーが GenAI のメリットを享受できていないことを懸念しています。

しかし、データリーダーは、派手なデモを見て CEO がどれほど FOMO を経験したとしても、最新の LLM の導入には熟慮が必要であることを理解しています。有意義なビジネス価値を提供するために、これらのモデルは、セキュリティ、プライバシー、およびスケーラビリティを維持しながら、高品質のデータを提供する必要があります。

ほとんどの組織では、データエンジニアなど、すでにこの作業を行っている主要な貢献者が数名います。企業がエンタープライズグレードの AIを導入している現状を考えると、データエンジニアの重要性はますます高まるでしょう。

エンタープライズ AI におけるデータエンジニアの重要な役割

最新のデータチームでは、データエンジニアはデータスタックのインフラストラクチャの構築と維持を担当します。パイプラインとワークフローにより、アプリケーション、アナリスト、ビジネス消費者、データサイエンティストは、業務を遂行するために必要なデータにアクセスして利用できるようになります。

組織が自社の製品に生成 AI を組み込むようになると、データエンジニアは既存のインフラストラクチャとガバナンスを拡張して最新のモデルとテクノロジーを組み込むのに不可欠になります。データエンジニアが AI の成功に貢献する3 つの具体的な方法を見てみましょう。

1. RAG を推進して LLM の出力を向上させる

現在、GenAI で成功しているほとんどの組織は、取得拡張生成 (RAG)を使用しています。これには、知識ソースまたはデータセットをその生成プロセスに組み込むことが含まれ、プロンプトに応じて LLM に動的データベースへのアクセスを提供します。たとえば、RAG を完全に実装することで、消費者向けのチャットボットは、サポートのやり取り中に参照用に特定の顧客データを取得できるようになります。

ほとんどのユースケースでは、RAG は微調整よりも適しており、より小さな特定のデータセットで既存の LLM を再トレーニングします。微調整には大量の計算リソースと大量のデータが必要であり、多くの場合、過剰適合の高いリスクが伴います。

RAG を効果的に実装するには、企業データをAI モデルにフィードするための高品質のデータパイプラインが必要です。データエンジニアは以下を確保する責任があります。

データベースは正確で関連性があり、定期的な更新と品質チェックが行われます。
取得プロセスが最適化され、正しくコンテキスト的に適切なデータを使用してプロンプトが解決されます。
データ可観測性によるデータ入力の継続的な監視と最適化

RAG の好みはテクノロジーの進歩に応じて変わる可能性がありますが、現時点では一般に、エンタープライズ AI にとって最も実用的な方法であると考えられています。また、データチームの透明性を高めながら、錯覚や不正確さを軽減するのにも役立ちます。

2. セキュリティとプライバシーの維持

データエンジニアはすでにデータガバナンスにおいて重要な役割を果たしており、データベースに適切な組み込みの役割とセキュリティ制御を確保して、プライバシーとコンプライアンスを確保しています。 RAG を実装する場合、これらの制御を拡張し、パイプライン全体に一貫して適用する必要があります。

たとえば、企業の LLM は自社のトレーニングに顧客データを使用すべきではありませんが、顧客対応チャットボットは機密データを共有する前にユーザーの身元と権限を確認する必要があります。データエンジニアは、規制とベストプラクティスへのコンプライアンスを維持する上で重要な役割を果たします。

3. 信頼性の高い高品質なデータ

結局のところ、GenAI の成功はデータの品質にかかっています。最も高度なモデルであっても、LLM に正確で信頼性の高いデータが継続的に提供されなければ、有用な出力を生成することはできません。

過去 5 年間にわたり、主要なデータエンジニアは、データ品質の向上を支援するために可観測性ツール (DevOps 可観測性ソフトウェアと同様の自動監視とアラートを含む) を採用してきました。可観測性は、データチームが失敗した Airflow ジョブ、破損した API、データの健全性を危険にさらす不正なサードパーティデータなどのイベントを監視し、積極的に対応するのに役立ちます。エンドツーエンドのデータ系統により、チームは上流と下流の依存関係を理解できます。

データエンジニアは、可観測性ツールをベクトルデータベースなどの最新の AI スタックに適用すると、透明性を提供できます。 Lineage を使用すると、エンジニアは埋め込みに変換されるデータのソースを追跡し、そのデータを使用して LLM がユーザーの前に表示するリッチテキストを生成できます。この可視性は、データチームが LLM がどのように動作しているかを理解し、出力を改善し、インシデントのトラブルシューティングを迅速に行うのに役立ちます。

CreditKarma のエンジニアリング担当副社長である Vishnu Ram 氏は次のように語っています。「私たちはデータを観察できる必要があり、LLM にどのようなデータを入れているかを理解する必要があります。LLM が独自のアイデアを思いついた場合、それを知る必要があります。 — そして、LLM に何が入って何が出てくるかを観察できなければ、それはひどいことになります。」

データエンジニアは AI 主導型組織の未来です

AI技術は目まぐるしいスピードで発展しています。しかし、微調整されたモデルやより高度なカスタムトレーニングが企業で実現可能になっても、データの品質、セキュリティ、プライバシーを確保する必要性は変わりません。

組織が生成 AI アプリケーションに投資するにつれて、データの品質と可用性の価値がこれまで以上に高まります。これは、ワークフローとデータエンジニアリングプロセスは変化する可能性がありますが、組織におけるそれらの重要性はまだ始まったばかりであることを意味します。

この記事はYunyunzhongsheng ( https://yylives.cc/ ) で最初に公開されたもので、どなたでもご覧いただけます。