データエンジニアがGENAI時代の縁の下の力持ちである理由

組織が自社の製品に人工知能を追加するにつれて、データ エンジニアはインフラストラクチャとガバナンスの拡張に不可欠な存在となり、新しいモデルやテクノロジーを組み込むことができます。

著者 Barr Moses の「3 Reasons Data Engineers Are the Unsung Heroes of GenAI」より翻訳。

過去 18 か月にわたり、生成 AI の進歩は役員会やビジネスリーダーの間で強い関心を集めてきました。 9 月の時点で、 IDC が調査した経営幹部の 87% は、少なくとも潜在的なユースケースを検討していると回答しました。 2023 年 11 月の Salesforceレポートによると、さらに77% のビジネス リーダーが GenAI のメリットを享受できていないことを懸念しています。

しかし、データ リーダーは、派手なデモを見て CEO がどれほど FOMO を経験したとしても、最新の LLM の導入には熟慮が必要であることを理解しています。有意義なビジネス価値を提供するために、これらのモデルは、セキュリティ、プライバシー、およびスケーラビリティを維持しながら、高品質のデータを提供する必要があります。

ほとんどの組織では、データ エンジニアなど、すでにこの作業を行っている主要な貢献者が数名います。企業がエンタープライズ グレードの AIを導入している現状を考えると、データ エンジニアの重要性はますます高まるでしょう。

エンタープライズ AI におけるデータ エンジニアの重要な役割

最新のデータ チームでは、データ エンジニアはデータ スタックのインフラストラクチャの構築と維持を担当します。パイプラインとワークフローにより、アプリケーション、アナリスト、ビジネス消費者、データ サイエンティストは、業務を遂行するために必要なデータにアクセスして利用できるようになります。

組織が自社の製品に生成 AI を組み込むようになると、データ エンジニアは既存のインフラストラクチャとガバナンスを拡張して最新のモデルとテクノロジーを組み込むのに不可欠になります。データ エンジニアが AI の成功に貢献する3 つの具体的な方法を見てみましょう。

1. RAG を推進して LLM の出力を向上させる

現在、GenAI で成功しているほとんどの組織は、取得拡張生成 (RAG)を使用しています。これには、知識ソースまたはデータセットをその生成プロセスに組み込むことが含まれ、プロンプトに応じて LLM に動的データベースへのアクセスを提供します。たとえば、RAG を完全に実装することで、消費者向けのチャットボットは、サポートのやり取り中に参照用に特定の顧客データを取得できるようになります。

ほとんどのユースケースでは、RAG は微調整よりも適しており、より小さな特定のデータセットで既存の LLM を再トレーニングします。微調整には大量の計算リソースと大量のデータが必要であり、多くの場合、過剰適合の高いリスクが伴います。

RAG を効果的に実装するには、企業データをAI モデルにフィードするための高品質のデータ パイプラインが必要です。データ エンジニアは以下を確保する責任があります。

  • データベースは正確で関連性があり、定期的な更新と品質チェックが行われます。
  • 取得プロセスが最適化され、正しくコンテキスト的に適切なデータを使用してプロンプトが解決されます。
  • データ可観測性によるデータ入力の継続的な監視と最適化

RAG の好みはテクノロジーの進歩に応じて変わる可能性がありますが、現時点では一般に、エンタープライズ AI にとって最も実用的な方法であると考えられています。また、データ チームの透明性を高めながら、錯覚や不正確さを軽減するのにも役立ちます。

2. セキュリティとプライバシーの維持

データ エンジニアはすでにデータ ガバナンスにおいて重要な役割を果たしており、データベースに適切な組み込みの役割とセキュリティ制御を確保して、プライバシーとコンプライアンスを確保しています。 RAG を実装する場合、これらの制御を拡張し、パイプライン全体に一貫して適用する必要があります。

たとえば、企業の LLM は自社のトレーニングに顧客データを使用すべきではありませんが、顧客対応チャットボットは機密データを共有する前にユーザーの身元と権限を確認する必要があります。データ エンジニアは、規制とベスト プラクティスへのコンプライアンスを維持する上で重要な役割を果たします。

3. 信頼性の高い高品質なデータ

結局のところ、GenAI の成功はデータの品質にかかっています。最も高度なモデルであっても、LLM に正確で信頼性の高いデータが継続的に提供されなければ、有用な出力を生成することはできません。

過去 5 年間にわたり、主要なデータ エンジニアは、データ品質の向上を支援するために可観測性ツール (DevOps 可観測性ソフトウェアと同様の自動監視とアラートを含む) を採用してきました。可観測性は、データ チームが失敗した Airflow ジョブ、破損した API、データの健全性を危険にさらす不正なサードパーティ データなどのイベントを監視し、積極的に対応するのに役立ちます。エンドツーエンドのデータ系統により、チームは上流と下流の依存関係を理解できます。

データ エンジニアは、可観測性ツールをベクトル データベースなどの最新の AI スタックに適用すると、透明性を提供できます。 Lineage を使用すると、エンジニアは埋め込みに変換されるデータのソースを追跡し、そのデータを使用して LLM がユーザーの前に表示するリッチ テキストを生成できます。この可視性は、データ チームが LLM がどのように動作しているかを理解し、出力を改善し、インシデントのトラブルシューティングを迅速に行うのに役立ちます。

CreditKarma のエンジニアリング担当副社長である Vishnu Ram 氏は次のように語っています。「私たちはデータを観察できる必要があり、LLM にどのようなデータを入れているかを理解する必要があります。LLM が独自のアイデアを思いついた場合、それを知る必要があります。 — そして、LLM に何が入って何が出てくるかを観察できなければ、それはひどいことになります。」

データ エンジニアは AI 主導型組織の未来です

AI技術は目まぐるしいスピードで発展しています。しかし、微調整されたモデルやより高度なカスタム トレーニングが企業で実現可能になっても、データの品質、セキュリティ、プライバシーを確​​保する必要性は変わりません。

組織が生成 AI アプリケーションに投資するにつれて、データの品質と可用性の価値がこれまで以上に高まります。これは、ワークフローとデータ エンジニアリング プロセスは変化する可能性がありますが、組織におけるそれらの重要性はまだ始まったばかりであることを意味します。

この記事はYunyunzhongsheng ( https://yylives.cc/ ) で最初に公開されたもので、どなたでもご覧いただけます。

1990 年代生まれのプログラマーがビデオ移植ソフトウェアを開発し、1 年足らずで 700 万以上の利益を上げました。結末は非常に懲罰的でした。 高校生が成人式にオープンソースプログラミング言語を自作―ネチズンの鋭いコメント: 詐欺横行でRustDesk依存、国内サービスの タオバオ(taobao.com)は国内サービスを一時停止、ウェブ版の最適化作業を再開 Java最も一般的に使用されている Java LTS バージョンは 17 、Windows 11 は減少し続ける Open Source Daily | Google がオープンソースの Rabbit R1 を支持、Microsoft の不安と野心; Electricがオープンプラットフォームを閉鎖 AppleがM4チップをリリース GoogleがAndroidユニバーサルカーネル(ACK)を削除 RISC-Vアーキテクチャのサポート Yunfengがアリババを辞任し、将来的にはWindowsプラットフォーム用の独立したゲームを制作する予定
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/6919515/blog/11088416