Architectures émergentes pour une infrastructure de données moderne

Au cours de l'année écoulée, presque toutes les mesures clés de l'industrie ont atteint de nouveaux sommets historiques, et de nouvelles catégories de produits sont apparues plus rapidement que la plupart des équipes de données ne peuvent raisonnablement suivre. Un ensemble d'infrastructures de données est publié dans cet article. Ils présentent les meilleurs composants pertinents dans les systèmes d'analyse et d'exploitation actuels.

1. Architecture de référence

Une vue d'ensemble unifiée de tous les cas d'utilisation de l'infrastructure de données :

 

la source de données Collecte et transformation stockage analyse et traitement convertir Analyse et sortie
Générer des données commerciales pertinentes et exploitables 1) Extraire les données des systèmes d'entreprise existants
2) Transfert vers le stockage, schéma d'alignement entre la source et la cible (L)
3) Transférer les données d'analyse vers les systèmes d'entreprise requis

Stockez les données dans un format accessible aux systèmes de requête et de traitement.

Optimisez la cohérence des données, les performances, réduisez les coûts et l'échelle 
Transformez le code haute fréquence (sql, python, java, scala) en tâches de traitement de données nécessitant peu de maintenance.

Utiliser l'informatique distribuée pour exécuter des requêtes et des modèles de données

Intégrer des analyses historiques et prédictives
    Transformer les données en données structurées pour l'analyse

Planifier les ressources de traitement pour l'architecture de transformation des données
Une série d'interfaces qui fournissent des informations et une coopération aux décideurs ou à la science de l'analyse des données, ainsi que

des résultats d'affichage

Intégrer des modèles de données dans les applications utilisateur

Agrandir la conception de l'architecture après le machine learning :

conversion de données Formation et développement de modèles interface modèle l'intégration
Convertir les données brutes en données disponibles pour la formation de modèles, y compris l'apprentissage supervisé et l'étiquetage Former des modèles sur des données traitées - généralement construire une ontologie de modèles pré-formés sur des corpus de données publiques

Suivre les expériences et le processus de formation de modèles, y compris les données d'entrée, le compteur de superpuissance utilisé et

les performances du modèle final

dans le cadre d'une boucle itérative, d'analyse, de validation et d'audit des performances du modèle , entraînant souvent un recyclage et/ou une collecte et un traitement de données supplémentaires

Préparer des modèles entraînés pour le déploiement en compilant vers des cibles matérielles pertinentes et en les stockant pour y accéder pendant la phase d'inférence
Exécutez des modèles de formation en temps réel (en ligne) ou par lots (hors ligne) en fonction

des données d'entrée. Surveillez les modèles de production pour la dérive des données, les prédictions nuisibles, la dégradation des performances, etc.
Intégrez la sortie du modèle dans les applications destinées aux utilisateurs de manière structurée et reproductible

L'écosystème d'analyse et l'écosystème des opérations continuent de prospérer. Les entrepôts de données cloud tels que Snowflake se développent rapidement, se concentrant principalement sur les utilisateurs SQL et les cas d'utilisation de l'informatique décisionnelle. Mais l'adoption d'autres technologies s'est également accélérée - les entrepôts de données tels que Databricks, par exemple, ajoutent des clients plus rapidement que jamais. De nombreuses équipes de données avec lesquelles nous avons parlé ont confirmé que l'hétérogénéité est susceptible de rester dans la pile de données.

D'autres systèmes de données de base (c'est-à-dire l'ingestion et la transformation) se sont également avérés tout aussi durables. Cela est particulièrement évident dans les modèles d'intelligence d'affaires modernes, où la combinaison de Fivetran et de dbt (ou d'une technologie similaire) est presque omniprésente. Mais cela s'applique également aux systèmes d'exploitation dans une certaine mesure, où des normes de facto telles que Databricks/Spark, Confluent/Kafka et Astronomer/Airflow émergent.

Plan directeur 1 : Applications modernes d'informatique décisionnelle

Intelligence d'affaires cloud native pour les entreprises de toutes tailles

 

Ce qui n'a pas changé :

La combinaison de réplication de données (telle que Fivetran), d'entrepôts de données cloud (tels que Snowflake) et de modélisation de données basée sur SQL (utilisant dbt) continue de former le cœur de ce modèle. L'adoption de ces technologies s'est considérablement développée, incitant au financement et à la croissance précoce de nouveaux concurrents tels qu'Airbyte et Firebolt.

Les tableaux de bord restent l'application la plus utilisée dans le niveau de sortie, y compris les nouveaux entrants tels que Looker, Tableau, PowerBI et Superset.

nouvelles fonctionnalités:

La couche de métriques (un système qui fournit un ensemble standard de définitions en plus de l'entrepôt de données) suscite beaucoup d'intérêt. Cela a suscité un débat intense sur les fonctionnalités qu'il devrait avoir, quel fournisseur devrait l'avoir et quelles spécifications il devrait suivre. Jusqu'à présent, nous avons vu plusieurs offres pure-play solides (telles que Transform et Supergrain), ainsi que l'expansion de dbt dans cette catégorie.

Il y a eu une croissance significative des fournisseurs d'ETL inversés, notamment Hightouch et Census. Le but de ces produits est de mettre à jour les systèmes opérationnels tels que CRM ou ERP avec les sorties et les informations de l'entrepôt de données.

Les équipes data s'intéressent de plus en plus aux nouvelles applications pour enrichir leurs tableaux de bord standards, notamment les data workspaces comme Hex. D'une manière générale, les nouvelles applications sont susceptibles d'être le résultat d'une standardisation croissante des entrepôts de données cloud. Une fois les données clairement structurées et accessibles, les équipes de données voudront naturellement en faire plus.

Les sociétés de découverte et d'observabilité des données se sont multipliées et ont levé des fonds importants (notamment Monte Carlo et Bigeye). Bien que les avantages de ces produits (des pipelines de données plus fiables et une meilleure collaboration) soient clairs, l'adoption est relativement précoce car les clients découvrent des cas d'utilisation et des budgets pertinents. (Note technique : Bien qu'il existe plusieurs nouveaux fournisseurs solides dans le domaine de la découverte de données, tels que Select Star, Metaphor, Stemma, Secoda, Castor, nous avons exclu les sociétés en phase d'amorçage du graphique.)

Blueprint 2 : Traitement de données multimodal

Lacs de données évolutifs prenant en charge les cas d'utilisation analytiques et opérationnels - également connus sous le nom de réfugiés Hadoop pour les infrastructures modernes

Les boîtes à briquets sont des changements nouveaux ou significatifs ; les boîtes à briquets restent en grande partie inchangées. Les cases grises sont considérées comme moins pertinentes pour ce plan.

 

Ce qui n'a pas changé :

Les systèmes de base pour le traitement des données (tels que Databricks, Starburst et Dremio), la transmission (tels que Confluent et Airflow) et le stockage (AWS) continuent de croître rapidement et constituent l'épine dorsale de ce modèle.

Le traitement de données multimodal maintient une variété de conception, permettant aux entreprises d'adopter le système qui répond le mieux à leurs besoins spécifiques dans les applications de données analytiques et opérationnelles.

nouvelles fonctionnalités:

L'architecture sous-jacente d'un lac de données est de plus en plus acceptée et claire. Nous constatons que cette approche est soutenue par un large éventail de fournisseurs (dont AWS, Databricks, Google Cloud, Starburst et Dremio) et de pionniers de l'entrepôt de données. La valeur fondamentale de Lakehouse est de combiner une couche de stockage puissante avec une série de puissants moteurs de traitement de données (tels que Spark, Presto, Druid/Clickhouse, bibliothèque Python, etc.).

La couche de stockage elle-même est en cours de mise à niveau. Bien que des technologies telles que Delta, Iceberg et Hudi ne soient pas nouvelles, elles sont adoptées à un rythme accéléré et intégrées dans des produits commerciaux. Certaines de ces technologies (notamment Iceberg) interagissent également avec des entrepôts de données cloud tels que Snowflake. Si l'hétérogénéité se poursuit, cela pourrait devenir un élément essentiel de la pile de données multimodale.

L'adoption du traitement de flux (c'est-à-dire le traitement analytique des données en temps réel) est susceptible d'augmenter. Alors que les technologies de première génération comme Flink n'ont pas encore atteint le grand public, de nouveaux entrants avec des modèles de programmation plus simples comme Materialise et Upsolver sont de plus en plus adoptés et, fait intéressant, les offres de traitement de flux de Databricks et Confluent Usage existants ont également commencé à s'accélérer.

 

Blueprint 3 : Intelligence artificielle et apprentissage automatique

Architecture pour le développement, le test et l'exploitation robustes de modèles d'apprentissage automatique

Ce qui n'a pas changé :

Par rapport à 2020, les outils de développement de modèles sont globalement similaires aujourd'hui, y compris les principaux fournisseurs de cloud (tels que Databricks et AWS), les frameworks ML (tels que XGBoost et PyTorch) et les outils de gestion des expériences (tels que Weights&Biases et Comet)

La gestion des expériences a effectivement relégué la visualisation et le réglage des modèles à des catégories distinctes.

Construire et exploiter une pile d'apprentissage automatique est complexe et nécessite des connaissances spécialisées. Ce plan n'est pas pour les âmes sensibles, et la production de l'IA reste un défi pour de nombreuses équipes de données.

nouvelles fonctionnalités:

L'industrie du ML se consolide autour d'une approche centrée sur les données, mettant l'accent sur la gestion complexe des données plutôt que sur les améliorations de modélisation incrémentielles. Cela a plusieurs implications :

La croissance rapide des étiquettes de données (telles que Scale et Labelbox) et l'intérêt croissant pour les moteurs de données en boucle fermée, principalement basés sur le pipeline de données Autopilot de Tesla.

Adoption accrue de magasins de fonctionnalités tels que Tecton, un moyen de développer en collaboration des données ML de qualité production, dans des cas d'utilisation par lots et en temps réel.

Il y a eu un regain d'intérêt pour les solutions ML low-code telles que Continuous et MindsDB qui automatisent au moins partiellement le processus de modélisation ML. Ces solutions mises à jour visent à attirer de nouveaux utilisateurs (c'est-à-dire des analystes et des développeurs de logiciels) sur le marché du ML.

L'utilisation de modèles pré-formés devient la valeur par défaut, en particulier dans le NLP, et a donné à des entreprises comme OpenAI et Hugging Face un vent arrière. Il reste encore des questions intéressantes à résoudre concernant le réglage fin, le coût et la mise à l'échelle.

Les outils opérationnels pour le ML (parfois appelés MLops) deviennent plus matures, construits autour de la surveillance du ML, des cas d'utilisation les plus demandés et des budgets immédiats. Dans le même temps, une gamme de nouveaux outils opérationnels, notamment la vérification et l'audit, font leur apparition, et le marché final reste à déterminer.

L'accent est de plus en plus mis sur la manière dont les développeurs peuvent intégrer de manière transparente des modèles ML dans des applications, notamment via des API prédéfinies telles que OpenAI, des bases de données vectorielles telles que Pinecone et des cadres plus perspicaces.

 

Je suppose que tu aimes

Origine blog.csdn.net/shishi521/article/details/129261059
conseillé
Classement