Wuhan Yuan Chuanghui revient, parlons de grands modèles le 20 avril »

Auteur｜Cheng Wei, ingénieur R&D Big Data MetaAPP

GitHub ｜https://github.com/ByConity/ByConity

ByConity est l'entrepôt de données cloud natif open source de ByteDance. Il répond aux besoins des utilisateurs d'entrepôts de données en matière d'expansion et de contraction élastiques des ressources, de séparation lecture-écriture, d'isolation des ressources, de forte cohérence des données, etc., tout en offrant également d'excellentes performances de requête et d'écriture.

MetaApp est l'un des principaux développeurs et opérateurs de jeux en Chine, qui se concentre sur la distribution efficace des informations mobiles et s'engage à construire un monde virtuel pour tous les âges. En 2023, MetaApp compte plus de 200 millions d'utilisateurs enregistrés, a collaboré sur 200 000 jeux et a un volume de distribution cumulé de plus d'un milliard.

MetaApp a prêté attention à ByConity dès les débuts de l'open source et a été l'un des premiers utilisateurs à le tester et à le lancer dans l'environnement de production. Dans l’idée de comprendre les capacités des projets d’entrepôt de données open source, l’équipe R&D big data de MetaApp a mené un test préliminaire sur ByConity. Son architecture de séparation stockage-calcul et ses excellentes performances, en particulier dans les scénarios d'analyse de journaux, sa prise en charge de requêtes complexes sur des données à grande échelle, ont incité MetaApp à effectuer des tests approfondis de ByConity et ont finalement remplacé complètement ClickHouse dans l'environnement de production, réduisant ainsi les coûts des ressources. de plus de 50 %.

Cet article présentera principalement les fonctions de la plateforme d'analyse de données MetaApp, les problèmes et solutions rencontrés dans les scénarios commerciaux, et l'aide à l'introduction de ByConity dans son activité.

Architecture et fonctions de la plateforme d'analyse de données MetaApp OLAP

Avec la croissance de l'activité et l'introduction d'opérations raffinées, les produits ont imposé des exigences plus élevées au service des données, notamment la nécessité d'interroger et d'analyser les données en temps réel et d'ajuster rapidement les stratégies opérationnelles pour mener des expériences AB sur un petit groupe de personnes ; vérifier l'efficacité des nouvelles fonctions. Il réduit le temps et la difficulté d'interrogation des données, permettant aux non-professionnels d'analyser et d'explorer les données de manière indépendante. Afin de répondre aux besoins de l'entreprise, MateApp a mis en œuvre une plateforme d'analyse de données OLAP qui intègre l'analyse des événements, l'analyse des conversions, la rétention personnalisée, le regroupement d'utilisateurs, l'analyse des flux de comportement et d'autres fonctions .

Il s'agit d'une architecture OLAP typique, divisée en deux parties, l'une hors ligne et l'autre en temps réel.

Dans le scénario hors ligne , nous utilisons DataX pour intégrer les données Kafka dans l'entrepôt de données Hive, puis générons des rapports BI. Les rapports BI utilisent le composant Superset pour afficher les résultats ;

Dans un scénario en temps réel , une ligne utilise GoSink pour l'intégration des données et intègre les données GoSink dans ClickHouse, et l'autre ligne utilise CnchKafka pour intégrer les données dans ByConity. Enfin, les données sont obtenues via la plateforme de requête OLAP pour les requêtes.

Comparaison des fonctions entre ByConity et ClickHouse

ByConity est un entrepôt de données cloud natif open source développé sur la base du noyau ClickHouse et adopte une architecture de séparation stockage-calcul. Tous deux présentent les caractéristiques suivantes :

La vitesse d'écriture est très rapide, adaptée à l'écriture de grandes quantités de données, et la quantité de données écrites peut atteindre 50 Mo à 200 Mo/s.
La vitesse de requête est très rapide. Sous des données massives, la vitesse de requête peut atteindre 2 à 30 Go/s.
Taux de compression de données élevé, faible coût de stockage, le taux de compression peut atteindre 0,2 ~ 0,3

ByConity présente les avantages de ClickHouse, maintient une bonne compatibilité avec ClickHouse et a été amélioré en termes de séparation lecture-écriture, d'expansion et de contraction élastiques et de forte cohérence des données . Les deux sont applicables aux scénarios OLAP suivants :

Les ensembles de données peuvent être volumineux : des milliards ou des milliards de lignes
Le tableau de données contient de nombreuses colonnes
Interroger uniquement des colonnes spécifiques
Les résultats doivent être renvoyés en millisecondes ou secondes

Lors de partages précédents, la communauté ByConity a comparé les deux [d'un point de vue utilisation]

Lors de la construction de la plate-forme OLAP, nous nous sommes principalement concentrés sur l'isolation des ressources, l'expansion et la contraction de la capacité , les requêtes complexes et la prise en charge des transactions distribuées .

Problèmes rencontrés lors de l'utilisation de ClickHouse

Problème 1 : la lecture et l'écriture intégrées peuvent facilement accaparer les ressources et ne peuvent pas garantir une lecture/écriture stable.

Pendant les périodes de pointe, l'écriture de données occupera une grande quantité de ressources d'E/S et de CPU, ce qui affectera les requêtes (les temps de requête deviendront plus longs). Il en va de même pour les requêtes de données.

Problème 2 : L'expansion/réduction est gênante et prend beaucoup de temps

Temps d'expansion/réduction long : étant donné que la machine est dans un IDC et appartient à un cloud privé, l'un des problèmes est que le cycle d'ajout de nœuds est extrêmement long. Il faut une à deux semaines entre le moment où la demande de nœuds est émise et l'ajout réel de bons nœuds, ce qui affecte l'activité ;
Impossible d'augmenter et de réduire rapidement : les données doivent être redistribuées après la mise à l'échelle, sinon la pression sur les nœuds sera très élevée.

Troisième problème : l'exploitation et la maintenance sont fastidieuses et le SLA ne peut pas être garanti pendant les périodes de pointe.

Souvent, en raison de pannes de nœuds métier, les requêtes de données sont lentes et l'écriture des données est retardée (de quelques heures à quelques jours) ;
Il existe une grave pénurie de ressources pendant les périodes de pointe et il est impossible d'augmenter les ressources à court terme. Le seul moyen est de supprimer les données de certains services afin de fournir des services hautement prioritaires.
Pendant les périodes de faible activité, un grand nombre de ressources sont inutilisées et les coûts sont gonflés. Bien que nous soyons en IDC, l'achat de machines IDC est également soumis au contrôle des coûts, et l'expansion des nœuds ne peut pas être illimitée. De plus, il existe une certaine consommation de coûts lors d'une utilisation normale ;
Impossible d'interagir avec les ressources cloud.

Améliorations après l'introduction de ByConity

Tout d’abord, la séparation par ByConity des ressources informatiques de lecture et d’écriture peut garantir que les tâches de lecture et d’écriture sont relativement stables. Si les tâches de lecture ne suffisent pas, les ressources correspondantes peuvent être étendues pour compenser la pénurie, notamment en utilisant les ressources cloud pour l'expansion.

Deuxièmement, la mise à l’échelle vers le haut et vers le bas est relativement simple et peut être effectuée à un niveau infime. Étant donné que le stockage distribué HDFS/S3 est utilisé et que le calcul et le stockage sont séparés, la redistribution des données n'est pas requise après l'expansion et peut être utilisée directement après l'expansion.

De plus, le déploiement, l’exploitation et la maintenance cloud natifs sont relativement simples.

Les composants de HDFS/S3 sont relativement matures et stables, avec une expansion et une contraction de la capacité, des solutions de reprise après sinistre matures et les problèmes peuvent être résolus rapidement ;
Pendant les périodes de pointe, le SLA peut être garanti grâce à une expansion rapide des ressources ;
Pendant les périodes de faible activité, les coûts peuvent être réduits en réduisant les ressources de stockage/informatique.

L’utilisation et le fonctionnement de ByConity

Utilisation du cluster ByConity

Actuellement, notre plateforme utilise ByConity de manière stable dans des scénarios commerciaux. Grâce à des migrations successives, ByConity a entièrement repris les données du cluster ClickHouse et a commencé à fournir des services de manière stable. Nous avons construit le cluster ByConity en utilisant S3 plus K8 sur le cloud. Nous avons également utilisé une solution d'expansion et de contraction planifiée, qui peut être étendue à 10 heures et réduite à 20 heures en semaine. jour. . Selon les calculs, cette méthode réduit les ressources d'environ 40 à 50 % par rapport à l'utilisation directe d'abonnements annuels et mensuels. En outre, nous promouvons également la combinaison de cloud privé et de cloud public pour atteindre l'objectif de réduction des coûts et d'amélioration de la stabilité des services.

La figure ci-dessous montre notre utilisation actuelle, utilisant le serveur OLAP pour effectuer des requêtes conjointes sur le cluster ClickHouse et ByConity dans la salle informatique IDC hors ligne. À court terme, le cluster ClickHouse servira encore de transition pour les entreprises qui dépendent en partie de ClickHouse.

À l'avenir, nous interrogerons et fusionnerons les données hors ligne, tandis que les ressources consommées par Kafka seront utilisées en ligne. Lors de l'extension des ressources, vous pouvez étendre les ressources de vw_default et vw_write en ligne et utiliser rationnellement les ressources du cloud public pour résoudre le problème des ressources insuffisantes. Dans le même temps, la capacité est réduite lors des faibles pics d’activité afin de réduire la consommation du cloud public.

Comparaison des requêtes ByConity et ClickHouse dans les données d'entreprise

Ensemble de données de test et configuration des ressources

Nombre d'éléments de données : partitionnés par date, 4 milliards d'éléments en une seule journée, 40 milliards au total en 10 jours
Données tabulaires : 2 800 colonnes

Comme le montre le tableau ci-dessus :

Les ressources utilisées par la requête de cluster ClickHouse sont : 400 cœurs et 2560 Go de mémoire

Les ressources utilisées par la requête du cluster de travail ByConity 8 sont : 120 cœurs et 880 Go de mémoire.

Les ressources utilisées par la requête du cluster de travail ByConity 16 sont : 240 cœurs et 1 760 Go de mémoire.

Résumé des résultats des requêtes SQL métier

Le résumé ici utilise la valeur moyenne, comme vous pouvez le voir :

OLAP conventionnel : la déduplication, la rétention, la conversion et l'énumération peuvent obtenir le même effet de requête que le cluster ClickHouse (400C, 2560G) avec un coût de ressources relativement faible (120C, 880G) et peuvent être doublés en augmentant les ressources (240C, 1760G). ) pour obtenir l'effet de doubler la vitesse des requêtes. Si une vitesse de requête plus élevée est requise, davantage de ressources peuvent être étendues ;
L'absence de filtrage peut nécessiter un coût de ressource modéré (240C, 1760G) pour obtenir des effets similaires à ceux du cluster ClickHouse (400C, 2560G) ;
Bitmap peut nécessiter des coûts de ressources plus élevés pour obtenir des effets similaires à ceux des clusters ClickHouse.

Requête générale/requête d'analyse d'événements