Cet article est partagé par Huawei Cloud Community « Les principaux fabricants mondiaux, Huawei GaussDB et GeminiDB, 17 articles ont été sélectionnés pour la plus grande conférence internationale sur les bases de données ICDE » , auteur : base de données GaussDB.
Du 13 au 17 mai, la conférence académique internationale sur les bases de données ICDE 2024 s'est tenue à Utrecht, aux Pays-Bas. Huawei GaussDB et GeminiDB ont sélectionné 17 articles, devenant ainsi le fabricant de bases de données avec le plus grand nombre d'articles sélectionnés au monde. Nikolaos Ntarmos, directeur du laboratoire de bases de données du Huawei Edinburgh Research Institute, a prononcé un discours intitulé « Huawei Cloud GaussDB, a Better Way to Database », présentant les résultats techniques et commerciaux de Huawei GaussDB aux institutions universitaires et aux représentants du monde entier.
Le nom complet de l'ICDE est « Conférence internationale de l'IEEE sur l'ingénierie des données » (Conférence internationale de l'IEEE sur l'ingénierie des données). Avec SIGMOD et VLDB, elle est connue comme l'une des trois principales conférences dans le domaine des bases de données. conférences dans le domaine des bases de données et jouit d’une grande réputation à l’échelle internationale et jouit d’une vaste influence académique.
L'ICDE comprend les résultats de recherche les plus avancés et de premier ordre dans le domaine des bases de données provenant d'institutions de recherche et d'entreprises technologiques majeures. ICDE 2024 est la 40e conférence internationale de l'IEEE sur l'ingénierie des données. La sélection des 17 articles de Huawei est le résultat d'une coopération amicale et d'efforts conjoints entre l'équipe de recherche scientifique de Huawei et des équipes ou organisations externes. Vous trouverez ci-dessous des extraits de certains des articles sélectionnés par Huawei lors de cette conférence, et tous les articles sélectionnés seront interprétés thématiquement dans le suivi.
GaussML : un système d'apprentissage automatique de bout en bout dans la base de données
L'article « GaussML : An End-to-End In-database Machine Learning System » a été réalisé conjointement par l'Université Tsinghua, Huawei et l'ETH Zurich. Il améliore les performances de la formation et de l'inférence des algorithmes d'apprentissage automatique dans la base de données pour satisfaire en profondeur les besoins réels des utilisateurs. -les exigences d'analyse du temps. Cet article a été très apprécié par l'équipe de révision de la conférence et a estimé qu'il proposait un tout nouveau moteur d'apprentissage automatique.
Le cadre d'apprentissage automatique de la bibliothèque native, appelé GaussML, utilise la formation d'apprentissage automatique comme opérateur d'exécution et utilise les capacités parallèles et distribuées de la base de données pour démontrer les avantages en termes de performances de l'inférence et de la formation d'apprentissage automatique qui sont plus de 10 fois supérieurs à ceux de la bibliothèque native. produits similaires dans l’industrie. Ses principales capacités comprennent :
Premièrement, l'article propose pour la première fois l'architecture d'un moteur d'apprentissage automatique natif d'IA dans la base de données. La formation et l'inférence des algorithmes d'apprentissage automatique sont intégrées dans le processus d'exécution SQL et sont réalisées à l'aide de l'optimiseur de base de données. gestion, traitement simultané et capacités parallèles distribuées et efficacité ultime du raisonnement ;
Deuxièmement, GaussML intègre également la fonctionnalité AutoML dans la bibliothèque, qui peut ajuster les paramètres de manière adaptative et corriger le modèle en fonction des changements de charge. Il conçoit une capacité de réglage automatique du modèle de bout en bout pour simplifier le coût d'ajustement des paramètres du modèle par l'utilisateur et améliorer. la qualité du modèle dans la base de données.
Troisièmement, GaussML atteint des capacités de réglage automatique de bout en bout en créant des processus natifs de formation et d'inférence d'apprentissage automatique dans la base de données, en créant un moteur d'apprentissage automatique complet dans la bibliothèque pour prendre en charge une analyse intelligente en temps réel des activités des clients. Ce cadre simplifie la formation au machine learning et les coûts d'inférence pour les data scientists en fournissant une interface de type SQL, prend en charge les algorithmes de machine learning couramment utilisés et répond aux besoins de la grande majorité des clients.
En résumé, l'article propose un tout nouveau moteur d'apprentissage automatique, qui présente d'excellents avantages en termes de performances sur plusieurs ensembles de données publiques et franchit une nouvelle étape vers le développement de l'intelligence des bases de données.
GaussDB-Global : un système de base de données géographiquement distribué
L'article « GaussDB-Global : A Geographically Distributed Database System » est le résultat de la recherche de l'équipe technologique de base de données Gauss de Huawei. Dans l'article, une méthode de traitement de transactions distribuées basée sur une méthode de synchronisation d'horloge de haute précision est proposée, et un système de base de données mondial distribué entre régions, GaussDB-Global, est construit. La principale mise en œuvre de cet article :
Premièrement, en utilisant la méthode décentralisée de synchronisation des horloges, le système de base de données géographiquement distribué résout le problème de goulot d'étranglement des performances du gestionnaire de transactions centralisé et réalise une transition transparente de la gestion centralisée des transactions à la gestion décentralisée des transactions distribuées. Fournit une méthode de déploiement plus flexible et plus pratique à réaliser. déploiement global d'un ensemble de clusters.
Deuxièmement, en ce qui concerne la lecture à distance et l'envoi de journaux longue distance de données fragmentées, les systèmes de bases de données géographiquement répartis prennent en charge la lecture sur des répliques asynchrones, une cohérence forte, des garanties de fraîcheur réglables et un équilibrage de charge dynamique. Les résultats expérimentaux sur des clusters inter-régions montrent que par rapport à la ligne de base centralisée, cette méthode offre des performances en lecture seule jusqu'à 14 fois supérieures et un débit plus de 50 % plus élevé sur l'ensemble de données standard TPC-C.
QCFE : une ingénierie de fonctionnalités efficace pour l'estimation du coût des requêtes
L'article « QCFE : An Efficient Feature Engineering for Query Cost Estimation » a été réalisé conjointement par l'Institut de technologie de Harbin et les équipes de Huawei. Il propose une méthode efficace d'ingénierie des fonctionnalités (QCFE) pour résoudre le problème d'ingénierie des fonctionnalités dans l'évaluation des instructions de requête existantes. Cette méthode permet d'améliorer considérablement l'efficacité de la précision du temps. Les principales contributions de l'article comprennent :
Premièrement, le concept de Feature Snapshot est proposé pour intégrer l'influence des variables ignorées, telles que les boutons de base de données, le matériel, etc., afin d'améliorer la précision du modèle de coût de requête.
Deuxièmement, une méthode de réduction des caractéristiques de propagation différentielle est conçue pour améliorer encore l’efficacité de la formation du modèle et de l’inférence en éliminant les caractéristiques non valides.
Troisièmement, une conception de modèle SQL simplifiée est introduite pour améliorer l'efficacité du calcul des instantanés de fonctionnalités.
Quatrièmement, les avantages du QCFE en termes d'efficacité et de précision du temps par rapport aux méthodes existantes sont démontrés dans un large éventail de tests de référence, notamment TPC-H, job-light et Sysbench.
En résumé, l’innovation de cette recherche est qu’elle propose une méthode d’ingénierie de fonctionnalités efficace qui peut améliorer considérablement le temps et la précision de l’estimation du coût des requêtes.
TRAP : évaluation de robustesse sur mesure pour les conseillers en indices via des perturbations contradictoires
L'article « TRAP : Tailored Robustness Assessment for Index Advisors via Adversarial Perturbation » a fait l'objet d'une recherche conjointe par l'Université de Xiamen, l'Université de Tsinghua et Huawei. Il résout le problème de robustesse des conseillers d'index existants en proposant un cadre de génération de charge de travail TRAP basé sur l'évaluation contradictoire sexuelle. problèmes.
Le cadre TRAP est capable de générer des charges de travail contradictoires efficaces pour évaluer la robustesse des conseillers indiciels. TRAP présente des avantages évidents dans l’évaluation des conseillers indiciels. L’étude a révélé :
Premièrement, grâce à la génération efficace de charges de travail contradictoires, la robustesse du conseiller d'index peut être évaluée avec précision, car ces charges de travail ne s'écartent pas de la charge de travail d'origine, mais des trous de performances dus à la dérive de la charge de travail peuvent être identifiés.
Deuxièmement, afin de concevoir un conseiller d'index basé sur l'apprentissage plus robuste, l'utilisation de stratégies de représentation d'état à granularité fine et d'élagage de candidats peut améliorer les performances.
Troisièmement, pour concevoir des conseillers indiciels heuristiques plus robustes, il est crucial de prendre en compte les interactions d’index et l’utilisation d’index multi-colonnes pendant le processus de sélection d’index.
Pris ensemble, les résultats ci-dessus fournissent un aperçu de la conception et de l’évaluation des conseillers indiciels et soulignent l’importance de l’évaluation des conseillers indiciels dans des applications pratiques.
Auto-encodeurs masqués à fréquence temporelle pour la détection d'anomalies de séries chronologiques
L'article « Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection » a été publié pour aider les bases de données de séries chronologiques à réduire les pertes en détectant les anomalies à l'avance. En concevant un algorithme léger de détection d'anomalies d'encodeur automatique masqué temps-fréquence (TFMAE) basé sur l'apprentissage profond, il démontre ses bonnes performances sur plusieurs ensembles de données publiques. Cet article a été très apprécié par l'équipe de révision de la conférence et a estimé qu'il proposait un nouveau paradigme pour la détection des anomalies temporelles. Il a finalement été accepté par l'ICDE 2024 sans modification.
En tant que premier article sur la détection des anomalies temporelles à l’aide d’une comparaison de masques temps-fréquence, la recherche se concentre sur les trois points suivants :
Premièrement, un critère de comparaison de détection d'anomalies de séries chronologiques basé sur des masques de domaine temporel et fréquentiel est proposé, qui remplace l'erreur de reconstruction traditionnelle pour déterminer le seuil de détection d'anomalies. Il s'agit d'un critère de jugement qui n'est pas affecté par les changements de distribution.
Deuxièmement, une stratégie de masquage du domaine temporel basée sur une fenêtre et une stratégie de masquage du domaine fréquentiel basée sur l'amplitude sont proposées pour éliminer les observations et les modèles anormaux potentiels dans la séquence. Par conséquent, TFMAE est un modèle résistant aux biais d’anomalies.
Troisièmement, des expériences sur cinq ensembles de données du monde réel et deux ensembles de données synthétiques montrent que TFMAE améliore à la fois les performances et la vitesse de détection.
En résumé, « Autoencodeurs masqués par fréquence temporelle pour la détection d'anomalies de séries temporelles » est le premier article sur la détection d'anomalies de séries temporelles à l'aide d'une comparaison de masques temps-fréquence. Il a un effet promotionnel pratique sur de nombreuses applications dans les secteurs médical, manufacturier, financier et autres.
Les axes de recherche des articles sélectionnés par Huawei lors de cette conférence concernent l'AI4DB, les bases de données de séries chronologiques, l'optimisation des requêtes, la formation et le raisonnement des algorithmes d'apprentissage automatique dans les bases de données... De nombreuses réalisations scientifiques et technologiques bénéficient de l'exploration et de la pratique à long terme de Huawei dans le domaine. de technologie de base de données de pointe, ainsi que sa coopération mondiale avec les meilleures institutions universitaires, résolvent conjointement les problèmes mondiaux dans le domaine des bases de données, intègrent la recherche innovante de pointe dans la technologie des produits grâce à une intégration approfondie de l'industrie, du monde universitaire, de la recherche et des applications, construire un écosystème industriel de bases de données sain et fournir aux clients des produits et services de bases de données innovants et compétitifs.
À l'avenir, Huawei continuera d'innover et d'approfondir ses efforts dans le domaine des bases de données, conduisant ainsi l'industrie à atteindre de nouveaux sommets.
Cliquez pour suivre et découvrir les nouvelles technologies de Huawei Cloud dès que possible~
Les ressources piratées de "Qing Yu Nian 2" ont été téléchargées sur npm, obligeant npmmirror à suspendre le service unpkg. Zhou Hongyi : Il ne reste plus beaucoup de temps à Google. Je suggère que tous les produits soient open source. time.sleep(6) joue ici un rôle. Linus est le plus actif dans la « consommation de nourriture pour chiens » ! Le nouvel iPad Pro utilise 12 Go de puces mémoire, mais prétend disposer de 8 Go de mémoire. Le People's Daily Online examine la charge de type matriochka des logiciels de bureau : Ce n'est qu'en résolvant activement « l'ensemble » que nous pourrons avoir un avenir avec Flutter 3.22 et Dart 3.4 . nouveau paradigme de développement pour Vue3, sans avoir besoin de « ref/reactive », pas besoin de « ref.value » Publication du manuel chinois MySQL 8.4 LTS : vous aider à maîtriser le nouveau domaine de la gestion de bases de données Tongyi Qianwen niveau GPT-4 prix du modèle principal réduit de 97%, 1 yuan et 2 millions de jetons