La solution FinOps cloud native de Huawei Cloud libère la plus grande valeur du cloud natif

Le FinOps cloud natif de Huawei Cloud aide les utilisateurs à utiliser méticuleusement le cloud pour améliorer l'utilisation des ressources par coût unitaire et atteindre les objectifs de réduction des coûts et d'efficacité grâce à des informations visuelles sur les coûts et à l'optimisation des coûts.

État actuel de la migration vers le cloud d'entreprise : la tendance à la migration vers le cloud continue de s'accentuer, mais il existe un gaspillage important des dépenses cloud.

Selon la dernière enquête réalisée par Flexer en 2024, plus de 70 % des entreprises utilisent actuellement massivement les services cloud, alors que ce chiffre était de 65 % l'année dernière. On constate que de plus en plus d’entreprises commencent à déployer leurs services sur le cloud. Même si les entreprises utilisent les services cloud fournis par les fournisseurs de cloud, elles paient également pour ces services. Des enquêtes montrent qu'en moyenne, environ 30 % des dépenses liées au cloud sont considérées comme des dépenses inefficaces. Comment réduire les coûts du cloud est devenu la principale préoccupation des entreprises cloud ces dernières années.

La nativement du cloud dans les entreprises s'approfondit progressivement, mais la gestion des coûts reste confrontée à des défis

La technologie cloud native est désormais devenue le moyen courant pour de nombreuses entreprises de mener à bien leur transformation numérique. Le partage des ressources, l'isolation des ressources, la planification élastique et d'autres fonctionnalités fournies par Kubernetes peuvent aider les entreprises à améliorer l'utilisation des ressources et à réduire les coûts informatiques de l'entreprise. Cependant, le rapport d'enquête CNCF « FinOps Kubernetes Report » 2021 montre qu'après la migration vers la plateforme Kubernetes, 68 % des personnes interrogées ont déclaré que le coût des ressources informatiques dans leur entreprise a augmenté, et 36 % des personnes interrogées ont déclaré que le coût a augmenté. a grimpé de plus de 20 %. Les raisons derrière cela méritent d’être réfléchies.

Les défis rencontrés par la gestion des coûts à l’ère du cloud natif

Il existe quatre contradictions dans la gestion des coûts à l’ère du cloud natif :

  1. Unité commerciale VS unité de facturation : généralement, le cycle de facturation des services cloud (tels que ECS) est relativement long, qui peut être mensuel ou annuel, tandis que le cycle de vie des conteneurs cloud natifs est relativement court, et des actions telles que la mise à l'échelle élastique et les pannes ; le redémarrage des conteneurs est difficile. Cela peut conduire à un taux d'inactivité des ressources relativement élevé.
  2. Planification des capacités versus approvisionnement en ressources : la planification des capacités est généralement statique, préparant généralement les conteneurs à l'avance en fonction du budget ou de la planification, tandis que l'approvisionnement en ressources est déterminé par l'activité. Des scénarios tels que l’impact des pics de trafic et l’expansion de la capacité poseront de grands défis en matière de planification de la capacité.
  3. Gouvernance unifiée versus déploiement multi-cloud : de nombreuses entreprises utilisent désormais plusieurs cloud, et différents fournisseurs de cloud ont des interfaces et des formats de facturation différents, ce qui n'est pas propice à la gestion unifiée des coûts multi-cloud des entreprises.
  4. Modèle de coût VS architecture cloud native : le modèle de coût des fournisseurs de cloud est relativement simple et est généralement facturé en fonction des ressources physiques. Par exemple, les services ECS sont facturés en fonction du prix de la machine entière. L'architecture native du cloud est centrée sur les applications et les applications de ressources sont affinées selon la granularité du processeur/mémoire. Cela rend plus difficile la visualisation et l’analyse des coûts des scénarios cloud natifs.

En résumé, la gouvernance des coûts native du cloud est confrontée à trois défis majeurs :

Cost Insight : Comment réaliser une visualisation des coûts dans des scénarios cloud natifs, comment localiser rapidement les problèmes de coûts et identifier le gaspillage de ressources ?

Optimisation des coûts : il existe de nombreuses façons d'optimiser les coûts natifs du cloud. Comment utiliser les méthodes d'optimisation des coûts appropriées pour maximiser les avantages ?

Opération des coûts : Comment les entreprises peuvent-elles construire un système et une culture de gouvernance des coûts durables ?

Solution FinOps native du Cloud Huawei

FinOps est une discipline qui combine les principes de gestion financière avec l'ingénierie et les opérations cloud pour donner aux organisations une meilleure compréhension de leurs dépenses cloud. Cela les aide également à prendre des décisions éclairées sur la manière d’attribuer et de gérer les coûts du cloud. L’objectif du FinOps n’est pas d’économiser de l’argent, mais de maximiser les revenus ou la valeur commerciale via le cloud. Il aide les organisations à contrôler leurs dépenses cloud tout en maintenant les niveaux de performances, de fiabilité et de sécurité requis pour soutenir leurs opérations commerciales.

La Fondation FinOps définit FinOps comme trois phases : informer, optimiser et exploiter. En fonction du degré d'avancement de chaque équipe ou entreprise dans la réalisation du FinOps, une entreprise peut se trouver à plusieurs étapes en même temps.

Notification (Cost Insights) : la notification est la première phase du cadre FinOps. Cette phase est conçue pour fournir à toutes les parties prenantes les informations dont elles ont besoin pour être informées et prendre des décisions éclairées et rentables concernant l'utilisation du cloud.

Optimisation des coûts : l'objectif de l'optimisation des coûts est de trouver des moyens de réduire les coûts. Où votre organisation peut-elle dimensionner ses ressources en fonction de leur utilisation actuelle et bénéficier de remises ?

Opérations de coûts : les opérations de coûts sont la dernière étape du cadre FinOps. Au cours de cette phase, l'organisation évalue en permanence les performances par rapport aux objectifs commerciaux, puis recherche des moyens d'améliorer les pratiques FinOps. Une fois l'optimisation en place, les organisations peuvent tirer parti de l'automatisation pour appliquer des politiques et contrôler les coûts en ajustant continuellement les ressources cloud sans affecter les performances.

La solution FinOps cloud native de Huawei Cloud fait référence aux normes et meilleures pratiques FinOps de l'industrie pour fournir aux utilisateurs une visualisation multidimensionnelle des coûts natifs du cloud et de multiples méthodes de gestion d'optimisation des coûts pour aider les clients à maximiser leurs revenus ou leur valeur commerciale.

FinOps natifs dans le cloud – Informations sur les coûts

Les informations sur les coûts FinOps natives du cloud de Huawei Cloud offrent les fonctionnalités clés suivantes :

1. Attribution des coûts des ressources basée sur les balises

Prend en charge les balises de cluster associées à ECS, EVS et d'autres ressources pour faciliter le calcul récapitulatif des coûts du cluster

2. Calcul précis des coûts basé sur les factures de CBC

Calculez la répartition des coûts en fonction des factures réelles de CBC et divisez avec précision les coûts des départements.

3. Stratégie flexible de répartition des coûts

Prend en charge les stratégies de visualisation et de répartition des coûts dans plusieurs dimensions telles que les clusters, les espaces de noms, les pools de nœuds, les applications et les personnalisations.

4. Prise en charge du stockage et de la récupération des données sur les coûts à long terme

Prend en charge l’analyse des coûts jusqu’à 2 ans et prend en charge les rapports et exportations mensuels, trimestriels et annuels.

5. Détectez rapidement les charges de travail et gérez facilement des scénarios élastiques rapides

Pour les scénarios d’applications élastiques et rapides, il prend en charge des capacités de découverte de charge et de facturation à la minute près, afin qu’aucun coût ne soit oublié.

Introduction au mécanisme de mise en œuvre des informations sur les coûts natifs du cloud :

1. Coût des ressources physiques du cluster VS coût des ressources logiques du cluster

Le coût d’un cluster peut être calculé sous deux angles :

  • Les coûts des ressources physiques du cluster incluent les coûts des ressources directement ou indirectement associés au cluster, tels que les frais de gestion du cluster, les coûts ECS, les coûts EVS, etc. Le coût des ressources physiques du cluster peut être intuitivement reflété dans la facture des coûts du cloud.
  • Coût des ressources logiques du cluster . Du point de vue des ressources Kubernetes, le coût du cluster comprend le coût de la charge de travail, plus le coût des ressources inactives du cluster et les frais généraux publics.

Il n'est pas difficile de voir que le coût des ressources physiques du cluster = le coût des ressources logiques du cluster.

2. Calcul du coût des ressources unitaires (CPU/mémoire, etc.)

Lorsque le coût des ressources physiques du cluster est connu, la manière de dériver le coût des ressources logiques du cluster (comme le pod/la charge de travail) est la clé de la compréhension des coûts FinOps natifs du cloud. Le problème central à résoudre ici est le calcul du coût unitaire des ressources. Nous savons que les machines virtuelles cloud générales sont vendues sur la base du prix de la machine entière, et non sur la base du processeur ou de la mémoire unitaire. Cependant, l'occupation des ressources du service conteneur est appliquée en fonction des ressources unitaires (CPU ou mémoire, etc.). Il faut donc calculer le coût par ressource unitaire pour finalement calculer le coût occupé par le service conteneur.

Généralement, les fournisseurs de cloud disposent d'une estimation du prix unitaire du processeur ou de la mémoire. Nous pouvons également calculer le coût unitaire des ressources en fonction du rapport de coût du processeur et de la mémoire.

3. Calcul du coût des ressources natives du cloud

D'après la figure ci-dessous, nous pouvons voir que l'utilisation des ressources d'un Pod fluctue de manière dynamique au fil du temps. À certains moments, l'utilisation des ressources du pod est inférieure à la demande de ressources (Demande), et à d'autres moments, l'utilisation des ressources du Pod est supérieure à la demande de ressources (Demande). Lors du calcul du coût du Pod, nous échantillonnerons régulièrement la valeur d'utilisation réelle et la valeur de requête du Pod, et utiliserons la valeur maximale de la valeur d'utilisation réelle et la valeur de requête pour le calcul du coût du Pod. En effet, une fois la valeur de la requête attribuée à un pod, cette ressource sera réservée par K8S et ne sera pas préemptée par les autres pods. Tous les Pods doivent payer pour les ressources du service Request. De la même manière, si l’utilisation réelle du Pod est supérieure à la Demande, alors le Pod devra également payer l’excédent.

Sur la base des principes ci-dessus, nous pouvons calculer le coût du Pod :

En accumulant les coûts de tous les pods sous l'espace de noms, nous pouvons obtenir le coût de la dimension de l'espace de noms :

Sur la base de la logique de calcul ci-dessus, la fonctionnalité cloud native de gestion des coûts de Huawei Cloud CCE permet de visualiser les coûts du cluster dans plusieurs dimensions, telles que :

Visualisation des coûts du cluster

Visualisation du coût de l'espace de noms

Visualisation du coût du pool de nœuds

Visualisation des coûts de la charge de travail

4. Rapports de répartition des coûts du département et d'analyse des coûts

De nombreuses entreprises attribuent la granularité d'un espace de noms d'installation de cluster à différents services. Alors comment analyser visuellement les coûts de chaque département ?

Comme le montre la figure ci-dessus, le coût d'un département comprend non seulement le coût de l'espace de noms auquel le département appartient, mais doit également supporter une partie des coûts publics. Cette partie du coût fonctionnel comprend le coût de l'espace de noms du système et le coût des ressources inutilisées.

La gestion native des coûts dans le cloud Huawei Cloud CCE prend en charge la configuration des politiques de répartition des coûts basées sur les départements, comme le montre la figure suivante :

Dans le même temps, sur la base de la stratégie de répartition des coûts du département, la gestion native des coûts dans le cloud Huawei Cloud CCE fournit des fonctions de reporting mensuel/trimestriel/annuel, prenant en charge l'interrogation et l'exportation de rapports jusqu'à 2 ans.

Cloud Native FinOps - Optimisation des coûts

Comment améliorer l’utilisation des ressources dans les scénarios cloud natifs ?

Selon les statistiques de Gartner, l'utilisation moyenne du processeur par l'entreprise est inférieure à 15 % . Il existe de nombreuses raisons pour expliquer une faible utilisation des ressources. Les scénarios typiques incluent :

Allocation déraisonnable des ressources : Certains utilisateurs ne comprennent pas l'utilisation des ressources de leurs propres services et sont aveugles lorsqu'ils demandent des ressources. Ils demandent généralement des ressources excessives. 

Pics et creux d'activité : les microservices présentent des caractéristiques de pic et de creux quotidiens évidentes. Pour garantir la performance et la stabilité du service, les utilisateurs sollicitent des ressources en fonction des pics. 

Fragmentation des ressources : différents départements métier disposent de pools de ressources indépendants, ne peuvent pas partager les ressources et sont sujets à la fragmentation des ressources. 

La conteneurisation peut améliorer l'utilisation des ressources dans une certaine mesure, mais certains problèmes ne peuvent pas être résolus efficacement en s'appuyant uniquement sur la conteneurisation :

Application excessive des ressources : S'il n'existe pas de recommandation efficace sur les ressources ni de mécanisme de suivi, la pratique courante consiste à une application excessive et à une accumulation de sable, entraînant un gaspillage des ressources. 

Pool de ressources unifié : le planificateur natif de K8 ne dispose pas de fonctionnalités de planification de haut niveau telles que les groupes et les files d'attente ; il est difficile d'intégrer le stockage et l'informatique d'entreprise Big Data pour tirer parti de l'élasticité des conteneurs. 

Performance des applications : La simple augmentation de la densité de déploiement ne peut garantir la qualité du service. 

Afin d'améliorer l'utilisation des ressources du cluster, la solution FinOps cloud native de CCE fournit une variété de méthodes d'optimisation, telles que la recommandation intelligente de spécifications de ressources d'application, le déploiement hybride cloud natif, la survente dynamique et d'autres fonctionnalités.

5. Spécifications recommandées des ressources d'application intelligentes

Afin de garantir les performances et la fiabilité des applications, et en raison du manque d'outils de visualisation suffisants, nous avons toujours tendance à solliciter des ressources excessives pour les applications. Afin de résoudre ce problème, la gestion des coûts native du cloud CCE fournit une fonction intelligente de recommandation de spécification de ressources d'application. Cette fonction est basée sur les données historiques du portrait de l'application et sur l'algorithme d'apprentissage automatique pour recommander la meilleure valeur d'application pour l'application.

6. Solution de colocalisation native Huawei Cloud

La solution hybride cloud native Huawei Cloud CCE est basée sur le plug-in volcan, prend en charge le déploiement en un clic et fournit des services de conteneurs avec un déploiement mixte haute et basse priorité, une survente dynamique, une garantie de qualité de service du service et d'autres fonctionnalités. Les capacités clés comprennent principalement :

  • Priorité commerciale des conteneurs et isolation des ressources
  • Planification des fusions
  1. Connaissance du SLO des applications : planification hybride intelligente de plusieurs types de services, connaissance de la topologie des applications, multiplexage en temps partagé, survente, etc. ;
  2. Planification tenant compte des ressources : fournit une connaissance de la topologie du processeur NUMA, une prise en compte des E/S, une planification tenant compte du réseau et une collaboration logicielle et matérielle pour améliorer les performances des applications ;
  3. Planification des ressources du cluster : fournit des stratégies riches telles que la file d'attente, l'équité, la priorité, la réservation et la préemption pour répondre uniformément aux services de haute et de mauvaise qualité ;
  • Gestion de la qualité de service des nœuds : isolation multidimensionnelle des ressources, vérification des interférences et mécanisme d'expulsion.

Ce qui suit se concentre sur la fonctionnalité de survente dynamique : comment réutiliser les ressources des nœuds inactifs et améliorer l'utilisation des ressources.

Le principe de base de la survente dynamique est d'utiliser la différence entre la demande de nœud et l'utilisation réelle comme ressource planifiable que le planificateur peut réaffecter et utiliser uniquement pour des tâches de faible qualité.

La caractéristique de survente présente les caractéristiques suivantes :

  • Donner la priorité à l’utilisation des ressources survendues en dessous des emplois
  • Lorsque des tâches de haute qualité présélectionnent des nœuds survendus, ils ne peuvent utiliser que leurs ressources non survendues.
  • Dans un cycle de planification unifié, les tâches de haute qualité sont planifiées avant les tâches de mauvaise qualité.

Qu'il s'agisse d'un déploiement mixte cloud natif ou de fonctionnalités survendues, l'utilisation des ressources peut être améliorée. Alors, comment améliorer l’utilisation des ressources tout en garantissant les performances des applications et la qualité du service ?

La capacité d'isolation du processeur fournie par le système d'exploitation Huawei HCE 2.0, combinée aux capacités d'équilibrage de charge de préemption rapide du processeur, de contrôle de gestion SMT et d'instructions de suppression de tâches hors ligne, garantit la qualité de service des ressources commerciales en ligne et permet de répondre aux instructions de tâches hors ligne supprimées comme suit. Aussi vite que possible.

Sur la base de la comparaison des performances entre le scénario de co-déploiement en ligne et hors ligne simulé en laboratoire (utilisation du CPU 70+ %) et le scénario dans lequel un seul service est déployé en ligne (utilisation du CPU 30 %), les performances des services en ligne (latence et débit) dans le scénario de co-déploiement) Le degré de dégradation est contrôlé dans la limite de 5 % des performances du service en ligne d'un déploiement unique. Fondamentalement, on peut considérer que l’impact des pièces mixtes sur les performances est réduit à négligeable.

Jetons un coup d'œil au cas d'un client. Ce client a utilisé la solution de colocalisation native de Huawei Cloud pour optimiser l'allocation des ressources et a finalement obtenu une augmentation de 35 % de l'utilisation des ressources.

Les principaux problèmes de ce client incluent :

  • Interférence des applications : le Big Data et la voix en ligne, les recommandations et autres applications se disputent les ressources, telles que le processeur/la mémoire, le réseau, affectant la qualité de service des tâches de haute qualité.
  • Configuration déraisonnable des ressources d'application : afin de garantir une planification réussie, le paramètre de demande est très petit et ne peut pas répondre aux besoins en ressources de charge, provoquant des conflits de ressources.
  • Les applications sont regroupées avec des cœurs : certaines applications sont regroupées avec des cœurs et l'utilisation globale des ressources est faible.

Sur la base des problèmes des clients, nous leur proposons les solutions suivantes :

  • Le client a remplacé le système d'exploitation du nœud d'origine de CentOS par le système d'exploitation Huawei Cloud HCE ;
  • Basculez le planificateur du planificateur par défaut d'origine vers le planificateur Volcano ;
  • Configurer la priorité de planification, l'isolement et d'autres politiques en fonction des attributs commerciaux du client ;

Grâce à la solution de colocalisation cloud native de Huawei, les clients peuvent à terme bénéficier d'une augmentation de 35 % de l'utilisation des ressources.

7. Pilote automatique CCE : le paiement à l'utilisation et les spécifications flexibles aident les clients à réduire leurs coûts

Le cluster Autopilot récemment lancé par CCE prend en charge le paiement à l'utilisation en fonction de l'utilisation réelle de l'application. L'avantage par rapport au cluster Autopilot est que le cluster Autopilot héberge entièrement la gestion et le fonctionnement des nœuds, vous n'avez donc pas besoin de planifier et d'acheter un nœud. ressources à l’avance, permettant ainsi d’affiner la gestion des coûts.

Nous examinons ici deux scénarios clients :

  • Pour les entreprises de divertissement sur Internet et de réseaux sociaux, le volume de trafic pendant les vacances de la Fête du Printemps est plusieurs fois supérieur à celui des heures normales. Des garanties spéciales de suivi, d'exploitation et de maintenance sont nécessaires, et les ressources sont réservées à l'avance, ce qui est coûteux.
  • L'activité des plateformes d'appel de voitures en ligne présente des caractéristiques typiques de pointe le matin et le soir. Le mode de conduite traditionnel oblige les clients à acheter et à réserver manuellement des ressources à l'avance, ce qui entraîne une faible utilisation des ressources.

Grâce à Autopilot, une gestion raffinée des coûts peut être obtenue, permettant ainsi une réduction globale des coûts et une maximisation des revenus.

Cliquez pour suivre et découvrir les nouvelles technologies de Huawei Cloud dès que possible~

J'ai décidé d'abandonner les logiciels industriels open source. OGG 1.0 est sorti, Huawei a contribué à tout le code source. Ubuntu 24.04 LTS a été officiellement publié. L'équipe de Google Python Foundation a été tuée par la "montagne de merde de code" . ". Fedora Linux 40 a été officiellement lancé. Une société de jeux bien connue a publié de nouvelles réglementations : les cadeaux de mariage des employés ne doivent pas dépasser 100 000 yuans. China Unicom lance la première version chinoise Llama3 8B au monde du modèle open source. Pinduoduo est condamné à compenser 5 millions de yuans pour concurrence déloyale Méthode de saisie dans le cloud domestique - seul Huawei n'a aucun problème de sécurité de téléchargement de données dans le cloud.
{{o.name}}
{{m.nom}}

Je suppose que tu aimes

Origine my.oschina.net/u/4526289/blog/11062915
conseillé
Classement