FinOps nativo de la nube de Huawei Cloud ayuda a los usuarios a utilizar la nube meticulosamente para mejorar la utilización de recursos por costo unitario y lograr objetivos de eficiencia y reducción de costos a través de información visual sobre costos y optimización de costos.
Estado actual de la migración empresarial a la nube: la tendencia de la migración a la nube continúa profundizándose, pero hay un desperdicio significativo en los gastos de la nube
Según la última encuesta de Flexer en 2024, más del 70% de las empresas utilizan actualmente en gran medida los servicios en la nube, mientras que esta cifra era del 65% el año pasado. Se puede ver que cada vez más empresas están comenzando a implementar sus servicios en la nube. Si bien las empresas utilizan servicios en la nube proporcionados por proveedores de nube, también pagan por los servicios en la nube. Las encuestas muestran que, en promedio, alrededor del 30% de los gastos en costos de la nube se consideran gastos ineficaces. Cómo ahorrar costos en la nube se ha convertido en la principal preocupación de las empresas de la nube en los últimos años.
La nativación de la nube empresarial se está profundizando gradualmente, pero la gestión de costos aún enfrenta desafíos
La tecnología nativa de la nube se ha convertido ahora en la forma principal para que muchas empresas lleven a cabo la transformación digital. El intercambio de recursos, el aislamiento de recursos, la programación elástica y otras capacidades proporcionadas por Kubernetes pueden ayudar a las empresas a mejorar la utilización de los recursos y reducir los costos de TI empresariales. Sin embargo, el informe de la encuesta CNCF "FinOps Kubernetes Report" de 2021 muestra que después de migrar a la plataforma Kubernetes, el 68% de los encuestados dijo que el costo de los recursos informáticos en su empresa ha aumentado, y el 36% de los encuestados dijo que el costo ha aumentado. se disparó más del 20%. Vale la pena reflexionar sobre las razones detrás de esto.
Desafíos que enfrenta la gestión de costos en la era nativa de la nube
Existen cuatro contradicciones en la gestión de costes en la era nativa de la nube:
- Unidad de negocio versus unidad de facturación: generalmente, el ciclo de facturación de los servicios en la nube (como ECS) es relativamente largo, que puede ser mensual o anual, mientras que el ciclo de vida de los contenedores nativos de la nube es relativamente corto y acciones como el escalado elástico y las fallas; El reinicio de los contenedores es difícil. Puede provocar una tasa de inactividad de recursos relativamente alta.
- Planificación de capacidad versus suministro de recursos: la planificación de capacidad es generalmente estática y generalmente prepara los contenedores con anticipación de acuerdo con el presupuesto o la planificación, mientras que el suministro de recursos está impulsado por el negocio. Escenarios como el impacto del tráfico pico en las empresas y la expansión de la capacidad plantearán grandes desafíos para la planificación de la capacidad.
- Gobernanza unificada versus implementación de múltiples nubes: muchas empresas ahora usan más de una nube y diferentes proveedores de nubes tienen diferentes interfaces y formatos de facturación, lo que no favorece la gestión de costos unificada de múltiples nubes de las empresas.
- Modelo de costos versus arquitectura nativa de la nube: el modelo de costos de los proveedores de la nube es relativamente simple y generalmente se factura en función de los recursos físicos. Por ejemplo, los servicios ECS se facturan en función del precio de toda la máquina. La arquitectura nativa de la nube se centra en las aplicaciones y la aplicación de recursos se refina hasta la granularidad de la CPU/memoria. Esto dificulta la visualización y el análisis de costos de los escenarios nativos de la nube.
En resumen, la gobernanza de costos nativa de la nube enfrenta tres desafíos principales:
Cost Insight: ¿Cómo realizar la visualización de costos en escenarios nativos de la nube, cómo localizar rápidamente problemas de costos e identificar el desperdicio de recursos?
Optimización de costos: hay muchas formas de optimizar los costos nativos de la nube. ¿Cómo utilizar métodos adecuados de optimización de costos para maximizar los beneficios?
Operación de costos: ¿Cómo pueden las empresas construir un sistema y una cultura de gestión de costos sostenibles?
Solución FinOps nativa de Huawei Cloud
FinOps es una disciplina que combina principios de gestión financiera con ingeniería y operaciones en la nube para brindar a las organizaciones una mejor comprensión de su gasto en la nube. También les ayuda a tomar decisiones informadas sobre cómo asignar y gestionar los costos de la nube. El objetivo de FinOps no es ahorrar dinero, sino maximizar los ingresos o el valor empresarial a través de la nube. Ayuda a las organizaciones a controlar el gasto en la nube mientras mantiene los niveles de rendimiento, confiabilidad y seguridad necesarios para respaldar sus operaciones comerciales.
La Fundación FinOps define FinOps como tres fases: informar, optimizar y operar. Dependiendo de qué tan lejos esté cada equipo o empresa en completar FinOps, una empresa puede estar en varias etapas al mismo tiempo.
Notificación (Cost Insights): la notificación es la primera fase del marco FinOps. Esta fase está diseñada para proporcionar a todas las partes interesadas la información que necesitan para estar informados y tomar decisiones informadas y rentables sobre el uso de la nube.
Optimización de costos: el objetivo de la optimización de costos es encontrar formas de ahorrar costos. ¿Dónde puede su organización ajustar el tamaño de los recursos según el uso actual y beneficiarse de los descuentos?
Operaciones de costos: las operaciones de costos son la última etapa del marco FinOps. Durante esta fase, la organización evalúa continuamente el desempeño en comparación con los objetivos comerciales y luego busca formas de mejorar las prácticas de FinOps. Con la optimización implementada, las organizaciones pueden aprovechar la automatización para hacer cumplir las políticas y controlar los costos ajustando continuamente los recursos de la nube sin afectar el rendimiento.
La solución FinOps nativa de la nube de Huawei Cloud hace referencia a los estándares y mejores prácticas de FinOps de la industria para brindar a los usuarios una visualización multidimensional de los costos nativos de la nube y múltiples métodos de gestión de optimización de costos para ayudar a los clientes a maximizar los ingresos o el valor comercial.
FinOps nativo en la nube: información sobre costos
Los conocimientos de costos de FinOps nativos de la nube de Huawei Cloud brindan las siguientes características clave:
1. Atribución de costos de recursos basada en etiquetas
Admite etiquetas de clúster asociadas con ECS, EVS y otros recursos para facilitar el cálculo del resumen de costos del clúster
2. Cálculo preciso de costos basado en facturas del CBC
Calcule la asignación de costos basándose en facturas reales de CBC y divida con precisión los costos del departamento
3. Estrategia flexible de asignación de costos
Admite estrategias de visualización y asignación de costos en múltiples dimensiones, como clústeres, espacios de nombres, grupos de nodos, aplicaciones y personalizaciones.
4. Apoyar el almacenamiento y la recuperación de datos de costos a largo plazo
Admite análisis de costos por hasta 2 años y admite exportaciones y informes mensuales, trimestrales y anuales.
5. Detecte rápidamente las cargas de trabajo y haga frente fácilmente a escenarios elásticos rápidos
Para escenarios de aplicaciones rápidas y elásticas, admite capacidades de facturación y descubrimiento de carga a nivel de minutos, de modo que no se pierda ningún costo.
Introducción al mecanismo de implementación de conocimientos de costos nativos de la nube:
1. Costo de recursos físicos del clúster versus costo de recursos lógicos del clúster
El coste de un cluster se puede calcular desde dos perspectivas:
- Los costos de recursos físicos del clúster incluyen costos de recursos asociados directa o indirectamente con el clúster, como tarifas de gestión del clúster, costos de ECS, costos de EVS, etc. El costo de los recursos físicos del clúster se puede reflejar intuitivamente en la factura de costos de la nube.
- Costo de recursos lógicos del clúster Desde la perspectiva de los recursos de Kubernetes, el costo del clúster incluye el costo de la carga de trabajo, más el costo de los recursos inactivos del clúster y los costos generales públicos.
No es difícil ver que el costo de los recursos físicos del clúster = el costo de los recursos lógicos del clúster.
2. Cálculo del costo de recursos unitarios (CPU/memoria, etc.)
Cuando se conoce el costo de los recursos físicos del clúster, cómo derivar el costo de los recursos lógicos del clúster (como pod/carga de trabajo) es la clave para obtener información sobre los costos de FinOps nativa de la nube. El problema central a resolver aquí es el cálculo del costo unitario de los recursos. Sabemos que las máquinas virtuales en la nube generales se venden según el precio de la máquina completa, no según la unidad de CPU o memoria. Sin embargo, la ocupación de recursos del servicio de contenedor se aplica en función de los recursos unitarios (CPU o memoria, etc.). Por lo tanto, se debe calcular el costo por unidad de recurso para finalmente calcular el costo que ocupa el servicio de contenedor.
Generalmente, los proveedores de la nube tendrán una estimación del precio unitario de la CPU o la memoria. También podemos calcular el costo unitario de los recursos en función de la relación de costos de la CPU y la memoria.
3. Cálculo del costo de los recursos nativos de la nube
En la siguiente figura, podemos ver que el uso de recursos de un Pod fluctúa dinámicamente con el tiempo. En algunos momentos, el uso de recursos del Pod es menor que la solicitud de recursos (Solicitud) y, en otras ocasiones, el uso de recursos del Pod es mayor que la solicitud de recursos (Solicitud). Al calcular el costo del Pod, tomaremos muestras periódicamente del valor de uso real y el valor de Solicitud del Pod, y utilizaremos el valor máximo del valor de uso real y el valor de Solicitud para el cálculo del costo del Pod. Esto se debe a que una vez que se asigna el valor de Solicitud a un Pod, K8S reservará este recurso y otros Pods no lo sustituirán. Todos los Pods deben pagar por los recursos del departamento de Solicitudes. De la misma manera, si el uso real del Pod es mayor que la Solicitud, entonces el Pod también deberá pagar el exceso.
Según los principios anteriores, podemos calcular el costo de Pod:
Al acumular los costos de todos los Pods bajo el espacio de nombres, podemos obtener el costo de la dimensión del espacio de nombres:
Según la lógica de cálculo anterior, la función de gestión de costos nativa de la nube de Huawei Cloud CCE permite la visualización de costos del clúster en múltiples dimensiones, como por ejemplo:
Visualización de costos del clúster
Visualización de costos de espacio de nombres
Visualización del costo del grupo de nodos
Visualización de costos de carga de trabajo
4. Informes de análisis de costos y asignación de costos del departamento
Muchas empresas asignarán la granularidad de un espacio de nombres de instalación de clúster a diferentes departamentos. Entonces, ¿cómo analizar visualmente los costes de cada departamento?
Como se puede ver en la figura anterior, el costo de un departamento no solo incluye el costo del espacio de nombres al que pertenece el departamento, sino que también debe cubrir parte del costo público. Esta parte del costo funcional incluye el costo del espacio de nombres del sistema y el costo de los recursos inactivos.
La gestión de costos nativa en la nube de Huawei Cloud CCE admite la configuración de políticas de asignación de costos basada en departamentos, como se muestra en la siguiente figura:
Al mismo tiempo, según la estrategia de asignación de costos del departamento, la gestión de costos nativa en la nube de Huawei Cloud CCE proporciona funciones de informes mensuales/trimestrales/anuales, lo que admite consultas y exportaciones de informes por hasta 2 años.
FinOps nativo en la nube: optimización de costos
¿Cómo mejorar la utilización de recursos en escenarios nativos de la nube?
Según las estadísticas de Gartner, el uso promedio de CPU empresarial es inferior al 15% . Hay muchas razones para la baja utilización de recursos. Los escenarios típicos incluyen:
• Asignación irrazonable de recursos : algunos usuarios no comprenden el uso de recursos de sus propios servicios y no saben cuándo solicitar recursos. Generalmente solicitan recursos excesivos.
• Picos y valles comerciales : los microservicios tienen características obvias de picos y valles diarios para garantizar el rendimiento y la estabilidad del servicio, los usuarios solicitan recursos de acuerdo con los picos.
• Fragmentación de recursos : diferentes departamentos comerciales tienen grupos de recursos independientes, no pueden compartir recursos y son propensos a la fragmentación de recursos.
La contenedorización puede mejorar la utilización de recursos hasta cierto punto, pero existen algunos problemas que no se pueden resolver de manera efectiva confiando únicamente en la contenedorización:
• Aplicación excesiva de recursos : Si no existe un mecanismo eficaz de recomendación y monitoreo de recursos, la práctica común es la aplicación excesiva y la acumulación de arena, lo que resulta en un desperdicio de recursos.
• Grupo de recursos unificado : el programador nativo de K8 carece de capacidades de programación de alto nivel, como grupos y colas, es difícil integrar el almacenamiento y la computación empresarial de big data para aprovechar la elasticidad de los contenedores;
• Rendimiento de la aplicación : el simple hecho de aumentar la densidad de implementación no puede garantizar la calidad del servicio.
Para mejorar la utilización de los recursos del clúster, la solución FinOps nativa de la nube de CCE proporciona una variedad de métodos de optimización, como recomendación de especificación de recursos de aplicaciones inteligentes, implementación híbrida nativa de la nube, sobreventa dinámica y otras capacidades.
5. Especificaciones de recursos de aplicaciones inteligentes recomendadas
Para garantizar el rendimiento y la confiabilidad de las aplicaciones, y debido a la falta de herramientas de visualización suficientes, siempre tendemos a solicitar recursos excesivos para las aplicaciones. Para resolver este problema, la gestión de costos nativa de la nube de CCE proporciona una función de recomendación de especificación de recursos de aplicaciones inteligente. Esta función se basa en los datos históricos de la aplicación y en el algoritmo de aprendizaje automático para recomendar el mejor valor de aplicación para la aplicación.
6. Solución de coubicación nativa de Huawei Cloud
La solución híbrida nativa de la nube Cloud CCE de Huawei se basa en el complemento de volcán, admite la implementación con un solo clic y proporciona servicios de contenedores con implementación mixta de alta y baja prioridad, sobreventa dinámica, garantía de QoS del servicio y otras capacidades. Las capacidades clave incluyen principalmente:
- Prioridad empresarial de contenedores y aislamiento de recursos
- Programación de fusión
- Conciencia de SLO de aplicaciones: programación híbrida inteligente de múltiples tipos de servicios, conciencia de topología de aplicaciones, multiplexación de tiempo compartido, sobreventa, etc.;
- Programación basada en recursos: proporciona conocimiento de la topología NUMA de la CPU, reconocimiento de E/S, programación basada en la red y colaboración de software y hardware para mejorar el rendimiento de las aplicaciones;
- Planificación de recursos del clúster : proporciona estrategias ricas como cola, equidad, prioridad, reserva y preferencia para satisfacer de manera uniforme servicios de alta y baja calidad;
- Gestión de QoS de nodos: aislamiento de recursos multidimensionales, verificación de interferencias y mecanismo de desalojo.
Lo siguiente se centra en la característica de sobreventa dinámica: cómo reutilizar los recursos de los nodos inactivos y mejorar la utilización de los recursos.
El principio básico de la sobreventa dinámica es utilizar la diferencia entre la solicitud del nodo y el uso real como un recurso programable para que el programador lo reasigne y lo use solo para tareas de baja calidad.
La característica de sobreventa tiene las siguientes características:
- Priorizar el uso de recursos sobrevendidos debajo de los trabajos
- Cuando los trabajos de alta calidad preseleccionan nodos sobrevendidos, solo pueden utilizar sus recursos no sobrevendidos.
- En un ciclo de programación unificado, los trabajos de alta calidad se programan antes que los trabajos de baja calidad.
Ya sea que se trate de una implementación mixta nativa de la nube o de funciones sobrevendidas, la utilización de los recursos se puede mejorar. Entonces, ¿cómo mejorar la utilización de recursos y al mismo tiempo garantizar el rendimiento de las aplicaciones y la calidad del servicio?
La capacidad de aislamiento de CPU proporcionada por el sistema operativo HCE 2.0 de Huawei, combinada con las capacidades de equilibrio de carga de preferencia rápida de CPU, control de administración SMT e instrucciones de supresión de tareas fuera de línea, garantiza la calidad del servicio de los recursos comerciales en línea y permite que las instrucciones de tareas fuera de línea suprimidas se respondan como corresponda. lo mas rapido posible.
Según la comparación de rendimiento entre el escenario simulado de implementación conjunta en línea y fuera de línea en el laboratorio (utilización de CPU 70+%) y el escenario donde se implementa un único servicio en línea (utilización de CPU 30%), el rendimiento de los servicios en línea (latencia y rendimiento) en el escenario de implementación conjunta) El grado de degradación se controla dentro del 5% del rendimiento del servicio en línea de una sola implementación. Básicamente, se puede considerar que el impacto de las piezas mezcladas en el rendimiento se reduce a insignificante.
Echemos un vistazo al caso de un cliente. Este cliente utilizó la solución de coubicación nativa de Huawei Cloud para optimizar la asignación de recursos y finalmente logró un aumento del 35 % en la utilización de recursos.
Los principales puntos débiles de este cliente incluyen:
- Interferencia de aplicaciones: Big data y voz en línea, recomendaciones y otras aplicaciones compiten por recursos, como CPU/memoria, red, afectando la calidad del servicio de tareas de alta calidad.
- Configuración irrazonable de recursos de la aplicación: para garantizar una programación exitosa, la configuración de la solicitud es muy pequeña y no puede retroalimentar los requisitos de carga de recursos, lo que provoca conflictos de recursos.
- Las aplicaciones están empaquetadas con núcleos: algunas aplicaciones están empaquetadas con núcleos y la utilización general de recursos es baja.
Según los puntos débiles de los clientes, les ofrecemos las siguientes soluciones:
- El cliente cambió el sistema operativo del nodo original de CentOS al sistema operativo Huawei Cloud HCE;
- Cambie el programador del programador predeterminado original al programador Volcano;
- Configurar la prioridad de programación, el aislamiento y otras políticas de acuerdo con los atributos comerciales del cliente;
A través de la solución de coubicación nativa de la nube de Huawei, los clientes pueden, en última instancia, beneficiarse de un aumento del 35 % en la utilización de recursos.
7. Piloto automático CCE: el pago por uso y las especificaciones flexibles ayudan a los clientes a ahorrar costos
El clúster Autopilot recientemente lanzado por CCE admite el pago por uso según el uso real de la aplicación. La ventaja sobre el clúster CCE es que el clúster Autopilot aloja completamente la administración y operación de los nodos, por lo que no es necesario planificar ni comprar nodos. recursos por adelantado, logrando así un mejor manejo de costos.
Aquí analizamos dos escenarios de clientes:
- Para las empresas de entretenimiento en Internet y redes sociales, el volumen de tráfico durante las vacaciones del Festival de Primavera es varias veces mayor que en épocas normales. Se requieren garantías especiales de seguimiento, operación y mantenimiento, y los recursos se reservan con anticipación, lo cual es costoso.
- El negocio de las plataformas de transporte de vehículos en línea tiene características típicas de picos matutinos y vespertinos. El modo de conducción tradicional requiere que los clientes compren y reserven recursos manualmente con anticipación, lo que resulta en una baja utilización de recursos.
A través de Autopilot, se puede lograr una gestión refinada de costos y, en última instancia, lograr una reducción general de costos y una maximización de ingresos.
Haga clic para seguir y conocer las nuevas tecnologías de Huawei Cloud lo antes posible ~
Decidí renunciar al software industrial de código abierto. Eventos importantes: se lanzó OGG 1.0, Huawei contribuyó con todo el código fuente y se lanzó oficialmente Ubuntu 24.04. El equipo de la Fundación Google Python fue despedido por la "montaña de código de mierda" . ". Se lanzó oficialmente Fedora Linux 40. Una conocida compañía de juegos lanzó Nuevas regulaciones: los obsequios de boda de los empleados no deben exceder los 100.000 yuanes. China Unicom lanza la primera versión china Llama3 8B del mundo del modelo de código abierto. Pinduoduo es sentenciado a compensar 5 millones de yuanes por competencia desleal. Método de entrada en la nube nacional: solo Huawei no tiene problemas de seguridad para cargar datos en la nube.