O FinOps nativo da nuvem da Huawei Cloud ajuda os usuários a usar a nuvem meticulosamente para melhorar a utilização de recursos por custo unitário e atingir metas de redução e eficiência de custos por meio de insights visuais e otimização de custos.
Situação atual da migração empresarial para a nuvem: A tendência da migração para a nuvem continua a se aprofundar, mas há um desperdício significativo nos gastos com nuvem
De acordo com a última pesquisa da Flexer em 2024, mais de 70% das empresas usam atualmente fortemente os serviços em nuvem, enquanto esse número era de 65% no ano passado. Pode-se observar que cada vez mais empresas estão começando a implantar seus serviços na nuvem. Embora as empresas utilizem serviços em nuvem fornecidos por fornecedores de nuvem, elas também pagam por serviços em nuvem. As pesquisas mostram que, em média, cerca de 30% das despesas com custos de nuvem são consideradas despesas ineficazes. Como economizar nos custos da nuvem tornou-se a principal preocupação das empresas de nuvem nos últimos anos.
A nativação da nuvem empresarial está se aprofundando gradualmente, mas o gerenciamento de custos ainda enfrenta desafios
A tecnologia nativa da nuvem tornou-se agora a principal forma de muitas empresas realizarem a transformação digital. O compartilhamento de recursos, o isolamento de recursos, o agendamento elástico e outros recursos fornecidos pelo kubernetes podem ajudar as empresas a melhorar a utilização de recursos e reduzir os custos de TI empresariais. No entanto, o relatório da pesquisa 2021 CNCF "FinOps Kubernetes Report" mostra que após a migração para a plataforma Kubernetes, 68% dos entrevistados disseram que o custo dos recursos de computação em suas empresas aumentou, e 36% dos entrevistados disseram que o custo aumentou aumentou mais de 20%. Vale a pena ponderar as razões por trás disso.
Desafios enfrentados pelo gerenciamento de custos na era nativa da nuvem
Existem quatro contradições no gerenciamento de custos na era nativa da nuvem:
- Unidade de negócios VS unidade de faturamento: Geralmente, o ciclo de faturamento dos serviços em nuvem (como ECS) é relativamente longo, podendo ser mensal ou anual, enquanto o ciclo de vida dos contêineres nativos da nuvem é relativamente curto, e ações como escalabilidade elástica e falha; a reinicialização dos contêineres é difícil. Isso pode levar a uma taxa de ociosidade de recursos relativamente alta.
- Planejamento de capacidade versus fornecimento de recursos: O planejamento de capacidade geralmente é estático, geralmente preparando contêineres com antecedência de acordo com o orçamento ou planejamento, enquanto o fornecimento de recursos é orientado pelos negócios. Cenários como o impacto do pico de tráfego nos negócios e a expansão da capacidade representarão grandes desafios ao planejamento da capacidade.
- Governança unificada versus implantação multinuvem: muitas empresas agora usam mais de uma nuvem, e diferentes fornecedores de nuvem têm diferentes interfaces e formatos de cobrança, o que não favorece o gerenciamento unificado de custos multinuvem das empresas.
- Modelo de custo versus arquitetura nativa de nuvem: O modelo de custo dos fornecedores de nuvem é relativamente simples e geralmente é cobrado com base em recursos físicos. Por exemplo, os serviços ECS são cobrados com base no preço de toda a máquina. A arquitetura nativa da nuvem é centrada na aplicação e a aplicação de recursos é refinada para a granularidade da CPU/memória. Isso torna mais difícil a visualização e a análise de custos de cenários nativos da nuvem.
Resumindo, a governança de custos nativa da nuvem enfrenta três grandes desafios:
Insight de custos: como realizar a visualização de custos em cenários nativos da nuvem, como localizar rapidamente problemas de custos e identificar desperdício de recursos?
Otimização de custos: há muitas maneiras de otimizar os custos nativos da nuvem. Como usar métodos apropriados de otimização de custos para maximizar os benefícios?
Operação de Custos: Como as empresas podem construir um sistema e uma cultura de governança de custos sustentáveis?
Solução FinOps nativa da Huawei Cloud
FinOps é uma disciplina que combina princípios de gestão financeira com engenharia e operações em nuvem para dar às organizações uma melhor compreensão de seus gastos em nuvem. Também os ajuda a tomar decisões informadas sobre como alocar e gerenciar custos de nuvem. O objetivo do FinOps não é economizar dinheiro, mas maximizar a receita ou o valor comercial por meio da nuvem. Ajuda as organizações a controlar os gastos com nuvem, mantendo os níveis de desempenho, confiabilidade e segurança necessários para dar suporte às suas operações comerciais.
A FinOps Foundation define FinOps como três fases: informar, otimizar e operar. Dependendo de quão longe cada equipe ou empresa está na conclusão de FinOps, uma empresa pode estar em vários estágios ao mesmo tempo.
Notificação (Cost Insights): A notificação é a primeira fase da estrutura FinOps. Esta fase foi projetada para fornecer a todas as partes interessadas as informações de que precisam para serem informadas e tomarem decisões informadas e econômicas sobre o uso da nuvem.
Otimização de custos: O foco da otimização de custos é encontrar maneiras de economizar custos. Onde sua organização pode dimensionar corretamente os recursos com base no uso atual e se beneficiar de descontos?
Operações de Custo: As operações de custo são o último estágio da estrutura FinOps. Durante esta fase, a organização avalia continuamente o desempenho em relação às metas de negócios e, em seguida, procura maneiras de melhorar as práticas de FinOps. Com a otimização implementada, as organizações podem aproveitar a automação para aplicar políticas e controlar custos ajustando continuamente os recursos da nuvem sem afetar o desempenho.
A solução FinOps nativa da nuvem da Huawei Cloud refere-se aos padrões e práticas recomendadas de FinOps do setor para fornecer aos usuários uma visualização multidimensional dos custos nativos da nuvem e vários métodos de gerenciamento de otimização de custos para ajudar os clientes a maximizar a receita ou o valor comercial.
FinOps nativos da nuvem: insights de custos
Os insights de custos de FinOps nativos da nuvem da Huawei Cloud fornecem os seguintes recursos principais:
1. Atribuição de custos de recursos baseada em tags
Suporta tags de cluster associadas a ECS, EVS e outros recursos para facilitar o cálculo do resumo de custos de cluster
2. Cálculo preciso de custos com base nas contas do CBC
Calcule a alocação de custos com base em contas reais do CBC e divida com precisão os custos do departamento
3. Estratégia flexível de alocação de custos
Oferece suporte à visualização de custos e estratégias de alocação de custos em diversas dimensões, como clusters, namespaces, pools de nós, aplicativos e personalizações.
4. Suporta armazenamento e recuperação de dados de custo de longo prazo
Oferece suporte à análise de custos por até 2 anos e oferece suporte a relatórios e exportações mensais, trimestrais e anuais.
5. Detecte rapidamente as cargas de trabalho e lide facilmente com cenários elásticos rápidos
Para cenários de aplicativos elásticos rápidos, ele oferece suporte a recursos de descoberta e cobrança de carga em nível de minuto, para que nenhum custo seja perdido.
Introdução ao mecanismo de implementação de insights de custos nativos da nuvem:
1. Custo dos recursos físicos do cluster versus custo dos recursos lógicos do cluster
O custo de um cluster pode ser calculado a partir de duas perspectivas:
- Os custos dos recursos físicos do cluster incluem custos de recursos direta ou indiretamente associados ao cluster, tais como taxas de gestão do cluster, custos do SCE, custos do SVE, etc. O custo dos recursos físicos do cluster pode ser refletido intuitivamente na fatura de custos da nuvem.
- Custo dos recursos lógicos do cluster Do ponto de vista dos recursos do Kubernetes, o custo do cluster inclui o custo da carga de trabalho, mais o custo dos recursos ociosos do cluster e os custos indiretos públicos.
Não é difícil ver que o custo dos recursos físicos do cluster = o custo dos recursos lógicos do cluster.
2. Cálculo do custo do recurso unitário (CPU/memória, etc.)
Quando o custo dos recursos físicos do cluster é conhecido, como derivar o custo dos recursos lógicos do cluster (como pod/carga de trabalho) é a chave para obter informações sobre custos de FinOps nativos da nuvem. O problema central a ser resolvido aqui é o cálculo do custo unitário dos recursos. Sabemos que as máquinas virtuais em nuvem em geral são vendidas com base no preço da máquina inteira, e não com base na unidade de CPU ou memória. No entanto, a ocupação de recursos do serviço de contêiner é aplicada com base nos recursos da unidade (CPU ou memória, etc.). Portanto, o custo por recurso unitário deve ser calculado para finalmente calcular o custo ocupado pelo serviço de contêiner.
Geralmente, os fornecedores de nuvem terão uma estimativa do preço unitário da CPU ou memória. Também podemos calcular o custo unitário dos recursos com base na relação de custo da CPU e da memória.
3. Cálculo de custo de recursos nativos da nuvem
Na figura abaixo, podemos ver que o uso de recursos de um Pod flutua dinamicamente ao longo do tempo. Em alguns momentos, o uso de recursos do pod é menor que a solicitação de recurso (Solicitação) e, em outros momentos, o uso de recursos do pod é maior que a solicitação de recurso (Solicitação). Ao calcular o custo do pod, amostraremos regularmente o valor de uso real e o valor da solicitação do pod e usaremos o valor máximo do valor de uso real e o valor da solicitação para o cálculo do custo do pod. Isso ocorre porque, uma vez atribuído o valor da solicitação a um pod, esse recurso será reservado pelo K8S e não será preemptado por outros pods. Todos os Pods precisam pagar pelos recursos do departamento de Solicitação. Da mesma forma, se o uso real do Pod for maior que o da Solicitação, o Pod também precisará pagar pelo excesso.
Com base nos princípios acima, podemos calcular o custo do Pod:
Ao acumular os custos de todos os pods no namespace, podemos obter o custo da dimensão do namespace:
Com base na lógica de cálculo acima, o recurso de gerenciamento de custos nativo da nuvem do Huawei Cloud CCE permite a visualização dos custos do cluster em múltiplas dimensões, como:
Visualização de custos de cluster
Visualização de custo de namespace
Visualização do custo do pool de nós
Visualização de custos de carga de trabalho
4. Alocação de custos do departamento e relatórios de análise de custos
Muitas empresas alocarão a granularidade de um namespace de instalação de cluster para diferentes departamentos. Então, como analisar visualmente os custos de cada departamento?
Como pode ser visto na figura acima, o custo de um departamento não inclui apenas o custo do namespace ao qual o departamento pertence, mas também deve arcar com parte do custo público. Esta parte do custo funcional inclui o custo do namespace do sistema e o custo dos recursos ociosos.
O gerenciamento de custos nativo da nuvem Huawei Cloud CCE suporta configuração de política de alocação de custos baseada em departamento, conforme mostrado na figura a seguir:
Ao mesmo tempo, com base na estratégia de alocação de custos do departamento, o gerenciamento de custos nativo da nuvem Huawei Cloud CCE fornece funções de relatórios mensais/trimestrais/anuais, suportando consulta e exportação de relatórios por até 2 anos.
FinOps nativos da nuvem - Otimização de custos
Como melhorar a utilização de recursos em cenários nativos da nuvem?
De acordo com as estatísticas do Gartner, o uso médio da CPU corporativa é inferior a 15% . Existem muitos motivos para a baixa utilização de recursos.
• Atribuição irracional de recursos : Alguns utilizadores não compreendem a utilização de recursos dos seus próprios serviços e são cegos quando solicitam recursos. Geralmente solicitam recursos excessivos.
• Altos e baixos nos negócios : os microsserviços têm características óbvias de picos e baixos diários. Para garantir o desempenho e a estabilidade do serviço, os usuários solicitam recursos de acordo com os picos.
• Fragmentação de recursos : diferentes departamentos empresariais possuem conjuntos de recursos independentes, não podem compartilhar recursos e são propensos à fragmentação de recursos.
A conteinerização pode melhorar a utilização de recursos até certo ponto, mas existem alguns problemas que não podem ser resolvidos de forma eficaz confiando apenas na conteinerização:
• Aplicação excessiva de recursos : Se não existir um mecanismo eficaz de recomendação e monitorização de recursos, a prática comum é a aplicação excessiva e a acumulação de areia, resultando no desperdício de recursos.
• Pool de recursos unificado : o agendador nativo do K8 não possui recursos de agendamento de alta ordem, como grupos e filas, é difícil integrar armazenamento e computação de negócios de big data para aproveitar a elasticidade do contêiner;
• Desempenho do aplicativo : O simples aumento da densidade de implantação não pode garantir a qualidade do serviço.
Para melhorar a utilização dos recursos do cluster, a solução FinOps nativa da nuvem da CCE oferece uma variedade de métodos de otimização, como recomendação inteligente de especificação de recursos de aplicativos, implantação híbrida nativa da nuvem, vendas dinâmicas e outros recursos.
5. Especificações recomendadas de recursos de aplicativos inteligentes
Para garantir o desempenho e a confiabilidade das aplicações, e devido à falta de ferramentas de visualização suficientes, tendemos sempre a solicitar recursos excessivos para as aplicações. Para resolver esse problema, o gerenciamento de custos nativo da nuvem CCE fornece uma função inteligente de recomendação de especificação de recursos de aplicativos. Esta função é baseada nos dados históricos do retrato do aplicativo e no algoritmo de aprendizado de máquina para recomendar o melhor valor de aplicativo para o aplicativo.
6. Solução de co-localização nativa da Huawei Cloud
A solução híbrida nativa da nuvem Huawei Cloud CCE é baseada no plug-in vulcão, suporta implantação com um clique e fornece serviços de contêiner com implantação mista de alta e baixa prioridade, venda excessiva dinâmica, garantia de QoS de serviço e outros recursos. Os principais recursos incluem principalmente:
- Prioridade de negócios de contêineres e isolamento de recursos
- Agendamento de fusão
- Reconhecimento de SLO de aplicativos: agendamento híbrido inteligente de vários tipos de serviços, reconhecimento de topologia de aplicativos, multiplexação de compartilhamento de tempo, vendas excessivas, etc.;
- Agendamento com reconhecimento de recursos: Fornece reconhecimento de topologia de CPU NUMA, reconhecimento de E/S, agendamento com reconhecimento de rede e colaboração de software e hardware para melhorar o desempenho do aplicativo;
- Planejamento de recursos de cluster : fornece estratégias ricas, como fila, justiça, prioridade, reserva e preempção para atender uniformemente serviços de alta e baixa qualidade;
- Gerenciamento de QoS do nó: isolamento multidimensional de recursos, verificação de interferência e mecanismo de despejo.
O seguinte se concentra no recurso de sobrevenda dinâmica: como reutilizar recursos de nós ociosos e melhorar a utilização de recursos.
O princípio básico da venda excessiva dinâmica é usar a diferença entre a solicitação do nó e o uso real como um recurso programável para o agendador realocar e usar apenas para tarefas de baixa qualidade.
A característica de sobrevenda possui as seguintes características:
- Priorize o uso de recursos sobrevendidos abaixo dos empregos
- Quando trabalhos de alta qualidade pré-selecionam nós sobrevendidos, eles só podem usar seus recursos não sobrevendidos.
- Num ciclo de agendamento unificado, os trabalhos de alta qualidade são agendados antes dos trabalhos de baixa qualidade.
Quer se trate de implantação mista nativa da nuvem ou de recursos vendidos em excesso, a utilização de recursos pode ser melhorada. Então, como melhorar a utilização de recursos e ao mesmo tempo garantir o desempenho das aplicações e a qualidade do serviço?
A capacidade de isolamento da CPU fornecida pelo sistema operacional Huawei HCE 2.0, combinada com os recursos de balanceamento de carga de preempção rápida da CPU, controle de gerenciamento SMT e instruções de supressão de tarefas off-line, garante a QoS dos recursos de negócios on-line e permite que instruções de tarefas off-line suprimidas sejam respondidas conforme necessário. o mais rápido possível.
Com base na comparação de desempenho entre o cenário simulado de co-implantação online e offline em laboratório (utilização de CPU 70+%) e o cenário onde um único serviço é implantado online (utilização de CPU 30%), o desempenho dos serviços online (latência e taxa de transferência) no cenário de co-implantação) O grau de degradação é controlado dentro de 5% do desempenho do serviço online de uma única implantação. Basicamente, pode-se considerar que o impacto das peças misturadas no desempenho é reduzido a insignificante.
Vejamos o caso de um cliente. Esse cliente usou a solução de colocalização nativa da Huawei Cloud para otimizar a alocação de recursos e, por fim, obteve um aumento de 35% na utilização de recursos.
Os principais pontos fracos deste cliente incluem:
- Interferência de aplicativos: Big data e voz on-line, recomendação e outros aplicativos competem por recursos, como CPU/memória, rede, afetando a qualidade do serviço de tarefas de alta qualidade.
- Configuração irracional de recursos do aplicativo: para garantir o agendamento bem-sucedido, a configuração da solicitação é muito pequena e não pode fornecer feedback aos requisitos de recursos de carga, causando conflitos de recursos.
- Os aplicativos são agrupados com núcleos: alguns aplicativos são agrupados com núcleos e a utilização geral de recursos é baixa.
Com base nos pontos problemáticos do cliente, oferecemos aos clientes as seguintes soluções:
- O cliente trocou o sistema operacional do nó original do CentOS para o sistema operacional Huawei Cloud HCE;
- Mude o agendador do agendador padrão original para o agendador Volcano;
- Configurar prioridade de agendamento, isolamento e outras políticas de acordo com atributos de negócios do cliente;
Através da solução de co-localização nativa da nuvem da Huawei, os clientes podem beneficiar-se de um aumento de 35% na utilização de recursos.
7. Piloto automático CCE: especificações flexíveis e pré-pagas ajudam os clientes a economizar custos
O cluster Autopilot recém-lançado da CCE suporta pagamento conforme o uso com base no uso real do aplicativo. A vantagem sobre o cluster CCE é que o cluster Autopilot hospeda totalmente o gerenciamento e a operação de nós, então você não precisa planejar e comprar nós. recursos antecipadamente, conseguindo assim o refinamento do gerenciamento de custos.
Aqui, analisamos dois cenários de clientes:
- Para empresas de entretenimento na Internet e redes sociais, o volume de tráfego durante o feriado do Festival da Primavera é várias vezes maior que o dos períodos normais, são necessárias garantias especiais de rastreamento e operação e manutenção, e os recursos são reservados com antecedência, o que é caro.
- O negócio de plataformas de transporte de automóveis online tem características típicas de pico matinal e noturno. O modo de condução tradicional exige que os clientes comprem e reservem recursos manualmente com antecedência, resultando em baixa utilização de recursos.
Através do Autopilot, é possível alcançar uma gestão de custos refinada, conseguindo, em última análise, uma redução global de custos e uma maximização das receitas.
Clique para seguir e conhecer as novas tecnologias da Huawei Cloud o mais rápido possível~
Decidi desistir do software industrial de código aberto . Grandes eventos - OGG 1.0 foi lançado, a Huawei contribuiu com todo o código-fonte do Ubuntu 24.04 LTS foi oficialmente demitido . ". O Fedora Linux 40 foi lançado oficialmente. Uma conhecida empresa de jogos lançou novos regulamentos: os presentes de casamento dos funcionários não devem exceder 100.000 yuans. A China Unicom lança a primeira versão chinesa Llama3 8B do mundo do modelo de código aberto. Pinduoduo é condenado a compensar 5 milhões de yuans por concorrência desleal Método de entrada na nuvem doméstica - apenas a Huawei não tem problemas de segurança de upload de dados na nuvem.