Huawei Cloud의 클라우드 기반 FinOps는 사용자가 클라우드를 세심하게 사용하여 단위 비용당 리소스 활용도를 개선하고 시각적 비용 통찰력과 비용 최적화를 통해 비용 절감 및 효율성 목표를 달성할 수 있도록 지원합니다.
기업 클라우드 마이그레이션 현황: 클라우드 마이그레이션 추세가 심화되고 있으나, 클라우드 비용 낭비가 크다
2024년 Flexer의 최신 조사에 따르면 현재 기업의 70% 이상이 클라우드 서비스를 많이 사용하고 있으며 이 수치는 지난해 65%였습니다. 점점 더 많은 기업이 클라우드에 서비스를 배포하기 시작하고 있음을 알 수 있습니다. 기업은 클라우드 공급업체가 제공하는 클라우드 서비스를 사용하는 동시에 클라우드 서비스에 대한 비용도 지불하고 있습니다. 설문 조사에 따르면 평균적으로 클라우드 비용 지출의 약 30%가 비효율적인 지출로 간주됩니다. 클라우드 비용을 절감하는 방법은 최근 몇 년간 클라우드 기업의 최대 관심사가 되었습니다.
엔터프라이즈 클라우드 네이티브화가 점차 심화되고 있지만 비용 관리는 여전히 어려움에 직면해 있습니다.
클라우드 네이티브 기술은 이제 많은 기업이 디지털 혁신을 수행하는 주류 방법이 되었습니다. Kubernetes가 제공하는 리소스 공유, 리소스 격리, 탄력적인 스케줄링 및 기타 기능은 기업이 리소스 활용도를 향상하고 기업 IT 비용을 줄이는 데 도움이 될 수 있습니다. 그러나 2021년 CNCF 'FinOps Kubernetes Report' 조사 보고서에 따르면 쿠버네티스 플랫폼으로 마이그레이션한 후 응답자의 68%는 기업의 컴퓨팅 리소스 비용이 증가했다고 답했으며, 응답자의 36%는 비용이 증가했다고 답했습니다. 20% 이상 급등했다. 그 이유는 곰곰이 생각해 볼 가치가 있습니다.
클라우드 네이티브 시대의 비용 관리가 직면한 과제
클라우드 네이티브 시대의 비용 관리에는 네 가지 모순이 있습니다.
- 사업부 VS 청구 단위: 일반적으로 클라우드 서비스(예: ECS)의 청구 주기는 월별 또는 연간으로 상대적으로 길지만 클라우드 네이티브 컨테이너의 수명 주기는 상대적으로 짧으며 탄력적인 확장 및 오류와 같은 작업이 수행됩니다. 컨테이너를 다시 시작하는 것은 어렵습니다. 이로 인해 리소스의 유휴 비율이 상대적으로 높아질 수 있습니다.
- 용량 계획 VS 리소스 공급: 용량 계획은 일반적으로 정적이며 일반적으로 예산이나 계획에 따라 컨테이너를 미리 준비하는 반면 리소스 공급은 비즈니스에 따라 결정됩니다. 비즈니스 피크 트래픽 영향 및 용량 확장과 같은 시나리오는 용량 계획에 큰 어려움을 초래할 것입니다.
- 통합 거버넌스 VS 멀티 클라우드 배포: 이제 많은 기업이 두 개 이상의 클라우드를 사용하고 있으며 클라우드 공급업체마다 청구 인터페이스와 형식이 다르기 때문에 기업의 멀티 클라우드 통합 비용 관리에 도움이 되지 않습니다.
- 비용 모델 VS 클라우드 기본 아키텍처: 클라우드 공급업체의 비용 모델은 비교적 간단하며 일반적으로 물리적 리소스를 기준으로 청구됩니다. 예를 들어 ECS 서비스는 전체 시스템 가격을 기준으로 청구됩니다. 클라우드 네이티브 아키텍처는 애플리케이션 중심이며 리소스 애플리케이션은 CPU/메모리 단위로 세분화됩니다. 이로 인해 클라우드 네이티브 시나리오의 비용 시각화 및 비용 분석이 더욱 어려워집니다.
요약하자면, 클라우드 네이티브 비용 거버넌스는 세 가지 주요 과제에 직면해 있습니다.
비용 통찰력: 클라우드 네이티브 시나리오에서 비용 시각화를 실현하는 방법, 비용 문제를 빠르게 찾고 리소스 낭비를 식별하는 방법은 무엇입니까?
비용 최적화: 클라우드 기본 비용을 최적화하는 방법에는 여러 가지가 있습니다. 적절한 비용 최적화 방법을 사용하여 이점을 극대화하는 방법은 무엇입니까?
비용 운영: 기업은 어떻게 지속 가능한 비용 거버넌스 시스템과 문화를 구축할 수 있습니까?
Huawei 클라우드 기반 FinOps 솔루션
FinOps는 재무 관리 원칙과 클라우드 엔지니어링 및 운영을 결합하여 조직이 클라우드 지출을 더 잘 이해할 수 있도록 하는 분야입니다. 또한 클라우드 비용을 할당하고 관리하는 방법에 대해 정보에 입각한 결정을 내리는 데 도움이 됩니다. FinOps의 목표는 비용 절감이 아니라 클라우드를 통해 수익이나 비즈니스 가치를 극대화하는 것입니다. 이는 조직이 비즈니스 운영을 지원하는 데 필요한 성능, 안정성 및 보안 수준을 유지하면서 클라우드 지출을 제어하는 데 도움이 됩니다.
FinOps 재단은 FinOps를 정보 제공, 최적화, 운영의 3단계로 정의합니다. 각 팀이나 기업이 FinOps를 얼마나 완료했는지에 따라 회사는 동시에 여러 단계에 있을 수 있습니다.
알림(비용 통찰력): 알림은 FinOps 프레임워크의 첫 번째 단계입니다. 이 단계는 모든 이해관계자에게 정보를 제공하는 데 필요한 정보를 제공하고 클라우드 사용에 대해 정보를 바탕으로 비용 효과적인 결정을 내리도록 설계되었습니다.
비용 최적화: 비용 최적화의 초점은 비용 절감 방법을 찾는 것입니다. 조직이 현재 사용량을 기준으로 리소스 규모를 적절하게 조정하고 할인 혜택을 누릴 수 있는 곳은 어디입니까?
비용 운영: 비용 운영은 FinOps 프레임워크의 마지막 단계입니다. 이 단계에서 조직은 비즈니스 목표에 대한 성과를 지속적으로 평가한 다음 FinOps 관행을 개선할 방법을 찾습니다. 최적화가 이루어지면 조직은 자동화를 활용하여 성능에 영향을 주지 않고 클라우드 리소스를 지속적으로 조정함으로써 정책을 시행하고 비용을 제어할 수 있습니다.
Huawei Cloud의 클라우드 기반 FinOps 솔루션은 업계 FinOps 표준 및 모범 사례를 참조하여 사용자에게 클라우드 기반 비용의 다차원 시각화와 다양한 비용 최적화 관리 방법을 제공하여 고객이 수익 또는 비즈니스 가치를 극대화할 수 있도록 지원합니다.
클라우드 네이티브 FinOps - 비용 통찰력
Huawei Cloud의 클라우드 기반 FinOps 비용 통찰력은 다음과 같은 주요 기능을 제공합니다.
1. 태그 기반 자원 비용 귀속
ECS, EVS 및 기타 리소스와 관련된 클러스터 태그를 지원하여 클러스터 비용 요약 계산을 용이하게 합니다.
2. CBC 청구서를 기반으로 정확한 비용 계산
실제 CBC 청구서를 기준으로 비용 할당을 계산하고 부서 비용을 정확하게 나눕니다.
3. 유연한 비용 할당 전략
클러스터, 네임스페이스, 노드 풀, 애플리케이션, 사용자 지정 등 다양한 차원에서 비용 시각화 및 비용 할당 전략을 지원합니다.
4. 장기적인 비용 데이터 저장 및 검색 지원
최대 2년간 비용 분석을 지원하고, 월별, 분기별, 연간 보고서 및 내보내기를 지원합니다.
5. 워크로드를 빠르게 감지하고 빠르고 탄력적인 시나리오에 쉽게 대처
빠르고 탄력적인 애플리케이션 시나리오의 경우 분 단위 로드 검색 및 청구 기능을 지원하므로 비용을 놓치지 않습니다.
클라우드 네이티브 비용 통찰력 구현 메커니즘 소개:
1. 클러스터 물리적 자원 비용 VS 클러스터 논리적 자원 비용
클러스터 비용은 두 가지 관점에서 계산할 수 있습니다.
- 클러스터 물리적 리소스 비용에는 클러스터 관리 비용, ECS 비용, EVS 비용 등 클러스터와 직간접적으로 관련된 리소스 비용이 포함됩니다. 클러스터의 물리적 자원 비용을 클라우드 비용 청구서에 직관적으로 반영할 수 있습니다.
- 클러스터 논리적 리소스 비용 Kubernetes 리소스의 관점에서 클러스터 비용에는 워크로드 비용과 함께 클러스터 유휴 리소스 비용 및 공용 오버헤드 비용이 포함됩니다.
클러스터의 물리적 자원 비용 = 클러스터 논리 자원의 비용임을 확인하는 것은 어렵지 않습니다.
2. 단위자원(CPU/메모리 등) 비용 계산
클러스터의 물리적 리소스 비용이 알려진 경우 클러스터 논리적 리소스 비용(예: 포드/워크로드)을 도출하는 방법이 클라우드 네이티브 FinOps 비용 통찰력의 핵심입니다. 여기서 해결해야 할 핵심 문제는 단위자원비용의 계산이다. 일반적인 클라우드 가상 머신은 단위 CPU나 메모리 기준이 아닌, 머신 전체의 가격을 기준으로 판매되는 것으로 알고 있습니다. 단, 컨테이너 서비스의 자원 점유는 단위 자원(CPU, 메모리 등)을 기준으로 적용됩니다. 따라서 컨테이너 서비스가 차지하는 비용을 최종적으로 계산하기 위해서는 단위자원당 비용을 계산해야 한다.
일반적으로 클라우드 공급업체는 CPU 또는 메모리의 단위 가격을 추정합니다. CPU와 메모리의 비용 비율을 기준으로 단위 리소스 비용을 계산할 수도 있습니다.
3. 클라우드 네이티브 리소스 비용 계산
아래 그림에서 Pod의 리소스 사용량이 시간이 지남에 따라 동적으로 변동하는 것을 볼 수 있습니다. 포드의 리소스 사용량이 리소스 요청(Request)보다 적을 때도 있고, 리소스 요청(Request)보다 포드의 리소스 사용량이 클 때도 있습니다. Pod 비용을 계산할 때 정기적으로 Pod의 실제 사용량 값과 요청 값을 샘플링하고, 실제 사용량 값과 요청 값의 최대값을 Pod 비용 계산에 사용합니다. 요청 값이 포드에 할당되면 이 리소스는 K8S에 의해 예약되고 다른 포드에 의해 선점되지 않기 때문입니다. 모든 Pod는 요청 부서의 리소스에 대한 비용을 지불해야 합니다. 마찬가지로, 포드의 실제 사용량이 요청보다 많으면 포드도 초과분에 대해 비용을 지불해야 합니다.
위의 원칙을 바탕으로 Pod 비용을 계산할 수 있습니다.
네임스페이스 아래의 모든 포드 비용을 누적하면 네임스페이스 차원의 비용을 얻을 수 있습니다.
위의 계산 논리를 기반으로 Huawei Cloud CCE의 클라우드 기반 비용 관리 기능은 다음과 같은 다차원에서 클러스터 비용 시각화를 가능하게 합니다.
클러스터 비용 시각화
네임스페이스 비용 시각화
노드 풀 비용 시각화
워크로드 비용 시각화
4. 부서 비용 할당 및 비용 분석 보고서
많은 회사에서는 클러스터 설치 네임스페이스의 세분성을 여러 부서에 할당합니다. 그렇다면 각 부서의 비용을 시각적으로 분석하는 방법은 무엇입니까?
위 그림에서 알 수 있듯이, 부서의 비용에는 해당 부서가 속한 네임스페이스의 비용뿐만 아니라 공공 비용의 일부도 포함되어야 합니다. 기능 비용 중 이 부분에는 시스템 네임스페이스 비용과 유휴 리소스 비용이 포함됩니다.
Huawei Cloud CCE 클라우드 기본 비용 관리는 다음 그림과 같이 부서 기반 비용 할당 정책 구성을 지원합니다.
동시에 부서의 비용 할당 전략에 따라 Huawei Cloud CCE 클라우드 기본 비용 관리는 월별/분기별/연간 보고 기능을 제공하여 최대 2년 동안 보고서 쿼리 및 내보내기를 지원합니다.
클라우드 네이티브 FinOps - 비용 최적화
클라우드 네이티브 시나리오에서 리소스 활용도를 개선하는 방법은 무엇입니까?
Gartner 통계에 따르면 평균 기업 CPU 사용량은 15% 미만입니다 . 일반적인 시나리오는 다음과 같습니다.
• 불합리한 리소스 할당 : 일부 사용자는 자신이 제공하는 서비스의 리소스 사용량을 이해하지 못하고 리소스 신청 시 무감각한 경우가 많습니다.
• 비즈니스 최고점과 최저점 : 마이크로서비스에는 명확한 일일 최고점과 최저점 특성이 있습니다. 서비스의 성능과 안정성을 보장하기 위해 사용자는 최고점에 따라 리소스를 신청합니다.
• 자원 단편화 : 서로 다른 비즈니스 부서는 독립적인 자원 풀을 보유하고 있으며 자원을 공유할 수 없으며 자원 단편화가 발생하기 쉽습니다.
컨테이너화는 리소스 활용도를 어느 정도 향상시킬 수 있지만, 컨테이너화에만 의존해서는 효과적으로 해결할 수 없는 몇 가지 문제가 있습니다.
• 자원의 과도한 사용 : 효과적인 자원 권장 및 모니터링 메커니즘이 없는 경우 모래를 과도하게 사용하고 축적하여 자원 낭비를 초래하는 것이 일반적인 관행입니다.
• 통합 리소스 풀 : K8s 기본 스케줄러에는 그룹 및 대기열과 같은 상위 스케줄링 기능이 부족합니다. 컨테이너 탄력성을 활용하기 위해 빅 데이터 비즈니스 스토리지와 컴퓨팅을 통합하기가 어렵습니다.
• 애플리케이션 성능 : 단순히 배포 밀도를 높이는 것만으로는 서비스 품질을 보장할 수 없습니다.
클러스터 리소스 활용도를 향상시키기 위해 CCE의 클라우드 기반 FinOps 솔루션은 지능형 애플리케이션 리소스 사양 추천, 클라우드 기반 하이브리드 배포, 동적 초과 판매 및 기타 기능과 같은 다양한 최적화 방법을 제공합니다.
5. 권장 스마트 애플리케이션 리소스 사양
애플리케이션 성능과 안정성을 보장하기 위해 충분한 시각화 도구가 부족하기 때문에 우리는 항상 애플리케이션에 과도한 리소스를 신청하는 경향이 있습니다. 이러한 문제를 해결하기 위해 CCE 클라우드 네이티브 비용 관리에서는 지능형 애플리케이션 자원 사양 추천 기능을 제공합니다. 이 기능은 애플리케이션의 과거 인물 데이터를 기반으로 하며 기계 학습 알고리즘을 기반으로 애플리케이션에 가장 적합한 애플리케이션 가치를 추천합니다.
6. 화웨이 클라우드 네이티브 코로케이션 솔루션
Huawei Cloud CCE 클라우드 네이티브 하이브리드 솔루션은 화산 플러그인을 기반으로 하며 원클릭 배포를 지원하고 높은 우선순위 및 낮은 우선순위 혼합 배포, 동적 초과 판매, 서비스 QoS 보장 및 기타 기능을 갖춘 컨테이너 서비스를 제공합니다. 주요 기능은 주로 다음과 같습니다.
- 컨테이너 비즈니스 우선순위 및 리소스 격리
- 융합 일정
- 애플리케이션 SLO 인식: 여러 유형의 서비스에 대한 지능형 하이브리드 스케줄링, 애플리케이션 토폴로지 인식, 시분할 다중화, 과잉 판매 등
- 리소스 인식 스케줄링: CPU NUMA 토폴로지 인식, IO 인식, 네트워크 인식 스케줄링, 소프트웨어 및 하드웨어 협업을 제공하여 애플리케이션 성능을 향상시킵니다.
- 클러스터 자원 계획 : 고품질 서비스와 저품질 서비스를 균일하게 충족할 수 있도록 대기열, 공정성, 우선 순위, 예약, 선점 등 풍부한 전략을 제공합니다.
- 노드 QoS 관리: 다차원 리소스 격리, 간섭 확인 및 제거 메커니즘.
다음은 동적 과매도 기능, 즉 유휴 노드 리소스를 재사용하고 리소스 활용도를 향상시키는 방법에 중점을 둡니다.
동적 과잉 판매의 핵심 원칙은 노드 요청과 실제 사용량의 차이를 스케줄러가 재할당할 수 있는 예약 가능한 자원으로 사용하고 품질이 낮은 작업에만 사용하는 것입니다.
과매도 특성에는 다음과 같은 특성이 있습니다.
- 일자리보다 과매도된 자원을 우선적으로 사용
- 고품질 작업이 과매도 노드를 미리 선택하면 과매도되지 않은 리소스만 사용할 수 있습니다.
- 통합 일정 주기에서는 품질이 낮은 작업보다 품질이 높은 작업이 먼저 예약됩니다.
클라우드 네이티브 혼합 배포이든 과매도된 기능이든 리소스 활용도를 향상시킬 수 있습니다. 그렇다면 애플리케이션 성능과 서비스 품질을 보장하면서 리소스 활용도를 향상시키는 방법은 무엇일까요?
Huawei HCE 2.0 OS가 제공하는 CPU 격리 기능은 CPU 빠른 선점, SMT 관리 제어 및 오프라인 작업 억제 명령의 로드 밸런싱 기능과 결합되어 온라인 비즈니스 리소스의 QoS를 보장하고 억제된 오프라인 작업 명령이 다음과 같이 응답하도록 허용합니다. 가능한 한 빨리.
실험실에서 시뮬레이션된 온라인 및 오프라인 공동 배포 시나리오(CPU 활용도 70% 이상)와 단일 서비스가 온라인으로 배포되는 시나리오(CPU 활용도 30%)의 성능 비교를 바탕으로 온라인 서비스의 성능(대기 시간 및 지연 시간)은 처리량) 공동 배포 시나리오의 경우 ) 저하 정도는 단일 배포의 온라인 서비스 성능의 5% 이내로 제어됩니다. 기본적으로 혼합된 부품이 성능에 미치는 영향은 무시할 수 있을 정도로 감소한다고 볼 수 있습니다.
고객 사례를 살펴보겠습니다. 이 고객은 Huawei Cloud의 기본 코로케이션 솔루션을 사용하여 리소스 할당을 최적화하고 궁극적으로 리소스 활용도를 35% 높였습니다.
이 고객의 주요 불만 사항은 다음과 같습니다.
- 애플리케이션 간섭: 빅 데이터와 온라인 음성, 추천 및 기타 애플리케이션은 고품질 작업의 서비스 품질에 영향을 미치는 CPU/메모리, 네트워크와 같은 리소스를 두고 경쟁합니다.
- 불합리한 애플리케이션 리소스 구성: 성공적인 예약을 보장하기 위해 요청 설정이 매우 작으며 로드 리소스 요구 사항을 피드백할 수 없어 리소스 충돌이 발생합니다.
- 애플리케이션이 코어와 함께 번들로 제공됨: 일부 애플리케이션은 코어와 함께 번들로 제공되며 전체 리소스 활용도가 낮습니다.
고객의 불만 사항을 바탕으로 고객에게 다음과 같은 솔루션을 제공합니다.
- 고객은 원래 노드 OS를 CentOS에서 Huawei Cloud HCE OS로 전환했습니다.
- 스케줄러를 원래 기본 스케줄러에서 Volcano 스케줄러로 전환합니다.
- 고객 비즈니스 속성에 따라 일정 우선순위, 격리 및 기타 정책을 구성합니다.
Huawei의 클라우드 기반 코로케이션 솔루션을 통해 고객은 궁극적으로 리소스 활용도가 35% 증가하는 이점을 누릴 수 있습니다.
7. CCE Autopilot: 종량제 및 유연한 사양으로 고객이 비용을 절감할 수 있습니다.
CCE가 새롭게 출시한 Autopilot 클러스터는 애플리케이션의 실제 사용량을 기준으로 종량제를 지원합니다. CCE 클러스터에 비해 장점은 Autopilot 클러스터가 노드 관리 및 운영을 완벽하게 호스팅하므로 노드를 계획하고 구매할 필요가 없다는 것입니다. 자원을 미리 확보하여 비용 관리를 개선합니다.
여기서는 두 가지 고객 시나리오를 살펴보겠습니다.
- 인터넷 엔터테인먼트 및 소셜 네트워킹 비즈니스의 경우 춘절 연휴 기간의 트래픽 양이 평소보다 몇 배나 높습니다. 특별한 추적과 운영 및 유지 관리가 필요하며 리소스를 사전에 확보해야 하므로 비용이 많이 듭니다.
- 온라인 차량호출 플랫폼 사업은 전형적인 아침, 저녁 피크 특성을 가지고 있습니다. 기존의 운전 모드에서는 고객이 수동으로 리소스를 사전에 구매하고 예약해야 하므로 리소스 활용도가 낮습니다.
Autopilot을 통해 정교한 비용 관리가 가능해 궁극적으로 전반적인 비용 절감과 수익 극대화를 달성할 수 있습니다.
화웨이 클라우드의 신기술에 대해 빨리 알아보고 팔로우하려면 클릭하세요~
오픈 소스 산업용 소프트웨어를 포기하기로 결정했습니다 . 주요 이벤트 - OGG 1.0 출시, Huawei가 모든 소스 코드를 제공했습니다. Google Python Foundation 팀이 "코드 똥산"에 의해 해고되었습니다 . ". Fedora Linux 40이 정식 출시되었습니다. 유명 게임 회사가 출시했습니다. 새로운 규정: 직원의 결혼 선물은 100,000위안을 초과할 수 없습니다. China Unicom은 세계 최초로 오픈 소스 모델의 Llama3 8B 중국어 버전을 출시했습니다. Pinduoduo는 보상금을 선고 받았습니다 . 불공정 경쟁에 500만 위안 국내 클라우드 입력 방식 - 화웨이만 클라우드 데이터 업로드 보안 문제 없음