Wuhan Yuan Chuanghui regresa, hablemos de modelos grandes el 20 de abril”

Autor ｜ Cheng Wei, ingeniero de I + D de big data de MetaAPP

GitHub ｜https://github.com/ByConity/ByConity

ByConity es el almacén de datos nativo de la nube de código abierto de ByteDance. Satisface las necesidades de los usuarios del almacén de datos en cuanto a expansión y contracción elástica de recursos, separación de lectura y escritura, aislamiento de recursos, sólida consistencia de datos, etc., al mismo tiempo que proporciona un excelente rendimiento de consultas y escritura.

MetaApp es un desarrollador y operador de juegos líder en China, que se centra en la distribución eficiente de información móvil y está comprometido con la construcción de un mundo virtual para todas las edades. En 2023, MetaApp tiene más de 200 millones de usuarios registrados, ha colaborado en 200.000 juegos y tiene un volumen de distribución acumulado de más de mil millones.

MetaApp prestó atención a ByConity en los primeros días del código abierto y fue uno de los primeros usuarios en probarlo y lanzarlo en el entorno de producción. Con la idea de comprender las capacidades de los proyectos de almacenamiento de datos de código abierto, el equipo de I+D de big data de MetaApp realizó una prueba preliminar en ByConity. Su arquitectura de separación de almacenamiento-cómputo y su excelente rendimiento, especialmente en escenarios de análisis de registros, soporte para consultas complejas en datos a gran escala, atrajeron a MetaApp para realizar pruebas en profundidad de ByConity y, finalmente, reemplazó por completo a ClickHouse en el entorno de producción, reduciendo los costos de recursos. en más del 50%.

Este artículo presentará principalmente las funciones de la plataforma de análisis de datos MetaApp, los problemas y soluciones encontrados en escenarios comerciales y la ayuda para introducir ByConity en su negocio.

Arquitectura y funciones de la plataforma de análisis de datos MetaApp OLAP

Con el crecimiento del negocio y la introducción de operaciones refinadas, los productos han planteado mayores requisitos para el departamento de datos, incluida la necesidad de consultar y analizar datos en tiempo real y ajustar rápidamente las estrategias operativas para realizar experimentos AB en un pequeño grupo de personas; verificar la efectividad de nuevas funciones. Reduce el tiempo y la dificultad de la consulta de datos, permitiendo a los no profesionales analizar y explorar datos de forma independiente. Para satisfacer las necesidades comerciales, MateApp ha implementado una plataforma de análisis de datos OLAP que integra análisis de eventos, análisis de conversión, retención personalizada, agrupación de usuarios, análisis de flujo de comportamiento y otras funciones .

Esta es una arquitectura OLAP típica, dividida en dos partes, una fuera de línea y la otra en tiempo real.

En el escenario fuera de línea , utilizamos DataX para integrar los datos de Kafka en el almacén de datos de Hive y luego generar informes de BI. Los informes de BI utilizan el componente Superconjunto para mostrar resultados;

En un escenario en tiempo real , una línea usa GoSink para la integración de datos e integra los datos de GoSink en ClickHouse, y la otra línea usa CnchKafka para integrar los datos en ByConity. Finalmente los datos se obtienen a través de la plataforma de consulta OLAP para su consulta.

Comparación de funciones entre ByConity y ClickHouse

ByConity es un almacén de datos nativo de la nube de código abierto desarrollado en base al núcleo de ClickHouse y adopta una arquitectura de separación de almacenamiento y computación. Ambos tienen las siguientes características:

La velocidad de escritura es muy rápida, adecuada para escribir grandes cantidades de datos y la cantidad de datos escritos puede alcanzar entre 50 MB y 200 MB/s.
La velocidad de consulta es muy rápida. Con datos masivos, la velocidad de consulta puede alcanzar 2-30 GB/s.
Alto índice de compresión de datos, bajo costo de almacenamiento, el índice de compresión puede alcanzar 0,2 ~ 0,3

ByConity tiene las ventajas de ClickHouse, mantiene una buena compatibilidad con ClickHouse y se ha mejorado en términos de separación de lectura y escritura, expansión y contracción elástica y una sólida coherencia de datos . Ambos son aplicables a los siguientes escenarios OLAP:

Los conjuntos de datos pueden ser grandes: miles de millones o billones de filas.
La tabla de datos contiene muchas columnas.
Consultar solo columnas específicas
Los resultados deben devolverse en milisegundos o segundos.

En intercambios anteriores, la comunidad de ByConity comparó los dos [desde una perspectiva de uso]

Durante la construcción de la plataforma OLAP, nos centramos principalmente en el aislamiento de recursos, la expansión y contracción de la capacidad , las consultas complejas y el soporte para transacciones distribuidas .

Problemas encontrados al usar ClickHouse

Problema 1: la lectura y escritura integradas pueden apoderarse fácilmente de los recursos y no pueden garantizar una lectura/escritura estable.

Durante los períodos comerciales pico, la escritura de datos ocupará una gran cantidad de recursos de IO y CPU, lo que afectará las consultas (los tiempos de consulta serán más largos). Lo mismo ocurre con las consultas de datos.

Problema 2: la expansión/reducción es problemática y lleva mucho tiempo

Largo tiempo de expansión/reducción: dado que la máquina está en un IDC y pertenece a una nube privada, uno de los problemas es que el ciclo de adición de nodos es extremadamente largo. Desde el momento en que se emite la demanda de nodos hasta la adición real de nodos buenos, pasan de una a dos semanas, lo que afecta el negocio;
No se puede ampliar y reducir rápidamente: los datos deben redistribuirse después de la ampliación; de lo contrario, la presión del nodo será muy alta.

Problema tres: la operación y el mantenimiento son engorrosos y no se puede garantizar el SLA durante los períodos de mayor actividad comercial.

A menudo, debido a fallas en los nodos comerciales, las consultas de datos son lentas y la escritura de datos se retrasa (de unas pocas horas a unos días);
Hay una grave escasez de recursos durante los períodos de mayor actividad comercial y es imposible ampliar los recursos en el corto plazo. La única forma es eliminar los datos de algunos servicios para brindar servicios de alta prioridad;
Durante los períodos de escasez de negocios, una gran cantidad de recursos están inactivos y los costos están inflados. Aunque estamos en IDC, la compra de máquinas IDC también está sujeta a control de costos y la expansión del nodo no puede ser ilimitada. Además, existe un cierto consumo de costos durante el uso normal;
No se puede interactuar con los recursos de la nube.

Mejoras tras la introducción de ByConity

En primer lugar, la separación de ByConity de los recursos informáticos de lectura y escritura puede garantizar que las tareas de lectura y escritura sean relativamente estables. Si las tareas de lectura no son suficientes, los recursos correspondientes se pueden ampliar para compensar la escasez, incluido el uso de recursos de la nube para la expansión.

En segundo lugar, aumentar y reducir la escala es relativamente simple y se puede realizar en un nivel de minutos. Dado que se utiliza almacenamiento distribuido HDFS/S3 y la informática y el almacenamiento están separados, no se requiere la redistribución de datos después de la expansión y se pueden usar directamente después de la expansión.

Además, la implementación, operación y mantenimiento nativos de la nube son relativamente simples.

Los componentes de HDFS/S3 son relativamente maduros y estables, con expansión y contracción de capacidad, soluciones maduras de recuperación ante desastres y los problemas se pueden resolver rápidamente;
Durante los períodos de mayor actividad comercial, el SLA se puede garantizar mediante una rápida expansión de los recursos;
Durante los períodos de menor actividad comercial, los costos se pueden reducir reduciendo los recursos de almacenamiento/cómputo.

El uso y funcionamiento de ByConity

Uso del clúster ByConity

Actualmente, nuestra plataforma ha utilizado ByConity de manera estable en escenarios comerciales. A través de sucesivas migraciones, ByConity se ha hecho cargo por completo de los datos del cluster ClickHouse y ha comenzado a prestar servicios de forma estable. Construimos el clúster ByConity usando S3 plus K8 en la nube. También utilizamos una solución de expansión y contracción programada, que se puede expandir a las 10 a. m. y reducir a las 8 p. m. de lunes a viernes. día. . Según los cálculos, este método reduce los recursos entre un 40% y un 50% en comparación con el uso directo de suscripciones anuales y mensuales. Además, también estamos impulsando la combinación de nube privada + nube pública para lograr el propósito de reducir costos y mejorar la estabilidad del servicio.

La siguiente figura muestra nuestro uso actual, utilizando el servidor OLAP para realizar consultas conjuntas en el clúster ClickHouse y ByConity en la sala de computadoras IDC fuera de línea. A corto plazo, el clúster de ClickHouse seguirá utilizándose como transición para las empresas que dependen parcialmente de ClickHouse.

En el futuro, consultaremos y fusionaremos datos sin conexión, mientras que los recursos consumidos por Kafka se utilizarán en línea. Al expandir los recursos, puede expandir los recursos de vw_default y vw_write en línea y utilizar racionalmente los recursos de la nube pública para abordar el problema de los recursos insuficientes. Al mismo tiempo, la capacidad se reduce durante los picos comerciales bajos para reducir el consumo de la nube pública.

Comparación de consultas ByConity y ClickHouse en datos comerciales

Conjunto de datos de prueba y configuración de recursos.

Número de elementos de datos: particionados por fecha, 4 mil millones de elementos en un solo día, 40 mil millones en total en 10 días
Datos tabulares: 2800 columnas

Como se puede ver en la tabla anterior:

Los recursos utilizados por la consulta del clúster ClickHouse son: 400 núcleos y 2560G de memoria

Los recursos utilizados por la consulta del clúster de trabajadores de ByConity 8 son: 120 núcleos y 880G de memoria

Los recursos utilizados por la consulta del clúster de trabajadores ByConity 16 son: 240 núcleos y 1760G de memoria

Resumen de los resultados de la consulta SQL empresarial

El resumen aquí utiliza el valor promedio, como puede ver:

OLAP convencional: la deduplicación, retención, conversión y enumeración pueden lograr el mismo efecto de consulta que el clúster ClickHouse (400C, 2560G) con un costo de recursos relativamente pequeño (120C, 880G) y se puede duplicar expandiendo los recursos (240C, 1760G). ) para lograr el efecto de duplicar la velocidad de consulta. Si se requiere una mayor velocidad de consulta, se pueden ampliar más recursos;
No estar en el filtrado puede requerir un costo de recursos moderado (240C, 1760G) para lograr efectos similares al clúster ClickHouse (400C, 2560G);
El mapa de bits puede requerir mayores costos de recursos para lograr efectos similares a los de los clústeres de ClickHouse.

Consulta general/consulta de análisis de eventos