Wuhan Yuan Chuanghui regresa, hablemos de modelos grandes el 20 de abril”

Hoy en día, bajo la tendencia de la "domesticación", la ola de emprendimiento en el campo de las bases de datos nacionales es cada vez mayor. A finales de 2023, hay casi 300 productos de bases de datos en el mercado chino y alrededor de 100 fabricantes de bases de datos. Instituciones de inversión reconocidas como Sequoia, Hillhouse, Tencent, etc. han cerrado. Cada una de ellas tiene al menos tres bases de datos de inversión, lo que demuestra el favor del capital.

Algunas bases de datos confiaron en sus propias fuerzas para obtener 100 millones de yuanes en financiación, ganar licitaciones para múltiples proyectos, crecer de manera constante y salir a bolsa con éxito; sin embargo, también hay algunas bases de datos que todavía están siendo cuestionadas por el mercado; Entre las 16 empresas que cotizan en bolsa relacionadas con bases de datos nacionales, muy pocas son rentables, lo que hace que la gente se pregunte cuánto tiempo puede durar este modelo de "perder dinero y ganar dinero".

Entonces, ¿puede realmente nuestro mercado interno dar cabida a tantos fabricantes de bases de datos? ¿A qué problemas se enfrenta el desarrollo actual de las bases de datos? ¿Qué tipo de reproductor de base de datos puede finalmente destacar? Como proyecto ordinario de tamaño pequeño y mediano, ¿cómo deberíamos elegir una base de datos adecuada?

En esta edición de [Open Source Talk], hemos invitado a Li Linghui, fundador de la base de datos nativa en la nube ClapDB, Qiao Jialin, cofundador y director de tecnología de Tianmou Technology, y Ma Gong, ingeniero de Infra, para discutir juntos qué problemas existen en ¿Cuál es el mercado actual de bases de datos?

Compartiendo invitados:

Li Linghui

Fundador de la base de datos nativa de la nube ClapDB, ex CTO de Multiplication Cloud, CTO de Meiqia y arquitecto jefe de Didi Chuxing.

Actualmente trabajando en un nuevo paradigma de infraestructura basada en la nube para brindar servicios de datos analíticos en la nueva era.

ClapDB es una base de datos diseñada e implementada desde cero basada en una arquitectura nativa de la nube, que aprovecha al máximo las ventajas de la tecnología nativa de la nube moderna. Desarrollado en C++, se espera que proporcione un mayor rendimiento, lo que le permitirá obtener resultados de análisis de forma fácil y rápida en cualquier escala de datos.

qiao jialin

Cofundador y CTO de Tianmou Technology, Apache IoTDB PMC y miembro fundador, PhD de la Universidad de Tsinghua, miembro del Comité de Tecnología de Código Abierto de la Sociedad de Comunicaciones de China y secretario académico.

Participó en la construcción de IoTDB, el primer proyecto de alto nivel de Apache en el campo de la gestión de datos de series temporales de IoT, y TsFile, el segundo proyecto de alto nivel.

Es miembro de Apache (miembro de la Fundación Apache), pionero en código abierto en China, becario Shuimu en la Universidad de Tsinghua y profesor con medalla de plata en la Open Atomic Foundation. Como uno de los 10 líderes en software básico. recibió el premio al Ingeniero de software destacado de 2023. Los resultados relevantes ganaron el primer premio del Premio al Progreso Científico y Tecnológico de Beijing.

Apache IoTDB es una base de datos de series temporales nativa de IoT de bajo costo y alta disponibilidad que adopta una estructura liviana de colaboración entre dispositivo, borde y nube y admite la recopilación, el almacenamiento, la gestión y el análisis integrados de datos de series temporales de IoT.

anfitrión:

trabajador del caballo

Ingeniero de Nordic Infra, gestor de la cuenta pública "Swedish Horseman". Invitado habitual de "Open Source Talk".

01 Hay tantas bases de datos que no todo es culpa de seguir la tendencia.

Ma Gong: El mercado nacional de bases de datos actual es muy próspero. Hay más de 300 productos de bases de datos y más de 100 fabricantes. Al mismo tiempo, se han realizado muchas inversiones y los clientes también nos apoyan mucho. Pero en la actualidad, no muchos pueden considerarse exitosos y tener influencia internacional. Nuestra enorme inversión y nuestra producción extremadamente baja se han convertido en un enorme contraste. Hoy queremos discutir por qué se forma este contraste y cómo podemos reducirlo.

Primero preguntemos a las dos personas a cargo de la base de datos. Ya hay 400 bases de datos en China, y solo hay unas pocas docenas en el mundo. China tiene un excedente importante, entonces, ¿por qué siguen creando bases de datos?

Li Linghui: Ahora bien, puede que haya miles de empresas en China que oficialmente estén creando bases de datos; conozco entre 50 y 100 empresas que son algo famosas. En mi opinión, existen tres o cuatro tipos de bases de datos, aunque tengan un aspecto diferente:

El primero se basa en la modificación mágica de MySQL, el segundo se basa en la modificación mágica de PostgreSQL, el tercero se basa en la modificación mágica Greenplum de PostgreSQL y el cuarto se basa en el empaquetado del ecosistema Java ES o Hadoop... Ni siquiera está modificado, está empaquetado .

Desde una perspectiva de resolución de problemas, no hay problema en reutilizar proyectos de código abierto siempre que no viole el acuerdo de código abierto. Sin embargo, para los usuarios, en realidad no hay necesidad de tantas opciones que parezcan iguales. Eso sólo aumentará el costo de elección, y nadie ofrece funciones que otros no tienen, aunque cada uno de ellos diga que son diferentes.

Lo que quiero decir aquí es que cada cosa es diferente. La respuesta que ves más a menudo es: He hecho algunas innovaciones. Creo que ningún proveedor de bases de datos dirá que no tiene ninguna innovación. Todos dirán que han hecho una pequeña innovación. Esta "pequeña" puede ser una palabra modesta, o puede que sea cierta.

Pero desde la perspectiva del usuario, creo que casi no hay usuarios, o son muy pocos, que realmente puedan disfrutar de esta pequeña mejora. Porque puede desmoronarse en otro escenario. Todos los que nos dedicamos a la ingeniería y la tecnología sabemos que si quieres demostrar tu superioridad en determinadas condiciones, básicamente cualquier cosa es suficiente para tener un software o un tipo de proyecto. ninguna ventaja bajo ninguna circunstancia, de ninguna manera.

He visto nuestros productos nacionales de la competencia. Para evaluar las ofertas, registran directamente las características de los datos en el archivo de disco. Al leer el valor máximo, lo obtenemos directamente. ¿Dirías que es una innovación? No se puede decir que no lo sea, al menos no he visto a nadie más hacerlo. ¿Pero crees que tiene sentido? Eso tiene sentido si necesita max, pero ¿quién necesita los valores máximo y mínimo en un archivo de datos sin ningún filtrado?

Nuestra mayor diferencia es que analizamos lo que los usuarios necesitan desde la perspectiva del usuario. Los usuarios que solucionamos son aquellos que tienen muy poco dinero para gastar en la nube. No son una empresa grande, tienen pocas capacidades de operación y mantenimiento y no tienen un DBA. Además, realmente no pueden aprender un manual complicado con miles de páginas para implementarlo y usarlo. Es demasiado difícil y Snowflake no es barato. Pero quiere utilizar servicios de análisis de datos. Tiene muchas necesidades complejas de análisis de datos, por lo que satisfaceremos las necesidades de estos usuarios y los haremos cómodos, económicos y agradables de usar.

Ma Gong: Desde una perspectiva digital, eres un Snowflake más barato y no necesitas un DBA profesional, sino que sirves directamente a los desarrolladores, ¿verdad? Esto es realmente diferente, porque muchas bases de datos nacionales que conozco son Si quieres capacitar a los tuyos propios. DBA, es posible que sienta que nuestro rendimiento es mejor que el de ellos y que la puntuación de nuestra plataforma de consulta es más alta que la de ellos, pero su forma de pensar es realmente diferente. ¿Qué pasa con Jialin? ¿Por qué su laboratorio necesita una base de datos?

Qiao Jialin: Déjame responder a estas dos preguntas: la primera es ¿por qué hay tantas bases de datos en China?

Primero, echemos un vistazo a lo que hace la base de datos. Gestiona datos. Esto lo reconoce todo el mundo: gestionar los datos, comprobarlos bien y comprobarlos rápidamente. Luego veamos cuántos tipos de datos hay: documentos dirigidos, relaciones, series de tiempo, valores clave, gráficos y vectores. Si consideramos la base de datos como un resumidor, en realidad hay bastantes tipos de objetos que queremos resumir. En base a esto, ¿cuántos escenarios de aplicación existen? Por ejemplo, las finanzas son un escenario típico, y luego el Internet de las cosas es otro escenario típico. En cada escenario, habrá industrias subdivididas y es posible que utilicen los datos de manera diferente. Esta es la razón por la que todos tienen diferentes conceptos y objetivos de diseño al crear bases de datos. También es una razón importante por la que existen tantas bases de datos ahora.

En este contexto, las series de tiempo también son uno de los tipos de datos que creamos. IoTDB es una base de datos para escenarios de IoT, lo que también determina que somos gestión de datos de series de tiempo para escenarios de IoT. Combinando estos dos puntos, si se encuentra en estos dos puntos, entonces nuestro producto es una mejor opción.

Entonces, ¿por qué queremos crear una base de datos así?

Porque nuestro grupo se llama grupo de almacenamiento de datos y se especializa en ayudar a las empresas a investigar métodos eficientes de gestión de datos. Nuestro laboratorio en sí también es un laboratorio con experiencia industrial, por lo que el almacenamiento de datos con el que entramos en contacto también es industrial e Internet de las cosas, y los escenarios de aplicación se han solucionado desde el principio. Al principio, también utilizamos directamente la base de datos de código abierto Cassandra para realizar adaptaciones comerciales en ella. Pero más tarde se descubrió que el diseño central subyacente no era exactamente coherente con lo que querían los usuarios. Cassandra es más como un almacén de valores clave flexible. Los usuarios quieren una base de datos con operación secuencial parcial, por lo que comenzamos a intentar hacer cambios en ella. Sin embargo, los cambios luego se volvieron incompatibles con el proyecto de código abierto original y no eran consistentes con el desarrollo. objetivos de Cassandra, así nos independizamos.

02 El código abierto y el código cerrado son difíciles de hacer

Ma Gong: Encontré una pregunta interesante, es decir, los antecedentes de ustedes dos son casi opuestos. Uno es del mundo académico. Verás, Jialin nunca habló de dinero, ¡y tú ni siquiera hablaste de costos! Luego Linghui viene de la industria y del Partido A. Habla de dinero desde el principio: ¿Cuántos centavos cuesta una consulta?

Creo que sus dos estrategias son en realidad diferentes en las bases de datos nacionales, algunas son bases de datos comerciales y otras se basan en código abierto. ¿Cuáles cree que son los pros y los contras de cada uno a largo plazo?

Qiao Jialin: La presión del índice tendrá un gran impacto en la selección y el diseño de nuestra base de datos. El diseño de una base de datos que requiere un año para estar en línea y una base de datos que requiere tres años para estar en línea es definitivamente diferente. Si siempre está bajo la presión del proyecto, entonces todos sus diseños pueden centrarse en las prioridades del proyecto.

Pero cuando empezamos a hacerlo en la escuela, no había tanta presión. Probablemente pensamos más en qué tipo de base de datos se necesita para los escenarios de Internet. ¿Cómo debe ser la arquitectura de la base de datos? ¿Cuáles son las mejores tecnologías de código abierto en la actualidad? Podemos tomar más decisiones y demostrar, diseñar e implementar más soluciones técnicas. Posteriormente, tras unirse a la Fundación Apache y convertirse en una empresa comercial, esto implicó cómo utilizar el software de código abierto para apoyar a sus desarrolladores para que puedan seguir contribuyendo en él.

Ahora estamos creando algunas de mis versiones empresariales basadas en un producto de base de datos de código abierto. No necesito abrir mi versión empresarial. En comparación con el acuerdo GPL, el acuerdo Apache enfatiza la protección de los derechos e intereses de los desarrolladores de software. Es precisamente por esto que hoy en día muchos software empresariales se desarrollan aún más basándose en el software Apache. Por lo tanto, el software de código abierto es una opción y la versión empresarial basada en software de código abierto es otra opción. Esta versión empresarial puede ofrecer a los usuarios más garantías técnicas.

Ma Gong: Ling Hui no parece estar muy de acuerdo con el acuerdo de código abierto. ¿Qué tal si lo explicas?

Li Linghui: De lo que realmente me quejo es de utilizar dinero de capital de riesgo o de inversores para construir una empresa comercial de código abierto. En cuanto a que la Universidad de Tsinghua utilice dinero para hacer código abierto, creo que es natural que lo que están gastando sea dinero de los contribuyentes. El código abierto es para retribuir a la sociedad y abrir los resultados de la investigación científica a la sociedad. Creo que esto es lo correcto y la comunidad académica debería dar ejemplo.

Creo que más de la mitad de todos los proyectos de código abierto deberían provenir del mundo académico. Muchos proyectos básicos de vanguardia solo pueden lograrse con inversiones en investigación científica a escala nacional, porque hay una etapa experimental larga y los empresarios tenemos una ventana de tiempo limitada. . es muy corto. Dirigir una empresa no es como que los estudiantes realicen felizmente investigaciones científicas sin que nos paguen. Cada uno de nosotros tiene que vivir. Para una empresa, ningún accionista apoyará que usted pase diez o veinte años haciendo esto. La primera pregunta que se le plantea es cómo ganar dinero.

Hablando de código abierto, si esto es algo innovador y se promueve en el mercado de esta manera, creo que este es el método correcto, porque es posible que otros no lo entiendan todavía. Pero en un mercado maduro, como nuestra microbase de datos, este mercado es muy maduro y las cosas que han estado en el mercado no han estado en el mercado durante décadas. De hecho, el gran punto de venta del código abierto es que no cuesta dinero, pero si miras a los 300 hermanos que te rodean que no cuestan dinero, ¿en qué te destacas? Ésta es una pregunta en la que todo el mundo quiere pensar. Desde la perspectiva de la competencia empresarial, lo que esencialmente perseguimos es la irremplazabilidad. La premisa de toda recaudación de dinero es esta irremplazabilidad, ya sea una persona o una empresa. Cómo gestionar su propia irremplazabilidad es una cuestión que todo fundador debe considerar.

03 Una buena base de datos requiere un poco de dureza

Ma Gong: Ling Hui mencionó una pregunta interesante. El Partido B hace muchos proyectos y serán personalizados, por lo que su versión básicamente ha colapsado. No hay una versión para desarrollar o administrar. Jialin es de código abierto, pero en realidad no hay forma de evitar que otros personalicen sus productos.

Pero, de hecho, desde el punto de vista del Partido A, el Partido A también odia esto. Utilizo un producto con gestión de versiones y un proyecto personalizado. Esto último es demasiado arriesgado. Ningún Partido A dijo que quiero usar esta versión. Solo tres ingenieros en el mundo saben cómo jugarla. Solo dos personas pueden entender esta configuración, ¿verdad? Pero, ¿por qué el mercado nacional de bases de datos ha formado un mercado tan personalizado? El Partido A y el Partido B no lo querían, pero terminó así. ¿Por qué se forma este estado anormal?

Li Linghui: He trabajado para muchos partidos importantes en China durante mucho tiempo. Cuando no se tiene un producto estandarizado lo suficientemente potente y no se satisfacen las necesidades del usuario, hay que dejar que el usuario le ayude a descubrir qué hacer, y la imaginación del usuario no está restringida. No piensa en la situación general, sólo piensa en sus necesidades. Tengo especial miedo de que mi Partido A me diga esto: "Tengo una petición muy sencilla. Puedes hacer esto..." Normalmente, cuando escucho esta frase, quiero salir corriendo.

Él piensa que no entiendes y quiere enseñarte. Realmente no entiendes sus necesidades. Por ejemplo, una vez tuvimos un usuario que dijo: No puedo soportarlo porque tu información se guarda automáticamente. Me siento incómodo. Por favor, dame un botón y haré clic en él. ahorrar. Dije que este botón no tiene función. De hecho, se ha guardado. Dijo que todavía lo necesito.

¿Crees que se debería cubrir esta necesidad? Para ser honesto, si cumples con esta demanda, más clientes se sorprenderán y dirán: ¿no lo guardaste automáticamente? ¿Por qué proporcionaste este botón? En realidad, se trata de una cuestión de juego: cuando el Partido A y el Partido B decidan quién tiene más autoridad y quién puede representar mejor la respuesta estándar en esta industria, quien sea será más duro.

Verás, nuestro mismo Partido A, cuando se reunieron con IBM y Microsoft, no fueron tan arrogantes. Por lo tanto, cuando eres un Partido A débil, el respeto que recibes no es suficiente.

De hecho, a veces no somos profesionales. Una vez mi cliente me hizo una pregunta: llevo 20 años en esta industria, ¿cuántos años lleva usted en ella? Dije que lo hice durante dos años. Él dijo, ¿por qué me enseñas qué hacer? No se puede decir que lo que otros dicen esté mal, pero hay especialidades en la industria del arte. Por eso creo que al iniciar un negocio, especialmente en la fabricación de productos, no se puede ir más allá de su propio círculo de competencia para comprender el problema. Cuando haces algo que no entiendes, naturalmente seguirás las necesidades de los usuarios.

Ma Gong: El problema que mencionaste en realidad no está en la base de datos. Es lo mismo en otras industrias. Satisfacer ciegamente las necesidades del cliente acabará con su producto. Veo que este es un malentendido muy común en la gestión de productos: permita que los usuarios sean sus propios gerentes de producto.

Por supuesto, Ling Hui ya lo ha explicado: el nivel cognitivo de muchos del Partido B no es más alto que el del Partido A, por lo que el Partido A, naturalmente, no te escuchará. Creo que soy mejor que tú, así que deberías escucharme. Si te doy dinero y no te dejo llamarme papá, se considerará misericordioso. Lo único que puede resistir esta posición fuerte es que su conocimiento es mejor que el de él. No solo vende un producto, sino también un conjunto de conceptos y un plan. Pide a la Parte A que siga este plan y lo haga. El plan es bueno y estoy dispuesto a explorarlo con usted. Es mejor si tenemos una relación igualitaria. Pero la mayoría de los gerentes de producto o las empresas no tienen esta capacidad. Si alguien tiene esta capacidad, creo que una fuente debe ser el mundo académico.

Como Jialin, puedes decir que vengo de la Universidad de Tsinghua. Todo nuestro grupo de investigación lo ha estado estudiando durante más de diez años. Hemos leído artículos de todo el mundo. Rechazamos el método que mencionaste hace 10 años. ¿Puedes hacerlo e introducir una jugabilidad nueva y más avanzada en la industria, en lugar de dejar que estos viejos zorros piensen que sé más que tú porque he trabajado durante 20 años?

Qiao Jialin: Lo que mi mentor dijo con mayor frecuencia es controlar la complejidad de la base de datos y no usarla para hacer cosas que la base de datos no debería hacer. La simplicidad del código es la fuente de vitalidad a largo plazo de una base de datos. Si agregamos muchas funciones, es posible que ganemos uno o dos usuarios a corto plazo, pero a largo plazo, este código será imposible de mantener.

Entonces, ¿por qué podemos hacer esto? Creo que puede deberse a la acumulación de código abierto en el pasado. Debido a que solo lo comercializamos oficialmente después de unos cinco años de pulido de código abierto, cuando salimos, este producto básicamente podía satisfacer las necesidades de muchos usuarios de código abierto, incluidos los usuarios empresariales. Este producto es lo suficientemente estándar, por lo que los usuarios no tendrán solicitudes extrañas para nosotros. Sin embargo, debido a que estamos trabajando en una base de datos para el Internet industrial de las cosas, el escenario industrial es bastante complejo. Queremos comunicarnos igualmente con los usuarios industriales sobre las necesidades de su escenario empresarial y, de hecho, necesitamos aprender más.

Para más contenido en vivo, escanea el código para ver la repetición↓↓↓

[Charla sobre código abierto]

La columna de chat de la cuenta de vídeo de OSCHINA [Open Source Talk] tiene un tema técnico en cada número. Tres o cinco expertos se sientan, cada uno expresa sus propias opiniones y charla sobre el código abierto. Ofreciéndote las últimas fronteras de la industria, los temas técnicos más candentes, los proyectos de código abierto más interesantes y los intercambios ideológicos más intensos. Si tiene nuevas ideas o buenos proyectos y desea compartirlos con sus colegas, contáctenos. El foro siempre está abierto ~.

¿Por qué hay tantas importaciones paralelas en la industria nacional de bases de datos?

01 Hay tantas bases de datos que no todo es culpa de seguir la tendencia.

02 El código abierto y el código cerrado son difíciles de hacer

03 Una buena base de datos requiere un poco de dureza

Supongo que te gusta