Wuhan Yuan Chuanghui retorna, vamos falar sobre modelos grandes em 20 de abril”

Hoje em dia, sob a tendência de “domesticização”, a onda de empreendedorismo na área de bases de dados nacionais é cada vez maior. No final de 2023, havia quase 300 produtos de banco de dados no mercado chinês e cerca de 100 fabricantes de bancos de dados. Instituições de investimento conhecidas, como Sequoia, Hillhouse, Tencent, etc., todas fecharam. Cada uma delas possui pelo menos três bancos de dados de investimento, o que mostra a favor do capital.

Alguns bancos de dados confiaram em suas próprias forças para obter 100 milhões de yuans em financiamento, vencer licitações para vários projetos, crescer de forma constante e abrir o capital com sucesso. No entanto, também existem alguns bancos de dados que ainda estão sendo questionados pelo mercado; Entre as 16 empresas listadas relacionadas a bancos de dados nacionais, muito poucas são lucrativas, o que faz as pessoas se perguntarem quanto tempo esse modelo de “perder dinheiro e ganhar dinheiro” pode durar?

Então, nosso mercado interno pode realmente acomodar tantos fabricantes de bancos de dados? Que problemas são enfrentados com o atual desenvolvimento de bancos de dados? Que tipo de reprodutor de banco de dados pode finalmente se destacar? Como um projeto comum de pequeno e médio porte, como devemos escolher um banco de dados adequado?

Nesta edição do [Open Source Talk], convidamos Li Linghui, fundador do banco de dados nativo da nuvem ClapDB, Qiao Jialin, cofundador e CTO da Tianmou Technology, e Ma Gong, engenheiro de Infra, para discutirem juntos quais problemas existem em mercado de banco de dados atual?

Compartilhando convidados:

Li Linghui

Fundador do banco de dados nativo da nuvem ClapDB, ex-CTO da Multiplication Cloud, CTO da Meiqia e arquiteto-chefe da Didi Chuxing.

Atualmente trabalhando em um novo paradigma de infraestrutura baseada em nuvem para fornecer serviços de dados analíticos na nova era.

ClapDB é um banco de dados projetado e implementado desde o início com base na arquitetura nativa da nuvem, aproveitando ao máximo as vantagens da moderna tecnologia nativa da nuvem. Desenvolvido em C++, espera-se que forneça maior desempenho, permitindo obter resultados de análises de forma fácil e rápida em qualquer escala de dados.

Qiao Jialin

Cofundador e CTO da Tianmou Technology, Apache IoTDB PMC e membro fundador, PhD pela Universidade de Tsinghua, membro do Comitê de Tecnologia de Código Aberto da Sociedade de Comunicações da China e secretário acadêmico.

Participou da construção do IoTDB, o primeiro projeto de nível superior do Apache na área de gerenciamento de dados de séries temporais de IoT, e do TsFile, o segundo projeto de nível superior.

Ele é membro Apache (membro da Fundação Apache), pioneiro em código aberto na China, bolsista Shuimu na Universidade Tsinghua e professor com medalha de prata na Open Atomic Foundation. foi premiado com o prêmio de Engenheiro de Software Extraordinário de 2023. Resultados relevantes ganharam o primeiro prêmio do Prêmio de Progresso em Ciência e Tecnologia de Pequim.

Apache IoTDB é um banco de dados de série temporal nativo de IoT de baixo custo e altamente disponível que adota uma estrutura leve de colaboração entre dispositivo e nuvem e oferece suporte integrado à coleta, armazenamento, gerenciamento e análise de dados de série temporal de IoT.

hospedar:

trabalhador de cavalo

Engenheiro Nordic Infra, gestor da conta pública "Swedish Horseman". Convidado regular do "Open Source Talk".

01 São tantos bancos de dados que nem tudo é culpa de seguir a tendência.

Ma Gong: O atual mercado doméstico de banco de dados é muito próspero. Existem mais de 300 produtos de banco de dados e mais de 100 fabricantes. Ao mesmo tempo, muito investimento foi feito e os clientes também apoiam muito. Mas, actualmente, poucos podem ser considerados bem-sucedidos e ter influência internacional. Nosso enorme investimento e produção extremamente baixa tornaram-se um enorme contraste. Hoje queremos discutir por que esse contraste é formado e como podemos reduzi-lo.

Vamos primeiro perguntar às duas pessoas responsáveis pelo banco de dados. Já existem 400 bancos de dados na China e apenas algumas dezenas no mundo têm um grande excedente, então por que vocês ainda fabricam bancos de dados?

Li Linghui: Agora, pode haver milhares de empresas na China que estão oficialmente criando bancos de dados. Conheço cerca de 50 a 100 empresas que são um tanto famosas. Existem, na minha opinião, três ou quatro tipos de bases de dados, embora pareçam diferentes:

O primeiro é baseado na modificação mágica do MySQL, o segundo é baseado na modificação mágica do PostgreSQL, o terceiro é baseado na modificação mágica Greenplum do PostgreSQL e o quarto é baseado no ES do Java ou no pacote do ecossistema Hadoop... Não é nem modificado, é empacotado .

Do ponto de vista da resolução de problemas, não há problema em reutilizar projetos de código aberto, desde que isso não viole o acordo de código aberto. No entanto, para os usuários, na verdade não há necessidade de tantas opções que pareçam iguais. Isso só aumentará o custo da escolha, e ninguém oferece funções que outros não possuem, embora cada uma delas diga que são diferentes.

O que quero dizer aqui é que cada coisa é diferente. A resposta que você vê com mais frequência é: fiz algumas inovações. Acredito que nenhum fornecedor de banco de dados dirá que não tem nenhuma inovação. Todos dirão que fizeram um pouco de inovação. Esse “pequeno” pode ser uma palavra modesta ou pode ser verdade.

Mas do ponto de vista do usuário, acho que quase nenhum usuário, ou muito poucos, pode realmente aproveitar essa pequena melhoria. Porque você pode desmoronar em outro cenário. Todos nós que trabalhamos com engenharia e tecnologia sabemos que se você quiser provar sua superioridade sob certas condições, basicamente qualquer coisa servirá. nenhuma vantagem em nenhuma circunstância, de jeito nenhum.

Já vi nossos produtos concorrentes nacionais. Para avaliar as propostas, eles registram diretamente as características dos dados no arquivo em disco. Ao ler o valor máximo, obtemos diretamente. Você diria que é uma inovação? Você não pode dizer que não, pelo menos não vi ninguém fazer isso. Mas você acha que faz sentido? Isso faz sentido se você precisar de max, mas quem precisa dos valores máximo e mínimo em um arquivo de dados sem qualquer filtragem?

Nosso maior diferencial é que olhamos para o que os usuários precisam da perspectiva do usuário. Os usuários que atendemos são aqueles que têm muito pouco dinheiro para gastar na nuvem. Eles não são uma grande empresa, têm pouca capacidade de operação e manutenção e não possuem DBA. Além disso, eles realmente não conseguem aprender um manual complicado com milhares de páginas para implantá-lo e usá-lo. É muito difícil e o Snowflake não é barato. Mas ele deseja usar serviços de análise de dados. Ele tem muitas necessidades complexas de análise de dados, por isso iremos atender às necessidades desses usuários e torná-los confortáveis, baratos e agradáveis de usar!

Ma Gong: Do ponto de vista digital, você é um Snowflake mais barato e não precisa de um DBA profissional, mas atende diretamente os desenvolvedores, certo? Isso é realmente diferente, porque muitos bancos de dados domésticos que conheço são Se você quiser treinar o seu próprio? DBA, você pode achar que nosso desempenho é melhor que o deles e que a pontuação da nossa plataforma de consulta é maior que a deles, mas seu pensamento é realmente diferente. E Jialin? Por que seu laboratório precisa de um banco de dados?

Qiao Jialin: Deixe-me responder a estas duas perguntas: A primeira é por que existem tantos bancos de dados na China?

Primeiro, vamos dar uma olhada no que o banco de dados faz. Ele gerencia dados. Isso é reconhecido por todos: gerencie os dados, verifique-os bem e verifique-os rapidamente. Então vamos ver quantos tipos de dados existem: documentos direcionados, relacionamentos, séries temporais, valores-chave, gráficos e vetores. Se considerarmos o banco de dados como um resumidor, então existem muitos tipos de objetos que queremos resumir. Com base nisso, quantos cenários de aplicação existem? Por exemplo, as finanças são um cenário típico e a Internet das Coisas é outro cenário típico. Em cada cenário, haverá indústrias subdivididas e poderão utilizar os dados de forma diferente. Portanto, esta é a razão pela qual todos têm conceitos e objetivos de design diferentes ao criar bancos de dados. É também uma grande razão pela qual existem tantos bancos de dados agora.

Nesse contexto, as séries temporais também são um dos tipos de dados. O IoTDB que fazemos é um banco de dados para cenários de IoT, o que também determina que somos gerenciamento de dados de séries temporais para cenários de IoT. Combinando esses dois pontos, se acontecer de você se enquadrar nesses dois pontos, então nosso produto é uma escolha melhor.

Então, por que queremos construir esse banco de dados?

Porque nosso grupo se chama grupo de armazenamento de dados, especializado em ajudar empresas a pesquisar métodos eficientes de gerenciamento de dados. O nosso laboratório em si também é um laboratório com formação industrial, pelo que o armazenamento de dados com o qual temos contacto também é industrial e Internet das Coisas, e os cenários de aplicação foram fixados desde o início. No início, também usamos diretamente o banco de dados de código aberto Cassandra para fazer a adaptação comercial nele. Mais tarde, porém, descobriu-se que o design central subjacente não era exatamente consistente com o que os usuários queriam. Cassandra é mais como um armazenamento flexível de valores-chave. Os usuários desejam um banco de dados com operação sequencial parcial, então começamos a tentar fazer alterações nele. No entanto, as alterações posteriormente se tornaram incompatíveis com o projeto de código aberto original e eram inconsistentes com o desenvolvimento. objetivos de Cassandra, então nos tornamos independentes.

02 Código aberto e código fechado são difíceis de fazer

Ma Gong: Achei uma pergunta interessante, ou seja, as origens de vocês dois são quase opostas. Um é da academia. Veja bem, Jialin nunca falou sobre dinheiro e você nem mesmo falou sobre custos! Então Linghui vem da indústria e do Partido A. Ele fala sobre dinheiro desde o início: Quanto custa uma consulta?

Acho que suas duas estratégias são realmente diferentes em bancos de dados domésticos, algumas são bases de dados comerciais e outras são baseadas em código aberto. Quais você acha que são os prós e os contras de cada um no longo prazo?

Qiao Jialin: A pressão do índice terá um grande impacto na seleção e no design do nosso banco de dados. O design de um banco de dados que requer um ano para ficar online e de um banco de dados que requer três anos para ficar online é definitivamente diferente. Se você está sempre sob pressão do projeto, todos os seus projetos podem estar centrados nas prioridades do projeto.

Mas quando começamos a fazer isso na escola, não havia essa pressão. Provavelmente pensamos mais sobre que tipo de banco de dados é necessário para cenários de Internet. Qual deve ser a aparência da arquitetura do banco de dados? Quais são as melhores tecnologias de código aberto hoje? Podemos fazer mais escolhas e demonstrar, projetar e implementar mais soluções técnicas. Mais tarde, depois de ingressar na Fundação Apache e se tornar uma empresa comercial, isso envolveu como usar software de código aberto para apoiar seus desenvolvedores, para que possam continuar contribuindo.

Agora estamos construindo algumas de minhas versões corporativas com base em um produto de banco de dados de código aberto. Não preciso abrir minha versão corporativa. Comparado com o acordo GPL, o acordo Apache enfatiza a proteção dos direitos e interesses dos desenvolvedores de software. É precisamente por causa disso que muitos softwares corporativos são agora desenvolvidos com base no software Apache. Portanto, o software de código aberto é uma opção, e a versão empresarial baseada em software de código aberto é outra opção. Esta versão empresarial pode fornecer aos usuários mais garantias técnicas.

Ma Gong: Ling Hui não parece concordar muito com o acordo de código aberto.

Li Linghui: O que realmente estou reclamando é do uso de dinheiro de capital de risco ou de investidores para construir uma empresa comercial de código aberto. Quanto à Universidade de Tsinghua usar dinheiro para fazer código aberto, acho que é natural que o que você está gastando é o dinheiro dos contribuintes para retribuir à sociedade e abrir os resultados da pesquisa científica para a sociedade. Penso que esta é a coisa certa a fazer e que a comunidade académica deveria dar o exemplo.

Acredito que mais da metade de todos os projetos de código aberto deveriam vir da academia. Muitos projetos básicos de ponta só podem ser alcançados com investimento em pesquisa científica em escala nacional, porque há um longo estágio experimental e nós, empresários, temos uma janela de tempo limitada. . é muito curto. Administrar uma empresa não é como estudantes fazendo pesquisas científicas alegremente sem serem pagos. Cada um de nós tem que viver. Para uma empresa, nenhum acionista apoiará que você passe dez ou vinte anos fazendo isso. A primeira questão que se coloca é como ganhar dinheiro.

Falando em open source, se isso é algo inovador e é divulgado desta forma para o mercado, acho que esse é o método certo, porque outros podem ainda não entender. Mas num mercado maduro, como o nosso micro banco de dados, esse mercado é muito maduro, e as coisas que estão no mercado não estão no mercado há décadas. Na verdade, o grande ponto de venda do código aberto é que ele não custa dinheiro, mas se você olhar para os 300 irmãos ao seu redor que não precisam de dinheiro, como você se destaca? Esta é uma questão sobre a qual todos querem pensar. Do ponto de vista da concorrência empresarial, o que procuramos essencialmente é a insubstituibilidade. A premissa de toda a recolha de dinheiro é esta insubstituibilidade, quer se trate de uma pessoa ou de uma empresa. Como gerenciar sua própria insubstituibilidade é uma questão que todo fundador deve considerar.

03 Um bom banco de dados requer um pouco de resistência

Ma Gong: Ling Hui mencionou uma questão interessante. O Partido B faz muitos projetos e eles serão customizados, então sua versão basicamente entrou em colapso. Cada projeto é único. Jialin é de código aberto, mas na verdade não há como evitar que seus produtos sejam personalizados por terceiros.

Mas, na verdade, do ponto de vista do Partido A, o Partido A também odeia isto. Utilizo um produto com gerenciamento de versões e um projeto customizado. Este último é muito arriscado. Nenhum Partido A disse que quero usar esta versão. Apenas três engenheiros no mundo sabem jogar. Apenas duas pessoas conseguem entender essa configuração, certo? Mas por que o mercado nacional de bancos de dados formou um mercado tão customizado? O Partido A e o Partido B não queriam, mas acabou assim. Por que esse estado anormal é formado?

Li Linghui: Há muito tempo que trabalho para muitos grandes partidos na China. Quando você não tem um produto padronizado suficientemente poderoso e as necessidades do usuário não são atendidas, você deve deixar o usuário ajudá-lo a descobrir o que fazer, e a imaginação do usuário não é restrita. Ele não pensa na situação geral, só pensa nas suas necessidades. Tenho particularmente medo de que o meu Partido A me diga o seguinte: "Tenho um pedido muito simples. Você pode fazer isso..." Normalmente, quando ouço esta frase, tenho vontade de fugir.

Ele acha que você não entende e quer te ensinar. Você realmente não entende as necessidades deles. Por exemplo, uma vez tivemos um usuário que disse: Não aguento porque suas informações são salvas automaticamente. Por favor, forneça-me um botão e clicarei nele. salvar. Eu disse que esse botão não tem função. Na verdade, ele foi salvo. Ele disse que eu ainda preciso disso.

Você acha que essa necessidade deveria ser atendida? Para ser sincero, se você atender a essa demanda, mais clientes vão se surpreender e dizer: você não salvou automaticamente? Por que você forneceu este botão? Na verdade, esta é uma questão de jogo: quando o Partido A e o Partido B decidirem quem tem mais autoridade e quem pode representar melhor a resposta padrão nesta indústria, quem será mais duro.

Veja, nosso mesmo Partido A, quando conheceu a IBM e a Microsoft, eles não eram tão arrogantes. Portanto, quando se é um Partido A fraco, o respeito que se obtém não é suficiente.

Na verdade, às vezes não somos profissionais. Certa vez, meu cliente me fez uma pergunta: estou neste setor há 20 anos, há quantos anos você está nele? Eu disse que fiz isso por dois anos. Ele disse, por que você me ensina o que fazer? Você não pode dizer o que os outros dizem que está errado, mas existem especialidades na indústria da arte. Então eu acho que ao abrir um negócio, principalmente de fabricação de produtos, você não pode ir além do seu próprio círculo de competência para entender o problema. Ao fazer algo que não entende, você naturalmente seguirá as necessidades dos usuários.

Ma Gong: O problema que você mencionou não está realmente no banco de dados. É o mesmo em outras indústrias. Atender cegamente às necessidades do cliente matará seu produto. Este é um mal-entendido muito comum em gerenciamento de produtos: deixe os usuários serem seus próprios gerentes de produto.

Claro, Ling Hui já explicou: o nível cognitivo de muitos do Partido B não é superior ao do Partido A, então o Partido A naturalmente não irá ouvi-lo. Acho que sou melhor que você, então você deveria me ouvir. Se eu te der dinheiro e não deixar você me chamar de pai, isso será considerado misericordioso. A única coisa que pode resistir a essa posição forte é que o seu conhecimento é melhor que o dele. Você não apenas vende um produto, mas também um conjunto de conceitos e um plano. Você pede à Parte A que siga esse plano e o faça. O plano é bom e estou disposto a explorá-lo com você. É melhor se tivermos um relacionamento igualitário. Mas a maioria dos gerentes de produto ou empresas não tem essa habilidade. Se alguém tem essa habilidade, acho que uma fonte deve ser a academia.

Assim como Jialin, você pode dizer que vim da Universidade de Tsinghua. Todo o nosso grupo de pesquisa estuda isso há mais de dez anos. Você pode fazer isso e introduzir uma jogabilidade nova e mais avançada na indústria, em vez de deixar essas velhas raposas pensarem que eu sei melhor do que você porque trabalho há 20 anos?

Qiao Jialin: O que meu mentor disse com mais frequência é controlar a complexidade do banco de dados e não usá-lo para fazer coisas que o banco de dados não deveria fazer. A simplicidade do código é a fonte de vitalidade de longo prazo de um banco de dados. Se adicionarmos muitas funções, podemos ganhar um ou dois usuários no curto prazo, mas no longo prazo esse código será insustentável.

Então, por que podemos fazer isso? Acho que pode ser devido ao acúmulo de código aberto no passado. Como só o comercializamos oficialmente após cerca de cinco anos de polimento de código aberto, quando saímos, este produto poderia basicamente atender às necessidades de muitos usuários de código aberto, incluindo usuários corporativos. Este produto é padrão o suficiente, então os usuários não terão nenhum pedido estranho para nós. No entanto, como estamos trabalhando em um banco de dados para a Internet das Coisas Industrial, o cenário industrial é bastante complexo. Queremos comunicar igualmente com os usuários industriais sobre as necessidades do seu cenário de negócios e, na verdade, precisamos aprender mais.

Para mais conteúdo ao vivo, escaneie o código para assistir ao replay↓↓↓

[Conversa de código aberto]

A coluna de bate-papo da conta de vídeo OSCHINA [Open Source Talk] tem um tópico técnico em cada edição. Três ou cinco especialistas sentam-se para expressar suas opiniões e conversar sobre código aberto. Trazendo a você as mais recentes fronteiras do setor, os tópicos técnicos mais recentes, os projetos de código aberto mais interessantes e as trocas ideológicas mais acirradas. Se você tem novas ideias ou bons projetos e deseja compartilhá-los com seus colegas, entre em contato conosco. O fórum está sempre aberto~.

Por que existem tantas importações paralelas na indústria nacional de bancos de dados?

01 São tantos bancos de dados que nem tudo é culpa de seguir a tendência.

02 Código aberto e código fechado são difíceis de fazer

03 Um bom banco de dados requer um pouco de resistência

Acho que você gosta