Pourquoi y a-t-il tant d’importations parallèles dans le secteur national des bases de données ?

Aujourd'hui, dans le cadre de la tendance à la « domesticisation », la vague d'entrepreneuriat dans le domaine des bases de données nationales est de plus en plus forte. Fin 2023, il existe près de 300 produits de bases de données sur le marché chinois et environ 100 fabricants de bases de données. Des institutions d'investissement bien connues telles que Sequoia, Hillhouse, Tencent, etc. ont toutes fait faillite. Chacune d'elles dispose d'au moins trois bases de données d'investissement, ce qui montre la faveur du capital.

Certaines bases de données se sont appuyées sur leurs propres forces pour obtenir un financement de 100 millions de yuans, remporter des appels d'offres pour plusieurs projets, croître régulièrement et entrer en bourse avec succès. Cependant, certaines bases de données sont encore remises en question par le marché. Parmi les 16 sociétés cotées liées aux bases de données nationales, très peu sont rentables, ce qui amène les gens à se demander combien de temps ce modèle de « perdre de l'argent et gagner de l'argent » peut durer ?

Alors, notre marché intérieur peut-il vraiment accueillir autant de fabricants de bases de données ? Quels sont les problèmes rencontrés avec le développement actuel des bases de données ? Quel type de lecteur de base de données peut enfin se démarquer ? En tant que projet ordinaire de petite et moyenne taille, comment choisir une base de données adaptée ?

Dans ce numéro de [Open Source Talk], nous avons invité Li Linghui, fondateur de la base de données cloud native ClapDB, Qiao Jialin, co-fondateur et CTO de Tianmou Technology, et Ma Gong, ingénieur d'Infra, pour discuter ensemble des problèmes existants dans le marché des bases de données aujourd'hui ?

Partager des invités :

Li Linghui

Fondateur de la base de données cloud native ClapDB, ancien CTO de Multiplication Cloud, CTO de Meiqia et architecte en chef de Didi Chuxing.

Je travaille actuellement sur un nouveau paradigme d'infrastructure basée sur le cloud pour fournir des services de données analytiques dans la nouvelle ère.

ClapDB est une base de données conçue et mise en œuvre dès le départ sur la base d'une architecture cloud native, tirant pleinement parti des avantages de la technologie cloud native moderne. Développé en C++, il devrait offrir des performances plus élevées, vous permettant d'obtenir facilement et rapidement des résultats d'analyse sur n'importe quelle échelle de données.

 

Qiao Jialin

Co-fondateur et CTO de Tianmou Technology, Apache IoTDB PMC et membre fondateur, docteur de l'Université Tsinghua, membre du comité de technologie Open Source de la China Communications Society et secrétaire académique.

Participation à la construction d'IoTDB, le premier projet Apache de haut niveau dans le domaine de la gestion des données de séries chronologiques IoT, et de TsFile, le deuxième projet de haut niveau.

Il est membre Apache (membre de la Fondation Apache), pionnier de l'open source en Chine, boursier Shuimu à l'Université Tsinghua et professeur médaillé d'argent à l'Open Atomic Foundation. Il est l'un des 10 leaders des logiciels de base. a reçu le prix 2023 Outstanding Software Engineer. Les résultats pertinents ont remporté le premier prix du Beijing Science and Technology Progress Award.

Apache IoTDB est une base de données de séries temporelles IoT native à faible coût et hautement disponible qui adopte une structure légère de collaboration appareil-edge-cloud et prend en charge la collecte, le stockage, la gestion et l'analyse intégrées de données de séries chronologiques IoT.

 

hôte:

ouvrier équestre

Ingénieur Nordic Infra, responsable du compte public "Swedish Horseman". Invité régulier de "Open Source Talk".

 

01 Il y a tellement de bases de données que ce n’est pas entièrement la faute de suivre la tendance.

Ma Gong : Le marché national actuel des bases de données est très prospère. Il existe plus de 300 produits de bases de données et plus de 100 fabricants. Dans le même temps, de nombreux investissements ont été réalisés et les clients sont également très favorables. Mais à l’heure actuelle, rares sont ceux qui peuvent être considérés comme ayant réussi et ayant une influence internationale. Notre énorme investissement et notre production extrêmement faible sont devenus un contraste énorme. Aujourd’hui, nous souhaitons discuter de la raison pour laquelle ce contraste se forme et de la manière dont nous pouvons le réduire.

Demandons d’abord aux deux responsables de la base de données. Il existe déjà 400 bases de données en Chine, et il n’y en a que quelques dizaines dans le monde. La Chine a un sérieux excédent, alors pourquoi faites-vous encore des bases de données ?

 

Li Linghui : Il existe peut-être des milliers d'entreprises en Chine qui créent officiellement des bases de données ; je connais peut-être 50 à 100 entreprises assez connues. Il existe, selon moi, trois ou quatre types de bases de données, même si elles semblent différentes :

La première est basée sur la modification magique de MySQL, la seconde est basée sur la modification magique de PostgreSQL, la troisième est basée sur la modification magique Greenplum de PostgreSQL et la quatrième est basée sur le packaging de l'écosystème ES ou Hadoop de Java... Ce n'est même pas modifié, c'est packagé .

Du point de vue de la résolution de problèmes, il n'y a aucun problème à réutiliser des projets open source tant qu'ils ne violent pas l'accord open source. Cependant, pour les utilisateurs, il n'est en réalité pas nécessaire d'avoir autant de choix qui se ressemblent. Cela ne fera qu'augmenter le coût du choix, et personne ne propose des fonctions que d'autres n'ont pas, même si chacun d'eux dit qu'elles sont différentes.

Ce que je veux dire ici, c'est que chaque chose est différente. La réponse que l'on voit le plus souvent est : j'ai fait quelques innovations. Je crois qu'aucun fournisseur de bases de données ne dira qu'il n'a aucune innovation. Tout le monde dira qu'il a fait une petite innovation. Ce « petit » est peut-être un mot modeste, ou il peut être vrai.

Mais du point de vue de l'utilisateur, je pense qu'il n'y a presque aucun utilisateur, ou très peu, qui puisse vraiment profiter de cette petite amélioration. Parce que vous pourriez vous effondrer dans un autre scénario. Nous qui sommes engagés dans l'ingénierie et la technologie, savons tous que si vous voulez prouver votre supériorité dans certaines conditions, tout fera l'affaire. Il est impossible d'avoir un logiciel ou une sorte de projet. aucun avantage en aucune circonstance, en aucun cas.

J'ai vu nos produits concurrents nationaux. Afin d'évaluer les offres, ils enregistrent directement les caractéristiques des données dans le fichier disque. Lors de la lecture de la valeur maximale, nous l'obtenons directement. Diriez-vous que c’est une innovation ? Vous ne pouvez pas dire le contraire, du moins je n’ai vu personne d’autre le faire. Mais pensez-vous que cela ait du sens ? Cela a du sens si vous avez besoin d'un maximum, mais qui a besoin des valeurs maximales et minimales dans un fichier de données sans aucun filtrage ?

Notre plus grande différence est que nous examinons les besoins des utilisateurs du point de vue de l'utilisateur. Les utilisateurs que nous abordons sont ceux qui ont très peu d'argent à dépenser sur le cloud. Il ne s’agit pas d’une grande entreprise, elle dispose de peu de capacités d’exploitation et de maintenance et ne dispose pas d’un administrateur de base de données. De plus, ils ne sont vraiment pas capables d'apprendre un manuel compliqué avec des milliers de pages pour le déployer et l'utiliser. C'est trop difficile et Snowflake n'est pas bon marché. Mais il souhaite utiliser des services d'analyse de données. Il a de nombreux besoins complexes en matière d'analyse de données, nous allons donc répondre aux besoins de ces utilisateurs et les rendre confortables, bon marché et agréables à utiliser !

 

Ma Gong : D'un point de vue numérique, vous êtes un Snowflake moins cher et vous n'avez pas besoin d'un administrateur de base de données professionnel, mais vous servez directement les développeurs, n'est-ce pas ? C'est en effet différent, car de nombreuses bases de données nationales que je connais le sont si vous souhaitez former la vôtre ? DBA, vous pensez peut-être que nos performances sont meilleures que les leurs et que le score de notre plateforme de requêtes est supérieur au leur, mais votre réflexion est effectivement différente. Et Jialin ? Pourquoi votre laboratoire a-t-il besoin d'une base de données ?

 

Qiao Jialin : Permettez-moi de répondre à ces deux questions : la première est de savoir pourquoi y a-t-il autant de bases de données en Chine ?

Voyons d’abord ce que fait la base de données ? Il gère les données. Ceci est reconnu par tous : gérez les données, vérifiez-les bien et vérifiez-les rapidement. Voyons ensuite combien de types de données il existe : documents orientés, relations, séries chronologiques, valeurs clés, graphiques et vecteurs. Si nous considérons la base de données comme un résumeur, il existe en réalité de nombreux types d’objets que nous souhaitons résumer. Sur cette base, combien de scénarios d’application existe-t-il ? Par exemple, la finance est un scénario typique, puis l’Internet des objets est un autre scénario typique. Dans chaque scénario, il y aura des secteurs subdivisés et ils pourront utiliser les données différemment. C'est donc la raison pour laquelle tout le monde a des concepts et des objectifs de conception différents lors de la création de bases de données. C'est également une raison importante pour laquelle il existe aujourd'hui tant de bases de données.

Dans ce contexte, les séries chronologiques sont également l'un des types de données. L'IoTDB que nous créons est une base de données pour les scénarios IoT, ce qui détermine également que nous gérons des données de séries chronologiques pour les scénarios IoT. En combinant ces deux points, si vous tombez sur ces deux points, alors notre produit est un meilleur choix.

Alors pourquoi voulons-nous construire une telle base de données ?

Parce que notre groupe s'appelle le groupe de stockage de données, spécialisé dans l'aide aux entreprises dans la recherche de méthodes efficaces de gestion des données. Notre laboratoire lui-même est également un laboratoire avec une expérience industrielle, donc le stockage de données avec lequel nous sommes en contact est également industriel et Internet des objets, et les scénarios d'application ont été fixés dès le début. Au début, nous utilisions également directement la base de données open source Cassandra pour en faire une adaptation métier. Mais plus tard, il a été découvert que sa conception de base n’était pas exactement cohérente avec ce que souhaitaient les utilisateurs. Cassandra ressemble plus à un magasin clé-valeur flexible. Les utilisateurs veulent une base de données avec un fonctionnement séquentiel partiel, nous avons donc commencé à essayer d'y apporter des modifications. Cependant, les modifications sont ensuite devenues incompatibles avec le projet open source d'origine et n'étaient pas cohérentes avec le développement. objectifs de Cassandra, nous sommes donc devenus indépendants.

 

02 L'open source et le fermé sont tous deux difficiles à réaliser

Ma Gong : J'ai trouvé une question intéressante, c'est-à-dire que vos origines sont presque opposées. L’un vient du monde universitaire. Vous voyez, Jialin n’a jamais parlé d’argent, et vous n’avez même pas parlé de coûts ! Ensuite, Linghui vient de l'industrie et du parti A. Il parle d'argent depuis le début : combien de centimes coûte une requête ?

Je pense que vos deux stratégies sont en fait différentes dans les bases de données nationales, certaines sont des bases de données commerciales et d'autres sont basées sur l'open source. Selon vous, quels sont les avantages et les inconvénients de chacun à long terme ?

 

Qiao Jialin : L'existence ou non d'une pression sur l'index aura un grand impact sur la sélection et la conception de notre base de données. La conception d’une base de données qui nécessite un an pour être mise en ligne et d’une base de données qui nécessite trois ans pour être mise en ligne est définitivement différente. Si vous êtes toujours sous la pression d'un projet, toutes vos conceptions peuvent être centrées sur les priorités du projet.

Mais lorsque nous avons commencé à le faire à l'école, il n'y avait pas une telle pression. Nous avons probablement réfléchi davantage au type de base de données nécessaire pour les scénarios Internet. À quoi doit ressembler l’architecture de la base de données ? Quelles sont les meilleures technologies open source aujourd’hui ? Nous pouvons faire plus de choix et démontrer, concevoir et mettre en œuvre davantage de solutions techniques. Plus tard, après avoir rejoint la Fondation Apache et être devenue une société commerciale, cela impliquait de savoir comment utiliser des logiciels open source pour soutenir ses développeurs afin qu'ils puissent continuer à y contribuer.

Nous construisons actuellement certaines de mes versions d'entreprise basées sur un produit de base de données open source. Je n'ai pas besoin d'ouvrir ma version d'entreprise. Par rapport à l'accord GPL, l'accord Apache met l'accent sur la protection des droits et intérêts des développeurs de logiciels. C’est précisément pour cette raison que de nombreux logiciels d’entreprise sont désormais développés sur la base du logiciel Apache. Par conséquent, le logiciel open source est une option, et la version entreprise basée sur un logiciel open source est une autre option. Cette version entreprise peut apporter aux utilisateurs plus de garanties techniques.

 

Ma Gong : Ling Hui ne semble pas très d'accord avec l'accord open source. Et si vous l'expliquiez ?

 

Li Linghui : Ce dont je me plains vraiment, c'est d'utiliser l'argent du capital-risque ou l'argent des investisseurs pour créer une entreprise commerciale open source. Quant à l'Université Tsinghua qui utilise de l'argent pour faire de l'open source, je pense que c'est tout à fait naturel. Ce que vous dépensez est l'argent des contribuables, c'est pour redonner à la société et ouvrir les résultats de la recherche scientifique à la société. Je pense que c’est la bonne chose à faire et que la communauté universitaire devrait donner l’exemple.

Je pense que plus de la moitié de tous les projets open source devraient provenir du monde universitaire. De nombreux projets fondamentaux de pointe ne peuvent être réalisés qu'avec un investissement dans la recherche scientifique à l'échelle nationale, car il y a une longue phase expérimentale et nous, les hommes d'affaires, avons une fenêtre de temps limitée. . est très court. Diriger une entreprise, ce n’est pas comme si des étudiants faisaient des recherches scientifiques sans être payés. Chacun de nous doit vivre. Pour une entreprise, aucun actionnaire ne vous supportera de passer dix ou vingt ans à faire cela. La première question qui se pose à vous est de savoir comment gagner de l’argent.

En parlant d'open source, s'il s'agit d'une chose innovante et qu'elle est promue sur le marché de cette manière, je pense que c'est la bonne méthode, car d'autres ne la comprennent peut-être pas encore. Mais dans un marché mature, comme celui de nos microbases de données, ce marché est très mature, et les choses qui étaient sur le marché ne le sont plus depuis des décennies. En fait, le gros argument de vente de l’open source est qu’il ne coûte pas d’argent, mais si vous regardez les 300 frères autour de vous qui ne coûtent pas d’argent, comment vous démarquez-vous ? C’est une question à laquelle tout le monde veut réfléchir. Du point de vue de la concurrence commerciale, ce que nous recherchons essentiellement est l'irremplaçabilité. La prémisse de toute collecte d'argent est cette irremplaçabilité, qu'il s'agisse d'une personne ou d'une entreprise. Comment gérer votre propre irremplaçabilité est une question que tout fondateur doit considérer.

 

03 Une bonne base de données demande un peu de ténacité

Ma Gong : Ling Hui a mentionné une question intéressante. Party B réalise de nombreux projets et ils seront personnalisés, donc sa version s'est effondrée. Il n'y a pas de version à développer ou à gérer. Jialin est open source, mais il n'existe aucun moyen d'empêcher la personnalisation de vos produits par d'autres.

Mais en fait, du point de vue du Parti A, le Parti A déteste aussi cela. J'utilise un produit avec gestion de versions et un projet personnalisé ce dernier est trop risqué. Aucune partie A n'a dit que je souhaitais utiliser cette version. Seuls trois ingénieurs dans le monde savent y jouer. Seules deux personnes peuvent comprendre cette configuration, n'est-ce pas ? Mais pourquoi le marché national des bases de données a-t-il formé un marché aussi personnalisé ? Le parti A et le parti B n’en voulaient pas, mais ça s’est terminé comme ça. Pourquoi cet état anormal se forme-t-il ?

 

Li Linghui : J'ai travaillé pendant longtemps pour de nombreux grands partis en Chine. Lorsque vous ne disposez pas d'un produit standardisé suffisamment puissant et que les besoins de l'utilisateur ne sont pas satisfaits, vous devez laisser l'utilisateur vous aider à comprendre quoi faire, et son imagination n'est pas limitée. Il ne pense pas à la situation globale, il pense seulement à ses besoins. J'ai particulièrement peur que mon parti A me dise ceci : "J'ai une demande très simple. Vous pouvez le faire..." Habituellement, lorsque j'entends cette phrase, j'ai envie de m'enfuir.

Il pense que vous ne comprenez pas et il veut vous apprendre. Vous ne comprenez vraiment pas leurs besoins. Par exemple, nous avons eu un jour un utilisateur qui a dit : Je ne peux pas le supporter parce que vos informations sont automatiquement enregistrées. Je ne me sens pas à l'aise. Veuillez me fournir un bouton et je cliquerai dessus. sauvegarder. J'ai dit que ce bouton n'avait aucune fonction. En fait, il a été enregistré. Il a dit que j'en avais encore besoin.

Pensez-vous que ce besoin devrait être satisfait ? Pour être honnête, si vous répondez à cette demande, davantage de clients seront surpris et diront : ne l'avez-vous pas enregistré automatiquement ? Pourquoi avez-vous fourni ce bouton ? C’est en fait une question de jeu : lorsque les partis A et B décideront qui fait le plus autorité et qui peut le mieux représenter la réponse standard dans cette industrie, celui qui sera le plus dur sera celui qui sera le plus dur.

Vous voyez, notre même Parti A, lorsqu’ils ont rencontré IBM et Microsoft, ils n’étaient pas si arrogants. Par conséquent, lorsque vous êtes un parti A faible, le respect que vous obtenez n’est pas suffisant.

En effet, parfois nous ne sommes pas professionnels. Mon client m'a un jour posé une question : je suis dans ce secteur depuis 20 ans, depuis combien d'années vous y travaillez ? J'ai dit que je l'avais fait pendant deux ans. Il a dit, pourquoi m'apprends-tu quoi faire ? On ne peut pas dire que ce que disent les autres est faux, mais il existe des spécialités dans l’industrie de l’art. Je pense donc que lorsqu'on démarre une entreprise, notamment en fabriquant des produits, on ne peut pas dépasser son propre cercle de compétences pour comprendre le problème. Lorsque vous faites quelque chose que vous ne comprenez pas, vous suivrez naturellement les besoins des utilisateurs.

 

Ma Gong : Le problème que vous avez mentionné ne réside pas réellement dans la base de données. C'est la même chose dans d'autres secteurs. Répondre aveuglément aux besoins des clients tuera votre produit. Je constate qu'il s'agit d'un malentendu très courant en matière de gestion de produits : laissez les utilisateurs être vos propres chefs de produit.

Bien sûr, Ling Hui l'a déjà expliqué : le niveau cognitif de nombreuses parties B n'est pas plus élevé que celui de la partie A, donc la partie A ne vous écoutera naturellement pas. Je pense que je suis meilleur que toi, alors tu devrais m'écouter. Si je te donne de l'argent et que je ne te laisse pas m'appeler papa, ce sera considéré comme miséricordieux. La seule chose qui peut résister à cette position forte est que vos connaissances sont meilleures que les siennes. Vous vendez non seulement un produit, mais aussi un ensemble de concepts et un plan. Vous demandez à la partie A de suivre ce plan et de le faire. Le plan est bon et je suis prêt à l’explorer avec vous. Il est préférable que nous ayons une relation égale. Mais la plupart des chefs de produit ou des entreprises n'ont pas cette capacité. Si quelqu'un a cette capacité, je pense qu'une source doit être le monde universitaire.

Comme Jialin, vous pouvez dire que je viens de l'Université Tsinghua. L'ensemble de notre groupe de recherche l'étudie depuis plus de dix ans. Nous avons lu des articles du monde entier. Nous avons rejeté la méthode que vous avez mentionnée il y a 10 ans. Pouvez-vous le faire et introduire un gameplay nouveau et plus avancé dans l'industrie, au lieu de laisser ces vieux renards penser que je sais mieux que vous parce que je travaille depuis 20 ans ?

 

Qiao Jialin : Ce que mon mentor a dit le plus souvent, c'est de contrôler la complexité de la base de données et de ne pas l'utiliser pour faire des choses que la base de données ne devrait pas faire. La simplicité du code est la source de vitalité à long terme d’une base de données. Si on ajoute beaucoup de fonctions, on pourra gagner un ou deux utilisateurs à court terme, mais à long terme, ce code sera inmaintenable.

Alors pourquoi pouvons-nous faire cela ? Je pense que cela peut être dû à l'accumulation d'open source dans le passé. Parce que nous ne l'avons officiellement commercialisé qu'après environ cinq ans de peaufinage open source, lorsque nous sommes sortis, ce produit pouvait essentiellement répondre aux besoins de nombreux utilisateurs open source, y compris les utilisateurs d'entreprise. Ce produit est suffisamment standard pour que les utilisateurs n’aient aucune demande étrange à nous faire. Cependant, comme nous travaillons sur une base de données pour l'Internet industriel des objets, le scénario industriel est suffisamment complexe. Nous souhaitons également communiquer avec les utilisateurs industriels sur leurs besoins en matière de scénarios commerciaux, et nous devons en effet en apprendre davantage.

 

Pour plus de contenu en direct, scannez le code pour regarder le replay↓↓↓


[Discussion sur l'Open Source]

La rubrique de discussion du compte vidéo OSCHINA [Open Source Talk] présente un sujet technique dans chaque numéro. Trois ou cinq experts sont assis, chacun exprimant ses propres opinions et discutant de l'open source. Vous apportant les dernières frontières de l'industrie, les sujets techniques les plus brûlants, les projets open source les plus intéressants et les échanges idéologiques les plus pointus. Si vous avez de nouvelles idées ou de bons projets et que vous souhaitez les partager avec vos collègues, contactez-nous. Le forum est toujours ouvert~.

Un camarade de poulet "open source" deepin-IDE et a finalement réalisé l'amorçage ! Bon gars, Tencent a vraiment transformé Switch en une « machine d'apprentissage pensante » Examen des échecs de Tencent Cloud le 8 avril et explication de la situation Reconstruction du démarrage du bureau à distance RustDesk Client Web La base de données de terminal open source de WeChat basée sur SQLite WCDB a inauguré une mise à niveau majeure Liste d'avril TIOBE : PHP est tombé à un plus bas historique, Fabrice Bellard, le père de FFmpeg, a sorti l'outil de compression audio TSAC , Google a sorti un gros modèle de code, CodeGemma , est-ce que ça va vous tuer ? C'est tellement bon qu'il est open source - outil d'édition d'images et d'affiches open source
{{o.name}}
{{m.nom}}

Je suppose que tu aimes

Origine my.oschina.net/u/6852546/blog/11049760
conseillé
Classement