요즘 '국내화' 추세에 따라 국내 데이터베이스 분야에서 창업의 물결이 점점 더 높아지고 있습니다. 2023년 말 기준으로 중국 시장에는 약 300개의 데이터베이스 제품이 있으며 약 100개의 데이터베이스 제조업체가 있습니다. 세쿼이아(Sequoia), 힐하우스(Hillhouse), 텐센트(Tencent) 등 유명 투자기관은 모두 폐업했으며, 각각 최소 3개 이상의 투자 데이터베이스를 보유하고 있어 자본의 호감을 보여준다.

일부 데이터베이스는 자체 역량을 활용하여 1억 위안의 자금 조달을 획득하고 여러 프로젝트에 대한 입찰을 획득하며 꾸준히 상승하고 성공적으로 공개되었지만 시장에서 여전히 의문을 제기하는 데이터베이스도 있습니다. 국내 데이터베이스 관련 16개 상장사 중 수익을 내는 회사는 극소수인데, 이런 '돈을 잃으면서 돈을 버는' 모델이 언제까지 지속될 수 있을지 궁금해진다.

그렇다면 우리 국내 시장이 실제로 그렇게 많은 데이터베이스 제조업체를 수용할 수 있을까요? 현재 데이터베이스 개발에 어떤 문제가 있습니까? 마침내 어떤 종류의 데이터베이스 플레이어가 돋보일 수 있을까요? 일반적인 중소 규모 프로젝트로서 적합한 데이터베이스를 어떻게 선택해야 합니까?

[오픈 소스 토크] 의이 호에서 우리는 Cloud Native Database Clapdb의 설립자 인 Li Linghui, Tianmou Technology의 공동 창립자 및 CTO 인 Qiao Jialin 및 Infra의 엔지니어 인 Ma Gong을 초대했습니다. 오늘날의 데이터베이스 시장은 어떻습니까?

손님 공유:

리 링휘

클라우드 네이티브 데이터베이스 ClapDB의 창립자이자 Multiplication Cloud의 전 CTO, Meiqia의 CTO, Didi Chuxing의 수석 설계자입니다.

현재는 새로운 시대의 분석 데이터 서비스를 제공하기 위해 클라우드 기반 인프라의 새로운 패러다임을 연구하고 있습니다.

ClapDB는 최신 클라우드 네이티브 기술의 장점을 최대한 활용하여 처음부터 클라우드 네이티브 아키텍처를 기반으로 설계 및 구현된 데이터베이스입니다. C++로 개발되어 어떠한 규모의 데이터에서도 쉽고 빠르게 분석 결과를 얻을 수 있어 더욱 높은 성능을 제공할 것으로 기대됩니다.

차오 지알린

Tianmou Technology의 공동 창립자 겸 CTO, Apache IoTDB PMC, 창립 멤버, Tsinghua University 박사, 중국 커뮤니케이션 학회 오픈 소스 기술 위원회 멤버, 학술 비서.

IoT 시계열 데이터 관리 분야 최초 아파치 최상위 프로젝트인 IoTDB 구축과 두 번째 최상위 프로젝트인 TsFile 구축에 참여했습니다.

그는 Apache 회원(Apache 재단 회원)이자 중국 오픈 소스의 선구자이며 Tsinghua University의 Shuimu 학자이자 Open Atomic Foundation의 은메달 강사입니다. 기본 소프트웨어 분야의 10대 리더 중 한 명입니다. 2023년 우수 소프트웨어 엔지니어 상을 받았습니다. 관련 결과로 베이징 과학기술진보상 1등상을 받았습니다.

Apache IoTDB는 디바이스-에지-클라우드 협업의 경량 구조를 채택하고 통합 IoT 시계열 데이터 수집, 저장, 관리 및 분석을 지원하는 저비용, 고가용성 IoT 기반 시계열 데이터베이스입니다.

주인:

말 노동자

Nordic Infra 엔지니어, 공개 계정 "Swedish Horseman" 관리자. "오픈소스 토크"의 고정 게스트입니다.

01 데이터베이스가 너무 많아서 추세를 따라가는 것이 전부 잘못은 아닙니다.

마공: 현재 국내 데이터베이스 시장은 300개 이상의 데이터베이스 제품과 100개 이상의 제조업체가 있으며 동시에 많은 투자가 이루어졌고 고객들도 많은 지지를 받고 있습니다. 그러나 현재로서는 성공한 것으로 간주되거나 국제적인 영향력을 행사할 수 있는 기업은 많지 않습니다. 우리의 막대한 투자와 극히 낮은 생산량은 큰 대조를 이루었습니다. 오늘 우리는 왜 이러한 대비가 형성되는지, 그리고 어떻게 이 대비를 줄일 수 있는지 논의하고 싶습니다.

먼저 데이터베이스를 담당하는 두 분에게 물어보겠습니다. 중국에는 이미 400개의 데이터베이스가 있는데, 전 세계적으로는 수십 개에 불과합니다. 중국은 심각한 흑자인데 왜 아직도 데이터베이스를 만드시나요?

Li Linghui: 현재 중국에는 공식적으로 데이터베이스를 수행하는 회사가 수천 개 있을 수 있습니다. 어느 정도 유명한 회사는 50~100개 정도 되는 것으로 알고 있습니다. 제 생각에는 모양은 다르지만 3~4가지 유형의 데이터베이스가 있습니다.

첫 번째는 MySQL의 매직 수정을 기반으로 하고, 두 번째는 PostgreSQL의 매직 수정을 기반으로 하고, 세 번째는 PostgreSQL의 Greenplum 매직 수정을 기반으로 하고, 네 번째는 Java의 ES나 Hadoop 생태계 패키징 기반으로… .

문제 해결의 관점에서는 오픈소스 계약을 위반하지 않는 한 오픈소스 프로젝트를 재사용하는 데 문제가 없습니다. 하지만 실제로는 똑같아 보이는 수많은 선택이 필요하지 않으며, 이는 선택의 비용만 증가시킬 뿐이며, 각자 다르다고는 하지만 남들이 가지고 있지 않은 기능을 제공하는 사람은 없습니다.

여기서 제가 말하고 싶은 것은 모든 것이 다르다는 것입니다. 가장 흔히 볼 수 있는 대답은 '나는 몇 가지 혁신을 이루었습니다'입니다. 어떤 데이터베이스 공급업체도 혁신이 전혀 없다고 말할 수는 없을 것입니다. 모두가 약간의 혁신을 이루었다고 말할 것입니다. 이 "작은"이라는 말은 어쩌면 사실일 수도 있습니다.

하지만 사용자 입장에서 보면 이 작은 개선을 제대로 즐길 수 있는 사용자는 거의 없거나 극소수라고 생각합니다. 다른 시나리오에서는 무너질 수 있기 때문에 엔지니어링 및 기술에 종사하는 우리 모두는 특정 조건에서 자신의 우월성을 입증하려면 기본적으로 어떤 것도 할 수 없다는 것을 알고 있습니다. 어떤 상황에서도 이점이 없습니다.

국내 경쟁 제품을 봤는데 입찰가를 평가하기 위해 데이터의 특성을 디스크 파일에 직접 기록하므로 최대 값을 읽어올 때 직접 얻을 수 있습니다. 혁신이라고 할까요? 그렇지 않다고 말할 수는 없습니다. 적어도 나는 다른 사람이 그렇게 하는 것을 본 적이 없습니다. 하지만 그게 말이 된다고 생각하시나요? 최대값이 필요한 경우에는 의미가 있지만 필터링 없이 데이터 파일의 최대값과 최소값이 필요한 사람은 누구입니까?

우리의 가장 큰 차이점은 사용자의 관점에서 사용자에게 필요한 것이 무엇인지 본다는 것입니다. 우리가 해결하는 사용자는 클라우드에 지출할 돈이 거의 없는 사람들입니다. 대기업도 아니고, 운영 및 유지 관리 능력도 거의 없으며, DBA도 없습니다. 게다가 수천 페이지에 달하는 복잡한 매뉴얼을 배워서 배포하고 사용할 수도 없습니다. Snowflake는 가격도 저렴하지 않습니다. 하지만 그는 데이터 분석 서비스를 사용하고 싶어합니다. 그는 복잡한 데이터 분석 요구 사항을 가지고 있으므로 이러한 사용자의 요구를 충족하고 편안하고 저렴하며 즐겁게 사용할 수 있도록 하겠습니다!

마공: 디지털 관점에서 볼 때 당신은 더 저렴한 Snowflake이고 전문 DBA가 필요하지 않지만 개발자에게 직접 서비스를 제공하는 것이지요. DBA님, 당신은 우리의 성능이 그들보다 좋고, 우리의 쿼리 플랫폼 점수가 그들보다 높다고 느낄 수도 있지만, 당신의 생각은 실제로 다릅니다. 지알린은 어떻습니까? 실험실에 데이터베이스가 필요한 이유는 무엇입니까?

Qiao Jialin: 다음 두 가지 질문에 대답하겠습니다. 첫 번째는 중국에 왜 그렇게 많은 데이터베이스가 있습니까?

먼저 데이터베이스가 어떤 일을 하는지 살펴볼까요? 데이터를 관리합니다. 이는 누구나 다 아는 사실입니다. 데이터를 관리하고, 잘 확인하고, 빠르게 확인하세요. 그런 다음 지시된 문서, 관계, 시계열, 키 값, 그래프, 벡터 등 데이터 유형이 얼마나 많은지 살펴보겠습니다. 데이터베이스를 요약자로 간주하면 실제로 요약하려는 개체 유형이 꽤 많습니다. 이를 바탕으로 응용 시나리오는 몇 개나 될까요? 예를 들어 금융은 일반적인 시나리오이고 사물 인터넷은 또 다른 일반적인 시나리오입니다. 각 시나리오에는 세분화된 산업이 있으며 데이터를 다르게 사용할 수 있습니다. 이것이 바로 데이터베이스를 만들 때 사람마다 디자인 컨셉과 목표가 다른 이유이기도 합니다.

이러한 맥락에서 시계열도 데이터 유형 중 하나입니다. 우리가 만드는 IoTDB는 IoT 시나리오에 대한 데이터베이스이며, 이는 또한 우리가 IoT 시나리오에 대한 시계열 데이터 관리임을 결정합니다. 이 두 가지 점을 결합하여 혹시 이 두 가지 점에 해당된다면 당사 제품이 더 나은 선택입니다.

그렇다면 우리는 왜 그러한 데이터베이스를 구축하려는 걸까요?

우리 그룹은 데이터 스토리지 그룹이라고 불리며 기업이 효율적인 데이터 관리 방법을 연구하도록 돕는 전문 그룹이기 때문입니다. 우리 실험실 자체도 산업 배경을 가진 실험실이기 때문에 우리가 접촉하는 데이터 저장소도 산업 및 사물 인터넷이며 응용 시나리오는 처음부터 고정되어 있습니다. 처음에는 오픈 소스 데이터베이스 Cassandra를 직접 사용하여 비즈니스 적응도 수행했습니다. 그러나 나중에 기본 코어 설계가 사용자가 원하는 것과 정확히 일치하지 않는다는 사실이 발견되었습니다. Cassandra는 유연한 키-값 저장소에 가깝습니다. 사용자는 부분 순차 작업이 가능한 데이터베이스를 원하므로 변경을 시도하기 시작했지만 나중에 변경 사항이 원래 오픈 소스 프로젝트와 호환되지 않고 개발과 일치하지 않게 되었습니다. Cassandra의 목표로 인해 우리는 독립했습니다.

02 오픈소스와 클로즈드소스는 모두 어렵다

마공: 흥미로운 질문을 발견했습니다. 두 사람의 배경이 거의 반대라는 것입니다. 하나는 학계 출신입니다. Jialin은 돈에 대해 이야기하지 않았고 비용에 대해서도 이야기하지 않았습니다! 그런 다음 Linghui는 업계와 A당에서 왔습니다. 그는 처음부터 돈에 대해 이야기합니다. 쿼리 비용은 몇 센트입니까?

국내 데이터베이스에서는 두 가지 전략이 실제로 다른 것 같은데, 일부는 상용 데이터베이스이고, 일부는 오픈소스 기반입니다. 장기적으로 볼 때 각각의 장단점은 무엇이라고 생각하시나요?

Qiao Jialin: 지수 압력이 있는지 여부는 우리 데이터베이스의 선택과 설계에 큰 영향을 미칠 것입니다. 온라인에 접속하는 데 1년이 걸리는 데이터베이스와 온라인에 접속하는 데 3년이 걸리는 데이터베이스의 디자인은 확실히 다릅니다. 항상 프로젝트 압박을 받고 있다면 모든 디자인이 프로젝트 우선 순위에 집중될 수 있습니다.

하지만 학교에서 처음 시작했을 때는 그런 부담감이 없었습니다. 아마도 인터넷 시나리오에 어떤 종류의 데이터베이스가 필요한지 더 많이 생각했을 것입니다. 데이터베이스 아키텍처는 어떤 모습이어야 합니까? 오늘날 더 나은 오픈 소스 기술은 무엇입니까? 우리는 더 많은 선택을 할 수 있고 더 많은 기술 솔루션을 시연, 설계 및 구현할 수 있습니다. 나중에 Apache Foundation에 가입하고 상업 회사가 된 후에는 오픈 소스 소프트웨어를 사용하여 개발자가 계속해서 기여할 수 있도록 지원하는 방법이 포함되었습니다.

우리는 이제 오픈 소스 데이터베이스 제품을 기반으로 일부 엔터프라이즈 버전을 구축하고 있습니다. 엔터프라이즈 버전을 오픈 소스로 만들 필요가 없습니다. GPL 계약과 비교하여 아파치 계약은 소프트웨어 개발자의 권리와 이익 보호를 강조합니다. 현재 많은 엔터프라이즈 소프트웨어가 Apache 소프트웨어를 기반으로 추가로 개발되는 것은 바로 이 때문입니다. 따라서 오픈소스 소프트웨어가 하나의 옵션이고, 오픈소스 소프트웨어를 기반으로 한 엔터프라이즈 버전은 또 다른 옵션이다. 이 엔터프라이즈 버전은 사용자에게 더 많은 기술적 보증을 제공할 수 있습니다.

마공: 링후이는 오픈소스 계약에 별로 동의하지 않는 것 같습니다.

Li Linghui: 제가 정말 불만을 토로하는 것은 VC 자금이나 투자자 자금을 사용하여 상업용 오픈 소스 회사를 구축하는 것입니다. 칭화대학이 돈을 이용해 오픈소스를 하는 것은 당연하다고 생각합니다. 여러분이 지출하는 것은 납세자의 돈입니다. 오픈소스는 사회에 환원하고 과학 연구 결과를 사회에 공개하는 것입니다. 저는 이것이 옳은 일이라고 생각하며, 학계가 모범을 보여야 합니다.

모든 오픈소스 프로젝트의 절반 이상은 학계에서 나와야 한다고 생각합니다. 많은 첨단 기초 프로젝트는 국가 규모의 과학 연구 투자가 있어야만 달성할 수 있습니다. 실험 단계가 길고, 우리 사업가들이 시간적 여유가 없기 때문입니다. .은 매우 짧습니다. 회사를 운영한다는 것은 학생들이 돈을 받지 않고 행복하게 과학 연구를 하는 것과는 다릅니다. 회사의 경우, 어떤 주주도 이 일을 10년, 20년 동안 하도록 지지하지 않을 것입니다. 당신 앞에 놓인 첫 번째 질문은 어떻게 돈을 버느냐 하는 것입니다.

오픈소스라고 하면, 이게 혁신적인 것이고 이런 식으로 시장에 진출한다면, 아직 다른 사람들은 이해하지 못할 수도 있기 때문에 이 방법이 맞는 것 같아요. 하지만 우리의 마이크로 데이터베이스와 같은 성숙한 시장에서는 이 시장이 매우 성숙해졌고, 시장에 나와 있던 것들이 수십 년 동안 시장에 나오지 않았습니다. 사실 오픈소스의 가장 큰 장점은 돈이 들지 않는다는 점인데, 주변에 돈이 필요 없는 300형제를 보면 어떻게 눈에 띄는가? 이것은 누구나 생각해 보고 싶은 질문이다. 비즈니스 경쟁의 관점에서 볼 때 우리가 본질적으로 추구하는 것은 개인이든 회사이든 모든 돈 수집의 전제는 대체 불가능입니다. 자신의 대체 불가능성을 어떻게 관리하는가는 모든 창업자가 고려해야 할 질문입니다.

03 좋은 데이터베이스에는 약간의 강인함이 필요합니다

마 공: Ling Hui는 흥미로운 질문을 언급했습니다. B는 많은 프로젝트를 수행하고 있으며 각 프로젝트는 기본적으로 고유한 버전이 없습니다. Jialin은 오픈 소스이지만 실제로 다른 사람이 귀하의 제품을 맞춤화하는 것을 막을 방법이 없습니다.

그런데 사실 A당 입장에서는 A당도 이를 싫어합니다. 버전 관리 기능이 있는 제품과 맞춤형 프로젝트를 사용하는 경우 후자는 너무 위험합니다. No Party A가 이 버전을 사용하고 싶다고 하더군요. 이 구성을 이해할 수 있는 사람은 전 세계에서 3명뿐이죠. 그런데 국내 데이터베이스 시장은 왜 이런 맞춤형 시장을 형성했을까? A당, B당이 원하지 않았는데 이렇게 됐네요. 왜 이런 비정상적인 상태가 형성되는 걸까요?

Li Linghui: 저는 오랫동안 중국의 많은 대형 파티에서 일해왔습니다. 충분히 강력하고 표준화된 제품이 없고 사용자의 요구가 충족되지 않으면 사용자가 무엇을 해야 할지 파악하도록 도와야 하며 사용자의 상상력은 제한되지 않습니다. 그는 전반적인 상황에 대해 생각하지 않고 자신의 필요에만 생각합니다. 특히 A당이 나에게 이렇게 말할까봐 두렵습니다. "아주 간단한 부탁이 있습니다. 이렇게 하시면 됩니다..." 보통 이 말을 들으면 도망가고 싶어집니다.

그는 당신이 이해하지 못한다고 생각하고 당신을 가르치고 싶어합니다. 예를 들어, 귀하의 정보가 자동으로 저장되기 때문에 참을 수 없습니다. 버튼을 알려주시면 클릭하겠습니다. 구하다. 이 버튼은 기능이 없다고 말씀드렸는데, 사실은 저장되어 있어요. 그는 아직도 그것이 필요하다고 말했습니다.

이러한 요구가 충족되어야 한다고 생각하십니까? 솔직히 이 요구를 충족시키면 자동으로 저장한 거 아니냐며 놀라는 고객들이 더 많아질 것이다. 이 버튼을 제공한 이유는 무엇인가요? 이것은 실제로 게임의 문제입니다. A당과 B당이 누가 더 권위 있고 누가 이 업계의 표준 답변을 더 잘 대표할 수 있는지 결정할 때 누가 더 강해질 것입니다.

같은 당사자 A가 IBM과 Microsoft를 만났을 때 그다지 오만하지 않았습니다. 그러므로 당신이 약한 A당이라면 당신이 받는 존경심만으로는 충분하지 않습니다.

실제로, 때때로 우리는 전문적이지 않습니다. 제 고객이 제게 질문한 적이 있습니다. 저는 이 업계에 20년 동안 종사해 왔는데, 당신은 이 분야에 몇 년이나 종사하셨나요? 2년 동안 했다고 하더군요. 그는 말했다, 왜 나에게 무엇을 해야 하는지 가르쳐 주나요? 남들이 옳다고 말할 수는 없지만 미술계에는 전문성이 있습니다. 그래서 사업을 시작할 때, 특히 제품을 만들 때 문제를 이해하는 데 있어 자신의 역량 범위를 넘어서는 안 된다고 생각합니다. 이해하지 못하는 일을 하면 자연스럽게 사용자의 요구를 따르게 됩니다.

마공: 말씀하신 문제는 실제로 데이터베이스에는 없습니다. 다른 산업에서도 마찬가지입니다. 맹목적으로 고객 요구 사항을 충족하면 제품이 죽게 됩니다. 제가 보기에 이것은 매우 흔한 제품 관리 오해입니다. 즉, 사용자가 자신의 제품 관리자가 되도록 하십시오.

물론 Ling Hui는 이미 다음과 같이 설명했습니다. 많은 B당의 인지 수준이 A당보다 높지 않으므로 A당은 자연스럽게 귀하의 말을 듣지 않을 것입니다. 나는 너보다 낫다고 생각하니 내 말을 들어야 한다. 돈을 주고 아빠라고 부르지 못하게 하면 자비로운 일이라고 생각한다. 이 강력한 입장에 저항할 수 있는 유일한 것은 당신의 지식이 그의 것보다 낫다는 것입니다. 당신은 제품을 판매할 뿐만 아니라 일련의 개념과 계획도 A에게 요청하여 이를 수행합니다. 계획은 좋으며 당신과 동등한 관계를 맺는 것이 가장 좋습니다. 하지만 대부분의 제품 관리자나 회사에는 이런 능력이 없습니다. 이런 능력을 가진 사람이 있다면 그 출처 중 하나는 학계가 아닐까 싶습니다.

Jialin처럼 저도 Tsinghua University에서 왔다고 할 수 있습니다. 우리 연구 그룹 전체는 10년 이상 전 세계의 논문을 읽었습니다. 내가 20년 동안 일했기 때문에 이 늙은 여우들이 내가 당신보다 더 잘 안다고 생각하게 하는 대신, 그렇게 해서 업계에 새롭고 더욱 발전된 게임플레이를 소개할 수 있습니까?

Qiao Jialin: 저의 멘토가 가장 자주 말씀하신 것은 데이터베이스의 복잡성을 제어하고 데이터베이스가 하지 말아야 할 일을 하는 데 이를 사용하지 말라는 것입니다. 코드의 단순성은 데이터베이스 활력의 장기적인 원천입니다. 많은 기능을 추가하면 단기적으로 한두 명의 사용자를 확보할 수 있지만 장기적으로는 이 코드를 유지 관리할 수 없게 됩니다.

그러면 우리는 왜 이것을 할 수 있습니까? 아마도 과거 오픈소스의 축적 때문이 아닐까 싶습니다. 약 5년 동안 오픈소스를 다듬고 나서야 정식으로 상용화했기 때문에 이 제품은 기본적으로 기업 사용자를 포함한 많은 오픈소스 사용자의 요구를 충족할 수 있었습니다. 이 제품은 충분히 표준적이므로 사용자가 이상한 요청을 하지 않습니다. 그러나 우리는 산업용 사물 인터넷용 데이터베이스를 작업하고 있기 때문에 산업 시나리오가 충분히 복잡합니다. 우리는 비즈니스 시나리오 요구 사항에 대해 산업 사용자와 동등하게 소통하고 싶고 실제로 더 많은 것을 배워야 합니다.

더 많은 라이브 콘텐츠를 보려면 코드를 스캔하여 다시보기를 시청하세요↓↓↓

[오픈소스 토크]

OSCHINA 영상계정 채팅 칼럼 [오픈소스 토크]는 이슈별로 기술적인 주제를 가지고 3~5명의 전문가가 둘러앉아 오픈소스에 대한 의견을 나누며 이야기를 나눕니다. 최신 업계 개척지, 가장 인기 있는 기술 주제, 가장 흥미로운 오픈 소스 프로젝트, 가장 날카로운 이념적 교류를 제공합니다. 새로운 아이디어나 좋은 프로젝트가 있어 동료들과 공유하고 싶다면 포럼은 언제나 열려있습니다~

국내 데이터베이스 업계에는 왜 이렇게 병행수입이 많은 걸까요?

01 데이터베이스가 너무 많아서 추세를 따라가는 것이 전부 잘못은 아닙니다.

02 오픈소스와 클로즈드소스는 모두 어렵다

03 좋은 데이터베이스에는 약간의 강인함이 필요합니다

추천