지난 몇 년 동안 사물 인터넷(IoT)의 인기가 높아지고 실시간 데이터에 대한 필요성이 높아짐에 따라 시계열 데이터베이스(TSDB) 채택이 크게 증가했습니다. DB-Engines 순위에 따르면 TSDB의 인기는 Graph DBMS 다음으로 다른 모든 유형의 데이터베이스보다 높습니다 .
시계열 데이터를 저장, 관리, 분석하는 중요한 도구로서 시계열 데이터베이스(TSDB)에 대한 수요는 앞으로도 계속 증가할 것으로 예상됩니다. 아직 이에 대해 잘 모르신다면, 이번 글에서는 시계열 데이터베이스가 무엇인지, 시계열 데이터를 위한 데이터베이스가 왜 필요한지 종합적으로 소개하겠습니다.
시계열 데이터란?
최근 몇 년간 시계열 데이터베이스의 인기를 논할 때 먼저 시계열 데이터를 처리하려면 왜 특별히 최적화된 데이터베이스가 필요한가요? 일반 관계형 데이터베이스로는 이를 만족할 수 없나요?
소위 시계열 데이터는 매우 대중적인 관점에서 볼 때 시간에 따라 변하는 일부 값(Value)이며 동시에 이러한 값에는 Key=Value로 구성된 일부 태그가 수반됩니다.
일반적으로 다음 세 가지 속성이 포함됩니다(Wikipedia 참조).
시계열
이름(종종 지표라고 함)과 일련의 Key=Value 레이블(레이블 또는 일반적으로 태그라고 함)로 구성된 고유 식별자입니다.
키-값 쌍(타임스탬프, 값)
타임스탬프와 값으로 구성된 키-값 쌍은 타임스탬프에 따라 자연스럽게 정렬됩니다. 이러한 키-값 쌍을 일반적으로 샘플이라고 합니다.
값
포인트 2의 값은 일반적으로 온도, 습도, CPU, 메모리 사용량 등과 같은 숫자 값이지만 모든 데이터 구조(구조화 및 비구조화 모두)일 수도 있습니다.
시계열 데이터 사례
예를 들어, 날씨 웹사이트의 Yuhang에 대한 15일 일기 예보 스크린샷을 찍으세요.
최대 온도와 최소 온도의 두 줄을 분석하면 여기에 있는 세 가지 속성은 다음과 같습니다.
- 타임라인은 다음과 같습니다. a. 일일 최고 기온 + <region=Yuhang> b. 일일 최저 기온 + <region=Yuhang>
- 타임스탬프와 최고기온 값으로 구성된 시퀀스는 8/29부터 09/06까지의 15개 키-값 쌍이며, 값은 일일 최고기온이다. 최저기온은 비슷합니다.
- 여기서 Value는 온도, 즉 숫자 값입니다. 예를 들어 8월 29일의 최고 기온은 섭씨 36도, 최저 기온은 섭씨 25도입니다.
일기예보 정보 외에도 시계열 데이터는 다음과 같은 분야에도 널리 존재합니다.
주가 : 주식 분석가 및 트레이더가 특정 주가의 추세와 방향을 이해할 수 있습니다.
건강 모니터링 : 의료 분야에서 특정 약물을 복용 중인 환자의 심박수 또는 기타 건강 값을 모니터링하는 데 사용됩니다.
산업 및 사물 인터넷용 물리적 센서 : 다양한 온도, 습도, 속도, 가속도, 방향, 심박수, 혈중 산소 및 기타 센서를 포함하여 다양한 스마트폰, 스마트 자동차, 스마트 홈 등에 포함되어 제조에 널리 사용됩니다. 다양한 센서는 항상 고정되거나 불규칙한 간격으로 대량의 감각 데이터를 생성하며, 이는 주로 장비 및 인체에 대한 일상 및 비정상 모니터링에 사용되며 이러한 대규모 데이터 마이닝을 기반으로 하는 지능형 애플리케이션(예: 지능형 제조의 생산 라인 최적화), 자율 주행 등
소프트웨어 센서 : 기존 DevOps의 침입 프로브 모니터링, 클라우드 네이티브 환경의 비침입 프로브(예: 현재 널리 사용되는 eBPF 및 서비스 메시 데이터 플레인 프로브 기반 비침입 프로브 솔루션), 다양한 소프트웨어 다양한 지표의 주요 목적 임베디드 데이터는 비즈니스 서비스의 지속적이고 안정적인 운영을 보장하기 위해 일상적이고 비정상적인 소프트웨어 애플리케이션을 모니터링하는 것입니다. 현재 AIOps 분야의 발전과 함께 시계열 데이터 사용의 규모와 세분화에 대한 요구 사항도 높아졌습니다.
시계열 데이터의 특성
- 데이터는 상대적으로 빈번하고 안정적으로 생성되며 , 빈도는 일반적으로 안정적이며 사람들의 일별 활동 주기에 따라 변하지 않습니다. 다양한 유형의 센서가 있고 산업 및 지리적 위치에 대한 수많은 레이블이 결합되어 데이터 및 타임라인의 규모가 매우 큽니다. 그리고 스마트 장치(웨어러블 장치, 스마트 자동차, 스마트 제조)의 인기와 이러한 데이터 애플리케이션에 대한 사람들의 더욱 정교한 요구로 인해 이러한 데이터의 규모가 빠르게 증가하고 있습니다.
- 데이터의 변경 특성은 Append-Only 방식과 더 유사합니다 . 데이터가 지속적으로 추가되고 업데이트 시나리오가 적습니다(그러나 여전히 데이터 지연이 있으며, 특히 취약한 네트워크 환경에서는 데이터가 만료 시간에 따라 삭제됩니다). . 일정 기간 동안 일괄 삭제합니다.
- 데이터 활용 측면에서 가장 일반적인 것은 일상 및 이상 모니터링입니다 . 이러한 데이터를 기반으로 시각적 모니터링 보고서 및 경보 시스템을 구축하고 이어서 미래 추세 예측, 즉 시계열 예측이 이어집니다. 특히 금융 분야에서는 더욱 그렇습니다.
시계열 데이터가 중요한 이유
시계열 데이터는 새로운 데이터 유형은 아니지만 DB-Engines의 분석에 따르면 지난 몇 년간 그 인기와 활용도가 크게 증가했습니다. 다음을 포함하여 무시할 수 없는 여러 가지 요소가 있습니다.
- 인터넷의 발달과 다양한 산업의 디지털화 . 이는 웹사이트 트래픽, 소셜 미디어 활동, 센서 판독값과 같은 대규모 시계열 데이터 생성으로 직접 이어집니다.
- 기계 학습 알고리즘 개발 . 순환 신경망(RNN) 및 장단기 기억(LSTM) 네트워크와 같은 이러한 알고리즘은 시계열 데이터 분석에 적합하여 사람들이 이러한 유형의 데이터에서 귀중한 정보를 더 쉽게 추출할 수 있게 하여 시계열 데이터에 기회를 제공합니다. 더 많은 가치를 창출하기 위해
- 예측 분석의 부상 . 이는 시계열 데이터를 추세와 미래 결과를 예측하는 데 중요한 도구로 만듭니다.
- 금융, 의료, 교통 등의 분야에서 필요합니다 . 이러한 분야에서는 실시간 의사결정에 대한 필요성이 증가하고 있으며, 시계열 데이터 분석은 이러한 급변하는 상황에 대처할 수 있습니다.
시계열 데이터베이스란 무엇입니까?
위키피디아의 정의에 따르면 시계열 데이터베이스(Time Series Database)는 시계열 데이터 처리에 특별히 최적화된 데이터베이스로, 도메인 데이터베이스 의 일종 으로 그래프 데이터베이스 처리, 그래프 저장, 관리 등 특정 사업 분야의 데이터 처리 서비스를 위해 설계됐다. 검색 , 문서 데이터베이스는 반구조화된 문서의 저장 및 검색에 사용되며, 검색 엔진은 구조화되지 않은 텍스트 검색에 특별히 사용됩니다.
시계열 데이터베이스의 특성
위에서 설명한 시계열 데이터와 관련된 특성과 과제를 해결하기 위해 TSDB는 다양한 기술을 사용합니다. 이러한 일반적인 특성 중 일부는 다음과 같습니다.
로그 구조 병합 트리(LSM-트리)
LSM-트리는 쓰기 작업이 많은 워크로드에 최적화된 디스크 기반 데이터 구조로, 일련의 계층에서 데이터를 병합 및 압축하여 효율적인 데이터 수집 및 저장을 가능하게 합니다. 이는 쓰기 증폭을 줄이고 기존 B-트리에 비해 더 나은 쓰기 성능을 제공합니다.
시간 기반 파티셔닝
시계열 데이터베이스는 일반적으로 시간 간격을 기준으로 데이터를 분할하여 쿼리를 더 빠르고 효율적으로 만들고 데이터를 더 쉽게 유지하고 관리할 수 있도록 해줍니다. 이 접근 방식은 자주 액세스하는 최신 데이터와 자주 액세스하지 않는 오래된 데이터를 분리하여 스토리지 및 쿼리 성능을 최적화하는 데 도움이 됩니다.
데이터 압축
시계열 데이터베이스는 델타 인코딩, Gorilla 압축 또는 사전 인코딩과 같은 다양한 압축 기술을 사용하여 저장 공간 요구 사항을 줄입니다. 이러한 기술은 시계열 데이터의 시간적 및 가치 기반 패턴을 활용하여 데이터 충실도를 잃지 않고 효율적인 저장을 가능하게 합니다.
내장된 시간 기반 함수 및 집계
시계열 데이터베이스는 이동 평균, 백분율 및 시간 기반 집계와 같은 시간 기반 기능에 대한 기본 지원을 제공합니다. 이러한 내장 기능을 통해 사용자는 기존 데이터베이스에 비해 계산 오버헤드를 줄이면서 복잡한 시계열 분석을 보다 효율적으로 수행할 수 있습니다.
시계열 데이터베이스를 선택하는 이유
위의 소개에서 우리는 시계열 데이터베이스라는 특정 분야에서 데이터베이스가 필요한 이유에 대한 예비 답변도 얻었습니다.
시계열 데이터의 특성, 규모 및 적용을 기반으로 시계열 데이터베이스는 목표한 최적화를 수행할 수 있습니다. 저장소는 맞춤형 압축 알고리즘을 채택하고 저장소 형식은 시계열 대량 쓰기 및 쿼리 시나리오에 최적화된 행-열 혼합 저장소 형식을 채택합니다. 쿼리 연산자 타이밍을 위한 더 많은 시간 창 관련 기능을 도입하고, 타이밍 모델에 대한 쿼리 프로토콜을 최적화하며, 데이터 삭제를 위한 보다 유연한 만료 전략을 채택합니다 .
이러한 도메인별 최적화는 도메인 기능, 성능, 비용, 안정성 및 기타 측면에서 범용 데이터베이스에 비해 시계열 데이터베이스에 큰 이점을 제공할 수 있습니다.
요약하다
시계열 데이터베이스는 사물 인터넷, 재무 데이터 분석, 모니터링 및 경보 시스템, 에너지 관리, 의료 애플리케이션 및 기타 "시간"에 민감한 산업에서 널리 사용되었습니다. 시계열 데이터베이스를 사용하여 시계열 데이터를 분석하고 예측함으로써 기업은 데이터에서 귀중한 정보를 얻을 수 있으므로 더 많은 정보를 바탕으로 결정을 내리고 고유한 경쟁 우위를 얻을 수 있습니다.
그러나 시계열 데이터베이스와 관계형 데이터베이스는 호환되지 않습니다. 비즈니스 시스템은 일반적으로 여전히 관계형 데이터베이스를 광범위하게 사용하므로 어떻게 시계열 데이터와 비즈니스 데이터를 더 편리하고 효과적으로 결합하여 더 큰 비즈니스 가치를 창출할 수 있을까요? 시리즈 데이터베이스를 해결해야 합니다.
Greptime 소개:
Greptime Greptime Technology는 스마트 자동차, 사물 인터넷, 가시성 등 대량의 시계열 데이터를 생성하는 분야에 효율적인 실시간 데이터 저장 및 분석 서비스를 제공하여 고객이 데이터의 깊은 가치를 채굴할 수 있도록 지원하는 데 전념하고 있습니다. 현재 3가지 주요 제품이 있습니다.
-
GreptimeDB는 Rust 언어로 작성된 시계열 데이터베이스로, 분산형, 오픈 소스, 클라우드 기반이며 호환성이 뛰어납니다. 이는 기업이 시계열 데이터를 실시간으로 읽고, 쓰고, 처리하고 분석하는 데 도움이 되며, 장기적인 저장 비용도 절감됩니다.
-
GreptimeCloud는 관찰 가능성, 사물 인터넷 및 기타 분야와 고도로 통합될 수 있는 완전 관리형 DBaaS 서비스를 사용자에게 제공할 수 있습니다.
-
GreptimeAI는 LLM 애플리케이션에 맞춰진 관찰 솔루션입니다.
-
차량-클라우드 통합 솔루션은 자동차 회사의 실제 비즈니스 시나리오에 깊이 파고들어 회사의 차량 데이터가 기하급수적으로 증가한 후 실제 비즈니스 문제점을 해결하는 시계열 데이터베이스 솔루션입니다.
GreptimeCloud 및 GreptimeAI는 공식적으로 테스트되었습니다. 최신 개발 소식을 보려면 공식 계정이나 공식 웹사이트를 팔로우하세요! GreptimDB의 엔터프라이즈 버전에 관심이 있으시면 어시스턴트에게 문의하실 수 있습니다(어시스턴트를 추가하려면 WeChat에서 greptime을 검색하세요).
공식 홈페이지: https://greptime.cn/
GitHub: https://github.com/GreptimeTeam/greptimedb
트위터: https://twitter.com/Greptime
슬랙: https://www.greptime.com/slack
링크드인: https://www.linkedin.com/company/greptime
1990년대에 태어난 프로그래머가 비디오 포팅 소프트웨어를 개발하여 1년도 안 되어 700만 개 이상의 수익을 올렸습니다. 결말은 매우 처참했습니다! 고등학생들이 성인식으로 자신만의 오픈소스 프로그래밍 언어 만든다 - 네티즌 날카로운 지적: 만연한 사기로 러스트데스크 의존, 가사 서비스 타오바오(taobao.com)가 가사 서비스를 중단하고 웹 버전 최적화 작업 재개 자바 17은 가장 일반적으로 사용되는 Java LTS 버전입니다. Windows 10 시장 점유율 70%에 도달, Windows 11은 계속해서 Open Source Daily를 지원합니다. Google은 Docker가 지원하는 오픈 소스 Rabbit R1을 지원합니다. Electric, 개방형 플랫폼 종료 Apple, M4 칩 출시 Google, Android 범용 커널(ACK) 삭제 RISC-V 아키텍처 지원 Yunfeng은 Alibaba에서 사임하고 향후 Windows 플랫폼용 독립 게임을 제작할 계획