테이블 열 V2.0에서 캥거루 클라우드 데이터 | 데이터 통합의 데이터 세트

영상

캥거루 클라우드 테이블 열 V2.0의 데이터

어떻게 데이터 세트 정의? 테이블의 엔터프라이즈 데이터의 관계 및 데이터는 무엇인가? 어떻게 데이터가 기업의 전략적 변환을 지원하기 위해 설정? 캥거루 과정은 우리가 데이터 컨설팅 및 구현 서비스 플로어를 제공하기 위해 대만 대기업의 수십, 실제 풍부한 경험을 축적하고있을뿐만 아니라, 고객 서비스, 지난 2 년간 클라우드, 지속적으로 개선하고 자신의 데이터를 승화 대만 이론적 시스템 및 실제적인 방법론. 우리는 후속 기사를 공유하여 공동으로 전사적 데이터의 프로세스를 가속, 당신 독자들과 통신 할 수 있기를 바랍니다. 이 열은 ~ 일주일에 1-2 기사를 업데이트, 그래서 계속 지켜봐 주시기 바랍니다

데이터 통합의 데이터 세트

1

현대 기업에서, 시나리오의 사용, 비즈니스 양식, 기술 선택, 개발 프레임 워크의 차이는 종종 서로의 데이터 소스는 독립적 인 여러 이기종 정보 시스템은 이러한 시스템에 따라 서로 다른 하드웨어 및 소프트웨어 플랫폼에서 실행해야, 상호 따라서 형성 IT 시스템, 공유 어려울 통합 간의 데이터 교환하게 폐쇄 "정보의 섬." 기업 내에서 정보 기술 응용 프로그램의 심화로, 기존의 정보, 차이나 유니콤 (China Unicom) "정보의 섬"을 통합하고 정보를 공유 할 수있는 외부 점점 더 강력하고 긴급한 필요와 기업의 정보 교환에 대한 수요.

데이터를 구축하는 기업의 요청에 따라 데이터 상호 운용성과 데이터의 공유를 해결하기 위해 설정 "데이터 통합"파이프 라인 및 정보 시스템 및 데이터 세트를 통해 얻을 수있는 다리, 대만 전체의 통합이다 데이터를 통해 중요한 기초를 구성한다.

영상
모든 패스 시스템 데이터

이 문서는 주로 데이터 테이블에 링크 동기화 할 다른 데이터의 데이터 저장 매체를 지칭 데이터 통합 ​​이야기 일부 시나리오에서, 또한 데이터 "는"데이터 수집 ","데이터 동기화 "로 지칭 될 수있다 구름. "

2 개 준비

데이터 통합 ​​개발의 구현 전에, 우리는 일반적으로 다음에 대한 연구와 준비를 수행 :

  • 데이터 소스 카테고리 : 데이터 테이블 문헌 데이터 소스, 데이터 소스, 데이터 적시성 요구, 인수를 결정하는 기술 요소의 유형을 결정

- 네트워크 및 환경 : 네트워크 환경 정보 및 데이터 소스를 결정하는 실시 예에 따른 통합하고 필요한 변화의 기존의 네트워크 환경에 최적화

영상

  • 데이터 내용 : 연구 데이터의 전체 금액의 크기, 증가 크기, 분포
  • 数据质量:调研数据的增量标记、索引、主键信息等
  • 数据范围:调研需要集成的数据范围,筛选出需要集成到数据中台的相关数据,一般以支撑业务流程或带业务属性的数据为主

3 业务架构

针对采集的业务内容,以及常见的同步分类,我们将数据集成的业务架构整理如下:

영상
数据集成的业务架构

4 集成流程

以下通过几个典型的数据同步场景案例,来介绍数据同步流程。

4.1 关系型数据库离线同步流程

영상

4.2 API类数据同步

영상

4.3 实时类数据同步

영상

5 袋鼠云数栈 DTinsight - 数据同步模块

数据同步模块是在各个存储单元之间执行数据交换的管道。

为了在「DTinsightIDE」进行大规模数据集的挖掘与计算,通常的做法是在任务执行前将数据传输至DTinsightIDE,并在任务执行结束后将计算结果传输至外部存储单元(例如MySQL等应用数据库)。

数据集成的作用如下图所示:

영상

袋鼠云数栈-数据同步模块

袋鼠云数栈-数据同步模块的具有以下特性:

  • 丰富的数据源支持
    数据同步模块可对MySQL、Oracle、SQLServer、PostgreSQL、HDFS、Hive、HBase、FTP、ElasticSearch、ODPS、ElasticSearch、Redis、MongoDB等数据源,支持对这些数据源进行读取或写入数据。使用时仅需配置数据源的连接信息(例如填写Oracle数据库的JDBC URL、用户名、密码等信息),再配置对应的数据同步任务即可。
  • 分布式系统架构
    数据同步模块在系统架构上采用先进的分布式系统架构(FlinkX[1]),可实现多个节点并发读取、写入数据,可极大的提升数据同步的吞吐量,相比Sqoop、Kettle等开源数据同步方案,数据吞吐能力更高、配套功能。
  • 시각화 구성
    동기화 작업 선택 소스 라이브러리 소스 테이블, 목표 데이터베이스 개체 테이블, 구성 필드 매핑, 구성 동기화 속도를 포함하여, 시각적 구성을 통해 신속하게 생성 및 구성 동기화 작업을 완료하기 위해 데이터 동기화 모듈을 사용하여 사용자.
  • 총 금액 / 증분 동기화
    비즈니스 시스템에서 데이터를 읽는 증가 프로세스는 서비스 시스템에 대한 영향은 일반적으로 데이터의 동기화에 대한 필요성을 최소화합니다. 이는 원본 데이터베이스 테이블 변경 시간 필드에 데이터가 증분 데이터를 관계형 데이터베이스 동기화를 지원하는 경우를 포함하고, 단지 해당 데이터 문장을 입력 할 필요는 사용자 여과한다.
  • 동기 속도 제어
    데이터의 양을 조정할 필요 상한 율이 하드웨어 구성 및 파라미터 값을 설정함으로써, 동기를 조정하기 위해 지원 데이터의 동기 속도 제어, 사용자는 비즈니스 요구에 따른 세트를 선택한다.
  • 더러운 데이터 관리
    레코드 구성에 더티 데이터에 대한 지원, 당신은 적절한 조사와 오염에 사용자에게 메시지를 표시, 더러운 데이터 수명주기의 스토리지 테이블을 지정할 수 있고, 더티 데이터의 양이 일정 금액 또는 실패 일정 비율을 초과하면 작업이 설정되어있는 경우 구성 할 수 있습니다 문제 및 분석 보고서를 생성합니다.

더 흥미로운

캥거루 소개 클라우드 데이터는 열 V2.0의 시리즈를 설정합니다

엔터프라이즈 데이터인지 : 데이터가 생산성입니다!
세 가지 영역 기업 : 비즈니스 인터페이스, 응용 프로그램 인터페이스, 데이터 인터페이스
세 패러다임의 건설 사업 수치
기업 디지털 (데이터 인터페이스) 전체 아키텍처
검토 데이터 세트 : 테이블의 데이터에서 세 가지 차원 모양
테이블의 데이터 소스 데이터

캥거루 구름 소개

기업 데이터의 캥거루 클라우드 데이터가 기업의 핵심 경쟁력이 될 수 있도록, 기업 데이터의 과정을 가속화하기 위해, 드라이브 엔진의 기업 데이터를 구축, 공급 체인을 통해 데이터를 열고, 총 솔루션 제공, 대만 옹호, 지도자 데이터 아키텍처입니다. DTSTACK.COM의
데이터 정보는 본으로 미래를 보자

추천

출처yq.aliyun.com/articles/704530