テーブルの列のV2.0でカンガルーのクラウドデータ|データ統合のデータセット

画像

カンガルーのクラウドテーブルの列のV2.0のデータ

どのようなデータセットは、定義されましたか?企業データやテーブル内のデータの関係は何ですか?どのようにデータは、企業の戦略転換をサポートするために設定されますか?カンガルーのプロセスは、我々は、データのコンサルティングや導入サービスフロアを提供するために、台湾で大企業の数十のために、実務経験の富を蓄積してきた持っているだけでなく、顧客サービスに、過去2年間を曇らせ、そして絶えず改善し、自分のデータを昇華します台湾理論体系と実践的な方法論。私たちは共同で、あなたの読者と通信するためのフォローアップ記事を、共有することで、企業全体のデータのプロセスを加速することを願っています。この列には、〜週に1-2の記事を更新するので、お楽しみに

データ統合のデータセット

1

現代の企業では、シナリオ、ビジネスフォームの違い、技術選択、開発フレームワークの使用は、多くの場合、これらのシステムに基づいて、互いに独立したデータソースを異なるハードウェアおよびソフトウェアプラットフォーム上で実行する複数の異種情報システムを持っています相互したがって形成システム、共有と統合の間にそれが困難なデータ交換、作る、閉じた「情報の島を。」企業内の情報技術アプリケーションの深化と、既存の情報、中国聯通「情報の島」を統合し、情報を共有するための外部ますます強く、緊急の必要性と、企業の情報交換のための需要。

データを構築するために、企業の要求に応じてデータの相互運用性とデータの共有を解決するために設定し、「データ統合」は、パイプラインと情報システムとのデータセットを介して取得するためのブリッジで、台湾全体の統合されたデータによる重要な基礎を構成しています。

画像
すべてのパスのシステムデータ

この記事では、主にデータの表のリンクに同期されます異なるデータからのデータの記憶媒体を指し、データ統合について話しました、いくつかのシナリオでは、またデータ」の「データ収集」、「データ同期」と呼ばれることがあります雲。 "

2つの準備

データ統合開発の実装前に、我々は一般的に以下のための研究と準備を行って:

  • データソースのカテゴリ:データのテーブルで上記のデータソース、データソースの種類を判別し、データおよび適時性の要件、取得を決定するための技術コンポーネント

- ネットワーク環境:実施形態の集積、及び既存のネットワーク環境と必要な変換の最適化に応じて、ネットワーク環境情報及びデータソースを決定します

画像

  • データ内容:研究データの完全な量のサイズ、インクリメントサイズ、分布
  • 数据质量:调研数据的增量标记、索引、主键信息等
  • 数据范围:调研需要集成的数据范围,筛选出需要集成到数据中台的相关数据,一般以支撑业务流程或带业务属性的数据为主

3 业务架构

针对采集的业务内容,以及常见的同步分类,我们将数据集成的业务架构整理如下:

画像
数据集成的业务架构

4 集成流程

以下通过几个典型的数据同步场景案例,来介绍数据同步流程。

4.1 关系型数据库离线同步流程

画像

4.2 API类数据同步

画像

4.3 实时类数据同步

画像

5 袋鼠云数栈 DTinsight - 数据同步模块

数据同步模块是在各个存储单元之间执行数据交换的管道。

为了在「DTinsightIDE」进行大规模数据集的挖掘与计算,通常的做法是在任务执行前将数据传输至DTinsightIDE,并在任务执行结束后将计算结果传输至外部存储单元(例如MySQL等应用数据库)。

数据集成的作用如下图所示:

画像

袋鼠云数栈-数据同步模块

袋鼠云数栈-数据同步模块的具有以下特性:

  • 丰富的数据源支持
    数据同步模块可对MySQL、Oracle、SQLServer、PostgreSQL、HDFS、Hive、HBase、FTP、ElasticSearch、ODPS、ElasticSearch、Redis、MongoDB等数据源,支持对这些数据源进行读取或写入数据。使用时仅需配置数据源的连接信息(例如填写Oracle数据库的JDBC URL、用户名、密码等信息),再配置对应的数据同步任务即可。
  • 分布式系统架构
    数据同步模块在系统架构上采用先进的分布式系统架构(FlinkX[1]),可实现多个节点并发读取、写入数据,可极大的提升数据同步的吞吐量,相比Sqoop、Kettle等开源数据同步方案,数据吞吐能力更高、配套功能。
  • 可視化構成
    同期タスクの選択ソースライブラリのソース表、ターゲット・データベース・オブジェクトテーブル、設定フィールドのマッピング、設定の同期速度を含む、視覚的な構成をすばやく作成と設定の同期タスクを完了するために、データ同期モジュールを使用しているユーザ。
  • 総量/増分同期
    ビジネスシステムからデータを読み出す増分プロセスは、サービスシステムへの影響は通常、データの同期化の必要性を最小限にします。これは、ユーザが濾過されるべき適切なデータ・ステートメントのみを入力する必要がソースデータベーステーブルの変更時間フィールドのデータが、増分データリレーショナルデータベースの同期をサポートしている場合も含みます。
  • 同期速度制御
    データの量を調整するために必要な上限の速度、このハードウェア構成およびパラメータ値を設定することにより、同期を調整する支援データ同期速度制御は、ユーザは、ビジネス・ニーズに応じて設定を選択します。
  • ダーティデータ管理
    レコード構成にダーティデータのサポートは、あなたがタイムリーな調査や汚れを促す、ダーティデータ、ライフサイクルの記憶表を指定することができ、かつダーティデータ量が一定量または失敗する一定の割合を超えたときにタスクが設定されている場合に設定することができます問題は、分析レポートを生成します。

よりエキサイティング

列V2.0のカンガルークラウドデータセットのシリーズについて

エンタープライズデータ認知:データは生産性です!
3つのレルムのエンタープライズ:ビジネス・インターフェース、アプリケーション・インターフェース、データ・インターフェース・
三のパラダイムの構築のビジネスフィギュア
企業のデジタル(データ・インタフェース)全体的なアーキテクチャの
見直し・データ・セット:テーブル内のデータの3次元ルック
テーブル内のデータ・ソースのデータ

カンガルーのクラウドについて

企業データのカンガルー雲トータルソリューションプロバイダである、台湾提唱におけるデータアーキテクチャ、リーダーは、データは、企業のコア競争力となるように、企業データの処理を加速するために、駆動エンジンの企業のデータを構築するために、サプライチェーンを介してデータを開きます。DTSTACK.COMの
データ・インテリジェンス、現在に未来を聞かせて

おすすめ

転載: yq.aliyun.com/articles/704530