MarkLogic:数据集成和分析的最佳实践

作者:禅与计算机程序设计艺术

1.简介

数据集成(Data Integration)和数据分析(Data Analysis)在当前互联网企业里扮演着越来越重要的角色。随着云计算、大数据、人工智能、区块链等技术的普及,数据的产生、存储和处理的速度、规模正在发生革命性的变革。而对于传统的数据仓库建设来说,已经无法承受这样的海量数据的冲击。在这种背景下,数据集成工具就显得尤为关键。传统数据仓库建设依赖于基于规则的ETL(Extract-Transform-Load),不适应随着新技术的快速发展。数据集成主要包括三种类型:日志、关系型和非关系型数据库之间的数据同步;不同数据源之间的数据规范化和清洗;以及不同类型的应用系统之间的消息传递。本文将会详细阐述MarkLogic的理论基础、设计方法和使用技巧,并与大家分享数据集成方面的最佳实践。希望能给读者带来一定的参考价值。

2.基本概念术语说明

2.1 数据集成

数据集成(英语:Data integration)是指将来自多个来源、形式的数据进行融合、整合和转换,得到统一的、有效的结果的过程。数据集成可以分为三个阶段:提取(Extraction)、转换(Transformation)、加载(Loading)。提取阶段包括从各种来源获取数据,如各种数据源,文件,报表,数据库,API等。转换阶段则包括对数据的修改、增删查改等操作。加载阶段则包括将已处理好的数据存入目标系统,如数据库,文件,Hadoop集群,消息队列等。数据的集成通常通过外部工具或编程语言实现。

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/131929470
今日推荐