数据仓库1-数仓的意义

     在进行数据分析的时候,我们总会遇到一些名词,比如数据仓库。数据仓库是数据分析中一个比较重要的东西,数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合。下面就说一下数据分析中的数据仓库。

      对数据分析的理解大家应该都是比较熟悉的,数据分析的流程有很多,首先需要进行对业务的理解,然后就是对数据的理解,挖掘数据,数据处理,数据分析,数据展现,这些步骤就能够给大家带来一个不错的数据分析结果。

       但是数据分析中的工作最重要的就是数据处理工作,由于数据分析对数据质量、格式的要求比较高,对数据的理解也必须非常深刻,使得数据契合业务需求也要一定的过程,根据我做数据分析的经验,在整个数据分析流程中,用于数据处理的时间往往要占据70%以上。所以,如何高效、快速地进行数据理解和处理,往往决定了数据分析项目的进度和质量。而数据仓库具有集成、稳定、高质量等特点,基于数据仓库为数据分析提供数据,往往能够更加保证数据质量和数据完整性。

        如果要做好数据分析的时候,要使用ETL工具构建数据仓库提升数据分析效果需要从三个方面。分别是数据理解、数据质量、数据跨系统关联。

一、数据理解

                                              

        数据仓库是面向主题的,所以其自身与业务结合就相对紧密和完善,更方便数据分析师基于数据理解业务。而数据仓库是有很多的主题组成,包括了很多的数据。当需要对数据进行分析的时候,如果理解数据仓库的模型,数据理解也就水到渠成了。

第二、数据质量

                                                                                                   

              数据分析的时候要求数据是干净、完整的,而数据仓库已经对源系统的数据进行了业务契合的转换,以及脏数据的清洗,这就为数据分析的数据质量做了较好的保障。

第三、数据跨系统关联

          数据跨系统关联数据仓库的一个简单架构,各业务源系统的数据经过ETL过程后流入数据仓库,当不同系统数据整合到数据仓库之后,至少解决了数据分析中的两个问题:

第一,跨系统数据收集问题

             在金融分析中同一个客户的储蓄交易和理财交易我们在同一张事实表就可以找到;

                                                                                                               

第二,跨系统关联问题

               进行数据整合时,总是需要找到共同点来关联来自不同系统的信息,而数据仓库在ETL过程中就会整合相关客户信息,完美解决跨系统关联问题。

猜你喜欢

转载自blog.csdn.net/someInNeed/article/details/114060229
今日推荐