数据仓库形态漫谈

将笔记中有关数据科学的杂七杂八内容进行整理,分享在此

首先,提几个有关数据仓库学习收获的相关小点子:

1. 非结构化数据是未来主体

2. 随着数据岛的增加,数据集中化的需求比以往任何时候都要迫切

3. 可扩展的数据仓库解决方案,使得数据可以被集中管理,可以提供安全性、故障切换和单一仓库

4. 单一数据仓库便于创建OLAP多位数据集和商业智能分析 工具

于是引入了企业级数据仓库EDW。

企业数据仓库EDW,能够解决电子表格增生引起的许多问题,比如版本确定和良好的商业智能战略集中营管理、备份和保护的数据源中提供了直接的数据提要feed

但是,集中式数据仓库回限制在执行健壮的和探索性数据分析时所需要的灵活性

EDW模型中,IT部门或者DBA管理和控制数据,数据分析人员通过他们访问和修改数据模式,降低效率;此外,大多数情况下EDW的规则会限制分析人员构建数据集。  

因此,经常用到额外的系统,包含用来构建分析数据集的关键数据,并由用户本地管理。

总体来看:EDW和商业智能解决了数据准确性和可用性问题,但是也带来了灵活性和敏捷性的新问题,尽管这些问题在处理电子表格的时候并不明显

 

因此引入数据沙箱:不干扰生产数据库的前提下探索数据,试图解决分析人员、数据科学家与EDW、严格管理的企业数据之间的冲突

IT部门仍然管理沙箱,但沙箱酱油针对性的设计,以启用强大的分析能力,同时还能被集中管理和保护。以一种受控的方式来探索更多数据集,通常不用于企业的财务报表和销售报告

沙箱常常使用数据库内处理方式,提供更好的分析性能,因为省去了提取数据的步骤

不同于EDW,分析沙箱可以容纳更多元的数据结构

高级分析的商业驱动因素:

优化业务操作

销售、报价、利润率、效率

识别业务风险

客户流失、欺诈、违约

预测新的商业机会

增值销售、追加销售、最佳的潜在新客户

遵守法律法规要求

反洗钱、公平信贷、巴塞尔协议、塞班斯-奥克斯利法案SOX

 

检查时间范围以及正在使用的分析方法的类型

商业智能:主要提供关于现在和过去时期的商业问题的报表、仪表板和查询

一般用于提供一些事后见解和观点,用于解释事件发生的“时间”和“地点”

数据科学:使用更有前瞻性和探索性的方式来使用分类数据,着重分析当前的状况,为未来决策提供数据参考

商业智能依靠高度结构化数据来获取准确报表,而数据科学获取的数据源更加广泛多元

 

数据源→数据仓库EDW→报表→用户

有时,部门会应对灵活的分析需求而额外创建部门仓库和本地数据集市,但是,这些系统通常孤立,不会保持同步或者与其他数据的集成

在传统架构下,EDW限制了分析人员在一个独立的非生产环境中迭代进行深入的数据分析或者对非结构化数据进行分析的能力

对于数据科学家,高价值的数据很难被利用,因为EDW是专门为击中数据管理和报告设计的;数据从EDW导出,意味着只可本地进行内存分析处理;在此架构下数据科学项目往往是孤立的而不被集中管理,意味着组织机构不能可扩展的使用相应方法,并且经常无法与公司业务目标或战略保持一致性

市场出现数据厂商和数据清洁服务商,数据清洁服务商采用众包方式(如亚马逊Mechanical Turk平台和GalaxyZoo平台)来测试机器学习技术的成果。另外其他数据厂商如Cloudera、Hortonworks和Pivotal等数据厂商是在开源框架的基础上提供增值服务

猜你喜欢

转载自blog.csdn.net/lyx_yuxiong/article/details/81237552