2017/11/28读书笔记

大数据实践之路

一、高效同步和批量同步

1、针对不用数据源的数据同步配置透明化,通过IDB接口获取元数据信息自动生成配置信息。通过库名和表进行唯一定位。

二、增量与全量同步的合并

1、传统的整合方案打错采用merge方式(update+insert),当前流行大数据不支持update操作,现在比较推荐的方式为全外连接(full outer join )+数据全量覆盖重新加载。

当天的增量数据和前一天的全量数据做我全外连接,重新加载最新的全量数据,在大数据规模下,全量更新性能比update要高很多。

此外如果担心数据更新错误可采用分区方式。每天保持一个全新的全量版本。保持周期3-7天、

实践

1、资源分配

系统资源有限合理分配使其最大化

(1)、剥离计算资源

 有些指标需要多天的数据汇集,有些指标还包括复杂的逻辑计算。。如果放在每次钓截口进行处理那么成本很高,因此玻璃复杂的计算统计,将其全部由底层数据公共层处理,只保留核心业务处理逻辑

(2)、查询资源分配

Get单条数据和list数据线程池剥离。

这样不会因为某些慢sql查询导致线程池阻塞。

(3)执行计划优化

1、查询拆分  插叙接口将查询指标暴露给开发者,调用者不用关注这些字段的逻辑对应那张物理表的哪个字段,执行者可以根据三个不同的指标分解成3个子查询去三张不同物理表中去查询,然后再把结果汇总。极大降低调用者得成本。

2、查询优化  

数据仓库建模

如果把数据看成图书馆里的书,那我们希望书能在书架上分门别类的放置。

数据模型就是数据组织和存储方法。他强调从业务数据存取和实用角度合理的存储数据。

数据仓库建模方法论

1、ER模型

2、维度模型

3、Data vault模型

4、Anchor模型

猜你喜欢

转载自my.oschina.net/u/3694479/blog/1581234