Pig设计模式概要以及与SQL的设计模式的对比

1概要模式

概要模式其实就是数据的全貌信息的获取,主要分为3种:

1.1数值概要

1.2倒排索引概要

1.3计数器概要

2过滤器模式

过滤模式是不改变原有记录,而寻求子集的设计模式,主要应用于如下方面:

2.1过滤

2.2布隆过滤

2.3TopN模式

2.4去重

3数据组织模式

数据组织模式是将一组数据进行重组,重点在于将个别记录的价值放大到全局,主要有如下几个设计模式:

3.1分层

3.2分区

3.3分箱

3.4全排序

3.5混排

4连接模式

连接模式是对于多处数据进行组织的一种方法,主要有以下几种:

4.1终端连接

4.2复制连接

4.3组织连接

4.4笛卡尔

5模式的模式

5.1作业链

5.2折叠链

5.3归并链

6IO模式

猜你喜欢

转载自my.oschina.net/u/3511143/blog/1808961