postgresql之交叉表：crosstab

在学习postgresql行列转换的时候，看到了使用crosstab。所以写这篇博客巩固记录一下。
postgresql本身提供了额外的模块:tablefunc供我们使用。但是使用前，需要我们安装一下插件。

-- 导入模块
create extension tablefunc;

导入tablefunc模块后，就会在函数列表中出现以下函数，如下图。

结合官方文档，我们一起来学习一下。

https://www.postgresql.org/docs/9.2/tablefunc.html

crosstab(text)

crosstab(text sql)
crosstab(text sql, int N)

这里的crosstab函数接受的是一个文本参数，参数是一个sql查询，生成以列展示的原始数据，然后通过函数得到表格式化的数据。如下图：
在这里插入图片描述
其中，sql参数是产生数据源的sql语句，此语句必须返回一个row_name列，一个category类和一个value列。N是一个过时的参数，如果提供则忽略（以前它必须和输出值列的数量想匹配，现在由调用查询函数确定）。
该函数为具有相同row_name 值的每组连续输入行生成一个输出行。它使用这些行中的值字段从左到右填充输出值列。如果组中的行数少于输出值列数，则用空值填充额外的输出列；如果有更多行，则跳过额外的输入行。
在实践中，SQL 查询应始终指定ORDER BY 1,2以确保输入行正确排序，也就是说，将具有相同row_name的值放在一起并在行内正确排序。注意，crosstab它本身并不关注查询结果的第二列；它只是用来排序的，以控制第三列值在页面上出现的顺序。
给一个案例，先插入测试数据。

create table t1(
name varchar(255),
sub varchar(255),
score int4
);
insert into t1 values ('张三','语文',67);
insert into t1 values ('张三','数学',78);
insert into t1 values ('张三','英语',63);
insert into t1 values ('李四','语文',86);

此时，根据crosstab(text)函数可以得到如下写法：

select * from crosstab(
'select name,sub,score from t1 order by 1,2' 
)as t(name varchar,数学 int,英语 int,语文 int)

注意：

这三列顺序不能变，row_name列就是你要根据这个分组的列，后面的category是代表你要转成横向上的列名，最后value值是你填入表格中的值。
类别的数据类型要和你建的表的数据类型一致。我之前将as t(name varchar,…)写成了as t(name text，…)。想说都是文本类型，结果就是会报错。
这里使用order by了，最后你下面给定列名的时候也要按照名字拍戏写前后，例如：数学，英语，语文这个顺序写。

结果展示如下：
在这里插入图片描述
若是最后想要的数据类型和sql得到的数据类型不一致，则会报错。

crosstabN(text)

crosstabN(text sql)

这种写法比上面的那种写法会更简单，它通过自定义包装器，不需要在调用select查询的时候写出列名和类型。
期中N是限制数量，N有多少，就输出多少category列。
所以针对该函数，我们写上面这个例子的另一种写法。

select * from crosstab3(
'select name,sub,score from t1 order by 1,2' 
)

此时，我们得到的结果并没有显示，而是报错。报错信息如下：
在这里插入图片描述
报错信息的大概意思就是，text sql的rowid数据类型和查询返回的rowid的数据类型不一致。
此时发现，要使用crosstabN(text)这个函数，不仅是传入的数据只有三列（row_name,category,value），并且这三列数据类型都必须是text类型，所以要方便还是要付出点代价的，它限制了你的数据类型。所以我们取text类型数据试试。重新创建新的测试数据。

create table t2(
name text,
sub text,
score text
);
insert into t2 values ('张三','语文',67);
insert into t2 values ('张三','数学',78);
insert into t2 values ('张三','英语',63);
insert into t2 values ('李四','语文',86);
-- crosstabN
-- 都要数据text类型
select *  from crosstab3(
'select name,sub,score from t2'
)

得到的结果如下图：
在这里插入图片描述
这个结果是正确结果，但是在此过程中，我又发现了一个问题，那就是正常情况下，我们会为了排序正常，我们会使用order by 1,2或者直接order by列名，如我这里就是order by name,sub,但是在crosstabN(text sql)这个函数中，你要小心使用order by，这里有个大坑等着你。

-- 若数值缺失会出现排错的情况
select *  from crosstab3(
'select name,sub,score from t2 order by name,sub'
);
-- 或
select *  from crosstab3(
'select name,sub,score from t2 order by 1,2'
)

得到的结果都如下：
在这里插入图片描述
因为order by了sub,课程排序中，因为在字符串排序中，是按照<数学-英语-语文>如此排序的，然后李四有成绩有缺失的，所以得到的结果第一列对于李四的语文成绩，却是张三的数学成绩。所以这个crosstabN(text sql)函数还是要谨慎使用。
到现在为止，我们适用的都是最后结果只有三列的情况，但是日常工作中，我们可能最后需要的结果是有四列、五列、甚至更多的，那改怎么办呢？首先，先创建测试数据。

create table t3(
name varchar(255),
gender varchar(255),
sub varchar(255),
score int4
);
insert into t3 values('张三','男','语文',93);
insert into t3 values('张三','男','数学',28);
insert into t3 values('李四','女','数学',78);
insert into t3 values('张三','男','英语',22);
insert into t3 values('李四','女','语文',55);
insert into t3 values('王五','男','英语',60);

按照之前crosstab(text sql)的方法，我们应该写的方法如下：

select * from crosstab(
'select name,gender,sub,score from t3 order by name,gender,sub'
) as s(name varchar,gender varchar,数学 int,英语 int,语文 int)

此时，你会得到一个报错的结果，它告诉你，你提供的sql必须只有三列：rowid，category,values，而你还有额外的一个性别类，所以此时crosstab(text sql)已经不够用了，我们需要引入一个新的函数crosstab(text,text)。

crosstab(text source_sql,text category_sql)

一起来看看官方文档的解释：
单参数形式的主要限制 crosstab是它同样处理组中的所有值，将每个值插入到第一个可用列中。如果您希望值列与特定的数据类别相对应，并且某些组可能没有某些类别的数据，则效果不佳。crosstab通过双参数形式提供与输出列对应的类别的显式列表来处理这种情况。
source_sql是产生源数据集的 SQL 语句。此语句必须返回一个row_name列、一个category列和一个value列。它也可能有一个或多个“extra”列。row_name 列必须是第一个。category列和value列必须是最后两列，按顺序排列。row_name和category之间的任何列都被视为"extra"。对于具有相同row_name的所有行， “extra”列应相同价值（此时的我，还没发现这句话的重要性，等等我们一起看看）。
在这里插入图片描述

category_sql是生成类别集的 SQL 语句。此语句必须只返回一列。它必须至少产生一行，否则会产生错误。此外，它不能产生重复的值，否则会产生错误。
在这里插入图片描述

SELECT * FROM crosstab('...', '...')
    AS ct(row_name text, extra text, cat1 text, cat2 text, cat3 text, cat4 text);

按照上面的语法，我们写这个案例。

select * from crosstab(
'select name,gender,sub,score from t3 order by name',
'select distinct sub from t3 order by 1'
) as s(name varchar,gender varchar,数学 int,英语 int,语文 int)

-- 注意category类最好排序，并且按照排序顺序写，不容易出错
select * from crosstab(
'select name,gender,sub,score from t3 order by name',
'select distinct sub from t3 order by 1'
) as s(name varchar,gender varchar,数学 int,英语 int,语文 int)

此时结果如下，得到正确的结果。

在这里插入图片描述
然后，我们再做一个案例，看看这个函数的问题。插入测试数据。

drop table t;
create table t(
name varchar(255),
term varchar(255),
sub varchar(255),
score int4
);
insert into t values('张三','第一学期','语文',93);
insert into t values('张三','第一学期','数学',28);
insert into t values('李四','第一学期','数学',78);
insert into t values('张三','第二学期','语文',22);
insert into t values('李四','第二学期','语文',55);
insert into t values('李四','第二学期','数学',73);
insert into t values('李四','第二学期','英语',100);
insert into t values('王五','第三学期','英语',60);

按照crosstab(text,text)的写法，我们再一起来做做这个案例。

select * from 
crosstab(
'select name,term,sub,score from t order by name',
'select distinct sub from t  order by 1'
)as s(name varchar,term varchar,math int4,english int4,chinese int4)

按照这个sql，我们得到的结果如下图。
在这里插入图片描述
语法没错误，并且出结果了，但是！！我的结果！！你是不是少了点东西啊，你显示得不全啊。问题在哪里啊，然后我再去看官方文档，才懂了这句话的重要性（对于具有相同row_name的所有行， “extra”列应是相同的值），这就是我前面那个案例成功，这个案例有问题的原因。
然后我再仔细阅读了一下，发现它说这个函数为具有相同row_name 值的crosstab输入行生成一个输出行。输出的row_name 列，以及任何“extra”列，都是从组的第一行复制而来。输出 value列填充有来自具有匹配类别值的行的值字段。如果行的category与category_sql查询的任何输出都不匹配，则忽略其值。组的任何输入行中不存在匹配类别的输出列用空值填充。所以这个真相大白，它就是匹配每组的第一个row_name,每组只生成一行。
然后我发现可以通过将category列的值指定可以实现这个问题。代码如下：

select * from crosstab(
'select name,term,sub,score from t ',$$values('语文'),('数学'),('英语')$$)
as ct(name varchar,term varchar,语文 int,数学 int,英语 int)

此时得到的结果如下：
在这里插入图片描述
这个方法是可以实现的，但是这个方法也不是万能的，所以还是要多试试哦。实在不行，就老老实实用case…when或者string_agg+split_part来处理这类数据。
今天的文章到这里就结束了，若是对tablefunc的其他函数感兴趣，可以看看官方文档哦~
感谢阅读~

postgresql之交叉表：crosstab

postgresql之交叉表：crosstab

猜你喜欢