row_number()over函数的使用(转)

row_number() OVER (PARTITION BY COL1 ORDER BY COL2) 表示根据COL1分组，在分组内部根据 COL2排序，而此函数计算的值就表示每组内部排序后的顺序编号（组内连续的唯一的).

　　与rownum的区别在于：使用rownum进行排序的时候是先对结果集加入伪列rownum然后再进行排序，而此函数在包含排序从句后是先排序再计算行号码．

　　row_number()和rownum差不多，功能更强一点（可以在各个分组内从1开时排序）．

　　rank()是跳跃排序，有两个第二名时接下来就是第四名（同样是在各个分组内）．

　　dense_rank()l是连续排序，有两个第二名时仍然跟着第三名。相比之下row_number是没有重复值的．

　　lag（arg1,arg2,arg3):
arg1是从其他行返回的表达式
arg2是希望检索的当前行分区的偏移量。是一个正的偏移量，时一个往回检索以前的行的数目。
arg3是在arg2表示的数目超出了分组的范围时返回的值。

看几个SQL语句:

语句一:

select row_number() over(order by sale/cnt desc) as sort, sale/cnt
from (
select -60 as sale,3 as cnt from dual union
select 24 as sale,6 as cnt from dual union
select 50 as sale,5 as cnt from dual union
select -20 as sale,2 as cnt from dual union
select 40 as sale,8 as cnt from dual);

执行结果:

          SORT       SALE/CNT
---------- ----------
             1             10
             2              5
             3              4
             4            -10
             5            -20

语句二:查询员工的工资,按部门排序

select ename,sal,row_number() over (partition by deptno order by sal desc) as sal_order from scott.emp;

执行结果:

ENAME                           SAL      SAL_ORDER
-------------------- ---------- ----------
KING                           5000              1
CLARK                          2450              2
MILLER                         1300              3
SCOTT                          3000              1
FORD                           3000              2
JONES                          2975              3
ADAMS                          1100              4
SMITH                           800              5
BLAKE                          2850              1
ALLEN                          1600              2
TURNER                         1500              3
WARD                           1250              4
MARTIN                         1250              5
JAMES                           950              6

已选择14行。

语句三:查询每个部门的最高工资

select deptno,ename,sal from
(select deptno,ename,sal,row_number() over (partition by deptno order by sal desc) as sal_order
from scott.emp) where sal_order <2;

执行结果:

       DEPTNO ENAME                          SAL
---------- -------------------- ----------
           10 KING                          5000
           20 SCOTT                         3000
           30 BLAKE                         2850

已选择3行。

语句四：

select deptno,sal,rank() over (partition by deptno order by sal) as rank_order from scott.emp order by deptno;

执行结果:

     DEPTNO         SAL RANK_ORDER
---------- ---------- ----------
         10        1300           1
         10        2450           2
         10        5000           3
         20         800           1
         20        1100           2
         20        2975           3
         20        3000           4
         20        3000           4
         30         950           1
         30        1250           2
         30        1250           2
         30        1500           4
         30        1600           5
         30        2850           6

已选择14行。

语句五：

select deptno,sal,dense_rank() over(partition by deptno order by sal) as dense_rank_order from scott.emp order by deptn;

执行结果：

     DEPTNO         SAL DENSE_RANK_ORDER
---------- ---------- ----------------
         10        1300                 1
         10        2450                 2
         10        5000                 3
         20         800                 1
         20        1100                 2
         20        2975                 3
         20        3000                 4
         20        3000                 4
         30         950                 1
         30        1250                 2
         30        1250                 2
         30        1500                 3
         30        1600                 4
         30        2850                 5

已选择14行。

语句六：

select deptno,ename,sal,lag(ename,1,null) over(partition by deptno order by ename) as lag_ from scott.emp order by deptno;

执行结果：

     DEPTNO ENAME                        SAL LAG_
---------- -------------------- ---------- --------------------
         10 CLARK                       2450
         10 KING                        5000 CLARK
         10 MILLER                      1300 KING
         20 ADAMS                       1100
         20 FORD                        3000 ADAMS
         20 JONES                       2975 FORD
         20 SCOTT                       3000 JONES
         20 SMITH                        800 SCOTT
         30 ALLEN                       1600
         30 BLAKE                       2850 ALLEN
         30 JAMES                        950 BLAKE
         30 MARTIN                      1250 JAMES
         30 TURNER                      1500 MARTIN
         30 WARD                        1250 TURNER

已选择14行。

很多年以后，还有很多程序员不知道SQL Server2005有了更方便的分页方法，这就是ROW_NUMBER()函数。我们知道SQL2000时代的分页方式是TOP加NOT IN截取中间数据，效率也是很不错的，但这两种效率到底如何呢，我们这次以一万、十万和百万数据量的数据做演示，比较这两种分页方式的效率。另外为何使用 TOP+NOT IN来和ROW_NUMBER()比较，是因为和游标方式及ISNULL方式分页来说，TOP+NOT IN方式效率更高。前人已有证明，可参考这篇文章：http://www.cnblogs.com/morningwang/archive/2009/01/02/1367277.html ，或者自行搜索更权威文章。

准备工作

准备工具：电脑（当然了o(∩_∩)o ）和程序员一名。

同一测试环境，电脑配置如下，数据如有不实，请找周鸿祎~

建立数据表，插入相应数据。表结构如下，Id为自增长主键：

插入100万条测试数据：

接下来先扫盲一下ROW_NUMBER()函数。

ROW_NUMBER()函数

ROW_NUMBER()函数是根据参数传递过来的order by子句的值，返回一个不断递增的整数值，也就是它会从1一直不断自增1，直到条件不再满足。例如表Users(Id,Name)，使用以下sql语句进行查询：

select id, name ,row_number() over( order by Id desc ) as rowNum from users where id<10

select id, name ,row_number() over( order by Id) as rowNum from users where id<10

两条语句order by排序相反，执行结果如下：

孰优孰劣

以下两种情况，同样取500000到500100中间的数据。

1、使用ROW_NUMBER()函数。

SQL语句如下：

 
          declare 
          @ 
          time 
          datetime 
         
 
          declare 
          @ms  
          int 
         
 
          set 
          @ 
          time 
          = getdate() 
         
 
          select 
          Id, 
          Name 
          from 
          ( 
          select 
          row_number() over( 
          order 
          by 
          Id)  
          as 
          rowNum,*  
          from 
          users)  
          as 
          t  
          where 
          rowNum  
          between 
          500000  
          and 
          500100 
         
 
          set 
          @ms=datediff(ms,@ 
          time 
          ,getdate()) 
         
 
          print @ms 
          --毫秒数 
         

测试了几次，平均在250毫秒：

2、使用TOP加NOT IN方法。

SQL语句如下：

平均在236毫秒：

好吧，一起执行看看结果：

或者你认为SQL存在缓存的问题，把两部分顺序对掉一下：

以上是百万数据量的对比，再看看1万条数据下的对比：

结论

通过以上对比可以我们可以得到这样的结论：在小数据量下（一般应该认为是10万以下，TOP+NOT IN分页方式效率要比ROW_NUMBER()高；在大数据量下（百万级）ROW_NUMBER()分页方式效率要更高一些。