Linux进阶篇--文本处理三剑客之AWK

Linux进阶篇–文本处理三剑客之AWK

本章概要

  • awk介绍
  • awk基本用法
  • awk变量
  • awk格式化
  • awk操作符
  • awk条件判断
  • awk循环
  • awk数组
  • awk函数
  • 调用系统命令

一、 awk介绍

  • awk:Aho, Weinberger, Kernighan,报告生成器,格式化文本输出
  • 有多种版本:New awk(nawk),GNU awk( gawk)
  • 目前centos系统使用的版本为GNU awk,即gawk
[root@centos7-1 ~]#ll /usr/bin/awk   软链接指向gawk
lrwxrwxrwx. 1 root root 4 Jul 18 17:17 /usr/bin/awk -> gawk
  • gawk:模式扫描和处理语言
  • 基本用法:
      awk [options] ‘program’ var=value file…
      awk [options] -f programfile var=value file…
      awk [options] ‘BEGIN{action;… }pattern{action;… }END{action;… }’ file …
      awk 程序可由:BEGIN语句块、能够使用模式匹配的通用语句块、END语句块,共3部分组成
      program 通常是被放在单引号中
  • 选项:
      -F “分隔符” 指明输入时用到的字段分隔符
      -v var=value 变量赋值

awk语言

  • 基本格式:awk [options] ‘program’ file…
  • Program:pattern{action statements;…}
  • pattern和action
      pattern部分决定动作语句何时触发及触发事件
       BEGIN,END
      action statements对数据进行处理,放在{}内指明
       print, printf
  • 分割符、字段(field)和记录(record)
      awk执行时,读取文件内容的每一行与命令进行匹配(类似于sed),根据指定的分隔符把每一行进行分割,分隔开的每一段内容称为字段(field),标记为$1,$2…$n,$0为所有字段,即整行内容,注意:此时和shell中变量$符含义不同
      而文件内容的每一行称为记录(record)
      省略action,则默认执行 print $0 的操作
    示例:
root:x:0:0:root:/root:/bin/bash
如果指定分隔符为冒号":",那么":"分割开的每一段内容即为一个字段;而该内容整行即为一条记录

awk工作原理

  • 第一步:执行BEGIN{action;… }语句块中的语句
  • 第二步:从文件或标准输入(stdin)读取一行,然后执行pattern{ action;… }语句块,它逐行扫描文件,从第一行到最后一行重复这个过程,直到文件全部被读取完毕。
  • 第三步:当读至输入流末尾时,执行END{action;…}语句块
  • BEGIN语句块在awk开始从输入流中读取行之前被执行,这是一个可选的语句块,比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中
  • END语句块在awk从输入流中读取完所有的行之后即被执行,比如打印所有行的分析结果这类信息汇总都是在END语句块中完成,它也是一个可选语句块
  • pattern语句块中的通用命令是最重要的部分,也是可选的。如果没有提供pattern语句块,则默认执行{ print },即打印每一个读取到的行,awk读取的每一行都会执行该语句块

awk print格式

  • print格式:print item1, item2, …
  • 要点:
    (1) 逗号分隔符
    (2) 输出item可以字符串,也可是数值;当前记录的字段、变量或awk的表达式
    (3) 如省略item,相当于print $0
    示例:
[root@centos7-1 ~]#awk '{print "hello awk"}'
aaa
hello awk
bbb
hello awk
vvv
hello awk
^C
[root@centos7-1 ~]#awk  -F: '{print}' /etc/passwd    {print}默认打印全部,这里只贴出部分内容
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
[root@centos7-1 ~]#awk -F: '{print "yuan"}' /etc/passwd   /etc/passwd有多少行,就显示多少行yuan;空间原因,只贴出部分内容
yuan
yuan
yuan
yuan
yuan
yuan
yuan
[root@centos7-1 ~]#awk -F: '{print $1}' /etc/passwd 打印/etc/passwd每一条记录的第一个字段
root
bin
daemon
adm
lp
sync
[root@centos7-1 ~]#awk -F: '{print $0}' /etc/passwd  打印/etc/passwd每一行记录,这里只贴出部分 
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin 
[root@centos7-1 ~]#awk -F: '{print $1"\t"$3}' /etc/passwd  打印/etc/passwd每一条记录的第一个字段,第三个字段,中间以tab键分开
root	0
bin	1
daemon	2
adm	3
lp	4
sync	5
shutdown	6
注意:\t在变量之间要用"",在普通字符串之间则不用""
如:[root@centos7-1 ~]#awk -F: '{print  "hello\twak"}'  /etc/passwd
hello	wak
hello	wak
hello	wak
hello	wak
hello	wak
hello	wak
[root@centos7-1 ~]#grep "^UUID" /etc/fstab |awk '{print $2,$4}'
/ defaults
/boot defaults
/data defaults
swap defaults

二、 awk变量

  • 变量:内置变量和自定义变量

内置变量

  • FS:输入字段分隔符,默认为空白字符
[root@centos7-1 ~]#awk -v FS=':' '{print $1,FS,$3}' /etc/passwd  
root : 0
bin : 1
daemon : 2
adm : 3
lp : 4
sync : 5
[root@centos7-1 ~]#awk -F: '{print $1,$3,$7}' /etc/passwd  
root 0 /bin/bash
bin 1 /sbin/nologin
daemon 2 /sbin/nologin
adm 3 /sbin/nologin

  • OFS:输出字段分隔符,默认为空白字符
[root@centos7-1 ~]#awk -v FS=':' -v OFS=':' '{print $1,$3,$7}' /etc/passwd  
root:0:/bin/bash
bin:1:/sbin/nologin
daemon:2:/sbin/nologin
adm:3:/sbin/nologin
  • RS:输入记录分隔符,指定输入时的换行符
[root@centos7-1 ~]#awk -v RS=' '  '{print }' /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
  • ORS:输出记录分隔符,输出时用指定符号代替换行符
[root@centos7-1 ~]#awk -v RS=' ' -v ORS='###' '{print }' /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologi
  • NF:字段数量
[root@centos7-1 ~]#awk -F: '{print NF}' /etc/passwd  引用变量时,变量前不需加$
7
7
7
7
[root@centos7-1 ~]#awk -F: '{print $(NF-1)}' /etc/passwd
/root
/bin
/sbin
/var/adm
/var/spool/lpd
  • NR:记录号
[root@centos7-1 ~]#awk '{print NR}' /etc/passwd  打印所有记录号,这里只贴出部分
1
2
3
4
...
43
44
45
[root@centos7-1 ~]#awk '{print NR}' /etc/passwd /etc/group  会把两个文件内容叠加起来显示
1
2
3
4
...
119
120
121
  • FNR:各文件分别计数,记录号
[root@centos7-1 ~]#awk '{print FNR}' /etc/passwd /etc/group
1
2
3
4
...
44
45
1
2
3
4
...
74
75
  • FILENAME:当前文件名
[root@centos7-1 ~]#awk '{print FILENAME}' /etc/passwd
/etc/passwd
/etc/passwd
/etc/passwd
/etc/passwd
/etc/passwd
  • ARGC:命令行参数的个数
[root@centos7-1 ~]#awk '{print ARGC}'  /etc/fstab  /etc/passwd /etc/group
4
4
4
4
4
注意:除了/etc/fstab  /etc/passwd /etc/group,awk本身也算是一个参数,因此参数个数为4
  • ARGV:数组,保存的是命令行所给定的各参数
[root@centos7-1 ~]#awk 'BEGIN{print ARGV[0]}' /etc/fstab /etc/passwd
awk
[root@centos7-1 ~]#awk 'BEGIN{print ARGV[1]}' /etc/fstab /etc/passwd
/etc/fstab
[root@centos7-1 ~]#awk 'BEGIN{print ARGV[2]}' /etc/fstab /etc/passwd
/etc/passwd

自定义变量

  • 自定义变量(区分字符大小写)
      (1) -v var=value
      (2) 在program中直接定义
  • 示例:
awk -v test='hello gawk' '{print test}' /etc/fstab
awk -v test='hello gawk' 'BEGIN{print test}'
awk 'BEGIN{test="hello,gawk";print test}'
awk -F: '{sex="male";print $1,sex,age;age=18}'  /etc/passwd
[root@centos7-1 ~]#cat awkscript 
{print script,$1,$3}
[root@centos7-1 ~]#awk -F: -f awkscript  /etc/passwd
 root 0
 bin 1
 daemon 2
 adm 3
 lp 4
 sync 5

三、 awk格式化

printf命令

  • 格式化输出:printf “FORMAT”, item1, item2, …
      (1) 必须指定FORMAT
      (2) 不会自动换行,需要显式给出换行控制符,\n
      (3) FORMAT中需要分别为后面每个item指定格式符
  • 格式符:与item一一对应
      c:显示字符的ASCII码
      %d, %i:显示十进制整数
      %e, %E:显示科学计数法数值
      %f:显示为浮点数
      %g, %G:以科学计数法或浮点形式显示数值
      %s:显示字符串
      %u:无符号整数
      %%:显示%自身
  • 修饰符
      #[.#] 第一个数字控制显示的宽度;第二个#表示小数点后精度,%3.1f,多余的小数位采用五舍六入进行取舍
      - 左对齐(默认右对齐) %-15s
      + 显示数值的正负符号 %+d
    示例:
[root@centos7-1 ~]#awk -F: '{printf "%-20s %10d\n",$1,$3}' /etc/passwd
root                          0
bin                           1
daemon                        2
adm                           3
lp                            4
sync                          5
[root@centos7-1 ~]#awk -F: '{printf "username: %s\n",$1}' /etc/passwd
username: root
username: bin
username: daemon
username: adm
username: lp
username: sync
[root@centos7-1 ~]#awk -F: '{printf "username: %s   UID:%d\n",$1,$3}' /etc/passwd
username: root   UID:0
username: bin   UID:1
username: daemon   UID:2
username: adm   UID:3
username: lp   UID:4
username: sync   UID:5
[root@centos7-1 ~]#awk -F: '{printf "username: %25s   UID:%d\n",$1,$3}' /etc/passwd
username:                      root   UID:0
username:                       bin   UID:1
username:                    daemon   UID:2
username:                       adm   UID:3
username:                        lp   UID:4
[root@centos7-1 ~]#awk -F: '{printf "username: %-25s   UID:%d\n",$1,$3}' /etc/passwd
username: root                        UID:0
username: bin                         UID:1
username: daemon                      UID:2
username: adm                         UID:3
username: lp                          UID:4
username: sync                        UID:5

知识扩展:

使用awk制作表格:
awk -F: 'BEGIN{print "|username                     |userid    |\n------------------------------------------"}{printf "%-30s|%-10d|\n------------------------------------------\n",$1,$3}' /etc/passwd > userlist
[root@centos7-1 ~]#cat userlist 
|username                     |userid    |
------------------------------------------
root                          |0         |
------------------------------------------
bin                           |1         |
------------------------------------------
daemon                        |2         |
------------------------------------------
adm                           |3         |
------------------------------------------
lp                            |4         |
------------------------------------------
sync                          |5         |
------------------------------------------
shutdown                      |6         |
------------------------------------------

四、 awk操作符

  • 算术操作符:
      x+y, x-y, x*y, x/y, x^y, x%y
      -x:转换为负数
      +x:将字符串转换为数值
  • 字符串操作符:没有符号的操作符,字符串连接
  • 赋值操作符:
    =, +=, -=, *=, /=, %=, ^=,++, --
      下面两语句有何不同
[root@centos7-1 ~]#awk 'BEGIN{i=0;print ++i,i}'   先做++运算,再打印i
1 1
[root@centos7-1 ~]#awk 'BEGIN{i=0;print i++,i}'   先打印i,再做++运算
0 1

  • 比较操作符:
      ==, !=, >, >=, <, <=
  • 模式匹配符:
      ~:左边是否和右边匹配包含
      !~:是否不匹配
    示例:
[root@centos7-1 ~]#awk -F: '$0 ~ /root/{print $1}' /etc/passwd
root
[root@centos7-1 ~]#awk '$0~"^root"' /etc/passwd
root:x:0:0:root:/root:/bin/bash
[root@centos7-1 ~]#awk '$0 !~ /root/' /etc/passwd   打印不包含root的行,这里只贴出部分内容
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
[root@centos7-1 ~]#awk -F: '$3==0' /etc/passwd
root:x:0:0:root:/root:/bin/bash

  • 逻辑操作符:与&&,或||,非!
    示例:
[root@centos7-1 ~]#awk -F: '$0 ~ /root/{print $1}' /etc/passwd
root
[root@centos7-1 ~]#awk '$0~"^root"' /etc/passwd
root:x:0:0:root:/root:/bin/bash
[root@centos7-1 ~]#awk '$0 !~ /root/' /etc/passwd  打印所有内容,这里只贴出部分内容
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
[root@centos7-1 ~]#awk -F: '$3==0' /etc/passwd
root:x:0:0:root:/root:/bin/bash
  • 条件表达式(三目表达式)
    selector?if-true-expression:if-false-expression
    示例:
[root@centos7-1 ~]#awk -F: '{$3>=1000?usertype="Common User":usertype=" SysUser";printf "%15s:%-s\n",$1,usertype}' /etc/passwd
           root: SysUser
            bin: SysUser
         daemon: SysUser
            adm: SysUser
             lp: SysUser

awk PATTERN

  • PATTERN:根据pattern条件,过滤匹配的行,再做处理
    (1)如果未指定:空模式,匹配每一行
    (2) /regular expression/:仅处理能够模式匹配到的行,需要用/ /括起来
[root@centos7-1 ~]#awk '/^UUID/{print $1}' /etc/fstab
UUID=2f1bda24-d0a0-4498-84b2-76ecad8602b8
UUID=da6027b7-04a8-412e-b54d-0a3cbe7a9e0d
UUID=13feb009-a4b1-4521-b6fe-2596f033f6a5
UUID=bbbfb1b0-b076-4203-a4d3-0b7cd755019d
[root@centos7-1 ~]#awk '!/^UUID/{print $1}' /etc/fstab  默认以空格为分隔符,打印第一列为#

#
#
#
#
#
#
#

(3) relational expression: 关系表达式,结果为“真”才会被处理
  真:结果为非0值,非空字符串
  假:结果为空字符串或0值

  • 示例:
[root@centos7-1 ~]#awk -F: 'i=1;j=1{print i,j}' /etc/passwd  这里只贴出部分内容
root:x:0:0:root:/root:/bin/bash
1 1
bin:x:1:1:bin:/bin:/sbin/nologin
1 1
daemon:x:2:2:daemon:/sbin:/sbin/nologin
1 1
adm:x:3:4:adm:/var/adm:/sbin/nologin
awk ‘!0’ /etc/passwd ; awk ‘!1’ /etc/passwd  
Awk -F: '$3>=1000{print $1,$3}' /etc/passwd  
awk -F: '$3<1000{print $1,$3}' /etc/passwd
awk -F: '$NF=="/bin/bash"{print $1,$NF}' /etc/passwd
awk -F: '$NF ~ /bash$/{print $1,$NF}' /etc/passwd
  • (4) line ranges:行范围
    startline,endline:/pat1/,/pat2/ 不支持直接给出数字格式
[root@centos7-1 ~]#awk -F: '/^root\>/,/^nobody\>/{print $1}' /etc/passwd
root
bin
daemon
adm
lp
sync
shutdown
halt
mail
operator
games
ftp
nobody
[root@centos7-1 ~]#awk -F: '(NR>=10&&NR<=20){print NR,$1}'  /etc/passwd
10 operator
11 games
12 ftp
13 nobody
14 systemd-network
15 dbus
16 polkitd
17 sssd
18 libstoragemgmt
19 rpc
20 colord
  • (5) BEGIN/END模式
    BEGIN{}: 仅在开始处理文件中的文本之前执行一次
    END{}:仅在文本处理完成之后执行一次
    示例:
awk -F : 'BEGIN {print "USER USERID"} {print $1":"$3} END{print "end file"}' /etc/passwd
awk -F : '{print "USER USERID“;print $1":"$3} END{print "end file"}' /etc/passwd
awk -F: 'BEGIN{print " USER UID \n--------------- "}{print $1,$3}' /etc/passwd
awk -F: 'BEGIN{print " USER UID \n--------------- "}{print $1,$3}'END{print "=============="} /etc/passwd
seq 10 |awk 'i=0'
seq 10 |awk 'i=1'
seq 10 | awk 'i=!i'
seq 10 | awk '{i=!i;print i}''
seq 10 | awk '!(i=!i)'
seq 10 |awk -v i=1 'i=!i'

知识扩展:

取分区利用率
df|awk -F" +|%" '/^\/dev\/sd/{print $1,$5}'
查看fstab中文件系统类别
cat /etc/fstab |awk '/^UUID/{print $3}'|sort|uniq -c|sort -nr
统计连接数,并且从大到小排序
netstat -nt|awk -F" +|:" '/^tcp/{print $6}'|sort|uniq -c|sort -nr

awk action

  • 常用的action分类
    (1) Expressions:算术,比较表达式等
    (2) Control statements:if, while等
    (3) Compound statements:组合语句
    (4) input statements
    (5) output statements:print等

五、 awk控制语句

  • { statements;… } 组合语句
  • if(condition) {statements;…}
  • if(condition) {statements;…} else {statements;…}
  • while(conditon) {statments;…}
  • do {statements;…} while(condition)
  • for(expr1;expr2;expr3) {statements;…}
  • break
  • continue
  • delete array[index]
  • delete array
  • exit
5.1 条件判断

awk控制语句if-else

  • 语法:
      if(condition){statement;…}[else statement]
      if(condition1){statement1}else if(condition2){statement2}else{statement3}
  • 使用场景:对awk取得的整行或某个字段做条件判断
    示例:
[root@centos7-1 ~]#awk -F: '{if($3>=1000)print $1,$3}' /etc/passwd
nfsnobody 65534
yuan 1000
wang 1001
[root@centos7-1 ~]#awk -F: '{if($NF=="/bin/bash") print $1}' /etc/passwd
root
wang
awk '{if(NF>5) print $0}' /etc/fstab
awk -F: '{if($3>=1000) {printf "Common user: %s\n",$1} else {printf "root or Sysuser: %s\n",$1}}' /etc/passwd
awk -F: '{if($3>=1000) printf "Common user: %s\n",$1; else printf "root or Sysuser: %s\n",$1}' /etc/passwd
df -h|awk -F% '/^\/dev/{print $1}'|awk '$NF>=80{print $1,$5}'
awk 'BEGIN{ test=100;if(test>90){print "very good"}
else if(test>60){ print "good"}else{print "no pass"}}'

知识扩展:

找出访问次数超过10000次的ip地址,并放入防火墙
cat access_log | awk '{print $1}'|sort|uniq -c|sort -nr|awk '{if($1>10000)print $2}'|while read ip ;do iptables -A -s $ip -j REJECT;done
5.2 循环

awk控制语句while循环

  • while循环
  • 语法:while(condition){statement;…}
  • 条件“真”,进入循环;条件“假”,退出循环
  • 使用场景:
      对一行内的多个字段逐一类似处理时使用
      对数组中的各元素逐一处理时使用
    示例:
列出linux16这一行每个单词出现的次数
[root@centos7-1 ~]#awk '/^[[:space:]]*linux16/{i=1;while(i<=NF){print $i,length($i); i++}}' /etc/grub2.cfg  
linux16 7
/vmlinuz-3.10.0-862.el7.x86_64 30
root=UUID=2f1bda24-d0a0-4498-84b2-76ecad8602b8 46
ro 2
rhgb 4
quiet 5
net.ifnames=0 13
linux16 7
/vmlinuz-0-rescue-7eab25876df747da952cee5f5a6dbc5f 50
root=UUID=2f1bda24-d0a0-4498-84b2-76ecad8602b8 46
ro 2
rhgb 4
quiet 5
net.ifnames=0 13
构建100个随机数,取出最大值和最小值
[root@centos7-1 ~]#awk -F"," '{max=$1;min=$1;i=2;while(i<=NF){if($i>max){max=$i}else if($9<min){min=$i};i++;}}END{print "max="max,"min="min}' f1.txt
max=32369 min=9181

awk控制语句do-while循环

  • do-while循环
  • 语法:do {statement;…}while(condition)
  • 意义:无论真假,至少执行一次循环体
    示例:
[root@centos7-1 ~]#awk 'BEGIN{ total=0;i=0;do{ total+=i;i++;}while(i<=100);print total}'
5050

awk控制语句for循环

  • for循环
  • 语法:for(expr1;expr2;expr3) {statement;…}
  • 常见用法:
    for(variable assignment;condition;iteration process){for-body}
  • 特殊用法:能够遍历数组中的元素
    语法:for(var in array) {for-body}
    示例:
[root@centos7-1 ~]#awk '/^[[:space:]]*linux16/{for(i=1;i<=NF;i++) {print $i,length($i)}}' /etc/grub2.cfg  
linux16 7
/vmlinuz-3.10.0-862.el7.x86_64 30
root=UUID=2f1bda24-d0a0-4498-84b2-76ecad8602b8 46
ro 2
rhgb 4
quiet 5
net.ifnames=0 13
linux16 7
/vmlinuz-0-rescue-7eab25876df747da952cee5f5a6dbc5f 50
root=UUID=2f1bda24-d0a0-4498-84b2-76ecad8602b8 46
ro 2
rhgb 4
quiet 5
net.ifnames=0 13

性能比较

[root@centos7-1 ~]#time (awk 'BEGIN{ total=0;for(i=0;i<=10000;i++){total+=i;};print total;}') 
50005000

real	0m0.004s
user	0m0.003s
sys	0m0.001s
[root@centos7-1 ~]#time(total=0;for i in {1..10000};do total=$(($total+i));done;echo $total)  
50005000

real	0m0.059s
user	0m0.044s
sys	0m0.015s
[root@centos7-1 ~]#time(for ((i=0;i<=10000;i++));do let total+=i;done;echo $total) 
50005000

real	0m0.081s
user	0m0.070s
sys	0m0.011s
[root@centos7-1 ~]#time(seq –s ”+” 10000|bc)  
seq: invalid floating point argument: –s
Try 'seq --help' for more information.

real	0m0.344s
user	0m0.000s
sys	0m0.009s

awk控制语句switch语句、break、continue、next

  • switch语句
  • 语法:switch(expression) {case VALUE1 or /REGEXP/: statement1; case VALUE2 or /REGEXP2/: statement2; …; default: statementn}
  • break和continue
awk 'BEGIN{sum=0;for(i=1;i<=100;i++){if(i%2==0)continue;sum+=i}print sum}''
awk 'BEGIN{sum=0;for(i=1;i<=100;i++){if(i==66)break;sum+=i}print sum}''

扩展用法:
break [n]
continue [n]

  • next:
    提前结束对本行处理而直接进入下一行处理(awk自身循环)
[root@centos7-1 ~]#awk -F: '{if($3%2!=0) next; print NR,$1,$3}' /etc/passwd   打印奇数行,这里只贴出部分内容
1 root 0
3 daemon 2
5 lp 4
7 shutdown 6
9 mail 8
11 games 12
12 ftp 14
14 systemd-network 192
17 sssd 998

1到100之间的偶数相加
[root@centos7-1 ~]#awk 'BEGIN{sum=0;for(i=1;i<=100;i++){if(i%2==1)continue; sum+=i};print sum}'
2550

六、 awk数组

  • 关联数组:array[index-expression]
  • index-expression:
    (1) 可使用任意字符串;字符串要使用双引号括起来
    (2) 如果某数组元素事先不存在,在引用时,awk会自动创建此元素,并将其值初始化为“空串”
    (3) 若要判断数组中是否存在某元素,要使用“index in array”格式进行遍历
    示例:
weekdays["mon"]="Monday"  
awk 'BEGIN{weekdays["mon"]="Monday";  
weekdays["tue"]="Tuesday";print weekdays["mon"]}'  
[root@centos7-1 ~]#cat f2.txt 
aaa
bbb
aaa
ccc
ddd
aaa
ccc
[root@centos7-1 ~]#awk '!arr[$0]++' f2.txt    给文件“去重”
aaa
bbb
ccc
ddd
[root@centos7-1 ~]#awk '{!arr[$0]++;print $0, arr[$0]}' f2.txt 
aaa 1
bbb 1
aaa 2
ccc 1
ddd 1
aaa 3
ccc 2
  • 若要遍历数组中的每个元素,要使用for循环
  • for(var in array) {for-body}
  • 注意:var会遍历array的每个索引
    示例:
[root@centos7-1 ~]#awk 'BEGIN{weekdays["mon"]="Monday";weekdays["tue"]="Tuesday";for(i in weekdays) {print weekdays[i]}}'
Tuesday
Monday
[root@centos7-1 ~]#netstat -tan | awk '/^tcp/{state[$NF]++}END{for(i in state) { print i,state[i]}}'
LISTEN 18
ESTABLISHED 2
[root@centos7-1 ~]#awk '{ip[$1]++}END{for(i in ip) {print i,ip[i]}}' access_log
172.20.129.234 407
172.20.120.185 195
172.20.130.5 1206
172.20.59.26 55
172.20.32.7 100
172.20.129.253 40
172.20.0.7 20
172.20.112.128 33
172.20.12.14 10
172.20.129.178 20
172.20.129.246 220

取出fqdn,并排序;fqdn即域名(mail.magedu.com)
[root@centos7-1 ~]#cat f3.txt 
http://mail.magedu.com/index.html
http://www.magedu.com/test.html
http://study.magedu.com/index.html
http://blog.magedu.com/index.html
http://www.magedu.com/images/logo.jpg
http://blog.magedu.com/20080102.html
[root@centos7-1 ~]#cat f3.txt |awk -F"/" '{url[$3]++}END{for(i in url){print url[i],i}}'|sort -nr
2 www.magedu.com
2 blog.magedu.com
1 study.magedu.com
1 mail.magedu.com

综合用法:

1、求男生(性别为m),女生(性别f)的平均成绩
[root@centos7-1 ~]#cat score.txt 
name  score  sex
mage  100    m
zhang 99     f
li    99     f
zhao  98     f
wang  90     m
方法1:用四个变量
男生成绩score_m  
女生成绩score_f
男生数量num_m
女生数量num_f
[root@centos7-1 ~]#cat score.txt|awk '!/^name/{if($3=="m"){score_m+=$2;num_m++}else{score_f+=$2;num_f++}}END{print "avg_m="score_m/num_m,"avg_f="score_f/num_f}' 
avg_m=96.3333 avg_f=98.5
方法2:数组
[root@centos7-1 ~]#awk 'NR!=1{score[$3]+=$2;num[$3]++}END{for(sex in num){print sex":avg="score[sex]/num[sex]}}' score.txt
m:avg=96.3333
f:avg=98.5

2、求/etc/fstab每个单词出现的个数
cat /etc/fstab |awk '{for(i=1;i<=NF;i++)word[$i]++}END{for (i in word){print i,word[i]}}'

七、 awk函数

  • 数值处理:
      rand():返回0和1之间一个随机数
[root@centos7-1 ~]#awk 'BEGIN{srand(); for (i=1;i<=10;i++)print int(rand()*100) }'
65
87
65
59
12
59
52
51
22
28
  • 字符串处理:
    length([s]):返回指定字符串的长度
    sub(r,s,[t]):对t字符串搜索r表示模式匹配的内容,并将第一个匹配内容替换为s
[root@centos7-1 ~]#echo "2008:08:08 08:08:08" |awk 'sub(/:/,"-",$1)'
2008-08:08 08:08:08

gsub(r,s,[t]):对t字符串进行搜索r表示的模式匹配的内容,并全部替换为s所表示的内容

[root@centos7-1 ~]#echo "2008:08:08 08:08:08" |awk 'gsub(/:/,"-",$1)'
2008-08-08 08:08:08

split(s,array,[r]):以r为分隔符,切割字符串s,并将切割后的结果保存至array所表示的数组中,第一个索引值为1,第二个索引值为2,…

[root@centos7-1 ~]#netstat -tn | awk '/^tcp\>/{split($5,ip,":");count[ip[1]]++}END{for (i in count) {print i,count[i]}}'
192.168.32.1 2
  • 自定义函数格式
      function name ( parameter, parameter, … ) {
        statements
        return expression
      }
    示例:
[root@centos7-1 ~]#cat fun.awk   
function max(x,y) {   
         x>y?var=x:var=y    
         return var  
}  
BEGIN{a=3;b=2;print max(a,b)}  
[root@centos7-1 ~]#awk -f f1
3

八、 调用系统命令

awk中调用shell命令

  • system命令
  • 空格是awk中的字符串连接符,如果system中需要使用awk中的变量可以使用空格分隔,或者说除了awk的变量外其他一律用""引用起来
      awk’BEGIN’{system(“hostname”) }’
      awk’BEGIN{score=100; system("echo your score is " score) }’

awk脚本

  • 将awk程序写成脚本,直接调用或执行
    示例:
cat f1.awk
{if($3>=1000)print $1,$3}
awk -F: -f f1.awk /etc/passwd

cat f2.awk
#!/bin/awk –f
#this is a awk script
{if($3>=1000)print $1,$3}
chmod +x f2.awk
f2.awk –F: /etc/passwd

向awk脚本传递参数

  • 格式:
      awkfile var=value var2=value2… Inputfile
  • 注意:在BEGIN过程中不可用。直到首行输入完成以后,变量才可用。可以通过-v 参数,让awk在执行BEGIN之前得到变量的值。命令行中每一个指定的变量都需要一个-v参数
    示例:
cat test.awk
#!/bin/awk –f
{if($3 >=min && $3<=max)print $1,$3}
chmod +x test.awk
test.awk -F: min=100 max=200 /etc/passwd

猜你喜欢

转载自blog.csdn.net/u013168176/article/details/82747850