awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,在Linux上,我们通常使用GUN awk,简称gawk。awk其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母。
1.基本用法
awk[OPTIONS] 'program' FILE1 FILE2...
其中program:PATTERN{ACTION STATEMENT}
program:编程语言
PATTERN:模式
ACTION STATEMENT:动作语句,可以由多个语句组成,各个语句之间用分号分隔;如print,printf
OPTIONS:-F[]:指明输入字段分隔符;
-v VAR_NAME=VALUE:变量赋值;
-f /PATH/FROM/AWK_SCRIPT
2.awk的输出命令之一:print
print格式:print item1,item2,....
item:字符串,用引号引用;print “hello”,“world”
变量:显示变量的值,可以直接使用变量的名进行引用;print name
要点:(1)各item之间使用逗号分隔,输出时的分隔符默认为空白字符;
(2)输出的各item可以字符串,也可以是数值;当前记录的字段、变量或awk的表达式
(3)item省略时,相当于print $0
(4)输出空白字符:print “ ”
3.awk内置变量
变量名 |
属性 |
$0 |
当前记录 |
$1-$n |
当前记录的第n个字段 |
FS |
输入字段分隔符,默认为空白字符 |
OFS |
输出字段分隔符,默认为空白字符 |
RS |
输入记录分隔符,默认为换行符 |
ORS |
输出记录分隔符,默认为换行符 |
NF |
当前记录中的字段个数,就是有多少列 |
NR |
已经读出的记录数,就是行号,从1开始 |
FNR |
行数,各文件单独计数 |
FILENMAME |
当前正被awk读取的文件的文件名 |
ARGC |
awk命令行中参数的个数 |
ARGV |
数组,保存了命令行参数本身 |
(1)FS:字段分隔符
[root@centos6 ~]# cat tab.txt 以一个或多个tab为分隔符
haha hi hello
[root@centos6 ~]# awk -v FS='\t+' '{print $1,$2,$3}' tab.txt
haha hi hello
(2)OFS:输出字段分隔符
[root@centos6 ~]# awk -v FS=':' -v OFS=':' '{print $1,$3,$7}' /etc/passwd
root:0:/bin/bash
bin:1:/sbin/nologin
daemon:2:/sbin/nologin
(3)RS:输入记录分隔符
[root@centos6 ~]# awk -v RS=' ' '{print}' /etc/passwd 没有指定分隔符,默认为空格换行,/etc/passwd中中间代有空格的行都被换行。
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
gopher:x:13:30:gopher:/var/gopher:/sbin/nologin
ftp:x:14:50:FTP
User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
dbus:x:81:81:System
message
bus:/:/sbin/nologin
usbmuxd:x:113:113:usbmuxd
(4)ORS:输出记录分隔符
[root@centos6 ~]# awk -v RS=' ' -v ORS='###' '{print}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
gopher:x:13:30:gopher:/var/gopher:/sbin/nologin
ftp:x:14:50:FTP###User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
dbus:x:81:81:System###message###bus:/:/sbin/nologin
usbmuxd:x:113:113:usbmuxd###user:/:/sbin/nolog
(5)NF:字段数量
[root@centos6 ~]# awk -F" " '{print NF}' /etc/fstab 查看/etc/fstab中以空格为分隔符,每行有多少个字符。
0
1
2
10
1
9
12
1
6
6
6
6
6
6
6
6
(6)NR:记录行号
[root@centos6 ~]# ifconfig eth0|awk -F [" ":]+ 'NR==2{print $4}' 以空格和冒号为分隔符取出IP地址
172.18.250.66
4.awk自定义变量
(1)-v VAR——NAME=VALUE变量名区分字符大小写;
[root@centos6 ~]# awk -v Final='mage' '{print Final}' /etc/issue
mage
mage
mage
这里显示的是行数,有多少行就显示多少个变量值。
(2)在program中自定义变量
[root@centos6 ~]# awk 'BEGIN{FS=":";f1=3}{print $f1}' /etc/passwd
0
1
2
3
4
5
6
/etc/passwd中,以冒号为分隔符,把第三个域赋值给f1,再打印出f1。
5.awk的输出命令之二:printf
printf格式:printf FORMAT,item1,item2,...
1)要点:
(1)必须提供FORMAT;
(2)与print语句不同,printf不会自动换行,需要显示指定换行符:\n
(3)FORMAT中需要分别为后面的每个iitem指定一个格式符,否则item无法显示;
2)格式符:都以%开头,后面跟单个字符:
%c: 显示字符的ASCII码
%d, %i: 显示十进制整数
%e, %E:显示科学计数法数值
%f:显示为浮点数
%g, %G:以科学计数法或浮点形式显示数值
%s:显示字符串
%u:无符号整数
%%: 显示%自身
[root@centos6 ~]# awk -F: '{printf"User:%s,UID:%d\n",$1,$3}' /etc/issue
User:CentOS release 6.9 (Final),UID:0
User:Kernel \r on an \m,UID:0
User:,UID:0
User:%s,UID:%d\n表示对后面的$1的内容以字符串的形式显示,对后面的$2的内容以十进制的形式显示,同时在结尾加上换行符。
3)修饰符:
#[.#]:第一个数字控制显示的宽度;第二个#表示小数点后精度,%3.1f
-: 左对齐(默认右对齐) %-15s
+:显示数值的正负符号 %+d
6.awk的操作符
7.PATTERN模式:根据pattern条件,过滤匹配的行,再作处理
(1)如果未指定:空模式,匹配每一行
(2) /regular expression/:仅处理能够模式匹配到的行,需要用/ /括起来
awk '/^UUID/{print $1}' /etc/fstab
awk '!/^UUID/{print $1}' /etc/fstab
(3) relational expression: 关系表达式,结果为“真”才会被处理
真:结果为非0值,非空字符串
假:结果为空字符串或0值
(4) line ranges:行范围
startline,endline:/pat1/,/pat2/ 不支持直接给出数字格式
awk -F: ‘/^root\>/,/^nobody\>/{print $1}' /etc/passwd
awk -F: ‘(NR>=10&&NR<=20){print NR,$1}' /etc/passwd
(5) BEGIN/END模式
BEGIN{}: 仅在开始处理文件中的文本之前执行一次
END{}:仅在文本处理完成之后执行一次
8.awk控制语句
(1)if-else
语法;if(condition){statements}[else{statements}]
使用场景:对awk取得的整行或行中的字段做条件判断;
[root@centos6 ~]# awk -F: '{if($3>=500)print$1,$3}' /etc/passwd
nfsnobody 65534
archlinux 500
root1 501
oo 502
gentoo 503
natasha 504
(2)while循环
语法:while(condiion){statements}
条件为“真”时循环,为“假”时退出循环;
使用场景:通常用于在当前行的各字段间进行循环;
[root@centos6 ~]# awk '{i=1;while(i<=NF)if(length($i)>=6){print $i};i++}' /etc/issue
(3)do while循环
语法:do{statements}while(dondition)
意义:至少执行一次循环体
(4)for循环
语法:for(expr1;expr2;expr3) {statement;…}
常见用法:
for(variable assignment;condition;iteration process)
{for-body}
特殊用法:能够遍历数组中的元素
语法:for(var in array) {for-body}
[root@centos6 ~]# awk '{for(i=1;i<=NF;i++)if(length($i)>=6)print $i}' /etc/issue
CentOS
release
(Final)
Kernel
9.awk数组
关联数组:array[index-expression]
index-expression:
(1) 可使用任意字符串;字符串要使用双引号括起来
(2) 如果某数组元素事先不存在,在引用时,awk会自动创建此元素,并将其值初始化为“空串”
若要判断数组中是否存在某元素,要使用“index in array”格式进行遍历
示例:统计当前系统上所有tcp连接的各种状态的个数
[root@centos6 ~]# ss -tan |awk '!/^State/{state[$1]++}END{for(i in state)print i,state[i]}'
ESTAB 2
LISTEN 14