Linux文本处理三剑客之awk

awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk，在Linux上，我们通常使用GUN awk，简称gawk。awk其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母。

1.基本用法

awk[OPTIONS] 'program' FILE1 FILE2...

其中program：PATTERN{ACTION STATEMENT}

program：编程语言

PATTERN：模式

ACTION STATEMENT：动作语句，可以由多个语句组成，各个语句之间用分号分隔；如print，printf

OPTIONS：-F[]：指明输入字段分隔符；

-v VAR_NAME=VALUE：变量赋值；

-f /PATH/FROM/AWK_SCRIPT

2.awk的输出命令之一：print

print格式：print item1，item2，....

item：字符串，用引号引用；print “hello”，“world”

变量：显示变量的值，可以直接使用变量的名进行引用；print name

要点：（1）各item之间使用逗号分隔，输出时的分隔符默认为空白字符；

（2）输出的各item可以字符串，也可以是数值；当前记录的字段、变量或awk的表达式

（3）item省略时，相当于print $0

（4）输出空白字符：print “ ”

3.awk内置变量

变量名	属性
$0	当前记录
$1-$n	当前记录的第n个字段
FS	输入字段分隔符，默认为空白字符
OFS	输出字段分隔符，默认为空白字符
RS	输入记录分隔符，默认为换行符
ORS	输出记录分隔符，默认为换行符
NF	当前记录中的字段个数，就是有多少列
NR	已经读出的记录数，就是行号，从1开始
FNR	行数，各文件单独计数
FILENMAME	当前正被awk读取的文件的文件名
ARGC	awk命令行中参数的个数
ARGV	数组，保存了命令行参数本身

（1）FS：字段分隔符

[root@centos6 ~]# cat tab.txt 以一个或多个tab为分隔符
haha hi hello

[root@centos6 ~]# awk -v FS='\t+' '{print $1,$2,$3}' tab.txt
haha hi hello

（2）OFS：输出字段分隔符

[root@centos6 ~]# awk -v FS=':' -v OFS=':' '{print $1,$3,$7}' /etc/passwd
root:0:/bin/bash
bin:1:/sbin/nologin
daemon:2:/sbin/nologin

（3）RS：输入记录分隔符

[root@centos6 ~]# awk -v RS=' ' '{print}' /etc/passwd  没有指定分隔符，默认为空格换行,/etc/passwd中中间代有空格的行都被换行。
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
gopher:x:13:30:gopher:/var/gopher:/sbin/nologin
ftp:x:14:50:FTP
User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
dbus:x:81:81:System
message
bus:/:/sbin/nologin
usbmuxd:x:113:113:usbmuxd

（4）ORS：输出记录分隔符

[root@centos6 ~]# awk -v RS=' ' -v ORS='###' '{print}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
gopher:x:13:30:gopher:/var/gopher:/sbin/nologin
ftp:x:14:50:FTP###User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
dbus:x:81:81:System###message###bus:/:/sbin/nologin
usbmuxd:x:113:113:usbmuxd###user:/:/sbin/nolog

（5）NF：字段数量

[root@centos6 ~]# awk -F" " '{print NF}' /etc/fstab  查看/etc/fstab中以空格为分隔符，每行有多少个字符。
0
1
2
10
1
9
12
1
6
6
6
6
6
6
6
6

（6）NR：记录行号

[root@centos6 ~]#  ifconfig eth0|awk -F [" ":]+ 'NR==2{print $4}'  以空格和冒号为分隔符取出IP地址
172.18.250.66

4.awk自定义变量

（1）-v VAR——NAME=VALUE变量名区分字符大小写；

[root@centos6 ~]# awk -v Final='mage' '{print Final}' /etc/issue
mage
mage
mage

这里显示的是行数，有多少行就显示多少个变量值。

(2)在program中自定义变量

[root@centos6 ~]# awk 'BEGIN{FS=":";f1=3}{print $f1}' /etc/passwd
0
1
2
3
4
5
6

/etc/passwd中，以冒号为分隔符，把第三个域赋值给f1，再打印出f1。

5.awk的输出命令之二：printf

printf格式：printf FORMAT，item1，item2，...

1）要点：

（1）必须提供FORMAT;

（2）与print语句不同，printf不会自动换行，需要显示指定换行符：\n

（3）FORMAT中需要分别为后面的每个iitem指定一个格式符，否则item无法显示；

2）格式符：都以%开头，后面跟单个字符：

%c: 显示字符的ASCII码
%d, %i: 显示十进制整数
%e, %E:显示科学计数法数值
%f：显示为浮点数
%g, %G：以科学计数法或浮点形式显示数值
%s：显示字符串
%u：无符号整数
%%: 显示%自身

[root@centos6 ~]# awk -F: '{printf"User:%s,UID:%d\n",$1,$3}' /etc/issue
User:CentOS release 6.9 (Final),UID:0
User:Kernel \r on an \m,UID:0
User:,UID:0

User：%s，UID：%d\n表示对后面的$1的内容以字符串的形式显示，对后面的$2的内容以十进制的形式显示，同时在结尾加上换行符。

3）修饰符：

#[.#]：第一个数字控制显示的宽度；第二个#表示小数点后精度，%3.1f
-: 左对齐（默认右对齐） %-15s
+：显示数值的正负符号 %+d

6.awk的操作符

7.PATTERN模式：根据pattern条件，过滤匹配的行，再作处理

(1)如果未指定：空模式，匹配每一行
(2) /regular expression/：仅处理能够模式匹配到的行，需要用/ /括起来
awk '/^UUID/{print $1}' /etc/fstab
　　　　awk '!/^UUID/{print $1}' /etc/fstab
(3) relational expression: 关系表达式，结果为“真”才会被处理
　　　　真：结果为非0值，非空字符串
　　　　假：结果为空字符串或0值

（4) line ranges：行范围
　　startline,endline：/pat1/,/pat2/ 不支持直接给出数字格式
　　awk -F: ‘/^root\>/,/^nobody\>/{print $1}' /etc/passwd
　　awk -F: ‘(NR>=10&&NR<=20){print NR,$1}' /etc/passwd
(5) BEGIN/END模式
　　BEGIN{}: 仅在开始处理文件中的文本之前执行一次
　　END{}：仅在文本处理完成之后执行一次

8.awk控制语句

(1)if-else

语法;if（condition）{statements}[else{statements}]

使用场景：对awk取得的整行或行中的字段做条件判断；

[root@centos6 ~]# awk -F: '{if($3>=500)print$1,$3}' /etc/passwd
nfsnobody 65534
archlinux 500
root1 501
oo 502
gentoo 503
natasha 504

(2)while循环

语法：while（condiion）{statements}

条件为“真”时循环，为“假”时退出循环；

使用场景：通常用于在当前行的各字段间进行循环；

[root@centos6 ~]# awk '{i=1;while(i<=NF)if(length($i)>=6){print $i};i++}' /etc/issue

(3)do while循环

语法：do{statements}while（dondition）

意义：至少执行一次循环体

(4)for循环

　　语法：for(expr1;expr2;expr3) {statement;…}
　　常见用法：
　　for(variable assignment;condition;iteration process)
　　{for-body}
　　特殊用法：能够遍历数组中的元素
　　语法：for(var in array) {for-body}

[root@centos6 ~]# awk '{for(i=1;i<=NF;i++)if(length($i)>=6)print $i}' /etc/issue
CentOS
release
(Final)
Kernel

9.awk数组

关联数组：array[index-expression]
　　index-expression:
(1) 可使用任意字符串；字符串要使用双引号括起来
(2) 如果某数组元素事先不存在，在引用时，awk会自动创建此元素，并将其值初始化为“空串”
若要判断数组中是否存在某元素，要使用“index in array”格式进行遍历
示例：统计当前系统上所有tcp连接的各种状态的个数

[root@centos6 ~]# ss -tan |awk '!/^State/{state[$1]++}END{for(i in state)print i,state[i]}'
ESTAB 2
LISTEN 14

Linux文本处理三剑客之awk

猜你喜欢