Linux文本处理三剑客之awk

      awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,在Linux上,我们通常使用GUN awk,简称gawk。awk其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母。

1.基本用法

awk[OPTIONS] 'program' FILE1 FILE2...

其中program:PATTERN{ACTION STATEMENT}

program:编程语言

PATTERN:模式

ACTION STATEMENT:动作语句,可以由多个语句组成,各个语句之间用分号分隔;如print,printf

OPTIONS:-F[]:指明输入字段分隔符;

-v VAR_NAME=VALUE:变量赋值;

-f /PATH/FROM/AWK_SCRIPT

2.awk的输出命令之一:print

print格式:print item1,item2,....

item:字符串,用引号引用;print “hello”,“world”

变量:显示变量的值,可以直接使用变量的名进行引用;print name

要点:(1)各item之间使用逗号分隔,输出时的分隔符默认为空白字符;

(2)输出的各item可以字符串,也可以是数值;当前记录的字段、变量或awk的表达式

(3)item省略时,相当于print $0

(4)输出空白字符:print “ ”

3.awk内置变量

变量名

属性

$0

当前记录

$1-$n

当前记录的第n个字段

FS

输入字段分隔符,默认为空白字符

OFS

输出字段分隔符,默认为空白字符

RS

输入记录分隔符,默认为换行符

ORS

输出记录分隔符,默认为换行符

NF

当前记录中的字段个数,就是有多少列

NR

已经读出的记录数,就是行号,从1开始

FNR

行数,各文件单独计数

FILENMAME

当前正被awk读取的文件的文件名

ARGC

awk命令行中参数的个数

ARGV

数组,保存了命令行参数本身

(1)FS:字段分隔符

 
 

[root@centos6 ~]# cat tab.txt   以一个或多个tab为分隔符
haha hi  hello

[root@centos6 ~]# awk -v FS='\t+' '{print $1,$2,$3}' tab.txt
haha hi  hello

(2)OFS:输出字段分隔符

[root@centos6 ~]# awk -v FS=':' -v OFS=':' '{print $1,$3,$7}' /etc/passwd
root:0:/bin/bash
bin:1:/sbin/nologin
daemon:2:/sbin/nologin

 

(3)RS:输入记录分隔符

[root@centos6 ~]# awk -v RS=' ' '{print}' /etc/passwd  没有指定分隔符,默认为空格换行,/etc/passwd中中间代有空格的行都被换行。
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
gopher:x:13:30:gopher:/var/gopher:/sbin/nologin
ftp:x:14:50:FTP
User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
dbus:x:81:81:System
message
bus:/:/sbin/nologin
usbmuxd:x:113:113:usbmuxd

 

(4)ORS:输出记录分隔符

[root@centos6 ~]# awk -v RS=' ' -v ORS='###' '{print}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
gopher:x:13:30:gopher:/var/gopher:/sbin/nologin
ftp:x:14:50:FTP###User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
dbus:x:81:81:System###message###bus:/:/sbin/nologin
usbmuxd:x:113:113:usbmuxd###user:/:/sbin/nolog

 

(5)NF:字段数量

[root@centos6 ~]# awk -F" " '{print NF}' /etc/fstab  查看/etc/fstab中以空格为分隔符,每行有多少个字符。
0
1
2
10
1
9
12
1
6
6
6
6
6
6
6
6

 

(6)NR:记录行号

[root@centos6 ~]#  ifconfig eth0|awk -F [" ":]+ 'NR==2{print $4}'  以空格和冒号为分隔符取出IP地址
172.18.250.66

4.awk自定义变量

(1)-v VAR——NAME=VALUE变量名区分字符大小写;

[root@centos6 ~]# awk -v Final='mage' '{print Final}' /etc/issue
mage
mage
mage

这里显示的是行数,有多少行就显示多少个变量值。

(2)在program中自定义变量

[root@centos6 ~]# awk 'BEGIN{FS=":";f1=3}{print $f1}' /etc/passwd
0
1
2
3
4
5
6

/etc/passwd中,以冒号为分隔符,把第三个域赋值给f1,再打印出f1。

5.awk的输出命令之二:printf

printf格式:printf FORMAT,item1,item2,...

1)要点:

(1)必须提供FORMAT;

(2)与print语句不同,printf不会自动换行,需要显示指定换行符:\n

(3)FORMAT中需要分别为后面的每个iitem指定一个格式符,否则item无法显示;

2)格式符:都以%开头,后面跟单个字符:

  %c: 显示字符的ASCII码
  %d, %i: 显示十进制整数
  %e, %E:显示科学计数法数值
  %f:显示为浮点数
  %g, %G:以科学计数法或浮点形式显示数值
  %s:显示字符串
  %u:无符号整数
  %%: 显示%自身

[root@centos6 ~]# awk -F: '{printf"User:%s,UID:%d\n",$1,$3}' /etc/issue
User:CentOS release 6.9 (Final),UID:0
User:Kernel \r on an \m,UID:0
User:,UID:0

User:%s,UID:%d\n表示对后面的$1的内容以字符串的形式显示,对后面的$2的内容以十进制的形式显示,同时在结尾加上换行符。

3)修饰符:

  #[.#]:第一个数字控制显示的宽度;第二个#表示小数点后精度,%3.1f
  -: 左对齐(默认右对齐) %-15s
  +:显示数值的正负符号 %+d

 

6.awk的操作符

  

7.PATTERN模式:根据pattern条件,过滤匹配的行,再作处理

(1)如果未指定:空模式,匹配每一行
(2) /regular expression/:仅处理能够模式匹配到的行,需要用/ /括起来
                awk '/^UUID/{print $1}' /etc/fstab
     awk '!/^UUID/{print $1}' /etc/fstab
(3) relational expression: 关系表达式,结果为“真”才会被处理
    真:结果为非0值,非空字符串
    假:结果为空字符串或0值

(4) line ranges:行范围
  startline,endline:/pat1/,/pat2/ 不支持直接给出数字格式
  awk -F: ‘/^root\>/,/^nobody\>/{print $1}' /etc/passwd
  awk -F: ‘(NR>=10&&NR<=20){print NR,$1}' /etc/passwd
(5) BEGIN/END模式
  BEGIN{}: 仅在开始处理文件中的文本之前执行一次
  END{}:仅在文本处理完成之后执行一次

8.awk控制语句

(1)if-else

语法;if(condition){statements}[else{statements}]

使用场景:对awk取得的整行或行中的字段做条件判断;

[root@centos6 ~]# awk -F: '{if($3>=500)print$1,$3}' /etc/passwd
nfsnobody 65534
archlinux 500
root1 501
oo 502
gentoo 503
natasha 504

(2)while循环

语法:while(condiion){statements}

条件为“真”时循环,为“假”时退出循环;

使用场景:通常用于在当前行的各字段间进行循环;

[root@centos6 ~]# awk '{i=1;while(i<=NF)if(length($i)>=6){print $i};i++}' /etc/issue

(3)do while循环

语法:do{statements}while(dondition)

意义:至少执行一次循环体

(4)for循环

  语法:for(expr1;expr2;expr3) {statement;…}
  常见用法:
  for(variable assignment;condition;iteration process)
  {for-body}
   特殊用法:能够遍历数组中的元素
  语法:for(var in array) {for-body}
 

[root@centos6 ~]# awk '{for(i=1;i<=NF;i++)if(length($i)>=6)print $i}' /etc/issue
CentOS
release
(Final)
Kernel

9.awk数组

关联数组:array[index-expression]
  index-expression:
(1) 可使用任意字符串;字符串要使用双引号括起来
(2) 如果某数组元素事先不存在,在引用时,awk会自动创建此元素,并将其值初始化为“空串”
若要判断数组中是否存在某元素,要使用“index in array”格式进行遍历
示例:统计当前系统上所有tcp连接的各种状态的个数

[root@centos6 ~]# ss -tan |awk '!/^State/{state[$1]++}END{for(i in state)print i,state[i]}'
ESTAB 2
LISTEN 14

猜你喜欢

转载自www.cnblogs.com/liuwentaolaji/p/9546838.html