Linux 三剑客之awk实战

基本介绍

awk是Linux开发下常用的一种对文本进行处理的工具,具有十分强大的功能。数据可以来源于标准输入、文件及外部变量,支持用户自定义函数和动态正则表达式等高级功能,且拥有许多内置的功能和函数,是开发中的一件利器。

通常,awk是以文件的一行为处理单位的,每接收文件的一行,然后执行相应的命令处理文本。

语法格式

awk [选项参数] 'script' var=value file(s)
或
awk [选项参数] -f scriptfile var=value file(s)
  • -F fs:指定输入文件拆分隔符,fs是一个字符串或者一个正则表达式;
  • -v var=value:赋值一个用户定义变量,将外部变量传递给awk;
  • -f scripfile:从脚本文件中读取awk命令。

快速入门

a.txt文本内容

1,20,I
2,30,hello
3,21,am
4,32,world
5,43,yu
6,21,akw
7,22,zhan

b.txt文本内容

1,I,24
3,am,25
5,yu,26
7,zhan,27

1. 内置变量应用

要求:找出文件a和b以第一列为索引相同的行,并且每行输出索引、a中的第3列和b中的第2列。

awk -F ',' 'NR==FNR {db[$1]=$3} NR!=FNR {r=0.0; if($1 in db) {r=db[$1];printf("%s\t%s\t%s\n",$1,r,$3)}}' a.txt b.txt
1	I	24
3	am	25
5	yu	26
7	zhan	27

NR: 读取到所有文件的行数索引号;

FNR:读取到每个文件中的行数索引号,当文件发生切换时候,FNR重新从1开始。

2. BEGIN模块和END模块应用

要求:统计文件a的行数

awk -F ',' 'BEGIN {count=0;print "[start] init count is:",count} {count++;print $0} END{print "[END] final count is:",count}' a.txt
[start] init count is: 0
1,20,I
2,30,hello
3,21,am
4,32,world
5,43,yu
6,21,akw
7,22,zhan
[END] final count is: 7

BEGIN 模块:在开始处理输入文件之前执行,通常用于初始化变量中;
END 模块   : 在结束处理输入文件之后执行,通常用于执行最终计算中。

3. 正则应用

要求:匹配文件a中所有包含o的行

awk '/REG/{action} ' file,/REG/为正则表达式,可以将$0 中,满足条件的记录送入到:action 进行处理。

awk '/.*o.*/{print $0}' a.txt
2,30,hello
4,32,world

4. 循环结构应用

要求:输出文件a的每行第2列,且前面加上一个变量。

awk -F ',' 'BEGIN{count=0;sum=100;while(count <= sum){count++} print "count:",count} {if (NR >= 2 && NR <= 4) {printf("%s\t%s\n",count,$2)}}' a.txt
count: 101
101	30
101	21
101	32

5. 字符串函数应用

要求:查找文件a中第2列包含20的行,找到输出ok,否则输出not found

awk -F ',' 'BEGIN{str="21"} {print $1,index(str,$2)?"ok":"not found"}' a.txt
1 not found
2 not found
3 ok
4 not found
5 not found
6 ok
7 not found

内建变量

$n 当前记录的第n个字段,字段间由FS分隔
$0 完整的输入记录
ARGC 命令行参数的数目
ARGIND 命令行中当前文件的位置(从0开始算)
ARGV 包含命令行参数的数组
CONVFMT 数字转换格式(默认值为%.6g)ENVIRON环境变量关联数组
ERRNO 最后一个系统错误的描述
FIELDWIDTHS 字段宽度列表(用空格键分隔)
FILENAME 当前文件名
FNR 各文件分别计数的行号
FS 字段分隔符(默认是任何空格)
IGNORECASE 如果为真,则进行忽略大小写的匹配
NF 一条记录的字段的数目
NR 已经读出的记录数,就是行号,从1开始
OFMT 数字的输出格式(默认值是%.6g)
OFS 输出记录分隔符(输出换行符),输出时用指定的符号代替换行符
ORS 输出记录分隔符(默认值是一个换行符)
RLENGTH 由match函数所匹配的字符串的长度
RS 记录分隔符(默认是一个换行符)
RSTART 由match函数所匹配的字符串的第一个位置
SUBSEP 数组下标分隔符(默认值是/034)

运算符

= += -= *= /= %= ^= **= 赋值
?: C条件表达式
|| 逻辑或
&& 逻辑与
~ ~! 匹配正则表达式和不匹配正则表达式
< <= > >= != == 关系运算符
空格 连接
+ - 加,减
* / % 乘,除与求余
+ - ! 一元加,减和逻辑非
^ *** 求幂
++ -- 增加或减少,作为前缀或后缀
$ 字段引用
in 数组成员

内置函数   

    

   

awk正则

      

发布了126 篇原创文章 · 获赞 219 · 访问量 21万+

猜你喜欢

转载自blog.csdn.net/yz930618/article/details/89228914