awk使用详解（shell）

一．基本介绍

1.awk:

awk是一个强大的文本分析工具，在对文本文件的处理以及生成报表，awk是无可替代的。awk认为文本文件都是结构化的，它将每一个输入行定义为一个记录，行中的每个字符串定义为一个域(段)，域和域之间使用分割符分割。

2.功能：流控制、数学运算、进程控制、内置的变量和函数、循环和判断

3.工作原理：

awk 会把每行进行一个拆分，用相应的命令对拆分出来的“段”进行处理。

（1）行工作模式，读入文件的每一行，会把一行的内容，存到$0里

（2）使用内置的变量FS(段的分隔符，默认用的是空白字符)，分割这一行，把分割出来的每个段存到相应的变量$(1-100)

（3）输出的时候按照内置变量OFS(out FS)，输出

（4）读入下一行继续操作

简单实例

[root@tx3 ~]# echo "this is a book" > awk.txt

[root@tx3 ~]# awk '{print $2,$1,$3,$4}' awk.txt

is this a book

4. Awk常用内置变量表：

1 $0 当前记录（作为单个变量）

2 $1~$n 当前记录的第n个字段，字段间由FS分隔

3 FS 输入字段分隔符默认是空格

4 NF 当前记录中的字段个数，就是有多少列

5 NR 已经读出的记录数，就是行号，从1开始

6 RS 输入的记录他隔符默认为换行符

7 OFS 输出字段分隔符默认也是空格

8 ORS 输出的记录分隔符，默认为换行符

9 ARGC 命令行参数个数

10 ARGV 命令行参数数组

11 FILENAME 当前输入文件的名字

12 IGNORECASE 如果为真，则进行忽略大小写的匹配

13 ARGIND 当前被处理文件的ARGV标志符

14 CONVFMT 数字转换格式 %.6g

15 ENVIRON UNIX环境变量

16 ERRNO UNIX系统错误消息

17 FIELDWIDTHS 输入字段宽度的空白分隔字符串

18 FNR 当前记录数

19 OFMT 数字的输出格式 %.6g

20 RSTART 被匹配函数匹配的字符串首

21 RLENGTH 被匹配函数匹配的字符串长度

常见参数：

常用命令选项

-F fs fs 指定输入分隔符，fs可以时字符串或正则表达式
-v var=value 赋值一个用户定义变量，将外部变量传递给awk
-f scriptfile 从脚本文件中读取awk命令

例：打印第一行最后一个字段(使用：分割)

[root@tx3 ~]# awk -F: 'NR==1{print $NF}' p1

/bin/bash

awk脚本基本格式

 
   awk 'BEGIN{ commands } pattern{ commands } END{ commands }' file

一个awk脚本通常由BEGIN，通用语句块，END语句块组成，三部分都是可选的。脚本通常是被单引号或双引号包住。

awk执行过程分析

第一步：执行BEGIN { commands } pattern 语句块中的语句

BEGIN语句块：在awk开始从输入输出流中读取行之前执行，在BEGIN语句块中执行如变量初始化，打印输出表头等操作。
第二步：从文件或标准输入中读取一行，然后执行pattern{ commands }语句块。它逐行扫描文件，从第一行到最后一行重复这个过程，直到全部文件都被读取完毕。

pattern语句块：pattern语句块中的通用命令是最重要的部分，它也是可选的。如果没有提供pattern语句块，则默认执行{ print }，即打印每一个读取到的行。{ }类似一个循环体，会对文件中的每一行进行迭代，通常将变量初始化语句放在BEGIN语句块中，将打印结果等语句放在END语句块中。
第三步：当读至输入流末尾时，执行END { command }语句块

END语句块:在awk从输入流中读取完所有的行之后即被执行，比如打印所有行的分析结果这类信息汇总都是在END语句块中完成，它也是一个可选语句块。

常用的都在这里了。其他的比较不常用的循环喝天剑判断我就不多说了。可以自己百度。