linux笔记8.0

awk
简介：
报告生成器，格式化文本输出，文本处理三剑客之一（只读文件不做修改）
版本：New awk（nawk），GNU awk（gawk）
gawk：模式扫描和处理语言
行row：记录，record
列column：字段，域，属性，field
基本用法：
awk [options]‘program’ var=value file…
awk [options] -f programfile var=value file…
awk [options] ‘BEGIN{ action;… } pattern{ action;… } END{ action;… }’ file ...
awk程序通常由：BEGIN语句块、能够使用模式匹配的通用语句块、END语句块，共3部分组成
program通常是被单引号或双引号中
选项：
-F：指明输入时用到的字段分隔符
-v var=value：自定义变量

awk语言
基本格式：
awk [options] ‘program’ file…
program：pattern{action statements；..}
pattern部分决定动作语句何时触发及触发事件（特例BEGIN，END）
action statements对数据进行处理，放在{}内指明（print，printf）
分割符、字段和记录：
awk执行时，由分隔符分隔的字段（域）标记$1,$2..$n称为域标识，$0为所有域
注意：和shell中变量$符含义不同
文件的每一行称为记录
省略action，则默认执行print $0

awk工作原理
第一步：执行BEGIN{action;… }语句块中的语句（与文件没关系，先于文件读入，多用于打印表头）
第二步：从文件或标准输入(stdin)读取一行，然后执行pattern{ action;… }语句块，它逐行扫描文件，从第一行到最后一行重复这个过程，直到文件全部被读取完毕（处理文件）
第三步：当读至输入流末尾时，执行END{action;…}语句块（常用于汇总）
注意：begin和pattern可以单独使用，但end不能单独使用
详解：
BEGIN语句块在awk开始从输入流中读取行之前被执行，这是一个可选的语句块，比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中
END语句块在awk从输入流中读取完所有的行之后即被执行，比如打印所有行的分析结果这类信息汇总都是在END语句块中完成，它也是一个可选语句块
pattern语句块中的通用命令是最重要的部分，也是可选的。如果没有提供pattern语句块，则默认执行{ print }，即打印每一个读取到的行，awk读取的每一行都会执行该语句块

awk变量
内置变量：
FS：输入字段分隔符，默认为空白字符
-v FS=‘’
OFS：输出字段分隔符，默认为空白字符
-v OFS=‘’
RS：输入记录分隔符，指定输入时的换行符
-v RS=‘’
ORS：输出记录分隔符，输出时用指定符号代替换行符
-v ORS=‘’
NF：字段数量
‘{print NF}’，表示打印最后一个字段，引用内置变量不用$
NR：记录号
‘{print NR}' ，表示打印最后一行记录
FNR：各文件分别计数,记录号
‘{print FNR}' file1 file2 ...
FILENAME：当前文件名
ARGC：命令行参数的个数
ARGV：数组，保存的是命令行所给定的各参数
自定义变量：(区分字符大小写)
方法1、-v var=value
方法2、在program中直接定义

printf命令
格式化输出：
printf “FORMAT（形式）”, item（项目）1, item2, ...
注意：
1、必须指定FORMAT
2、不会自动换行，需要显式给出换行控制符，\n
3、FORMAT中需要分别为后面每个item指定格式符
格式符：
与item一一对应
%c：显示字符的ASCII码
%d，%i：显示十进制整数
%e，%E：显示科学计数法数值
%f：显示为浮点数
%g，%G：以科学计数法或浮点形式显示数值
%s：显示字符串
%u：无符号整数
%%：显示%自身
修饰符：（可与格式符配合使用）
#[.#]：第一个数字控制显示的宽度；第二个#表示小数点后精度，%3.1
-: 左对齐（默认右对齐），%-
+：显示数值的正负符号，%+

操作符
算术：
x+y, x-y, xy, x/y, x^y, x%y
-x：转换为负数
+x：转换为数值
字符串操作符：
没有符号的操作符，字符串连接
赋值操作符：
=, +=, -=, =, /=, %=, ^=
++, --
比较操作符：
==, !=, >, >=, <, <=
模式匹配符：
~：左边是否和右边匹配（包含即匹配）
!~：是否不匹配
逻辑操作符：
与&&，或||，非!
注意：涵义与短路与，短路或不同
条件表达式（三目表达式）：
selector？if-true-expression：if-false-expression
解释：第一段语句是否为真，真执行第二段，假执行第三段

PATTERN
根据pattern条件，过滤匹配的行，再做处理
1、如果未指定：空模式，匹配每一行
2、/regular（规则） expression（表达）/：仅处理能够模式匹配到的行，需要用/ /括起来
3、relational expression：关系表达式，结果为“真”才会被处理
真：结果为非0值或非空字符串
假：结果为0值或空字符串
4、line ranges：行范围
startline，endline：/pat1/,/pat2/ 不支持直接给出数字格式
5、BEGIN/END模式
BEGIN{}: 仅在开始处理文本之前执行一次
END{}：仅在文本处理完成之后执行一次

action
常用的action分类
1、Expressions：算术，比较表达式等
2、Control statements：控制语句，if，while等
3、Compound statements：组合语句，{ statements；... }
4、input statements：输入语句
5、output statements：输出语句，print等

小结（基本awk使用）
基本格式：
awk -F：-v var=variable ‘BEGIN{}pattern{action}END{}’ file...
常用位置变量：
FS、OFS、RS、ORS、NF（$NF）、NR、FNR、FILENAME、ARGC、ARGV
支持模式匹配：
awk ‘/pattern/{action}’ file...
支持格式化输出：
printf“%选项”$字段（定义与输出一一对应）

进阶
控制语句
{ statements；... }，组合语句
if(condition) {statements；...}[else {statements；...}]，if判断
while(conditon) {statments；...}，while循环
do{statements；...} while(condition)，do-while循环
for(expr1；expr2；expr3) {statements；...}，for循环
break
continue
delete array[index]
delete array
exit

判断
if-else
语法：
if(condition){statement；...}[else statement]
if(condition1){statement1}else if(condition2){statement2}else{statement3}
使用场景：
对awk取得的整行或某个字段做条件判断

switch
类似于shell中的case语句
语法：
switch(expression){case VALUE1 or /REGEXP正则表达式/：statement1；case VALUE2 or /REGEXP2/：statement2；...；default：statementN}

循环
while
语法：
while(condition){statement；...}
条件“真”，进入循环；条件“假”，退出循环
使用场景：
对一行内的多个字段逐一类似处理时使用
对数组中的各元素逐一处理时使用

do-while
语法：
do{statement；...}while(condition)
意义：
先执行，再判断；无论真假，至少执行一次循环体

for
语法：
for(expr1；expr2；expr3) {statement；...}
常见用法：
for(variable assignment变量指定；condition条件；iteration process循环处理){statement；...}
特殊用法：能够遍历数组中的元素
语法：
for(var in array) {statement；...}

循环控制
break和continue
break[n]：退出整个循环（打断）
continue[n]：退出当次循环（跳过）
支持指定循环层数[n]

next
提前结束对本行处理而直接进入下一行处理
awk的特殊语句，控制awk自身循环
例：
awk -F: ‘{if($3%2!=0) next; print $1,$3}’ file
解释上述语句：
file文件中以“：”做字段分隔符，跳过“第三列的值对2取模不等于0”的行，打印行的第1和第3列

性能比较
time（执行语句）
可以得出该语句的执行时间，通过对实现同一功能的不同语句的执行时间进行比较，可判断语句的性能

数组
关联数组：array[index-expression]
index-expression:
1、可使用任意字符串，字符串要使用双引号括起来
2、如果某数组元素事先不存在，在引用时，awk会自动创建此元素，并将其值初始化为“空串”
若要判断数组中是否存在某元素，要使用，index in array，进行遍历
若要遍历数组中的每个元素，使用for循环，for(var in array){for-body}，var会遍历array的每个索引
扩展用法：
统计元素重复次数：array[指定字段]++，for（i in array）{print i，array[i]}

函数
数值处理：
rand()：返回0到1之间一个随机数
srand()：随机生成随机数种子（awk中不能直接使用rand()，需先用srand()）
例：生成十个随机数
awk ‘BEGIN{srand()；for (i=1；i<=10；i++)print int(rand()*100) }’（int()函数是对数字取整）
字符串处理：
length([s])：返回指定字符串的长度
sub(r，s，[t])：对t字符串进行搜索r表示的模式匹配的内容，并将第一个匹配的内容替换为s
gsub(r,s,[t])：对t字符串进行搜索r表示的模式匹配的内容，并全部替换为s
split(s,array,[r])：以r为分隔符，切割字符串s，并将切割后的结果保存至array所表示的数组中，第一个索引值为1，第二个索引值为2，...
自定义函数：
格式：
function name ( parameter（参数），parameter，... ){
statements（语句）
return expression（返回表达式）
}

awk中调用shell命令
system命令
空格是awk中的字符串连接符，如果system中需要使用awk中的变量可以使用空格分隔，或者说除了awk的变量外其他一律用""引用起来
例：
awk BEGIN‘{system("hostname")}’
awk ‘BEGIN{score=100；system("echo your score is " score)}’

awk脚本
将awk程序写成脚本，直接调用或执行
例：
cat f1.awk
{if($3>=1000)print $1,$3}
awk -F: -f f1.awk /etc/passwd
脚本写法：
cat f2.awk
#!/bin/awk –f
#this is a awk script
{if($3>=1000)print $1,$3}
chmod +x f2.awk
f2.awk –F: /etc/passwd

向awk脚本传递参数
格式：
awkfile var=value var2=value2... Inputfile
注意：在BEGIN过程中不可用。直到首行输入完成以后，变量才可用。可以通过-v 参数，让awk在执行BEGIN之前得到变量的值。命令行中每一个指定的变量都需要一个-v参数
示例：
cat test.awk
#!/bin/awk –f
{if($3 >=min && $3<=max)print $1,$3}
chmod +x test.awk
test.awk -F: min=100 max=200 /etc/passwd

猜你喜欢