Shell 之正则表达式与文件处理器--正则表达式中的三剑客(grep、sed、awk)

一 、 正则表达式

1.1、定义

通常用于判断语句中,用来检查某一字符串是否满足某一格式

1.2、用途

对于一般计算机用户来说,由于使用到正则表达式的机会不多,所以无法体会正则表达式的魅力,而对于系统管理员来说,正则表达式则是必备技能之一。

正则表达式对于系统管理员来说是非常重要的,系统运行过程中会产生大量的信息,这些信息有些是非常重要的,有些则仅是告知的信息。身为系统管理员如果直接看这么多的信息数据,无法快速定位到重要的信息,如“用户账号登录失败”“服务启动失败”等信息。这时可以通过正则表达式快速提取“有问题”的信息。如此一来,可以将运维工作变得更加简单、方便。

目前很多软件也支持正则表达式,最常见的就是邮件服务器。在 Internet 中,垃圾/广告邮件经常会造成网络塞车,如果在服务器端就将这些问题邮件提前剔除的话,客户端就会减少很多不必要的带宽消耗。而目前常用的邮件服务器 postfix 以及支持邮件服务器的相关分析软件都支持正则表达式的比对功能。将来信的标题和内容与特殊字符串进行对比,发现问题邮件就过滤掉。

除邮件服务器之外,很多服务器软件都支持正则表达式。虽然这些软件都支持正则表达式,不过字符串的对比规则还需要系统管理员来添加,所以作为系统管理员,正则表达式是必须掌握的技能之一。

1.3、构成

正则表达式是由普通字符与元字符组成

元字符是指在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式

二、 基础正则表达式

2.1、基础正则表达式常见元字符:(支持工具:grep、egrep、sed、awk)

\:转义字符,用于取消特殊字符的含义,例:\!、\n、\$等



^:匹配字符串开始的位置,例:^a、^the、^#、^[a-z]


$:匹配字符串结束的位置,例:word$、^$匹配空行



.:匹配除\n之外的任意一个字符,例:go.d、g..d

*:匹配前面子表达式0次或多次,例:goo*d、go.*d



[list]:匹配list列表中的一个字符,例:go[oal]d,[abc],[a-z],[a-z0-9],[0-9]匹配任意一个字符

[^list]:匹配任意非list列表中的一个字符,例:[^0-9]、[^0-9A-Z]、[^a-z]



\{n\}:匹配前面的子表达式n次,例:go\{2\}d、'[0-9]\{2|}'匹配两位数字


\{n,\}:匹配前面的子表达式不少于n次,例:go\{2,\}d、'[0-9]\{2\}'匹配两位即两位以上数字


\{n,m\}:匹配前面的子表达式n到m次,例:go\{2,3}d、'[0-9]\{2,3\}'匹配两到三位数字

注:egrep、awk使用(n)、(n,)、(n,m)匹配时“{}”前不用加“\”

三、扩展正则表达式元字符:(支持的工具:egrep、awk)

+:匹配前面子表达式1次以上,例:go+d,将匹配至少一个o,如god、good、goood等


?:匹配前面子表达式0次或者1次,例:go?d,将匹配到gd或god


():将括号中的字符串作为一个整体,例:g(oo)+d,将匹配oo整体1次以上,如good、gooood等


|:以或得方式匹配字符串,例:g(oo|la)d,将匹配good或者glad

例子:匹配139开头的手机号

#以139开头,后面随机8位数字组合

"^139[0-9]{8}$"


egrep "^139[0-9]{8}$" shoujihao.txt

grep "^139[0-9]\{8\}$" shoujihao.txt 

例子:匹配E-mail地址

用户名@ :^([a-zA-Z0-9_\-\.\+]+)@

子域名 :([a-zA-Z0-9_\-\.]+)

顶级域名(字符串长度一般在2到5) :\.([a-zA-Z]\{2,5\})$

egrep '^([a-zA-Z0-9_\-\.\+]+)@([a-zA-Z0-9_\-\.]+)\.([a-zA-Z]{2,5})$' email.txt

awk '/^([a-zA-Z0-9_\-\.\+]+)@([a-zA-Z0-9_\-\.]+)\.([a-zA-Z]{2,5})$/{print $0}' email.txt

四、 sed 编辑器

4.1、定义

sed是一种流编辑器,流编辑器会在编辑器处理数据之前基于预先提供的一组规则来编辑数据流。
sed编辑器可以根据命令来处理数据流中的数据,这些命令要么从命令行中输入,要么存储在一个命令文本文件中。

4.2、sed的工作流程

sed的工作流程主要包括读取、执行和显示三个过程:

·读取: sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间,pattern 
space)。

·执行:默认情况下,所有的sed 命令都在模式空间中顺序地执行,除非指定了行的地址,否则sed 命令将会在所有的行上
依次执行。

·显示:发送修改后的内容到输出流。在发送数据后,模式空间将会被清空。在所有的文件内容都被处理完成之前,上述过
程将重复执行,直至所有内容被处理完。

在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容被处理完。

注意:默认情况下所有的sed命令都是在模式空间内执行的,因此输入的文件并不会发生任何变化,除非是用重定向存储输出。

4.3、命令格式:

sed -e'操作’文件1文件2....
sed -n-e'操作·文件1文件2 ...
sed -f脚本文件文件1文件2 ...
sed -i -e '操作·文件1文件2 ...



sed -e 'n{
操作1
操作2
}'文件1文件2...

4.4、常用命令

-e或--expression=:表示用指定命令来处理输入的文本文件,只有一个操作命令时可省略,一般在执行多个操作命令使用

-f或--file=:表示用指定的脚本文件来处理输入的文本文件

-h或--help:显示帮助。

-n、--quiet或silent:禁止sed编辑器输出,但可以与p命令一起使用完成输出。

-i:直接修改目标文本文件。

4.5、常用操作

s:替换,替换指定字符。

d:删除,删除选定的行。

a:增加,在当前行下面增加一行指定内容。

i:插入,在选定行上面插入一行指定内容。

c:替换,将选定行替换为指定内容。

y:字符转换,转换前后的字符长度必须相同。

p:打印,如果同时指定行,表示打印指定行;如果不指定行,则表示打印所有内容;如果有非打印字符,则以 ASCII码输     
出。其通常与"-n"选项一起使用。

=:打印行号。

l(小写L):打印数据流中的文本和不可打印的ASCII字符(比如结束符$、制表符\t)

4.6、打印内容

打印内容:

sed -n -e 'p' testfile1

sed -n -e '='testfile1

sed -n -e 'l' testfile1

sed -n -e '=;p' testfile1

sed -n -e '=' -e 'p' testfile1


sed -n '
>=
>p
>'testfile1

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.7、使用地址

sed编辑器有2种寻址方式:
(1)、以数字形式表示行区间
(2)、用文本模式来过滤出行

sed -n '1p' abc.txt        #打印第一行

sed -n '$p' abc.txt        #打印最后一行

sed -n '1,3p' abc.txt      #打印一到三行

在这里插入图片描述

sed -n '3,$p' abc.txt      #打印三到最后一行

在这里插入图片描述

sed -n '1, +3p' abc.txt    #打印1之后的连续3行,即1-4行

在这里插入图片描述

sed '3q' abc.txt           #打印前3行信息后退出,q表示退出

在这里插入图片描述

sed -n 'p;n' abc.txt       #打印奇数行; n表示移动到下一行

sed -n 'n;p' abc.txt       #打印偶数行

在这里插入图片描述

sed -n '2,${n;p}' abc.txt       #从第二行开始,n移动下一行,p打印,表示打印奇数行

在这里插入图片描述

sed -n ' /user/p' /etc/passwd    #//搜索包含user的行进行打印,区分大小写

在这里插入图片描述

sed -n ' /^a/p' /etc/passwd     #搜索以a开头的行进行打印

sed -n '/bash$/p' /etc/passwd       #打印以bash结尾的行

sed -n '/ftp\|root/p' /etc/passwd   #搜索包含ftp或者root的行进行打印

在这里插入图片描述

sed -n '2,/nobody/p' /etc/passwd     #从第二行开始打印到包含nobody的行

在这里插入图片描述

sed -nr '/ro{1,}t/p' /etc/passwd    #-r表示支持正则表达式

在这里插入图片描述

4.8、删除行

sed 'd' abc.txt           #不指定行号,全部删除

在这里插入图片描述

sed '3d' abc.txt          #删除第三行

sed '/^$/d' abc.txt       #删除空行

在这里插入图片描述

sed '/nologin$/d' /etc/passwd      #删除包含nologin字符的行

在这里插入图片描述

4.9、替换

行范围 s/旧字符 /新字符 /替换标记

4种替换标记

数字:表明新字符串将替换第几处匹配的地方

g:表明新字符将会替换所有匹配的地方

p:打印与替换命令匹配的行,与-n一起使用

w 文件:将替换的结果写到文件中

sed -n 's/root/admin/p' /etc/passwd    #将匹配行的第一个root更改为admin

sed -n 's/root/admin/2p' /etc/passwd   #将匹配行的第二个root更改为admin

sed -n 's/root/admin/gp' /etc/passwd   #将匹配行的所有root更改为admin 

在这里插入图片描述

sed '1,20 s/^/#/' /etc/passwd          #1-20行行首添加#号

在这里插入图片描述

sed '^root/ s/$/#' /etc/passwd        #在以root开头的行,行尾添加#号

在这里插入图片描述

sed -n 's/\bin\/bash\/bin\/csh/p' /etc/passwd

在这里插入图片描述

4.10、插入

sed '/root/{H;d};$G' /etc/passwd	#将包含root的行剪切到末尾,H表示复制到剪切板,G表示粘贴到指定行后

在这里插入图片描述
在这里插入图片描述

五、awk编辑器

5.1、工作原理

逐行读取文本,默认以空格或tab键为分隔符进行分隔,将分隔所得的各个字段保存到内建变量中,并按模式或者条件执行编辑命令。

sed命令常用于一整行的处理,而awk比较倾向于将一行分成多个“字段”然后再进行处理。awk信息的读入也是逐行读取的,执行结果可以通过print的功能将字段数据打印显示。在使用awk命令的过程中,可以使用逻辑操作符“&&”表示“与”、“||”表示“或”、“!”表示“非”;还可以进行简单的数学运算,如+、-、*、/、%、^分别表示加、减、乘、除、取余和乘方。

5.2、命令格式

awk 选项 '模式或条件 {操作}' 文件 1 文件 2 …
awk -f 脚本文件 文件 1 文件 2 …

5.3、awk常见的内建变量(可直接用)如下所示

FS:列分割符。指定每行文本的字段分隔符,默认为空格或制表位。与"-F"作用相同
NF:当前处理的行的字段个数。
NR:当前处理的行的行号(序数)。
$0:当前处理的行的整行内容。
$n:当前处理行的第n个字段(第n列)。
FILENAME:被处理的文件名。
RS:行分隔符。awk从文件上读取资料时,将根据RS的定义把资料切割成许多条记录,而awk一次仅读入一条记录,以进行处理。预设值是’\n’

5.4、按行输出文本

awk '{print}' 1.txt 				#输出所有内容

awk '{print $0}' 1.txt			    #输出所有内容

在这里插入图片描述

awk 'NR==1,NR==3{print}' 1.txt	#输出第 1~3 行内容

awk '(NR>=1)&&(NR<=3){print}' 1.txt	#输出第 1~3 行内容

在这里插入图片描述

awk 'NR==1||NR==3{print}' testfile2		#输出第1行、第3行内容

在这里插入图片描述

awk '(NR%2)==1{print}' testfile2 		#输出所有奇数行的内容

awk '(NR%2)==0{print}' testfile2		#输出所有偶数行的内容

在这里插入图片描述

awk '/^root/{print}' /etc/passwd		#输出以 root 开头的行

在这里插入图片描述

awk '/nologin$/{print}' /etc/passwd		#输出以 nologin 结尾的行

在这里插入图片描述

awk 'BEGIN {x=0};/\/bin\/bash$/{x++};END {print x}' /etc/passwd		#统计以/bin/bash 结尾的行数,等同于 grep -c "/bin/bash$"   /etc/passwd

在这里插入图片描述

BEGIN模式表示,在处理指定的文本之前,需要先执行BEGIN模式中指定的动作;awk再处理指定的文本,之后再执行END模式中指定的动作,END{}语句块中,往往会放入打印结果等语句

5.5、按字段输出文本

awk -F ":" '{print $3}' /etc/passwd 		#输出每行中(以空格或制表位分隔)的第3个字段

在这里插入图片描述

awk -F ":" '{print $1,$3}' /etc/passwd		#输出每行中的第1、3个字段

在这里插入图片描述

awk -F ":" '$3<5{print $1,$3}' /etc/passwd	#输出第3个字段的值小于5的第1、3个字段内容

在这里插入图片描述

awk -F ":" '!($3<200){print}' /etc/passwd 	#输出第3个字段的值小于200的行

在这里插入图片描述

awk 'BEGIN {FS=":"};{if($3>=200){print}}' /etc/passwd	#先处理完BEGIN的内容,再打印文本里面的内容

在这里插入图片描述

awk -F ":" '{max=($3>$4)?$3:$4;{print max}}' /etc/passwd		#($3>$4)?$3:$4三元运算符,如果第3个字段的值大于第4个字段的值,则把第3个字段的值赋给max,否则第4个字段的值赋给max

在这里插入图片描述

awk -F ":" '{print NR,$0}' /etc/passwd		#输出每行内容和行号,每处理完一条记录,NR值加1

在这里插入图片描述

awk -F ":" '$7~"/bash"{print $1}' /etc/passwd	#输出以冒号分隔且第7个字段中包含/bash的行的第1个字段

在这里插入图片描述

awk -F ":" '($1~"root")&&(NF==7){print $1,$2}' /etc/passwd	#输出第1个字段中包含root且有7个字段的行的第1、2个字段

在这里插入图片描述
awk -F “:” ‘($7!="/bin/bash")&&($7!="/sbin/nologin"){print}’ /etc/passwd #输出第7个字段既不为/bin/bash,也不为/sbin/nologin的所有行
在这里插入图片描述

5.7、通过管道、双引号调用 Shell 命令

echo $PATH | awk 'BEGIN{RS=":"};END{print NR}'		#统计以冒号分隔的文本段落数,END{}语句块中,往往会放入
打印结果等语句

在这里插入图片描述

awk -F ":" '($1~"root")&&(NF==7){print $1,$2}' /etc/passwd	#输出第1个字段中包含root且有7个字段的行的第1、2个字段

在这里插入图片描述

free -m | awk '/Mem:/ {print int($3/($3+$4)*100)}'	#查看当前内存使用百分比

在这里插入图片描述

top -b -n 1 | grep Cpu | awk -F ',' '{print $4}' | awk '{print $1}'		#查看当前CPU空闲率,(-b -n 1 表示只需要1次的输出结果)

在这里插入图片描述

date -d "$(awk -F "." '{print $1}' /proc/uptime) second ago" +"%F %H:%M:%S"		                                   

#显示上次系统重启时间,等同于uptime;second ago为显示多少秒前的时间,+"%F %H:%M:%S"等同于+"%Y-%m-%d 
%H:%M:%S"的时间格式

在这里插入图片描述

awk 'BEGIN {while ("w" | getline) n++ ; {print n-2}"%"}'	#调用w命令,并用来统计在线用户数

在这里插入图片描述

awk 'BEGIN {"hostname" | getline ; {print $0}}'			#调用 hostname,并输出当前的主机名

在这里插入图片描述

当getline左右无重定向符“<”或“|”时,getline作用于当前文件,读入当前文件的第一行给其后跟的变量var或$0;应该注意到,由于awk在处理getline之前已经读入了一行,所以getline得到的返回结果是隔行的。

当getline左右有重定向符“<”或“|”时,getline则作用于定向输入文件,由于该文件是刚打开,并没有被awk读入一行,只是getline读入,那么getline返回的是该文件的第一行,而不是隔行。

seq 10 | awk '{print $0; getline}'   

seq 10 | awk '{getline; print $0}'

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_51431591/article/details/111677317