文本处理工具三剑客(sed,AWK,grep)

一.sed编辑器

sed是一种流编辑器,流编辑器会在编辑器处理数据之前基于预先提供的一组规则来编辑数据流。
sed编辑器可以根据命令来处理数据流中的数据,这些命令要么从命令行中输入,要么存储在一个命令文本文件中。
sed的工作流程主要包括读取、执行和显示三个过程:

●读取: sed从输入流 (文件、管道、标准输入) 中读取一行内容并存储到临时的缓冲区中(又称模式空间,pattern space)

●执行:默认情况下,所有的sed命令都在模式空间中顺序地执行,除非指定了行的地址,否则sed命令将会在所有的行上依次执行。

●显示:发送修改后的内容到输出流。在发送数据后,模式空间将会被清空。在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容被处理完。

在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容被处理完。
注意:默认情况下所有的sed命令都是在模式空间内执行的,因此输入的文件并不会发生任何变化,除非是用重定向存储输出。

1.命令格式

  • sed 常用选项 ‘操作’ 文件1 文件2 …
  • sed 常用选项 ‘操作’ 文件1 文件2 …
  • sed 常用选项 脚本文件 文件1 文件2 …
  • sed 常用选项 ‘操作’ 文件1 文件2 …

2.常用选项

选项 解释
-e或- -expression 表示用指定命令来处理输入的文本文件,只有一个操作命令时可省略,一 般在执行多个操作命令使用
-f或- -file 表示用指定的脚本文件来处理输入的文本文件。
-h或- -help 显示帮助。
-n、- -quiet或silent 禁止sed编辑器输出,但可以与p命令一起使用完成输出。
-i 直接修改目标文本文件。

3.常用操作

选项 解释
s 替换,替换指定字符。
d 删除,删除选定的行。
a 增加,在当前行下面增加一行指定内容。
i 插入,在选定行,上面插入一行指定内容。
c 替换,将选定行替换为指定内容。
y 字符转换,转换前后的字符长度必须相同。
p 打印,如果同时指定行,表示打印指定行;如果不指定行,则表示打印所有内容;如果有非打印字符,则以ASCII码输出。其通常与“-n”选项一起使用
= 打印行号
l(小写的L) 打印数据流中的文本和不可打印的ASCII字符(如:结束字符$、制表符\t)

4. 打印

在这里插入图片描述
在这里插入图片描述

5. 删除替换

在这里插入图片描述
在这里插入图片描述

6.打印行号

在这里插入图片描述
在这里插入图片描述

7. 删除空行

在这里插入图片描述

二.awk

  • 工作原理:
    逐行读取文本,默认以空格或tab键为分隔符进行分隔,将分隔所得的各个字段保存到内建变量中,并按模式或者条件执行编辑命令。

  • sed命令常用于一整行的处理,而awk比较倾向于将一行分成多个“字段”然后再进行处理。awk信息的读入也是逐行读取的,执行结果可以通过print的功能将字段数据打印显示。在使用awk命令的过程中,可以使用逻辑操作符“&&”表示“与”、“||”表示“或”、“!”表示“非”;还可以进行简单的数学运算,如+、-、*、/、%、^分别表示加、减、乘、除、取余和乘方。

  • 命令格式:
    awk 选项 ‘模式或条件 {操作}’ 文件 1 文件 2 …
    awk -f 脚本文件 文件 1 文件 2 …

  • awk常见内建变量

项目 | Value

选项 解释
- FS 列分割符。指定每行文本的字段分隔符,默认为空格或制表位。与"-F"作用相同
- NF 当前处理的行的字段个数。
- NR 当前处理的行的行号(序数)。
- $0 当前处理的行的整行内容。
- $n 当前处理行的第n个字段(第n列)。
- FILENAME 被处理的文件名。
- RS 行分隔符。awk从文件上读取资料时,将根据RS的定义把资料切割成许多条记录,而awk一次仅读入一条记录,以进行处理。预设值是’\n’
  • 按行输出文本:
  • awk ‘{print}’ 1.txt #输出所有内容
  • awk ‘{print $0}’ 1.txt #输出所有内容
    在这里插入图片描述
    在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/LI_MINGXUAN/article/details/111949772