正则表达式和文本处理器

扩展正则表达式元字符

  • 扩展正则表达式是对基础正则表达式的扩充深化
  • 扩展元字符
    1.+:匹配前面子表达式1次以上
    例如:go+d,将匹配至少一个o
    2.?:匹配前面子表达式0次或者1次
    例如:go?d 将匹配dg 或者god
    3.():将括号中的字符串作为一个整体
    例如:(xyz)+ 将匹配xyz整体1次以上,如xyzxyz
    4.| :或以的方式匹配字符条串
    例如:good|food 将匹配good 或者food
    g(oo|la)d,将匹配good 或者glad

awk工具介绍

  • 功能强大的编辑工具
  • 无交互的情况下实现复杂的文本操作
  • 命令格式

awk 选项‘模式或条件{编辑指令}’ 文件1 文件2
awk -f 脚本文件1 文件2

  • awk包含得几个特殊的内建变量(可以直接使用)

FS:指定每行文本的字段分隔符,默认为空格或制表位
NF:当前处理的行的字段个数
NR:当前的行的行号(序数)
$0:当前的第n个字段(第n列)
RS:数据记录分隔,默认为\n,即每一行一条记录

  • awk的工作原理

逐行读取文本,默认以空格为分隔符进行分隔,将分隔所得的哥哥字段保存到内建变量中,并按模式或者条件执行编辑命令

sort工具

  • 依据不同的数据类型进行排序

字符排序
数字排序

  • 语法排序

sort [选项] 参数

  • 常用选项

-f :忽略大小写
-b :忽略每行前面的空格
-M :按照月份进行排序
-r :反向排序
-u :等同于uniq, 表示相同的数据仅显示一行
-t :指定分隔符,默认使用【Tab】键分隔
-o :<输出文件>:将排序后的结果转存至指定文件
-k: 指定排序区域

uniq工具的使用

  • uniq常用的选项

-c :进行技术
-d:仅显示重复的行
-u:仅显示出现一次的行。

tr工具的使用

  • 其常用的选项包括以下

-c :取代所有不属于第一字符集的字符
-d:删除所有属于第一字符集的字符
-s: 把连续重复的字符以单独的一个字符表示
-t:先删除第一字符集较第二字符集多出的字符,做替换

猜你喜欢

转载自blog.csdn.net/weixin_50346902/article/details/109661935