grep(global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。
一、选项
$ grep --h
用法: grep [选项]... PATTERN [FILE]...
在每个 FILE 或是标准输入中查找 PATTERN。
默认的 PATTERN 是一个基本正则表达式(缩写为 BRE)。
例如: grep -i 'hello world' menu.h main.c
正则表达式选择与解释:
-E, --extended-regexp PATTERN 是一个可扩展的正则表达式(缩写为 ERE)
-F, --fixed-strings PATTERN 是一组由断行符分隔的定长字符串。
-G, --basic-regexp PATTERN 是一个基本正则表达式(缩写为 BRE)
-P, --perl-regexp PATTERN 是一个 Perl 正则表达式
-e, --regexp=PATTERN 用 PATTERN 来进行匹配操作
-f, --file=FILE 从 FILE 中取得 PATTERN
-i, --ignore-case 忽略大小写
-w, --word-regexp 强制 PATTERN 仅完全匹配字词
-x, --line-regexp 强制 PATTERN 仅完全匹配一行
-z, --null-data 一个 0 字节的数据行,但不是空行
杂项:
-s, --no-messages 不显示错误信息
-v, --invert-match 选中不匹配的行
-V, --version 显示版本信息并退出
--help 显示此帮助并退出
--mmap 忽略向后兼容性
Output control:
-m, --max-count=NUM stop after NUM matches
-b, --byte-offset print the byte offset with output lines
-n, --line-number print line number with output lines
--line-buffered flush output on every line
-H, --with-filename print the file name for each match
-h, --no-filename suppress the file name prefix on output
--label=LABEL use LABEL as the standard input file name prefix
-o, --only-matching 只显示一行中匹配PATTERN 的部分
-q, --quiet, --silent 不显示所有输出
--binary-files=TYPE 假定二进制文件的TYPE 类型;
TYPE 可以是`binary', `text', 或`without-match'
-a, --text 等同于 --binary-files=text
-I 等同于 --binary-files=without-match
-d, --directories=ACTION 操作目录的方式;
ACTION 可以是`read', `recurse',或`skip'
-D, --devices=ACTION 操作设备、先入先出队列、套接字的方式;
ACTION 可以是`read'或`skip'
-R, -r, --recursive 等同于 --directories=recurse
--include=FILE_PATTERN 只查找匹配FILE_PATTERN 的文件
--exclude=FILE_PATTERN 跳过匹配FILE_PATTERN 的文件和目录
--exclude-from=FILE 跳过所有除FILE 以外的文件
--exclude-dir=PATTERN 跳过所有匹配PATTERN 的目录。
-L, --files-without-match 只打印不匹配FILEs 的文件名
-l, --files-with-matches 只打印匹配FILES 的文件名
-c, --count 只打印每个FILE 中的匹配行数目
-T, --initial-tab 行首tabs 分隔(如有必要)
-Z, --null 在FILE 文件最后打印空字符
文件控制:
-B, --before-context=NUM 打印以文本起始的NUM 行
-A, --after-context=NUM 打印以文本结尾的NUM 行
-C, --context=NUM 打印输出文本NUM 行
-NUM 等同于 --context=NUM
--color[=WHEN],
--colour[=WHEN] 使用标志高亮匹配字串;
WHEN 可以是`always', `never'或`auto'
-U, --binary 不要清除行尾的CR 字符(MSDOS 模式)
-u, --unix-byte-offsets 当CR 字符不存在,报告字节偏移(MSDOS 模式)
‘egrep’即‘grep -E’。‘fgrep’即‘grep -F’。
直接使用‘egrep’或是‘fgrep’均已不可行了。
不带 FILE 参数,或是 FILE 为 -,将读取标准输入。如果少于两个 FILE 参数
就要默认使用 -h 参数。如果选中任意一行,那退出状态为 0,否则为 1;
如果有错误产生,且未指定 -q 参数,那退出状态为 2。
请将错误报告给: [email protected]
GNU Grep 主页: <http://www.gnu.org/software/grep/>
GNU 软件的通用帮助: <http://www.gnu.org/gethelp/>
二、实例
参看:grep命令中文手册
参看:grep命令
以下是一些GNU grep的使用示例:
grep -i 'hello.*world' menu.h main.c
该命令用于列出menu.h和main.c中包含”hello”字符串且后面带有”world”字符串的所有行,hello和world中间可以有任意多个字符。注意正则表达式的”-i”选项使得grep忽略大小写,所以还能匹配”Hello, world!”。
下面是一些使用grep时常见的问题和答案。
1、如何列出匹配的文件名?
grep -l 'main' *.c
将列出当前目录下所有以”.c”结尾且文件中包含’main’字符串的文件名。
2、如何递归搜索目录?
grep -r 'hello' /home/gigi
搜索/home/gigi目录下所有文件,且文件中包含’hello’字符串。如果要灵活控制搜索的文件,可以结合find和xargs命令一起使用。例如下面的例子仅搜索C源文件。
find /home/gigi -name '*.c' -print0 | xargs -0r grep -H 'hello'
这不同于下面的命令:
grep -rH 'hello' *.c
这仅仅只是搜索当前目录下以”.c”结尾的文件。此处的”-r”选项基本上算是多余的,除非当前目录下有以”.c”结尾的目录,但这是很少见的情况。上面的find命令更类似于下面的命令:
grep -rH --include='*.c' 'hello' /home/gigi
3、如果pattern以短横线”-“开头会如何?
grep -e '--cut here--' *
将搜索”–cut here–”。但如果不给定”-e”选项,grep将可能把”–cut here”解析成一系列的选项。
4、如何搜索整个单词,而不是单词中的一部分?
grep -w 'hello' *
这将搜索当前目录下所有文件,并找出包含”hello”整个单词的文件,它无法匹配”Othello”。更灵活的控制可以使用”\<”和”>”来匹配单词的开始和结尾。例如:
grep 'hello\>' *
仅搜索”hello”结尾的单词,因此可以匹配”Othello”。
5、如何输出匹配行的上下几行?
grep -C 2 'hello' *
这将输出匹配行以及它的前后两行。
6、如何强制grep即输出匹配行又输出文件名? 只需在文件列表中加上’/dev/null’即可。
grep 'eli' /etc/passwd /dev/null
将得到:
/etc/passwd:eli:x:2098:1000:Eli Smith:/home/eli:/bin/bash
还可以使用GNU扩展选项”-H”:
grep -H 'eli' /etc/passwd
7、为什么有人在ps的后面使用奇怪的正则表达式?
ps -ef | grep '[c]ron'
如果pattern中不加上中括号,将匹配包含cron字符串的进程,包括grep自身,因为grep命令的表达式中包含了cron字符串。但如果加上了中括号,则grep命令行中包含的是”[c]ron”字符串,而grep所匹配的字符串是cron而不是[c]ron。 在输出结果上,这其实等价于下面这条命令:
ps -ef | grep 'cron' | grep -v 'grep'
8、为什么grep的结果中会报告”Binary file matches”?
如果grep列出二进制文件中的所有匹配行,将很可能生成一大堆乱七八糟的无用信息,因此GNU的grep默认禁止这样的输出。如果想要输出二进制内容,使用”-a”或”–binary-files=text”选项。
9、为什么’grep -lv’输出的是包含非匹配行的文件名?
‘grep -lv’列出的是包含一行或多行非匹配行的文件名。如果想要列出无匹配内容的文件名,则使用”-L”选项。 (注:例如a.txt中一部分行匹配到了,一部分行没匹配到,而b.txt中完全没有匹配上,则grep -lv将输出a.txt,而不是b.txt。因此可推测”-v”选项的操作优先级要高于”-l”,即先搜索出反转行,再输出包含这些反转行的文件)
10、使用”|”可以实现or逻辑,如何实现AND逻辑?
grep 'paul' /etc/motd | grep 'franc,ois'
将搜索出同时包含”paul”和”franc,ois”的所有行。
11、如何同时搜索文件和标准输入?
只需使用”-“代替标准输入的文件名即可:
cat /etc/passwd | grep 'alain' - /etc/motd
12、正则表达式中如何表达出回文结构?(注:回文结构表示正读和反读的结果是一样的,例如12321,abcba)可以使用反向引用来实现。例如,一个4字符的结构使用BRE来实现:
grep -w -e '\(.\)\(.\).\2\1' file
它可以匹配单词”radar”或”civic”。 Guglielmo Bondioni提出了一个正则表达式,可以搜索长达19个回文结构的字符串,其中使用了9个子表达式和9个反向引用。因为BRE或ERE最多只支持9个反向引用。
grep -E -e '^(.?)(.?)(.?)(.?)(.?)(.?)(.?)(.?)(.?).?\9\8\7\6\5\4\3\2\1$' file
13、为何反向引用会失效?
echo 'ba' | grep -E '(a)\1|b\1'
这不会输出任何内容,因为左边的表达式”(a)\1”无法匹配,因为输入数据中没有”aa”,因此右边的”\1”无法引用任何内容,意味着将不匹配任何东西。(此例中右边表达式仅在左边表达式成功匹配时才能生效。)
注:经测试,即使左边表达式能匹配上,右边表达式中引用左边的分组时也无效。例如”echo ‘baaca’ | grep -E ‘(a)\1|c\1’”可以匹配大其中的”aa”,但却匹配不到”ca”。
14、grep如何跨行匹配?
标准的grep无法实现该功能,因为它是基于行读取的。因此,仅仅使用字符类”[:space:]”无法如你想象中那样匹配换行符。
GNU的grep有一个选项”-z”,它可以处理使用”\0”结尾的行。因此,可以匹配输入数据中的换行符,但通常很可能在输出结果时,输出的是所有内容而不仅是被匹配的行,因此经常需要结合输出控制选项如”-q”来使用。例如:
printf 'foo\nbar\nabc' | grep -z 'foo[[:space:]]\+bar'
printf 'foo\nbar\nabc' | grep -z -q 'foo[[:space:]]\+bar'
如果这还不满足需求,可以将输入数据进行格式转换然后交给grep,或者使用其他工具替代grep,如”sed”、”awk”、”perl”或其他很多工具都能跨行操作。
15、“grep”,“fgrep”和“egrep”代表什么?
‘grep’这个名字来自于在Unix上进行行编辑的方式。 例如,’ed’使用以下语法在屏幕上打印匹配行的列表:
global/regular expression/print
g/re/p
‘fgrep’代表固定’grep’; ‘egrep’代表扩展的’grep’。