grep和正则表达式
1.grep:Global search REgular expression and Print out the file
@H_404_5@ 作用:文本搜索工具,根据用户指定的模式对目标文件逐行进行匹配,打印匹配到的行
@H_404_5@ 模式:由正则表达式字符及文本字符编写的过滤条件
@H_404_5@
@H_404_5@格式:
@H_404_5@grep [options] pattern file[...]
@H_404_5@ --color=auto 对匹配到的文本着色显示
@H_404_5@ -v 显示不能够被pattern匹配的行
@H_404_5@ -q 静默模式,无论匹配成功与否均不输出任何信息
@H_404_5@ -A num 匹配成功后,显示匹配的行和其后num行
@H_404_5@ -B num 匹配成功后,显示匹配的行和其前num行
@H_404_5@ -C num 匹配成功后,显示匹配的行和其前后分别num行
@H_404_5@ -e 实现多个选项间的逻辑or关系
@H_404_5@ @H_404_5@grep -e 'cat' -e 'dog' file
@H_404_5@ -w 整行匹配整个单词
@H_404_5@ -E 使用扩展正则表达式
2.正则表达式
@H_404_5@由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意义,而表示控制或通配(wildzard)的功能
@H_404_5@基本正则表达式:Basic Regular Expression
@H_404_5@扩展正则表达式@H_404_5@Extension Regular Expression
@H_404_5@grep -E,egrep
@H_404_5@
@H_404_5@下面讨论的都是基本正则表达式
@H_404_5@元字符分类:字符匹配、匹配次数、位置锚定、分组
@H_404_5@
@H_404_5@1)字符匹配
@H_404_5@ [] 匹配[]指定的范围内的任意单个字符 []之中的内容可以罗列:[a!.ops]
@H_404_5@ @H_404_5@ 可以是有规律的范围:[a-zA-Z0-9]
@H_404_5@ @H_404_5@ 也可以是预定义的字符集:[:digit:] [:punct:]等,使用时[[:digit:]]才能达到上面字符集的效果,才会起作用
@H_404_5@ [^] 匹配指定范围之外的任意单个字符
@H_404_5@
@H_404_5@2)匹配次数:用在要指定次数的字符后面,用于指定前面字符或字符串( \(\)扩起的部分 ),要出现的次数
@H_404_5@ * 匹配前面的字符或字符串任意次,包括0次
@H_404_5@ \? 匹配其前面的字符或字符串0次或1次
@H_404_5@ \+ 匹配其前面的字符或字符串1次或多次
@H_404_5@ \{m\} 匹配其前面的字符或字符串m次
@H_404_5@ \{m,n\} 匹配其前面的字符或字符串至少m次,至多n次
@H_404_5@ \{,n\} 匹配其前面的字符或字符串最多n次
@H_404_5@ \{m,\} 匹配其前面的字符或字符串最多m次
@H_404_5@
@H_404_5@ Attention:在这里匹配次数,默认是贪婪模式(greed):尽可能的多匹配字符
@H_404_5@ @H_404_5@与之相对应的有一种懒惰模式(lazy):尽可能少的匹配字符
@H_404_5@ @H_404_5@做法,简而言之就是在匹配次数的符号后面加上?
@H_404_5@ @H_404_5@但是grep不支持,只有切换到Perl支持的正则表达式的模式下才能支持,很简单,就是加-P选项
@H_404_5@ @H_404_5@Perl支持的扩展的正则表达式,也就是匹配次数的字符不用加前面的转义符了,例如
@H_404_5@ @H_404_5@grep -P "a+?b" file
@H_404_5@3)位置锚定:定位出现的位置
@H_404_5@ ^ 行首锚定符
@H_404_5@ $ 行尾锚定符
@H_404_5@ ^pattern$ 用于模式匹配整行
@H_404_5@ @H_404_5@ ^[[:space:]]*$ 匹配空白行
@H_404_5@
@H_404_5@ \< 或 \b 词首锚定
@H_404_5@ \> 或 \b 词尾锚定
@H_404_5@ \<pattern\> 匹配整个单词,但是不一定要成对出现,比如^pattern\>
@H_404_5@
4)分组和向后引用
@H_404_5@ 分组:使用小括号指定一个子表达式以后,匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其他程序中进一步的处理。默认情况下,每个分组自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。
@H_404_5@ Attention:其实真正的组号分配更复杂一些。
@H_404_5@ @H_404_5@a)分组0对应整个正则表达式
@H_404_5@ @H_404_5@b)实际上组号分配过程是要从左向右扫描两遍的,第一遍只给未命名组分组分配组号(1 2 ...)
@H_404_5@ @H_404_5@第二遍只给命名组分配((?<name>exp)或(?'name'exp) 调用时用 \k<name>或\k'name' grep -P(PerlRE)支持这样做)
@H_404_5@ @H_404_5@ c)可以使用(?exp)这样的语法来剥夺一个分组对组号分配的参与权
@H_404_5@
@H_404_5@ 向后引用:引用前面的分组括号中pattern匹配的字符串 也就是\1不能放在第一个分组之前,以此类推
5)断言(grep -P支持)
@H_404_5@ 查找匹配pattern的内容之前或之后的内容
@H_404_5@ 1)零宽断言
@H_404_5@ @H_404_5@(1)(?=exp),也叫零宽度正预测先行断言,
@H_404_5@ @H_404_5@ @H_404_5@格式:pattern1(?=pattern2)
@H_404_5@ @H_404_5@ @H_404_5@匹配这样的字符串
@H_404_5@ @H_404_5@ @H_404_5@a)字符串本身匹配pattern1
@H_404_5@ @H_404_5@ @H_404_5@b)字符串后面的内容匹配pattern2
@H_404_5@ @H_404_5@ 例如:在/etc/passwd 中找出uid和gid相同,且都是4位数的行(使用(?=exp))
@H_404_5@ @H_404_5@grep -P "(\d{4}(?=:\d{4}:)):\1" /etc/passwd
@H_404_5@ @H_404_5@redhat:x:1000:1000:redhat:/home/redhat:/bin/bash
@H_404_5@user1:x:1001:1001::/home/user1:/bin/bash
@H_404_5@user2:x:1002:1002::/home/user2:/bin/bash
@H_404_5@user3:x:1003:1003::/home/user3:/bin/bash
@H_404_5@
@H_404_5@ @H_404_5@Attention:()可以加在pattern1(?=pattern2)整个外侧,也可以只加在pattern1外侧
@H_404_5@ @H_404_5@(2) (?<=exp),也叫零宽度正回顾后发断言@H_404_5@
@H_404_5@ @H_404_5@ @H_404_5@格式:(?<=pattern2)pattern1
@H_404_5@ @H_404_5@ @H_404_5@匹配这样的字符串
@H_404_5@ @H_404_5@ @H_404_5@a)字符串本身匹配pattern1
@H_404_5@ @H_404_5@ @H_404_5@b)字符串前面的内容匹配pattern2@H_404_5@
@H_404_5@ @H_404_5@ @H_404_5@ 例如:在/etc/passwd 中找出uid和gid相同,且都是4位数的行(使用(?<=exp))
@H_404_5@ @H_404_5@ @H_404_5@ grep -P "(?<=:x:)(\d{4}):\1:" /etc/passwd
@H_404_5@ @H_404_5@ @H_404_5@ 输出:
@H_404_5@ @H_404_5@ @H_404_5@ redhat:x:1000:1000:redhat:/home/redhat:/bin/bash
@H_404_5@user1:x:1001:1001::/home/user1:/bin/bash
@H_404_5@user2:x:1002:1002::/home/user2:/bin/bash
@H_404_5@user3:x:1003:1003::/home/user3:/bin/bash
@H_404_5@
@H_404_5@Attention:()可以加在(?<=pattern2)pattern1整个外侧,也可以只加在pattern1外侧
@H_404_5@
@H_404_5@2)负向零度断言
@H_404_5@ (1)(?!(exp)),零宽度负向预测先行断言 exp通常需要加(),我理解是因为前面的!的缘故
@H_404_5@ @H_404_5@格式:pattern1(?!(pattern2))
@H_404_5@ @H_404_5@ @H_404_5@匹配这样的字符串
@H_404_5@ @H_404_5@ @H_404_5@a)字符串本身匹配pattern1
@H_404_5@ @H_404_5@ @H_404_5@b)字符串后面的内容不匹配pattern2
@H_404_5@ @H_404_5@ @H_404_5@Attention:但(?!(pattern2)) 有时可以放在前面,例如
@H_404_5@ @H_404_5@ @H_404_5@echo -e "abcdabc\n shxjah" | grep -P "(?!(abc))\w+"
@H_404_5@ @H_404_5@ @H_404_5@输出:
@H_404_5@abcdabc
@H_404_5@
@H_404_5@(2)(?<!(exp)),零宽度负回顾后发断言
@H_404_5@格式:(?!(pattern2)) pattern1
@H_404_5@ 匹配这样的字符串
@H_404_5@ a)字符串本身匹配pattern1
@H_404_5@ @H_404_5@ @H_404_5@ b)字符串前面的内容不匹配pattern2
@H_404_5@ @H_404_5@ @H_404_5@例如:在/etc/passwd中找到gid是三位数的行
@H_404_5@ @H_404_5@ @H_404_5@综合零宽度负向预测先行断言和零宽度负回顾后发断言
@H_404_5@ @H_404_5@ @H_404_5@grep -P "(?<!(x:))\b\d{3}(?!(\d))" /etc/passwd
@H_404_5@ @H_404_5@ @H_404_5@输出:
@H_404_5@games:x:12:100:games:/usr/games:/sbin/nologin
@H_404_5@polkitd:x:999:999:User for polkitd:/:/sbin/nologin
@H_404_5@colord:x:998:998:User for colord:/var/lib/colord:/sbin/nologin
@H_404_5@usbmuxd:x:113:113:usbmuxd user:/:/sbin/nologin
@H_404_5@rtkit:x:172:172:RealtimeKit:/proc:/sbin/nologin
@H_404_5@qemu:x:107:107:qemu user:/:/sbin/nologin
@H_404_5@chrony:x:997:995::/var/lib/chrony:/sbin/nologin
@H_404_5@...
@H_404_5@
3.需要小心的陷阱
@H_404_5@1)找出文件当中含有-v的行 (string start with dash )
@H_404_5@ 你可能会这样做
@H_404_5@ grep "-v" file
@H_404_5@
@H_404_5@ 在这里-v会被当成选项,不显示匹配的行,而file的名字会当成pattern,最后grep会等待你的输入查找的目标,但似乎变成了你输入什么,它回显什么的错误结果
@H_404_5@
@H_404_5@
@H_404_5@ More precisely,a double dash (--) is used in bash built-in commands and many other commands to signify the end of command options,after which only positional parameters are accepted.
@H_404_5@
@H_404_5@ 更确切的说,在bash内建命令和很多其他命令使用双破折号来标识命令选项的结束,在双破折号之后只有位置参数会被接受
@H_404_5@ Example use: lets say you want to grep a file for the string -v - normally -v will be considered the option to reverse the matching meaning (only show lines that do not match),but with -- you can grep for string -v like this:
@H_404_5@
@H_404_5@ 用例:假如你想grep一个文件来查找-v字符串,通常-v会被当作是颠倒匹配含义的选项来考虑(就是只显示不匹配的行),但是你这样的方式grep去查找-v字符串:
@H_404_5@
@H_404_5@ grep -- -v file
@H_404_5@
@H_404_5@ 就可以正常工作了
@H_404_5@
2)$的重要性
@H_404_5@添加用户bash、testbash、basher以及nologin(其shell为/sbin/nologin),而后找出/etc/passwd文件中用户名与shell类型相同的行
@H_404_5@ grep -o "^\([^:]\{1,\}\):.*/\1$" /etc/passwd
@H_404_5@ 必须要有$,否则不能达到我们的要求
4.经典的正则表达式
@H_404_5@1)匹配IP地址
@H_404_5@grep -Po "((25[0-5]|2[0-4]\d|[01]?\d\d?)\.)(25[0-5]|2[0-4]\d|[01]?\d\d?)" file
后面的...(25[0-5]|2[0-4]\d|[01]?\d\d?)一定要加上括号,否则会出现这样的情况...25[0-5]|2[0-4]\d|[01]?\d\d?,会分别匹配...25[0-5]和2[0-4]\d以及[01]?\d\d?,后两个没有...的部分