grep:
Linux上文本处理三剑客
grep:文本过滤(模式:pattern)工具
grep,egrep,fgrep(fast grep)
sed:stream editor,文本编辑工具
awk:Linux上的实现gawk,文本报告生成器
grep:Global search Regular expression and Print out the line
作用:文本搜索工具,根据用户指定的“模式”对目标文本逐行进行匹配检查,打印匹配到的行
模式:由正则表达式字符及文本字符所编写的过滤条件
正则表达式:又称规则表达式,英文名为Regular Expression,正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑
分两类:
基本正则表达式:BRE
扩展正则表达式:ERE
grep -E,egrep
正则表达式引擎:检查匹配与否的程序
grep [OPTIONS] PATTERN [FILE...]
选项:
-v:显示不能够被pattern匹配到的行
-i:忽略字符大小写
-o:仅显示匹配到的字符串
-q:静默模式,不输出任何信息
-A #:匹配到之后,显示本行及后#行
-B #:匹配到之后,显示本行及前#行
-C #:匹配到之后,显示本行及前后#行
-E:使用ERE
基本正则表达式元字符:
字符匹配:
.:匹配任意单个字符
[]:匹配指定范围内的任意单个字符
[^]:匹配指定范围外的任意单个字符
[:digit:],[:lower:],[:upper:],[:alpha:],[:alnum:],[:punct:],[:space:]
匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数
*:匹配前面的字符任意次
例如:grep "x*y"
abxy
xay
xxxxxxy
x
.*:任意长度的任意字符
\?:匹配前面的字符0或1次:即前面的可有可无
\+:匹配前面的字符至少1次
\{m\}:匹配前面的字符m次
\{m,n\}:匹配前面的字符至少m次,至多n次
\{0,n\}:匹配前面的字符至多n次
\{m,\}:匹配前面的字符至少m次
位置锚定:
^:行首锚定:用于模式的最左侧
^root
$:行尾锚定:用于模式的最右侧
^PATTERN$:用于模式匹配整行
^$:空行
^[[:space:]]*$:匹配空行,或者是非空空行
\< 或 \b:词首锚定:用于单词模式的左侧
\> 或 \b:词为锚定:用于单词模式的右侧
\<PATTERN>\:匹配整个单词
分组:
\(\):将一个或多个字符捆绑在一起当作一个整体进行处理
例如:\(xy\)*ab
Note:分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部变量中,这些变量的命名方式为:\1,\2,\3,......
\1:从左侧起,第一个左括号以及与之匹配的右括号之间的模式所匹配到的字符:
\(ab\+\(xy\)*\)
\1:ab\+\(xy\)*
\2:xy
后向引用:引用前面分组括号中的模式所匹配的字符,(而非模式本身)
联系:
1.显示/proc/meminfo文件中以大小写s开头的行:(要求:使用两种方式)
2.显示/etc/passwd文件中不以/bin/bash结尾的行:
3.显示/etc/passwd文件中UID号最大用户的用户名
4.如果root存在,显示其默认的shell程序
5.找出/etc/passwd中的两位或三位数
6.显示/etc/rc.d/rc.sysinit文件中:至少以一个空白字符开头的且后面存在非空白字符的行
7.找出“netstat -tan”命令结果中以"LISTEN"后跟0,1或多个空白字符结尾的行
8.添加用户bash,testbash,basher以及nologin(其shell为/sbin/nologin):而后找出/etc/passwd文件中用户名同shell名的行