一、何谓正则表达式
正则表达式是是由元字符及正常字符所书写的模式,其中的元字符不表示字符本身的意义,而是用于表达控制或通配等功能。
二、基本正则表达式元字符:
(1) 字符(范围)匹配
. :匹配任意单个字符
[] :匹配指定范围内的任意单个字符
[^]:匹配指定范围外的任意单个字符
[0-9],[[:digit:]],[^0-9],[^[:digit:]]
[a-z],[[:lower:]]
[A-Z],[[:upper:]]
[[:space:]]
[[:punct:]]
[0-9a-zA-Z],[[:alnum:]]
[a-zA-Z],[[:alpha:]]
(2) 次数匹配:在期望匹配字符后面提供一个控制符,用于表达匹配其前面字符指定的次数
* :任意长度,表示0次、1次或多次
"ab*c"
abbc,ac
abb,
.*:任意长度的任意字符,工作于贪婪模式
\?:0次或1次,表示其左侧字符可有可无
"ab\?c"
abbc,
ac,abc
\+: 1次或多次,表示其左侧字符至少出现1次
\{m\}:m次,表示其左侧字符精确出现m次
\{m,n\}:至少m次,至多n次
\{0,n\}:至多n次
\{m,\}:至少m次
(3)位置锚定:
^:锚定行首 ^PATTERN
$:锚定行尾 PATTERN$
^PATTERN$:用模式来匹配整行
^$:匹配空白行
(4)单词锚定:由非特殊字符组成的连续的字符串
\<:锚定词首,也可用\b
\<PATTETN 或\b
\>:锚定词尾。也可用\b
PATTERN\>
\<PATTERN\>:匹配PATERN能匹配到的整个单词
(5)分组:\(\)
注意:分组中的模式,在某次的具体匹配过程中所匹配到的字符,可以被grep记忆(保存于内置的变量中,这些变量是\1,\2,...),因此还可以被引用:
\1:引用,模式中自左而右,由第一个左括号以及与之对应的右括号中的模式所匹配到的内容
\2:引用,模式中自左而右,由第二个左括号以及与之对应的右括号中的模式所匹配到的内容
三、grep简介
grep(Global search Regular expression and Print out the line)全局搜索正则表达式,并把搜索到符合条件的一行输出。
grep命令格式:
grep [OPTIONS] PATTERN [FILE...]
* PATTERN是正则表达式书写的模式
* FILE是要查找的文件,可以是空格间隔的多个文件,省略FILE时表示在标准输入中查找
常用的参数:
--> -o: 只显示匹配到的字符
--> -i ignore case,不区分字符的大小写
--> -v 反向选取,显示不能够被匹配到的行
--> -E 使用扩展的正则表达式
--> -A# 同时输出匹配行的后#行
--> -B# 同时输出匹配行的前#行
--> -C# 同时输出匹配行的前、后#行
例子:grep --color=auto "root" /etc/passwd
四、egrep:命令会在输入文件中中搜索与用 Pattern 参数指定的模式相匹配的行
命令格式:egrep PATTERN FILE ...
(1)字符匹配:
.:匹配任意单个字符
[]:匹配指定范围内的任意单个字符
[^]:匹配指定范围外的任意单个字符
(2)次数匹配:
*: 任意次
?:0或1次
+: 至少1次
{m}:精确匹配m次;
{m,n}:至少m次,至多n次;
{m,}:至少m次;
{0,n}:至多n次;
(3)位置锚定:
^
$
\<,\b
\>,\b
(4)分组:
()
引用:\1,...
或者:
a|b:a或者b
或者两侧的所有内容;
举例:
1、显示/proc/meminfo文件中以大写或小写S开头的行
[root@localhost /]# grep -E "^[sS]" /proc/meminfo
SwapCached: 0 kB
SwapTotal: 2097148 kB
SwapFree: 2097148 kB
Shmem: 280 kB
Slab: 60008 kB
SReclaimable: 34660 kB
SUnreclaim: 25348 kB
2、显示/etc/passwd文件中其默认shell为/bin/bash的用户
[root@localhost /]# grep "/bin/bash$" /etc/passwd | cut -d: -f1rootmandrivamageiamandriva1opstacknovahadoopMysqL1user1user10user11