一、正则表达式(REGEXP):Regual Expression
由一类特殊字符及文本字符所编写的模式,用于控制或通配的功能;
分两类:
基本正则表达式:BRE(Base REGEXP )
扩展正则表达式:ERE(Extended REGEXP)
二、基本正则表达式元字符:
1.字符匹配:
. :匹配任意单个字符;
[]:匹配指定范围内的任意单个字符;
[^]:匹配指定范围外的任意单个字符;
字符集:[:digit:]、[:lower:]、[:upper:]、[:alpha:]、[:alnum:]、[:punct:]、[:space:]
2.匹配次数:用于限制其前面字符出现的次数;默认工作于贪婪模式;
贪婪模式:匹配时按照给定规则尽可能匹配最长的字符串
*:匹配其前面的字符任意次;0,1,多次;
.*:匹配任意长度的任意字符
\?:匹配其前面的字符0次或1次;即其前面的字符是可有可无的;
\+:匹配其前面的字符1次或多次;即其面的字符要出现至少1次;
\{m\}:匹配其前面的字符m次;
\{m,n\}:匹配其前面的字符至少m次,至多n次;
\{0,n\}:至多n次
\{m,\}:至少m次
3.位置锚定:
^:行首锚定;用于模式的最左侧;
$:行尾锚定;用于模式的最右侧;
^PATTERN$:用于PATTERN来匹配整行;
^$:空白行;
^[[:space:]]*$:空行或包含空白字符的行;
单词:非特殊字符组成的连续字符(字符串)都称为单词;
\< 或 \b:词首锚定,用于单词模式的左侧;
\> 或 \b:词尾锚定,用于单词模式的右侧;
\<PATTERN\>:匹配完整单词;
4.分组及引用
\(\):将一个或多个字符捆绑在一起,当作一个整体进行处理;
注意:分组括号中的模式匹配到的内容会被正则表达式引擎自动记录于内部的变量中
\1:模式从左侧起,第一个左括号以及与之匹配的右括号之间的模式所匹配到的字符;
\2:模式从左侧起,第二个左括号以及与之匹配的右括号之间的模式所匹配到的字符;
\3:
……….(括号嵌套)
后向引用:引用前面的分组括号中的模式所匹配到的字符;
三、扩展正则表达式的元字符:
1.字符匹配:
.:任意单个字符
[]:指定范围内的任意单个字符
[^]:指定范围外的任意单个字符
2.次数匹配:
*:任意次,0,1或多次;
?:0次或1次,其前的字符是可有可无的;
+:其前字符至少1次;
{m}:其前的字符m次;
{m,n}:至少m次,至多n次;
{0,n}
{m,}
(3.位置锚定
^:行首锚定;
$:行尾锚定;
\<,\b:词首锚定;
\>,\b:词尾锚定;
4.分组及引用:
():分组;括号内的模式匹配到的字符会被记录于正则表达式引擎的内部变量中;
后向引用:\1,\2,...
5.或: a|b:a或者b;|两边整体或者(扩展表达式特有功能)
C|cat:C或cat
(c|C)at:cat或Cat