正则表达式总结之查找

【0】、写在前面

以下内容总结于shell脚本学习指南

【1】我们说查找文本要用到三种文本匹配程序：

1.1）grep 使用的是基本正则表达式（basic regular expression，BRE）

1.2）扩展式grep 使用 egrep（extended regular express， ERE）；用grep -E 取代 egrep

1.3）快速grep （fast grep），主要用于匹配固定字符串而非正则表达式；用grep -F取代fgrep

【2】grep的用法：匹配一个或者多个模式的文本行

grep [options …] pattern-spec [files…] （以下grep 选项没有列完全，但列出重要的）

2.1）-E 取代egrep

2.2）-F 取代fgrep

2.3）-e par-list 匹配多个模式，自己查

2.4）-i 忽略大小写

2.5）-v 显示不匹配的行

2.6） -q 匹配成功则离开，不写入到标准输出

2.7） -l 列出匹配模式的文件 名称，而不是打印匹配的行

【3】基本正则表达式

3.1）匹配单个字符

可采用以下几种方式做到：

3.1.1）单个字符

正则表达式a匹配a，而不是匹配A，word match word not WoRD；

3.1.2）转义的Meta字符

Meta字符（元字符），如*， \ 等可以用\转义它

3.1.3）.号 match 任一字符not任意字符 a.c match abc,aac not ac

3.1.4）方括号表达式

c[aeIoU]t match cat,cet,cit,cot cut
complementary: ^放在[] 里面的字首表示取反; 即是匹配不在[] 里面的字符；

3.2）POSIX 的排序符号等价字符集以及字符集

3.2.1）排序

定义：指给予成组的项目排列顺序的操作；
形式：用[.与.] 括起来
如 [.ch.] 匹配成对的ch 而不是单个c or h ；又如 [ab[.ch.]de] match a or b or d or e or 成对的ch

3.2.2）等价字符集

定义：用来让不同字符在匹配时视为相同字符；
形式：用 [= 与 =] 括起来
如：[=e=] matching 各种e （如法语中的e字母是和英语中的e字母不一样的，这和具体的locale有关）

3.2.3）字符集

定义：表示字符的类别；如数组，大写字母，小写字母，标点符号，空白；
形式：用[:与:] 括起来；
来张鸟哥的图：

3.3）后向引用

定义：指的是匹配于正则表达式匹配的先前部分；分为两步：first,将子表达式包围在( 与 ) 里面；second,在同一模式后使用\digit， digit指的是介于1~9的数字，指的是匹配于第n个先前方括号内子表达式匹配成功的字符。
如：

\(ab\)\(cd\)[def]*\2\1  matching abcdcdab,abcdeeecdab,abcdddeeffcdab
\(why\).*\1 matching 一行里重现两个why
\([""']\).*\1 matching 以 单引号或是双引号括起来的字， 如 ‘foo’ or "bar"

3.4）单字符匹配多字符

**3.4.1） * 修饰符是好用的，但是他没有显示；（用于匹配0个或者多个）**

3.4.2）区间表达式

形式：该表达式将一个或者两个数字放在 { 和 } 之间， there are 3 forms:
{n} : 前置正则表达式所得结果重现n次；
{n,} : 前置正则表达式所得结果重现至少n次；
{n,m} : 前置正则表达式所得结果重现n~m次；

【Attention】

n和m介于0到RE_DUP_MAX之间；getconf RE_DUP_MAX 获取该值大小

3.4）文本匹配锚点

3.4.1）脱字符号^ :限定匹配字符串的起始处

如^ABC 用于匹配行起始处为ABC的行；

3.4.２）货币符号＄ :限定匹配字符串的结束处

$ABC 用于匹配以ABC结束的行；
\^$也可以同时使用，用于表示空行

3.5）BRE运算符的优先级

（由高到低）

first: [..]  [==]  [::]   用于字符排序的方括号符号
second: \Metacharacter  转义的Meta符号
third: []  方括号表达式
4th: \(\) \digit  子表达式与向后引用
5th: * \{\}  前置单个字符重现的正则表达式
6th: 无符号 (no symbol)  连续
7th: ^$  锚点

【4】扩展正则表达式

匹配单个字符同BRE；
后向用于不存在；

4.1）匹配单个表达式或多个正则表达式

与BRE不同之处在于：
区间表达式不需要反斜杠字符：如a{5} or q{10,42} 是不是爽到爆；
ERE有两个Meta字符：
？ matching 0 or 1 前置正则表达式
+ matching 1 or more 前置正则表达式

4.2) 交替

问题：方括号表达式易于表示匹配这个字符那个字符，但是不能指定匹配这个序列那个序列，交给管道字符(|）来处理吧
如： read |write matching read or write

【Attention】

| 运算法是在ERE中优先级别最低的；

4.3 ）分组

圆方括号提供了分组功能；
如：（why）+ mathcing one or more 连续重复的why
而且分组可以和交替相结合；
如： read|write+ 指的是匹配正好一个read或是一个write后面跟了无数个e字符如 writee,writeeeee

【key】

当你将交替操作结合^,$ 锚点字符使用时，分组就非常好用了。
\^abcd|efgh\$ matching 字符串的起始处是否有abcd或者结尾处室友有efgh ， nice！

4.4）ERE运算符的优先级

first: [...] [= =] [: :] 方括号符号
second: \Metacharacter  转义的Meta字符
third: []  方括号表达式
4th: ()  分组
5th: * + ? {}  重复前置的表达式
6th: 无符号  连续字符
7th: ^$  锚点
8th: |  交替

【extension】

说 \<\> 可以匹配一个单词;
如：\<chop 匹配于 use chopsticks not eat a lambchop; 
chop\> matching eat a lambchop; 
\<chop\> 指匹配 chop

【complementary】

unix程序及其正则表达式类型

正则表达式总结之查找

【0】、写在前面

以下内容总结于shell脚本学习指南

【1】我们说查找文本要用到三种文本匹配程序 ：

1.1）grep 使用的是基本正则表达式（basic regular expression，BRE）

1.2）扩展式grep 使用 egrep（extended regular express， ERE）；用grep -E 取代 egrep

1.3）快速grep （fast grep），主要用于匹配固定字符串而非正则表达式；用grep -F取代fgrep

【2】grep的用法 ： 匹配一个或者多个模式的文本行

2.1）-E 取代egrep

2.2）-F 取代fgrep

2.3）-e par-list 匹配多个模式，自己查

2.4）-i 忽略大小写

2.5）-v 显示不匹配的行

2.6） -q 匹配成功则离开，不写入到标准输出

2.7） -l 列出匹配模式的文件名称，而不是打印匹配的行

【3】基本正则表达式

3.1）匹配单个字符

3.1.1）单个字符

3.1.2） 转义的Meta字符

3.1.3）.号 match 任一字符not任意字符 a.c match abc,aac not ac

3.1.4） 方括号表达式

3.2）POSIX 的排序符号 等价字符集以及字符集

3.2.1） 排序

3.2.2） 等价字符集

3.2.3）字符集

3.3）后向引用

3.4） 单字符匹配多字符

3.4.1） * 修饰符是好用的，但是他没有显示；（用于匹配0个或者多个）

3.4.2）区间表达式

【Attention】

3.4） 文本匹配锚点

3.4.1）脱字符号^ :限定匹配字符串的起始处

3.4.２）货币符号＄ :限定匹配字符串的结束处

3.5）BRE运算符的优先级

【4】扩展正则表达式

4.1）匹配单个表达式或多个正则表达式

4.2) 交替

【Attention】

4.3 ） 分组

【key】

4.4）ERE运算符 的优先级

【extension】

【complementary】

猜你在找的正则表达式相关文章

【1】我们说查找文本要用到三种文本匹配程序：

【2】grep的用法：匹配一个或者多个模式的文本行

3.1.2）转义的Meta字符

3.1.4）方括号表达式

3.2）POSIX 的排序符号等价字符集以及字符集

3.2.1）排序

3.2.2）等价字符集

3.4）单字符匹配多字符

**3.4.1） * 修饰符是好用的，但是他没有显示；（用于匹配0个或者多个）**

3.4）文本匹配锚点

4.3 ）分组

4.4）ERE运算符的优先级