oracle正则表达式

一、正则表达式：就是以某种模式来匹配一类字符串。一旦概括了某类字符串，那么正则表达式即可用于针对字符串的各种相关操作

二、正则表达式与通配符：正则表达式是一个模式，正则表达式可以看做一个模糊的字符串匹配；而通配符也可以看做模糊的字符串匹配

三、正则表达式的基础知识

1、元字符和普通字符

（1）元字符：是指正则表达式中表示特殊含义的字符。包括“.”、“\”、“?”、“*”、“+”、“|”、“{”、“}”、“^“、”$“、”[“、”]“。

其中：“.”用于匹配任何单字符（换行符除外）；“\”可以与普通字符组合来表示特殊字符，也可与元字符组合使用来获得元字符的原义字符；元字符“^”和“$”用于匹配输入字符串的开始和结束

（2）普通字符是指除元字符外的所有Unicode字符。普通字符匹配其本身

2、量词

量词用来指定量词的前一个字符出现的次数。量词的主要形式有“?”、“*”、“+”、“{}”

（1）“?”作为量词出现，用来匹配0个或者1个字符

（2）“*”作为量词出现，用来匹配0个或者多个个字符

（3）“+”作为量词出现，用来匹配1个或者多个个字符

（4）“{”、“}”作为量词出现，同时出现，用来匹配指定个数的字符。{3}表示匹配3个字符，{3,}表示匹配>=3个字符，{3,5}表示匹配3-5个字符

3、字符转义

（1）元字符是有特殊含义的，若需要表示其本身，则需要“\\”转义（有的语言只需要一个\）

4、字符组

字符组是指将模式中的某些部分作为一个整体。量词也可用来修饰字符组

5、or匹配

可以利用“|”来创建多个正则表达式分支，匹配任意一个正则表达式。例子，1000|a|2

6、匹配几个字符之一

可以使用[]（实际是or匹配的另一种方式，[123]是[1|2|3]的缩写）

注：[123]ton 和 1|2|3ton是有区别的，前一个是匹配1或者2或者3且后面有ton的，而后者是匹配1或者2 或者3ton

7、范围匹配

如果是需要匹配一个范围情况，用“-”来定义一个范围。

例子：[1234567]等价于[1-7]

8、字符类

（1）[:alnum:] 匹配任意字符和数字，同[a-zA-Z0-9]

（2）[:alpha:] 匹配任意字符，同[a-zA-Z]

（3）[:lower:] 匹配任意小写字母，同[a-z]

（4）[:upper:] 匹配任意大写字母，同[a-z]

（5）[:blank:] 匹配空格和制表符，同[\\t]

（7）[:cntrl:] ASCII控制字符（ASCII的0到31和127）

（8）[:digit:] 匹配任意数字，同[0-9]

（9）[:graph:] 同[:print:]，但不包括空格

（10）[:print:] 任意可打印的字符

（11）[:space:] 包括空格在内的任意空白字符，同[\\f\\t\\n\\r\\v]

9、定位元字符

（1）^ 文本的开始

（2）$ 文本的结束

（3）[[:<:]] 词的开始

（4）[[:>:]] 词的结尾

四、常用的函数

（1）regexp_like() （注：hive里不可用）

使用说明：regexp_like(string,regexp)，函数返回的是布尔值

--string 需要解析的字符串（数据表里的字段名称）

--regexp为正则表达式

（2）regexp_instr()（注：hive里不可用）

使用说明：regexp_like(string,regexp,startindex,times)，正确匹配时，返回在字符串中的位置

--string 需要解析的字符串（数据表里的字段名称）

--regexp为正则表达式

--startindex表示开始进行匹配的位置

--times表示将第几次匹配作为结果，默认为1

（3）regexp_sbstr()（注：hive里不可用）

使用说明：regexp_sbstr(string,regexp)，该函数返回string中与regexp中相匹配的字符串

--string 需要解析的字符串（数据表里的字段名称）

--regexp为正则表达式

（4）regexp_replace(string,replacement)

--string 需要解析的字符串（数据表里的字段名称）

--regexp为正则表达式

--replacement用于替换匹配上的部分

补充

1、regexp_extract()函数

使用说明：regexp_extract(string,idx)

--string 需要解析的字符串（数据表里的字段名称）

--regexp为正则表达式

--idx 返回结果，表示取表达式的哪一部分，默认值为1

--0表示返回整个表达式对应的结果

--1表示返回正则表达式第一个小括号()对应的结果，以此类推

--idx的值应该小于等于小括号()的数量

例子：

--regexp_extract(‘x=12abd&x=edf67’,'x=([0,9]+)([a,z]+)',0) 取出的结果为 x=12abd

--regexp_extract(‘x=12abd&x=edf67’,1) 取出的结果为 x=12

--regexp_extract(‘x=12abd&x=edf67’,2) 取出的结果为 x=abd

oracle正则表达式

猜你在找的Oracle相关文章