一、正则表达式:就是以某种模式来匹配一类字符串。一旦概括了某类字符串,那么正则表达式即可用于针对字符串的各种相关操作
二、正则表达式与通配符:正则表达式是一个模式,正则表达式可以看做一个模糊的字符串匹配;而通配符也可以看做模糊的字符串匹配
三、正则表达式的基础知识
1、元字符和普通字符
(1)元字符:是指正则表达式中表示特殊含义的字符。包括“.”、“\”、“?”、“*”、“+”、“|”、“{”、“}”、“^“、”$“、”[“、”]“。
其中:“.”用于匹配任何单字符(换行符除外);“\”可以与普通字符组合来表示特殊字符,也可与元字符组合使用来获得元字符的原义字符;元字 符“^”和“$”用于匹配输入字符串的开始和结束
(2)普通字符是指除元字符外的所有Unicode字符。普通字符匹配其本身
2、量词
量词用来指定量词的前一个字符出现的次数。量词的主要形式有“?”、“*”、“+”、“{}”
(1)“?”作为量词出现,用来匹配0个或者1个字符
(2)“*”作为量词出现,用来匹配0个或者多个个字符
(3)“+”作为量词出现,用来匹配1个或者多个个字符
(4)“{”、“}”作为量词出现,同时出现,用来匹配指定个数的字符。{3}表示匹配3个字符,{3,}表示匹配>=3个字符,{3,5}表示匹配3-5个字符
3、字符转义
(1)元字符是有特殊含义的,若需要表示其本身,则需要“\\”转义(有的语言只需要一个\)
4、字符组
字符组是指将模式中的某些部分作为一个整体。量词也可用来修饰字符组
5、or匹配
可以利用“|”来创建多个正则表达式分支,匹配任意一个正则表达式。例子,1000|a|2
6、匹配几个字符之一
可以使用[](实际是or匹配的另一种方式,[123]是[1|2|3]的缩写)
注:[123]ton 和 1|2|3ton是有区别的,前一个是匹配1或者2或者3且后面有ton的,而后者是匹配1或者2 或者3ton
7、范围匹配
如果是需要匹配一个范围情况,用“-”来定义一个范围。
例子:[1234567]等价于[1-7]
8、字符类
(1)[:alnum:] 匹配任意字符和数字,同[a-zA-Z0-9]
(2)[:alpha:] 匹配任意字符,同[a-zA-Z]
(3)[:lower:] 匹配任意小写字母,同[a-z]
(4)[:upper:] 匹配任意大写字母,同[a-z]
(5)[:blank:] 匹配空格和制表符,同[\\t]
(7)[:cntrl:] ASCII控制字符(ASCII的0到31和127)
(8)[:digit:] 匹配任意数字,同[0-9]
(9)[:graph:] 同[:print:],但不包括空格
(10)[:print:] 任意可打印的字符
(11)[:space:] 包括空格在内的任意空白字符 ,同[\\f\\t\\n\\r\\v]
9、定位元字符
(1)^ 文本的开始
(2)$ 文本的结束
(3)[[:<:]] 词的开始
(4)[[:>:]] 词的结尾
四、常用的函数
(1)regexp_like() (注:hive里不可用)
使用说明:regexp_like(string,regexp),函数返回的是布尔值
--string 需要解析的字符串(数据表里的字段名称)
--regexp为正则表达式
(2)regexp_instr()(注:hive里不可用)
使用说明:regexp_like(string,regexp,startindex,times),正确匹配时,返回在字符串中的位置
--string 需要解析的字符串(数据表里的字段名称)
--regexp为正则表达式
--startindex表示开始进行匹配的位置
--times表示将第几次匹配作为结果,默认为1
(3)regexp_sbstr()(注:hive里不可用)
使用说明:regexp_sbstr(string,regexp),该函数返回string中与regexp中相匹配的字符串
--string 需要解析的字符串(数据表里的字段名称)
--regexp为正则表达式
(4)regexp_replace(string,replacement)
--string 需要解析的字符串(数据表里的字段名称)
--regexp为正则表达式
--replacement用于替换匹配上的部分
补充
1、regexp_extract()函数
使用说明:regexp_extract(string,idx)
--string 需要解析的字符串(数据表里的字段名称)
--regexp为正则表达式
--idx 返回结果,表示取表达式的哪一部分,默认值为1
--0表示返回整个表达式对应的结果
--1表示返回正则表达式第一个小括号()对应的结果,以此类推
--idx的值应该小于等于小括号()的数量
例子:
--regexp_extract(‘x=12abd&x=edf67’,'x=([0,9]+)([a,z]+)',0) 取出的结果为 x=12abd
--regexp_extract(‘x=12abd&x=edf67’,1) 取出的结果为 x=12
--regexp_extract(‘x=12abd&x=edf67’,2) 取出的结果为 x=abd