如果熟悉其他的某种编程语言,对正则表达式应该都不会陌生。正则表达式,又称正规表示法、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。
在ruby中正则表达式是在字符串处理中的必备良品,现在记录一些基础的概念和用法。
在ruby中,正则表达式使用//(两个斜杠)包裹起来的,一个最简单的例子:
"xyz".scan(/./){ |letter| puts letter }
输出的是
x
y
z
scan方法就是根据提供的正则表达式去扫描整个字符串。首先看这个/./,是用//(两个斜杠)包裹起来的,这里的.(点)是个匹配单个字符的通配符,所以这里这个表达式的意思是单个匹配字符,但后打印出来。
上面说的.(点)是个正则表达式的元字符,类似的还有
\w:匹配字母或数字或下划线或汉字
\W:匹配所有\w不能匹配的内容
\d:匹配数字
\D:匹配所有\d不能匹配的内容
大写的W和D真是有趣而任性的设定,我们发现可以用(\w\W)或者(\d\D)匹配任意单个字符。
其实这种正则表达式的元字符还有很多,本文重点讨论在ruby中的使用,介绍一些ruby中匹配正则表达式的方法,其他的一些元字符就请读者查阅其他资料吧。
上面介绍了scan方法,下面介绍一个运算符:=~,这个运算符的结果是一个布尔值,看字符串和正则表达式是否能匹配,例子:
<span style="font-family:SimSun;font-size:18px;">puts "String has vowels" if "Hello world" =~ /[aeIoU]/ </span>
输出是:String has vowels
含义是,"Hello world"和正则表达式/[aeIoU]/ 去匹配,如果能匹配上,表达式结果就是true,反之就是false。
另一个重要的方法是match,match方法返回一个匹配上的字符串数组,样例:
x = "This is a test".match(/(\w+) (\w+)/) puts x[0] puts x[1] puts x[2]
输出的是:
This is
This
is
返回x数组中,第1个元素(下标为0)是匹配到的字符串,x[1]就是匹配第一个(\w+)的字符串,x[2]就是匹配第二个(\w+)的字符串。
match方法另外一个重要的好处是,它接受的参数未必是一个正则表达式,可以是一个正则表达式格式的字符串,这样如果这个正则表达式是外部输入或者文件读入时就很方便,可以直接当成字符串处理,以下2行代码输出的结果是一样的:
puts "String has vowels" if "Hello world".match(/[aeIoU]/) puts "String has vowels" if "Hello world".match("[aeIoU]")