高级正则表达式技术（Python版）

正则表达式是从信息中搜索特定的模式的一把瑞士军刀。它们是一个巨大的工具库，其中的一些功能经常被忽视或未被充分利用。今天我将向你们展示一些正则表达式的高级用法。

举个例子，这是一个我们可能用来检测电话美国电话号码的正则表达式：

@H_502_18@ 1 @H_404_20@

 
        r 
        '^(1[-\s.])?(\()?\d{3}(?(2)\))[-\s.]?\d{3}[-\s.]?\d{4}$'

@H_404_20@

我们可以加上一些注释和空格使得它更具有可读性。

@H_404_20@

'^'

'(1[-\s.])?' 
         # optional '1-','1.' or '1' 
       

'(\()?'      
         # optional opening parenthesis 
       

'\d{3}'      
         # the area code 
       

'(?(2)\))'   
         # if there was opening parenthesis,close it 
       

'[-\s.]?'    
         # followed by '-' or '.' or space 
       

 # first 3 digits 
       

 # followed by '-' or '.' or space 
       

'\d{4}$'    
         # last 4 digits 
       

@H_404_20@

让我们把它放到一个代码片段里：

@H_404_20@

import re

numbers  
        = 
         [  
        "123 555 6789" 
        , 
       

 
                     
        "1-(123)-555-6789" 
        "(123-555-6789" 
        "(123).555.6789" 
        "123 55 6789" 
         ] 
       

for 
         number  
        in 
         numbers: 
       

     
        pattern  
         re.match(r 
        '^' 
       

                    
        '(1[-\s.])?'           
        '(\()?'                
         # optional opening parenthesis 
       

'\d{3}'                
         # the area code 
       

'(?(2)\))'             
        '[-\s.]?'              
         # followed by '-' or '.' or space 
       

 # first 3 digits 
       

 # followed by '-' or '.' or space 
       

'\d{4}$\s*' 
        # last 4 digits 
       

     
        if 
         pattern:

         
        print 
         '{0} is valid' 
        . 
        format 
        (number) 
       

else 
        : 
       

         
        print 
         '{0} is not valid' 
        (number) 
       

@H_404_20@

输出，不带空格：

5 @H_404_20@

123 555 6789 is valid

 55 
         valid 
       

@H_404_20@

正则表达式是 python 的一个很好的功能，但是调试它们很艰难，而且正则表达式很容易就出错。

幸运的是，python 可以通过对 re.compile 或 re.match 设置 re.DEBUG (实际上就是整数 128) 标志就可以输出正则表达式的解析树。

23 @H_404_20@

'(1[-\s.])?' '($)?' '\d{3}' '(?(2)$)' '[-\s.]?' '\d{4}$' (number) @H_404_20@

解析树

24

25

26

27

28

@H_313_403@ 29

@H_404_20@

at_beginning

max_repeat  
        0 
         1 
       

   
        subpattern  
        1

literal  
        49 
       

in

45

category category_space 
       

46

2147483648

in

category category_space 
       

1

2

40

2147483648

in

category category_space 
       

3 
         3 
       

in

category category_digit 
       

2147483648

in

category category_space 
       

subpattern  
        None 
       

groupref_exists  
        2 
       

41

 
        None 
       

2147483648

in

category category_space 
       

1

in

45

category category_space 
       

46

2147483648

in

category category_space 
       

3

in

category category_digit 
       

2147483648

in

category category_space 
       

1

in

45

category category_space 
       

46

2147483648

in

category category_space 
       

4 
         4 
       

in

category category_digit 
       

at at_end 
       

2147483648

in

category category_space 
       

 valid 
       

 valid 
       

 valid 
       

 valid 
       

 valid 
       

@H_404_20@

贪婪和非贪婪

在我解释这个概念之前，我想先展示一个例子。我们要从一段 html 文本寻找锚标签：

7 @H_404_20@

html = 'Hello <a href="http://pypix.com" title="pypix">Pypix</a>'

m  
         re.findall( 
        '<a.*>.*<\/a>' 
         m: 
       

     
        print 
         m

@H_404_20@

结果将在意料之中：

['<a href="http://pypix.com" title="pypix">Pypix</a>'] @H_404_20@

我们改下输入，添加第二个锚标签：

8 @H_404_20@

'Hello <a href="http://pypix.com" title="pypix">Pypix</a>' \

        
        'Hello <a href="http://example.com" title"example">Example</a>' 
       

m:

m

@H_404_20@

结果看起来再次对了。但是不要上当了！如果我们在同一行遇到两个锚标签后，它将不再正确工作：

1 @H_404_20@

'<a href="http://pypix.com" title="pypix">Pypix</a>Hello <a href="http://example.com" title"example">Example</a>' ] @H_404_20@

这次模式匹配了第一个开标签和最后一个闭标签以及在它们之间的所有的内容，成了一个匹配而不是两个单独的匹配。这是因为默认的匹配模式是“贪婪的”。

当处于贪婪模式时，量词(比如 * 和 +)匹配尽可能多的字符。

当你加一个问号在后面时（.*?）它将变为“非贪婪的”。

'<a.*?>.*?<\/a>' m @H_404_20@

现在结果是正确的。

1 @H_404_20@

'<a href="http://example.com" title"example">Example</a>' ] @H_404_20@

前向界定符和后向界定符

一个前向界定符搜索当前的匹配之后搜索匹配。通过一个例子比较好解释一点。

下面的模式首先匹配 foo，然后检测是否接着匹配 bar：

11 @H_404_20@

strings [ "hello foo" # returns False

              
        "hello foobar"  
         ]     
        # returns True 
       

 string  
         strings: 
       

 re.search(r 
        'foo(?=bar)' 
         pattern: 
       

 'True' 
       

:

 'False' 
       

@H_404_20@

这看起来似乎没什么用，因为我们可以直接检测 foobar 不是更简单么。然而，它也可以用来前向否定界定。下面的例子匹配foo，当且仅当它的后面没有跟着 bar。

12 @H_404_20@

# returns True

"hello foobar" 
        # returns False 
       

"hello foobaz" 
        ]       
        # returns True 
       

 strings: 
       

'foo(?!bar)' 
         pattern: 
       

 'True' 
       

:

 'False' 
       

@H_404_20@

后向界定符类似，但是它查看当前匹配的前面的模式。你可以使用 (?> 来表示肯定界定，(?<! 表示否定界定。

下面的模式匹配一个不是跟在 foo 后面的 bar。

"hello bar""hello bazbar"'(?<!foo)bar' 'False' @H_404_20@

条件(IF-Then-Else)模式

正则表达式提供了条件检测的功能。格式如下：

(?(?=regex)then|else)

条件可以是一个数字。表示引用前面捕捉到的分组。

比如我们可以用这个正则表达式来检测打开和闭合的尖括号：

13 @H_404_20@

"<pypix>" # returns true

"<foo" 
        # returns false 
       

"bar>" 
        # returns false 
       

"hello" 
         ]      
        # returns true 
       

 strings: 
       

'^(<)?[a-z]+(?(1)>)$' 
         pattern: 
       

 'True' 
       

:

 'False' 
       

@H_404_20@

在上面的例子中，1 表示分组 (<)，当然也可以为空因为后面跟着一个问号。当且仅当条件成立时它才匹配关闭的尖括号。

条件也可以是界定符。

无捕获组

分组，由圆括号括起来，将会捕获到一个数组，然后在后面要用的时候可以被引用。但是我们也可以不捕获它们。

我们先看一个非常简单的例子：

string  
         'Hello foobar'          
       

'(f.*)(b.*)' 
         "f* => {0}" 
        (pattern.group( 
        1 
        ))  
        # prints f* => foo           
       

 "b* => {0}" 
        2 
        # prints b* => bar 
       

@H_404_20@

现在我们改动一点点，在前面加上另外一个分组 (H.*)：

'(H.*)(f.*)(b.*)'

 
        # prints f* => Hello

# prints b* => bar 
       

@H_404_20@

模式数组改变了，取决于我们在代码中怎么使用这些变量，这可能会使我们的脚本不能正常工作。现在我们不得不找到代码中每一处出现了模式数组的地方，然后相应地调整下标。如果我们真的对一个新添加的分组的内容没兴趣的话，我们可以使它“不被捕获”，就像这样：

'(?:H.*)(f.*)(b.*)'# prints b* => bar @H_404_20@

通过在分组的前面添加 ?:，我们就再也不用在模式数组中捕获它了。所以数组中其他的值也不需要移动。

命名组

像前面那个例子一样，这又是一个防止我们掉进陷阱的方法。我们实际上可以给分组命名，然后我们就可以通过名字来引用它们，而不再需要使用数组下标。格式是：(?Ppattern) 我们可以重写前面那个例子，就像这样：

'(?P<fstar>f.*)(?P<bstar>b.*)'(pattern.group('fstar''bstar'# prints b* => bar @H_404_20@

现在我们可以添加另外一个分组了，而不会影响模式数组里其他的已存在的组：

6 @H_404_20@

'(?P<hi>H.*)(?P<fstar>f.*)(?P<bstar>b.*)' # prints b* => bar

 "h* => {0}" 
        'hi' 
        # prints b* => Hello 
       

@H_404_20@

使用回调函数

在 Python 中 re.sub() 可以用来给正则表达式替换添加回调函数。

让我们来看看这个例子，这是一个 e-mail 模板：

22 @H_404_20@

template "Hello [first_name] [last_name],\

  
        Thank you  
         purchasing [product_name]  
        from 
         [store_name]. \           
       

The total cost of your purchase was [product_price] plus [ship_price]  
         shipping. \           
       

You can expect your product to arrive  
         [ship_days_min] to [ship_days_max] business days. \           
       

Sincerely,\           
       

[store_manager_name]"           
       

 
        # assume dic has all the replacement data           
       

# such as dic['first_name'] dic['product_price'] etc...           
       

dic  
         {           
       

  
        "first_name" 
         :  
        "John" 
        "last_name" 
        "Doe" 
        "product_name" 
        "iphone" 
        "store_name" 
        "Walkers" 
        "product_price" 
        :  
        "$500" 
        "ship_price" 
        "$10" 
       

@H_404_20@

高级正则表达式技术（Python版）

解析树

贪婪和非贪婪

前向界定符和后向界定符

条件(IF-Then-Else)模式

无捕获组

命名组

使用回调函数

猜你在找的正则表达式相关文章