正则表达式 “双向最小匹配”

前端之家收集整理的这篇文章主要介绍了正则表达式 “双向最小匹配”前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

最近做一个 字符串查找的例子从字符串中提取制定内容

如下:


  1. String input = " <a href=\" <a href=\"authentication.html?file=KF619L_Z.pdf\" class=\"icondrawing balloonbtn\"
  1. rel=\"shadowBox;width=720\">外観図面</a>";

需要提取 "authentication.html?file=KF619L_Z.pdf"

代码 如下:

  1. using System;
  2. using System.Collections.Generic;
  3. using System.Linq;
  4. using System.Text;
  5. using System.Text.RegularExpressions;
  6. using System.Threading.Tasks;
  7.  
  8. namespace regDemo
  9. {
  10. class Program
  11. {
  12. static void Main(string[] args)
  13. {
  14. String input = " <a href=\" <a href=\"authentication.html?file=KF619L_Z.pdf\" class=\"icondrawing balloonbtn\" rel=\"shadowBox;width=720\">外観図面</a>";
  15. Console.WriteLine(getCenterString(input,"href=\"","\" class="));
  16. Console.ReadKey();
  17.  
  18. }
  19.  
  20. public static String getCenterString(String input,String left,String right)
  21. {
  22.  
  23. Match match = Regex.Match(input,left + "(.+?)" + right);
  24. while (match.Success)
  25. {
  26. return match.Groups[1].Value;
  27. }
  28. return "";
  29. }
  30. }
  31. }

中间加了 ? 目的是 非贪婪匹配。

但是效果并不理想,效果如下:


按照最小匹配原则,原则上我们应该得到理想结果,但是却没有。

这是因为在正则的解释器中,对于最小匹配原则的理解为正向最小匹配,

而不是双向最小匹配。

左侧匹配后 定住左侧边界 直到找到右侧为止



我们换个思路:

中间包含在我们左侧的字符即可,


我们对代码进行改进:

  1. Match match = Regex.Match(input,left + "(((?!" + left + ").)+?)" + right);


得到了我们想要的结果:


补充:

零宽断言】

正则表达四一些字符可以匹配一句话的开始、结束(^ $)或者匹配一个单词的开始、结束(\b)。这些元字符只匹配一个位置,指定这个位置满足一定的条件,而不是匹配某些字符,因此,它们被成为零宽断言。所谓零宽,指的是它们不与任何字符相匹配,而匹配一个位置;所谓断言,指的是一个判断。正则表达式中只有当断言为真时才会继续进行匹配。

在有些时候,我们精确的匹配一个位置,而不仅仅是句子或者单词,这就需要我们自己写出断言来进行匹配。下面是断言的语法:

断言语法

说明

(?=pattern)

前向肯定断言,匹配pattern前面的位置

(?!pattern)

前向否定断言,匹配后面不是pattern的位置

(?<=pattern)

后向肯定断言,匹配pattern后面的位置

(?<!pattern)

后向否定断言,匹配前面不是pattern的位置


更多参考:http://www.cnblogs.com/youring2/archive/2009/11/07/1597786.html

猜你在找的正则表达式相关文章