正则表达式 “双向最小匹配”

最近做一个字符串查找的例子从字符串中提取制定内容

如下：

  String input = " <a  href=\" <a  href=\"authentication.html?file=KF619L_Z.pdf\" class=\"icondrawing balloonbtn\"

   rel=\"shadowBox;width=720\">外観図面</a>";

需要提取 "authentication.html?file=KF619L_Z.pdf"

代码如下：

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading.Tasks;

namespace regDemo
{
    class Program
    {
        static void Main(string[] args)
        {
            String input = " <a  href=\" <a  href=\"authentication.html?file=KF619L_Z.pdf\" class=\"icondrawing balloonbtn\"  rel=\"shadowBox;width=720\">外観図面</a>";
            Console.WriteLine(getCenterString(input,"href=\"","\" class="));
            Console.ReadKey();

        }

        public static String getCenterString(String input,String left,String right)
        {

            Match match = Regex.Match(input,left + "(.+?)" + right);
            while (match.Success)
            {
                return match.Groups[1].Value;
            }
            return "";  
        }
    }
}

中间加了 ? 目的是非贪婪匹配。

但是效果并不理想，效果如下：

按照最小匹配原则，原则上我们应该得到理想结果，但是却没有。

这是因为在正则的解释器中，对于最小匹配原则的理解为正向最小匹配，

而不是双向最小匹配。

左侧匹配后定住左侧边界直到找到右侧为止

我们换个思路：

中间包含在我们左侧的字符即可，

我们对代码进行改进:

 Match match = Regex.Match(input,left + "(((?!" + left + ").)+?)" + right);

得到了我们想要的结果：

补充：

【零宽断言】

正则表达四一些字符可以匹配一句话的开始、结束（^ $）或者匹配一个单词的开始、结束（\b）。这些元字符只匹配一个位置，指定这个位置满足一定的条件，而不是匹配某些字符，因此，它们被成为零宽断言。所谓零宽，指的是它们不与任何字符相匹配，而匹配一个位置；所谓断言，指的是一个判断。正则表达式中只有当断言为真时才会继续进行匹配。

在有些时候，我们精确的匹配一个位置，而不仅仅是句子或者单词，这就需要我们自己写出断言来进行匹配。下面是断言的语法：

断言语法	说明
(?=pattern)	前向肯定断言，匹配pattern前面的位置
(?!pattern)	前向否定断言，匹配后面不是pattern的位置
(?<=pattern)	后向肯定断言，匹配pattern后面的位置
(?<!pattern)	后向否定断言，匹配前面不是pattern的位置

更多参考：http://www.cnblogs.com/youring2/archive/2009/11/07/1597786.html

正则表达式 “双向最小匹配”

猜你在找的正则表达式相关文章