构建匹配分层数据的单个正则表达式是否可行/实用?
例如:
<h1>Action</h1> <h2>Title1</h2><div>data1</div> <h2>Title2</h2><div>data2</div> <h1>Adventure</h1> <h2>Title3</h2><div>data3</div>
我想最终得到比赛.
"Action","Title1","data1" "Action","Title2","data2" "Adventure","Title3","data3"
我认为这需要知道这里有一个层次结构,如果我编码模式来捕获H1,它只匹配该层次结构的第一个条目.如果我不为H1编码那么我就无法捕获它.想知道我是否有任何特殊的技巧来解决这个问题.
这是一个.NET项目.
解决方法
解决方案是不使用正则表达式.他们对这种事情不够强大.
你想要的是一个解析器 – 因为看起来你正在尝试匹配HTML,有很多可供选择.