下面我们只要过滤连接部份,代码如下:
正则:/(?<=href=)([^>]*)(?=>)/
(?<=exp) 匹配exp后面的位置
(?=exp) 匹配exp前面的位置
此正则匹配 在 href= 之后 “>” 之前 的 非 “>” 的所有字符
例子:<a href='www.PHPfensi.com'>,找到这些字符(url)用 # 替换,就可以去掉html里的所有链接,现在分享一个提取超级连接的实例,代码如下:
- function match_links($document) {
- preg_match_all("'<s*as.*?hrefs*=s*(["'])?(?(1)(.*?)1|([^s>]+))[^>]*>?(.*?)</a>'isx",$document,$links);
- while(list($key,$val) = each($links[2])) {
- if(!emptyempty($val))
- $match['link'][] = $val;
- }
- while(list($key,$val) = each($links[3])) {
- if(!emptyempty($val))
- $match['link'][] = $val;
- }
- while(list($key,$val) = each($links[4])) {
- if(!emptyempty($val))
- $match['content'][] = $val;
- }
- while(list($key,$val) = each($links[0])) {
- if(!emptyempty($val))
- $match['all'][] = $val;
- }
- return $match;
- }