频道导航

正则表达式处理html实例（Perl实现）

2020-06-17 正则表达式前端之家

前端之家收集整理的这篇文章主要介绍了正则表达式处理html实例（Perl实现），前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

1.Html中Tag提取

<("[^"]*"|'[^']*'|[^'">])*>

2.提取<a></a>标签中的url和链接文本

while ($Html =~ m{a\b([^>]+)>(.*?)</a>}ig)
{
	my $Guts = $1;
	my $Link = $2;
	if ($Guts =~ m{
				\b HREF	#href属性
				\s* = \s*	#两头可能出现空白符
				(?:			#其值为
				"([^"]*)"	#双引号字符串
				|
				'([^']*)'	#单引号字符串
				|
				([^'">\s]+)	#或者是其他文本
				)
				}xi)
		{
			my $Url = $+;
			print "$Url with link text: $Link\n";
		}
}

3.校验HTTP URL

把它分解为主机名(hostname)和路径(path)两部分。

主机名是「^http://」之后到第一个/(如果有）之间的内容，路径就是除此之外的内容

「^http://([^/]+)(/.*)?$」

if ($url =~ m{^http://([^/:]+)(:(\d+))?(/.*)?$}i)
{
	my $host = $1;
	my $port = $3 || 80;   #如果存在就使用$3,否则默认为80
	my $path = $4 || "/";  #如果存在就使用$4，否则默认为”/“
	print "Host: $host\n";
	print "Port: $port\n";
	print "Path: $path\n";
}	else	{
	print "Not an HTTP URL\n";
}

4.从纯文本中查找URL的框架，可以在其中添加匹配主机名的子表达式

\b
(
	(ftp|https?)://[-\w]+(\.\w[-\w]*)+
	|
	(?i: [a-z0-9] (?:[-a-z0-9]*[a-z0-9])? \. )+

	(?-i: com\b
		| edu\b
		| biz\b
		| gov\b
		| in(?:t|fo)\b
		| mil\b
		| net\b
		| org\b
		| [a-z][a-z]\b
	)
)
( : \d+ )?
(
	/
	[^.!,?;"'<>()\[\]{}\s\x7F-\xFF]*
	(?:
		[.!,?]+ [^.!,?;"'<>()\[\]()\s\x7F-\xFF]+
	)+
)?

来自《精通正则表达式》

上一篇：正则表达式（？的用法下一篇：记录易语言正则获取ip

猜你在找的正则表达式相关文章

常用正则表达式-手机号、身份证、邮箱

一、校验数字的表达式 1 数字：^[0-9]*$ 2 n位的数字：^d{n}$ 3 至少n位的数字：^d{n,}$ 4...

作者：前端之家时间：2021-01-10

JS正则表达式详解

正则表达式非常有用，查找、匹配、处理字符串、替换和转换字符串，输入输出等。下面整理一...

作者：前端之家时间：2020-12-29

组内正则培训记录

0. 注：不同语言中的正则表达式实现都会有一些不同。下文中的代码示例除特别说明的外，都...

作者：前端之家时间：2020-12-20

高级正则表达式技术（Python版）

正则表达式是从信息中搜索特定的模式的一把瑞士军刀。它们是一个巨大的工具库，其中的...

作者：前端之家时间：2020-07-22

史上最全最常用的正则表达式

一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,...

作者：前端之家时间：2020-07-22

正则表达式工具

作者：前端之家时间：2020-07-22

正则表达式初步

作者：前端之家时间：2020-07-22

分享5个可视化的正则表达式编辑工具

　　正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编...

作者：前端之家时间：2020-07-22

分享5个可视化的正则表达式编辑工具

正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器...

作者：前端之家时间：2020-07-22

[知识积累]--正则表达式记忆表

在工作中常常遇到正则表达式问题，有时候又会忘记这则的语法。下面就分享一份正则表达式记...

作者：前端之家时间：2020-07-22

编程分类

算法设计模式多媒体技术正则表达式 Elasticsearch Flink Hadoop IDE

最新文章