用正则表达式获取文件名和路径

一个文件中包括文件的路径和文件名，用正则表达式来分割路径和文件名

$WholePath = "/usr/lib/file.txt";
$leadPath = "";
$fileName = "";
if ($WholePath =~ m!^(.*)/([^/]*)$!) {

	#能够匹配 $1 和 $2都合法
	
	$leadPath = $1;
	$fileName = $2
} else {

	#无法匹配， 文件名中不含'/'
	$leadPath = ".";
	$fileName = $WholePath;
}

print "leadPath: ".$leadPath."\n";
print "fileName: ".$fileName."\n"

效果为：

leadPath: /usr/lib
fileName: file.txt

使用语言：perl

这里用了两个括号来匹配路径和文件名，perl是使用的传统的NFA（非确定有限自动机），讲一下原理;

NFA使用是深度搜索回溯的方法，所以在写正则表达式的时候，需要考虑的正则表达式的效率问题，

如前面的例子:

!^(.*)/([^/]*)$! ——这里使用叹号“!”是因为里面有斜杠"/"

在NFA中如： “ .* ” 这样的式子，有用点号"."可以匹配任意字符，所以两个字符的组合第一次直接把字符串给匹配完了

接着后面出现了一个斜杠，但此时已经匹配到末尾了，所以匹配会回溯，直到第一个斜杠，然后这里匹配成功，接着

是所有的非斜杠字符，那这当然是文件名了，然后匹配结束。

这里需要注意几点：

一，应该使用脱字符号"^"因为匹配重第一个字符开始，匹配到最后，如果变量$WholePath中没有斜杠，

匹配会一直回溯到第一个字符，此时匹配不成功，然而，因为没有脱字符，匹配会尝试重第二个字符

开始匹配，并回溯到第二个字符，然后是第三个....直到最后一个字符，这只是一个小的字符串，如果

是一个很长的文本，那么就会很费时了，所以，写正则的时候，应考虑到脱字符，这样加上后，当第一次

回溯到第一个字符时，就匹配失败了，这样时间就快了很多。

二，使用“.*”时，匹配是直接匹配的一行的结束，然后才回溯匹配的，一般来说深度搜索的效率比较低，所以

应该尽可能的减少多余的回溯

用正则表达式获取文件名和路径

猜你在找的正则表达式相关文章