源地址:http://www.crifan.com/files/doc/docbook/rec_soft_npp/release/htmls/npp_func_regex_replace.html
3.4.Notepad++的正则表达式替换和替换
对于替换功能,一般的文本编辑器,都具有此功能,但是对于高级的正则表达式替换,则很多都不支持。而此处Notepad++支持此功能。
正则表达式的替换,在很长一段时间内,我都没有用到过。而后来有此需求的时候,由于不熟悉,导致也没去折腾具体如何使用的。
后来有空去弄了下,终于搞懂了。对此类功能不了解的人,会没啥感觉,但是看了下面的介绍,你就会发现这类功能的强大之处。
例3.2.Notepad++正则表达式替换举例1:一次性替换多个文件的后缀
<informalfigure> <mediaobject> <imageobject role="html"><imagedata fileref="images/env_var/win/right_click_then_property.jpg" align="left" scalefit="0" width="100%"/></imageobject> <imageobject role="fo"><imagedata fileref="images/env_var/win/right_click_then_property.jpg" align="center" scalefit="1" width="100%"/></imageobject> </mediaobject> </informalfigure> ...... <informalfigure> <mediaobject> <imageobject role="html"><imagedata fileref="images/env_var/win/advance_enviroment.jpg" align="left" scalefit="0" width="100%"/></imageobject> <imageobject role="fo"><imagedata fileref="images/env_var/win/advance_enviroment.jpg" align="center" scalefit="1" width="100%"/></imageobject> </mediaobject> </informalfigure>
其中images/env_var/win/xxx.jpg出现的次数,有好几十处。
此处需要把images/env_var/win/xxx.jpg,全部替换为images/env_var/win/xxx.png,即替换文件的后缀。
但是呢,如果手动改的话,改动量很大,效率很低,所以要尽量避免手动改。
另外,此处也不能通过全局的那个替换功能,因为全局替换只适用于固定的文字xxx替换为yyy,而此处文件名都不一样,所以无法实现统一的替换。
此时,才会考虑用Notepad++的正则表达式替换,去实现复杂的,非规则性的替换功能。
而对于正则表达式的替换,最开始,由于不了解其语法,错写成:
查找目标 :
images/env_var/win/\w+\.jpg
替换为(P):
images/env_var/win/\w+\.png
则替换结果是错的,原来的文件名都被替换为w+这两个字符了:
<informalfigure> <mediaobject> <imageobject role="html"><imagedata fileref="images/env_var/win/w+.png" align="left" scalefit="0" width="100%"/></imageobject> <imageobject role="fo"><imagedata fileref="images/env_var/win/w+.png" align="center" scalefit="1" width="100%"/></imageobject> </mediaobject> </informalfigure> ...... <informalfigure> <mediaobject> <imageobject role="html"><imagedata fileref="images/env_var/win/w+.png" align="left" scalefit="0" width="100%"/></imageobject> <imageobject role="fo"><imagedata fileref="images/env_var/win/w+.png" align="center" scalefit="1" width="100%"/></imageobject> </mediaobject> </informalfigure>
后来,参考了[10]
然后得知是用反斜杠,加上数字,实现向后引用(back reference)。
Notepad++的正则表达式的语法 | |
---|---|
不过后来也找到了其他更专业和全面的解释:[11]
|
注意 | |
---|---|
之前就知道Notepad++底层是使用SciTE的库的,也顺便找到了SciTE的关于正则表达式的解释[12] 不过其中关于backreference的解释很不清楚。 |
最后写出正确的语法:
查找目标 :
images/env_var/win/(\w+)\.jpg
替换为(P):
images/env_var/win/\1\.png
可以成功替换为:
<informalfigure> <mediaobject> <imageobject role="html"><imagedata fileref="images/env_var/win/right_click_then_property.png" align="left" scalefit="0" width="100%"/></imageobject> <imageobject role="fo"><imagedata fileref="images/env_var/win/right_click_then_property.png" align="center" scalefit="1" width="100%"/></imageobject> </mediaobject> </informalfigure> ...... <informalfigure> <mediaobject> <imageobject role="html"><imagedata fileref="images/env_var/win/advance_enviroment.png" align="left" scalefit="0" width="100%"/></imageobject> <imageobject role="fo"><imagedata fileref="images/env_var/win/advance_enviroment.png" align="center" scalefit="1" width="100%"/></imageobject> </mediaobject> </informalfigure>
如此,如果有类似需要,想要实现批量的,非规则性的替换,就可以好好利用Notepad++中的正则表达式去替换了。
例3.4.Notepad++正则表达式替换举例3:一次性替换多个listitem为sect4
又比如,在docbook中,想要把原先的listitem部分的内容,都替换为sect4:
并且也注意到,其中除了上层的listitem,其内部还有一些特殊的子listitem:
需要在替换的时候,考虑到此点,不要将子listitem也替换掉了。
然后就是去想办法,写对应的正则表达式。
此时,注意到每个要替换的listitem的标题部分之后,是有回车和换行的,所以参考第3.10节 “Notepad++支持显示回车符,换行符,TAB键,行首,行尾等特殊字符”去"显示所有字符":
这样就清楚,到底包含哪些字符,方便我们接下来去写正则表达式了。
经过折腾,用如下的正则表达式:
<listitem>(.+?)\r\n(.+?)\r\n\s+</listitem>\r\n
<sect4 xml:id="npp_"><title>\1</title>\r\n\2\r\n </sect4>\r\n
将原先内容:
替换为:
可以看到,成功替换了10个。
对应的,也可以看到,对于那些特殊的子listitem来说,也没有被替换掉:
如此,就可以避免了手动的去一点点的修改了。
例3.5.Notepad++正则表达式替换举例4:给每一行都添加AddIcon的前缀
例3.6.Notepad++正则表达式替换举例5:给book的标题和地址添加HTML代码
又比如,对于原先是这样的代码:
即,有很多组,每组分别是标题和地址。
而想要做的事情是,把对应的标题和地址,以及其中缩写,都提取出来,并且添加相关的HTML代码。
最后经过参考:[11]
而写出了相应的正则表达式:
(?<bookTitle>.+?)\r\n(?<wholeUrl>http://www\.crifan\.com/files/doc/docbook/(?<bookAbbrv>\w+)/release/html/(?&bookAbbrv)\.html)
<tr><td><a href="$+{wholeUrl}">$+{bookTitle}</a></td><td><a href="http://www.crifan.com/bbs/categories/$+{bookAbbrv}">$+{bookTitle}</td></tr>
然后就可以成功实现28处的替换,替换出来的效果为:
<table border="1" cellspacing="0" cellpadding="0"> <tbody> <tr><td><strong>单个Book</strong></td><td><strong>对应的讨论区</strong></td></tr>
和尾部的:
</tbody> </table>
最终就可以实现需要显示出来的完整的表格信息了:
则又一次地,极大地提高了工作效率。否则要一个个的复制和粘贴,累死了不说,也还容易出错。
例3.7.Notepad++正则表达式替换举例6:查找单个的CR或LF