很多时候,我们需要对一些大文本进行处理,比如查找、替换等等。然而,在更多时候,对于我们要替换的对象只有若干印象描述,比如知道它前面是什么鬼,后面是什么鬼,或者自己是由某些字母组成,不能精确地把它拼写出来,这时,就要用到正则表达式。
我们看保研论坛夏令营2016理科汇总贴,链接。
我们想找到所有数学专业同学能报的夏令营,借助网站自带的find功能,略显分散,每一都要一个一个看,不利于保存之余,手机上也不能看。
这时,我想用txt将所有数学专业同学能报的夏令营包括它的链接保存下来。不用python,这次改用notepad++的录制宏功能。
- 右键点击,网页另存为。
- 用natepad++打开保存下来的网页。我们看看这个凌乱的源代码。
- ctrl+F打开搜索界面。选择“标记”标签页。打勾“正则表达式“、”标记所在行“、“清除上次标记”。
查找全部
^.*?([0-9]+\.).*?href="(.*?)".*?>(.*?数.*?)<.*?$
- 替换以上目标为
\1\3\n\2\n\n\n
<.*?>
替换为空白,大功告成。
我们可以录制成宏,以便下次内容更新后,点击直接生成;保存后用记事本打开有可能空格和换行没了,只要在notepad++中双击修改状态栏中的某一项就行了,比如说unix转换为windows格式。