从index.html当做检索出压缩文件,index.html的内容如下:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN"> <html> <head> <title>Index of /upload</title> </head> <body> <h1>Index of /upload</h1> <pre><img src="/icons/blank.gif" alt="Icon "> <a href="?C=N;O=D">Name</a> <a href="?C=M;O=A">Last modified</a> <a href="?C=S;O=A">Size</a> <a href="?C=D;O=A">Description</a><hr><img src="/icons/back.gif" alt="[DIR]"> <a href="/">Parent Directory</a> - <img src="/icons/compressed.gif" alt="[ ]"> <a href="1_1_1_1_1.zip">1_1_1_1_1.zip</a> 07-Nov-2013 15:52 759K <img src="/icons/compressed.gif" alt="[ ]"> <a href="1_1_1_1_2.zip">1_1_1_1_2.zip</a> 07-Nov-2013 16:03 9 <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674234677595346_3_3_181436811_0111150835187.zip">1279674234677595346_..></a> 07-Nov-2013 21:00 1.0M <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674265401997559_7_3_1030965592_0117012509343.zip">1279674265401997559_..></a> 07-Nov-2013 20:24 2.0M <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674275252213005_7_3_1030965592_0118190945525.zip">1279674275252213005_..></a> 07-Nov-2013 20:24 334K <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674292697185995_4_3_734548476_0121211618618.zip">1279674292697185995_..></a> 07-Nov-2013 20:16 1.2M <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674298189821853_3_3_181436811_0122202027734.zip">1279674298189821853_..></a> 07-Nov-2013 21:00 203K <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674302542548304_4_3_181436811_0123145115328.zip">1279674302542548304_..></a> 07-Nov-2013 21:00 532K <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674331922646891_3_3_181436811_0128192420515.zip">1279674331922646891_..></a> 07-Nov-2013 21:00 957K <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674345485590571_3_3_444841775_0131044824890.zip">1279674345485590571_..></a> 07-Nov-2013 22:39 1.9M <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674350300282889_3_3_444841775_0201011249812.zip">1279674350300282889_..></a> 07-Nov-2013 22:39 1.0M <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674368377750544_3_3_444841775_0204055039765.zip">1279674368377750544_..></a> 07-Nov-2013 22:39 935K <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674369237348345_4_3_444841775_0204093502812.zip">1279674369237348345_..></a> 07-Nov-2013 22:39 1.4M <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674371071589207_3_3_181436811_0204171710046.zip">1279674371071589207_..></a> 07-Nov-2013 21:00 289K <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674373192614298_4_3_444841775_0205022014437.zip">1279674373192614298_..></a> 07-Nov-2013 22:40 766K <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674388208598037_3_3_181436811_0207175739625.zip">1279674388208598037_..></a> 07-Nov-2013 21:00 1.6M <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674478893210303_3_3_519928496_0223182112703.zip">1279674478893210303_..></a> 07-Nov-2013 17:22 940K <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674491187345169_3_3_519928496_0225222551343.zip">1279674491187345169_..></a> 07-Nov-2013 17:23 1.1M <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674501312232180_7_3_181436811_0227171654734.zip">1279674501312232180_..></a> 07-Nov-2013 21:00 886K <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674512259105659_4_3_181436811_0301154059250.zip">1279674512259105659_..></a> 07-Nov-2013 21:09 493K <img src="/icons/compressed.gif" alt="[ ]"> <a href="1279674517655540421_3_3_2302048031_0302143133328.zip">1279674517655540421_..></a> 07-Nov-2013 19:30 223K <img src="/icons/image2.gif" alt="[IMG]"> <a href="CALL_OF_DUTY4_Black-Ops-Hi-Res-Wallpaper-04.jpg">CALL_OF_DUTY4_Black-..></a> 28-Jun-2012 19:03 337K <img src="/icons/unknown.gif" alt="[ ]"> <a href="VisualLint%ba%cdVC%bd%e1%ba%cf%ca%b9%d3%c3.docx">VisualLint和VC结合使..></a> 28-Jun-2012 19:07 57K <img src="/icons/p.gif" alt="[ ]"> <a href="grep.py">grep.py</a> 28-Jun-2012 19:05 1.6K <img src="/icons/unknown.gif" alt="[ ]"> <a href="PHPIJm743">PHPIJm743</a> 07-Nov-2013 23:10 332K <img src="/icons/unknown.gif" alt="[ ]"> <a href="PHPZgNHcu">PHPZgNHcu</a> 07-Nov-2013 23:10 84K <hr></pre> <address>Apache/2.0.63 (Unix) PHP/5.0.4 Server at 172.17.153.47 Port 8080</address> </body></html>
Python代码如下,通过正则表达式来检索:
# encoding: UTF-8
import re
pattern = re.compile(r'\d+\_\d+\_\d+\_\d+\_\d+\.zip')
fp = open("index.html",'rb');
filelist = [];
line = fp.readline();
while len(line) != 0:
line = line.decode('GBK')
match = pattern.search(line);
if match:
filelist.append(match.group());
line = fp.readline();
fp.close();
fout = open("out.txt",'w');
iRow = 0;
for i in filelist:
if iRow != 0:
fout.write("\r\n");
fout.write(i);
iRow += 1;
fout.close();
打包发布:
生成的exe使用 cxfreeze 来打包,打包命令如下:
D:\Python33\Scripts\cxfreeze RegWgt.py --install-dir=D:\Python33\PyWorkSpace\PyExample\RegWgt\Dist
参考文献:
1、http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 正则表达式
2、http://www.jb51.cc/article/p-multxuni-vb.htmlcxfreeze打包
3、http://www.cnblogs.com/zhengyuxin/articles/1938300.html python list 操作
原文链接:https://www.f2er.com/regex/362381.html