频道导航

xpath与正则表达式抽取网页信息的速度比较

2020-06-20 正则表达式前端之家

前端之家收集整理的这篇文章主要介绍了xpath与正则表达式抽取网页信息的速度比较，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

以前我都是用正则表达式处理网页，对于那种非常不是经常改代码的网站，正则提取是非常好的

但对于经常改代码的网站，写一个好的正则表达式确实有点费事，用xpath就比较好，但写了脚本之后发现比以前慢一些，于是写了一个小程序测试一下速度

随便将一个百度搜索结果页另存为S:\baidu.htm，取title标签中的字符串

#coding=utf-8
import time
import re
import time
import lxml.html
f=open(r'S:\baidu.htm','r')
resp=f.read()
f.close()
t1=time.clock()
for x in xrange(1000):
    title=re.search(r'<title>(.*?)</title>',resp).group(1)
print time.clock()-t1
content=resp.decode('utf-8')
dom=lxml.html.document_fromstring(content)
t2=time.clock()
for x in xrange(1000):
    for item in dom.xpath('//title'):
        title=item.text_content()
print time.clock()-t2
from lxml import etree
doc = etree.HTML(content)
t3=time.clock()
for x in xrange(1000):
    for path in doc.xpath('//title'):
         title=path.text
print time.clock()-t3
from pyquery import PyQuery
page = PyQuery(content,parser='html')
t4=time.clock()
for x in xrange(1000):
    title=page('title').text()
print time.clock()-t4

结果如下

0.00576198176985

0.0840350097817

0.0778033702951

0.133525497136

确实正则很快，是其他方案的10倍以上，如果编译一下速度可能更快，pyquery最慢，中间是用lxml提取的，如果有不对的地方，希望大家指正.

上一篇：\D 和[^\d.]的区别下一篇：在emeditor中用正则将小写字母转换

猜你在找的正则表达式相关文章

常用正则表达式-手机号、身份证、邮箱

一、校验数字的表达式 1 数字：^[0-9]*$ 2 n位的数字：^d{n}$ 3 至少n位的数字：^d{n,}$ 4...

作者：前端之家时间：2021-01-10

JS正则表达式详解

正则表达式非常有用，查找、匹配、处理字符串、替换和转换字符串，输入输出等。下面整理一...

作者：前端之家时间：2020-12-29

组内正则培训记录

0. 注：不同语言中的正则表达式实现都会有一些不同。下文中的代码示例除特别说明的外，都...

作者：前端之家时间：2020-12-20

高级正则表达式技术（Python版）

正则表达式是从信息中搜索特定的模式的一把瑞士军刀。它们是一个巨大的工具库，其中的...

作者：前端之家时间：2020-07-22

史上最全最常用的正则表达式

一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,...

作者：前端之家时间：2020-07-22

正则表达式工具

作者：前端之家时间：2020-07-22

正则表达式初步

作者：前端之家时间：2020-07-22

分享5个可视化的正则表达式编辑工具

　　正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编...

作者：前端之家时间：2020-07-22

分享5个可视化的正则表达式编辑工具

正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器...

作者：前端之家时间：2020-07-22

[知识积累]--正则表达式记忆表

在工作中常常遇到正则表达式问题，有时候又会忘记这则的语法。下面就分享一份正则表达式记...

作者：前端之家时间：2020-07-22

编程分类

算法设计模式多媒体技术正则表达式 Elasticsearch Flink Hadoop IDE

最新文章