频道导航

python – 刮削160.000页 – 太慢了

2019-06-08 Python 前端之家

前端之家收集整理的这篇文章主要介绍了python – 刮削160.000页 – 太慢了，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我有一个超过160.000网址的文件,其中我想要抓取一些信息.该脚本看起来大致如下：

htmlfile = urllib2.urlopen(line)
htmltext = htmlfile.read()
regexName = '"></a>(.+?)</dd><dt>'
patternName = re.compile(regexName)
name = re.findall(patternName,htmltext)
if name:
   text = name[0]
else:
   text = 'unknown'

nf.write(text)

哪个有效,但非常非常慢.刮掉所有160.000页需要四天多的时间.有什么建议可以加快速度吗？

解决方法

关于您的代码的一些建议：

编译正则表达式模式时,请确保还使用编译对象.并避免在每个处理循环中编译正则表达式.

pattern = re.compile('"></a>(.+?)</dd><dt>')
# ...
links = pattern.findall(html)

如果你想避免使用其他框架,那么最好的解决方案就是加速它,所以使用标准的线程库来获得并行的多个HTTP连接.

像这样的东西：

from Queue import Queue
from threading import Thread

import urllib2
import re

# Work queue where you push the URLs onto - size 100
url_queue = Queue(10)
pattern = re.compile('"></a>(.+?)</dd><dt>')

def worker():
    '''Gets the next url from the queue and processes it'''
    while True:
        url = url_queue.get()
        print url
        html = urllib2.urlopen(url).read()
        print html[:10]
        links = pattern.findall(html)
        if len(links) > 0:
            print links
        url_queue.task_done()

# Start a pool of 20 workers
for i in xrange(20):
     t = Thread(target=worker)
     t.daemon = True
     t.start()

# Change this to read your links and queue them for processing
for url in xrange(100):
    url_queue.put("http://www.ravn.co.uk")

# Block until everything is finished.
url_queue.join()

上一篇：python – 如何在行为环境设置期间下一篇：如何计算galois字段上的numpy数组？

猜你在找的Python相关文章

爬虫实战：探索XPath爬虫技巧之热榜新闻

在这篇文章中，我们深入学习了XPath作为一种常见的网络爬虫技巧。XPath是一种用于定位和选...

作者：努力的小雨时间：2024-09-28

谁说后端不能画出美丽的动图？让我来给大家拜个年！

祝福大家龙年快乐！愿你们的生活像龙一样充满力量和勇气，愿你们在新的一年里，追逐梦想，...

作者：努力的小雨时间：2024-09-28

爬虫实战：从网页到本地，如何轻松实现小说离线阅读

今天在爬虫实战中，除了正常爬取网页数据外，我们还添加了一个下载功能，主要任务是爬取小...

作者：努力的小雨时间：2024-09-28

爬虫实战+数据分析：全国消费支出分析及未来预测

完美收官，本文是爬虫实战的最后一章了，所以尽管本文着重呈现爬虫实战，但其中有一大部分...

作者：努力的小雨时间：2024-09-28

Java开发者的Python进修指南：JSON利器之官方json库、demjson和orjson的实用指南

JSON是一种流行的数据传输格式，Python中有多种处理JSON的方式。官方的json库是最常用的，...

作者：努力的小雨时间：2024-09-28

使用Python的turtle模块绘制美丽的樱花树

通过本文的学习和实践，我们掌握了使用Python的turtle模块来创作樱花树图画的技巧，这个过...

作者：努力的小雨时间：2024-09-28

利用大型语言模型轻松打造浪漫时刻

在这篇文章中，我们介绍了如何利用大型语言模型为情人节营造难忘的氛围。通过上传图片并进...

作者：努力的小雨时间：2024-09-28

成为一个合格程序员所必备的三种常见LeetCode排序算法

排序算法是一种通过特定的算法因式将一组或多组数据按照既定模式进行重新排序的方法。通过...

作者：努力的小雨时间：2024-09-28

5分钟上手Python爬虫：从干饭开始，轻松掌握技巧

本文的重点在于引导读者如何初步掌握爬虫技术。初步掌握爬虫技术并不难，但是在实际操作中...

作者：努力的小雨时间：2024-09-28

AI实用指南：5分钟搭建你自己的LLM聊天应用

本文介绍了如何快速搭建一个基于大型语言模型（LLM）的混元聊天应用。强调了开发速度的重要...

作者：努力的小雨时间：2024-09-28

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章