频道导航

Scrapy玩爬虫的肯定都知道！那么他多牛逼？你知道吗？

2019-01-03 Python 前端之家

前端之家收集整理的这篇文章主要介绍了Scrapy玩爬虫的肯定都知道！那么他多牛逼？你知道吗？，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

前言

这个文章的技术含量并不高，旨在练习scrapy框架的基本用法，熟悉框架下各个文件的作用。

先上一波爬取结果：

进群：125240963 即可获取数十套PDF哦！

Scrapy玩爬虫的肯定都知道！那么他多牛逼？你知道吗？

日志部分截图

Scrapy玩爬虫的肯定都知道！那么他多牛逼？你知道吗？

数据库部分截图

实战

引入类库

import scrapy

from urllib import parse

from pymongo import MongoClient

创建项目

#有虚拟环境的可以先切换到对应的虚拟环境下

#创建scrapy项目

scrapy startproject hrspider

#创建scrapy爬虫

scrapy genspider hr https://hr.tencent.com/position.PHP

分析页面，编写代码

Scrapy玩爬虫的肯定都知道！那么他多牛逼？你知道吗？

分析请求页面

根据上面的分析我们可以很方便的得到下面的代码：

class HrspiderSpider(scrapy.Spider):

name = 'hrspider'

allowed_domains = ['tencent.com']

start_urls = ['https://hr.tencent.com/position.PHP']

def parse(self,response):

pass

查看页面上我们需要提取的元素，编写对应的xpath路径便于提取数据。代码如下：

def parse(self,response):

tr_list = response.xpath("//table[@class='tablelist']/tr")[1:-1]

for tr in tr_list:

item = TencenthrItem()

item["title"] = tr.xpath("./td[1]/a/text()").extract_first()

item["position"] = tr.xpath("./td[2]/text()").extract_first()

item["num"] = tr.xpath("./td[3]/text()").extract_first()

item["location"] = tr.xpath("./td[4]/text()").extract_first()

item["publish_date"] = tr.xpath("./td[5]/text()").extract_first()

url = tr.xpath("./td[1]/a/@href").extract_first()

item["detail_url"] = parse.urljoin(response.url,url)

print(item)

成功提取单个页面的元素之后，我们需要不断获取下一页的地址，以便于获取全部的数据，页面分析如下：

Scrapy玩爬虫的肯定都知道！那么他多牛逼？你知道吗？

翻页分析

根据上图的分析逻辑，我们可以得到完善parse方法的代码：

def parse(self,url)

print(item)

yield scrapy.Request(

item["detail_url"],

callback=self.parse_detail,

Meta={"item": item}

)

next_url = response.xpath("//a[@id='next']/@href").extract_first()

if next_url != "javascript:;":

next_url = "http://hr.tencent.com/" +next_url

print(next_url)

yield scrapy.Request(

next_url,

callback=self.parse

)

接下来获取详情页的岗位职责和要求，同样我们分析详情页面，如下：

Scrapy玩爬虫的肯定都知道！那么他多牛逼？你知道吗？

详情页分析

我们可以很直接就能找到我们需要的信息，只需要编写对应的xpath，所以获取详情页的代码如下：

# 处理详情页

def parse_detail(self,response):

item = response.Meta["item"]

job_intrs = response.xpath("//table[@class='tablelist textl']/tr[3]/td/ul/li/text()").extract()

if job_intrs:

item["job_intr"] = ",".join(job_intrs)

else:

item["job_intr"] ="无"

job_resps = response.xpath("//table[@class='tablelist textl']/tr[4]/td/ul/li/text()").extract()

if job_resps:

item["job_resp"] = ",".join(job_resps)

else:

item["job_resp"] = "无"

print(item)

yield item

到这里，我们就已经基本完成了这个网站的爬取，同时为了完成对数据的存储，我们需要在pipline.py中编写相关的数据库存储代码：

client = MongoClient()

collection = client["tencent"]["hr"]

class TencenthrPipeline(object):

def process_item(self,item,spider):

if isinstance(item,TencenthrItem):

print(item)

collection.insert(dict(item))

return item

总结

什么时候需要构建多个piplines?

同一项目中有多个爬虫
数据需要进行不同的处理

在scrapy项目中如何构造请求？

使用scrapy.Request()方法，其中常用参数有三个：

callback：表示当前请求的url响应交给哪个函数处理
Meta：实现不同解析函数之间传递数据
dont_filter：scrapy默认会过滤URL地址即请求过的地址不会再请求，对于url响应会变的请求，可以使用该参数反复抓取该地址。

为什么要定义item?

能明确爬取内容，需要爬取的字段清晰明了。
避免出现变量名写错的低级错误

如何使用scrapy shell?

#切换到项目目录下

scrapy shell [URL地址]

#默认进入python交互环境，安装Ipython的情况下默认进入Ipython

#可以在命令行环境下测试xpath的有效性

response.xpath('xxxxxx')

如何在pycharm中调试运行scrapy项目？

在项目下新建main.py文件，在文件中输入以下代码，即可

from scrapy.cmdline import execute

import sys

import os

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

execute(['scrapy','crawl','hrspider'])

注意：这段代码的含义和我们在cmd窗口下输入的结果是相同的，我们这里不过使用的是scrapy.cmdline中的execute将我们要输入带cmd中的命令在这里拼接到一起而已。

上一篇：室友单身二十年！我用Python给他找下一篇：利用Python爬取几百万github数据！

猜你在找的Python相关文章

爬虫实战：探索XPath爬虫技巧之热榜新闻

在这篇文章中，我们深入学习了XPath作为一种常见的网络爬虫技巧。XPath是一种用于定位和选...

作者：努力的小雨时间：2024-09-28

谁说后端不能画出美丽的动图？让我来给大家拜个年！

祝福大家龙年快乐！愿你们的生活像龙一样充满力量和勇气，愿你们在新的一年里，追逐梦想，...

作者：努力的小雨时间：2024-09-28

爬虫实战：从网页到本地，如何轻松实现小说离线阅读

今天在爬虫实战中，除了正常爬取网页数据外，我们还添加了一个下载功能，主要任务是爬取小...

作者：努力的小雨时间：2024-09-28

爬虫实战+数据分析：全国消费支出分析及未来预测

完美收官，本文是爬虫实战的最后一章了，所以尽管本文着重呈现爬虫实战，但其中有一大部分...

作者：努力的小雨时间：2024-09-28

Java开发者的Python进修指南：JSON利器之官方json库、demjson和orjson的实用指南

JSON是一种流行的数据传输格式，Python中有多种处理JSON的方式。官方的json库是最常用的，...

作者：努力的小雨时间：2024-09-28

使用Python的turtle模块绘制美丽的樱花树

通过本文的学习和实践，我们掌握了使用Python的turtle模块来创作樱花树图画的技巧，这个过...

作者：努力的小雨时间：2024-09-28

利用大型语言模型轻松打造浪漫时刻

在这篇文章中，我们介绍了如何利用大型语言模型为情人节营造难忘的氛围。通过上传图片并进...

作者：努力的小雨时间：2024-09-28

成为一个合格程序员所必备的三种常见LeetCode排序算法

排序算法是一种通过特定的算法因式将一组或多组数据按照既定模式进行重新排序的方法。通过...

作者：努力的小雨时间：2024-09-28

5分钟上手Python爬虫：从干饭开始，轻松掌握技巧

本文的重点在于引导读者如何初步掌握爬虫技术。初步掌握爬虫技术并不难，但是在实际操作中...

作者：努力的小雨时间：2024-09-28

AI实用指南：5分钟搭建你自己的LLM聊天应用

本文介绍了如何快速搭建一个基于大型语言模型（LLM）的混元聊天应用。强调了开发速度的重要...

作者：努力的小雨时间：2024-09-28

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章