一个简单的爬虫,两部分组成,下载html和解析html文档。我实现了一个爬取糗事百科的首页的笑话的网络爬虫,大家可以用来参考。
二、Python爬虫开发环境的搭建
开发环境:python2.7(win10-64)
开发IDE:pycharm最新版,就OK
使用到的工具包:setuptools,pip,chardet,certifi,idna,lxml,urllib3,requests,beautifulsoup,bs4所有用到的这些包我都打包放在了我的资源里,大家可以去下载,或者,直接在网上下载最新的python工具包。
三、pythonIDE的安装
使用pycharm进行python的项目,在网上很容易下载到,在注册的时候,可以使用关键字(pycharm,2017,注册码),给大家一个参考。
# coding=utf-8
import requests
from bs4 import BeautifulSoup
# 获取html文档
def get_html(url):
"""get the content of the url"""
response = requests.get(url)
response.encoding = 'utf-8'
return response.text
# 获取笑话
def get_certain_joke(html):
"""get the joke of the html"""
soup = BeautifulSoup(html,'lxml')
joke_content = soup.select('div.content')[0].get_text()
return joke_content
url_joke = "https://www.qiushibaike.com"
html = get_html(url_joke)
joke_content = get_certain_joke(html)
print joke_content
原文链接:https://www.f2er.com/python/526796.html