关于python网页爬虫编码错误

前端之家收集整理的这篇文章主要介绍了关于python网页爬虫编码错误前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

<table class="python"><tr class="li1">
<td class="ln"><pre class="de1">1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35

解决编码问题,特意从换成了,因为都是python3的编码不错。   在用..获取到网页内容并且read.提示:   utf-t decode byte position : illegal multibyte sequence 然后尝试修改代码文本的编码,错误依旧存在。   最后google错误在一个网站上看到,说有可能是因为网站压缩,read到的数据可能是压缩后的页面,所以在转码的时候有些内容无法被转成utf8的编码。这个说法很有可能,于是尝试了一下。   response ..url response.. 得到的结构是,看来果然是压缩了。只能用Gzip模块解压了,直接上处理的结果:   io Test:       :         . :       getIndexPageindex:         indexPage index         response ..urlindexPageheaders.         content ..response         获取到网页内容之后先不转码         content.                 content.. :             outdata io.             gf .fileobjoutdatamode             gf..         :                     outdata .         outdata

猜你在找的程序笔记相关文章