频道导航

Node.js抓取中文网页乱码问题和解决方法

2018-12-31 JavaScript 前端之家

前端之家收集整理的这篇文章主要介绍了Node.js抓取中文网页乱码问题和解决方法，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

Node.js 抓取非 utf-8 的中文网页时会出现乱码问题，比如网易的首页编码是 gb2312，抓取时会出现乱码

代码如下:

request(url,function (err,res,body) { console.log(body) })

可以使用 @L_404_1@ 代码如下:

同时我们顺带把 user-agent 修改一下，以防网站屏蔽：

代码如下:

function request (url,callback) { var options = { url: url, encoding: null, headers: headers } originRequest(options,callback) }

request(url,body) { var html = iconv.decode(body,'gb2312') console.log(html) })

乱码问题解决

使用 cheerio 解析 HTML

可以简单粗暴的理解为服务器端 jQuery 选择器，有了它，比正则要更加直观许多

安装

代码如下:

输出如下

代码如下:

那么问题来了，$('h1').html() 输出的代码是经过 Unicode 编码的，网易变成了网易，给我们的字符处理带来了一些麻烦

解决 cheerio .html() 「乱码」问题

查阅可知，可以关闭这个转换实体编码的功能

代码如下:

改成

代码如下:

即可，完整代码如下：

代码如下:

var url = 'http://www.163.com'

request(url,'gb2312') var $ = cheerio.load(html,{decodeEntities: false}) console.log($('h1').text()) console.log($('h1').html()) })

Node.js 乱码问题抓取中文网页解决方法

上一篇：JS数组的常见用法实例下一篇：Node.js node-schedule定时任务隔多

猜你在找的JavaScript相关文章

Javascript中的事件冒泡与捕获

事件冒泡和事件捕获起因：今天在封装一个bind函数的时候，发现el.addEventListener函数支...

作者：前端之家时间：2021-02-22

搞懂js中小数运算精度问题原因及解决办法

js小数运算会出现精度问题 js number类型 JS 数字类型只有number类型，number类型相当于其...

作者：前端之家时间：2021-02-22

搞懂：前端跨域问题JS解决跨域问题VUE代理解决跨域问题原理

什么是跨域跨域：广义的跨域包含一下内容： 1.资源跳转（链接跳转，重定向跳转，表单提...

作者：前端之家时间：2021-02-22

前端对base64编码的理解，原生js实现字符base64编码

@ "TOC" 常见对base64的认知(不完全正确) 首先对base64常见的认知，也是...

作者：前端之家时间：2021-02-22

搞懂：MVVM模型以及VUE中的数据绑定数据劫持发布订阅模式

搞懂：MVVM模式和Vue中的MVVM模式 MVVM MVVM ：的缩写，说都能直接说出来：模型，：视图...

作者：前端之家时间：2021-02-22

js判断浏览器是否支持webGL

起因是我之前开发的网页，用到了three.js制作了一个3d的旋转球体效果。在各种浏览器上运行...

作者：前端之家时间：2021-02-14

js判断undefined和null

js判断undefined js判断null js判断null和undefined

作者：前端之家时间：2021-02-14

将文字自动转为banner打印形式的工具

http://patorjk.com/software/taag/

作者：前端之家时间：2021-02-14

聊一聊 bootstrap 的轮播图插件

今天做工作的时候，轻车熟路的做完，又用到了bootstrap的轮播图，觉得有必要安利一下这个插...

作者：前端之家时间：2021-02-14

js实现图片无缝循环跑马灯

html 代码 css js代码 function mylsRunHorseLight() { if (mylsTimer != null) { clearIn...

作者：前端之家时间：2021-02-14