Node.js 抓取非 utf-8 的中文网页时会出现乱码问题,比如网易的首页编码是 gb2312,抓取时会出现乱码
代码如下:
request(url,function (err,res,body) { console.log(body) })
Node.js 抓取非 utf-8 的中文网页时会出现乱码问题,比如网易的首页编码是 gb2312,抓取时会出现乱码
request(url,function (err,res,body) { console.log(body) })
function request (url,callback) { var options = { url: url, encoding: null, headers: headers } originRequest(options,callback) }
request(url,body) { var html = iconv.decode(body,'gb2312') console.log(html) })
使用 cheerio 解析 HTML
可以简单粗暴的理解为服务器端 jQuery 选择器,有了它,比正则要更加直观许多
安装