我们可以经常见到一些后端语言的爬虫,既然Node已经使JS脱离浏览器了,何不用Node来写个爬虫呢?
实现爬取数据功能
要实现简单的爬虫,我们需要引入node的http模块,使用对应的get方法。我们以爬取百度首页为例子,实现如下:
var http = require('http'); var req = http.get('http://www.baidu.com',function(res) { var html = ''; res.on('data',function(chunk) { html += chunk; }); res.on('end',function() { console.log(html); }); });
此时,用node命令运行js文件,我们可以在命令提示符中看到一连串的代码,其实这是百度首页的代码。这样的话,一个很简单的爬取数据的功能就实现了。
解析数据
我们虽然可以爬取到数据了,但是由于各种有用的、无用的数据杂合在一起,很不容易分析。所以我们现在要解析数据,活得我们真正感兴趣的内容。
首先,我们通过npm安装cheerio(cheerio是node的抓取页面的模块,由于他包括了 jQuery 核心的子集,用法十分的简单,可以像jQuery一样操作DOM),
npm install cheerio --save
res.on('end',function() { $ = cheerio.load(html); // 将HTML DOM传给cheerio console.log($('#lg > img').attr('src')); });
这样的话,我们可以得到百度首页上,id是lg、img子元素的src路径。实际上,这是百度首页的log的路径。是不是发现,cheerio很容易使用呢。
下载资源
我们可以从爬取的数据中解析出img的路径,那么下载就不成问题了吧?为了进行写操作,我们引入了fs模块。
var http = require('http'); var fs = require("fs"); var cheerio = require('cheerio'); var req = http.get('http://www.baidu.com',function() { $ = cheerio.load(html); var oImg = $('img'),length = oImg.length; for (var i = 0; i < length; ++i) { getPic(oImg.eq(i).attr('src'),'pic/' + i + '.png'); console.log(oImg.eq(i).attr('src')); // 打印img路径,注1. } }); }); // 下载图片函数 function getPic(url,local) { http.get(url,function(res) { var img = ''; res.setEncoding("binary"); // 必须设置response的编码为binary,否则下载下来的图片会打不开 res.on('data',function(chunk) { img += chunk; }); res.on('end',function() { fs.writeFile(local,img,'binary',function(err) { // 写操作函数 if (err) { console.log('dowmload error!'); } else { console.log('sucess!'); } }); }); }); }
注1:我们会发现有些图片实际下载下来是空白的,可以直接看命令提示符中的打印的路径信息,不正常图片的src路径是有问题的,我们可以特殊处理下。
其实下载图片的函数不过是另外的get请求函数而已,只是这次直接请求的是图片资源而已。这样,我们就可以下载到百度首页下的所有图片资源了。