基于node.js制作简单爬虫教程

<div class="jb51code">
<pre class="brush:js;">
var superagent = require('superagent');
var cheerio = require('cheerio');
var async = require('async');
var fs = require('fs');
var request = require('request');
var page=1; //获取发型师处有分页功能，所以用该变量控制分页
var num = 0;//爬取到的信息总条数
var storeid = 1;//门店ID
console.log('爬虫程序开始运行......');

function fetchPage(x) { //封装函数
startRequest(x);
}
function startRequest(x) {

superagent
.post('http://tweixin.yueyishujia.com/v2/store/designer.json')
.send({
// 请求的表单信息Form data
page : x,storeid : storeid
})
// Http请求的Header信息
.set('Accept','application/json,text/javascript,/; q=0.01')
.set('Content-Type','application/x-www-form-urlencoded; charset=UTF-8')
.end(function(err,res){
// 请求返回后的处理
// 将response中返回的结果转换成JSON对象
if(err){
console.log(err);
}else{
var designJson = JSON.parse(res.text);
var deslist = designJson.data.designerlist;
if(deslist.length > 0){
num += deslist.length;
// 并发遍历deslist对象
async.mapLimit(deslist,5,function (hair,callback) {
// 对每个对象的处理逻辑
console.log('...正在抓取数据ID：'+hair.id+'----发型师:'+hair.name);
saveImg(hair,callback);
},function (err,result) {
console.log('...累计抓取的信息数→→' + num);
}
);
page++;
fetchPage(page);
}else{
if(page == 1){
console.log('...爬虫程序运行结束~~~');
console.log('...本次共爬取数据'+num+'条...');
return;
}
storeid += 1;
page = 1;
fetchPage(page);
}
}
});
}
fetchPage(page);
function saveImg(hair,callback){
// 存储图片
var img_filename = hair.store.name+'-'+hair.name + '.png';

var img_src = 'http://photo.yueyishujia.com:8112' + hair.avatar; //获取图片的url

//采用request模块，向服务器发起一次请求，获取图片资源
request.head(img_src,function(err,res,body){
if(err){
console.log(err);
}else{
request(img_src).pipe(fs.createWriteStream('./image/' + img_filename)); //通过流的方式，把图片写到本地/image目录下，并用发型师的姓名和所属门店作为图片的名称。
console.log('...存储id='+hair.id+'相关图片成功！');
}
});
// 存储照片相关信息
var html = '姓名：'+hair.name+'
职业：'+hair.jobtype+'
职业等级：'+hair.jobtitle+'
简介：'+hair.simpleinfo+'
个性签名：'+hair.info+'
剪发价格：'+hair.cutmoney+'元
店名：'+hair.store.name+'
地址：'+hair.store.location+'
联系方式：'+hair.telephone+'
头像：<img src='+img_src+' style="width:200px;height:200px;">';
fs.appendFile('./data/' +hair.store.name+'-'+ hair.name + '.html',html,'utf-8',function (err) {
if (err) {
console.log(err);
}
});
callback(null,hair);
}

运行成功后，发型师基本信息以html文件的形式存储在data文件夹中，发型师头像图片存储在image文件夹下：

基于node.js制作简单爬虫教程

步骤一：

步骤二：

步骤三：

步骤四：

步骤五：

步骤六：

后记：

猜你在找的Node.js相关文章