Node.JS有一个request模块,可以很方便的抓取网页内容。最简单的一个示例:
if (!error && response.statusCode == 200) {
console.log(body);
}
})
由上例可以看出用request发起一个http请求确实非常简单,不过唯一的问题就是,request模块的第三方依赖比较多,导致这个模块非常地大,要占用好几M的空间。
其实用node.js原生的http模块就可以很方便地写出一个类似的request的功能,只要几十行即可:
var dataType = typeof data
if (dataType == 'function') {
headers = cb
cb = data
rawData = null
} else if (dataType == 'object') {
rawData = JSON.stringify(data)
} else {
rawData = data
}
var urlObj = url.parse(reqUrl)
var options = {
hostname : urlObj.hostname,port : urlObj.port,path : urlObj.pathname,method : rawData ? 'post' : 'get'
}
headers && (options.headers = headers)
var req = http.request(options,function(res) {
var receives = []
if (res.statusCode !== 200) {
cb && cb(new Error('Request Failed. Status Code: ' + res.statusCode + ' ' + reqUrl))
return
}
res.on('data',function(chunk) {
receives.push(chunk)
})
res.on('end',function() {
var resData = Buffer.concat(receives).toString()
try {
resData = JSON.parse(resData)
} catch (e) { }
cb && cb(null,res,resData)
})
})
req.on('error',function(e) {
cb && cb(e)
})
rawData && req.write(rawData)
req.end()
}
module.exports = request
使用接口与request模块是一样的,比如我们抓取新浪新闻首页的内容
其次它还支持抓取时附加cookie等header认证信息,如
对POST的支持