频道导航

Node.js 利用cheerio制作简单的网页爬虫示例

2019-01-04 Node.js 前端之家

前端之家收集整理的这篇文章主要介绍了Node.js 利用cheerio制作简单的网页爬虫示例，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

本文介绍了Node.js 利用cheerio制作简单的网页爬虫示例，分享给大家，具有如下：

1. 目标

完成对网站的标题信息获取
将获取到的信息输出在一个新文件
工具: cheerio，使用npm下载npm install cheerio
cheerio的API使用方法和jQuery的使用方法基本一致
如果熟练使用jQuery，那么cheerio将会很快上手

2. 代码部分

介绍: 获取segment fault页面的列表标题，将获取到的标题列表编号，最终输出到pageTitle.txt文件里

https.get(url,(res) => {
let html = '';
res.on('data',(data) => {
html += data;
});
res.on('end',() => {
getPageTitle(html);
});
}).on('error',() => {
console.log('获取网页信息错误');
});

function getPageTitle(html) {
const $ = cheerio.load(html);
let chapters = $('.news__item-title');
let data = [];
let index = 0;
let fileName = 'pageTitle.txt';
for (let i = 0; i < chapters.length; i++) {
let chapterTitle = $(chapters[i]).find('a').text().trim();
index++;
data.push(\n${index},${chapterTitle});
}
fs.writeFile(fileName,data,'utf8',(err) => {
if (err) {
console.log('fs文件系统创建新文件失败',err);
}
console.log(已成功将<a href="/tag/huoqu/" target="_blank" class="keywords">获取</a>到的<a href="/tag/biaoti/" target="_blank" class="keywords">标题</a>放入新<a href="/tag/wenjian/" target="_blank" class="keywords">文件</a>${fileName}<a href="/tag/wenjian/" target="_blank" class="keywords">文件</a>中)
})
}

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持编程之家。

cheerio Node 爬虫网页爬虫

上一篇：Node.js静态服务器的实现方法下一篇：详解用Node.js写一个简单的命令行工

猜你在找的Node.js相关文章

[javascript] typescript的安装

现在的js代码都是这种高级点的方式语法，就是ts语法，要使用ts语法那就要先安装一下先...

作者：前端之家时间：2021-02-05

node版本管理工具nvm

nvm是node版本管理工具为了解决node各种版本存在不兼容现象 nvm是让你在同一台机器上安装...

作者：前端之家时间：2020-12-29

node起一个简单服务，打开本地项目或文件浏览

1、安装nodejs 2、在项目文件夹目录下创建一个js文件，命名server.js(自定义名称),内容如下...

作者：前端之家时间：2020-12-29

path的join和resolve的使用区别

1.连接路径：path.join([path1][, path2][, ...]) path.join()方法可以连接任意多个路径字...

作者：前端之家时间：2020-12-29

nodejs与javascript中的aes加密

简介 1.aes加密简单来说，在密码学中又称Rijndael加密法，是美国联邦政府采用的一种区块加...

作者：前端之家时间：2020-12-23

带你玩转七牛云存储——高级篇

七牛云图片存储优点 1. 支持各种尺寸的图片缩放； 2. 支持图片自动压缩； 3. 支持水印添加...

作者：前端之家时间：2020-12-23

VueJs生产环境部署

VueJs为客户端语言，所以部署的时候是不需要基于nodejs或其他服务器运行环境，只需要像其他...

作者：前端之家时间：2020-12-23

vuejs深入浅出—基础篇

一、从HelloWorld说起任何语言的都是从Hello World开始的，VueJs也不例外，直接上代码： ...

作者：前端之家时间：2020-12-23

你必须知道的session与cookie

Session本质提到Session我们能联想到的就是用户登录功能，而本身我们使用Session的基础是...

作者：前端之家时间：2020-12-23

es6新特性分享

1、字符串查找es5使用是indexOf() 返回字符第一次出现的位置int值es6新增了3个方法：inclu...

作者：前端之家时间：2020-12-23

最新文章