前端之家收集整理的这篇文章主要介绍了
nodeJS实现简单网页爬虫功能的实例(分享),
前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
本文将使用nodeJS实现一个简单的网页爬虫功能
网页源码
使用http.get()方法获取网页源码,以hao123网站的头条页面为例
http://tuijian.hao123.com/hotrank
获得的结果如下所示:
<Meta charset="utf-8">
<Meta http-equiv="X-UA-Compatible" content="IE=edge">
<Meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1,user-scalable=no">
<Meta name="referrer" content="always">
<
Meta name="baidu_union_verify" content="d7d644c8a5cb51b46c900d802d906116">
热点排行榜-头条新闻-hao123新闻导航_hao123上网导航
<div class="mt20"><div id="tops" class="clearfix" monkey="tops"><div class="top-wrap"><div class="top first-col" monkey="ss"><h2 class="title">实时热点<div class="points"><div class="point-hd clearfix"><span class="point-rank">排名<span class="point-title">关键词<span class="point-index">