频道导航

golang 爬虫（二）

2019-12-01 Go 前端之家

前端之家收集整理的这篇文章主要介绍了golang 爬虫（二），前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

通用的爬虫原理示意图：

具体实现过程：

1、开一个协程从待抓取url中获取url，进行网页获取，网页解析，然后入库；

2、开另一个协程从已抓取url中获取url，进行获取其他url并且放入待抓取url队列中；

网页解析

在golang中，解析网页有几个比较好用的第三方库。比如：github.com/opesun/goquery,github.com/PuerkitoBio/goquery等等。

github.com/PuerkitoBio/goquery功能强大，但在使用的时候，编译不过，当时比较懒就不用了。而使用github.com/opesun/goquery，该插件是在解析html节点时，使用jq类似的语法。下面介绍几个列子：

content,err:=goquery.ParseUrl(url)
if err != nil{
     panic(error)
}

1、打印整个html：fmt.Println(content.Html())

2、获取class的内容：content.Find(".name").Text();

3、获取id的内容：content.Find("#name").Text();

4、当获取的内容中超过一条内容时：

sex:=content.Find("input[name='gender']:checked")
		for i:=0;i<sex.Length();i++{
			if sex.Eq(i).Attr("checked") != "checked"{
				continue;
			}
			if sex.Eq(i).Attr("value")=="0"{
				info.sex = "女"
			}
			if sex.Eq(i).Attr("value")=="1"{
				info.sex = "男"
			}
		}

获取其他待抓取网页

本次测试是爬知乎网的用户信息。

1、获取问题网址url；

2、获取对应问题网址的回答用户url;

需改进的地方

1、爬其他用户url的算法；

2、只有两个线程，分别为生产者和消费者。使用线程池。

3、控制生产者的速度与消费者的速度的算法。

上一篇：golang select 下一篇：Golang语言社区-并发模型和应用场景

猜你在找的Go相关文章

golang简单实现jwt验证(beego、xorm、jwt)

程序目录结构简单实现，用户登录后返回一个jwt的token，下次请求带上token请求用户信息接...

作者：踏平扶桑时间：2024-09-29

【工程实践】利用go语言写一个简单的Pow样例

本篇博客的主要内容是用go写一个简单的Proof-of-Work共识机制，不涉及到网络通信环节，只是...

作者：ACai_sec 时间：2024-09-28

【工程实践】go语言实现MerkleTree

简介默克尔树（MerkleTree）是一种典型的二叉树结构，其主要特点为：最下面的叶节点包含...

作者：ACai_sec 时间：2024-09-28

第九章 goroutine

接下来学习并发编程, 并发编程是go语言最有特色的地方, go对并发编程是原生支持. goroutin...

作者：前端之家时间：2021-02-11

第十一章运用广度优先搜索走迷宫

先普及一下, 什么是广度优先搜索广度优先搜索类似于树的层次遍历。从图中的某一顶点出发，...

作者：前端之家时间：2021-02-11

第十三章 go实现分布式网络爬虫---单机版爬虫

爬虫的分类网络爬虫分为两类 1. 通用爬虫: 类似于baidu, google. 他们会把大量的数据挖下...

作者：前端之家时间：2021-02-11

第十章 channel select 总结

感觉channel在理解起来还有点费劲的, 尤其是select的使用, 既要可以读数据, 又要可以写数据...

作者：前端之家时间：2021-02-11

第十五章并发版爬虫第二版 -- 完结

并发版爬虫, 在上一篇单机版爬虫的基础上演变而来这里只有并发引擎的代码, 基本的解析器代...

作者：前端之家时间：2021-02-11

第八章--性能优化--pprof详细研究

接着上次的博客: https://www.cnblogs.com/ITPower/articles/12315637.html ppro...

作者：前端之家时间：2021-02-11

第八章测试与性能调优--生成文档和测试示例代码

java也可以生成文档, 就像一个手册一样, 可以用来查看方法, 接口, 下面我们给go项目生成文...

作者：前端之家时间：2021-02-11

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章