频道导航

中文分词在大量数据模糊查询中的应用

2019-11-15 Go 前端之家

前端之家收集整理的这篇文章主要介绍了中文分词在大量数据模糊查询中的应用，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

最近在做建筑行业相关的项目，遇到的一个应用场景是解析材料名称。由于输入的数据中材料名称非常不规范，而且数量量又非常大，所以处理起来比较困难。

名称不规范的意思是，比如标准材料叫：“圆钢”，材料中出现的名称有：“钢筋圆钢”，“圆钢HPB300”，“钢筋圆钢（≤Φ10）”等等，也就是说材料名称前面或者后面很多修饰语（一般情况是前面是材料分类，后面是型号信息）。

一般的思路就是关键字匹配，但是由于数据量比较大，一般上千条，而标准材料数量也上千条左右。所以用这种方法的话，就是两个for循环，循环次数非常多：

for _,v := range materialList {
	for _,v1 := range standardList { // 一共上千条
		if strings.Contain(v,v1) {
			// 找到了标准材料
			do something
			break
		}
	}
}

新的思路是使用中文分词，将标准材料放在字典里面，如下：

{

// 键为标准材料名称，值为材料信息

“圆钢”: xxxxxxx,

"螺纹钢": xxxxxxx,

......

}

在解析材料数据的时候，先对材料进行分词，比如“钢筋圆钢”就会分为“钢筋”，“圆钢”，“圆钢HPB300”会分为"圆钢"，“HPB300”等等。

分词之后，在词的数组中从后往前（针对我的应用场景）在字典中查找，直到键匹配成功。一般分词之后词的数量不会太多，基本都在5条以内，所以效率比较高。

这样将以前的内部循环匹配查找转换为分词操作和字典查找，只要分词操作性能高的话，整体查找效率会比第一种方法高很多。

其他类似场景也可以使用这种思路来提升程序的性能。

最后推荐一个我使用的go的中文分词库：segohttps://github.com/huichen/sego

上一篇：Golang加头和尾部来解决tcp粘包问题下一篇：golang 版本的 ring buffer （变长

猜你在找的Go相关文章

golang简单实现jwt验证(beego、xorm、jwt)

程序目录结构简单实现，用户登录后返回一个jwt的token，下次请求带上token请求用户信息接...

作者：踏平扶桑时间：2024-09-29

【工程实践】利用go语言写一个简单的Pow样例

本篇博客的主要内容是用go写一个简单的Proof-of-Work共识机制，不涉及到网络通信环节，只是...

作者：ACai_sec 时间：2024-09-28

【工程实践】go语言实现MerkleTree

简介默克尔树（MerkleTree）是一种典型的二叉树结构，其主要特点为：最下面的叶节点包含...

作者：ACai_sec 时间：2024-09-28

第九章 goroutine

接下来学习并发编程, 并发编程是go语言最有特色的地方, go对并发编程是原生支持. goroutin...

作者：前端之家时间：2021-02-11

第十一章运用广度优先搜索走迷宫

先普及一下, 什么是广度优先搜索广度优先搜索类似于树的层次遍历。从图中的某一顶点出发，...

作者：前端之家时间：2021-02-11

第十三章 go实现分布式网络爬虫---单机版爬虫

爬虫的分类网络爬虫分为两类 1. 通用爬虫: 类似于baidu, google. 他们会把大量的数据挖下...

作者：前端之家时间：2021-02-11

第十章 channel select 总结

感觉channel在理解起来还有点费劲的, 尤其是select的使用, 既要可以读数据, 又要可以写数据...

作者：前端之家时间：2021-02-11

第十五章并发版爬虫第二版 -- 完结

并发版爬虫, 在上一篇单机版爬虫的基础上演变而来这里只有并发引擎的代码, 基本的解析器代...

作者：前端之家时间：2021-02-11

第八章--性能优化--pprof详细研究

接着上次的博客: https://www.cnblogs.com/ITPower/articles/12315637.html ppro...

作者：前端之家时间：2021-02-11

第八章测试与性能调优--生成文档和测试示例代码

java也可以生成文档, 就像一个手册一样, 可以用来查看方法, 接口, 下面我们给go项目生成文...

作者：前端之家时间：2021-02-11

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章