频道导航

python – 当我们只提供单个单词的向量时,kmeans如何知道如何对文档进行聚类？

2019-05-05 Python 前端之家

前端之家收集整理的这篇文章主要介绍了python – 当我们只提供单个单词的向量时,kmeans如何知道如何对文档进行聚类？，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我正在使用scikit learn的Kmeans算法来聚类评论.

sentence_list=['hello how are you',"I am doing great","my name is abc"]

vectorizer=TfidfVectorizer(min_df=1,max_df=0.9,stop_words='english',decode_error='ignore')
vectorized=vectorizer.fit_transform(sentence_list)

km=KMeans(n_clusters=num_clusters,init='k-means++',n_init=10,verbose=1)
km.fit(vectorized)

当我打印矢量化的输出时,它给出了单词的索引和索引的tf-idf分数.

所以我很想知道,鉴于我们只获得了tfidf的单词分数,我们如何根据单个单词而不是整个文档的分数来管理文档？或许也可以这样做.有人向我解释这背后的概念吗？

解决方法

您应该看一下 Kmeans algorithm的工作原理.首先,停用词永远不会使其矢量化,因此被Kmeans完全忽略,并且对文档的聚类方式没有任何影响.现在假设你有：

sentence_list=["word1","word2","word2 word3"]

让我们说你想要2个集群.在这种情况下,您希望第二个和第三个文档位于同一个集群中,因为它们共享一个共同的单词.让我们看看这是如何发生的.

docs矢量化的数字表示如下所示：

word1     word3     word2
    1  0.000000  0.000000     # doc 1
    0  1.000000  0.000000     # doc 2
    0  0.605349  0.795961     # doc 3

在Kmeans的第一步中,从数据中随机选择一些质心,例如,文档1和文档3将是初始质心：

Centroid 1:     [1,0.000000,0.000000]

Centroid 2:     [0,0.605349,0.795961]

现在,如果计算从每个点(文档)到两个质心中的每一个的距离,您将看到：

>文档1的距离为0到质心1,因此它属于质心1
>文档3的距离为0到质心2,因此它属于质心2

最后,我们计算剩余文档2和每个质心之间的距离,以找出它属于哪一个：

>>> from scipy.spatial.distance import euclidean

>>> euclidean([0,1,0],[1,0])               # dist(doc2,centroid1)
1.4142135623730951

>>> euclidean([0,[0,0.795961]) # dist(doc2,centroid2)
0.8884272507056005

因此第二个文档和第二个质心更接近,这意味着第二个文档被分配给第二个质心.

上一篇：python – Paramiko：如何确保命令下一篇：python – 在matplotlib中显示次要

猜你在找的Python相关文章

爬虫实战：探索XPath爬虫技巧之热榜新闻

在这篇文章中，我们深入学习了XPath作为一种常见的网络爬虫技巧。XPath是一种用于定位和选...

作者：努力的小雨时间：2024-09-28

谁说后端不能画出美丽的动图？让我来给大家拜个年！

祝福大家龙年快乐！愿你们的生活像龙一样充满力量和勇气，愿你们在新的一年里，追逐梦想，...

作者：努力的小雨时间：2024-09-28

爬虫实战：从网页到本地，如何轻松实现小说离线阅读

今天在爬虫实战中，除了正常爬取网页数据外，我们还添加了一个下载功能，主要任务是爬取小...

作者：努力的小雨时间：2024-09-28

爬虫实战+数据分析：全国消费支出分析及未来预测

完美收官，本文是爬虫实战的最后一章了，所以尽管本文着重呈现爬虫实战，但其中有一大部分...

作者：努力的小雨时间：2024-09-28

Java开发者的Python进修指南：JSON利器之官方json库、demjson和orjson的实用指南

JSON是一种流行的数据传输格式，Python中有多种处理JSON的方式。官方的json库是最常用的，...

作者：努力的小雨时间：2024-09-28

使用Python的turtle模块绘制美丽的樱花树

通过本文的学习和实践，我们掌握了使用Python的turtle模块来创作樱花树图画的技巧，这个过...

作者：努力的小雨时间：2024-09-28

利用大型语言模型轻松打造浪漫时刻

在这篇文章中，我们介绍了如何利用大型语言模型为情人节营造难忘的氛围。通过上传图片并进...

作者：努力的小雨时间：2024-09-28

成为一个合格程序员所必备的三种常见LeetCode排序算法

排序算法是一种通过特定的算法因式将一组或多组数据按照既定模式进行重新排序的方法。通过...

作者：努力的小雨时间：2024-09-28

5分钟上手Python爬虫：从干饭开始，轻松掌握技巧

本文的重点在于引导读者如何初步掌握爬虫技术。初步掌握爬虫技术并不难，但是在实际操作中...

作者：努力的小雨时间：2024-09-28

AI实用指南：5分钟搭建你自己的LLM聊天应用

本文介绍了如何快速搭建一个基于大型语言模型（LLM）的混元聊天应用。强调了开发速度的重要...

作者：努力的小雨时间：2024-09-28

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章