如何为sklearn CountVectorizer设置自定义停用词?

前端之家收集整理的这篇文章主要介绍了如何为sklearn CountVectorizer设置自定义停用词?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我正在尝试在非英语文本数据集上运行LDA(Latent Dirichlet Allocation).

从sklearn的教程中,您可以在此部分中计算要提供给LDA的单词的术语频率:

tf_vectorizer = CountVectorizer(max_df=0.95,min_df=2,max_features=n_features,stop_words='english')

其中有内置停用词功能,我认为只适用于英语.我怎么能用这个我自己的停用词列表呢?

解决方法

您可以将自己的单词的冻结集分配给 stop_words argument,例如:
stop_words = frozenset(["word1","word2","word3"])

猜你在找的Python相关文章