如何将文本文本表示为文本分类的特征向量?

前端之家收集整理的这篇文章主要介绍了如何将文本文本表示为文本分类的特征向量?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我有大约10,000个文本文档.

如何将它们表示为特征向量,以便我可以使用它们进行文本分类

有没有自动执行特征向量表示的工具?

解决方法

最简单的方法是使用 bag of words型号.您将每个文档表示为无序的单词集合.

你可能想要删除标点符号,你可能想忽略大小写.您可能还想删除像’和’,’或’和”的常用单词.

为了将其适应为特征向量,您可以从样本中选择(例如)10,000个代表性单词,如果文档i包含单词j并且v [i,j] = 0,则二进制向量v [i,j] = 1.

猜你在找的HTML相关文章