前端之家收集整理的这篇文章主要介绍了
如何将文本文本表示为文本分类的特征向量?,
前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我有大约10,000个文本文档.
如何将它们表示为特征向量,以便我可以使用它们进行文本分类?
有没有自动执行特征向量表示的工具?
最简单的
方法是使用
bag of words型号.您将每个文档表示为无序的单词集合.
你可能想要删除标点符号,你可能想忽略大小写.您可能还想删除像’和’,’或’和”的常用单词.
为了将其适应为特征向量,您可以从样本中选择(例如)10,000个代表性单词,如果文档i包含单词j并且v [i,j] = 0,则二进制向量v [i,j] = 1.
原文链接:https://www.f2er.com/html/224527.html