如何将它们表示为特征向量,以便我可以使用它们进行文本分类?
有没有自动执行特征向量表示的工具?
你可能想要删除标点符号,你可能想忽略大小写.您可能还想删除像’和’,’或’和”的常用单词.
为了将其适应为特征向量,您可以从样本中选择(例如)10,000个代表性单词,如果文档i包含单词j并且v [i,j] = 0,则二进制向量v [i,j] = 1.