机器学习 – 是否有任何最佳实践来准备基于文本的分类功能?

前端之家收集整理的这篇文章主要介绍了机器学习 – 是否有任何最佳实践来准备基于文本的分类功能?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我们向客户提供了许多反馈和问题报告.它们是纯文本.我们正在尝试为这些文档构建自动分类器,以便将来的反馈/问题可以自动路由到正确的支持团队.除了文本本身,我认为我们应该将诸如客户资料,案例提交区域等内容包括分类器中.我认为这可以为分类器提供更多线索,以便做出更好的预测.

目前,为培训选择的所有功能都基于文本内容.如何包含上述元功能

(顺便说一下,我是新手.如果这个问题很简单,那么请原谅.)

添加1

我目前的方法是首先对原始文本(包括标题和正文)进行一些典型的预处理,例如删除停用词,POS标记提取重要单词.然后我将标题和正文转换为单词列表,并以稀疏格式存储它们,如下所示:

instance 1: word1:word1 count,word2: word2 count,….

instance 2: wordX:word1 count,wordY: word2 count,….

对于其他非文本功能,我打算将它们添加为单词列之后的新列.所以最终的例子看起来像:

instance 1: word1:word1 count,…,feature X:value,feature Y:value

解决方法

>如果costomer简档数据是二进制值(例如,客户的性别),则该特征可以设想为0,1其中0表示男性,1表示女性.当该要素具有多个值时,例如提交区域(假设我们这里有五个区域).我们应该将它设计为具有五个维度的特征向量,例如[0 0 1 0 0],来自向量的每个维度表示该帖子是否来自该特定区域.这种方式在实践中更好,而不是在使用像逻辑回归这样的分类器时使用具有多个值的特征
>您正在使用名为bag of words表示的功能.因为词袋是文档中单词的tf,但是具有较高tf的单词应该比具有较低tf的单词更重要.我认为不是.在实践中,tf * idf表现出更好的表现.

idf(逆文档频率)是一种估计单词重要程度的方法,通常,文档频率(df)是评估单词在分类中有多重要的一种好方法,因为当一个单词出现在较少的文档中时(nba总会出现)在属于体育的文件中表现出更好的辨别力,因此idf与词的重要性正相关.

猜你在找的HTML相关文章