RTextTools中的Create_Analytics

前端之家收集整理的这篇文章主要介绍了RTextTools中的Create_Analytics前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我试图将Text文档分类为多个类别.
我的下面代码工作正常
matrix[[i]] <- create_matrix(trainingdata[[i]][,1],language="english",removeNumbers=FALSE,stemWords=FALSE,weighting=weightTf,minWordLength=3)                              
container[[i]] <- create_container(matrix[[i]],trainingdata[[i]][,2],trainSize=1:50,testSize=51:100),models[[i]] <- train_models(container[[i]],algorithms=c("MAXENT","SVM"))
results[[i]] = classify_models(container[[i]],models[[i]])

当我尝试下面的代码来获得精度,召回,准确度值:

analytic[[i]]  <- create_analytics(container[[i]],results[[i]])

我收到以下错误

Error in `row.names<-.data.frame`(`*tmp*`,value = c(NA_real_,NA_real_ : 
  duplicate 'row.names' are not allowed

我的类别采用文本格式.
如果我将这些类别转换为数字 – 上面的代码工作正常.

是否有工作来保持文本格式的类别,并获得精度,准确值.

我的目标是获得多级分类器的精度,召回率,准确度值和混淆矩阵.
是否有任何其他包来获取多类文本分类器的上述值(一个对所有)

解决方法

正如user3294343评论的那样,它将我的类字段转换为因子,然后转换为数字,如下所示:
doc_matrix <- create_matrix(dataset.arff$text,removeNumbers=TRUE,stemWords=TRUE,removeSparseTerms=.998)
container <- create_container(doc_matrix,as.numeric(factor(dataset.arff$"@@class@@")),trainSize=1:1500,testSize=1501:1999,virgin=FALSE)

解决了我的错误.

猜你在找的HTML相关文章