有没有办法在R转换HTML字符实体编码?
我想转换HTML字符实体
&放大器;放大器;到&要么
&安培; GT;到>
对于Perl,存在可以做到这一点的HTML :: Entities包,但是在R中我找不到类似的东西.
我也试过iconv(),但不能得到令人满意的结果.也许还有一种方法使用XML包,但我还没有想到它.
解决方法
尝试一下:
# load XML package library(XML) # Convenience function to convert html codes html2txt <- function(str) { xpathApply(htmlParse(str,asText=TRUE),"//body//text()",xmlValue)[[1]] } # html encoded string ( x <- paste("i","s","n","&","a","p","o",";","t",sep = "") ) [1] "isn't" # converted string html2txt(x) [1] "isn't"
更新:编辑html2txt()函数,因此它适用于更多的情况