我正在使用R搜索原始的Twitter片段,但仍然遇到有非标准字母数字字符的问题,例如以下“̆ºÌøÑ”.
我想用gsub取出所有非[abcdefghijklmnopqrstuvwxyz0123456789]字符.
您是否可以使用gsub指定不在[abcdefghijklmnopqrstuvwxyz0123456789]中的那些项目的替换?
解决方法
你可以用[^ …]简单地否定你的模式:
x <- "abcde🏄fgh" gsub("[^A-Za-z0-9]","",x) # [1] "abcdefgh"
请注意,班级[:alnum:]匹配您给定的所有特殊字符.这就是为什么gsub(“[^ [:alnum:]]”,“”,x)不起作用的原因.