我有这个字符串:s =’☀️✈️✈️вьетнам’
我想从中删除表情符号.
所以我在做:
import re emoji_re = re.compile(u'[' u'\U0001F300-\U0001F64F' u'\U0001F680-\U0001F6FF' u'\u2600-\u26FF\u2700-\u27BF]+',re.UNICODE) new = emoji_re.sub(r'',s)
这给了我一个奇怪的结果,我显示为截图,因为我无法复制并粘贴它.
奇怪的是,你可以看到“打印”显示正确的结果.为什么会这样?
解决方法
我用这段代码给了ideone一个镜头:
import re s = '☀️✈️✈' emoji_re = re.compile(u'[' u'\U0001F300-\U0001F64F' u'\U0001F680-\U0001F6FF' u'\u2600-\u26FF\u2700-\u27BF]+',s) print(new)
而且输出是空的.只是因为我加入了:
print(len(new))
哪个输出:
2
我很高兴看到我们正在处理不可打印的字符,这就是为什么你不能把它粘贴在这里.将字符串编码为utf-8:
print(new.encode("utf-8"))
b’\xef\xb8\x8f\xef\xb8\x8f’
看看unicodelookup似乎正则表达式错过了这个字符:
variation selector-16 0xFE0F