Unicode 是一个标准,utf-16 和 utf-8 则是编码方案。
utf-8 可以扩展到很长很长,比如现在的 emoji 就是用到了四个字节 mb4。
In [1]: fqfq = u'番茄?'
In [2]: fqfq
Out[2]: u'\u756a\u8304\U0001f345'
In [3]: fqfq.encode('utf-8')
Out[3]: '\xe7\x95\xaa\xe8\x8c\x84\xf0\x9f\x8d\x85'
Unicode 是一个标准,utf-16 和 utf-8 则是编码方案。
utf-8 可以扩展到很长很长,比如现在的 emoji 就是用到了四个字节 mb4。
In [1]: fqfq = u'番茄?'
In [2]: fqfq
Out[2]: u'\u756a\u8304\U0001f345'
In [3]: fqfq.encode('utf-8')
Out[3]: '\xe7\x95\xaa\xe8\x8c\x84\xf0\x9f\x8d\x85'