如果我有一个包含UTF8内容的字节数组,我将如何解析呢?是否有分隔符字节,我可以拆分得到每个字符?
解决方法
看看这里…
http://en.wikipedia.org/wiki/UTF-8
如果您想查找字符之间的边界,您需要的是“说明”中的表格.
获得高位零的唯一方法是以单个字节编码的ASCII子集0..127.所有非ASCII编码点在最高的两位都有第二个字节,“10”.代码点的前导字节从来没有 – 高位表示字节数,但有一些冗余 – 您可以同样注意没有“10”的下一个字节来指示下一个代码点.
0xxxxxxx : ASCII 10xxxxxx : 2nd,3rd or 4th byte of code 11xxxxxx : 1st byte of code,further high bits indicating number of bytes
unicode中的代码点不一定与字符相同.有修饰符编码点(例如重音符号),例如.