我在std :: string中有一个有效的utf-8编码字符串.我有字节限制.我想截断字符串并在MAX_SIZE处添加… – 3 – x – 其中x是阻止utf-8字符被切断的值.
是否有可以根据MAX_SIZE确定x的函数而无需从字符串的开头开始?
解决方法
如果你在一个字符串中有一个位置,并且你想要向后找到一个UTF-8字符的开头(因此是一个有效的剪切位置),这很容易完成.
从序列中的最后一个字节开始.如果最后一个字节的前两位是10,那么它是UTF-8序列的一部分,所以继续备份直到前两位不是10(或直到你到达开始).
UTF-8的工作方式是,一个字节可以是三种情况之一,基于字节的高位.如果最高位为0,则该字节为ASCII字符,接下来的7位为Unicode Codepoint值本身.如果最高位为10,则后面的6位是多字节序列的额外位.但是多字节序列的开头在顶部位用11编码(并且序列中的字节数由在前0之前跟随这两个1的多少1来确定).
因此,如果一个字节的顶部位不是10,那么它是ASCII字符或多字节序列的开头.无论哪种方式,它都是一个有效的切割场所.
但请注意,虽然这会破坏代码点边界处的字符串,但这基于Unicode字形集群.这意味着可以剔除组合字符,远离它们组合的基本字符;例如,重音可能会从字符中丢失.进行正确的字形集群分析需要访问Unicode表,该表表明代码点是否为组合字符.
但它至少是一个有效的Unicode UTF-8字符串.所以这比大多数人做得好;)
代码看起来像这样(在C 14中):
auto FindCutPosition(const std::string &str,size_t max_size) { assert(str.size() >= max_size,"Make sure stupidity hasn't happened."); assert(str.size() > 3,"Make sure stupidity hasn't happened."); max_size -= 3; for(size_t pos = max_size; pos > 0; --pos) { unsigned char byte = static_cast<unsigned char>(str[pos]); //Perfectly valid if(byte & 0xC0 != 0x80) return pos; } unsigned char byte = static_cast<unsigned char>(str[0]); //Perfectly valid if(byte & 0xC0 != 0x80) return 0; //If your first byte isn't even a valid UTF-8 starting point,then something terrible has happened. throw bad_utf8_encoded_text(...); }