在Lua语言中,我想得到一个单一的阿拉伯字母(如“ف”)的长度,答案将是2!
防爆.
local letter = "ف" print( letter:len() )
输出:2
当我使用(string.sub(a,b))时也会出现同样的问题.如果我想打印阿拉伯语的第一个字母,我不能说(string.sub(1,1)).
防爆.
local word_1 = "فولت" print( word_1:sub(1,2) )
输出:
正如你所看到的,我把第二个参数(2)不是(1)得到正确的答案.
如果我把第一个参数1的答案是:
print( word_1:sub(1,1) )
输出:Ù
为什么Lua将单个阿拉伯文字的长度计算为两个?
有没有办法获得正确的长度是1?
解决方法
Lua是8位清洁.
换句话说,Lua字符串是一个字节序列,它不支持Unicode内部.阿拉伯字母“ف”有2个字节,所以Lua将其视为长度为2的字符串.
您需要使用一个特殊的技巧来操纵Unicode,例如,假设使用UTF-8,您可以使用此代码片段来计算字符串的长度(Referece:Lua Unicode):
local _,count = string.gsub(unicode_string,"[^\128-\193]","")