用于文本归一化的Java库

前端之家收集整理的这篇文章主要介绍了用于文本归一化的Java库前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我正在寻找允许文本“归一化”的 java库.类似于 Normalizer,但更宽(像 utf8proc LUMP这样的东西).

它应该将所有类型的特殊字符替换为ASCII等价物(如果可能的话).所有变体的空间代码32,所有变体的minuses(长,短,薄等)到代码45等等.

解决方法

你应该看看 CLDR Latin-ASCII变形,它将在 ICU 4.6

猜你在找的Java相关文章