Java中的UTF-8字符编码

前端之家收集整理的这篇文章主要介绍了Java中的UTF-8字符编码前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我有一些问题需要一些法语文本转换为UTF8,以便它可以在控制台,文本文件或GUI元素中正确显示.

原来的字符串是

HANDICAP╔ES

这应该是

HANDICAPÉES

这是一个代码片段,显示了如何使用jackcess数据库驱动程序在Eclipse / Linux环境中读入Acccess MDB文件.

Database database = Database.open(new File(filepath));
Table table = database.getTable(tableName,true);
Iterator rowIter = table.iterator();
while (rowIter.hasNext()) {
    Map<String,Object> row = this.rowIter.next();
    // convert fields to UTF
    Map<String,Object> rowUTF = new HashMap<String,Object>();
    try {
        for (String key : row.keySet()) {
            Object o = row.get(key);
            if (o != null) {
                String valueCP850 = o.toString();
                // String nameUTF8 = new String(valueCP850.getBytes("CP850"),"UTF8"); // does not work!
                String valueISO = new String(valueCP850.getBytes("CP850"),"ISO-8859-1");
                String valueUTF8 = new String(valueISO.getBytes(),"UTF-8"); // works!
                rowUTF.put(key,valueUTF8);
            }
        }
    } catch (UnsupportedEncodingException e) {
        System.err.println("Encoding exception: " + e);
    }   
}

代码中,您将看到我要直接转换为UTF8的位置,这似乎不起作用,所以我必须进行双重转换.另请注意,使用jackcess驱动程序时,似乎没有办法指定编码类型.

谢谢,
凸轮

解决方法

新分析,基于新信息.
看起来你的问题是文本编码之前存储在Access数据库中.它似乎已被编码为ISO-8859-1或Windows-1252,但解码为cp850,导致字符串HANDICAP╔ES存储在数据库中.

正确地从数据库中检索到该字符串,您现在正在尝试反转原始的编码错误并恢复字符串,因为它应该存储:HANDICAPÉES.你正在用这条线来完成:

String valueISO = new String(valueCP850.getBytes("CP850"),"ISO-8859-1");

getBytes(“CP850”)将字符)转换为字节值0xC9,String构造函数根据ISO-8859-1进行解码,从而导致字符É.下一行:

String valueUTF8 = new String(valueISO.getBytes(),"UTF-8");

…什么也没做. getBytes()将编码平台默认编码的字符串,即Linux系统上的UTF-8.然后String构造函数使用相同的编码进行解码.删除该行,您应该仍然得到相同的结果.

更重要的是,您尝试创建“UTF-8字符串”被误导了.您不需要关心Java字符串的编码 – 它们始终是UTF-16.将文本带入Java应用程序时,您只需确保使用正确的编码对其进行解码.

如果我的分析是正确的,您的访问驱动程序正确解码它;问题在另一端,可能在DB甚至进入图片之前.这就是您需要修复的问题,因为在所有情况下,新的String(getBytes())都不能被视为工作.

原始分析,根据没有信息. : – /
如果您在控制台上看到HANDICAP╔ES,可能没有问题.给出这个代码

System.out.println("HANDICAPÉES");

JVM将(Unicode)字符串转换为平台默认编码,Windows-1252,然后将其发送到控制台.然后控制台解码使用自己的默认编码,恰好是cp850.所以控制台显示错误,但这是正常现象.如果要使其正确显示,可以使用以下命令更改控制台的编码:

CHCP 1252

要在GUI元素(如JLabel)中显示字符串,您不需要做任何特殊的操作.只需确保您使用可以显示所有字符的字体,但这不应该是法语的问题.

至于写入文件时,只需在创建Writer时指定所需的编码:

OutputStreamWriter osw = new OutputStreamWriter(
    new FileOutputStream("myFile.txt"),"UTF-8");

猜你在找的Java相关文章