我试图使用JSoup获取此URL
http://betatruebaonline.com/img/parte/330/CIGUEÑAL.JPG
即使使用编码,我也有例外.
我不明白为什么编码错了.它回来了
07001
而是正确的
07002
我怎么解决这个问题?
谢谢.
private static void GetUrl() { try { String url = "http://betatruebaonline.com/img/parte/330/"; String encoded = URLEncoder.encode("CIGUEÑAL.JPG","UTF-8"); Response img = Jsoup .connect(url + encoded) .ignoreContentType(true) .execute(); System.out.println(url); System.out.println("PASSED"); } catch(Exception e) { System.out.println("Error getting url"); System.out.println(e.getMessage()); } }
解决方法
编码没有错,这里的问题是复合unicode&预组合的字符“Ñ”可以用两种方式显示,它们看起来相同但真的不同
precomposed unicode: Ñ -> %C3%91 composite unicode: N and ~ -> N%CC%83
我强调两个都是正确的,这取决于你想要的unicode类型:
String normalize = Normalizer.normalize("Ñ",Normalizer.Form.NFD); System.out.println(URLEncoder.encode("Ñ","UTF-8")); //%C3%91 System.out.println(URLEncoder.encode(normalize,"UTF-8")); //N%CC%83