Java 中文乱码转码问题总结

Java 中文乱码转码问题总结
Java 中文乱码转码问题总结

Java中文乱码转码问题总结

2009-05-0517:04:08|分类:java|字号订阅

在JSP/Servlet中主要有以下几个地方可以设置编码,pageEncoding="UTF-8"、contentType="text/html;charset=UTF-8"、equest.setCharacterEncoding("UTF-8")和

response.setCharacterEncoding("UTF-8"),其中前两个只能用于JSP中,而后两个可以用于JSP和Servlet中。

(注释:pageEncoding在JSP标准的语法中,如果pageEncoding粜源

嬖冢 敲碕SP页面的字符编码方式就由pageEncoding决定,否则就由

contentType属性中的charset决定,如果charset也不存在,JSP页面的字符编码方式就采用默认的ISO-8859-1。

为控制浏览器的解码方式。如果前面的解码都一致并且无误的话,这个编码格式没有关系。有的网页出现乱码,就是因为浏览器不能确定使用哪种编码格式。因为页面有时候会嵌入页面,导致浏览器混淆了编码格式。出现了乱码。)

1、pageEncoding="UTF-8"的作用是设置JSP编译成Servlet时使用的编码。

众所周知,JSP在服务器上是要先被编译成Servlet的。pageEncoding="UTF-8"的作用就是告诉JSP编译器在将JSP文件编译成Servlet时使用的编码。通常,在JSP内部定义的字符串(直接在JSP中定义,而不是从浏览器提交的数据)出现乱码时,很多都是由于该参数设置错误引起的。例如,你的JSP文件是以GBK为编码保存的,而在JSP中却指定pageEncoding="UTF-8",就会引起JSP内部定义的字符串为乱码。

另外,该参数还有一个功能,就是在JSP中不指定contentType参数,也不使用response.setCharacterEncoding方法时,指定对服务器响应进行重新编码的编码。

2、contentType="text/html;charset=UTF-8"的作用是指定对服务器响应进行重新编码的编码。

在不使用response.setCharacterEncoding方法时,用该参数指定对服务器响应进行重新编码的编码。

3、request.setCharacterEncoding("UTF-8")的作用是设置对客户端请求进行重新编码的编码。

该方法用来指定对浏览器发送来的数据进行重新编码(或者称为解码)时,使用的编码。

4、response.setCharacterEncoding("UTF-8")的作用是指定对服务器响应进行重新编码的编码。

服务器在将数据发送到浏览器前,对数据进行重新编码时,使用的就是该编码。

其次,要说一说浏览器是怎么样对接收和发送的数据进行编码的

response.setCharacterEncoding("UTF-8")的作用是指定对服务器响应进行重新编码的编码。同时,浏览器也是根据这个参数来对其接收到的数据进行重新编码(或者称为解码)。所以在无论你在JSP中设置

response.setCharacterEncoding("UTF-8")或者

response.setCharacterEncoding("GBK"),浏览器均能正确显示中文(前提是你发送到浏览器的数据编码是正确的,比如正确设置了pageEncoding参数等)。读者可以做个实验,在JSP中设置response.setCharacterEncoding("UTF-8"),在IE中显示该页面时,在IE的菜单中选择"查看(V)"à"编码(D)"中可以查看到是" Unicode(UTF-8)",而在在JSP中设置

response.setCharacterEncoding("GBK"),在IE中显示该页面时,在IE的菜单中选择"查看(V)"à"编码(D)"中可以查看到是"简体中文(GB2312)"。

浏览器在发送数据时,对URL和参数会进行URL编码,对参数中的中文,浏览器也是使response.setCharacterEncoding参数来进行URL编码的。以百度和GOOGLE为例,如果你在百度中搜索"汉字",百度会将其编码为"%BA%BA%D7%D6"。而在GOOGLE中搜索"汉字",GOOGLE会将其编码为"%E6%B1%89%E5%AD%97",这是因为百度的

response.setCharacterEncoding参数为GBK,而GOOGLE的的response.setCharacterEncoding参数为UTF-8。

浏览器在接收服务器数据和发送数据到服务器时所使用的编码是相同的,默认情况下均为JSP页面的response.setCharacterEncoding参数(或者contentType和pageEncoding参数),我们称其为浏览器编码。当然,在IE 中可以修改浏览器编码(在IE的菜单中选择"查看(V)"à"编码(D)"中修改),但通常情况下,修改该参数会使原本正确的页面中出现乱码。一个有趣的例子是,在IE中浏览GOOGLE的主页时,将浏览器编码修改为"简体中文(GB2312)",此时,页面上的中文会变成乱码,不理它,在文本框中输入"汉字",提交,GOOGLE会将其编码为"%BA%BA%D7%D6",可见,浏览器在对中文进行URL 编码时,使用的就是浏览器编码。

弄清了浏览器是在接收和发送数据时,是如何对数据进行编码的了,我们再来看看服务器是在接收和发送数据时,是如何对数据进行编码的。

对于发送数据,服务器按照

response.setCharacterEncoding—contentType—pageEncoding的优先顺序,对要发送的数据进行编码。

对于接收数据,要分三种情况。一种是浏览器直接用URL提交的数据,另外两种是用表单的GET和POST方式提交的数据。

因为各种WEB服务器对这三种方式的处理也不相同,所以我们以Tomcat5.0为例。

无论使用那种方式提交,如果参数中包含中文,浏览器都会使用当前浏览器编码对其进行URL编码。

对于表单中POST方式提交的数据,只要在接收数据腏SP中正确request.setCharacterEncoding参数,即将对客户端请求进行重新编码的编码设置成浏览器编码,就可以保证得到的参数编码正确。有写读者可能会问,那如何得到浏览器编码呢?上面我们提过了,在默认请情况下,浏览器编码就是你在响应该请求的JSP页面中response.setCharacterEncoding设置的值。所以对于POST表单提交的数据,在获得数据的JSP页面中

request.setCharacterEncoding要和生成提交该表单的JSP页面的response.setCharacterEncoding设置成相同的值。

表单使用Post方式提交后接收到的乱码问题

这个问题也是一个常见的问题。这个乱码也是tomcat的内部编码格式

iso8859-1在捣乱,也就是说post提交时,如果没有设置提交的编码格式,则会以iso8859-1方式进行提交,接受的jsp却以utf-8的方式接受。导致乱码。既然这样的原因,下面有几种解决方式,并比较。A接受参数时进行编码转换String str=new

String(request.getParameter("something").getBytes("ISO-8859-1"),"utf-8")

;这样的话,每一个参数都必须这样进行转码。很麻烦。但确实可以拿到汉字。

B在请求页面上开始处,执行请求的编码代码,

request.setCharacterEncoding("UTF-8"),把提交内容的字符集设为UTF-8。这样的话,接受此参数的页面就不必在转码了。直接使用

String str=request.getParameter("something");即可得到汉字参数。但每页都需要执行这句话。

这个方法也就对post提交的有效果,对于get提交和上传文件时的enctype="multipart/form-data"是无效的。稍后下面单独对这个两个的乱码情况再进行说明。

C为了避免每页都要写request.setCharacterEncoding("UTF-8"),建议使用过滤器对所有jsp

进行编码处理。这个网上有很多例子。请大家自己查阅。

对于URL提交的数据和表单中GET方式提交的数据,在接收数据的JSP中设置request.setCharacterEncoding参数是不行的,因为在Tomcat5.0中,默认情况下使用ISO-8859-1对URL提交的数据和表单中GET方式提交的数据进行重新编码(解码),而不使用该参数对URL提交的数据和表单中GET 方式提交的数据进行重新编码(解码)。要解决该问题,应该在Tomcat的配置文件的Connector标签中设置useBodyEncodingForURI或者URIEncoding 属性,其中useBodyEncodingForURI参数表示是否用

request.setCharacterEncoding参数对URL提交的数据和表单中GET方式提交的数据进行重新编码,在默认情况下,该参数为false(Tomcat4.0中该参数默认为true);URIEncoding参数指定对所有GET方式请求(包括URL提交的数据和表单中GET方式提交的数据)进行统一的重新编码(解码)的编码。URIEncoding和useBodyEncodingForURI区别是,URIEncoding是对所有GET

方式的请求的数据进行统一的重新编码(解码),而useBodyEncodingForURI 则是根据响应该请求的页面的request.setCharacterEncoding参数对数据进行的重新编码(解码),不同的页面可以有不同的重新编码(解码)的编码。所以对于URL提交的数据和表单中GET方式提交的数据,可以修改URIEncoding 参数为浏览器编码或者修改useBodyEncodingForURI为true,并且在获得数据的JSP页面中request.setCharacterEncoding参数设置成浏览器编码。

表单get提交方式的乱码处理方式。解决办法:

A使用上例中的第一种方式,对接受到的字符进行解码,再转码。

B Get走的是url提交,而在进入url之前已经进行了iso8859-1的编码处理。要想影响这个编码则需要在server.xml的Connector节点增加useBodyEncodingForURI="true"

属性配置,即可控制tomcat对get方式的汉字编码方式,上面这个属性控制get提交也是用

request.setCharacterEncoding("UTF-8")所设置的编码格式进行编码。所以自动编码为utf-8,接受页

面正常接受就可以了。

Java中解决POST和GET请求的中文乱码问题

解决Java中POST和GET请求的中文乱码问题 当我们通过表单向服务器提交数据时,数据的流向是:浏览器→服务器,服务器→浏览器,如果浏览器端和服务器端所采用的编码方式不一致,就会出现乱码问题。 输入时 POST请求 服务器端获取正常编码格式的字符串 1,首先确保表单所在的页面按照指定的字符集打开 2,在服务器端按照这个编码格式解码即可 request.setCharacterEncoding("utf-8"); GET请求 1,使用meta确保表单所在页面按照指定字符集打开 2,在服务器端使用如下方式获取参数 String userName = request.getParameter("username"); userName = new String(userName.getBytes("iso-8859-1"),"UTF-8");

输出时 POST请求和GET请求一样,都需要在输出对象调用输出方法之前调用setContentType(String content)方法 response.setContentType("text/html;charset=utf-8"); 作用 1,通知容器,在调用out.println方法输出时,使用指定的字符集 2,生成消息头中content-type的值,通知浏览器,服务端返回的数据类型和字符集 注意 在JSP中,<%@page pageEncoding=”UTF-8”%> 该指令只是设置页面本身的编码,这是因为jsp文件与Servlet不同,jsp文件需要由容器来编译,所以需要为其指定编码。取值时,需要设置指定编码。 <%@page contentType=”text/html;charset=UTF-8”%> 这句话相当于:response.setContentType("text/html;charset=utf-8");

JavaMail邮件附件中文乱码问题

JavaMail附件中文名称乱码 问题: 用Javamail发邮件到邮件服务器,从邮箱中查看发现附件的中文名称变成了密码原因:不明 解决:在设置邮件附件的时候调用javax.mail.internet.MimeUtility来编码, 例如 MimeMessagemsg = new MimeMessage(session); msg.setFrom(new InternetAddress(from)); InternetAddress[] address = { new InternetAddress(to) }; msg.setRecipients(Message.RecipientType.TO, address); msg.setSubject(subject); // create and fill the first message part MimeBodyPart mbp1 = new MimeBodyPart(); mbp1.setText(msgText1); // create the second message part MimeBodyPart mbp2 = new MimeBodyPart(); // attach the file to the message mbp2.attachFile(filePath); mbp2.setFileName(MimeUtility.encodeWord(fileName)); // create the Multipart and add its parts to it Multipart mp = new MimeMultipart(); mp.addBodyPart(mbp1); mp.addBodyPart(mbp2); // add the Multipart to the message msg.setContent(mp); // set the Date: header msg.setSentDate(new Date()); /* * If you want to control the Content-Transfer-Encoding of the * attached file, do the following. Normally you should never need * to do this. * * msg.saveChanges(); mbp2.setHeader("Content-Transfer-Encoding",

解决jsp中文显示问题

解决: jsp页面中文显示问题 <%@ page pageEncoding=”gb2312″ %>,决定jsp页面编写时的编码。 <%@ page content_type=”text/html;charset=UTF-8″ %>,决定jsp页面显示在客户端浏览器的编码。 在解决这个问题的同时,我还发现了一篇至今为止我所见过的解决java中文问题最彻底的文章: 上篇:https://www.360docs.net/doc/0e17059173.html,/pcedu/empolder/gj/java/0404/ 366404.html 下篇:https://www.360docs.net/doc/0e17059173.html,/pcedu/empolder/gj/java/0405/ 368760.html 深入Java中文问题及最优解决方法 Abstract:本文深入分析了Java程序设计中Java编译器对java源文件和JVM对class类文件的编码/解码过程,通过此过程的解析透视出了Java编程中中文问题产生的根本原因,最后给出了建议的最优化的解决Java中文问题的方法。 1、中文问题的来源 计算机最初的操作系统支持的编码是单字节的字符编码,于是,在计算机中一切处理程序最初都是以单字节编码的英文为准进行处理。随着计算机的发展,为了适应世界其它民族的

语言(当然包括我们的汉字),人们提出了UNICODE编码,它采用双字节编码,兼容英文字符和其它民族的双字节字符编码,所以,目前,大多数国际性的软件内部均采用UNICODE编码,在软件运行时,它获得本地支持系统(多数时间是操作系统)默认支持的编码格式,然后再将软件内部的UNICODE转化为本地系统默认支持的格式显示出来。Java的JDK和JVM即是如此,我这里说的JDK是指国际版的JDK,我们大多数程序员使用的是国际化的JDK版本,以下所有的JDK均指国际化的JDK版本。我们的汉字是双字节编码语言,为了能让计算机处理中文,我们自己制定的gb2312、GBK、GBK2K等标准以适应计算机处理的需求。所以,大部分的操作系统为了适应我们处理中文的需求,均定制有中文操作系统,它们采用的是GBK,GB2312编码格式以正确显示我们的汉字。如:中文Win2K默认采用的是GBK编码显示,在中文WIN2k中保存文件时默认采用的保存文件的编码格式也是GBK 的,即,所有在中文WIN2K中保存的文件它的内部编码默认均采用GBK编码,注意:GBK是在GB2312基础上扩充来的。 由于Java语言内部采用UNICODE编码,所以在JAVA程序运行时,就存在着一个从UNICODE编码和对应的操作系统及浏览器支持的编码格式转换输入、输出的问题,这个转换过程有着一系列的步骤,如果其中任何一步出错,则显示出来的汉字就会出是乱码,这就是我们常见的JAVA中文问题。

java中文乱码字符集

java中文解决大全 Abstract:本文深入分析了Java程序设计中Java编译器对java源文件和JVM对class类文件的编码/解码过程,通过此过程的解析透视出了Java编程中中文问题产生的根本原因,最后给出了建议的最优化的解决Java中文问题的方法。 1.中文问题的来源 计算机最初的操作系统支持的编码是单字节的字符编码,于是,在计算机中一切处理程序最初都是以单字节编码的英文为准进行处理。随着计算机的发展,为了适应世界其它民族的语言(当然包括我们的汉字),人们提出了UNICODE编码,它采用双字节编码,兼容英文字符和其它民族的双字节字符编码,所以,目前,大多数国际性的软件内部均采用UNICODE编码,在软件运行时,它获得本地支持系统(多数时间是操作系统)默认支持的编码格式,然后再将软件内部的UNICODE转化为本地系统默认支持的格式显示出来。Java的JDK和JVM即是如此,我这里说的JDK是指国际版的JDK,我们大多数程序员使用的是国际化的JDK版本,以下所有的JDK均指国际化的JDK版本。我们的汉字是双字节编码语言,为了能让计算机处理中文,我们自己制定的gb2312、GBK、GBK2K等标准以适应计算机处理的需求。所以,大部分的操作系统为了适应我们处理中文的需求,均定制有中文操作系统,它们采用的是GBK,GB2312编码格式以正确显示我们的汉字。如:中文Win2K默认采用的是GBK编码显示,在中文WIN2k中保存文件时默认采用的保存文件的编码格式也是GBK的,即,所有在中文WIN2K中保存的文件它的内部编码默认均采用GBK编码,注意:GBK是在GB2312基础上扩充来的。 由于Java语言内部采用UNICODE编码,所以在JAVA程序运行时,就存在着一个从UNICODE编码和对应的操作系统及浏览器支持的编码格式转换输入、输出的问题,这个转换过程有着一系列的步骤,如果其中任何一步出错,则显示出来的汉字就会出是乱码,这就是我们常见的JAVA中文问题。 同时,Java是一个跨平台的编程语言,也即我们编写的程序不仅能在中文windows上运行,也能在中文Linux等系统上运行,同时也要求能在英文等系统上运行(我们经常看到有人把在中文win2k上编写的JAVA程序,移植到英文Linux上运行)。这种移植操作也会带来中文问题。 还有,有人使用英文的操作系统和英文的IE等浏览器,来运行带中文字符的程序和浏览中文网页,它们本身就不支持中文,也会带来中文问题。 几乎所有的浏览器默认在传递参数时都是以UTF-8编码格式来传递,而不是按中文编码传递,所以,传递中文参数时也会有问题,从而带来乱码现象。

Java中文乱码问题产生原因分析

Java中文乱码问题产生原因分析 在计算机中,只有二进制的数据,不管数据是在内存中,还是在外部存储设备上。对于我们所看到的字符,也是以二进制数据的形式存在的。不同字符对应二进制数的规则,就是字符的编码。字符编码的集合称为字符集。 17.1.1 常用字符集 在早期的计算机系统中,使用的字符非常少,这些字符包括26个英文字母、数字符号和一些常用符号(包括控制符号),对这些字符进行编码,用1个字节就足够了(1个字节可以表示28=256种字符)。然而实际上,表示这些字符,只使用了1个字节的7位,这就是ASCII编码。

1.ASCII ASCII(American Standard Code for Information Interchange,美国信息互换标准代码),是基于常用的英文字符的一套电脑编码系统。每一个ASCII码与一个8位(bit)二进制数对应。其最高位是0,相应的十进制数是0~127。例如,数字字符“0”的编码用十进制数表示就是48。另有128个扩展的ASCII码,最高位都是1,由一些图形和画线符号组成。ASCII是现今最通用的单字节编码系统。 ASCII用一个字节来表示字符,最多能够表示256种字符。随着计算机的普及,许多国家都将本地的语言符号引入到计算机中,扩展了计算机中字符的范围,于是就出现了各种不同的字符集。 2.ISO8859-1 因为ASCII码中缺少£、ü和许多书写其他语言所需的字符,为此,可以通过指定128以后的字符来扩展ASCII码。国际标准组织(ISO)定义了几个不同的字符集,它们是在ASCII码基础上增加了其他语言和地区需要的字符。其中最常用的是ISO8859-1,通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符,其中0~127的字符与ASCII码相同。ISO 8859另外定义了14个适用于不同文字的字符集(8859-2到8859-15)。这些字符集共享0~127的ASCII码,只是每个字符集都包含了128~255的其他字符。 3.GB2312和GBK GB2312是中华人民共和国国家标准汉字信息交换用编码,全称《信息交换用汉字编码字符集-基本集》,标准号为GB2312-80,是一个由中华人民共和国国家标准总局发布的关于简化汉字的编码,通行于中国大陆和新加坡,简称国标码。 因为中文字符数量较多,所以采用两个字节来表示一个字符,分别称为高位和低位。为了和ASCII码有所区别,中文字符的每一个字节的最高位都用1来表示。GB2312字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集,也是最基本的中文字符集。它包含了大部分常用的一、二级汉字和9区的符号,其编码范围是高位0xa1-0xfe,低位也是0xa1-0xfe,汉字从0xb0a1开始,结束于0xf 7fe。 为了对更多的字符和符号进行编码,由前电子部科技质量司和国家技术监督局标准化司于1995年12月颁布了GBK(K是“扩展”的汉语拼音第一个字母)编码规范,在新的编码系统里,除了完全兼容GB2312外,还对繁体中文、一些不常用的汉字和许多符号进行了编码。它也是现阶段Windows和其他一些中文操作系统的默认字符集,但并不是所有的国际化软件都支持该字符集。不过要注意的是GBK不是国家标准,它只是规范。GBK字符集包含了20 902个汉字,其编码范围是0x8140-0xfefe。 每个国家(或区域)都规定了计算机信息交换用的字符编码集,这就造成了交流上的困难。想像一下,你发送一封中文邮件给一位远在西班牙的朋友,当邮件通过网络发送出去的时候,你所书写的中文字符会按照本地的字符集GBK转换为二进制编码数据,然后发送出去。当你的朋友接收到邮件(二进制数据)后,查看信件时,会按照他所用系统的字符集,将二进制编码数据解码为字符,然而由于两种字符集之间编码的规则不同,导致转换出现乱码。这是因为,在不同的字符集之间,同样的数字可能对应了不同的符号,也可能在另一种字符集中,该数字没有对应符号。 为了解决上述问题,统一全世界的字符编码,由Unicode协会1制定并发布了Unicode编码。 4.Unicode Unicode(统一的字符编码标准集)使用0~65535的双字节无符号数对每一个字符进行编码。它不仅包含来自英语和其他西欧国家字母表中的常见字母和符号,也包含来自古斯拉夫语、希腊语、希伯来语、阿拉伯语和梵语的字母表。另外还包含汉语和日语的象形汉字和韩国的Hangul音节表。 目前已经定义了40000多个不同的Unicode字符,剩余25000个空缺留给将来扩展使用。其中大约20 1Unicode协会是由IBM、微软、Adobe、SUN、加州大学伯克利分校等公司和组织所组成的非营利性组织。

java读写文件避免中文乱码

1、JAVA读取文件,避免中文乱码。 /** * 读取文件内容 * * @param filePathAndName * String 如c:\\1.txt 绝对路径 * @return boolean */ public static String readFile(String filePathAndName) { String fileContent = ""; try { File f = new File(filePathAndName); if(f.isFile()&&f.exists()){ InputStreamReader read = new InputStreamReader(new FileInputStream(f),"UTF-8"); BufferedReader reader=new BufferedReader(read); String line; while ((line = reader.readLine()) != null) { fileContent += line; } read.close(); } } catch (Exception e) { System.out.println("读取文件内容操作出错"); e.printStackTrace(); } return fileContent; } 2、JAVA写入文件,避免中文乱码。 public static void writeFile(String filePathAndName, String fileContent) { try { File f = new File(filePathAndName); if (!f.exists()) { f.createNewFile(); } OutputStreamWriter write = new OutputStreamWriter(new FileOutputStream(f),"UTF-8"); BufferedWriter writer=new BufferedWriter(write); //PrintWriter writer = new PrintWriter(new BufferedWriter(new FileWriter(filePathAndName))); //PrintWriter writer = new PrintWriter(new FileWriter(filePathAndName)); writer.write(fileContent);

java乱码问题解决

Java WEB开发中的中文乱码问题解决 本文所有范例以UTF-8为例。大家可以根据自己的情况加以替换。 在开始本文之前,假设本文的读者已经熟悉或了解以下技术: - Java语法 - Java WEB开发的基本概念 - Jsp - Servlet - 至少一种支持JSP/SERVLET的Web服务器(包括安装,运行) 浏览器/WEB服务器之间的参数传递原理分析 浏览器/WEB服务器之间的中文参数传递 1,表单(form)中文参数的传递方法。我们使用一个简单的范例说明表单提交时浏览器的对中文参数的处理。 1. SubmitAsia.html 2. view plaincopy to clipboardprint? 3. 4. 5. 6. 7. 8.

9.

10.

11. 12. 13. 14. 15. 16. 17. 18.
19. 20.
21. 22. 使用任意浏览器打开该文件,在输入框内输入“你好” 中文2字,然后按submit按钮,我们注意到浏览器的地址栏: file:///C:/SubmitAsia.html?userName=%E4%BD%A0%E5%A5%BD 刚才输入“你好”二字,被转换为%E4%BD%A0%E5%A5%BD 后被发往服务器。 这个%E4%BD%A0%E5%A5%BD 是什么呢? 我们先使用一个Java程序来测试一下。如下: 1. EnDecoderUtil.java 2. view plaincopy to clipboardprint?

Java各种中文乱码问题的解决(1)get和post请求

作为java程序员,中文的乱码问题会经常碰到。过去的一个项目,我碰到了各种类型的java乱码问题。先分享给大家: 1:网页Post请求,提交后,显示提交结果,乱码。 首先确定数据库的编码方式。这里我发现,如果数据库的编码不是UTF-8,Post 请求也可以保证回显正确,但是有一个地方要注意。 如html中: (1) 这时,value中的num中文会正常显示。 (2)"/> 这时,value中的Num中文不会显示,显示乱码。 这是因为jstl标签库的原因。 虽然(1)代码可以显示中文,但仍然推荐数据库编码改成UTF-8 2:网页get请求,提交后,显示乱码。 这个问题就比较复杂了。 解决方法可以分为两步,(我们首先做了第一部,解决了大部分问题,第二步是解决特殊问题)。 我们难免使用get请求提交,如果其中有中文,那么: (1)Tomcat中: 找到 server.xml 中的 以上方法是在网上找到的,我尝试了,起不到效果,但给了我们启发,我们如下做: URIEncoding="UTF-8" 没想到成功了。我想这应该和我的操作系统的语言有关。我们是英文系统。 (2)这个是我为了解决一小部分(ajax和js动态生成的html)中提交中文问题,因为以上的方法都解决不了这个问题。我找到了如下类: public class Escape { private final static String[] hex = { "00", "01", "02", "03", "04", "05", "06", "07", "08", "09", "0A", "0B", "0C", "0D", "0E", "0F", "10", "11", "12", "13", "14", "15", "16", "17", "18", "19", "1A", "1B", "1C", "1D", "1E", "1F", "20", "21", "22", "23", "24", "25", "26",

java读取properties文件中文乱码的解决方法

java读取properties文件中文乱码的解决方法收藏 java读取properties文件时,如果包含中文,那么该中文字段读出为乱码。这是因为java中文件大多以UTF-8或GBK的方式保存,而java程序在读出properties文件时则采用unicode 编码方式,这样自然会导致中文乱码情况的发生。 这里,先重现一下该问题,然后给出解决方法。 读取properties的方法如下: view plaincopy to clipboardprint? public class TestPorperty { private InputStream is;//用于读取(.properties)文件 private Properties prop; private final String propPath="D:\\Documents and Settings\\Administrator\\桌面\\test.properties"; public TestPorperty() throws Exception{ prop=new Properties(); } public String getProperties(String key) throws Exception{ is=new FileInputStream(propPath); prop.load(is); return prop.getProperty(key); } } public class TestPorperty { private InputStream is;//用于读取(.properties)文件 private Properties prop; private final String propPath="D:\\Documents and Settings\\Administrator\\桌面\\test.properties"; public TestPorperty() throws Exception{ prop=new Properties(); } public String getProperties(String key) throws Exception{ is=new FileInputStream(propPath); prop.load(is); return prop.getProperty(key); } }

Java读写以latin1编码存储以UTF-8输出的MySQL数据库(中文乱码)

Java读写以latin1编码存储以UTF-8输出的MySQL数据库(中文乱码) (2011-09-14 20:09:26) 转载▼ 分类:MySql 标签: jdbc mysql latin1编码 utf-8编码 中文乱码 杂谈 原文:https://www.360docs.net/doc/0e17059173.html,/huyiyang2010/article/details/6202656 使用Java读写存储在latin1编码的MySQL中的UTF-8编码的中文绝大多数情况下,一个项目中,都是使用同一套编码。如,全部使用UTF-8或者GBK。 但是当涉及到多个项目合并、新手加入等情况时,不可避免出现使用多套编码的情况。所有字符串都是英文的情况还好,若是出现了中文,就导致了乱码的出现。 下面以我碰到的问题的解决方案说明。 前置说明: ============== Java MySQL UTF-8 utf8 ISO-8859-1 latin1

============== MySQL数据库使用latin1的编码,导入导出的数据是UTF-8编码的(即其与java端的交互是utf-8编码格式的),即将MySQL当做一个透明的存储。 ============================ character_set_client latin1 character_set_connection latin1 character_set_database latin1 character_set_filesystem binary character_set_results latin1 character_set_server latin1 character_set_system utf8 ============================= Java编写的导入数据程序(包括查看数据校验,即涉及到数据的导入导出) C++编写的导出数据程序(仅涉及到数据的导出) Java程序如何读写中文 第一种解决办法: 0 .Java文件设置为UTF-8编码(Eclipse的设置方法为:点击 Window->Preferences->General->Workspace->Text file encoding->Other 填入UTF-8) 1 .设置URL参数characterEncoding为utf8。示例: jdbc:mysql://127.0.0.1:3306?characterEncoding=utf8

java 乱码检测

[JAVA]判断字符串是否为乱码, 乱码检测 import java.util.regex.Matcher; import java.util.regex.Pattern; public class MessyCodeCheck { public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c); if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A || ub == Character.UnicodeBlock.GENERAL_PUNCTUATION || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS) { return true; } return false; }

public static boolean isMessyCode(String strName) { Pattern p = https://www.360docs.net/doc/0e17059173.html,pile("\\s*|\t*|\r*|\n*"); Matcher m = p.matcher(strName); String after = m.replaceAll(""); String temp = after.replaceAll("\\p{P}", ""); char[] ch = temp.trim().toCharArray(); float chLength = ch.length; float count = 0; for (int i = 0; i < ch.length; i++) { char c = ch[i]; if (!Character.isLetterOrDigit(c)) { if (!isChinese(c)) { count = count + 1; System.out.print(c); } } } float result = count / chLength; if (result > 0.4) { return true; } else {

中文乱码解决大全

JSP中文乱码问题综述 2010-08-10 14:25:31 一、Java中文问题的由来 Java的内核和class文件是基于unicode的,这使Java程序具有良好的跨平台性,但也带来了一些中文乱码问题的麻烦。原因主要有两方面,Java和JSP文件本身编译时产生的乱码问题和Java程序于其他媒介交互产生的乱码问题。 首先Java(包括JSP)源文件中很可能包含有中文,而Java和JSP源文件的保存方式是基于字节流的,如果Java和JSP编译成class文件过程中,使用的编码方式与源文件的编码不一致,就会出现乱码。基于这种乱码,建议在Java文件中尽量不要写中文(注释部分不参与编译,写中文没关系),如果必须写的话,尽量手动带参数-ecoding GBK或-ecoding gb2312编译;对于JSP,在文件头加上<%@ page contentType=text/html;charset=GBK%>或<%@ page contentType=text/html;charset=gb2312%>基本上就能解决这类乱码问题。 二、常见的解决方式 1,最基本的乱码问题。 这个乱码问题是最简单的乱码问题。一般新会出现。就是页面编码不一致导致的乱码。 <%@ page language=java pageEncoding=UTF-8%> <%@ page contentType=text/html;charset=iso8859-1%> 中文问题 我是个好人 三个地方的编码。 第一个地方的编码格式为jsp文件的存储格式。Ecljpse会根据这个编码格式保存文件。并编译jsp文件,包括里面的汉字。 第二处编码为解码格式。因为存为UTF-8的文件被解码为iso8859-1,这样如有中文肯定出乱码。也就是必须一致。而第二处所在的这一行,可以没有。缺省也是使用iso8859-1的编码格式。所以如果没有这一行的话,“我是个好人”也会出现乱码。必须一致才可以。 第三处编码为控制浏览器的解码方式。如果前面的解码都一致并且无误的话,这个编码格式没有关系。有的网页出现乱码,就是因为浏览器不能确定使用哪种编码格式。因为页面有时候会嵌入页面,导致浏览器混淆了编码格式。出现了乱码。 2,表单使用Post方式提交后接收到的乱码问题 这个问题也是一个常见的问题。这个乱码也是tomcat的内部编码格式iso8859-1在捣乱,也就是说post 提交时,如果没有设置提交的编码格式,则会以iso8859-1方式进行提交,接受的jsp却以utf-8的方式接受。导致乱码。既然这样的原因,下面有几种解决方式,并比较。 A,接受参数时进行编码转换 String str = new String(request.getParameter(something).getBytes(ISO-8859-1),utf-8) ;这样

java swing 乱码问题解决

解决jLabel中文乱码的办法 Java代码 1.// label.setFont(new Font("Courier New", Font.PLAIN, 9));中文有乱 码 2. label.setFont(new Font("MS Song", Font.PLAIN, 12)); 或者在swing frame初始化的时候: UIManager.setLookAndFeel ( new WebLookAndFeel () ); UIManager.put("Panel.font", new Font("Dialog", Font.PLAI N, 12)); Toolkit.getDefaultToolkit().setDynamicLayout(true); System.setProperty("sun.awt.noerasebackground", "true"); UIManager.put("Panel.font", new Font("Dialog", 0, 12)); UIManager.put("Label.font", new Font("Dialog", 0, 12)); UIManager.put("Button.font", new Font("Dialog", 0, 12)); UIManager.put("CheckBox.font", new Font("Dialog", 0, 1 2)); UIManager.put("ComboBox.font", new Font("Dialog", 0, 1 2)); UIManager.put("RadioButton.font", new Font("Dialog", 0, 1 2)); UIManager.put("Menu.font", new Font("Dialog", 0, 12)); UIManager.put("MenuItem.font", new Font("Dialog", 0, 1 2)); UIManager.put("TitledBorder.font", new Font("Dialog ", 0, 12)); UIManager.put("TabbedPane.font", new Font("Dialog", 0, 1 2)); UIManager.put("List.font", new Font("Dialog", 0, 12)); UIManager.put("InternalFrame.titleFont", new Font("Dialog ", 0, 12)); UIManager.put("CheckBoxMenuItem.font", new Font("Dialog ", 0, 12)); UIManager.put("Table.font", new Font("Dialog", 0, 12)); UIManager.put("TableHeader.font", new Font("Dialog", 0, 1 2)); UIManager.put("TextField.font", new Font("Dialog", 0, 1 2)); UIManager.put("TextArea.font", new Font("Dialog", 0, 1 2));

Java应用中的汉字乱码问题分析_刘长生

Java应用中的汉字乱码问题分析 刘长生,谢强,丁秋林 (南京航空航天大学计算机应用研究所,江苏南京210016) 摘要:根据Java应用中乱码出现的原因将问题分成了4类:由于编译不当导致的乱码、Web 应用中的乱码、数据库读写中 的乱码和I/O读写中的乱码。在各个类别中,先给出出现乱码时的现象,然后对现象进行原因分析,再给出解决的办法。最 后,根据做项目的实践经验,给出了一些解决汉字乱码问题的心得。 关键词:Java;字符集;中文乱码 中图分类号:TP319文献标识码:A文章编号:1005-3751(2006)01-0158-04 Analysis of Chinese Character Encoding in Java Programming LIU Chang-sheng,XIE Qiang,DING Qiu-lin (Computer Application Institute,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China) Abstract:First classify the problems into four catalogs according to different causes:incorrect compiling,communication Web application, R/W in database and R/W in I/O.After that,analyze the cause of phenomenon,and then give a solution in each catalog.Finally,come up with some conclusions which were summarized from practical project. Key words:Java;character set;Chinese character encoding 0前言 现在大部分具有国际化特征的软件核心字符处理都 是以Unicode为基础的,在软件运行时根据当时的 Locale/Lang/Codepage设置确定相应的本地字符编码设 置,并依此处理本地字符[1]。在处理过程中需要实现 Unicode和本地字符集的相互转换,甚或以Unicode为中 间的两个不同本地字符集的相互转换。这种方式在网络环 境下被进一步延伸,任何网络两端的字符信息也需要根据 字符集的设置转换成可接受的内容[2]。 Java语言在内部采用Unicode表示字符,遵守Unicode V2.0。Java程序无论是从/往文件系统以字符流读/写文 件,还是往URL连接写HTML信息,或从URL连接读取 参数值,都会有字符编码的转换。这样做虽然增加了编程 的复杂度,容易引起混淆,但却符合国际化的思想。

java中文乱码问题解决方案

Java中文问题一直困扰着很多初学者,如果了解了Java系统的中文问题原理,我们就可以对中文问题能够采取根本的解决之道。 最古老的解决方案是使用String的字节码转换,这种方案问题是不方便,我们需要破坏对象封装性,进行字节码转换。 还有一种方式是对J2EE容器进行编码设置,如果J2EE应用系统脱离该容器,则会发生乱码,而且指定容器配置不符合J2EE应用和容器分离的原 则。 在Java内部运算中,涉及到的所有字符串都会被转化为UTF-8编码来进行运算。那么,在被Java转化之前,字符串是什么样的字符集? Java总 是根据操作系统的默认编码字符集来决定字符串的初始编码,而且Java系统的输入和输出的都是采取操作系统的默认编码。 因此,如果能统一Java系统的输入、输出和操作系统3者的编码字符集合,将能够使Java 系统正确处理和显示汉字。这是处理Java系统汉字的 一个原则,但是在实际项目中,能够正确抓住和控制住Java系统的输入和输出部分是比较难的。J2EE中,由于涉及到外部浏览器和数据库等, 所以中文问题乱码显得非常突出。 J2EE应用程序是运行在J2EE容器中。在这个系统中,输入途径有很多种:一种是通过页面表单打包成请求(request)发往服务器的;第二种 是通过数据库读入;还有第3种输入比较复杂,JSP在第一次运行时总是被编译成Servlet,JSP中常常包含中文字符,那么编译使用javac时, Java将根据默认的操作系统编码作为初始编码。除非特别指定,如在Jbuilder/eclipse中可以指定默认的字符集。 输出途径也有几种:第一种是JSP页面的输出。由于JSP页面已经被编译成Servlet,那么在输出时,也将根据操作系统的默认编码来选择输出编 码,除非指定输出编码方式;还有输出途径是数据库,将字符串输出到数据库。 由此看来,一个J2EE系统的输入输出是非常复杂,而且是动态变化的,而Java是跨平台运行的,在实际编译和运行中,都可能涉及到不同的操 作系统,如果任由Java自由根据操作系统来决定输入输出的编码字符集,这将不可控制地出现乱码。

java中文乱码终极解决方案

中文乱码终极解决方案 乱码问题好像跟我们中国程序员特别有缘,一直困扰着我们,从开始的JSP乱码问题,STRUTS乱码问题,到现在的AJAX乱码问题,无一不是搞得许多程序员焦头烂额的,整天骂XXX产品对中文支持不了,UTF-8无法使用中文啊什么的,其实这里面被骂的产品中其实99%以上是对中文支持非常好的,而出现乱码的原因只是因为自身对国际化支持以及文件编码等信息的认识不知造成的。要知道一个产品那么流行,怎么可能对中文支持不了呢,下面就开始一一帮大家解决这些问题。 1 、编码 --想要解决好中文问题,对编码肯定是不能一概不懂了,编码是解决中文乱码问题的根本。 编码比较常用的有: UTF-8 , GBK , GB2312 , ISO-8859-1 ,除了 iso-8859-1 之外的其它三个编码都能很好的支持中文,但它们都兼容 ISO-8859-1 的编码(就是说无论编码怎么改变,只要是 ISO-8859-1 中的字符,永远不会出现乱码)。 这四种编码中, GB2312 是中国规定的汉字编码,也可以说是简体中文的字符集编码 ; GBK 是 GB2312 的扩展 , 除了兼容 GB2312 外,它还能显示繁体中文,还有日文的假名 ; 而 UTF-8 虽然也支持中文,但却与 GB 码不兼容(编码值不同)。 UTF-8 使用的是可变长的 UNICODE 编码,编码可能是 1 位 16 进制(即 ISO-8859-1 中的字符,其编码也是相同的)也有可能是 2 位或 3 位的 16 进制。 UTF-8 的优点是:1 、与 CPU 字节顺序无关 , 可以在不同平台之间交流。 2 、容错能力高 , 任何一个字节损坏后 , 最多只会导致一个编码码位损失 , 不会链锁错误 ( 如 GB 码错一个字节就会整行乱码 ) ,所以在国际化处理中基本都是建议使用 UTF-8 作为编码。 2、文件的编码 --虽然说只要设置了正确的编码就可以使字符正确显示了,但如果忽略了文件保存时的编码的话,那可是会让你走进迷雾中的。 文件编码最常使用的有两种:ANSI和UTF-8,光看名字估计你都可以猜到了,ANSI就是我们保存文件时使用的默认编码,而UTF-8则需自己设置。对于编码的改变,我使用的工具是NOTEPAD和ECLIPSE,NOTEPAD 使用最简单,只要打开文件后在另存为中选择相应的编码就行了,而且它对编码的支持非常好;而在ECLIPSE 中,只要稍微设置一下就行了,打开首选项,然后选择:常规->内容类型(ContentType),在右边选中你想改变保存编码的文件类型,然后在下方的缺省编码中改变其值,最后点击更新(UPDATE)按钮即可。 而在其它的编辑器中,默认保存的内容都是GB2312或者GBK(NOTEPAD中对应ANSI).而根据前面所说的UTF-8和GBK,GB2312等的编码值是不同的这一点,可以知道,如果文件使用了UTF-8,那么字符编码就必须使用UTF-8,否则编码值的不同就可能造成乱码。而这也就是为什么那么多的人使用了UTF-8编码后还会产生乱码的根本原因。(JS和JSP都是这个道理) 3、JSP,STRUTS等的中文乱码解决方案 其实解决的方法只有一个: request.setCharacterEncoding(encoding); 方法只有一种,但处理方式就多种多样了,初学者会在JSP页面上直接使用,而有经验的程序员会使用过滤器。而现在所要说的方法也是过滤器。这里以统一使用UTF-8作为编码作为例子说明。具体过程就不多说了,网上有很多教程。偷懒一点的,到TOMCAT中复制就行了。在TOMCAT的目录下的 \webapps\jsp-examples\WEB-INF\classes\filters\找到SetCharacterEncodingFilter.java 这个类,放到你的程序中并配置好映射路径。配置好后基本上你的乱码问题就解决了。但要映射路径中需要注意的就是不能使用 '*' < filter-mapping > < filter-name > Set Character Encoding

相关主题
相关文档
最新文档