Java应用中的汉字乱码问题分析_刘长生
Java应用中的汉字乱码问题分析
刘长生,谢强,丁秋林
(南京航空航天大学计算机应用研究所,江苏南京210016)
摘要:根据Java应用中乱码出现的原因将问题分成了4类:由于编译不当导致的乱码、Web 应用中的乱码、数据库读写中
的乱码和I/O读写中的乱码。在各个类别中,先给出出现乱码时的现象,然后对现象进行原因分析,再给出解决的办法。最
后,根据做项目的实践经验,给出了一些解决汉字乱码问题的心得。
关键词:Java;字符集;中文乱码
中图分类号:TP319文献标识码:A文章编号:1005-3751(2006)01-0158-04
Analysis of Chinese Character Encoding in Java Programming
LIU Chang-sheng,XIE Qiang,DING Qiu-lin
(Computer Application Institute,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China)
Abstract:First classify the problems into four catalogs according to different causes:incorrect compiling,communication Web application,
R/W in database and R/W in I/O.After that,analyze the cause of phenomenon,and then give a solution in each catalog.Finally,come up
with some conclusions which were summarized from practical project.
Key words:Java;character set;Chinese character encoding
0前言
现在大部分具有国际化特征的软件核心字符处理都
是以Unicode为基础的,在软件运行时根据当时的
Locale/Lang/Codepage设置确定相应的本地字符编码设
置,并依此处理本地字符[1]。在处理过程中需要实现
Unicode和本地字符集的相互转换,甚或以Unicode为中
间的两个不同本地字符集的相互转换。这种方式在网络环
境下被进一步延伸,任何网络两端的字符信息也需要根据
字符集的设置转换成可接受的内容[2]。
Java语言在内部采用Unicode表示字符,遵守Unicode
V2.0。Java程序无论是从/往文件系统以字符流读/写文
件,还是往URL连接写HTML信息,或从URL连接读取
参数值,都会有字符编码的转换。这样做虽然增加了编程
的复杂度,容易引起混淆,但却符合国际化的思想。
中文编码有GB2312,GBK,BIG5,GB18030-2000等,
Jdk1.5已经支持GB18030-2000,如果不熟悉Java中的中
文处理方式及相应规范,就很容易造成乱码问题。在很多
种情况下都可能导致Java的中文乱码问题,可以把这些情
况大致分成如下几类:由于编译不当导致的乱码、Web应
用中的乱码、数据库读写中的乱码和I/O读写中的乱码。
下面文中对这几种情况做逐一探讨。
1由于编译不当导致的乱码
1.1现象
下例是一个类的代码片断:
public void encodingTest(){
String str=“你”;
System.out.println(str);
}
上例在中文平台上缺省编译(-Encoding GB2312),
生成ZhClass,在英文平台上缺省编译(-Encoding
ISO8859-1),生成EnClass。ZhClass在中文平台上执行可
以正确显示汉字“你”,但是在英文平台上会出现乱码“?”。EnClass在英文平台上执行可以正确显示汉字“你”,但是
在中文平台上会出现乱码“??”。
1.2原因分析
编译Java源程序要调用Javac,如果没有指定
Encoding,则按照系统的默认Encoding。中文平台上是
GB2312,英文平台上是ISO8859-1。Java的编译器实际上
是调用sun.tools.Javac.Main这个类对源文件进行编译,
这个类的compile函数中间有一个encoding的变量,- encoding的参数其实直接传给encoding变量。编译器就是根据这个变量来读取Java文件的,然后用UTF-8形式编
译成class文件[3]。
(1)对于7位的Unicode(单字节,高位为0),在其首位
加0即可,即:
0_______
(2)对于11位的Unicode(两个字节,高位字节高五位
为0),在其首位前加110,在第六位和第七位之间添加10,
即:
1 1 0_____1 0______
(3)对于16位的Unicode(两个字节,高位字节高五位
中有的不为0),在其首位前加111 0,在第六位和第七位之
间添加10,在十二和十三位之间添加10,即:
1 1 1 0____1 0______1 0______
如果用GB2312进行编译,编译器首先以GB2312对
读进来的字节进行解码,字符串“你”的GB2312码为
0xC4E3,然后转变成相应的Unicode,字符串“你”的Unicode为0x4F60。0x4F60的二进制是0 1 0 0 1 1 1 1--
0 1 1 0 0 0 0 0,根据规则用UTF-8补齐,变成:11100100
--10111101--10100000(E4--BD--A0),所以在生
成的class文件中会有E4,BD,A0字段。其过程如图1所示。
图1在中文平台编译流程
同样的道理,如果用ISO8859-1进行编译,编译器首
先以ISO8859-1对读进来的字节进行解码,其中字符串“你”的原始编码为0xC4E3,然后转变成相应的Unicode, 其中字符串“你”的Unicode为0x00C4,0x00E3(ISO8859 系列字符集是单字节字符集,所以映射到Unicode要高字
节补0)。0x00C4的二进制是00000000--11000100,因为
每个字符都大于7位,因此用11位编码,根据规则用UTF
-8补齐,变成11000011--10000100(C3--84)。同理类
推,0x00E3会变成11000011--10100011(C3--A3),所
以在生成的class文件中会存在C3,84,C3,A3字段,其过
程如图2所示。
图2在英文平台编译流程
在中文平台上缺省编译后,其实str在运行态的
char[]是0x4F60,ZhClass在中文平台上运行,系统的缺省
编码是GB2312,因此CharToByteConverter(在sun.io的包中)会自动用调用GB2312的converter,把str转化成
0xC4E3,所以系统打印出“你”。但是如果ZhClass是在英
文平台下运行,CharToByteConverter的缺省值是
ISO8859-1,系统会自动调用ISO8859-1去转化str,但是
它无法解释,这时系统把它转变成0x3F(?的ISO8859-1
的编码),因此系统会输出“?”,出现了乱码。在英文平台上缺省编译后,其实str在运行态的char[]是0x00C4
0x00E3,EnClass在中文平台上运行,中文系统无法识别
0x00C4 0x00E3,因此会出现乱码“??”,但是,当EnClass在英文平台上运行,0x00C4被转化成0xC4,0x00E3被转化
成0xE3,所以可以正确显示汉字“你”(其实每次显示“半”个汉字)。
1.3解决办法
通过以上分析可以总结出对于此类问题的解决办法
是:对于放在操作系统中的.Java源程序,在编译时,要指
定它内容的编码格式,具体来说用-encoding来指定。如
果源程序中含有中文字符,而用-encoding指定为其它的
编码字符,显然是要出错的。用-encoding指定源文件的
编码方式为GBK或GB2312,无论在什么系统上编译含有
中文字符的Java源程序都不会有问题,它都会正确地将中
文转化为UTF-8存储在类文件中[3]。
2Web应用中的乱码问题
2.1现象
从一个JSP页面输入的中文被处理后返回的结果却
是一些问号或乱码。
2.2原因分析
图3说明了从JSP源文件到客户端的流程。
图3Web服务器处理示意图
在这一过程中有字符编码转换的地方包括:
1)JSP编译:Java应用服务器将根据JVM的file.
encoding值读取JSP源文件,编译生成Java源文件,再根据file.encoding值写回文件系统。
2)Java源文件被编译为class文件:这个过程与一般的
源程序编译成class文件相同。从这里开始Servlet和JSP的运行就类似了,只不过Servlet的编译不是自动进行的。对
于JSP程序,对产生的Java中间文件的编译是自动进行的(在程序中直接调用sun.tools.Javac.Main类)。
3)客户端读取服务器段的输出和服务器端读客户端
的输入:Servlet需要将HTML页面内容转换为browser可
接受的encoding(用content-type指定)内容发送出去。在
目前的Servlet的规范中,如果不指定的话,通过Web提交
时输入的ServletRequest和输出时的ServletResponse缺省都是以ISO8859-1进行编码/解码的(这里的编码/解码
方式是和操作系统环境中的语言环境是无关的)。因此,即
使服务器操作系统的语言环境是中文,上面输入的请求仍
然按英文解码成8个Unicode字符,输出时仍按照英文再
编码成8个字节,虽然这样在浏览器端如果设置是中文能
够正确显示,但实际上读写的是“字节”。如下例:从一个中文客户端的浏览器表单中提交“世界你好”这4个中文字到服务器时,首先浏览器按照GBK方式编码成字节流CA
C0 BD E7 C4 E3 BA C3,然后8个字节按照URLEncoding
的规范转成%CA%C0%BD%E7%C4%E3%BA%C3,正
是因为传入的是GBK/GB2312编码,而服务器却以
ISO8859-1处理,因此才出现结果的乱码。
2.3解决办法
在JSP编译时,如果当前系统语言支持GBK,那么这
时候不会出现encoding问题。如果是英文的系统,则要将JVM的file.encoding值置成GBK。系统语言如果是
GB2312,则根据需要,确定要不要设置file.encoding,将
file.encoding设为GBK可以解决潜在的GBK字符乱码问题。
在客户端读取服务器端的输出和服务器端读客户端
的输入时,解决这种乱码的正确的方式是应该根据客户端
浏览器设置ServletRequest和ServletResponse,用相应语言的编码方式进行输入解码/输入编码,例如,当根据浏览
器的头信息中的“Accept-Language”为zh-cn(中文)时,
设置请求的解码方式和输出的字符集编码方式使用
GBK:
String clientLan=request.getHeader(“Accept-Language”);
if(clientLan.equals(“zh-cn”)){
request.setCharacterEncoding(“GBK”);
response.setContentType(“text/html;charset=GBK”); }
另外,在Servlet的源代码中尽量不要有中文:因为在
MVC(Model View Controller)模式中,Servlet主要是控制
器(C)的角色,因此,应该通过ResourceBundle机制由Servlet控制转向到相应的显示器(JSP或者XSLT)中,所
以应该将与本地界面语言相关的界面显示的部分从Servlet和后台的模块中完全剥离出来,放到相应的ResourceBundle文件中或者XSLT文件中。这样源程序里完全是英文,编译时完全不需要考虑字符集的问题。如果Servlet实在需要包含中文,则需要设置应用服务器的
Javac编译选项,加上-encoding选项成系统缺省的字符
集,如果把用中文编写的字符按照英文方式解码编译,然
后再按照英文方式输出,虽然结果表面正确,实际上都成
了面向“字节”编程[4]。如果Web应用仅限于中文用户,可在Web服务器的web.xml中进行配置来解决中文乱码问题,比如可在weblogic的web.xml中加入如下配置:
或者在weblogic.xml里加上如下配置:
3数据库应用中的乱码问题
数据库中的乱码问题和Web应用中的乱码问题类
似,都是因为传入的是GBK/GB2312编码,而对方却以
ISO8859-1处理。对于这类问题的解决办法是:
1)在Java程序这边指定输出编码是GBK/GB2312。
2)在数据库方面设置指定传入/输出的编码是
GBK/GB2312。如:在mysql中,可以在配置文件my.ini中
加入以下语句实现。
在[mysqld]区增加:
default-character-set=GBK
并增加:
[client]
default-character-set=GBK
在SQL Server中,可以将数据库默认的语言设置为
Simplified Chinese来达到目的。
4I/O读写中的乱码问题
对于这种情况,建议在程序编写时,如果需要从用户
端接收用户的可能含有中文的输入或含有中文的输出,程
序中应该采用字符流来处理输入和输出,如下例:
import Java.io.*;
public class Read{
public static void main(String[]args)throws IOException{
String str=“n测试,这是内部中文字符串”+“nthis is english character”;
String strin= “”;
InputStreamReader isr=new InputStreamReader(System.in, “GB2312”);
OutputStreamWriterosw=new OutputStreamWriter(System. out,“GB2312”);
BufferedReader stdin=new BufferedReader(isr);//设置输入
接口按中文编码
BufferedWriter stdout=new BufferedWriter(osw);//设置输
出接口按中文编码
stdout.write(“请输入中文:”);
stdout.flush();
strin=stdin.readLine();
stdout.write(“您输入的中文是:”+strin);
stdout.write(str);
stdout.flush();
}
}
同时,在编译程序时,用以下方式来进行:
Javac-encoding GB2312 Read.Java
结果如图4所示。
图4I/O读写测试结果
5结束语
由以上讨论可了解到:当Java编译器读源文件时,默
认按file.encoding属性进行。但是生成的class文件,无论在哪种平台下都用UTF-8进行存储。在Java读class文件
时,一律用UTF-8进行。在Java字节流到字符流(或者反
之)都是用含有隐含的解码处理的(缺省是按照系统缺省
编码方式),最早的字节流解码过程从Javac的代码编译就
开始了。Java中的字符character存储单位是双字节的
Unicode[1],而英文字符无论怎么转换都不会失真,因为在
不同的字符集里这一部分是兼容的。归根到底,Java中的
中文乱码问题的产生是由于向系统里传入了错误的
encoding参数。
总之,Java的创始者(Java Soft)已经考虑到Java编程
语言对多国字符的支持,只是现在的解决方案有很多缺陷
在里面,需要额外付诸一些补偿性的措施[5]。而世界标准
化组织也在努力把人类所有的文字统一在一种编码之中,
其中一种方案是ISO10646,它用4个字节来表示一个字
符。当然,在这种方案未被采用之前,还是希望Java Soft能
够严格地测试它的产品,为用户带来更多的方便。
参考文献:
[1]Sun White Paper.Internationalization[EB/OL].http://Java. https://www.360docs.net/doc/c015644049.html,,2001.
[2]Eckel B.Thinkingin Java(Second Edition)[M].北京:机械工业出版社,2002.
[3]Sundy F.Java中文问题详解[EB/OL].http://www.99net. net,2003.
[4]车东.Java中文处理学习笔记[EB/OL].http://www. https://www.360docs.net/doc/c015644049.html,,2005-03-16.
[5]文心.Jsp乱码分析[EB/OL].https://www.360docs.net/doc/c015644049.html,, 2004.
(上接第136页)
库表二执行SQL.Clear清空;使用SQL.Add(`Select*
from Tk2picture where id=:id')语句和Parameters. ParamByName(`id').value: =ADOQuery1.
FieldByName(`id').asInteger语句定位;使用open语句打
开图库表二;使用TBlobField(ADOQuery2.
FieldByName(`tu')).SaveToFile(Ftu)语句从图库表二中
查询出相应图片并存储成图文件Ftu。然后将图库表一的
有关记录字段和图库表二检索出并存储为Ftu的图文件
传递给列表视图ListView1组件所设项目。依此循环,直到查完所有符合该图片类别的记录,将查询结果放入列表视
图ListView1组件框内供显示调用[4]。
2.2按双结构形式设计网络图库获得的效果
按照双结构形式设计方法建成的网络图库,经调试运
行,使用者确实感到图库通过网络打开运行时速度比原来
得快多,用户在终端屏幕前等待的时间大大缩短。在图片
经过优化处理,入库图片达到4258幅后,在网速大致相同
的环境下做了测试:图库通过网络打开时用户在屏幕前等
待约2秒时间,完全达到了实用要求,使用者感到满意。
3结论
一般情况下采用单结构形式设计网络图库比较合适,
即将网络图库的各个字段和图作为一条记录结构,数据字
段之间不产生任何冗余。而对于较大型的、要求保存图片质量比较高、存储字节比较多、调用方式多变、调用比较频繁的网络图库,采用双结构形式设计网络图库比较适合,
即将图库记录中所有文字、数据、时间等类通过网络调用速度比较快的信息字段作为一种结构,而将图ID字段和
通过网络调用速度比较慢的图信息字段作为另一种结构,
两种结构之间通过图片ID建立对应联系。这样一来,通过
编程和使用技巧,可以大大提高通过网络调用图片的速
度。
参考文献:
[1]王定,陈波.Internet简明教程[M].北京:清华大学出版社,2005.
[2]张春林,马成勇,刘均.Delphi7数据库系统设计与开发[M].北京:清华大学出版社,2003.
[3]求是科技.SQL Server 2000数据库管理与开发技术大全[M].北京:人民邮电出版社,2004.
[4]张立科.Delphi7组件编程参考手册[M].北京:人民邮电出版社,2003.
[5]刘艺.Delphi模式编程[M].北京:机械工业出版社, 2004.
Java中解决POST和GET请求的中文乱码问题
解决Java中POST和GET请求的中文乱码问题 当我们通过表单向服务器提交数据时,数据的流向是:浏览器→服务器,服务器→浏览器,如果浏览器端和服务器端所采用的编码方式不一致,就会出现乱码问题。 输入时 POST请求 服务器端获取正常编码格式的字符串 1,首先确保表单所在的页面按照指定的字符集打开 2,在服务器端按照这个编码格式解码即可 request.setCharacterEncoding("utf-8"); GET请求 1,使用meta确保表单所在页面按照指定字符集打开 2,在服务器端使用如下方式获取参数 String userName = request.getParameter("username"); userName = new String(userName.getBytes("iso-8859-1"),"UTF-8");
输出时 POST请求和GET请求一样,都需要在输出对象调用输出方法之前调用setContentType(String content)方法 response.setContentType("text/html;charset=utf-8"); 作用 1,通知容器,在调用out.println方法输出时,使用指定的字符集 2,生成消息头中content-type的值,通知浏览器,服务端返回的数据类型和字符集 注意 在JSP中,<%@page pageEncoding=”UTF-8”%> 该指令只是设置页面本身的编码,这是因为jsp文件与Servlet不同,jsp文件需要由容器来编译,所以需要为其指定编码。取值时,需要设置指定编码。 <%@page contentType=”text/html;charset=UTF-8”%> 这句话相当于:response.setContentType("text/html;charset=utf-8");
JavaMail邮件附件中文乱码问题
JavaMail附件中文名称乱码 问题: 用Javamail发邮件到邮件服务器,从邮箱中查看发现附件的中文名称变成了密码原因:不明 解决:在设置邮件附件的时候调用javax.mail.internet.MimeUtility来编码, 例如 MimeMessagemsg = new MimeMessage(session); msg.setFrom(new InternetAddress(from)); InternetAddress[] address = { new InternetAddress(to) }; msg.setRecipients(Message.RecipientType.TO, address); msg.setSubject(subject); // create and fill the first message part MimeBodyPart mbp1 = new MimeBodyPart(); mbp1.setText(msgText1); // create the second message part MimeBodyPart mbp2 = new MimeBodyPart(); // attach the file to the message mbp2.attachFile(filePath); mbp2.setFileName(MimeUtility.encodeWord(fileName)); // create the Multipart and add its parts to it Multipart mp = new MimeMultipart(); mp.addBodyPart(mbp1); mp.addBodyPart(mbp2); // add the Multipart to the message msg.setContent(mp); // set the Date: header msg.setSentDate(new Date()); /* * If you want to control the Content-Transfer-Encoding of the * attached file, do the following. Normally you should never need * to do this. * * msg.saveChanges(); mbp2.setHeader("Content-Transfer-Encoding",
解决jsp中文显示问题
解决: jsp页面中文显示问题 <%@ page pageEncoding=”gb2312″ %>,决定jsp页面编写时的编码。 <%@ page content_type=”text/html;charset=UTF-8″ %>,决定jsp页面显示在客户端浏览器的编码。 在解决这个问题的同时,我还发现了一篇至今为止我所见过的解决java中文问题最彻底的文章: 上篇:https://www.360docs.net/doc/c015644049.html,/pcedu/empolder/gj/java/0404/ 366404.html 下篇:https://www.360docs.net/doc/c015644049.html,/pcedu/empolder/gj/java/0405/ 368760.html 深入Java中文问题及最优解决方法 Abstract:本文深入分析了Java程序设计中Java编译器对java源文件和JVM对class类文件的编码/解码过程,通过此过程的解析透视出了Java编程中中文问题产生的根本原因,最后给出了建议的最优化的解决Java中文问题的方法。 1、中文问题的来源 计算机最初的操作系统支持的编码是单字节的字符编码,于是,在计算机中一切处理程序最初都是以单字节编码的英文为准进行处理。随着计算机的发展,为了适应世界其它民族的
语言(当然包括我们的汉字),人们提出了UNICODE编码,它采用双字节编码,兼容英文字符和其它民族的双字节字符编码,所以,目前,大多数国际性的软件内部均采用UNICODE编码,在软件运行时,它获得本地支持系统(多数时间是操作系统)默认支持的编码格式,然后再将软件内部的UNICODE转化为本地系统默认支持的格式显示出来。Java的JDK和JVM即是如此,我这里说的JDK是指国际版的JDK,我们大多数程序员使用的是国际化的JDK版本,以下所有的JDK均指国际化的JDK版本。我们的汉字是双字节编码语言,为了能让计算机处理中文,我们自己制定的gb2312、GBK、GBK2K等标准以适应计算机处理的需求。所以,大部分的操作系统为了适应我们处理中文的需求,均定制有中文操作系统,它们采用的是GBK,GB2312编码格式以正确显示我们的汉字。如:中文Win2K默认采用的是GBK编码显示,在中文WIN2k中保存文件时默认采用的保存文件的编码格式也是GBK 的,即,所有在中文WIN2K中保存的文件它的内部编码默认均采用GBK编码,注意:GBK是在GB2312基础上扩充来的。 由于Java语言内部采用UNICODE编码,所以在JAVA程序运行时,就存在着一个从UNICODE编码和对应的操作系统及浏览器支持的编码格式转换输入、输出的问题,这个转换过程有着一系列的步骤,如果其中任何一步出错,则显示出来的汉字就会出是乱码,这就是我们常见的JAVA中文问题。
java中文乱码字符集
java中文解决大全 Abstract:本文深入分析了Java程序设计中Java编译器对java源文件和JVM对class类文件的编码/解码过程,通过此过程的解析透视出了Java编程中中文问题产生的根本原因,最后给出了建议的最优化的解决Java中文问题的方法。 1.中文问题的来源 计算机最初的操作系统支持的编码是单字节的字符编码,于是,在计算机中一切处理程序最初都是以单字节编码的英文为准进行处理。随着计算机的发展,为了适应世界其它民族的语言(当然包括我们的汉字),人们提出了UNICODE编码,它采用双字节编码,兼容英文字符和其它民族的双字节字符编码,所以,目前,大多数国际性的软件内部均采用UNICODE编码,在软件运行时,它获得本地支持系统(多数时间是操作系统)默认支持的编码格式,然后再将软件内部的UNICODE转化为本地系统默认支持的格式显示出来。Java的JDK和JVM即是如此,我这里说的JDK是指国际版的JDK,我们大多数程序员使用的是国际化的JDK版本,以下所有的JDK均指国际化的JDK版本。我们的汉字是双字节编码语言,为了能让计算机处理中文,我们自己制定的gb2312、GBK、GBK2K等标准以适应计算机处理的需求。所以,大部分的操作系统为了适应我们处理中文的需求,均定制有中文操作系统,它们采用的是GBK,GB2312编码格式以正确显示我们的汉字。如:中文Win2K默认采用的是GBK编码显示,在中文WIN2k中保存文件时默认采用的保存文件的编码格式也是GBK的,即,所有在中文WIN2K中保存的文件它的内部编码默认均采用GBK编码,注意:GBK是在GB2312基础上扩充来的。 由于Java语言内部采用UNICODE编码,所以在JAVA程序运行时,就存在着一个从UNICODE编码和对应的操作系统及浏览器支持的编码格式转换输入、输出的问题,这个转换过程有着一系列的步骤,如果其中任何一步出错,则显示出来的汉字就会出是乱码,这就是我们常见的JAVA中文问题。 同时,Java是一个跨平台的编程语言,也即我们编写的程序不仅能在中文windows上运行,也能在中文Linux等系统上运行,同时也要求能在英文等系统上运行(我们经常看到有人把在中文win2k上编写的JAVA程序,移植到英文Linux上运行)。这种移植操作也会带来中文问题。 还有,有人使用英文的操作系统和英文的IE等浏览器,来运行带中文字符的程序和浏览中文网页,它们本身就不支持中文,也会带来中文问题。 几乎所有的浏览器默认在传递参数时都是以UTF-8编码格式来传递,而不是按中文编码传递,所以,传递中文参数时也会有问题,从而带来乱码现象。
Java中文乱码问题产生原因分析
Java中文乱码问题产生原因分析 在计算机中,只有二进制的数据,不管数据是在内存中,还是在外部存储设备上。对于我们所看到的字符,也是以二进制数据的形式存在的。不同字符对应二进制数的规则,就是字符的编码。字符编码的集合称为字符集。 17.1.1 常用字符集 在早期的计算机系统中,使用的字符非常少,这些字符包括26个英文字母、数字符号和一些常用符号(包括控制符号),对这些字符进行编码,用1个字节就足够了(1个字节可以表示28=256种字符)。然而实际上,表示这些字符,只使用了1个字节的7位,这就是ASCII编码。
1.ASCII ASCII(American Standard Code for Information Interchange,美国信息互换标准代码),是基于常用的英文字符的一套电脑编码系统。每一个ASCII码与一个8位(bit)二进制数对应。其最高位是0,相应的十进制数是0~127。例如,数字字符“0”的编码用十进制数表示就是48。另有128个扩展的ASCII码,最高位都是1,由一些图形和画线符号组成。ASCII是现今最通用的单字节编码系统。 ASCII用一个字节来表示字符,最多能够表示256种字符。随着计算机的普及,许多国家都将本地的语言符号引入到计算机中,扩展了计算机中字符的范围,于是就出现了各种不同的字符集。 2.ISO8859-1 因为ASCII码中缺少£、ü和许多书写其他语言所需的字符,为此,可以通过指定128以后的字符来扩展ASCII码。国际标准组织(ISO)定义了几个不同的字符集,它们是在ASCII码基础上增加了其他语言和地区需要的字符。其中最常用的是ISO8859-1,通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符,其中0~127的字符与ASCII码相同。ISO 8859另外定义了14个适用于不同文字的字符集(8859-2到8859-15)。这些字符集共享0~127的ASCII码,只是每个字符集都包含了128~255的其他字符。 3.GB2312和GBK GB2312是中华人民共和国国家标准汉字信息交换用编码,全称《信息交换用汉字编码字符集-基本集》,标准号为GB2312-80,是一个由中华人民共和国国家标准总局发布的关于简化汉字的编码,通行于中国大陆和新加坡,简称国标码。 因为中文字符数量较多,所以采用两个字节来表示一个字符,分别称为高位和低位。为了和ASCII码有所区别,中文字符的每一个字节的最高位都用1来表示。GB2312字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集,也是最基本的中文字符集。它包含了大部分常用的一、二级汉字和9区的符号,其编码范围是高位0xa1-0xfe,低位也是0xa1-0xfe,汉字从0xb0a1开始,结束于0xf 7fe。 为了对更多的字符和符号进行编码,由前电子部科技质量司和国家技术监督局标准化司于1995年12月颁布了GBK(K是“扩展”的汉语拼音第一个字母)编码规范,在新的编码系统里,除了完全兼容GB2312外,还对繁体中文、一些不常用的汉字和许多符号进行了编码。它也是现阶段Windows和其他一些中文操作系统的默认字符集,但并不是所有的国际化软件都支持该字符集。不过要注意的是GBK不是国家标准,它只是规范。GBK字符集包含了20 902个汉字,其编码范围是0x8140-0xfefe。 每个国家(或区域)都规定了计算机信息交换用的字符编码集,这就造成了交流上的困难。想像一下,你发送一封中文邮件给一位远在西班牙的朋友,当邮件通过网络发送出去的时候,你所书写的中文字符会按照本地的字符集GBK转换为二进制编码数据,然后发送出去。当你的朋友接收到邮件(二进制数据)后,查看信件时,会按照他所用系统的字符集,将二进制编码数据解码为字符,然而由于两种字符集之间编码的规则不同,导致转换出现乱码。这是因为,在不同的字符集之间,同样的数字可能对应了不同的符号,也可能在另一种字符集中,该数字没有对应符号。 为了解决上述问题,统一全世界的字符编码,由Unicode协会1制定并发布了Unicode编码。 4.Unicode Unicode(统一的字符编码标准集)使用0~65535的双字节无符号数对每一个字符进行编码。它不仅包含来自英语和其他西欧国家字母表中的常见字母和符号,也包含来自古斯拉夫语、希腊语、希伯来语、阿拉伯语和梵语的字母表。另外还包含汉语和日语的象形汉字和韩国的Hangul音节表。 目前已经定义了40000多个不同的Unicode字符,剩余25000个空缺留给将来扩展使用。其中大约20 1Unicode协会是由IBM、微软、Adobe、SUN、加州大学伯克利分校等公司和组织所组成的非营利性组织。
java读写文件避免中文乱码
1、JAVA读取文件,避免中文乱码。 /** * 读取文件内容 * * @param filePathAndName * String 如c:\\1.txt 绝对路径 * @return boolean */ public static String readFile(String filePathAndName) { String fileContent = ""; try { File f = new File(filePathAndName); if(f.isFile()&&f.exists()){ InputStreamReader read = new InputStreamReader(new FileInputStream(f),"UTF-8"); BufferedReader reader=new BufferedReader(read); String line; while ((line = reader.readLine()) != null) { fileContent += line; } read.close(); } } catch (Exception e) { System.out.println("读取文件内容操作出错"); e.printStackTrace(); } return fileContent; } 2、JAVA写入文件,避免中文乱码。 public static void writeFile(String filePathAndName, String fileContent) { try { File f = new File(filePathAndName); if (!f.exists()) { f.createNewFile(); } OutputStreamWriter write = new OutputStreamWriter(new FileOutputStream(f),"UTF-8"); BufferedWriter writer=new BufferedWriter(write); //PrintWriter writer = new PrintWriter(new BufferedWriter(new FileWriter(filePathAndName))); //PrintWriter writer = new PrintWriter(new FileWriter(filePathAndName)); writer.write(fileContent);
java乱码问题解决
Java WEB开发中的中文乱码问题解决 本文所有范例以UTF-8为例。大家可以根据自己的情况加以替换。 在开始本文之前,假设本文的读者已经熟悉或了解以下技术: - Java语法 - Java WEB开发的基本概念 - Jsp - Servlet - 至少一种支持JSP/SERVLET的Web服务器(包括安装,运行) 浏览器/WEB服务器之间的参数传递原理分析 浏览器/WEB服务器之间的中文参数传递 1,表单(form)中文参数的传递方法。我们使用一个简单的范例说明表单提交时浏览器的对中文参数的处理。 1. SubmitAsia.html 2. view plaincopy to clipboardprint? 3. 4.
5. 6. 7. 8. 11. 12. 13. 14. 15. 16. 17. 18. 21. 22. 使用任意浏览器打开该文件,在输入框内输入“你好” 中文2字,然后按submit按钮,我们注意到浏览器的地址栏: file:///C:/SubmitAsia.html?userName=%E4%BD%A0%E5%A5%BD 刚才输入“你好”二字,被转换为%E4%BD%A0%E5%A5%BD 后被发往服务器。 这个%E4%BD%A0%E5%A5%BD 是什么呢? 我们先使用一个Java程序来测试一下。如下: 1. EnDecoderUtil.java 2. view plaincopy to clipboardprint?Java各种中文乱码问题的解决(1)get和post请求
作为java程序员,中文的乱码问题会经常碰到。过去的一个项目,我碰到了各种类型的java乱码问题。先分享给大家: 1:网页Post请求,提交后,显示提交结果,乱码。 首先确定数据库的编码方式。这里我发现,如果数据库的编码不是UTF-8,Post 请求也可以保证回显正确,但是有一个地方要注意。 如html中: (1) 这时,value中的num中文会正常显示。 (2)"/> 这时,value中的Num中文不会显示,显示乱码。 这是因为jstl标签库的原因。 虽然(1)代码可以显示中文,但仍然推荐数据库编码改成UTF-8 2:网页get请求,提交后,显示乱码。 这个问题就比较复杂了。 解决方法可以分为两步,(我们首先做了第一部,解决了大部分问题,第二步是解决特殊问题)。 我们难免使用get请求提交,如果其中有中文,那么: (1)Tomcat中: 找到 server.xml 中的
java读取properties文件中文乱码的解决方法
java读取properties文件中文乱码的解决方法收藏 java读取properties文件时,如果包含中文,那么该中文字段读出为乱码。这是因为java中文件大多以UTF-8或GBK的方式保存,而java程序在读出properties文件时则采用unicode 编码方式,这样自然会导致中文乱码情况的发生。 这里,先重现一下该问题,然后给出解决方法。 读取properties的方法如下: view plaincopy to clipboardprint? public class TestPorperty { private InputStream is;//用于读取(.properties)文件 private Properties prop; private final String propPath="D:\\Documents and Settings\\Administrator\\桌面\\test.properties"; public TestPorperty() throws Exception{ prop=new Properties(); } public String getProperties(String key) throws Exception{ is=new FileInputStream(propPath); prop.load(is); return prop.getProperty(key); } } public class TestPorperty { private InputStream is;//用于读取(.properties)文件 private Properties prop; private final String propPath="D:\\Documents and Settings\\Administrator\\桌面\\test.properties"; public TestPorperty() throws Exception{ prop=new Properties(); } public String getProperties(String key) throws Exception{ is=new FileInputStream(propPath); prop.load(is); return prop.getProperty(key); } }
Java读写以latin1编码存储以UTF-8输出的MySQL数据库(中文乱码)
Java读写以latin1编码存储以UTF-8输出的MySQL数据库(中文乱码) (2011-09-14 20:09:26) 转载▼ 分类:MySql 标签: jdbc mysql latin1编码 utf-8编码 中文乱码 杂谈 原文:https://www.360docs.net/doc/c015644049.html,/huyiyang2010/article/details/6202656 使用Java读写存储在latin1编码的MySQL中的UTF-8编码的中文绝大多数情况下,一个项目中,都是使用同一套编码。如,全部使用UTF-8或者GBK。 但是当涉及到多个项目合并、新手加入等情况时,不可避免出现使用多套编码的情况。所有字符串都是英文的情况还好,若是出现了中文,就导致了乱码的出现。 下面以我碰到的问题的解决方案说明。 前置说明: ============== Java MySQL UTF-8 utf8 ISO-8859-1 latin1
============== MySQL数据库使用latin1的编码,导入导出的数据是UTF-8编码的(即其与java端的交互是utf-8编码格式的),即将MySQL当做一个透明的存储。 ============================ character_set_client latin1 character_set_connection latin1 character_set_database latin1 character_set_filesystem binary character_set_results latin1 character_set_server latin1 character_set_system utf8 ============================= Java编写的导入数据程序(包括查看数据校验,即涉及到数据的导入导出) C++编写的导出数据程序(仅涉及到数据的导出) Java程序如何读写中文 第一种解决办法: 0 .Java文件设置为UTF-8编码(Eclipse的设置方法为:点击 Window->Preferences->General->Workspace->Text file encoding->Other 填入UTF-8) 1 .设置URL参数characterEncoding为utf8。示例: jdbc:mysql://127.0.0.1:3306?characterEncoding=utf8
java 乱码检测
[JAVA]判断字符串是否为乱码, 乱码检测 import java.util.regex.Matcher; import java.util.regex.Pattern; public class MessyCodeCheck { public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c); if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A || ub == Character.UnicodeBlock.GENERAL_PUNCTUATION || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS) { return true; } return false; }
public static boolean isMessyCode(String strName) { Pattern p = https://www.360docs.net/doc/c015644049.html,pile("\\s*|\t*|\r*|\n*"); Matcher m = p.matcher(strName); String after = m.replaceAll(""); String temp = after.replaceAll("\\p{P}", ""); char[] ch = temp.trim().toCharArray(); float chLength = ch.length; float count = 0; for (int i = 0; i < ch.length; i++) { char c = ch[i]; if (!Character.isLetterOrDigit(c)) { if (!isChinese(c)) { count = count + 1; System.out.print(c); } } } float result = count / chLength; if (result > 0.4) { return true; } else {
中文乱码解决大全
JSP中文乱码问题综述 2010-08-10 14:25:31 一、Java中文问题的由来 Java的内核和class文件是基于unicode的,这使Java程序具有良好的跨平台性,但也带来了一些中文乱码问题的麻烦。原因主要有两方面,Java和JSP文件本身编译时产生的乱码问题和Java程序于其他媒介交互产生的乱码问题。 首先Java(包括JSP)源文件中很可能包含有中文,而Java和JSP源文件的保存方式是基于字节流的,如果Java和JSP编译成class文件过程中,使用的编码方式与源文件的编码不一致,就会出现乱码。基于这种乱码,建议在Java文件中尽量不要写中文(注释部分不参与编译,写中文没关系),如果必须写的话,尽量手动带参数-ecoding GBK或-ecoding gb2312编译;对于JSP,在文件头加上<%@ page contentType=text/html;charset=GBK%>或<%@ page contentType=text/html;charset=gb2312%>基本上就能解决这类乱码问题。 二、常见的解决方式 1,最基本的乱码问题。 这个乱码问题是最简单的乱码问题。一般新会出现。就是页面编码不一致导致的乱码。 <%@ page language=java pageEncoding=UTF-8%> <%@ page contentType=text/html;charset=iso8859-1%>