计算机常见编码

计算机常见编码
计算机常见编码

计算机常见编码

一.有关编码的基础知识

1. 位 bit 最小的单元

字节 byte 机器语言的单位

1byte=8bits

1KB=1024byte

1MB=1024KB

1GB=1024MB

2. 二进制 binary

八进制 octal

十进制 decimal

十六进制 hex

3. 字符:是各种文字和符号的总称,包括各个国家的文字,标点符号,图形符号,数字等。

字符集:字符集是多个符号的集合,每个字符集包含的字符个数不同。

字符编码:字符集只是规定了有哪些字符,而最终决定采用哪些字符,每一

个字符用多少字节表示等问题,则是由编码来决定的。计算机要

准确的处理各种字符集文字,需要进行字符编码,以便计算机能

够识别和存储各种文字。

二.常见字符集的编码介绍:

常见的字符集有:ASCII 字符集,GB2312 字符集,BIG5 字符集,GB18030 字符集,Unicode 字符集,下面一一介绍:

1. ASCII 字符集:

定义:

美国信息互换标准代码,是基于罗马字母表的一套电脑编码系统,主要显示

英语和一些西欧语言,是现今最通用的单字节编码系统。

包含内容:

控制字符(回车键,退格,换行键等)

可显示字符(英文大小写,阿拉伯数字,西文符号)

扩展字符集(表格符号,计算符号,希腊字母,拉丁符号)

编码方式:

第 0-31 号及 127 号是控制字符或通讯专用字符;

第 32-126 号是字符,其中 48-57 号为 0-9 十个阿拉伯数字,65-90 号为 26 个大写英文字母,97-122 号为 26 个英文小写字母,其余为一些标点符号,运

算符号等。

在计算机存储单元中,一个 ASCII 码值占一个字节(8 个二进制位),最高位

是用作奇偶检验位。【奇偶校验是指:在代码传送的过程中,用来检验是否

出错的一种方法。】奇偶校验分为奇校验和偶校验。奇校验规定:正确的代

码一个字节中 1 的个数必须是奇数,若非奇数,则在最高位添 1;偶校验规

定:正确的代码一个字节中 1 的个数必须是奇数,若非奇数,则在最高位添

1。

2. GB2312 字符集:

定义:

信息交换用汉字编码字符集。是中国标准的简体中文字符集,它所收录的汉

字已经覆盖 99.75%的使用频率,在中国大陆和新加坡广泛使用。

包含内容:

GB2312 收录了简化汉字及一般字符,序号,数字,拉丁字母,日文假名,

希腊字母,俄文字母,汉语拼音符号,汉语注音字母,共 7445 个图形字符。

其中包括 6763 个汉字,一级汉字 3755 个,二级汉字 3008 个。

编码方式:

GB2312 对所收汉字进行了“分区”处理,每区含有 94 个汉字或者符号,这

种表示方法也叫做“区位码”。

它是用双字节表示的,前面的字节为第一字节,又称“高字节”,后面的为

第二字节,“低字节”。

高位字节,把 01-87 区的区号加上 0xA0(相当于数字 160);低位字节把 01-94 区的区号加上 0xA0(相当于数字 160)。举个简单的小例子:第一个汉字——“啊”,它的区号为 16,位号 01,则区位码是 1601。则高字节位:

16+0xA0=0xB0;低字节位:01+0xA0=0xA1,所以“啊”的汉字处理编码为

0xB0A1。

3. GBK 字符集:

定义:

GBK 是 GB2312 字符集的扩展(K)( 中国的中文编码表升级,融合了更多的

中文文字符号。),它收录了 21886 个符号,它分为汉字区和图形符号区,

汉字区包括 21003 个字符。GBK 字符集主要扩展了繁体中文字的支持。

4. BIG5 字符集:

定义:

又称大五码,由台湾五家软件公司创立。因为当时台湾没有一个标准的字符

集,而且 GB2312 又没有收录繁体字,所以才推出了 BIG5。

包含内容:

BIG5 字符集共收录了 13053 个中文字,该字符集在台湾使用。但是没有考虑

到社会上流通的人名,地方用字,方言用字,化学及生物科等用字,没有包

含日文平假名及片假字母。

编码方式:

BIG5 也采用双字节存储方法,一两个字节编码一个字。高位字节的编码范围

是 0xA1-0xF9,低位字节的编码范围是0xA1-0xFE。

5. GB18030 字符集:

定义:

GB18030 字符集标准解决汉字,日文假名,朝鲜语和中国少数民族文字组成

的大字符集计算机编码问题。

包含内容:

该标准的字符总编码空间超过 150 万个编码位,收录了 27484 个汉字,覆盖

中文,日文,朝鲜语和中国少数民族文字。满足中国大陆,香港,台湾,日

本和韩国等东南亚地区信息交换多文种,大字量,多用途,统一编码格式的

要求。

编码方式:

GB8030 标准采用单字节,双字节和四字节三种方式对字符编码。单字节部

分使用 0x00-0x7F 码(对应于 ASCII 码的相应码);

双字节部分,首字节码从 0x81-0xFE,尾字节码分别是 0x40-0x7E 和 0x80-0xFE。

四字节部分采用 0x30-0x39 作为双字节编码扩充的后缀,这样扩充的四字节

编码,其范围是 0x81308130-0x0xFE39FE39,其中第一,三个字节编码位均为

0x81-0xFE,第二,四个为 0x30-0x39。

6. ISO8859-1:拉丁码表。欧洲码表

用一个字节的 8 位表示。

7. Unicode 字符集:

定义:

(国际标准码,融合了多种文字。所有文字都用两个字节来表示,Java 语言

是使用的就是 unicode ) University multiple-object coded character set(通用多八位编码字符集),支持世界上超过 650 种语言的国际字符。Unicode 允许在

同一服务器上混合使用不同语言,它为每种语言的每个字符设定了统一并且

唯一的二进制编码,以满足跨平台,跨语言进行文本转换,处理的要求。

编码方式:

Unicode 标准始终使用十六进制数字,固定使用 2 个字节来表示一个字符,

共可以表示 65536 个字符。而且书写时在前面加上前缀“U+”,例如 A 的编

码是 004116,则书写成“U+0041”。

Unicode 字符集包含的编码方案:

UTF-8 :(。最多用三个字节来表示一个字符。)

UTF8 是 unicode 其中的一个使用方式。UTF 的意思是:

unicode translation format,即把 unicode 转作某种格式的意思。 UTF-8

使用可变长度字节来存储 unicode 字符,如 ASCII 字母还是采用一个

字符来存储,希腊字母等采用 2 个字符来存储,而常用的汉字要使

用 3 字节,辅助平面字符则使用 4 字节。

UTF-16 :

使用一个或两个未分配的 16 位代码单元的序列对 unicode 代码

点进行编码,即 2 个字节表示一个字符。

UTF-32 :

将每一个 unicode 代码点表示为相同值的 32 位整数。

关于 unicode 编码的一个问题:

使用记事本另存为时,可以在 ANSI , GBK,Unicode ,

unicode big endian 和 UTF-8 这几种编码之间相互转换。同样是 txt 文

件,windows 是怎么识别编码的呢?

答:平时注意的话可以发现 Unicode,unicode big endian 和 UTF-8

编码的 txt 文件的开头会多出几个字节,分别是(FF,FE),(FE,FF),

(EF,BB,BF)。那么这些标记都是基于什么标准呢?

ANSI 字符集:ASCII 字符集,以及由此派生并兼容的字符集。

UTF-16 与 UTF-8:如“连通”两个字,在 UTF-16 中为:DE 8F 1A 90,

两个字节决定一个汉字;在 UTF-8 中则为:E8 BF 9E E9 80 9A,即 3

个字节决定一个字符。

当一个软件打开一个文本时,首先是要决定这个文本究竟是使用

哪种字符集的哪种编码保存的,软件一般采用三种方式来决定文本

的字符集和编码:检测文件头标识,提示用户选择,根据一定的规

则猜测。不同编码方式的开头字节如下:

EF BB BF UTF-8

FF FE UTF-16,little endian

FE FF UTF-16,big endian

FF FE 00 00 UTF-32, little endian

00 00 FE FF UTF-32,big endian

注:endian 是指字节序,big endian(大尾)和 little endian(小

尾)是 CPU 处理多字节数的不同方式。例如“汉”的 unicode 编码

是 6C49,写到文件中,如果将 6C 写在前面就是 big endian,将 49

写在前面就是 little endian。

8 .总结:

从 ASCII,GB2312,GBK 到 GB18030,这些编码方法是向下兼容的,即同一

个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。在这些编码中,英文和中文可以统一的处理。区分中文编码的方法是高字节的最高位不为0。

计算机使用的缺省编码方式就是计算机的内码。有的中文 windows 的缺省内

码还是 GBK,可以通过 GB18030 升级包升级到 GB1030。不过相对 GBK 新增的字符,普通人很难用到的,通常我们用GBK 来指代中文 windows 内码。

GB2312 的原文是区位码,从区位码到内码,需要在高字节和低字节上分别

加上 A0。

欢迎您的下载,

资料仅供参考!

致力为企业和个人提供合同协议,策划案计划书,学习资料等等

打造全网一站式需求

苏科版初中信息技术《信息技术与信息的编码》教学设计

苏科版初中信息技术《信息技术与信息的编码》教学设计 信息技术与信息的编码教学目的:()了解信息技术在现代社会的应用。 ()了解信息技术的发展简史和发展趋势。 ()了解信息的编码方法和度量单位。 重点与难点:重点:信息技术在现代社会的应用。 难点:信息的编码方法。 教学过程:一引入我们现在上的是什么课?课程表上写的是什么课?二信息技术信息技术:是指信息的获取存储加工处理传递利用和服务过程中涉及的相关技术。 主要由微电子技术通信技术计算机技术和传感技术等组成。 其中计算机技术是信息技术的核心。 信息技术在现代社会的应用观看信息技术在现代社会的应用的视频。 讨论学习:请举例信息技术在现实生活中的应用事例,分类填写到下表中:类别实际应用科学计算导弹核武器原子能潜艇超音速轰炸机神州六号辅助教学远程网络实验课堂虚拟生物实验辅助设计,人工智能机器人网络围棋自动控制无人控制自动生产线,自动售票机电子商务电子商情电子合同电子贸易在线付款信息技术的发展和展望()发展语言的产生文字的出现造纸和印刷术的发明和应用电报电话广播电视的发明和应用计算机与现代通信技术的结合()展望世纪年代以

来,寻找替代硅晶制造芯片的新材料。 例如:模糊计算机光子计算机量子计算机超导计算机以蛋白质分子作芯片的生物计算机。 让计算机具有处理模糊概念的本领。 虚拟现实计算机功能强大,是不是比人更聪明?电子计算机的智能是人类智慧给予的,所以绝对不会超过人类。 讨论学习:信息技术的发展将带来重大的社会变革,例如,许多语言和文化将会消失,同时一些新兴的网络语言不断出现,你如何看待这些变化?三信息的编码由于计算机既"看不见"文字图片,又"听不懂"人类的语言,更不便于处理这些信息,所以必须采取适当的手段和方法对信息进行数字化编码。 只有将数字文字图像声音和视频等不同类型的信息转换成二进制代码,才便于计算机加工处理。 二进制二进制:二进制数是用和两个数码来表示的数。 它的基数为,进位规则是"逢二进一",运算规则:=,=,=,=请填写下表,体会不同进制数值运算的规律:二进制十进制===字符编码各种字符在计算机内一律用二进制编码表示。 一个西文字符与一个确定的编码相对应。 一个汉字字符则与一组确定的编码相对应。 ()Ⅱ代码美国信息交换标准码简称Ⅱ码八进制十六进制十进制字符八进制十六进制十进制字符@()汉字国标码年信息交换用汉字

计算机常见编码

计算机常见编码 一.有关编码的基础知识 1. 位bit 最小的单元 字节byte 机器语言的单位 1byte=8bits 1KB=1024byte 1MB=1024KB 1GB=1024MB 2. 二进制binary 八进制octal 十进制decimal 十六进制hex 3. 字符:是各种文字和符号的总称,包括各个国家的文字,标点符号,图形符 号,数字等。 字符集:字符集是多个符号的集合,每个字符集包含的字符个数不同。 字符编码:字符集只是规定了有哪些字符,而最终决定采用哪些字符,每一 个字符用多少字节表示等问题,则是由编码来决定的。计算机要 准确的处理各种字符集文字,需要进行字符编码,以便计算机能 够识别和存储各种文字。 二.常见字符集的编码介绍: 常见的字符集有:ASCII 字符集,GB2312 字符集,BIG5 字符集,GB18030 字符集,Unicode 字符集,下面一一介绍: 1. ASCII 字符集: 定义: 美国信息互换标准代码,是基于罗马字母表的一套电脑编码系统,主要显示 英语和一些西欧语言,是现今最通用的单字节编码系统。 包含内容: 控制字符(回车键,退格,换行键等) 可显示字符(英文大小写,阿拉伯数字,西文符号) 扩展字符集(表格符号,计算符号,希腊字母,拉丁符号) 编码方式: 第0-31 号及127 号是控制字符或通讯专用字符; 第32-126 号是字符,其中48-57 号为0-9 十个阿拉伯数字,65-90 号为26 个 大写英文字母,97-122 号为26 个英文小写字母,其余为一些标点符号,运 算符号等。 在计算机存储单元中,一个ASCII 码值占一个字节(8 个二进制位),最高位 是用作奇偶检验位。【奇偶校验是指:在代码传送的过程中,用来检验是否 出错的一种方法。】奇偶校验分为奇校验和偶校验。奇校验规定:正确的代 码一个字节中1 的个数必须是奇数,若非奇数,则在最高位添1;偶校验规 定:正确的代码一个字节中 1 的个数必须是奇数,若非奇数,则在最高位添 1。

计算机中的字符编码

字型点阵码是显示或打印汉字时所用的编码。点阵中每一个位置对应一个二进制位:该位为1,对应的位置有点;为0,则对应的位置为空白。每8个二进制位组成一个点阵码字节。点阵的规模决定了点阵码的字节数。例如,采用1616点阵,一个汉字的字型点阵码为(1616)8=32个字节。 区位码、国标码与机内码的转换方法: (1)区位码先转换成十六进制数表示 (2)(区位码的十六进制表示)+2020H=国标码; (3)国标码+8080H=机内码 机器数和真值 在学习原码, 反码和补码之前, 需要先了解机器数和真值的概念. 1、机器数 一个数在计算机中的二进制表示形式叫做这个数的机器数。机器数是带符号的,在计算机用一个数的最高位存放符号, 正数为0, 负数为1. 比如,十进制中的数+3 ,计算机字长为8位,转换成二进制就是00000011。如果是-3 ,就是10000011 。 那么,这里的00000011 和10000011 就是机器数。 2、真值 因为第一位是符号位,所以机器数的形式值就不等于真正的数值。例如上面的有符号数10000011,其最高位1代表负,其真正数值是-3 而不是形式值131(10000011转换成十进制等于131)。所以,为区别起见,将带符号位的机器数对应的真正数值称为机器数的真值。 例:0000 0001的真值= +000 0001 = +1,1000 0001的真值= –000 0001 = –1 二. 原码, 反码, 补码的基础概念和计算方法. 在探求为何机器要使用补码之前, 让我们先了解原码, 反码和补码的概念.对于一个数, 计算机要使用一定的 编码方式进行存储. 原码, 反码, 补码是机器存储一个具体数字的编码方式. 1. 原码 原码就是符号位加上真值的绝对值, 即用第一位表示符号, 其余位表示值. 比如如果是8位二进制: [+1]原 = 0000 0001 [-1]原 = 1000 0001 第一位是符号位. 因为第一位是符号位, 所以8位二进制数的取值范围就是: [1111 1111 , 0111 1111] 即 [-127 , 127] 原码是人脑最容易理解和计算的表示方式.

计算机期末复习题数和编码

数和编码选择题题库 A) K B) a C) h D) H A) 尾数 B) 基数 C) 整数 D) 小数 A) (B ) B) 221(O ) C) 147 (D ) D) 94 (H ) A) B) C) 1000010 D) 01111011 A) 八进制 B) 十六进制 C) 十进制 D) 二进制 A) B) C) D) A) 256 B) 299 C) 199 D) 312 A) 整数部分和小数部分 B) 阶码部分和基数部分 C) 基数部分和尾数部分 D) 阶码部分和尾数部分 A) B) C) D) A) 二进制 B) 八进制 C) 十进制 D) 十六进制 A) R B) R-1 C) R/2 D) R+1 A) 码数 B) 基数 C) 位权 D) 符号数 A) H 、O 分别代表二、八、十、十六进制数 B) 十进制数100用十六进制数可表示为(100)16 C) 在计算机内部也可以用八进制数和十六进制数表示数据 D) 十六进制数AEH 转换成二进制无符号数是B A) 二进制数 B) 八进制数 C) 十进制数 D) 十六进制数

A) 64 B) 63 C) 100 D) 144 A) 8 B) 7 C) 10 D) 16 A) 255 B) 256 C) 127 D) 128 A) 字母符号 B) 数字字符 C) 十进制数 D) 十六进制数 A) 1 B) 2 C) 4 D) 8 A) + B) - C) 0 D) 1 A) 纯小数 B) 负整数 C) 分数 D) 第一小数位是 0的数 A) 汉字 B) 字符 C) 图象 D) 声音 A) a 〈b 〈c B) b 〈a 〈c C) c 〈b 〈a D) a 〈c 〈b A) 计算机不能直接 识别十进制数,但能 直接识别二进制数 和十六进制数 B) ASCII 码和国标码都是对符号的编码 C) 一个ASCII 码由七位二进制数组成 D) ASCII 码是用每四位一组表示一个十进制数的 A) (101011)2 B) (56)8 C) (40)10 D) (3B)16 A) 257 B) 201 C) 313 D) 296 A) 59 B) 62 C) 69 D) 89 A) 位( 比特) B) 字节 C) 字长 D) 千字节

计算机常用的编码

1.ASCII码我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串。每 一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。 这被称为ASCII码,一直沿用至今。ASCII码一共规定了128个字符的编码,比如空格“SPACE”是32(二进制00100000),大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。 2.2、非ASCII编码英语用128个符号编码就够了,但是用来表示其他语言,128个符号 是不够的。比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制10000010)。这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。但是,这里又出现了新的问题。不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。比如,130在法语编码中代表了é,在希伯来语编码中却代表了字母Gimel (?),在俄语编码中又会代表另一个符号。但是不管怎样,所有这些编码方式中,0—127表示的符号是一样的,不一样的只是128—255的这一段。至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。一个字节只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。 比如,简体中文常见的编码方式是GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示256x256=65536个符号。中文编码的问题需要专文讨论,这篇笔记不涉及。这里只指出,虽然都是用多个字节表示一个符号,但是GB类的汉字编码与后文的Unicode和UTF-8是毫无关系的。 3.二进制转十进制,十进制转二进制的算法十表1二进制数和十进制数换算对照表 二进制十进制二进制十进制二进制十进制二进制十进制0000 0 0011 3 0110 6 1001 9 0001 1 0100 4 0111 7 1010 10 0010 2 0101 5 1000 8 1011 11 采用“二进制数”的算术运算也比较简单,制造成本更经济。二进制的加法运算和乘法运算公式都各有四条规则:加法有0+0=0,0+1=1,1+0=1,1+1=10;乘法有0*0=0,0*1=0,1*0=0,1*1=1,而十进制的加法和乘法运算公式从0+0开始到9+9,从0*0开始到9*9各需规则100条2.二进制代码电子计算机中的数是用二进制表示的,在计算机中也采用二进制代码表示字母、数字字符、各种各样的符号、汉字等。在处理信息的过程中,可将若干位的二进制代码组合起来表示各种各样的信息。但由于二进制数不直观,人们在计算机上实际操作时,输入、输出的数使用十进制,而具体转换成二进制编码的工作则由计算机软件系统自动完成。字母和各种字符在计算机中的传输普遍采用Ascll码(American Standard Code For lnformation lnterchange),即美国标准信息交换码,它用了7位二进制数来表达字母和各种常用字符(见附录)。对于汉字信息的表示比较复杂,我国有汉字几万个,常用的汉字也有7000多个,为了统一,我国制定了汉字编码标准,规定了一、二级汉字共6763个,用两个字节(16位二进制代码)来表示一个汉字进制转二进制:用2辗转相除至结果为1 将余数和最后的1从下向上倒序写就是结果例如302 302/2 = 151 余0 151/2 = 75 余1 75/2 = 37 余1 37/2 = 18 余1 18/2 = 9 余0 9/2 = 4 余1 4/2 = 2 余0 2/2 = 1 余0 故二进制为100101110 二进制转十进制从最后一位开始算,依次列为第0、1、2...位第n位的数(0或1)乘以2的n次方得到的结果相加就是答案例如:01101011.转十进制: 第0位:1乘2的0次方=1 1乘2的1次方=2 0乘2的2次方=0 1乘2的3次

计算机中数据的表示与信息编码

计算机中数据的表示与信息编码 计算机最主要的功能是处理信息,如处理文字、声音、图形和图像等信息。在计算机内部,各种信息都必须经过数字化编码后才能被传送、存储和处理。因此要了解计算机工作的原理,还必须了解计算机中信息的表现形式。 1.2.1 计算机使用的数制 1.计算机内部是一个二进制数字世界 计算机内部采用二进制来保存数据和信息。无论是指令还是数据,若想存入计算机中,都必须采用二进制数编码形式,即使是图形、图像、声音等信息,也必须转换成二进制,才能存入计算机中。为什么在计算机中必须使用二进制数,而不使用人们习惯的十进制数?原因在于: ⑴易于物理实现:因为具有两种稳定状态的物理器件很多,例如,电路的导通与截止、电压的高与低、磁性材料的正向极化与反向极化等。它们恰好对应表示1和0两个符号。 ⑵机器可靠性高:由于电压的高低、电流的有无等都是一种跃变,两种状态分明,所以0和1两个数的传输和处理抗干扰性强,不易出错,鉴别信息的可靠性好。 ⑶运算规则简单:二进制数的运算法则比较简单,例如,二进制数的四则运算法则分别只有三条。由于二进制数运算法则少,使计算机运算器的硬件结构大大简化,控制也就简单多了。 虽然在计算机内部都使用二进制数来表示各种信息,但计算机仍采用人们熟悉和便于阅读的形式与外部联系,如十进制、八进制、十六进制数据,文字和图形信息等,由计算机系统将各种形式的信息转化为二进制的形式并储存在计算机的内部。 2.进位计数制 数制,也称计数制,是指用一组固定的符号和统一的规则来表示数值的方法。数制可分为非进位计数制和进位计数制两种。非进位计数制的数码表示的数值大小与它在数中的位置无关;而进位计数制的数码所表示的数值大小则与它在数中所处的位置有关。而我们在这里讨论的数制指的都是进位计数制。 进制是进位计数制的简称,是目前世界上使用最广泛的一种计数方法,它有基数和位权两个要素。 ??基数:在采用进位计数制的系统中,如果只用r个基本符号(例如0,1,2,…,r-1)表示数值,则称其为r数制(Radix-r Number System),r称为该数制的基数(Radix)。如日常生活中常用的十进制,就是r=10,即基本符号为0,1,2,…,9。如取r=2,即基本符号为0和1,则为二进制数。 ??位权:每个数字符号在固定位置上的计数单位称为位权。位权实际就是处在某一位上的1所表示的数值大小。如在十位制中,个位的位权是100,十位的位权是101,…;向右依次是10-1,10-2,…。而二进制整数右数第2位的位权为2,第3位的位权为4,第4位的位权为8。一般情况下,对于r进制数,整数部分右数第i位的位权为r i-1,而小数部分左数第i位的位权为r-i。 各种进制的共同点是: ⑴每一种数制都有固定的符号集。如十进制数制,其符号有十个:0,1,2, (9) 二进制数制,其符号只有两个:0和1。需要指出的是,16进制数基数为16,所以有16个基本符号,分别为0,1,2,…,8,9,A,B,C,D,E,F。表1-3列出了计算机中常用的几种进制。 ⑵采用位置表示法,用位权来计数。即处于不同位置的数符所代表的值不同,与它所在位置的权值有关。例如:十进制的1358.74可表示为: 1358.74=1×103+3×102+5×101+8×100+7×10-1+4×10-2 可以看出,各种进位制中的位权的值恰好是基数的某次幂。因此,对于任何一个进位计数制表示的数都可以写出按其权值展开的各项式之和,称为“按权展开式”。任意一个n位整数和m位小数的r进制数D可表示为:

信息编码和其在计算机中的运用

第2章信息编码及在计算机中的表示 2.1 信息的数字化编码 编码:是用来将信息从一种形式转变为另一种形式的符号系统,通常选用少量最简单的基本符号和一定的组合规则,以表示出大量复杂多样的信息。 信息的数字化编码:是指用“0”或“1”这种量最少、最简单的二进制数码,并选用一定的组合规则,来表示数据、文字、声音、图形和图像等各种复杂的信息。 计算机中采用的是二进制数码,为什么?(重点) 2.2 进位计数制及其相互转换 2.2.1 进位计数制 数制中的三个基本名词术语: 数码:用不同的数字符号来表示一种数制的 数值,这些数字符号称为“数码”。 基:数制所使用的数码个数称为“基”。 权:某数制各位所具有的值称为“权”。 1.十进制数(Decimal System) 数码:0、1、…… 8、9 基:10(逢十进一,借一当十) 权:以10为底的幂 任何一个十进制数DnDn-1…D1D0D-1…,可以表示成按权展开的多项式: Dn×10n+Dn-1×10n-1+…+D1×101+D0×100+D-1×10-1+…+D-m×10-m 例如:1234.5的按权展开多项为:1234.5=1×103+2×102+3×101+4×100+5×10-1 ⒉二进制数 二进制(Binary System) 数码: 0和1 基:2 权:以2为底的幂 任何一个二进制数BnBn-1…B1B0B-1…B-m,可以表示成按权展开的多项式: Bn×2n+Bn-1×2n-1+…+B1×21+B0×20+B-1×2-1+…+B(-m+1)×2-(m-1)+B-m ×2-m 例如: 1101.01的按权展开多项为: 1101.01=1×23+1×22+0×21+1×20+0×2-1+1×2-2 ⒊八进制数 八进制数(Octave System) 数码: 0、1、…… 6、7 基: 8 权:以8为底的幂

计算机常见编码

计算机常见编码 —. 有关编码的基础知识 1.位bit最小的单元字节byte机器语言的单位 1byte=8bits 1KB=1024byte 1MB=1024KB 1GB=1024MB 2.二进制 bi nary 八进制octal 十进制 decimal 十六进制hex 3.字符:是各种文字和符号的总称,包括各个国家的文字,标点符号,图形符号,数字等。字符集:字符集是多个符号的集合,每个字符集包含的字符个数不同。 字符编码:字符集只是规定了有哪些字符,而最终决定采用哪些字符,每一个字符用多少字节表示等问题,则是由编码来决定的。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。 二. 常见字符集的编码介绍: 常见的字符集有: ASCII字符集,GB2312字符集,BIG5字符集,GB18030字符集 Uni code字符集,下面一一介绍: 1.ASCII 字符集: 定义: 美国信息互换标准代码,是基于罗马字母表的一套电脑编码系统,主要显示英语和一些西欧语言,是现今最通用的单字节编码系统。 包含内容: 控制字符(回车键,退格,换行键等) 可显示字符(英文大小写,阿拉伯数字,西文符号) 扩展字符集(表格符号,计算符号,希腊字母,拉丁符号) 编码方式: 第0-31号及127号是控制字符或通讯专用字符; 第32-126号是字符,其中 48-57号为0-9十个阿拉伯数字,65-90号为26个 大写英文字母,97-122号为26个英文小写字母,其余为一些标点符号,运 在计算机存储单元中,一个ASCII码值占一个字节(8个二进制位),最高位 是用作奇偶检验位。【奇偶校验是指:在代码传送的过程中,用来检验是否出错的一种方法。】奇偶校验分为奇校验和偶校验。奇校验规定:正确的代 码一个字节中1的个数必须是奇数,若非奇数,则在最高位添1;偶校验规 定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位添 2.GB2312 字符集: 定义: 信息交换用汉字编码字符集。是中国标准的简体中文字符集,它所收录的汉

计算机中最常用的字符信息编码是(

练习题 第1章 1-1选择: 1.计算机中最常用的字符信息编码是() A ASCII B BCD码 C 余3码 D 循环码 2.要MCS-51系统中,若晶振频率8MHz,一个机器周期等于( ) μs A 1.5 B 3 C 1 D 0.5 3.MCS-51的时钟最高频率是( ). A 12MHz B 6 MHz C 8 MHz D 10 MHz 4.以下不是构成的控制器部件(): A 程序计数器、B指令寄存器、C指令译码器、D存储器 5.以下不是构成单片机的部件() A 微处理器(CPU)、B存储器C接口适配器(I\O接口电路) D 打印机6.下列不是单片机总线是() A 地址总线 B 控制总线 C 数据总线 D 输出总线 7.-49D的二进制补码为.( ) A 11101111 B 11101101 C 0001000 D 11101100 8.十进制29的二进制表示为原码() A 11100010 B 10101111 C 00011101 D 00001111 9. 十进制0.625转换成二进制数是() A 0.101 B 0.111 C 0.110 D 0.100 10 选出不是计算机中常作的码制是() A 原码 B 反码C补码 D ASCII 1-2填空 1.计算机中常用的码制有。 2.十进制29的二进制表示为。 3.十进制数-29的8位补码表示为. 。 4.单片微型机、、三部分组成. 5.若不使用MCS-51片内存器引脚必须接地. 6. 是计算机与外部世界交换信息的载体. 7.十进制数-47用8位二进制补码表示为. 。 8.-49D的二进制补码为. 。 9.计算机中最常用的字符信息编码是。 10.计算机中的数称为机器数,它的实际值叫。 1-3判断 1.我们所说的计算机实质上是计算机的硬件系统与软件系统的总称。() 2.MCS-51上电复位时,SBUF=00H。()。SBUF不定。 3.使用可编程接口必须处始化。()。 4.8155的复位引脚可与89C51的复位引脚直接相连。()

计算机编码

计算机编码和计算机编码,计算机编码是指计算机内部字母或数字的表示形式。常见的编码方式有:ASCII编码,GB2312编码(简体中文),GBK,Big5编码(繁体中文),ANSI编码,Unicode,UTF-8编码! 1.计算机编码是指在计算机内部表示字母或数字的方式。 2.编码单位: 最小单位是位,后跟字节。1个字节= 8位,即1个字节= 8位。机器语言字节的单位。 1 KB = 1024字节; 1 MB = 1024 KB; 1 GB = 1024 MB; 1TB = 1024 GB。 3.基础: 二进制数由0和1组成,八进制数为0-7,十进制数为0-9,十六进制数为0-9,a,B,C,D,e,F; 4.大写字母 字符是各种字符和符号的通用名称,包括国家字符,标点符号,图形符号,数字等。字符集是一组多个字符。字符集的类型很多。每个字符集包含不同数量的字符。常见的字符集

名称包括ASCII字符集,GB2312字符集,Big5字符集,GB 18030字符集,Unicode字符集等。为了准确处理各种字符,计算机需要对字符进行编码,以便计算机可以识别并存储各种字符。 编码是信息从一种形式或格式转换为另一种形式或格式的过程,也称为计算机编程语言代码。通过预定方法将文本,数字或其他对象编码为数字,或者将信息和数据转换为指定的电脉冲信号。编码广泛用于计算机,电视,远程控制和通信。编码是信息从一种形式或格式转换为另一种形式或格式的过程。解码是编码的逆过程。 在计算机硬件中,编码是指使用代码表示每一组数据,以便计算机可以对其进行处理和分析。它们可以用特殊符号或字母组合表示 将数据转换为代码或编码字符,然后将其转换为原始数据形式。它是计算机编写指令和编程过程的一部分。在自动制图中,指根据某些规则使用数字和字母表示地图内容的过程。通过编码,计算机可以识别地图的地理元素。 N位二进制数可以组合为n的2的次幂的不同信息,并且每个信息都由特定的代码组指定。此过程也称为编码。

键盘按键的各种编码对照表(全)

键盘按键的各种编码对照表 本附录中的各表列举了键盘按键扫描码和其ASCII码之间的对照关系,表中数据都是十六进制形式。 在用中断16H的0号功能时,当按下任意一个键或组合键时,寄存器AH和AL分别保存着该按键的扫描码和ASCII码。 表1、ASCII码的编码方案 高位 000001010011100101110111低位 0000NUL DEL SP0@P`p 0001SOH DC1!1A Q a q 0010STX DC2“2B R b r 0011ETX DC3#3C S c s 0100EOT DC4$4D T d t 0101ENQ NAK%5E U e u 0110ACK SYN&6F V f v 0111BEL ETB‘7G W g w 1000BS CAN(8H X h x 1001HT EM)9I Y i y 1010LF SUB*:J Z j z 1011VT ESC+;K[k{ 1100FF FSN^n~ 1111SI US/?O_o Del 表2、字母和空格按键的编码表 单 键SHIFT CTRL ALT 按 键 扫描码ASCII码扫描码ASCII码扫描码ASCII码扫描码ASCII码 a and A1E611E411E011E00 b and B3062304230023000 c an d C2E632E432E032E00 d and D2064204420042000 e and E1265124512051200 f and F2166214621062100 g and G2267224722072200 h and H2368234823082300 i and I1769174917091700

计算机中的数据与编码

计算机中的数据与编码 一、数据的单位与存储形式(掌握) 1.数据是指能够输入计算机并被计算机处理的数字、字母和符号的集合。 2.在计算机内部,数据是以二进制的形式存储和运算的。 3.数据的表示形式:数据的最小单位是二进制的一位数(Bit)。 4.数据的存储形式:数据存储的最小单位是Byte。 5.文件存储的最小单位是簇 6.一个字节(Byte)由八个二进制位组成。 7.通常一个英文字符用一个字节存储,一个汉字机内编码需要两个字节甚至更多的字节来存储。 8.在计算机中常用一个字来表示该种计算机能最方便、最有效地进行操作的数据或信息的长度。一个字由若干字节组成。通常将组成一个字 的位数叫作该字的字长。例如:在8位机中,每个字由一个字节组成; 在16位机中,每个字由两个字节组成。 9.单位换算:1GB=1024MB 1MB=1024KB 1KB=1024B=210B 1TB=1024GB 二、字符的编码(理解) 字符编码就是规定用怎样的二进制码来表示字母、数字以及专门符号。在计算机系统中,有两种重要的字符编码方式:EBCDIC和ASCⅡ。前者主要用于IBM的大型主机,后者则用于微型机与小型机。 1.ASCII码 (1)ASCII是美国标准信息交换码(American Standard Code for Information Interchange),它已被国际化组织接收为国际标准。 (2)ASCII码有7位,它包含10个阿拉伯数字、52个英文大小写字母、 32个标点符号和运算符以及34个控制码。总共128个符,所以可用7 位码(27=128)来表示。具体编码见课本P16。通过表可以确定一个数 字、字母、符号或控制码的ASCII码。例如,数字“0”的ASCII码是?, “9”的ASCII码是?;字母“A”的ASCII码是?,“a”的ASCII码是?。

计算机数据与编码

计算机数据与编码 1.6.1信息和数据 信息是人们对客观世界的认识,即对客观世界的一种反映。 数据是表达现实世界中各种信息的一组可以记录、可以识别的记号或符号。它是信息的载体,是信息的具体表现形式。 数据形式可以是字符、符号、表格、声音、图像等。 数据可以在物理介质上记录或传输,并通过输入设备传送给计算机处理加工。数据的单位分为以下几种: 1)位(bit) 计算机中最小的数据单位二进制的一个数位,称为比特位,简称位。 1位二进制只能表示两种状态,即0或1。n位二进制能表示2n种状态 2)字节(Byte) 相邻8个比特位组成一个字节,用B表示。字节是计算机中用来表示存储容量大小的基本单位。 1B = 8bits 1KB = 210B = 1024B 1MB = 220B = 1024KB 1GB = 230B = 1024MB 1TB = 240B = 1024GB 3)字(Word) 在计算机中作为一个整体被存取、传送、处理的二进制数位叫做一个字,每个字中二进制位数的长度,称为字长。 用8位字长表示一个整数与用16位字长表示一个整数,其所表示的数的上限和下限是不一样的。 字长所占位数其所表示的数的范围 8 -128 ~ 127 即:-27 ~ (27 - 1) 16 -32768 ~ 32767 即:-215 ~ (215 - 1)

32 -48 ~ 47 即:-231 ~ (231 - 1) 1.6.2 数字化信息编码 在计算机内部,可用物理器件的高低电平代表二进制的“0”和“1”,另外,脉冲的正负极性,晶体管的导通和截止都可以用来表示二进制的“0”和“1”。由于二进制只有两个状态,数据的传输和处理不容易出错,另外二进制数的记数、加减法运算规则较为简单,可用开关电路实现,且二进制的“0”和“1”正好与逻辑命题的两个值“真”和“假”相对应,为计算机种中实现逻辑运算和逻辑判断提供了便利的条件。所以,在计算机中,广泛采用的是只有“0”和“1”两个基本符号组成的基二码,或称为二进制码。 计算机最重要的功能是处理信息,这些信息包括数值、文字、图形、符号、图象、声音等,所有这些信息都必须经过编码,转换成计算机能够识别和处理的二进制码的形式才能够被存储、传送和加工。 BCD码是二进制编码的十进制数(Binary Coded Decimal)的简写。有四位BCD码、六位BCD码和扩展的BCD码三种。 (1)非数值数据的表示 1) 字符数据的表示 ASCII码(America Standard Code for Information Interchage)是美国标准信息交换码,被国际化组织指定为国际标准,分为7位和8位两种版本。 国际通用的是7位ASCII码,它已对大、小写英文字母、阿拉伯数字、标点符号及控制符等特殊符号编码,共128个字符。 (2) 汉字的表示 汉字与英文的主要区别:

VB编程常用代码大全

VB编程常用代码大全 1.数值型函数: abs(num): 返回绝对值 sgn(num): num>0 1; num=0 0; num<0 -1;判断数值正负 hex(num): 返回十六进制值直接表示:&Hxx 最大8位 oct(num): 返回八进制值直接表示:&Oxx 最大8位 sqr(num): 返回平方根 num>0 int(num): 取整 int(99.8)=99; int(-99.2)=100 fix(num): 取整 fix(99.8)=99; fix(-99.2)=99 round(num,n): 四舍五入取小数位 round(3.14159,3)=3.142 中点数值四舍五入为近偶取整 round(3.25,1)=3.2 log(num): 取以e为底的对数 num>0 exp(n): 取e的n次幂通常用 num^n sin(num): 三角函数,以弧度为值计算 (角度*Pai)/180=弧度 con(num); tan(num); atn(num) 2.字符串函数: len(str):计算字符串长度中文字符长度也计为一! mid(str,起始字符,[读取长度]):截取字符串中间子字符串 left(str,nlen):从左边起截取nlen长度子字符串 right(str,nlen):从右边起截取nlen长度子字符串 Lcase(str):字符串转成小写 Ucase(str):字符串转成大写 trim(str):去除字符串两端空格 Ltrim(str):去除字符串左侧空格 Rtrim(str):去除字符串右侧空格 replace(str,查找字符串,替代字符串,[起始字符,替代次数,比较方法]):替换字符串 注:默认值:起始字符 1;替代次数不限;比较方法区分大小写(0) InStr([起始字符,]str,查找字符串[,比较方法]):检测是否包含子字符串可选参数需同时选返回起始位置 InStrRev(str,查找字符串[,起始字符][,比较方法]):反向检测是否包含子字符串返回起始位置 space(n):构造n个空格的字符串 string(n,str):构造由n个str第一个字符组成的字符串 StrReverse(str):反转字符串 split(str,分割字符串[,次数][,比较方法]):以分割字符串为分割标志将字符串转为字符数组可选参数需同时选

计算机的数据与编码

计算机的数据与编码 一、数据存储单位 1.数据:对事实、概念或指令的一种表示形式,可以由人工或自动装置进行处理。 (1)数据的形式:数字、文字、图形或声音等。 (2)数据的分类:数值数据、非数值数据。 2.信息:经过解释赋予一定意义的数据。 (1)控制信息:指挥计算机的各种操作的指令。 (2)数据信息:计算机加工处理的对象。 注意:(1)计算机能识别和处理的只能是二进制数。 (2)计算机中有人读数据和机读数据两种状态。 3.位:一个二进制位称为比特(bit),,以b表示。一位可以表示0和1两种状态。 位是数据的最小单位, 4.字节:八个二进制位称为字节(Byte),以B表示。 字节是数据处理和数据存储的基本单位。 一个字节的8位二进制自左至右排列,最左边为最高位,最右边为最低位。 换算公式: 1KB=1024B 1MB=1024KB=1024×1024B 1GB=1024MB=1024×1024KB=1024×1024×1024B=1073741824B 5.字与字长 (1)字:在计算机中做为一个单元进行存储、传送等操作的一组字符或一组二进制位称为字(Word)。 (2)字长:一个字中的字符数量或二进制的位数称为字长。

字长决定计算机处理信息的速率,是计算机的一个重要性能指标。 (3)字的组成:一个字由若干个字节组成。 二、字符及其编码 1.字符集 字符:用来组织、控制或表示数据的字母、数字及计算机能识别的其它符号。 字符集:为了某一目的而设计的一组互不相同的字符。 在微机系统中普遍采用的是有128个符号的键盘字符集,包括: (1)10个十进制数码0~9 (2)52个大小写英文字母 (3)32个标点符号、专用符号、运算符号 (4)34个控制符 2.字符编码 字符编码:规定用怎样的二进制编码表示数字、字母和各种专用符号。 由于这是一个涉及世界范围内的有关信息表示、交换、处理、传输和存储的基本问题,因此都以国家标准或国际标准的形式颁布施行。 目前在微型机中普遍采用的字符编码是ASCⅡ码。 ASCⅡ是英文American Standard Code for Information Interchange的缩写,意为“美国标准信息交换代码”。该编码后被国际标准化组织ISO(国际标准化委员会)采纳,作为国际通用的信息交换标准代码。 ASCⅡ有7位版本和8位版本。 (1)7位ASCⅡ码 用七位二进制数表示一个字符,由于27=128,所以可表示128个不同的字符,其中包括:数码0~9,26个大写英文字母,26个小写英文字母以及各种运算符号、标点符号及控制命令等。 注意:7位ASCⅡ表示数的范围是0~127 在微机中采用7位ASCⅡ字符编码时,最高位b7恒为零,因此,一个字符的ASC

计算机中信息的编码1

计算机中信息的编码 计算机中信息的编码 在计算机中,各种信息都是以二进制编码的形式存在的;也就是说,不管是文字、图形、声音、动画,还是电影等各种信息,在计算机中都是以0和1组成的二进制代码表示的;计算机之所以能区别这些信息的不同,是因为它们采用的编码规则不同。比如:同样是文字,英文字母与汉字的编码规则就不同,英文字母用的是单字节的ASCII码,汉字采用的是双字节的汉字内码;但随着需求的变化,这两种编码又被统一的UNICODE码(由Unicode 协会开发的能表示几乎世界上所有书写语言的字符 编码标准)所取代的趋势;当然图形、声音等的编码就更复杂多样了。这也就告诉我们,信息在计算机中的二进制编码是一个不断发展的、高深的、跨学科的知识领 域。b5E2RGbCAP 1、字符(英文,包括字母、数字、标点、运算符等)编码 字符的编码采用国际通用的ASCII码(American Standard Code for Information Interchange,美国信息交换标准代码),每个ASCII码以1个字节(Byte)储存,从0到数字127代表不同的常用符号,例如大写A的ASCII码是65,小写a则是97。由于ASCII码只用了字节的七个位,最高位并不使用,所以后来又将最高的一个位也编入这套编码码中,成为八个位的延伸ASCII(ExtendedASCII)码,这套内码加上了许多外文和表格等特殊符号,成为目前常用的编码。基本的ASCII 字符集共有128个字符,其中有96个可打印字符,包括常用的字母、数字、标点符 号等,另外还有32个控制字符。标准ASCII码使用7个二进位对字符进行编码,对应的ISO标准为ISO646标准。p1EanqFDPw 字母和数字的ASCII码的记忆是非常简单的。我们只要记住了一个字母或数字 的ASCII码(例如记住A为65,0的ASCII码为48),知道相应的大小写字母之间差32,就可以推算出其余字母、数字的ASCII码。DXDiTa9E3d 虽然标准ASCII码是7位编码,但由于计算机基本处理单位为字节(1byte = 8bit),所以一般仍以一个字节来存放一个ASCII字符。每一个字节中多余出来的一位(最高位)在计算机内部通常保持为0(在数据传输时可用作奇偶校验位)。由于标准ASCII字符集字符数目有限,在实际应用中往往无法满足要求。为此,国际标准化组织又制定了ISO2022标准,它规定了在保持与ISO646兼容的前提下将ASCII字符集扩充为8位代码的统一方法。ISO陆续制定了一批适用于不同地区的扩充ASCII 字符集,每种扩充ASCII字符集分别可以扩充128个字符,这些扩充字符的编码均为高位为1的8位代码(即十进制数128~255),称为扩展ASCII码。RTCrpUDGiT 2、汉字的编码 (1)汉字内码

计算机常见编码

1。 计算机常见编码 —. 有关编码的基础知识 1. 位bit 最小的单元 字节byte 机器语言的单位 1byte=8bits 1KB=1024byte 1MB=1024KB 1GB=1024MB 2. 二进制 bi nary 八进制octal 十进制 decimal 十六进制 hex 3. 字符:是各种文字和符号的总称,包括各个国家的文字,标点符号,图形符 号,数字等。 字符集:字符集是多个符号的集合,每个字符集包含的字符个数不同。 字符编码:字符集只是规定了有哪些字符,而最终决定采用哪些字符,每一 个字符用多少字节表示等问题,则是由编码来决定的。计算机要 准确的处理各种字符集文字,需要进行字符编码,以便计算机能 够识别和存储各种文字。 二. 常见字符集的编码介绍: 常见的字符集有: ASCII 字符集,GB2312字符集,BIG5字符集,GB18030字符集, Uni code 字符集,下面一一介绍: 1. ASCII 字符集: 定义: 美国信息互换标准代码,是基于罗马字母表的一套电脑编码系统,主要显示 英语和一些西欧语言,是现今最通用的单字节编码系统。 包含内容: 控制字符(回车键,退格,换行键等) 可显示字符(英文大小写,阿拉伯数字,西文符号) 扩展字符集(表格符号,计算符号,希腊字母,拉丁符号) 编码方式: 第0-31号及127号是控制字符或通讯专用字符; 第32-126号是字符,其中 48-57号为0-9十个阿拉伯数字,65-90 大写英文字母,97-122号为26个英文小写字母,其余为一些标点符号, 算符号 等。 在计算机存储单元中,一个 ASCII 码值占一个字节(8个二进制位) 是用作奇偶检验位。【奇偶校验是指:在代码传送的过程中,用来检验是否 出错 的一种方法。】奇偶校验分为奇校验和偶校验。奇校验规定:正确的代 码一个字节中1的个数必须是奇数,若非奇数,则在最高位添 1;偶校验规 定:正确的代码一个字节中 1的个数必须是奇数,若非奇数,则在最高位添 号为26个 运 ,最高位

计算机中的字符编码

计算机中的字符编码 0. 字符与编码的发展 (1) 0.1 字符,字节,字符串 (2) 0.2字符集与编码 (3) 1. ASCII码 (4) 2. 非ASCII编码 (5) 3. Unicode (5) 3.1 Unicode的问题 (5) 4.UTF-8 (6) 4.1 Unicode与UTF-8之间的转换 (6) 4.2 Little endian和Big endian (7) 4.3 实例 (8) 4.4 关于BOM (8) 5. GB2312 (9) 0. 字符与编码的发展 从计算机对多国语言的支持角度看,大致可以分为三个阶段:

字符串在内存中的存放方法: 在 ASCII 阶段,单字节字符串使用一个字节存放一个字符(SBCS)。比如,"Bob123" 在内存中为: 42 6F 62 31 32 33 00 B o b 1 2 3 \0 在使用 ANSI 编码支持多种语言阶段,每个字符使用一个字节或多个字节来表示(MBCS),因此,这种方式存放的字符也被称作多字节字符。比如,"中文123" 在中文 Windows 95 内存中为7个字节,每个汉字占2个字节,每个英文和数字字符占1个字节: D6 D0 CE C4 31 32 33 00 中文 1 2 3 \0 在 UNICODE 被采用之后,计算机存放字符串时,改为存放每个字符在 UNICODE 字符集中的序号。目前计算机一般使用 2 个字节(16 位)来存放一个序号(DBCS),因此,这种方式存放的字符也被称作宽字节字符。比如,字符串 "中文123" 在 Windows 2000 下,内存中实际存放的是 5 个序号: 2D 4E 87 65 31 00 32 00 33 00 00 00 ←在 x86 CPU 中,低字节在前 中文 1 2 3 \0 一共占 10 个字节。 0.1 字符,字节,字符串 理解编码的关键,是要把字符的概念和字节的概念理解准确。这两个概念容易混淆,我们在此做一下区分: 们必须知道它采用的是哪一种编码规则,才能够知道它包含了哪些“字符”。而对于UNICODE 字符串来说,不管在什么环境下,它所代表的“字符”内容总是不变的。

相关文档
最新文档