中文信息处理

中文信息处理
中文信息处理

中文信息处理技术浅谈

摘要:随着科学技术的发展,中文信息处理已经深入到了社会生活的各方面。广泛的应用对中文信息处理技术也提出了较高的要求。本文从主流技术、新技术展望等,对中文信息处理技术进行了初步探索。

关键词:中文信息处理N元模型语音识别词性标注

中文信息处理是中文(包括汉语和少数民族语言)语言学和信息技术的融合,它是一门用计算机对汉语(包括口语和书面语)进行转换、传输、存贮、分析等加工的科学。中文信息处理与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系,是自然语言信息处理的一个分支,需要以大量的语言知识、背景知识为依据,对中文信息的人脑处理过程进行模拟。其中,“中文”是指中国通用的所有语言种类,包括汉语及其他少数民族的语言:但一般都是指汉语。“信息”是指能通过视觉、听觉、嗅觉、味觉、触觉等器官或仪器获取,并有一定交际功能的东西,“信息”是不确定性的减少,是负熵。所谓“处理”,是指用计算机对信息进行各种加工,主要的是图像信息和语言信息的识别、模拟、分析、转换和传输。

一、中文信息处理的特点及难点

中文信息处理在许多方面有自己的特点。

1、汉字的特殊性

西方语言只有几十个字母。而汉字由于数量大且字形复杂,也给计算机处理带来了困难。汉字信息处理是中文信息处理的关键和基础,包括汉字信息的输入、汉字信息的加工和汉字信息的输出等方面,其难点是汉字编码问题。根据在汉字信息处理过程中的不同要求,汉字有多种编码,主要可以分为四类,即汉字输入编码,汉字标准编码,汉字内码和汉字形码。

2、书面汉语的特殊性

书面汉语中,词跟记号之间没有分隔标记,自动分词成为书面汉语分析的第一道难关。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。

3、汉语语音的特殊性

汉语语音的特点是音节结构简单,音节界限分明,但有声调和变调等问题,对于语音识别和语音合成来说,既有有利的一面, 也有不利的一面。

4、汉语语法的特殊性

汉语形态贫乏,难以凭借形态来确定词的句法功能,词序和虚词是主要的语法手段,句法歧义特别复杂,使得汉语语句自动分析这一关键技术迟迟不能取得

突破。

另外,现有的自然语言处理理论和技术大多都是以英语为研究对象语言发展起来的。而汉语无论在语音、文字表示,还是在词汇、语法、语义及其语用等各个层面上,都与之存在着很大的差异。这使得无法直接套用西方已成熟的理论和技术,汉语无疑是计算模型比较不发达的语言。这对从事中文信息处理的研究者来说是一个巨大的挑战和压力。

二、中文信息处理的主流技术

中文信息处理技术从70年代的蓬勃发展至今,仅仅经历了短短20多年的时间,便完成了由初级阶段向比较成熟阶段的过渡,这是微电子技术和IT技术高速发展以及迫切的应用需求所促成的。

中文信息处理技术处于初级阶段的主要特征是以研究为主。在70~80年代,国内曾出现汉字输入方法研究千军万“码”的局面,上千种输入方法应运而生。在汉字字型方面,从15×16点阵到256×256点阵,仿宋、宋、楷、黑等各种字体不断涌现,以CCDOS为代表的20余种汉化DOS不断出台,各具特色,联想汉卡、巨人汉卡、四通汉打等曾风靡一时。

从90年代初开始,中文信息处理技术开始进入比较成熟的阶段。其主要标志是初步实现了“四化”,即标准化、一体化、工程化和产品化。

标准化是指国家相应出台了一系列有关中文信息处理方面的标准。如GB2312-80、GB5007等30余项汉字信息交换码及汉字点阵字型标准,以及GB130001、GB16681/96大字符集和开放系统平台标准等。汉字输入法也在经历了大浪淘沙之后趋于集中。

一体化是指中文信息处理多项技术实现了有机、合理的结合。如软硬件技术的结合、输入输出技术的结合、多领域成果的结合。

工程化、产品化是指中文信息处理解决了在大规模应用、大规模生产以及市场营销中出现的问题。如规范性、可靠性、可维护性、界面友好性及各环节的包装。

经过20多年的努力,我国在中文信息处理方面已取得了十分可喜的成绩,在某些方面的研究已处于世界领先。如北大方正的激光照排技术,其市场份额独占鳌头。汉王公司的手写汉字识别技术及产品,在经历了1996年和1997年的“春秋争霸”之后,超过了实力强大的摩托罗拉的“慧笔”和台湾的“蒙恬”产品,占据了最大的市场份额,它不仅与各种电脑捆绑销售,据悉,最近汉王还与微软签约,将汉王笔输入法作为Windows CE的标准输入接口软件,为其下一步在手持计算机方面的销售铺平了道路。此外,清华文通、紫光OCR也是赫赫有名。在中文平台方面,中文之星和四通利方顽强地与微软争夺市场份额,说明国内产品已具有相当的技术实力。在Internet上,新浪中文网站已成为世界上最大的中文搜索引擎。汉仪、中标、中易的汉字库名噪海内外,湖南华天公司研制的具有10万汉字的曲线汉字库创世界之最。另外,由国家语委和二炮二所研制的7000万字现代汉语语料库也已基本完成,首批将颁布2000万字语料库投入社会应用。国家“863”和国家“九五”预研工作在智能中文人机接口、跨平台中文处理、中文

虚拟平台、中文浏览器、中文文本处理等方面的研究也都取得了令人鼓舞的进展。

目前,中文信息处理的主流技术主要有:

1、N元模型

设wi是文本中的任意一个词,如果已知它在该文本中的前两个词wi-2w-1,便可以用条件概率P(wi|wi-2w-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用变量W代表文本中一个任意的词序列,它由顺序排列的n 个词组成,即W=w1w2...wn,则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:

P(W) = P(w1)P(w2|w1)P(w3| w1 w2)...P(wn|w1 w2...wn- 1)

不难看出,为了预测词wn的出现概率,必须知道它前面所有词的出现概率。从计算上来看,这种方法太复杂了。如果任意一个词wi的出现概率只同它前面的两个词有关,问题就可以得到极大的简化。这时的语言模型叫做三元模型(tri-gram):

P(W)≈P(w1)P(w2|w1)Πi(i=3,...,n P(wi|wi- 2w- 1)

符号Πi i=3,...,n P(...)表示概率的连乘。一般来说,N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有

P(wi|wi- 2wi- 1) ≈count(wi- 2wi- 1wi)/count(wi- 2wi- 1)

式中count(...)表示一个特定词序列在整个语料库中出现的累计次数。

2、语音识别

让人与计算机自由的交谈,机器能听懂人讲话,是语音识别技术的最终目标。语音识别技术所设计的领域包括:信号处理、模式识别、概率论和信息论、发声机原理和听觉原理、人工智能等。

语音识别技术主要包括特征提取技术、模式匹配准则和模型训练技术3个方面,另外还涉及到语音识别单元的选取。

关于语音识别单元的选取,对于大中型词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

关于特征参数提取技术,语音信号中含有丰富的信息,这些信息称为语音信号的声学特征。特征参数提取技术就是为了获得影响语音识别的重要信息,特征参数应该尽量多的反映语义信息,尽量减少说话人的个人信息。

关于模式匹配以及模型训练技术,模型训练是按照一定的准则,从大量已知的模式中获取表征该模式本质特征的模型参数。模式匹配是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。其实,语音识别任务可视为对以下条件概率极大值的计算问题:

W*= argmaxW P(W|speech signal)

= argmaxW P(speech signal|W) P(W)/P(speech signal)

= argmaxW P(speech signal|W) P(W)

式中数学符号argmaxW表示对不同的候选词序列W计算条件概率P(W|speech signal)的值,从而使W*成为条件概率值最大的词序列。它也就是当前输入语音信号speech signal所对应的输出词串了。

公式第二行是利用贝叶斯定律转写的结果,因为条件概率P(speech signal|W)比较容易估值。公式的分母P(speech signa)对给定的语音信号是一个常数,不影响极大值的计算,故可以从公式中删除。在公式第三行所示的结果中,P(W)叫做统计语言模型;P(speech signal|W)叫做声学模型。

3、词性标注

用计算机软件标注文本中每个词的词性或义项。这两种标注都是多中选一的问题,关键是如何处理兼类词或多义词。词性标注为句法分析做铺垫, 语义标注为词义结构分析打基础, 关键是如何处理兼类词或多义词。词性标注为句法分析做铺垫,语义标注为语义结构分析打基础。跟西方语言相比,汉语词性标注的主要困难是缺乏形态,词类判定基础根据词的已实现的句法功能,对上下文的依赖特别严重。汉语的自动分词和词性标注的精确率,将直接影响到后续的句法分析结果。据观察,在汉语句法分析结果中,有高达60%的分析错误来源于分词和词性标注的错误。

在英语的词库中约14%的词形(type)具有不只一个词性,而在一个语料库中, 总词次数(tockens)中约30%是兼类词。从这个统计数字中可以估计出词性标注任务的难度。历史上曾经先后出现过两个方法迥异的英语词性标注系统: TAGGIT 系统拥有3000条上下文相关规则, 而CLAWS系统完全采用概率统计方法。两个系统各自完成了100万词次的英语语料库的自动词性标注任务。评则结果表明,采用概率统计方法的CLAWS系统的标注精度达到96%,比TAGGIT系统提高了近20个百分点。经过改进的CLAWS系统日后承担了英国国家语料库BNC一亿条英语词的词性标注任务。

具体来说,CLAWS系统采用的是词类标记的二元模型。如果令C = https://www.360docs.net/doc/785137296.html, 和W = w1...wn分别代表词类标记序列和词序列,则词性标注任务可视为在已知词序列W的情况下,计算如下条件概率极大值的问题:

C*= argmaxC P(C|W)

= argmaxC P(W|C)P(C)/P(W)

≈argmaxCΠi i=1,...,n P(wi|ci)P(ci|ci- 1)

P(C|W)表示:已知输入词序列W的情况下,出现词类标记序列C的条件概率。数学符号argmaxC表示通过考察不同的候选词类标记序列C,来寻找使条件概率P(C|W)取最大值的那个词序列W*。后者应当就是对W的词性标注结果。

公式第二行是利用贝叶斯定律转写的结果,由于分母P(W)对给定的W是一个常数,不影响极大值的计算,故可以从公式中删除。接着对公式进行近似。首先,引入独立性假设,认为词序列中的任意一个词wi的出现概率近似,只同当前词的词性标记ci有关,而与周围(上下文)的词类标记无关。即词汇概率

P(W|C) ≈Πi i=1,...,n P(wi|ci)

其次,采用二元假设,即近似认为任意词类标记ci的出现概率只同它紧邻的前一个词类标记ci- 1有关。因此有:

P(C) ≈Πi i=,...,n P(ci|ci- 1)

P(ci|ci- 1)是词类标记的转移概率, 也叫做二元模型。

上述这两个概率参数也都可以通过带词性标记的语料库来分别估计:

P(wi|ci) ≈count(wi,ci)/count(ci)

P(ci|ci- 1) ≈count(ci- 1ci)/count(ci- 1)

顺便指出,国内外学者用词类标记的二元或三元模型实现的中、英文词性自动标注都达到了约95%的标注精确率。

4、句法分析

句法分析的主要任务是给定一个输入句子,以语言的语法特征为主要知识源,生成一棵短语结构树,通过树的形式指明输入句子各部分之间的关系。其研究的主要内容包括:句子中包含哪些语句;每个语句的句法范畴是什么;句子中更大的成分是什么,句子中包含哪些短语或词组;句子中各成分或短语怎样组合或附着而构成整个句子的句法结构。句法分支中的线图分析法的基本思想是查看任意相邻几条边上的词性串,是否与某条重写规则的局部相同;如果相同,则增加一条新的边跨越原来相应的边,新增加边上的标记为这条重写规则的头(左部)。重复这个过程,直到没有新的边产生。采用的数据结构:

(l)线图chart保存分析过程中已经建立的成分(包括终结符合非终结符)、位置(包括起点和终点)。通常以n×n的数组表示,其甲n为句子包含的词数。

(2)代理表(待处理表)Agenda记录刚得到的一些重写规则所代表的成分,这些重写规则的右端符号串与输入词性串(或短语标志串)中的一段完全匹配。通常以栈或线性队列表示。

(3)活动边集ActiveArc记录那些右端符号串与输入串的某一段,但还未完全匹配的重写规则。通常以数组或队列存储。

三、中文信息处理新技术展望

新的电子设备和新的市场需求,促进了中文信息处理诸多新技术的发展。

1、汉字字库

汉字字库主要包括点阵、矢量和曲线轮廓三种。经过多年的努力,在国家信息标准委员会推出相应点阵字型标准、Windows 95中文版安装了国产的基于20902个GB汉字的True Type字库及汉仪等公司推出了高质量PS字库之后,造字工作趋于平稳。随着移动电话、POS等电子产品的出现,市场急需小于15×16点阵的小点阵显示字库。由于在小点阵下的某些汉字难免缺笔画,因此,如何确保用户既可识别又不失汉字的规范,这里有许多问题需要解决。

目前,由天辰公司研制的8000多字11×12汉字点阵字库已通过国家语委审查,并已用于日本三菱公司的移动电话中。

另一方面,随着多媒体、电子印刷技术的发展,市场需要各种字型的高质量曲线字。如果采用传统的手工制作方法,其周期长、一致性差,难以满足各方面的需要。近年来,日本采用自动生成方法构造汉字,这值得关注和研究。他们首先构造一些基本笔画,而后寻找某种字型的构字规则(如重心位置、密度特征、骨架特征、结构特征等),再根据这些特征在单线体汉字基础上自动生成相应的曲线汉字,并确保精度误差小于视觉误差。

2、数字输入方法

以数字为基础的计算机汉字输入方法在我国早有研究。近两年来,随着移动电话、信息终端等电子设备需求的增强,这方面的研究又成为热点。目前,数字码输入技术大体可分为三类,即基于笔画的,主要有J10、字原、五笔、笔画码等;有基于拼音的,如智能拼音数字码、双拼数字码等;还有将音码与形码结合的,如清华亚奥等。与大键盘相同,数字小键盘的编码主要源于“音、形、义”三个方面,由于“义”缺乏直观性,多用于智能处理;“音”码比较直观易学,但受地方发音限制,且对不识别的字和大字符集无能为力;目前数字编码主要以“形”码为主,由于输入键位大大减少,必然带来码长和重码率增加,而要降低这两点,研究的难度则陡然加大。

目前的主要问题还不在于此。由于国外著名公司的参与,数字输入方法你争我夺,局面逐步形成,如不尽快加以规范,必然要走到过去编码大战的老路上去。现在一些以形为主的数字码不遵循国家已颁布的《现代汉语通用字笔顺规范》和《信息处理用GB13000.1字符集汉字部件规范》,任意定义基本笔画基元的顺序。如有的移动电话采用了T9数字码,有的则拟采用原数字码,而这些编码的基本笔画基元的构成与顺序各异。因此,国家应尽快制定“信息处理用数字符对应的汉字基本构字单元”标准,在此基础上可以百花齐放,经过一段时间的发展再逐步实现统一的标准,同时赋予与汉语拼音同等的地位,实现音有音的标准,形有形的规范,并与小学生识字教育相结合。

3、机器翻译

随着网络应用的日益深入,人们对机器翻译的需求也日益增强。目前,Internet上的信息绝大多数是英文,中文数据不到1%,对各种外文资料实现实时翻译是人们所期盼的。然而,这些对机器翻译来说,除了在算法上要有新的突破外,对汉语词库、语料库、语义理解等方面都有一系列新的要求。对英汉机器翻译来说,需进一步攻克一词多义、结构歧义、语义歧义等难题;汉英机器翻译的难度则更大,这主要是由于汉语词类无形态变化(如单复数、时态、语态等),同一词类担任多种语法成分,使汉语到英语的转换和英语的生成实际是单词膨胀、信息增加的过程。这里仅分析了英汉、汉英翻译,对于其他语言翻译则存在各自不同的难点,针对专门应用(如旅游),搞一些受限范围的自动翻译软件和硬件产品是当前的热点。

4、智能接口

计算机的非键盘输入多年来一直是人们所希望的,被认为是国人使用电脑的

一大瓶颈。非键盘输入就是指通过语音识别、手写识别和光学字符识别手段来实现汉字输入。由于大量采用人工智能技术,故统称智能接口。在语音识别汉字输入方面,IBM的产品占有主导地位,微软中国研究院也将语音识别和自然语言理解作为主攻方向。Intel虽然没有推出具体的语音识别产品,但却提供了一个高性能语音函数库,该函数库包括信号处理库、识别库和数学核心库,大力支持众多应用开发者聚集在Intel的架构之下。

对语音识别来说,硬件的进一步微型化、连续语音识别、噪声背景下的语音识别以及汉语口语理解等都是亟待解决的难点。汉字OCR技术目前已经比较成熟,如清华TH-OCR 97系统,对中等质量样本的识别率已达99%左右,下一步需要解决的技术除进一步提高识别率外,就是增强鲁棒性。对于手写汉字识别虽已出现了像汉王笔这样的拳头产品,但仍有漫长的攻关之路要走。笔输入最大的瓶颈就是字与字间书写的停顿,错字的原因绝大多数是因为多部首的汉字写得慢了,被分了家,或字与字间的停顿太短,将两个单部首的字捏到了一起。非特定人脱机手写汉字识别的困难则更多,可以说目前尚处于实验室研究阶段。现阶段人们采用的识别方法主要包括:结构模式识别法、统计模式识别法、统计与结构相结合的识别法以及人工神经网络识别法等。预处理、特征抽取与分析、识别字典的生成与分类器设计、单字识别后处理等技术是当前的研究热点,人们渴望在算法和理论上有新的重大的突破。

四、结束语

随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段,中文信息处理将具有更加广阔的市场。这将促使中文信息处理方面的高效中文搜索引擎、实时机器翻译、大规模中文文本处理、跨平台中西文自动识别转换、泛中文语义理解、中文电子商务等技术实现重大突破。中文信息处理已成为我国信息技术研究、发展、应用和产业的基础,在互联网日益成长的今天,中文信息处理技术将会更加成熟并创新。

参考文献

[1] 王建会.中文信息处理中若干关键技术的研究.复旦大学博士论文,2004.

[2] 李英.浅谈对中文信息处理的认识.人工智能及识别技术,2008.

[3] 冯志伟.汉字和汉语的计算机处理.当代语言学,2001.1.

[4] 黄昌宁.中文信息处理的主流技术是什么?.计算机世界报,2002.

计算机基础知识知识点归纳

计算机基础知识知识点归纳: 1、世界上第一台电子计算机诞生于 1946年 世界第一台电子计算机的英文名称是。(答案O A.ENIAC B.IBM https://www.360docs.net/doc/785137296.html, D.PC ' 世界第一台电子计算机于 _____________ 年诞生。(答案:B ) A.1940 B.1946 C.1960 D.1980 .体系。(答案:B ) A.比尔?盖茨 B.冯?诺依曼 C.唐纳德?希斯 D.温?瑟夫 2、世界上首次提出存储程序计算机体系结构的是 B _ 型计算机。 B 冯?诺依曼 C 温?瑟夫 D 唐纳德?希斯 【计算机的特点】 1.处理速度快 '现代计算机的运算速度可以达到每秒钟数千亿次 (通常以每秒钟完成基本加法指令的数目来 '表示计算机的运算速度),这不仅使得许多大型数据处理工作时间大大缩短,促成了天气预 '报、数值模拟等技术的广泛应用,更使得许多实时控制、在线检测等处理速度要求较高的工 '作得以实现。同时,计算机具有很高的逻辑运算速度, 这使得计算机在非数值数据领域中得 '到了广泛的应用。 ' 2 .运算精度高 '计算机一般都有十几位甚至更多位的有效数字,加上先进的算法,可得到很高的计算精度。 '例如,对圆周率n 的计算,在没有计算机的情况下, 数学家要经过长期的努力才能算到小数 '点后500多位,而使用第一台计算机仅仅用了 40秒钟就打破了这一记录。 ' 3 .具有逻辑运算和记忆能力 :计算机的存储器具有存储数据和程序的功能, 它可以存储的信息量越来越大。计算机不仅可 '以进行算术运算,而且可以进行逻辑运算,可以对文字、符号等进行判断、比较,因而可解 '决各种不同类型的问题。 ' 4 .具有自动控制能力 '计算机内部的操作、 运算是在程序的控制下自动进行的, 它能够按照程序规定的步骤完成指 定的任务,而不需要人工干预。 ' 5 .通用性强 '计算机是靠存储程序控制进行工作的。 在不同的应用领域中, 只要编写和运行不同的应用软 :件,计算机就能在任一领域中很好地完成工作。针对不同的需要, 设计不同的程序,这就能 '使计算机具有很强的通用性。 'I 计算机的特点有 A.运算速度快 B.具有逻辑判断功能 C.存储容量大 D.计算精度高 【计算机的发展历程】 1.第一代:电子管计算机(1946年—1958年) 1946 年 2 月,世界上第一台电子数字计算机 ENIAC (Electronic Numerical Integrator And 现代的计算机系统都属于 冯?诺依曼 现代计算机时 A 比尔?盖茨 。(答案:ABCD )

中文信息处理

简述中文信息处理在国家安全领域的应用 摘要:中文信息处理自出现以来,技术不断提高,研究领域也不断扩大。发展的同时我们也看到中文信息处理在国家安全角度应要有的任务、责任和问题。分析中文信息处理在我国的发展背景、技术隐患、技术建设和创新展望,使得对中文信息处理在国家安全领域的应用有一个清楚的认识。 关键词:中文信息处理;国家安全;技术建设 在多元化的信息中,文字信息是一种最普遍的形式。例如:文件、信函、报表、记录、印刷品等基本上采用文字表达的形式。“中文信息处理”一词是从20世纪70年代流行起来的。自从有了中文(汉字),即相应地出现了中文信息处理的工作[1]。现代人们言及的“中文信息处理”包括了有关中文信息的采集、存储、传输和利用,是指利用电子计算机和现代通信、照明、排版、等自动化技术对汉字信息进行输入输出整理、加工、转换、传输、复制、等各种处理的一项新兴的科学技术。其交叉性使之成为“信息科学”的分支;其综合性应用使之成为“系统工程”的一个实例。它涉及到语言文字学、计算机科学、信息科学、工程心理学、数理统计学、声学、自动识别技术、人工智能、网络技术、文献检索学等等。故可以说它是一门新兴的多边缘科学[2]。 1. 信息时代的国家安全 1.1 信息时代的大背景 语言文字信息化对国家安全的作用日益明显,语言文字信息化中的不安全因素就是国家安全的隐患。国家安全的要素呈现综合化、跨国化的发展趋势,维护信息疆域安全成为维护国家主权完整的核心内容之一。信息时代国家之间相互依赖和相互影响程度越来越高,这种相互依赖使得每一个国家的行为和战略都受到了一定程度的约束。信息技术革命打破了时空的限制,国家安全主体多元化,安全空间得到了大大拓展,向上扩展到全世界,向下延伸到地区乃至个人。信息时代中国家必须综合运用经济、社会、文化、科技及环境等手段来维护国家安全。安全问题越来越呈现出国际化、全球化的发展趋势。国家安全包括了文化安全、经济安全、环境安全、资源安全、网络安全、信息化安全。信息化安全即语言文字信息化的安全,语言文字信息化对国家安全的作用完全凸显出来[3]。 1.2 中国互联网的安全隐患 由于中国缺少自己语言文字信息处理技术的自主权,就可能在未来的网络战中丧失制网权,因而危及国家的安全。语言文字信息化中的不安全因素就是国家安全的隐患。中国网络

一级计算机习题

一、选择题(每小题1分,共20分) (1)天气预报能为我们的生活提供良好的帮助,它应该属于计算机的哪一类应用? A)科学计算 B)信息处理 C)过程控制 D)人工智能 (2)已知某汉字的区位码是3222,则其国标码是 A)4252D B).5242H C)4036H D)5524H (3)二进制数l01001转换成十进制整数等于 A)41 B)43 C)45 D)39 (4)计算机软件系统包括 A)程序、数据和相应的文档 B)系统软件和应用软件 c)数据库管理系统和数据库 D)编译系统和办公软件(5)若已知一汉字的国标码是5E38H,则其内码是 A)DEB8 B)DE38 C)5EB8 D)7E58(6)汇编语言是一种 A)依赖于计算机的低级程序设计语言 B)计算机能直接执行的程序设计语言 C)独立于计算机的高级程序设计语言 D)面向问题的程序设计语言 (7)用于汉字信息处理系统之间或者与通信系统之间进行信息交换的汉字代码是 A)国标码 B)存储码 C)机外码 D)字形码 (8)构成CPU的主要部件是 A)内存和控制器 B)内存、控制器和运算器 C)高速缓存和运算器 D)控制器和运算器 (9)用高级程序设计语言编写的程序,要转换成等价的可执行程序,必须经过 A)汇编 B)编辑 C)解释 D)编译和连接 (10)下列各组软件中,全部属于应用软件的是 A)程序语言处理程序、操作系统、数据库管理系统 B)文字处理程序、编辑程序、UNIX操作系统 C)财务处理软件、金融软件、WPS Office 2003 D)Word 2000、Photoshop、Windows 98 (11)RAM的特点是

汉字信息在计算机中的处理

汉字信息在计算机中的处理 陌陌:琪琪,随着计算机技术的发展,计算机具有了中文信息处理的能力,在上次课中,我们已经学习了第一节的文字及其处理技术,那么我想问你,汉字信息在计算机中是如何进行处理呢? 琪琪:陌陌,这你可要认真听了哦,汉字首先要被计算机先存储,计算机只能识别二进制数0和1任何信息在计算机中都是以二进制形式存放的,汉字也不例外,这就需要对汉字进行编码。 陌陌:那琪琪你能说说计算机在处理汉字时是如何机进行编码的吗? 琪琪:汉字在计算机内的编码很复杂,涉及汉字的各种代码,目前计算机上使用的汉字编码主要有三种1、汉字输入码2汉字机内码3汉字输出码。 陌陌:那琪琪你能告诉我汉字信息在计算机中是如何通过编码进行输入输出和显示的吗?琪琪:这个有点复杂,陌陌你要仔细听,在前面我所提到的汉字编码中,汉字输入码也叫外码,是为了通过键盘字符把汉字输入计算机而设计的一种编码。汉字的输入码种类繁多,大致有4种类型,即音码、形码、数字码和音形码。 陌陌:那第二个汉字机内码是什么呢? 琪琪:第二个是汉字机内码,它又称为内码或汉字存储码。汉字机内码是供计算机系统内部进行存储、加工处理、传输而统一使用的代码。 陌陌:那汉字输出码又应该怎么理解呢? 琪琪:汉字输出码,它也叫汉字的字型码,由汉字的字模信息组成的。目前普遍使用的汉字字型码是用点阵方式表示的,称为“点阵字模码”。所谓“点阵字模码”,就是将汉字像图像一样置于网状方格上,每格是存储器中的一个位,16×16点阵是在纵向16点、横向16点

的网状方格上写一个汉字,有笔画的格对应1,无笔画的格对应0。这种用点阵形式存储的汉字字型信息的合称为汉字字模库,简称汉字字库。通常汉字显示使用16×16点阵,而汉字打印可选用24×24点阵、32×32点阵、64×64点阵等。例如以下几幅图都是用点阵来显示汉字:

苏州大学 计算机中文信息处理技术 考试试卷

苏州大学计算机中文信息处理技术考试试卷(A卷) 学院专业班级 姓名学号形式: (闭卷) 一、填空题。(20%,每空1分) 1. 在IBM-PC系列微机中,BIOS打印管理模块是以号中断服务程序的形式存在的;BIOS显示输出管理模块是以号中断服务程序的形式存在的。 2. 中文信息处理是以为主要工具,以为处理对象的高新技术。 3. 在计算机汉字信息处理系统的不同部分中,存在着多种汉字编码,这些编码构成了一个完整的汉字代码体系,这个代码体系主要包括、、、、。 4. 汉字信息处理系统主要模块包括:模块、模块和模块。 5. 汉字输入码有很多种类,根据其编码规则的不同,一般可以分成、、、四类。 6. 现在使用的显示适配器一般都可以支持两大类工作模式。它们分别是:以字符为基本处理单元的模式和以象素为基本处理单元的模式。 7. 汉字点阵字形通常分为两种:适用于显示器的________和适用于打印机的________。 二、选择题。(20%,每题2分) 1. 如果我们在接收到的电子邮件的正文中看到这种形式的内容, “abc~{0!}~” 这封邮件的正文最有可能使用了下面的哪种编码方式: (a)BASE64 (b)UUEncode (c)QP (d)HZ 2. Windows环境下,IME本质上是一个_______ (a)中断处理程序(b)动态链接库(c)输入法服务器(d)中断向量 3. 由1000个16×16点阵构成的汉字要占用存储空间。 (a)25K字节(b)1000K字节(c)32字节(d)31.25K字节 4. 下列哪种输入法不需要输入码对照表:_______。 (a)智能abc (b)五笔字形(c)区位(d)双拼 5. 中文信息处理系统(DOS)的键盘输入管理模块是以16H号中断处理程序的形式给出的,它驻留在中。 (a)软盘(b)硬盘(c)ROM (d)RAM 6. 区位码是1801的汉字,它在GB2312-80中的机内码应该是。 (a)B2A1H (b)A1B0H (c)A2B1H (d)B0A1H 7. TrueType字库属于下列哪种类型的字库: (a)点阵(b)直线轮廓字(c)曲线轮廓字(d)以上都不对 8. 手机上使用的编码方案,如T9拼音、T9笔画等,属于哪种键盘方案:_______。 (a)大大键盘(b)大键盘(c) 小小键盘(d)小键盘 9. 在汉字系统中,汉字的显示一般采用黑底白字的方式,如在特殊场合需要反白显示(即白底黑字)的话,应对字形码做运算。 (a)移位(b)取反(c)与(d)或 10.如一个显示器采用640×480×单色的分辨率,则需要的显存是:。 (a)512K字节(b)76800字节(c)38400字节(d)768K字节 三、计算题。(20%)(转换编码见附表) 1. 现有一段信息采用Unicode编码(UCS-2序),内容如下: 11 62 1F 4F 27 59 84 76 56 79 FD 56 请将其内容用UTF-8编码,编码结果用16进制表示,并填入下表。(每格填一个字节)(10

辽师大版信息技术七上《计算机中信息的表示》教案

辽师大版信息技术七上《计算机中信息的表示》教案一个二进制数位简称为位(英文名称为bit)。计算机中最直接、最基本的操作就是对二进制位的操作。 一个二进制位可表示两种状态(0或1)。 两个二进制位可表示四种状态(00,01,10,11)。 位数多,所表示的状态就越多。 A S C I I码 ASCII 码是美国信息交换用标准代码(American Standard Codefor Information Interch ange)。ASCII码虽然是美国国家标准,但它已被国际标准化组织(ISO)认定为国际标准,为世界公认,并在世界范围内通用。 ASCII码用一个8位二进制数(字节)表示,每个字节只占用了7位,最高位恒为0。7位ASCII码可以表示128(27=128)种字符,其中通用控制字符34个,阿拉伯数字10个, 示数的范围为128~255,可表示128种字符。通常各个国家都把扩充的ASCII码作为自己国家语言文字的代码。 汉字编码我国用户在使用计算机进行信息处理时,一般都要用到汉字。由于汉字是象形文字,字的数目很多,常用汉字就有3000~5000个,加上汉字的形状和笔画多少差异极大,因此,不可能用少数几个确定的符号将汉字完全表示出来,或像英文那样将汉字拼写出来。汉字必须有它自己独特的编码。 1.汉字信息交换码(国标码) 《信息交换用汉字编码字符集·基本集》是我国于1980年制定的国家标准GB2312-8 0,代号为国标码,是国家规定的用于汉字信息处理使用的代码依据。 GB2312-80中规定了信息交换用的6763个汉字和682个非汉字图形符号(包括几种外文字母、数字和符号)的代码。 6763个汉字又按其使用频度、组词能力以及用途大小分成一级常用汉字3755个和二级常用汉字3008个。 一级汉字按拼音字母顺序排列;若遇同音字,则按起笔的笔形顺序排列;若起笔相同,则按第二笔的笔形顺序排列,依次类推。所谓笔形顺序,就是横、竖、撇、点和折的顺序。二级汉字按部首顺序排列。 在此标准中,每个汉字(图形符号)采用双字节表示。每个字节只用低7位,最高位恒为1。由于低7位中有34种状态是用于控制字符,因此,只有94(128-34=94)种状态可用

2018计算机应用基础测试题(一)

计算机应用基础(一) 题目1 正确 获得1分中的1分 标记题目 题干 在计算机领域中,"编码"的含义是______。 选择一项: a. 用来对汉字多个字的词组进行数值转换 b. 用来对英文单词进行数值转换 c. 用来对汉字单个字进行数值转换 d. 用来对非数值型数据进行数值转换 反馈 正确答案是:用来对非数值型数据进行数值转换 题目2 正确 获得1分中的1分 标记题目 题干 绘图仪是计算机的图形输出设备,分为两类,它们是______。选择一项: a. 平台式和滚筒式 b. 喷墨式和击打式

c. 平台式和立体式 d. 移纸式和卷纸式 反馈 正确答案是:平台式和滚筒式 题目3 正确 获得1分中的1分 标记题目 题干 CMOS、BIOS都安装在______。 选择一项: a. 系统总线 b. CPU c. 主板 d. 机箱 反馈 正确答案是:主板 题目4 正确 获得1分中的1分 标记题目 题干 计算机的内存容量可能不同,而计算容量的基本单位都是______。选择一项:

b. 字节 c. 字 d. 位域 反馈 正确答案是:字节 题目5 正确 获得1分中的1分 标记题目 题干 把计算机用于科学计算,它的最显著优势在于______。选择一项: a. 运算速度快和运算结果精密准确 b. 能进行逻辑判断 c. 高度自动化 d. 具有记忆能力 反馈 正确答案是:运算速度快和运算结果精密准确 题目6 正确 获得1分中的1分 标记题目

老师上课用的计算机辅助教学的软件是______。选择一项: a. 系统软件 b. 应用软件 c. 操作系统 d. 文字处理软件 反馈 正确答案是:应用软件 题目7 正确 获得1分中的1分 标记题目 题干 微型计算机的内存储器______。 选择一项: a. 按二进制位编址 b. 按字长编址 c. 按字节编址 d. 按十进制位编址 反馈 正确答案是:按字节编址 题目8

中文信息处理的应用的研究报告

中文信息处理的应用研究报告 在多元化的信息中,文字信息是一种最普遍的形式。例如:文件、信函、报表、记录、印刷品等基本上采用文字表达的形式。 “中文信息处理”一词是从20世纪70年代流行起来的,实际上,自古以来,中文信息处理工作源远流长。可以说,自从有了中文(汉字),即相应地出现了中文信息处理的工作。从开始编制第一部汉字字典和编写第一篇文摘起就开始了中文信息的分析与综合处理的研究。然而,现代人们言及的“中文信息处理”包括了有关中文信息的采集、存储、传输和利用,是指利用电子计算机和现代通信、照明、排版、等自动化技术对汉字信息进行输入输出整理、加工、转换、传输、复制、等各种处理的一项新兴的科学技术。其交叉性使之成为“信息科学”的分支;其综合性应用使之成为“系统工程”的一个实例。它涉及到语言文字学、计算机科学、信息科学、工程心理学、数理统计学、声学、自动识别技术、人工智能、网络技术、文献检索学等等。故可以说它是一门新兴的多边缘科学。中国要实施先进的信息处理技术手段,中文信息化是一项重要的资源开发工作。中文信息网已逐渐成为我国现代化社会的神经系统,它将促进人民文化和社会生产效率迅速提高。中文信息处理工程已建立起现代化中文语言文字信息系统,使凝聚在语言文字中的知识信息发挥更大效能,使汉语汉字得到最佳利用。 计算机中文信息处理技术从70年代至今,经历20多年,完成了由初级阶段向比较成熟阶段的过渡,这是微电子技术和IT技术高速发展以及迫切的应用需求所促成的。 现在,许多移动电话都已具备中文菜单和显示中文短信息功能,但都有缺陷,还不是真正意义上的“全中文”。只有当它既能显示中文又能输入和处理中文,也就是说,能直接利用手机进行中文输入时,才可以说是“全中文”。然而,一般移动电话仅有数字键,这无疑对汉字数字输入法(简称数字码)提出了很迫切也是很高的要求。顺便说一下,在WAP技术成为新的热点之时,连英文也面临着需要编码输入的严峻事实。 当前,美国、日本及我国香港特区都在大力发展一种双向寻呼机,它同时具有输入功能,即,它同样也面临着中文处理问题。还有电子词典,如何高效、规范化地利用电子字典查找汉字和单词,也是只能各位信息处理应该解决的问题。

中文信息处理 教学大纲

课程名称:中文信息处理 课程类别:专业课程 授课对象:计算机科学与技术专业 学分:3学分 指定教材:朱巧明等,《中文信息处理技术教程》,清华大学出版社,2005年一、教学目的: 本课程的教学目的是使学生掌握中文信息处理的基本原理,熟悉基本“字符”层面和基于“内容”层面的研究内容、方法、技术和手段。熟练理解并掌握计算机对中文的输入、存储、输出和应用处理的过程,学习基本的机器学习理论与方法。 本课程对计算机科学与技术的学生有着承前启后的作用,综合结合运用前导课程,又为毕业设计和将来研究生学习或工作奠定扎实基础。本课程的直接前导课程有《C语言程序设计》、《面向对象程序设计》、《数据结构》和《操作系统》。 二、教学任务: 本课程主要教学任务如下: 1了解中文信息处理与信息处理的关系,主要研究内容与对象,目前主流的研究技术、手段与方法; 2掌握中文信息处理中的汉字代码体系,熟悉主要的中文字符编码与集合,熟悉因特网上的汉字交换码以及编码与解码技术; 3深刻理解中文操作系统和中文平台的地位,掌握汉字输入码、机内码、地址码、字形码、地址码、交换码之间的关系;了解主流的中文操作系 统的发展趋势 4学习汉字编码的方法,理解中文输入的原理,掌握Windows上汉字键盘输入系统的实现方法,了解Linux中文输入的实现机制。 5学习目前主要的三种汉字字形技术,重点掌握点阵字库的原理,压缩方法,以及显示技术。 6理解汉字显示和打印的工作原理以及工作过程。 7理解中文分词的意义,地位、以及主要应用,掌握交集型歧义和组合型歧义的区别,了解基本的解决歧义的方法,能够实现一种中文自动分词 算法。 8对中文信息检索、分类、抽取等有较深刻的认识,了解需要解决的问题,以及主流的技术方法。了解基本的机器学习理论,以及常用的数学模型。 三、教学内容 第一讲中文信息处理概论(一) 1. 教学内容

中文信息处理论文

搜索引擎 摘要:Internet 上日新月异的大量信息资源充斥,人们对信息的需求越来越多,各式各样的搜索引擎应世而生,然而随着大数据的到来,这对搜索引擎提出更高要求。但是面对这么大量的数据,一般的搜索引擎有些吃不消,不能满足人们的需求,然而基于自然语言处理技术的智能搜索引擎出现了,本文将介绍搜索引擎用到自然语言处理技术去。 关键字:搜索引擎,自然语言处理,概念控制 Search engine (*********************) Abstract: Changing a lot of information on the Internet is full of resources, people d emand more and more information, a variety of search engines shoul d the world was born, but with the arrival of big data, which is the search engine, higher demands. But the face of such a large amount of data, general search engines too much for some, can not meet people's needs, however, based on natural language processing technol ogy, smart search engines appeared, this article describes the search engine to use natural language processing technol ogy. Keyword: search engine,Natural Language Processing, Control Concepts 1 搜索引擎 1.1搜索引的擎定义 搜索引擎,是指在Internet中主动搜索信息并能自动查询、提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人Web Robots)或网站登录等方式,将Internet上大量网站的页面收集到本地,经过加工处理而建成数据库,当用户输入关键字(Keyword)查询时,该网站会告诉用户包含该关键字信息的所有网址,并提供通向该网站的链接。 1.2搜索引擎的分类 在搜索引擎的发展过程中,出现了各式各样类型的搜索引擎。根据索引方法来划分,可以分为基于概念(Concept Based)的搜索引擎:和基于关键字匹配(Keyword Based)的搜索引擎等。根据搜索引擎索引、检索信息的方式来分,可以分为:基于目录的搜索引擎、基于机器人的搜索引擎、分布式搜索引擎、基于客户的搜索引擎、元搜索引擎和代理搜索引擎;根据搜索引擎索引信息的范围来划分,可以分为:综合式搜索引擎、专题式搜索引擎和特殊型搜索引擎;

信息技术基础第一章复习题

信息技术基础第一章复习题 填空题: 一.信息及特征 1.信息是指、、中所包含的意义。 2.信息的载体有。 二.信息的编码 1.二进制代码 (1)二进制数是由“”和“”两个数字组成,运算规则是“” (2)将十进制整数转换成二进制整数可用“除二取余”法,将二进制数转换成十进制数可用 “”法。 (3)二进制转换成十六进制:从二进制的位开始,每位二进制数转换成一位十六进制数。反之,十六进制转换成二进制时,每一位十六进制数转换成四位二进制数。 2.ASCII编码 编码即美国国家信息交换标准码,该编码使用位二进制数,由个代码组成。 其中数字、字母是按顺序依次排列的。存储设备在存储ASCII码时,占用一个字节的右7位.最左位 用“”填充。 3.汉字编码 (1)汉字在计算机内也是以代码形式表示的,这些代码称为汉字编码,常见的汉字编码有 GB2312、GBK、GBl8030,其中最常用的编码是GB2312,用个字节表示一个汉字。 (2)码是利用汉字的音、形或其他相关特征对指定汉字集编制的代码,包括:音码、形码、 音形码、形音码等。 (3)交换码用于各种数字系统之间的汉字信息的通信交换,又称区位码。在计算机中.用第一个 字节标记码,第二个字节标记码。 (4)处理码是计算机内部用于信息处理的汉字代码,也称汉字码。 (5)汉字输出显示和打印的字形有两种表现方式:点阵方式和矢量方式,对字形的编码称为____ 码。 (6)用UltraEdit或WinHex工具软件观察内码时,ASCII码(英文字符)只占个字节.汉字 编码占个字节。 4.多媒体信息的编码 多媒体信息数字化就是将模拟的多媒体信息以计算机能够处理的二进制数进行编码的过程。 (1)声音信号是通过和实现模拟量的数字化。采样频率越,量化的分辨率 越,所得数字化声音的保真程度越,但是它的数据量也越。 (2)位图所占空间除了它的像素点的个数之外,还与它的颜色种类的多少有关,表示颜色种类越 多,色彩越逼真,存储的空间越大。位图的图像存储空间的计算公式为: 存储量= ××/8(单位:字节)。 (3)视频是由连续的图像帧组成,常见的有、、SECAM等三种视频播放制式。 三.信息技术及影响 1.信息技术的发展及影响 信息技术的发展已经成为影响人类社会的一种趋势,出现了计算机、计算机、网格计算、、数字地球和智能化社区、因特网和以下一代因特网、虚拟现实的实用化为代表的一些新技 术。

中文信息处理

中文信息处理技术浅谈 摘要:随着科学技术的发展,中文信息处理已经深入到了社会生活的各方面。广泛的应用对中文信息处理技术也提出了较高的要求。本文从主流技术、新技术展望等,对中文信息处理技术进行了初步探索。 关键词:中文信息处理N元模型语音识别词性标注 中文信息处理是中文(包括汉语和少数民族语言)语言学和信息技术的融合,它是一门用计算机对汉语(包括口语和书面语)进行转换、传输、存贮、分析等加工的科学。中文信息处理与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系,是自然语言信息处理的一个分支,需要以大量的语言知识、背景知识为依据,对中文信息的人脑处理过程进行模拟。其中,“中文”是指中国通用的所有语言种类,包括汉语及其他少数民族的语言:但一般都是指汉语。“信息”是指能通过视觉、听觉、嗅觉、味觉、触觉等器官或仪器获取,并有一定交际功能的东西,“信息”是不确定性的减少,是负熵。所谓“处理”,是指用计算机对信息进行各种加工,主要的是图像信息和语言信息的识别、模拟、分析、转换和传输。 一、中文信息处理的特点及难点 中文信息处理在许多方面有自己的特点。 1、汉字的特殊性 西方语言只有几十个字母。而汉字由于数量大且字形复杂,也给计算机处理带来了困难。汉字信息处理是中文信息处理的关键和基础,包括汉字信息的输入、汉字信息的加工和汉字信息的输出等方面,其难点是汉字编码问题。根据在汉字信息处理过程中的不同要求,汉字有多种编码,主要可以分为四类,即汉字输入编码,汉字标准编码,汉字内码和汉字形码。 2、书面汉语的特殊性 书面汉语中,词跟记号之间没有分隔标记,自动分词成为书面汉语分析的第一道难关。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。 3、汉语语音的特殊性 汉语语音的特点是音节结构简单,音节界限分明,但有声调和变调等问题,对于语音识别和语音合成来说,既有有利的一面, 也有不利的一面。 4、汉语语法的特殊性 汉语形态贫乏,难以凭借形态来确定词的句法功能,词序和虚词是主要的语法手段,句法歧义特别复杂,使得汉语语句自动分析这一关键技术迟迟不能取得

同济大学中文信息处理期末试卷

同济大学中文信息处理期末考试A卷 课程名称:中文信息处理专业:计算机科学与技术、信息安全 学号:姓名:成绩: 一、填空题: 1、分词单位是指汉语信息处理使用的、具有确定的语义或语法功能的基本单位,包括和少量。 2、所谓框架,是由、、和组成的抽象数据结构。 3、机械分词方法无法解决分词阶段的两大问题—— 和,影响了分词的准确率。 4、对于语法分析而言,自动标注的性能采用性能来衡量较好。 5、对于齐次的马尔可夫过程而言,一旦知道了它的 和,它的统计性质,即它的任意有限维分布就完全确定了。 6、若将词的生成过程看作一个HMM,其中构成一个时齐的马尔可夫过程,而则服从多项概率分布。 7、在上下文无关(CFG)规则库中出现的符号包括:终结符和非终结符。通常地,终结符就是,非终结符就是。 8、将一个句子映射到它的的过程称为语义解释。 9、动词及其参数之间存在一组抽象的语义关系,这些关系一般称为。 10、自然语言处理是领域与领域中的一个重要研究方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 二、简答题: 1、什么是自然语言理解,什么是自然语言生成?请列举三个自然语言研究的应用领域。 2、请运用树结构形式表示下面句子的结构。

那位老人在公园散步。 3、在语义分析阶段,采用选择限制法消除歧义的基本思想是什么? 三、请描述下面句子采用逆向最小匹配分词的过程(设MAXL=4)。 他的确切地址在这里。 四、请根据下面的语法规则,给出下面句子的双向图语法分析过程。 他是好学生。 语法规则如下:(#pronoun表示pronoun是触发类) ⑴ NP ?#pronoun ⑵ NP ?#noun ⑶ NP ?#adj noun ⑷ VP ?#verb ⑸ SUBJ ?#NP ⑹ PRED ?#VP NP ⑺ S ? SUBJ #PRED 五、请根据给定的语法规则、ACTION表和GOTO表,写出对下面句子进行LR语法分析的过程。 句子:He is a *.(其中*表示未登录词) 语法规则: (1) S ? NP VP (2) S ? S PP (3) NP ? *n (4) NP ? *det *n (5) NP ? NP PP (6) PP ? *prep NP (7) VP ? *v NP

第1章 习题答案

第一章习题答案 1.问答题 (1)计算机的发展经历了哪几个阶段?各阶段的主要特征是什么? 答:根据计算机所采用的电子元件不同可划分为:电子管计算机、晶体管计算机、集成电路计算机和大规模超大规模集成电路计算机等四个阶段。 第一代计算机主要特点是:内存容量非常小;计算机程序设计语言为机器语言;尚无操作系统出现,操作机器困难。它体积庞大、造价昂贵、速度低、存储容量小、可靠性差、不易掌握,主要应用于军事目的和科学研究领域的狭小天地里。 第二代计算机主要特点是:采用了晶体管的电子元件;内存储器容量扩大到几十万字节;计算机软件有了较大发展,出现了监控程序并发展成为后来的操作系统;推出了Basic、Fortran、Cobol高级程序设计语言。主要应用范围由单一的科学计算扩展到数据处理和事务管理等其他领域。 第三代计算机的特点是:体积、重量、功耗进一步减小,运算速度、逻辑运算功能和可靠性进一步提高;软件在这个时期形成了产业;出现了分时操作系统;提出了结构化、模块化的程序设计思想,出现了结构化的程序设计语言Pascal。这一时期的计算机同时向标准化、多样化、通用化发展。 第四代计算机的特点是:磁盘的存取速度和容量大幅度上升;体积、重量和耗电量进一步减少;计算机的性能价格比基本上以每18个月翻一番的速度上升;操作系统向虚拟操作系统发展,数据库管理系统不断完善和提高,程序语言进一步发展和改进,软件行业的发展成为新兴的高科技产业;计算机的应用领域不断向社会各个方面渗透。 (2)未来计算机发展的趋势是什么? 答:现代计算机的发展表现为两个方面:一是巨型化、微型化、多媒体化、网络化和智能化5种趋向;二是朝着非冯·诺依曼结构模式发展。 (3)计算机的特点是什么? 答:①处理速度快 ②计算精度高 ③存储容量大 ④可靠性高 ⑤工作过程的全自动化 ⑥适用范围广,通用性强 (4)计算机的类型有哪些? 答:①按其处理数据的形态分为:数字计算机、模拟计算机、混合计算机 ②按其使用范围分为:通用计算机、专用计算机 ③按其本身性能分为:超级计算机、大型计算机、小型计算机、微型计算机、工作站 (5)简述计算机的应用领域。 答:计算机具有存储容量大、处理速度快、工作全自动、可靠性高,同时又具有很强的逻辑推理和判断能力等特点,所以已被广泛应用于各种学科领域,并迅速渗透到人类社会的各个方面,同时也进入了家庭。计算机应用已形成一门专门的学科,这里只对应用的几个主要方面作简单介绍。

《中文信息处理》复习提纲

《中文信息处理》复习提纲第一章汉字信息处理 一、填空: 汉字的属性信息包括字量、字频、字序、字形、字音。 二、现代汉语用字排列的顺序 1、义序法 2、音序法 3、形序法 三、GB2312-80:中国《信息交换用汉字编码字符集·基本集》 四、什么是汉字字形识别输入? 也称汉字自动识别。即利用光学扫描方法将汉字的图形信息直接输入计算机,也就是用计算机自动辨别印刷或书写在纸(或其他介质)上的汉字。它属于模式识别和人工智能的范畴,是新一代计算机智能接口的一个重要组成部分,在应用上它是汉字信息处理系统告诉自动输入的手段和根本出路,是汉字中文信息处理的一种好办法。五、自动字形识别输入的类型。 汉字识别的类型主要分三大类:联机手写汉字识别、印刷体汉字识别和手写汉字识别。 1、汉字手写汉字识别,又称实时手写汉字识别,人用笔在图形输入板上写字,机器隔着认。 2、印刷体汉字识别包括单体印刷体汉字识别和多体印刷体汉字识别两小类。 (1)单体印刷体汉字识别是识别印刷在纸上的一种印刷体汉字。 (2)多体印刷体汉字识别是同时识别印刷在纸上的宋、仿宋、楷、黑等多种字体的印刷体汉字。 3、手写汉字识别,又称通用手写汉字识别,是识别人写在至上的规整汉字。一般限制为楷书,笔画数要正确,要写于方格中。 六、汉字识别的基本思想与步骤。 1、汉字识别的基本思想是匹配识别。 2、步骤: 第一步把需要识别的汉字集合中每一个汉字字符的字形特征存贮在机器中,形成已知的汉字库。 第二步用图形输入板或光电设备(如图文扫描、光导摄像管扫描、激光扫描等装置)扫描输入一个未知的需要识别的汉字字符,抽取它的特征。 第三步将抽取到的代表未知汉字模式本质的表达形式(即各种特征)和预先存贮在机器中的所有汉字特征一个一个地匹配,匹配用一定的准则进行。最后在机器存贮的标准汉字模式表达形式的集合中,找出最接近汉字输入特征的那一个,该特征所对应的汉字就是识别结果,最后用相应的内部码来表示它。 七、汉字语音识别输入的定义。 汉字语音识别输入就是通过“说”和“听”来和计算机交换信息,即利用声音识别技术,抽取汉字的语言特征,实现对汉语语音的自动识别。其目的是让计算机“听懂”用汉语语音所表示的汉字信息,以便通过口授将包含有汉字的程序、数据、命令、文稿等送入计算机。 八、语音识别的类型 1、按使用人分类,有特定人语音识别和非特定人语音识别 (1)特定人语音识别指使用前由使用者对系统进行训练,让系统记住事先选好的字或词的发音特征,识别时由这个使用者将字或词读进系统。 (2)非特定人语音识别是供许多人使用的系统,使用者不用对系统进行训练。系统要能听懂任何人说的话,就必须让系统获取许多人说话的共性特征,并在处理中进行强化,是许多人说的同一语音的特征有极高的稳定性,对不同的语音有极大的区别度。 2、按词汇量分类,有小词汇量语音识别、中词汇量语音识别和大词汇量语音识别。 小词汇量指几十个字或词,中词汇量指几百个字或词,大词汇量指几千甚至上万的字或词。 3、按发音方式分类,有孤立词语音识别和连续语音识别。(1)孤立词语音识别指识别时将字或词孤立地读进系统。(2)连续语言识别指语言识别时将整个句子连续读进系统。要求系统既具备处理连续造成地同化、异位、脱落、换位等音变问题的能力,又具有通过语义、语法知识分析得出正确识别效果的能力。 另外,还有使用环境优劣的区分,也就是指噪声轻重情况。目前噪声下的语音识别还只是在初步研究阶段。通常所说的语音识别都是有较好的使用环境。 九、汉字编码的类型。 拼音编码、字形编码、音形编码。 十、汉字编码的原则 1、社会学原则 汉字编码研究的目的之一时为了信息处理技术的普进,这一普及首先要面向教育。汉字输入系统进入中小学课堂是培养跨世纪人才的根本大计,教学的规范化相应地要求汉字编码研究的规范化。在规范化的前提下,将中小学的“识字、定字、查字、打字”教学统一起来。 汉字是我国悠久历史文化的一个特征,研究汉字的分解原则,必须联系我国社会的文化背景。人们称说汉字的习惯有着深厚的群众基础,之所以能相沿习用,必有其合理的一面。现在,中文信息处理在拆分汉字,设计汉字编码方案时,就要充分考虑到这种文化传统和社会基础。2、汉字学原则 汉字编码作为汉字的计算机语言或代码,必须准确而简洁地反映和体现汉字地特点和规律。在实际过程中,容

中文信息处理重点题目及解答

中文信息处理 ①信息:是物质世界存在的形式、状态及各种关系,是与物质、能量共同构成世界的三大要素之一。具有主观和客观双重属性。中文信息,是特指以汉语言文字为载体形式的信息。从宏观角度看,一类是自然性信息,一类是社会性信息。 ②信息处理:就是用计算机对各种信息符号进行输入、转换、存储、传输、分类、排序、统计、分析、重组等加工过程。 ③中文信息处理:是利用计算机对中文(包括口语和书面语)进行输入、转换、传输、存储、分析、加工的科学。中文信息处理技术已到社会生活的各个方面,汉字/汉语信息处理。 ④代码:汉字的代码有:汉字输入码、汉字内部码、汉字交换码、汉字地址码、汉字字形码和汉字控制功能码。从汉字代码的角度看,一个汉字信息处理系统,就是一个进行汉字代码转换的过程。中文代码包括内部码和外部码两大类,内部码是中文在计算机系统内部进行处理和传输的代码,外部码作为人机接口由用户给计算机输入信息时使用的代码。 *中文计算机操作系统使用的代码系列一共三种,七位代码系列,八位代码系列和双八位代码系列。中文信息内部处理代码包括存储码、运算码、传输码。 (是程序员用开发工具所支持的语言写出来的源文件,是一组由字符、符号或信号码元以离散形式表示信息的明确的规则体系。) ⑤编码:是以固定的顺序排列字符,并以此做记录、存贮、传递、交换的统一内部特征,这个字符排列顺序被称为“编码”。 A.计算机通讯技术领域对所处理信息的字符集序号序列的排序原则和代码赋值方式,也是“机内码”的编码。 B.专指计算机键盘输入汉字的代码设计与实现,简称外码或人机界面编码。 汉字编码:广义的汉字编码就是汉字排检法,即确定一个排序规则使全部汉字成为有序的集合,以便能按照排序规则检索到所需要的汉字。狭义的汉字编码特指采用通用键盘上的字母数字为汉字编制代码,以便实现汉字的计算机输入。 *静态编码:指把汉字作为等概率的离散字符进行的编码,不考虑汉字的使用频率。 动态编码:是根据汉字的使用频率进行信息编码,如传输码、处理吗都采用动态编码。 ⑥字符集:字符(Character)是文字与符号的总称,包括文字、图形符号、数学符号等。一组抽象字符的集合就是字符集。计算机对字母和符号采用国际上通用的ASCII码来编码,标准的ASCII码用7位二进制数编码,字符存放时采用一个字节,规定最高位为0,这样可以表示128个字符。 ⑦汉字三种类型输入法: A.键盘输入方法使用已有西文键盘,通过编码输入。分整字输入方法和编码输入方法。 B.非键盘输入方式:如识别输入,包括汉字识别输入和语音识别输入。 C.数字键盘编码输入。 汉字输入计算机的途径:A.通过计算机的键盘人工输入B.计算机自动识别 汉字的自动识别级汉语的语音自动识别 ⑧汉字属性:是汉字作为记录汉语的书写符号所具有的形、音、义等属性。其研究和属性库的建立,具有特别重要的理论意义和实践意义。汉字的信息属性是汉字作为信息载体所具有的所有属性,包括传统的形音义,频率、分布、构词等。对汉字属性的传统认识是针对形音义三要素,现代对汉字信息属性认识有字量、字形、字音、字序四种。 ⑨汉字属性库: 从关系数据库的结构出发,任何一个层级的分类都可作为数据结构中的一个属性项,所有的

试论中文信息处理与现代汉语语法

试论中文信息处理与现代汉语语法 论文关键词:中文信息处理现代汉语语法句处理 论文摘要:用计算机来处理汉语信息包括“字处理”、“词处理”和“句处理”三个阶段。“句处理”是实现自然语言的处理与理解这一关键性的技术难关。其中遇到的问题比较多:词性的判断;短语、句子的结构分析;歧义现象分析等等,最根本的方法是语言学家尽可能地把语言中的这些现象通过归纳、分析、总结出规律,再用形式化的方式描述出来,以便利于计算机处理。 用计算机来处理汉语信息,就是汉语信息处理,又称中文信息处理。中文信息处理包括“字处理”、“词处理”和“句处理”。“字处理”、“词处理”分别与汉字和词汇有关,在此主要谈谈“句处理”。 句处理的主要内容是,怎样使计算机理解自然语言(如现代汉语)的句子的意思,又怎样使计算机生成符合自然语言规则的句子。“句处理”所需要的语言知识,将是一种涉及到语音、语义、语法、语用等诸方面的综合性知识。目前。大家都深感现有的关于汉语的知识远远不能满足中文句处理的需要。单就句法方面的情况说。在中文信息处理过程中将会不断遇到我们想象不到的问题,许多问题在人看来还是比较容易解决的,但计算机就解决不了。也有一些问题,本身在学术界就有不同的观点,那么,就给中文信息处理增加了更大的困难。 用计算机来处理中文信息,遇到了很多困难,从现代汉语语

法的角度来看,主要有以下一些问题: 一、词性的判断 由于汉语缺乏形态。汉语的词性判断主要是根据词的语法功能,不同的词,词性意义可能不同,同一个词出现在不同的地方,词性意义也可能不同,汉语中,大多数词有固定的词性,但有些词的用法比较特殊。例如: 1.他花了十块钱买了一盆花。 2.你用那个锁把门锁上。 3.他比雷锋还雷锋。 这三个句子中分别有两个“花”、“锁”、“雷锋”。但它们只是音同、形同,词性和意义都不同。句子1中的第一个“花”是动词,“花费”的意思,第二个“花”是名词,“植物”的意思。句子2中的第一个“锁”是名词,即“锁子”的意思,第二个“锁”是动词,是“锁住”的意思。句子3中第一个“雷锋”是名词,表示人名,第二个“雷锋”是形容词,表示“雷锋的精神、品质等”。具有一定语言知识的人大体上都能分清它们的区别。从传统语言教学的角度来讲,句子1中的两个“花”是词形、读音相同,但词性和意思都不一样,且两个“花”的意思之间没有联系,所以属于同音词。句子2中的两个“锁”,也是词形、读音相同,词性和意思都不一样,但两个“锁”意思间有联系,所以属于兼类词。句子3中的两个“雷锋”词形、读音相同,词性和意思都不一样,意思也有

相关文档
最新文档