基于n-最短路径方法的中文词语粗分模型

基于n-最短路径方法的中文词语粗分模型
基于n-最短路径方法的中文词语粗分模型

基于层叠隐马模型的汉语词法分析

刘群1,3 张华平1,2 俞鸿魁1程学旗1

1

中国科学院计算技术研究所北京100080

2

中国科学院研究生院北京100039

3

北京大学计算语言学研究所北京100871

E-mail: {liuqun,zhanghp,yuhongkui,cxq}@ https://www.360docs.net/doc/e1781954.html,

摘要:本文提出了一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中。在分词方面,采取的是基于类的隐马模型,在这层隐马模型中,未登录词和词典中收录的普通词一样处理。未登录词识别引入了角色HMM:Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识别出未登录词,并计算出真实的可信度。在切分排歧方面,作者提出了一种基于N-最短路径的策略,即:在早期阶段召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性标注之后,从N个最有潜力的候选结果中选优得到。不同层面的实验表明,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用。作者实现了基于层叠隐马模型的汉语词法分析系统ICTCLAS,该系统在2002年的973专家组评测中获得第一名,在2003年汉语特别兴趣研究组(the ACL Special Interest Group on Chinese Language Processing, SIGHAN)组织的第一届国际汉语分词大赛中综合得分获得两项第一名、一项第二名。这表明:ICTCLAS是目前最好的汉语词法分析系统之一,层叠隐马模型能够解决好汉语词法问题。

关键词: 汉语词法分析; 分词; 词性标注; 未登录词识别; 层叠隐马模型; ICTCLAS

中图法分类号:TP391.2文献标识码:A

Chinese Lexical Analysis Using Cascaded Hidden Markov Model

LIU Qun1,3ZHANG Hua-Ping1,2YU Hong-kui1 CHENG Xue-Qi 1

1Institute of Computing Technology, The Chinese Academy of Sciences, Beijing, 100080 CHINA

2 Graduate School of the Chinese Academy of Sciences, Beijing, 100039 CHINA

3Inst. of Computational Linguistics, Peking University, Beijing, 100871 CHINA

Email: {liuqun,zhanghp,yuhongkui,cxq}@ https://www.360docs.net/doc/e1781954.html,

Abstract:This paper presents an approach for Chinese lexical analysis using Cascaded hidden Markov model (CHMM), which aims to incorporate Chinese word segmentation, Part-Of-Speech tagging, disambiguation and unknown words recognition into an integrated theoretical frame. A class-based HMM is applied in word segmentation, and in this model unknown words are treated in the same way as common words listed in the lexicon. Unknown words are recognized with reliability on roles sequence tagged using Viterbi algorithm in roles HMM. As for disambiguation, the authors bring forth an n-shortest-path strategy that, in the early stage, reserves the top N segmentation results as candidates and covers more ambiguity. Various experiments show that each level in the CHMM contributes to Chinese lexical analysis. An CHMM-based system ICTCLAS was accomplished. The system ranked top in the official open evaluation, which was held by 973 project in 2002. And ICTCLAS achieved 2 first ranks and 1 second rank in the first 本文得到国家重点基础研究项目(G1998030507-4;G1998030510)和计算所领域前沿青年基金项目20026180-23资助

international word segmentation bakeoff held by SIGHAN (the ACL Special Interest Group on Chinese Language Processing) in 2003. It indicates that ICTCLAS is one of the best Chinese lexical analyzers. In a word, CHMM is effective to Chinese lexical analysis.

Keywords:Chinese lexical analysis; word segmentation; POS tagging; unknown words recognition;

Cascaded Hidden Markov Model; ICTCLAS

1引言

词是最小的能够独立活动的有意义的语言成分[1]。在汉语中,词与词之间不存在分隔符,词本身也缺乏明显的形态标记,因此,中文信息处理的特有问题就是如何将汉语的字串分割为合理的词语序列,即汉语分词。汉语分词是句法分析等深层处理的基础,也是机器翻译、信息检索和信息抽取等应用的重要环节。

从1983年第一个实用分词系统CDWS[2]的诞生到现在,国内外的研究者在汉语分词方面进行了广泛的研究,提出了很多有效的算法。我们可以粗略地将这些方法分为两大类:第一类是基于语言学知识的规则方法,如:各种形态的最大匹配、最少切分方法、以及综合了最大匹配和最少切分的N-最短路径方法[3],还有的研究者引入了错误驱动机制[4],甚至是深层的句法分析[5]。第二类是基于大规模语料库的机器学习方法[6,7,8],这是目前应用比较广泛、效果较好的解决方案。用到的统计模型有N元语言模型,信道-噪声模型,最大期望[9],隐马模型等。在实际的分词系统中,往往是规则与统计等多类方法的综合。一方面,规则方法结合使用频率,形成了可训练的规则方法[6];另一方面,统计方法往往会自觉不自觉地采用一些规则排除歧义、识别数词、时间及其他未登录词。同时,我们也注意到国外同行提出的一些探索性算法,如:基于压缩的方法[10],分类器的方法[11],无词典的自监督学习方法[12]。目前,对不含歧义和未登录词1的文本进行分词,已有方法和系统表现相当出色,其准确性已经达到相当高的水平。

实际上,汉语分词的主要瓶颈是切分排歧和未登录词识别。切分歧义和未登录词降低了自身正确切分的可能性,同时还干扰了其相邻词的正确处理。更糟糕的是,未登录词往往和切分歧义交织在一起,进一步增加了分词的难度。如:在“克林顿对内塔尼亚胡说”中,“内塔尼亚胡”是

1我们这里所说的未登录词指的是核心词典中没有收录而又不能用正则表达式描述的词,如没有被收录的人名、地名。一个词典中没有收录的译名,实际切分的时候,“对”与“内”,“胡”与“说”往往会粘在一起,最终导致错误的切分结果:“克林顿/对内/塔尼亚/胡说/”。

文献[13]对切分歧义进行了较好的形式化描述,并引入了嘈杂度的概念对歧义的程度进行了定量的描述。目前切分排岐的研究路线基本上以规则为主[14,15,16],还有的针对某一类歧义,引入了一些成熟的模型作专门处理,如引入向量空间解决组合歧义问题[17]。在未登录词识别方面,主要的出发点是综合利用未登录词内部构成规律及其上下文信息。未登录词识别处理的对象主要是人名、地名、译名和机构名等命名实体。在语料库不足的条件下,未登录词识别唯一的出路是采取精细的规则[18,19,20,21],规则一般来源于观察到的语言现象或者是大规模的专名库。目前比较成功的解决方案大都是从大规模的真实语料库中进行机器学习,解决方案有隐马模型[22,23]、基于Agent 的方法[24]、基于类的三元语言模型[25]等。

经过二十余年的努力,研究者们在分词算法、切分排歧和未登录词识别方面均取得了较大的进展。然而,现有方法和系统往往缺乏一个相对统一的模型框架将三者进行有机的融合。排歧、未登录词识别往往和分词相对独立,排歧的结果和识别出的未登录词缺乏科学的可信度计算,即使量化,往往流于经验,很难在量值上与普通词作真正意义上的比较。一般都倾向于假定排歧和未登录词结果正确无误,忽略具体的分词算法,直接修正分词结果。现有的分词方法更大程度上是专门切分出词典中收录的词,基本上没有将未登录词和歧义纳入到同一个算法体系当中,一旦遇到歧义或者未登录词就作为特例进行专门处理,因此使用的模型和方法都没有贯彻到底,缺乏统一的处理算法,对切分结果也缺乏统一的评估体系。最终导致分词的准确率在开放测试的条件下并不像宣称的那样理想,处理含有未登录词、歧义字段的真实文本时,效果更是不尽人意。

本文提出了一种基于层叠隐马模型的方法,旨在将汉语分词、切分排歧、未登录词识别、词

性标注等词法分析任务融合到一个相对统一的理论模型中。首先,在预处理的阶段,采取N-最短路径粗分方法,快速的得到能覆盖歧义的最佳N 个粗切分结果;随后,在粗分结果集上,采用底层隐马模型识别出普通无嵌套的人名、地名,并依次采取高层隐马模型识别出嵌套了人名、地名的复杂地名和机构名;然后将识别出的未登录词以科学计算出来的概率加入到基于类的切分隐马模型中,未登录词与歧义均不作为特例,与普通词一起参与各种候选结果的竞争。最后在全局最优的分词结果上进行词性的隐马标注。该方法已经应用到了中科院计算所汉语词法分析系统ICTCLAS中,取得了较好的分词和标注效果。ICTCLAS在973专家组机器翻译第二阶段的评测和2003年5月SIGHAN举办的第一届汉语分词大赛中,取得了不俗的成绩,是目前最好的汉语词法分析系统之一。

本文第二节将概述层叠隐马模型和汉语词法分析的总体框架,随后介绍基于类的切分隐马模型;然后分别叙述基于角色隐马模型的未登录词识别方法,以及切分排岐的N-最短路径粗切分策略,最后给出各种条件下的对比测试结果,以及国家973开放评测和国际分词大赛的测试结果,并给出简单分析。

2层叠隐马模型和汉语词法分析

2.1层叠隐马模型概述

隐马模型(Hidden Markov Model; HMM)[26]是经典的描述随机过程的统计方法,在自然语言处理中得到了广泛的应用。然而,相对于复杂的自然语言现象来说,传统的HMM仍然略显简单,为此,我们需要采用多个层次的隐马模型对汉语词法分析中遇到的不同情况进行分别处理。

文献[27]提出的层次隐马模型(Hierarchical Hidden Markov Model,简称HHMM)的思想。在HHMM中,有多个状态层和一个输出层。每一个上一层状态都对应于若干个下一层的子状态,而每个状态的子状态的分布都是不同的,由一个隶属于该状态的初始子状态概率矩阵和子状态转移概率矩阵所决定。最底层状态通过一个输出概率矩阵输出到观察值。HHMM实际上是一种不同于HMM的更复杂的数学模型,并且具有比HMM更强的表达能力,不过使用起来时空开销也比较大。HHMM的解码问题求解的时间复杂度是O(NT3),而HMM的解码问题求解的时间复杂度只有O(NT),与句子长度成线性关系,速度非常快。

本文采用的也是一种多层隐马尔可夫模型,称为层叠隐马尔可夫模型(Cascaded Hidden Markov Model,简称CHMM)。不同于HHMM的是,CHMM实际上是若干个层次的简单HMM的组合,各层隐马尔可夫模型之间以下几种方式互相关联,形成一种紧密的耦合关系:各层HMM 之间共享一个切分词图作为公共数据结构;每一层隐马尔可夫模型都采用N-Best策略,将产生的最好的若干个结果送到词图中供更高层次的模型使用;低层的HMM在向高层的HMM提供数据的同时,也为这些数据的参数估计提供支持。整个系统的时间复杂度与HMM相同,仍然是O(NT)。

所有各层隐马模型都采用《人民日报》标注语料库作为训练语料库,通过对该语料库进行不同形式的改造以适应各层隐马尔可夫模型的使用,而这种改造绝大部分都是自动进行的,只需要介入很少量的人工校对。

2.2 基于CHMM的汉语词法分析框架

针对汉语词法分析各个层面的处理对象及问题特点,我们引入CHMM统一建模,该模型包含原子切分、普通未登录词识别、嵌套的复杂未登录词识别、基于类的隐马切分、词类标注共五个层面的隐马模型,如图1所示。其中,N-最短路径粗切分可以快速产生N个最好的粗切分结果,粗切分结果集能覆盖尽可能多的歧义。在整个词法分析架构中,二元切分词图是个关键的中间数据结构,它将未登录词识别、排歧、分词等过程有机的进行了融合,在分词模型中会详细地介绍。

c i = w i iff w i在核心词典中收录

PER iff w i是人名and w i是未登录词; LOC iff w i是地名and w i是未登录词; ORG iff w i是机构名and w i是未登录词; NUM iff w i是数词and w i是未登录词; TIME iff w i是时间词and w i是未登录词; BEG iff w i是句子的开始标记

END iff w i是句子的结束标记OTHER iff 其它

图2. 词的分类

原子切分是词法分析的预处理过程,主要任务是将原始字符串切分为分词原子序列。分词原子指的是分词的最小处理单元,在分词过程中,可以组合成词,但内部不能做进一步拆分。分词原子包括单个汉字,标点以及由单字节、字符、数字等组成的非汉字串。如“2002.9,ICTCLAS 的自由源码开始发布”对应的分词原子序列为

“2002.9/,/ICTCLAS/的/自/由/源/码/开/始/发/布/”。在这层HMM中,终结符是书面语中所有的字符,状态集合为分词原子,模型的训练和求解都比较简单,本文就不赘述。词法分析的最高层隐马模型是词性标注过程,和第5节中的角色标注过程本质一样,在这里不重复论述。下面主要介绍汉语词法分析中其他层面的隐马过程。

3 基于类的隐马分词算法

本算法处于CHMM的第二层,也就是在所有的未登录词识别完成后进行。首先,我们可以把所有的词按照图2分类,其中,核心词典中已有的每个词对应的类就是该词本身。这样假定核心词典中收入的词数为|Dict|,则我们定义的词类总数有:|Dict|+6。

给定一个分词原子序列S,S的某个可能的分词结果记为W=(w1,…w n), W对应的类别序列记为C=(c1,…c n),同时,我们取概率最大的分词结果W#作为最终的分词结果。则:

W#=

W

max

arg P(W)

利用贝叶斯公式进行展开,得到:

W# =

W

max

arg P(W|C)P(C)

将词类看作状态,词语作为观测值,利用一阶HMM展开得:

=

-

=

n

i

i c

i c

p

i c

i w

p

W

W

1

)1

|

(

)

|

(

max

arg

#

(其中c0为句子的开始标记BEG,下同.)

为计算方便,常用负对数来运算,则:

=

-

-

-

=

n

i

i

i

i

i

W

c

c

p

c

w

p

W

1

1)]

|

(

ln

)

|

(

ln

[

min

arg

#

图1. 基于CHMM的汉语词法分析框架

根据图2中类c i 的定义,如果w i 在核心词典收录,可以得到 c i =w i ,因此p (w i |c i ) =1。在分词过程中,我们只需要考虑未登录词的p (w i |c i )。在图3中,我们给出了“毛泽东1893年诞生”的二元切分词图。最终所求的分词结果就是从初始节点S 到结束节点E 的最短路径,这是个典型的最短路经问题,可以采取贪心算法,如Dijkstra 算法快速求解。 在实际应用基于类的分词HMM 时,切分歧义能否在这一模型内进行融合并排解是一个难题;另外一个关键问题还在于如何确定未登录词w i 、识别其类别c i 并计算出可信的 p’(w i |c i );本文的随后两节将依次阐述这两类问题的解决思路。

4 N-最短路径的切分排歧策略

从构成形态上划分,切分歧义一般分为交叉

歧义和组合歧义。“结合/成/分子/时”是个典型的交叉歧义,“这/个/人/手/上/有/痣”中的“人/手”构成了一个组合歧义字段。

从排歧的角度看,切分歧义可以分为全局歧义和局部歧义。全局歧义指的是必须结合当前句子的上下文才能准确排除的歧义。如“乒乓球拍卖完了”,在缺乏语境的情况下,可以合理地切分为“乒乓球/拍卖/完/了”和“乒乓球拍/卖/完/了”。与此相反,局部歧义完全可以在句子内部进行排除,本节开头列举的两个歧义句子均属于局部歧义。根据我们对大规模语料的统计发现,局部歧义占绝大多数,全局歧义几乎可以忽略不计。

我们采取的是N-最短路径的切分排歧策略

[3]

。其基本思想是在初始阶段保留切分概率P(W )最大的N 个结果,作为分词结果的候选集合。在未登录词识别、词性标注等词法分析之后,再通过最终的评价函数,计算出真正最优结果。实际上,N-最短路径方法是最少切分方法和全切分的泛化和综合。一方面避免了最少切分方法大量舍弃正确结果的可能,另一方面又大大解决了全切分搜索空间过大,运行效率差的弊端。

该方法通过保留少量大概率的粗分结果,可以最大限度地保留歧义字段和未登录词。常用切分算法往往过于武断,过早地在初始阶段做出是否切分的判断,只保留一个自己认为最优的结果,而这一结果往往会因为存在歧义或未登录词而出错,这时候,后期补救措施往往费时费力,效果

也不会很好。表1给出了8-最短路径与常用算法在切分结果包容歧义方面的对比测试结果。

表1. N-最短路径与常用算法对比

说明:

1)切分最大数指的是句子可能的最大切分结果数。 2)切分平均数指的是单个句子平均的切分结果数。 3)正确切分覆盖率=正确切分被覆盖的句子数/句子总数

图3.基于类的二元切分词图(原始字串为“毛泽东1893年诞生”)

说明:1. 节点中表示的是“词语/类”(即w i / c i ),节点的权值为类到词语的概率p (w i | c i );

2. 有向边的权值为相邻类的转移概率p (c i | c i-1); S 为初始节点;E 为结束节点

3. “毛泽东/PER ”相关的虚线部分是人名识别HMM 作用过之后产生的。

4)测试语料大小为200万汉字

同时,我们对最终选择出的唯一切分标注结果进行了开放歧义测试,测试集合是北大计算语言所收集的120对常见组合歧义、99对常见交叉歧义,最终组合歧义和交叉歧义排除的成功率分别为80.00%和92.93%。

5未登录词的隐马识别方法

未登录词识别的任务有:1)确定未登录词w i的边界和类别c i ;2)计算p(w i|c i)。我们在N 个候选切分结果的词类序列基础上,引入了高层HMM来实现未登录词的识别。

5.1未登录词识别角色表

和基于类的隐马分词模型类似,我们对初始切分得到的各个词按照其在未登录词识别中的作用,进行分类,并将词所起的不同作用称为角色。表2是人名识别的角色表。与隐马分词中定义的类相比,角色不同的是:类和词是一对多的关系,而角色与词是多对多的关系,即:一个词可以充

5.2角色标注与未登录词识别

对于一个给定的初始切分结果W=(w1,…w n),在一个角色集合的范畴内,假定R=(r1,…r n)为C 的某个角色序列。我们取概率最大的角色序列R#作为最终的角色标注结果。和第3节隐马分词的推导过程类似,我们最终可以得到:

=

-

-

-

=

n

i

i

i

i

i

r

r

p

r

w

p

R

R

1

1

)]

|

(

ln

)

|

('

ln

[

min

arg

#

(其中r0为句子的开始标记BEG,下同.)

R#可以通过Viterbi算法[26]选优得到;图4给出了在词类序列“毛/泽/东/TIME/诞生”的Viterbi算法标注人名角色的过程。(这里TIME是在原子切分阶段通过简单的有限状态自动机识别出来的。)在最大概率角色序列的基础上,我们可以简单的通过模板匹配实现特定类型未登录词的识别。在图4中,我们可以求解出最优的角色标注结果:“毛/C泽/D东/E TIME/B诞生/Z”,而CDE正好构成一个典型的汉语人名,因此“毛泽东”被识别为人名PER。

识别出来的未登录词为w,类别为c,利用隐马过程可以得到:

p (w|c)=∏

=

-

+

+

+

+

k

j

j

p

j

p

j

p

j

p

r

r

p

r

w

p

1

)

|

(

)

|

(;

其中w i由第p,p+1…p+k-1个初始切分单元组成。

最后,识别结果及其概率加入到二元HMM 切分图中,和普通词一样处理,竞争出最佳结果,如图3中的虚线部分所示。

5.3嵌套未登录词的识别

复杂地名和机构名往往嵌套了普通无嵌套的人名、地名等未登录词,如“张自忠路”、“周恩来和邓颖超纪念馆”。对于这种嵌套的未登录词,我们的做法是:在低层的HMM识别过程中,先识别出普通不嵌套的未登录词,然后在此基础上,通过相同的方法采取高层隐马模型,通过角色标注计算出最优的角色序列,在此基础上,进一步识别出嵌套的未登录词。以切分序列片断“周/恩/来/和/邓/颖/超/纪念馆”为例,我们先识别出“周恩来”和“邓颖超”为人名PER,得到新的词类序列“PER/和/PER/纪念馆”,最终就可以识别出该片段为机构名。这样的处理优点在于能够利用已经分析的结果,并降低数据的稀疏程度。

我们用来训练HMM角色参数的语料库是在北大计算语言所切分标注语料库的基础上,甄别出各种类型的未登录词之后,自动转换得到的。

6实验与分析

采取CHMM的方法,我们研制出了计算所汉语词法分析系统ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System,该系统全部的源码和文档,均可在中文自然语言处理开放平台https://www.360docs.net/doc/e1781954.html,中自由下载,免费使用)。下面我们给出ICTCLAS在不同条件下的测试结果,提供ICTCLAS在国家973英汉机器翻译第二阶段评测中开放测试的结果,并介绍我们在第一届国际分词大赛中的比赛情况。在这里,我们按照惯例引入如下评测指标:切分正确率SEG,上

位词性标对率TAG1,下位词性标对率TAG2,命名实

体(NE)识别的准确率P和召回率R,以及F值。它们

的定义分别如下:

SEG=切分正确的词数/总词数×100%;

TAG1=上位词性标注正确数/总词数×100%;

TAG2=下位词性标注正确数/总词数×100%;

P=正确识别该类NE数/识别出该类NE总数×100%

R=正确识别该类NE数/该类NE总数×100%

P

R

)2

1(

P

R

β

β

?

+

+

?

?

=

F

,这里我们取β

=1,称为F-1值。

6.1词法分析与CHMM

我们使用北京大学计算语言学研究所加工的

《人民日报》语料库进行了训练和测试。在人民

日报1998年一月份共计1,108,049词的新闻语料

库上,我们进行了如下四种条件下的性能测试:

1)BASE: 基准测试,即仅仅做隐马分词和词性

标注,不引入其他层面的HMM;

2)+PER: 在BASE的基础上引入人名识别

HMM。

3)+LOC: 在+PER的基础上引入地名识别

HMM。

4)+ORG: 在+LOC的基础上引入机构名识别

HMM。

图5.四种条件下的词法分析的性能指标

图4.角色标注的Viterbi算法选优过程

说明:1. 图中结点的格式为: 词类c i /角色r i, -logP(c i | r i,),双线节点Viterbi选优结果。

2. 图中的有向边权值为相邻角色的转移概率–logP(r i | r i-1),这里没有全部列出。

图5给出了四种条件下,词法分析的分词正确率SEG、上位词性标对率TAG1、下位词性标对率TAG2,人名识别的F-1值FP、地名识别的F-1值FL以及机构名识别的F-1值FO。

从图5中我们可以发现:

1) 随着各层隐马模型的逐层加入,词法分析的效果逐步提升。其中,人名识别引入后,切分正确率SEG在96.55%的基础上,增加到97.96%,增幅最大。人名、地名、机构名等识别HMM均加入后,切分正确率SEG、上位词性标对率TAG1、下位词性标对率TAG2分别达到了98.38%,95.76%,93.52%。这表明:各层HMM对最终词法分析均发挥了积极作用。

2)同时,随着各层HMM的加入,不仅极大的提高了本层HMM的最终性能,还改进了低层HMM处理精度。人名识别HMM加入后,人名识别的F-1值,立即从27.86%提升到95.40%,低层的分词HMM的正确率提高了1.41%;机构名识别HMM引入后,机构名识别的F-1值提高了35.59%,同时低层的地名识别也提高了8.49%,人名识别的F-1值也达到了最高点95.58%。其原因在于:高层HMM的成功应用在解决当前问题的同时,也消除了低层HMM部分的歧义,排除了低层HMM的错误结果。例如:在人名识别HMM中很容易将“刘庄的水很甜”中的“刘庄”错误识别为人名,然而,高层的地名识别HMM 会正确地将“刘庄”作为地名召回,因此达到了排歧的作用。

ICTCLAS在973评测中的测试结果

2002年7月6日,ICTCLAS参加了国家973英汉机器翻译第二阶段的开放评测,测试结果如下:

表3. ICTCLAS在973评测中的测试结果

说明:

1)数据来源:国家973英汉机器翻译第二阶段评测的评测总结报告;

2) 标注相对正确率RTAG=TAG1/SEG*100%

3) 由于我们采取的词性标注集和973专家组的标注集有较大出入,所以词性标注的正确率不具可比性。

专家组的开放评测结果表明:基于CHMM的ICTCLAS能实际的解决汉语词法分析问题,和兄弟单位的类似系统对比,ICTCLAS的分词结果表现出色。

第一届国际分词大赛的评测结果

为了比较和评价不同方法和系统的性能,第四十一届国际计算语言联合会(41st Annual Meeting of the Association for Computational Linguistics, 41th ACL )下设的汉语特别兴趣研究组(the ACL Special Interest Group on Chinese Language Processing, SIGHAN;https://www.360docs.net/doc/e1781954.html,) 于2003年4月22日至25日举办了第一届国际汉语分词评测大赛(First International Chinese Word Segmentation Bakeoff)[28]。报名参赛的分别是来自于大陆、台湾、美国等6个国家和地区,共计19家研究机构,最终提交结果的是12家参赛队伍。

大赛采取大规模语料库测试,进行综合打分的方法,语料库和标准分别来自北京大学(简体版)、宾州树库(简体版)、香港城市大学(繁体版),台湾“中央院”(繁体版)。每家标准分两个任务(Track):受限训练任务(Close Track)和非受限训练任务(Open Track)。

ICTCLAS分别参加了简体的所有四项任务,和繁体的受限训练任务。其中在宾州树库受限训

练任务中综合得分0.881[28],名列第一;北京大学受限训练任务中综合得分0.951[28],名列第一;北京大学受限训练任务中综合得分0.953[28],名列第二。值得注意的是,我们在短短的两天之内,采取ICTCLAS简体版的内核代码,将层叠隐马模型推广到繁体分词当中,同样取得了0.938[28]的综合得分。

7 结论

本项研究的贡献在于:针对汉语词法分析的具体问题和目前方法的不足,引入了CHMM,将分词、词性标注、未登录词识别、切分排歧有机的融合到一个统一的理论模型当中。提出并实现了歧义排除的N-最短路径策略,采取了两层HMM,能够识别出普通的人名地名和复杂嵌套的地名和机构名,并计算出未登录词的概率,将未登录词的计算结果加入到二元切分词图中,运用基于类的HMM切分方法,实现了未登录词和普通词的统一竞争和筛选。在此理论框架的基础上,最后实现了计算所汉语词法分析系统ICTCLAS,经过不同条件下的测试表明,各层HMM对最终的词法分析起到了积极的作用,在国家973专家组大规模不同领域语料的开放评测中,以及2003年第一届国际分词大赛中,ICTCLAS均取得不错的分析效果,是目前最好的汉语词法分析系统之一。在现有研究的基础上,我们将进一步开展能够自动适应各种不同领域的词法分析系统,同时会针对信息安全的需要,开展面向字符流的实时分词算法研究。

致谢感谢王斌博士、孙建博士、张浩、李继锋、丁国栋等中科院计算所知识挖掘组的同事们在ICTCLAS研制过程中所提供的诸多建议和帮助。特别感谢邹纲同学开发了词法分析评测程序。

参考文献

[1] 朱德熙.语法讲义.商务印书馆.1982.11-11

(Zhu Dexi. Lecture on Grammar. Commerce Publishing House. 1982. 11-11 (in Chinese))

[2] 梁南元.书面汉语自动分词系统-CDWS. . 中文信息学报,1987, 2:101-106

(Liang Nan-Yuan. CDWS: A word segmentation system for written Chinese texts. Journal of Chinese information processing, 1987, 2:101-106 (in Chinese)) [3] 张华平,刘群.基于N-最短路径的中文词语粗分模型. 中文信息学报,2002, 16(5): 1-7

(Zhang Hua-Ping, Liu Qun. Model of Chinese Words Rough Segmentation Based on N-Shortest-Paths Method. Journal of Chinese information processing, 2002,16(5):1-7 (in Chinese))

[4] Hockenmaier, J. and Brew, C. (1998) Error-driven learning of Chinese word segmentation. In J. Guo, K. T. Lua, and J. Xu, eds. 12th Pacific Conference on Language and Information, pp. 218-229, Singapore. Chinese and Oriental Languages Processing Society.

[5] Andi Wu ,Zixin Jiang. Word Segmentation in Sentence Analysis. 1998 International Conference on Chinese Information Processing, Beijing, 1998. 169-180.

[6] Palmer, D. (1997) A trainable rule-based algorithm for word segmentation, Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics (ACL ’97), Madrid, 1997.

[7] Dai, Y., Khoo, C.S.G. and Loh, T.E. (1999). A new statistical formula for Chinese text segmentation incorporating contextual information. Proc ACM SIGIR99, pp. 82-89.

[8] 高山,张艳,等. 基于三元统计模型的汉语分词及标注一体化研究.自然语言理解与机器翻译.北京.清华大学出版社. 2001.8. p.116-p.122 (Gao Shan, Zhang Yan, et al. The Research on Integrated Chinese Word Segmentation and Labeling based on trigram statistical model, proceeding of natural language understanding and machine translation, Beijing, Tsinghua University Press. 2001.116-122; (in Chinese))

[9]Peng, F. and Schuurmans, D. (2001). A hierarchical EM approach to word segmentation. In 6th Natural Language Processing Pacific Rim Symposium (NLPRS-2001)

[10] Teahan, W. J. Y. Wen,, R. McNab, and I. H. Witten 2001, A Compression-based Algorithm for Chinese Word Segmentation. In Computational. Linguistics., 26(3):375-393.

[11] Nianwen Xue and Susan P. Converse. Combining Classifiers for Chinese Word Segmentation, First SIGHAN Workshop attached with the 19th COLING, Taipei, 2002.8, pp.63-70.

[12] Peng, F. and Schuurmans, D. 2001. Self-supervised Chinese Word Segmentation. In Proceedings of the Fourth International, Symposium on Intelligent Data Analysis (IDA-2001).

[13] Jiangsheng Yu, Shiwen Y u. Some Problems of Chinese Segmentation. The First International Workshop on MultiMedia Annotation (MMA2001), 2001

[14] 张仕仁.利用语素词规则消除切分歧义.1998年中文信息处理国际会议论文集. 1998. 157-162

(.Zhang Shiren. Disambiguous Segmentation Based on Rules of

Word-constructing of Morphemes. 1998 International Conference on Chinese Information Processing, Beijing, 1998. 157-162. (in Chinese)) [15] Chunyu Kit,Haihua Pan and Hongbiao Chen. Learning Case-based Knowledge for Disambiguating Chinese Word Segmentation: A preliminary study. First SIGHAN Workshop attached with the 19th COLING, 2002.8, pp.63-70

[16]Zheng J.H. and Wu F. F. Study on segmentation of ambiguous phrases with the combinatorial type. Collections of papers on Computational Lingustics, 1999. Tsinghua University Press, Beijing.129-134

[17]Xiao Luo, Maosong Sun, Benjamin K Tsou. Covering Ambiguity Resolution in Chinese Word Segmentation Based on Contextual Information. the 19th COLING, 2002.8, pp.598-604

[18]Luo H. and Ji Z. () Inverse Name Frequency Model and Rules Based on Chinese Name Identifying. In "Natural Language Understanding and Machine Translation", C. N. Huang & P. Zhang, ed., Tsinghua Univ. Press, Beijing, 2001, pp. 123-128.

[19]Luo Z. and Song R. Integrated and Fast Recognition of Proper Noun in Modern Chinese Word Segmentation. Proceedings of International Conference on Chinese Computing 2001, Singapore, pp. 323-328. [20]Sun M.S. English Transliteration Automatic Recognition. In "Computational Language Research and Development", L. W. Chen & Q. Yuan, ed., Beijing Institute of Linguistic Press, 1993

[21] Tan H. Y. Chinese Place Automatic Recognition Research. In "Proceedings of Computational Language ", C. N. Huang & Z.D. Dong, ed., Tsinghua Univ. Press, Beijing,, 1999.

[22] ZHANG Hua-Ping, LIU Qun Automatic Recognition of Chinese Person based on Roles Tagging. Proc. of 7th Graduate Conference on Computer Science in Chinese Academy of Sciences. Si Chuan, July, 2002.

[23]ZHANG Hua-Ping, LIU Qun, Zhang Hao and Cheng Xue-Qi Automatic Recognition of Chinese Unknown Words Recognition.First SIGHAN Workshop attached with the 19th COLING, 2002.8, pp.71-77. [24] Ye S.R, Chua T.S., Liu J. M., An Agent-based Approach to Chinese Named Entity Recognition, Proc. of the 19th International Conference on Computational Linguistics, Taipei, 2002, pp 1149-1155

[25] Sun J., Gao J. F., Zhang L., Zhou M Huang, C.N. Chinese Named Entity Identification Using Class-based Language Model, Proc. of the 19th International Conference on Computational Linguistics, Taipei, 2002, pp 967-973

[26] Lawrence. R.Rabiner.1989. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proceedings of IEEE

77(2): pp.257-286. [27] Shai Fine, Yoram Singer, and Naftali Tishby. The hierarchical Hidden Markov Model: Analysis and applications. Machine Learning, 32(1):41, 1998.

[28] Richard Sproat, Thomas Emerson. The First International Chinese Word Segmentation Bakeoff, First SIGHAN Workshop attached with the ACL2003, 2003.7, pp.133-143

作者简介:

刘群,刘群,男,1966年生,

博士,副研究员,主要研究方

向为机器翻译和自然语言处

理。

张华平,男,1978年生, 博士研究生,主要研究方向为计算语言学,中文信息处理与信息抽取。

俞鸿魁,男,1978年生,硕士,中科院计算所客座学生,主要研究方向为计算语言学。

程学旗,男,1973年生,研究员,主要研究方向为信息检索与网络安全。

语料库辅助的大学英语词汇教学初探

语料库辅助的大学英语词汇教学初探 发表时间:2012-08-30T09:32:30.327Z 来源:《时代报告》2012年第6期作者:毛晓迎[导读] 因此,教师在语言教学中应该推广并充分利用网络中的可用语料库资源。 毛晓迎(武汉科技大学外国语学院,湖北武汉 430065) 中图分类号:H319.3 文献标识码:A 文章编号:1033-2738(2012)06-0063-01 摘要:分析了语料库的辅助大学英语词汇教学的的必要性和可行性,认为本族语语料库和学习者语料库相结合,可以促进学习者词汇搭配、词义以及词汇语义韵等方面的学习,满足教师课堂词汇教学的需要,提高学习者的词汇能力,提高大学英语词汇教学和学习的效率。关键词:语料库;英语词汇教学;词汇能力 一、引入 词汇是标志外语学习者语言能力的核心成分之一,语言的习得和运用离不开词汇的积累和灵活掌握。学习者只有掌握了足够的词汇量才能理解他人的话语或文章,才能通过口头或书面等方式表达自己的所思和所想。反之,则会影响正常的语言交际。由此可见,词汇教学是外语教学中的一个必不可少的重要环节,起着举足轻重的作用。 二、关于语料库 根据欧洲语料库语言学的开拓者辛克莱尔( J. Sinclair)的定义,语料库( Corpus) 是指为研究语言,用计算机处理和储存的书面和口头的语言材料(吴耀武, 2009)[2] 。语料库作为一种辅助性工具应用于语言教学中,还属一个新兴领域。随着计算机辅助语言教学( Computer AssistedLanguage Learning) 的不断发展,语料库的使用正渐渐普及,以计算机为基础的语料库的产品越来越丰富,为语言教学提供大量鲜活、客观的教学资源,尤其为词汇教学提供了直观、科学的教学依据,能够快捷、准确地提供与某一关键词有关的大量真实语料,以全新的方式促进了外语教学与研究的发展,使人们更加认识到语料库在现代外语教学中正发挥着越来越重要的作用。因此,教师在语言教学中应该推广并充分利用网络中的可用语料库资源。 三、语料库在英语词汇教学中的应用 一般来说,传统的高职英语词汇教学是泛讲,往往脱离一定的上下文语境而孤立的谈某些词汇现象,不是选择对有代表性的词汇进行详细讲解。以往对某一单词进行讲解,所涉及到的主要内容大多是词典里面对该单词解释的繁杂罗列,包括单词的发音、拼写、词性、固定搭配、例句等基本信息。毫无疑问,这些信息是学习一门语言必须要掌握的基础知识,具有重要意义。 四、BNC和CLEC辅助词汇学习的必要性和可行性 BNC中的1亿词汇基本涵盖了人物、文学、体育、科学、军事、经济、政治、艺术、航天以及其他学科领域的高频词汇。学习者可以检索并在同一个语义场丰富的语料输入中学习与目标词(target word)相关的搭配、文体和语用等知识。可以充分缓解教学内容繁多与课时不足的矛盾,提供给学生大量的语言事实并营造真实的语言环境,弥补教师凭借自己直觉经验来讲解词汇的不足,从而减少学习者的语言失误;同时更重要的是BNC中大量真实的语言有利于培养学习者的预感。 五、CLEC和BNC辅助英语词汇学习 众所周知,教师经常在课堂上能否为学生举出比较适合英语习惯的、鲜活的英语例句而发愁。另外,一个主要的问题是:仅仅用课堂上有限的例句来让学习者全面掌握词的不同词义、搭配等知识可能性不大。因此,在课堂的英语词汇教学中,教师很有必要采取“预防”措施,即从CLEC中检索出已经标注好的语料分析归纳不同水平英语学习者(如大学英语四、六级以及英语专业)经常犯的词汇拼写和搭配错误,对这些高频语言错误反复强调和训练,然后,通过检索BNC归纳要学的目标词搭配和语义韵等知识,通过大量的例子让学习者逐渐学习不同词汇的各种知识。 (一)词汇搭配的学习。 词汇搭配是大学英语学习的重点和难点之一,在这方面,CLEC和BNC语料库为我们提供了有效探索词汇教学的途径。例如,在词序方面,这样的词序往往困扰一些学生,“such+a/an+形容词+名词”与“so+形容词+a/an+名词”,运用这两种语料库我们可以轻而易举地解决这个问题,只要在BNC或CLEC的查询框中键入“such(a/an)”或so,我们可以得到大量的包含这一结构的样句。表 BNC中检索出的部分语料 (二)语义韵的学习。 语义韵(semantic prosody)是Sinclair借用Firth的“音韵”(prosody)一词而新创的一个专为语料库语言学研究使用的术语。Firth 首先使用prosody这个词来表示跨音段语音色彩。而“语义韵”则表示超越词界的联想色彩。跨越词界的联想色彩主要是指词义的感情色彩。感情意义指词语的褒贬色彩,如statesman(政治家)和politician(政客);修辞意义指的是词语的委婉、夸张、讽刺、戏谑等色彩,如die (死亡)可以说成是pass away(逝世)或go to the west(上西天)等,one's wife(妻子)可以戏谑地说是one's better half(较好的那一半);动词cause(导致,造成)搭配使用的词群,发现该词染有较强的“贬韵”,充当其宾语的往往是accident,concern,trouble,damage,death之类的词。但是好多中国英语学习者经常把cause和表示褒义的词联用,例如,cause my sensation,cause a good result 等。通过分析CLEC中的有关cause的语料就可以知道学习者对该词语义韵的掌握情况,然后教师通过检索BNC中相关的搭配,分析并且归纳常出现在cause之后的名词,让学习者知道cause后面经常接表示“后果”而非“结果”的名词。 语料库辅助的英语教学为教师课堂词汇教学提供了丰富、真实的语料,教师可以通过这些语料归纳总结,和学习者语料库中的语料进行对比,找到学习者经常出现错误的原因,进行对症的单词教学。而且语料库使用比较方便,学生在课后可以直接在线检索并接触语料库,直接接触现代真实的语言信息,学生会感到事业宽阔,有如在外语海洋里畅游。

正确使用词语专题考点复习教案

正确使用词语专题考点复习教案 对本考点的测试,近些年有逐渐加重的趋势。XX年全国试题中词语使用就占到3题9分(虚词、实词、成语各一题,每题3分)。XX年京皖春季试题继续保持这个格局。XX年夏季全国试题减少虚词1题。 正确使用词语,主要是指要正确理解和使用好近义词。近义词语的正确选用自1994年开始年年考,已从考近义成语的选用扩展到考一般近义词语的选用,从考近义实词的选用到考近义虚词的选用。要做到正确使用词语,必须了解词义、词性、词的色彩、词义的轻重、词义的范围、用法的差别、语体的差别、短语的结构、意义等基础知识。需具备以下能力: ①能根据语境辨析多义词的音义。 ②能根据语境,恰当地使用同义词、近义词和反义词。 ③能根据语境,准确理解词语的特定意义和临时意义。 ④能正确运用虚词,特别是“关联词语”。要做到这些,准确把握词义是关键。 这就要求考生能够准确辨析近义词之间的细微差别。一般说近义词在意义和用法上都是"同中有异"或"大同小异"的。要辨析近义词,必须结合实际语境,根据词语的具体功能,做到"求同"、"辨异",也就是找出近义词的"共性"和"个性"来,才能使意思表达得更确切、更细致、更生动,增

强语言的灵活性和精密性。 近年来词语考查经历以下题型的变化: 1.同义词的辨析与选用,如1995年高考试题。这种题型是最常见的,从1995年~XX年都采用这种题型,每年设置一道题,每道题包含三对近义词。往往采用间接选择题的形式。 2.容易误解误用的词语,如1994年高考试题。这类试题也不多见,从1995年以后再未采用过。考容易误解误用词语,多采用直接选择题的方式。 3.易混易误虚词的比较和把握。(1)易混虚词的比较选择,如1996年高考试题。(2)易误虚词的选择,如1999~XX 年高考试题。易混虚词的考查,往往采用间接选择题的形式,从1992年至XX年9年间,只有1996年采用过一次。易误虚词的考查往往采用直接选择题的形式,1997年、1999年来用了这种题型。 4.关联词语的选择、搭配,如1998年高考题。这是常见的考查内容和考查方式,直接选择题型,1992年、1993年、1998年高考采用了这种形式。 1.下列各句中加点的词语使用恰当的一句是(a) a.他遇事不够冷静,甚至流于意气用事,使他的看法不能被对方接受,而这些看法本来可能是正确的。 b.消费者一旦被认定受到经营者的精神损害,经营者

雅思写作语料库--人们如何保障饮食健康

Scientists believe that eating fast food is harmful to one’s health. Some people think that education can help them change that bad habit. Others, however, argue that education does not work.Discuss both these views and give your own opinion. 科学家认为吃快餐有害健康,有人认为教育可以帮助人们改变这个不良习惯,有人认为教育不起作用,讨论两种观点。(2010年12月11日雅思考试题目) 【名师点评】讨论两种观点,可以使用第一人称口吻,也可以使用第三人称口吻。【作家立场】保障健康饮食,教育是起到一定的积极作用,但是,健康饮食不能仅仅依靠教育。 【思路拓展】 ①青少年是快餐的主要消费者,快餐含有过多的糖分、脂肪、热量,长期食用有害健康。所以,青少年应该成为教育的主体。 ②为了减少快餐对于消费者的不良影响,除了教育以外,政府也该承担责任。例如,美国政府已经限制肯德基捆绑销售儿童套餐的商业行为。 【范文赏析】 【首段】背景介绍+ 作家立场 So prevailing are the fast foods that some teenagers are in the habit eating junk foods nearly every week. From the perspective of some

nutritionists, too much intake of sugar, calorie and fat is undoubtedly health-threatening, for fast food, in most cases, is low in nutritional value. People differ greatly in their views as to how to foster wholesome dietary habit. As I see it, educating the public about the dangers of unhealthy eating, regulating baneful sales and food advertisements to children and lowering the price of healthy foods should be used together to help people keep fit. 【二段】 Granted, one effective way to promote a healthy diet is to educate people about the potential risks of unhealthy diet. Modern people might opt for healthier meals and snacks if they are taught that fast foods are high in salt, fat and sugar. To illustrate, I myself changed my unwholesome eating habits after watching television programs on how to preserve health. Also, while it is of great significance to educate adult eater, schoolchildren should be main target for education because they are not only in their formative years but also the regular eaters of fast foods. 【三段】 In addition to education, other ways to promote healthy eating are not far to seek. First, methods should be adopted to strictly censor those

言语理解与表达能力..

一、逻辑填空对应分析解释关系对应 反义关系对应 并列关系对应 递进关系对应 实词词语的适用对象(词义相近,但适用对象不同) 词义的侧重点(含义大致相同,但词义侧重上存在差异) 词义的轻重(意思相近,但在程度轻重上存在差别) 词语的感情色彩(褒义,贬义,中性) 词语的搭配(基本意思相同,但搭配适用不同) 成语(陷阱)望文生义(不了解成语含义,作出错误或片面的解释) 对象误用(对成语的习惯对象缺乏了解,会出现张冠李戴) 轻重失衡(成语意思相近,程度轻重存在差别) 色彩不符(成语的感情色彩分为褒义,贬义,中性三种) 语义重复(成语本身含有一定意义,与句子语义有重复)关联词八大复句关系 区分“并列关系”与“递进关系” 区分“并列关系”与“选择关系” 区分“假设关系”与“转折关系” 区分“充分条件”与“必要条件” 对应分析①解释关系(对空缺词语解释说明) 含有指代义:这、那、此、这些、这样 表同义互换:也就是说、或者说、即 表概括、归纳、总结说明:可见、因此、因而、所以 表举例论证:也是如此、即是例证、譬如 表解释说明的符号:(冒号:)(破折号——) ②反义关系(对空缺词语进行反面提示) 转折词(前后相反):虽然但是,却,反而,然而,而,其实 否定词(肯-否相对):是...不是,不是...而是,并非,不能,不会 选择词(二者选一意相斥):是...还是/与其...不如/或 变化词(今夕对比意相别):从...到,过去...现在,直到 ③并列关系(存在语义相近、结构相当的关系) 表并列关系的词语:和,与,既...又 表并列关系的符号:(顿号、)(分号;) 相同或相似的句式 ④递进关系(存在范围或程度上的阶梯差异) 表递进关系的词语:甚至,更,还,以至,并且, 不仅/不但/不光...而且, 尚且...何况 关联词①八大复句关系 ②区分“并列关系”与“递进关系” ③区分“并列关系”与“选择关系” ④区分“假设关系”与“转折关系” ⑤区分“充分条件”与“必要条件”

海运常用中英文对照

Booking number:订舱号码 Vessel:船名 Voyage:航次 CY Closing DATE:截柜日期,截关日 closing Date/Time:截柜日期 SI CUT OFF date/time:截提单补料日期/时间 Expiry date:有效期限,到期日期 Sailing date:航行日期 / 船离开港口的日期 ETA (ESTIMATED TIME OF ARRIVAL):预计到达时间,到港日 ETD(ESTIMATED TIME OF DELIVERY):开船日 ETC(ESTIMATED TIME OF CLOSING):截关日 Port of loading(POL):装货港 Loading port:装货港 From City:起运地 EXP(export):出口 Final destination:目的港,最终目的地 Place of Delivery(POD)或To City:目的地,交货地 Port of discharge:卸货港 Discharge port:卸货港 Load Port: 卸货港 Dry:干的/不含液体或湿气 Quantity:数量 cargo type:货物种类 container number:集装箱号码 container:集装箱 specific cargo container:特种货物集装箱 Number of container:货柜数量 container Size:货柜尺寸 CU.FT :立方英尺 Cont Status:货柜状况 seal number:封条号码 seal No:封条号码 seal type:封条类型 weight:重量 Gross weight:总重(一般是含柜重和货重) Net Weight:净重 Actual weight:实际重量,货车,集装箱等运输工具装载后的总重量Laden:重柜 remarks:备注 remarks for Terminal:堆场/码头备注 piace of receipt:收货地 Commodity:货物品名 intended:预期 ETD:预计开船日期

语料库辅助的词汇教学

语料库辅助的词汇教学 《普通高中英语课程标准(2003)》提倡词汇教学应为学生创设一些运用的语境,并提供语言支持,使学生在运用中加深理解,学会运用。语料库特有的语境共现界面能够批量地呈现目标词的使用语境,由此带出由目标词与周围的词共建短语词块的词汇搭配范式、语法范式、语义功能以及语用功能等,使词汇教学落实到深层知识的理解和应用。 高三学生在每次月考中反映困难最大的就是词汇问题:生词太多或者对熟悉的词的新含义不了解。针对这一现象,研究者从2012年9月高三开学起,手工加工学生正在学习的模块10的语料库,在学生学习每个单元的前后利用课文语料库使目标词汇在学生眼前多次重现,达到对词汇深层理解。具体做法如下(以模块10第一单元Reading为例): 1)要求学生上新课前预习Reading部分的生词和课文。 2)把Reading部分语料库中的所有生词用“________”代替,并打印出来,在上新课前让学生用5-8分钟练习。下面举其中的第一段为例: Teach a man to fish In 1985, there was little 1____________ in Ethiopia, which led to poor harvests and the death of many of the country’s cattle. The 2____________ of the situation shocked Bob Geldof, an Irish musician, so he organized a charity concert called Live Aid to raise money for victims of hunger in 3_____________. The concert took place on 13 July 1985 in two places---LondonandPhiladelphia---and included the biggest stars of the time. Geldof intended the concert to raise money for hunger relief and to make the public more aware of the problem. In the end, $100 million was raised, which was used to buy food and to provide help with development projects inEthiopia. The concert also made the 4____________ around the world, and 5_____________________ 6______________ and 7_____________ to do something about the problem of world hunger. 说明:如果学生在没有任何提示的情况下完成该练习有困难,可以把所有生词打乱顺序摆在练习的最上端供学生选择。 3)学习完该单元后,再针对学生在学习过程中的遇到的重点和难点词汇、短语,重新设置“________”进行练习,达到词汇在正确的使用语境中重复练习的目的。 三、结语 由于研究者经验不足和能力有限,《牛津高中英语》教材语料库的建设和应用还存在以下问题:

雅思写作词句语料库(双页)

adolescent(s)/juvenile(s)/youngster(s)/youth(s) n.青少年 adolescent adj.青春期的 parenting/upbringing n.家庭教育,教养 schooling n. 学校教育 aptitude/talent (for) n.(有……的)天赋 cultivate/foster/nurture v. 培养 specialist n.专才 generalist n.(有多方面知识和经验的)通才 all-rounded/well-rounded/versatile adj.全面的,多面的,多才多艺的awareness/sense/recognition n.意识 the development of students’personality and values 学生个性和价值观的发展mould (or mold美式拼写) one’s character塑造某人的性格 mould (or mold美式拼写) sb. into sth. 把某人塑造成…… a (or the ) sense of responsibility (or duty/obligation)责任感 improve moral standard 提高道德标准

小、

,例如色情和

delete/eliminate/excise v. 删除evaluate v. 评价、评估 the evaluation on 对……的评价或评估 be ?ooded (or ?lled/awash/saturated/inundated) with... 充斥着 excessive and gratuitous violent and pornographic contents 过多的、无端的暴力与色情内容 at the expense/cost of 以……为代价 media hype 媒体炒作advertising hype 广告炒作 hype n. 炒作,大肆吹捧 v. 对 ……大肆宣传,吹捧commercial(s) n. 商业广告public service advertising 公益广告 evoke (or stimulate) impulse buying 刺激冲动性购物shopaholic(s) n. 购物狂promotion n. 促销 marketing tool 市场营销手段 induce sb. to do sth. 诱导或引诱某人做某事 target audience 目标受众sensationalise (or sensationalize 美式拼写) /exaggerate v. 耸人听闻地夸大某事,大肆渲染 over-report...to hook viewers and maximise pro ?ts 为了利益最大化,从而过度报道……来吸引公众的眼球 道德规范(尤指职业的) 良好的/较强的/无懈可击的职业道德adj. 无所不在的,普遍存在的……的流行或盛行对……有着深远的影响 揭露社会问题 监督非常详尽地报道…… 如实的描述、报道adj. 有新闻价值的,有报道价值的adj. 最新的,及时的adj. 客观公正的adj. 不客观的,有偏见的 adj. 可信的,可靠的 adj. 令人误导的,不如实报道的,曲解的adj. 虚假的adj. 欺骗性的 adj. 信息量大的,增长见闻的adj. 娱乐性的,令人愉快的 v. & n. 审查n. 审查制度 对……实施审查 v. 影响,左右 (e.g. sway sb./sb. be swayed by... 影响某人或者某人受到影响)

言语理解选词填空题--固定搭配法

言语理解选词填空题--固定搭配法 很多同学在做选词填空题的时候,碰到最大的困难就是纠结于几个词语之间,辨别不出哪个词语最适合作为答案。遇到这种情况的一个原因是对于词义不够熟悉,另外一方面是由于不了解词语之间的搭配。如果是词义不熟悉,那么需要多做题并且积累一定量的词汇量。而对于词语间的搭配问题,则要求考生仔细辨别词和词之间的细小差异。下面给大家讲解如何使用固定搭配法作答言语理解选词填空题。 本文将介绍的“固定搭配法”可以使考生即便是在不了解词义的情况下,也可以将正确答案选择出来。所谓“固定搭配法”,就是根据材料提供的信息,比较选项中的几个词语,选择出平时最常用、最固定的词语,使之与材料中的信息搭配起来。 这种方法的原理如下:出题人选择的材料一般都出自网站、小说、报刊等媒体,这几种媒体的阅读对象都是普通老百姓,所以写出来的文章中词与词之间的搭配自然都接近于平时最常用的结构。比如说:_______利润,横线处的选项有:谋取、获取、得到,平时最常用的搭配结构就是“谋取利润”,因此这里横线处就应该填写“谋取”。但是很多同学会纠结于选择“获取”或者“得到”,因为这两个词填入横线处之后也是符合整个词组想表达的意思,事实上正确答案往往都是“谋取利润”这样的固定搭配,出题人不会设计一个不常用的词语作为正确答案。换句话说,“谋取利润”这样的搭配是最恰当的,“获取利润”和“得到利润”只能说是比较恰当,而不是最恰当,题目一般问的都是填入横线处最恰当的词语,因此就要选择最常用、最固定

的搭配。 下面就结合几个例题来详细说明选词填空题“固定搭配法”的使用。【例1】不同管理层次、不同岗位上的人员,不管其工作内容有多大的________,均有其工作的目标和重点。我们必须_______目标,抓住重点,有所取舍,集中________做属于我们该做的事。 填入划横线部分最恰当的一项是:() A.差距制定物力 B.差别明确精力 C.区别实现财力 D.差异确定人力 【解析】B。这道题如果用常规的解法是先读完这段材料,之后可以先排除C选项,因为要先制定或者明确目标,之后才是抓住重点、有所取舍,所以不能用“实现”这个词语。然后再根据其他两个横线来确定正确答案。这种解法缺乏效率,如果使用“固定搭配法”的话,就可以很快找出正确答案。这道题的切入点在于第二、第三两个横线处:“________目标”和“集中________”,很明显,“明确目标”和“集中精力”是最常用的固定搭配,故B选项最为合适,再看B选项当中的“差别”填入横线处后也比较合适,因此选择B选项。 【点评】这道题使用“固定搭配法”的话基本不用多看材料,只要抓住核心的搭配词语,再选出与之匹配的选项即可,既提高了效率,又提升了正确率。 【例2】在人类历史上,科级发明和人工工程曾导致不少“出人意料”、“始料不及”甚至“_________”的结果。如果想少出一些这样的事,

航海及海运专业词汇英语翻译

航海及海运专业词汇英语翻译(D) damping control 阻尼调整 damping cylinder 减震筒 damping decrement 衰减率 damping device 制动装置 damping device 阻尼装置 damping effect 阻尼效率 damping error 冲击阻尼误差damping error 阻尼差 damping factor 阻尼因数 damping fluid 减震液 damping fluid 阻尼液 damping force 阻尼力 damping intensity 阻尼度 damping machine 调湿器 damping machine 调温器 damping machine 阻尼机 damping magnet 阻尼磁铁 damping material 阻尼材料 damping moment 阻尼力矩 damping oil vessel 阻尼油罐damping oil 阻尼油

damping oil 阻尼油阻尼油 damping period 阻尼周期 damping platform 倾卸台 damping ratio 衰减率 damping ratio 衰减率;阻尼比damping ratio 阻尼比衰减率damping resistance 阻尼阻力阻尼电阻damping resistor 阻尼电阻器damping spring 阻尼弹簧 damping stability 阻尼稳定性damping system 阻尼装置 damping system 阻尼装置减震装置damping time 阻尼时间 damping vibration 阻尼振动damping weight 阻尼重量 damping winding 阻尼绕组damping 润湿阻尼 damping 阻尼 dampness 潮湿 dampness 湿度 dampproof 防潮的 dampproof 防湿的

基于语料库语学的英语词汇教学.doc

基于语料库语言学的英语词汇教学- 传统的语言学把词汇分成可以借助语法规则进行自由组合的单词和不能用语法规则解释的固定短语,因此传统上的词汇教学即指单词教学(蒋利,2003)。我国传统的词汇教学主要以词义驱动为主,学生往往只通过机械记忆单词或短语的形式及与其对应的中文意思来扩大词汇量(刁琳琳,2004)。教师在备课及授课过程中也很少涉及词块、搭配、语用规则和语义韵等较深层次的内容。而当把学生已机械记忆的单词放进具体语篇时,学生在理解和应用上都会出现问题。因此,在教学实践中,如果将语料库方法引入词汇教学,有助于区分词汇学习的不同层面及意义类型,并能切实改进词汇教学效果。 一、用语料库方法教授词汇的搭配、类联结与语义韵 卫乃兴(2001:100)将词汇的搭配定义为:在文本中实现一定的非成语意义并以一定的语法形式因循组合使用的一个词语序列,构成该序列的词语相互预期,以大于偶然的几率共现。词汇学习不是简单地记忆单词的读音与拼写,不了解词汇的搭配范围就很难真正习得了这些词汇,因此,词语搭配是词汇学习及研究的重点。类联结是发生于词语搭配中的语法结构和框架,因此它较之词汇搭配更抽象一些。甄凤超(2005:19-28)指出通过建立类联结,我们可以发现词汇的语法模式,并且词汇与语法密不可分。语法形式和词汇行为相关,并和意义发生联系。关于语义韵,卫乃兴(2002)指出词项的搭配行为显示一定的语义趋向即一定的词项会习惯性地吸引某一类具有相似语义特点的词项,构成搭配。由于这些具有相同语义特点的词项及其搭配在文本中高频共现,整个语境就弥漫了某种语义氛围,这种氛围被称

作语义韵。语义韵概念的引入对于区分同义词或近义词能起到很好的解释作用。由于受篇幅限制,本文主要探讨基于语料库语言学的词汇搭配教学。 二、语料库在词汇搭配教学中的应用 近年来语料库语言学发展迅速,基于语料库的搭配研究越来越被重视,逐步成为语言研究与教学的重要领域。在语言教学中引入索引工具,让学习者从大量的地道真实的语料中考察词语的搭配模式,有利于提高学习者的搭配水平、语言使用能力和自主学习能力。现以make和have为例讨论学习者通过接触真实语料,可以分析不同搭配在文体以及句法等方面存在的差异。首先使用AntConc检索工具从COCA和BNC中搜集部分与make和have搭配的常见词。如表2.1所示: 英语动词make的核心含义为制造,然而事实证明只了解单词的汉语意义显然不够,对以它们为中心词的各种搭配进行分析能促进学生更好地掌握其语义及使用差异。根据表格我们可以观察到如make后常跟change / corrections / comment / contribution / decision / effort / excuse / friend等。动词have的核心含义之一为经历,与其搭配频率较高的名词有accident / argument / break / conversation / difficulty / dream / experience / good time / problem 等。词汇教学中引入语料库方法,可以有效帮助学生掌握词汇的不同搭配更好地理解词之间的语义差异。学会并灵活使用大量的搭配词语有助于全面提高语言学习效率及应用能力。 三、结语 利用语料库工具辅助英语词汇教学具有重要意义。首先,提供给学生大量真实语料,营造真实语言环境,能够保证学生语言输入的质量;其次,用语料库检索工具使关键词在其索引行中

雅思写作语料库--小组学习和自己学习

Some people believe that students should study in groups. Others think that they should study alone. What are the benefits of studying in groups and studying alone? Which way is more effective? 有人认为学生们应该小组学习,有人认为学生们应该自己学习,小组学习和自己学习利好各在哪里,你认为何种方式有效? 【思路拓展】 小组学习的利好: 1. 小组讨论,集思广益,例证展开:小组讨论数学题的解题思路,小组讨论作文的头脑风暴。 2. 有良好的学习氛围,可以帮助缺乏自律性的孩子们专注于学习,提高学习效率。 3. 有效的方式结实新朋友,锻炼人的口才,交流能力以及团队精神。 自己学习的利好: 1. 培养了自己的独立思考以及解决问题的能力,学习上不会对他人产生过度的依赖。 2. 小组学习更加容易培养人的分析性思维,理性思维和辩证思维的能力。 点评:论据支持可以学习历史和哲学,以及中学生学习国际新闻 【作者立场】

小组学习和自己学习各有优势,选择应该由个人做出,我过去常常一个人学习,虽然可以独立思考,但是未能感知小组讨论和交流的乐趣,因此,有机会,我更加渴望小组学习。 点评:主题观点是模仿雅思考官男女分校的范文 【原创语料库】 1. group study 小组学习 2. to study with a group of fellow classmates 和同龄人一起学习 拓展:a group of fellow classmates = peers 同龄人 3. focus on self-improvement 专注于自我提高 4. zero in on academic study = concentrate on learning专注学习(写作亮点) 5. a great many self-leaner 很多的自学者 6. achieve academic success 取得学习的成功 7. enhance the efficiency of learning 提高学习效率 8. face-to-face communication could …… 面对面交流可以…… 9. positive interaction w ith …… 和…… 积极的互动

(完整版)言语理解与表达讲义_整理版

言语模块概述 1.各类考试中言语所占比重 2.言语模块总分 3.言语模块作答要求 言语理解与表达模块 1. 考查能力: 2. 考查题型及题量: 3. 时间管理: 4. 题型综述: 片段阅读 语句表达 1.主旨概括题 2.意图判断题 3.标题填入题 4.细节理解题 5.态度观点题 6.词语理解题 7.代词指代题 1.语句排序题 2.语句衔接题 3.结语推断题 逻辑填空 1.实词辨析题 2.成语辨析题 5. 考试学相关的命题原理: (1)题干的来源和选择 (2)提问方式的设置 (3)正确答案和干扰选项的设置 6. 做题顺序 (1)审设问——读题干——选答案 (明确题型分类)(寻找正确答案的标志) (2)正确答案的标志——精简压缩/同义替换 【原文 1】和谐的一个条件是对于多样性的认同 【选项 1】差异是和谐的必要条件 【原文 2】气候变暖对世界经济的负面影响是主要的

(3)干扰选项的设置 ① 无中生有 ② 概念混搭 ③ 曲解文意(各种偷换,如概念、主体、时态等等) 言语秒杀十五大技法 言语技法 TOP1:主体排除法 言语技法 TOP2:成分分析法 言语技法 TOP3:指代引导法 言语技法 TOP4:表达倾向法 言语技法 TOP5:标点符号法 言语技法 TOP6:分步解题法 言语技法 TOP7:替换压缩法

言语技法 TOP8:背景铺垫法言语技法 TOP9:援引观点法言语技法 TOP10:举例论证法言语技法 TOP11:反面论证法言语技法 TOP12:原因推断法言语技法 TOP13:选项差异法言语技法 TOP14:排同求异法言语技法 TOP15:相对绝对法一、逻辑填空

海运英语专业术语

缩写全称中文意思 AWB air waybill 空运提单 /W All Water 全水路 ANER Asia NorthAmerica Eastbound Rate 亚洲北美东行运费协定B/L Bill of Lading 海运提单 B/R Buying Rate 买价 CIP Carriage and Insurance Paid To 运费、保险费付至目的地CPT Carriage Paid To 运费付至目的地 C.O. D. Cash On Delivery 货到付款 C/O Certificate of Origin 产地证(原产地证明) CFS/CFS CFS to CFS 散装交货(起点/终点) C.C. Collect 运费到付 COMM Commodity 商品 C/(CNEE) Consignee 收货人 CTNR Container 柜子 CFS Container Freight Station 散货仓库 C/T Container Terminal 集装箱码头 C.Y. Container Yard 货柜场 C&F Cost and Freight 成本加海运费 CFR Cost and Freight 成本加海运费 (同C&F) CIF Cost, Insurance, and Freight 成本,保险加海运费 CHB Customs House Broker 报关行 CY/CY CY to CY 整柜交货(起点/终点)

DAF Delivered At Frontier 边境交货 DDP Delivered Duty Paid 完税后交货 DDU Delivered Duty Unpaid 未完税交货 DEQ Delivered Ex Quay 目的港码头交货 DES Delivered Ex Ship 目的港船上交货 D/O Delivery Order 到港通知 DDC Destination Delivery Charge 目的港码头费 D/A Document Against Acceptance 承兑交单 D/P Document Against Payment 付款交单 Doc# Document Number 文件号码 DPV duty-paid value 完税价格 EDI Electronic Data Interchange 电子数据交换 ETA estimated time of arrival 预计到达日期 ETD estimated time of departure 预计出发日期 EXW Ex Work 工厂交货 FAQ fair average quality 良好平均品质 FMC Federal Maritime Commission 联邦海事委员会Feeder Vessel 驳船航次 Form A Form A 产地证(用于出口美国的货物) FEU Forty-Foot Equivalent Unit 40’ 40‘柜型 FAS Free Alongside Ship 装运港船边交货 FCA Free Carrier 货交承运人 FOB Free On Board 船上交货 FAK Freight All Kind 各种货品

最新专题+基础知识之正确使用词语--讲义

专题+基础知识之正确使用词语--讲义

基础知识之正确使用词语 主讲教师:涂洁北京八十中语文高级教师 主要考点梳理 一、考查范围 1、实词 2、虚词 3、熟语 二、考查目的 检测常用实词(包括熟语)和常用虚词的使用能力 三、考查重点 易混词语语境意义的辨析和运用 (一)正确使用实词 一、定范围 词义范围的大小不同,通过留同析异,确定词义适用的范围,来推断出正确的选项。 二、明色彩 词语的色彩主要指感情色彩和语体色彩,感情色彩分褒、贬、中三种。语体色体分书面语和口头语。 三、辨轻重 词义所表现的程度有轻重之分,比如“束缚”与“禁锢”,都有受到约束限制之义,但前者在词义程度上就要轻一些。 四、试搭配 词往往在搭配对象上有差异,比如“充足”与“充沛”,“充足”的搭配对象大多为实在的东西,如“弹药充足”等,而“充沛”的搭配对象多为较抽象的东西,如“体力充沛”“感情充沛”等。 五、析词性 根据词性可以判断某词在句子中充当的成分,确定词的语法功能,有利于辨析近义词。例如“代表”与“代替”,“代表”既有名词性又有动词性,由于有名词性,它可以充当主语,又可以充当宾语;由于有动词性,又可以充当谓语。“代替”是动词,不可以做主语和宾语。 易错小题考考你 选词填空 (1)囊括、包括

A、本词典共收词6万多条,_______了现代汉语绝大多数语词。 B、在2003年春季运动会上,这个队_______了田赛的全部冠军。 (2)勾通、沟通 A、国际互联网传递着世界的最新消息,它_______了各国文化,使愈来愈多的人相互了解。 B、原中共河北省委书记程维高的秘书李真,滥用手中的权力,上下_______,翻手为云,覆手为雨,大肆侵吞国家财产,收受巨额贿赂。 (3)信任、信赖 A、他永远是一个能够以诚相待的值得_______的同志。 B、共产党是给他们指出前进道路的最可________的灯塔。 (4)留传、流传 A、经过世代的筛选,_______至今的谷肉果菜,水陆珍奇,不仅营养价值高,而且易于消化吸收。 B、眉山苏氏一门才俊当然不错,而“苏小妹三难新郎”纯属虚构,然而这个浪漫故事却至今_______,多少说明古今人们对苏氏一门的偏爱。 (5)勉励、勉力 A、北京和东北的两位历史学教授都在回信中_______他执著追求,并向他介绍了一些考研必读书目和学习方法。 B、乡邻的冷言冷语,生活的艰难困苦,都没有动摇他考研的决心,他在逆境中 _______苦学,终于在40岁考上了重庆师院历史系研究生。 (二)正确使用虚词 虚词,是指现代汉语中不能单独成句,意义比较抽象,但起着帮助造句的作用的词。包括副词、介词、连词、助词、叹词、拟声词六种。 近年来高考中主要考查连词、介词、副词、助词。 一、虚词的作用 虚词的表达功能是不可忽视的。 (1)语法作用 1、修饰(如副词) 2、连接(如介词、连词) 3、附着(如助词) (2)修辞作用 虚词用得好,语句可表达得准确严密、委婉、曲折,起到很好的帮助表达的作用,并且能够提高表达效果。 二、虚词使用中的常见错误 1. 副词使用中的常见错误

相关文档
最新文档