BCC语料库使用指南

BCC语料库使用指南
BCC语料库使用指南

1 、字处理(包括标点符号)

[C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。

例如:地球[C](“球”是错字)、这[C]。

[B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。

例如:提[B题]高、考虑[B虎]。

[L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。

例如:

后悔[L],表示“悔”在原文中是漏掉的字。

农[L]药,表示“农”在原文中是漏掉的字。

[D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。[F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。

例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。

注意:

1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]。

2)繁体字写错了,标为:后[F後[C]]。

[Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。

例如:偏[Y徧]、沉[Y沈]。

[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。

例如:缘[Pyúan]分、保护[Phù]。

[#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。

例如:更[#][#]保存自己的生命,……

[BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。

例如:勤奋、[BC,]刻苦的精神。

[BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。

例如:周围的环境很安静[BQ,]生活也非常平凡。

[BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。

例如:我家周围的[BD,]美丽风景。

2、词处理:(包括成语)

{CC}:错词标记,用于标示错误的词和成语。包括4种情况:

1)把词的构成成分写错顺序的。

把写错的词移至{CC}中CC的后面,并在{CC}前填写正确的词。

例如:首先{CC先首}、众所周知{CC众所知周}。

2)该用甲词而用乙词的。这种情况类似别字,但属于用词层面上的错误。

标示方法同上。

例如:

虽然现在还没有实现{CC实践},……

它在{CC对}价格方面有点贵,所以没得到广大消费者的支持{CC持支}。

3)生造词。指考生自造的、或某些外语中可能有而汉语中不存在的词。

例如:

农作物{CC农产物/农物}、农产品{CC农作品}

……但长期来看造成环境污染,破坏自然生态{CC目态},……

绿色食品的好处在于吃这些食品后在身体里没有农药的残留量{CC潜留量}。

4)词语搭配错误。包括词性、音节等方面的搭配错误。

例如:

最好的办法是两个都保持{CC走去}平衡。

我也回{CC1回去}沈阳。

吃这种东西会{CC1可以}得{CC1得到}病{CC1疾病}。

{CLH}:离合词错误标记,用于标示各种和离合词相关的错误。标在有错误的离合词的后边,表示前边的离合词用法有误。

例如:

……我快要毕业{CLH}大学{CQ了}。

虽然这么[L]多年都没见面{CLH}过,……

……我对哈尔滨{CJ-zy很}感兴趣。有观光{CLH}哈尔滨的宿愿。

{W}:外文词标记,用于标示以外文词代替汉语词的情况。把外文词移至{W}中W的后面,并在{W}前填写相应的汉语词。在W和外文词之间填写汉语词的字数。

例如:

非洲{W2Africa}、爵士乐{W3jazz}。

……教我工作的方法{W2ABC}。

{CQ}:缺词标记,用于标示作文中应有而没有的词。在缺词之处加此标记,并在{CQ}中CQ的后面填写所缺的词。

例如:

这就{CQ要}由有关部门和政策管理制度来控制。

……有的农民{CQ在}不使用化肥和农药的情[B精]况下[BD,]养农作物,……{CD}:多词标记,用于标示作文中不应有而有的词。把多余的词移至{CD}中CD的后面。例如:

……然后肯德基的收入有所增加{CD了}。

中国政府应该采取良好的措施来管理农业{CD方面},……

但我觉得{CD按照}上面所写的方法是现在很多人或国家用的方法。

句子错误类型代码:

{CJba} :把字句错误

{CJbei} :被字句错误

{CJbi} :比字句错误

{CJl} :连字句错误

{CJy} :有字句错误

{CJs} :是字句错误

{CJsd} :“是……的”句错误

{CJcx} :存现句错误

{CJjy} :兼语句错误

{CJld} :连动句错误

{CJshb} :双宾语句错误

{CJxw} :形容词谓语句错误

{CJ-} :句子成分残缺错误标记,用于标示由于成分残缺造成的病句。在短横后边标明所缺成分的名称,该名称用小写代码表示;在小写代码之后填写所缺的具体词语。标在成分残缺之处。

例如:

为了增加{CC满足}粮食,{CJ-zhuy人们}使用了化肥和农药,这样产量就会大大提高。这样的活动{CJ-sy开展}以来,肯德基的垃[B拉]圾[C]总量大大降低。

……那两种{CC个}东西就容易伤害人类的{CJ-dy健康}系统。

从具体{CJ-zxy情况}来看,……

{CJ+} :句子成分多余错误标记,用于标示由于成分多余(赘余)造成的病句。后边用小写代码标明多余成分的名称,并把所多余的具体词语移至该名称的后面。标在成分多余之处。

例如:

这是我们{CJ+dy做人}的责任。

而且研究{CJ+buy下去}产量能提高的办法。

而且{CJ+zy正在}还死去好多人。

句子成分采用层次分析法的观点,共8种:

{CJ-/+zhuy} :主语残缺或多余

{CJ-/+wy} :谓语残缺或多余

{CJ-/+sy} :述语残缺或多余

{CJ-/+by} :宾语残缺或多余

{CJ-/+buy} :补语残缺或多余

{CJ-/+dy} :定语残缺或多余

{CJ-/+zy} :状语残缺或多余

{CJ-/+zxy} :中心语残缺或多余

{CJX} :语序错误标记,用于标示由于语序错误造成的病句。标在语序错误的词语的后边。如果是相邻的两个成分语序错误,按照自然顺序,把{CJX}标在前一个成分的后边。例如:

大多数{CJX}这些人生活{CC2活}在很不好的地方,……

可是这两个问题同时{CJX}要解决非常不容易,……

现在每个人很重视健康,受欢迎{CJX}绿色食品。

{CJZR} :句式杂糅错误标记,用于标示把两种不同句式、两种不同说法混在一起的病句。标在句子末尾,标点之前。

例如:

这个问题不可能一两年解决的问题{CJZR}。

现在,全世界流行是绿色食品{CJZR}。

每次吃对身体有害于健康的东西{CJZR}。

因为,人们的必生存之一中最重要的是饮食{CJZR},……

{CJcd} :重叠错误标记,用于标示句中词语的重叠错误,包括重叠方式上的错误,也包括不该用而用重叠,或该用而不用重叠的情况。标在出现重叠错误的词语之后。

例如:

而对生产者来说,尽量不用化肥和农药,在出货之前,进[C]行洗洗{CJcd}。

还有我们{CQ应}对绿色食品研究研究{CJcd}。

{CJgd} :固定格式错误标记,用于标示固定格式搭配上的错误。

例如:

“一……就……”缺少“一”或者“就”。

现代社会应当认“保护自己,尊重其他人”为口号{CJgd}!

{WWJ} :未完句标记,用于标示没写完的半截子的句子。标在未完成句的末尾处。

例如:

只是全球{WWJ}

最后国家政府不考虑经济问题、积{WWJ}

不知道什么时候会普及起来,但是我认为这还是不是个{WWJ}

{CJ?} :句处理存疑标志,用于标示错误类型不清楚的、或错误类型标注很不方便的、或句义不明且有语法错误的的病句。标在存疑病句之后、该句标点之前。

例如:

地球上,有的地方还在“饥饿”来艰苦{CJ?}。

还要想每个人的健康是帮助饥饿人的办法越来多健康的人会越来多帮饥饿的人{CJ?}。

把化肥可以取代{CC代取}用草、剩饭做的自然肥料{CJ?},把农药也可以取代{CC代取}喜欢吃害虫的动物{CJ?}。

4、篇章处理:(包括复句)

{CP} :篇章错误标记,用于标示篇章错误。大括号的前半和后半分别表示有错误的篇章的起点和终点,在起点处标CP,在终点处标P。即:{CP……,……。……,……。P}

所谓篇章错误,主要指句子和句子之间在衔接方面的错误。最典型的情况是每个单句都正确,但作为一个整体来看则句子相互之间缺乏联系,不能构成一个紧凑、自然、流畅的成段表达。而产生这种情况的原因,可能是语义方面的,也可能是连接方式方面的。

例如:

{CP我们经过了漫长的历史,一些没有用的人死于历史中,挨饿其实是可以克服的。P} (前后句意义上无关)

{CP吸烟对孩子们{CJ-sy有}不好的影响,这一观念他会不会知道呢?所以我早就不理他了。P}

(用了表示因果关系的连词,但句子之间并不存在因果关系)

{CP目前,随着人们生活水平{CQ的}提高,{CJ-zhuy人们}{CD就}对饮食品很重视。就{CJX}{CQ用}未经污染的农产品加工的食品叫做“绿色食品”。P}

(前后句之间缺少过渡句)

{CP我以前看报纸的时候,有一篇关于农药的文章。他说,一般的食品,比如说,米,蔬菜、水果等{CD的}东西,好好儿洗一下就行了,不用担[B但]心。P}

(“他”指称不明,使两句之间失去联系)

BCC语料库使用指南

1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。[F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。 例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。 例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。

语料库检索分析在高级英语语篇教学中的应用_语料库检索

语料库检索分析在高级英语语篇教学中的应用_ 语料库检索 语料库检索分析在高级英语语篇教学中的应用_语料库检索摘要语料库语言学通过对自然文本的检索、统计,实现文本的语篇结构、文体风格、语言特征等的量化分析。语料库软件工具如Wordsmith、Concordancer软件等为语篇教学提供了量化分析手段。本文依据语料库语言学的研究方法,主要运用Wordsmith、Antconc软件,以课文"Blackmail"为小型教学语料库,探索高级英语语篇教学的新途径。 关键词语料库检索分析;高级英语;语篇教学1.引言高级英语是英语专业高年级阶段的一门主干课程,其教学目标是"通过阅读和分析内容广泛的材料,扩大学生知识面,加深学生对社会和人生的理解,培养学生对名篇的分析和欣赏能力、逻辑思维与独立思考的能力,巩固和提高学生英语语言技能"1。鉴于此,围绕高级英语课程的教学研究与改革长期以来备受专家、学者和广大师生的关注,如朱传枝2、杨志亭3、刘采敏和楚向群4、李洁平5、黄文英6等。十多年来,随着语言教学理论研究的深入以及计算机网络和多媒体技术的快速发展,高级英语课程改革成绩斐然,教学效果显著提高。然而,在语篇教学中不难发现,由于缺乏科学的文本分析手段和工具,学生对语篇的分析和欣赏"多来自

教师在反复阅读全文的基础上根据某种理论框架或自身独特的理解能力及审美取向所做的解释"7,或者依赖于教学参考书籍上的注解,学习效果大打折扣,成为了困扰教师的一大教学瓶颈。语料库语言学的出现为高级英语语篇教学提供了有力的理论和技术支持,对于解决教学中存在的难题有着重大的启示和意义。 2.语料库与语料库检索分析软件的应用20世纪90年代以来,语料库语言学的迅速发展"给语言研究以及语言应用研究带来了一场革命性的变化"8,而"基于语料库的研究方法已经逐渐扩展到语言教学、话语分析、翻译研究、词典编纂和自然语言处理等多个领域"9。语料库语言学以真实的语言数据为研究对象,通过对大量语言事实进行分析,寻找语言应用的规律和模式。由于语料库研究中的统计数据以实际使用中语言现象的出现概率为依据,且基于语料库而得到的数据避免了偶然性,从而提升了分析结果的可信度。 因此,语料库语言学为语言研究和教学提供了一种全新的模式。 随着计算机信息技术的日新月异,语料库为语言研究提供了空前广泛的语言资料。目前,国际上影响较大的语料库有英国COBUILD语料库(CollinsBirminghamUniversityInternationalLanguageDatabas e)、BNC英语国家语料库(TheBritishNationalCorpus)、CIC 语料库CambridgeInternationalCorpus、ICE语料库

多语种在线语料库检索平台使用简明手册.pdf

多语种在线语料库检索平台使用简明手册 许家金 中国外语与教育研究中心 、访问及登录 访问(用户名:和密码:),可点击使用相应的语料库。目前平台上已安装英语、汉语、德语、日语、俄语、阿拉伯语、冰岛语等数十个语料库。 图:主界面 、功能概要 按()对语料库分析工具的时代划分,属于第四代语料库工具,即在线语料库分析工具。四代工具的突出代表是美国杨百翰()大学教授创建的系列语料库检索界面()。类似的在线语料库检索系统还有、、、等。而当前主流的语料库工具属于第三代,其中以、和等为代表。 第四代语料库工具,将语料库与分析工具合二为一,越来越受到普通用户的青睐。在线语料库工具通常将语料库文本按特定格式建成索引(),存储在服务器上。用户检索响应速度要远高于三代软件在本地电脑上的检索速度。其操作也较三代语料库软件简便得多。 四代语料库工具可完成三代语料库几乎所有的功能,其中又以所能实现的功能最多最全。更重的是,是开源软件。概括说来,可以实现以下功能。 ()在线生成语料库的词频表(); ()查询()字词、语言结构等,以获取大量语言实例或相应结构的出现频次(),并可以按语体、年代、章节、学生语言水平级别、写作题材等分别呈现查询结果; ()计算特定词语在语料库中的典型搭配(); ()计算语料库中的核心关键词(),等。

、使用实例 标准查询模式 在简单查询模式()下,可输入单词、短语等进行检索。 图:语料库查询界面 图:查询结果界面

点击查询结果页面右上角下拉菜单,显示(新查询)时,按键,即可重新回到语料库检索界面。相当于返回按钮。 新查询,返回语料库检索首页 查询结果随机抽样 频数分解、分解频数 查询结果的分布展示 查询结果排序设定 搭配计算 下载保存查询结果 (随机取样),比如,可从万行结果中,随机抽取行。 (频数分解)表示在进行复杂查询时,对命中的不同词项分别计算频数。比如,查询时,会按这个词项分别报告命中频数和频率。 图:动词查询(频数分解)结果示例 :按语体、年代、章节、学生语言水平、写作题材等分别呈现查询结果 图:语料库中"lov.*"的分布情况()

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

CCL语料库与检索系统方案

一关于CCL语料库及其检索系统 (如果时间紧张,可直接跳到最后的举例部分!) 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如: “作者列表”:列出语料库中所包含的文件的作者 “篇名列表”:列出语料库中所包含的篇目名 “类型列表”:列出语料库中文章的分类信息 “路径列表”:列出语料库中各文件在计算机中存放的目录 “模式列表”:列出语料库中可以查询的模式 1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色: ?支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); ?支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句); ?支持在“结果集”中继续检索; ?用户可定制查询结果的显示方式(如左右长度,排序等); ?用户可从网页上下载查询结果(text文件); 二关于查询表达式 本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号 查询表达式中可以使用的特殊符号包括8个: | $ # + - ~ ! : 这些符号分为四组: Operator1: | Operator2: $ # + - ~ Operaotr3: !

Delimiter: : 符号的含义如下: (一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2) (1) | 相当于逻辑中的“或”关系。 (二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3) (2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number (3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number (4) + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number (5) - 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。 (6) ~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,~号右边的“简单项”不出现。 (三)Operator3:Operator3是一元操作符。 (7) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。 注意: Operator2后面的Number是必须的,不能省略。Number=0表示相 邻,Number=1表示间隔1个单位,其余依此类推。 (四)Delimiter:西文冒号 : 是分隔符 (8) : 跟在 path,author,name,type,pattern 等关键字后面,用于分隔关键字和它们的取值。这样形成的查询式我们称之为“过滤项”(见下面2.5) 注意:上述特殊字符不能作为基本项在语料库中进行检索。path,author等关键字可以作为基本项进行检索。 2.2 基本项 指不包含特殊符号和空格的连续字符串

基于语料库的海明威作品《雨中的猫》分析

基于语料库的海明威作品《雨中的猫》分析 ——以写作风格和小说主题为例 王树振 (天津师范大学外国语学院,天津, 300387) 【摘要】美国著名作家厄内斯特·海明威的短篇小说《雨中的猫》(1922),自发表以 来便引起文学评论界的极大关注。在作品中,通过对一个日常生活片段的叙述,作者 揭示了女性生存困境的主题。而基于语料库的文学研究,则是通过利用语料库检索软 件来考察作者的写作风格、解读作品的主题。在前人研究的基础之上,笔者拟运用语 料库语言学的方法对这部小说进行更深入的研究。通过使用Wordsmith和AntConc等 语料库检索软件,笔者拟对《雨中的猫》进行词语、句子及篇章结构进行统计分析, 最后不仅能够分析得出海明威用词简单、句子简短的写作风格,还能利用关键词检索 和自动生成的语境,来了解小说的主要内容和人物形象的塑造,这为解读小说的主题 提供了新的研究方法和途径。 【关键词】语料库检索;写作风格;主题 近年来, 国内外不少学者将语料库研究方法应用到文学领域,利用语料库检索软件对文本进行分析, 如Sinclair(1991)、Biber(2000)、张厚振(2004)、肖普勤(2005)等。他们的研究大胆创新,为后来的文学研究者带来很大的启示。正如Sinclair(1991: 36)所论述的那样,“(语料库检索)最激动人心的方面不是对描述进行直观的分类,而是为找到新的方法、新的证据以及新的描述提供可能。在这里,计算机技术的客观性和表面的正当性变成了一种优势,而不是没有放弃直觉前提下的一种责任。当然,我们要尽力找到符合证据的解释,而不是为了迎合现有的解释而去修改我们的证据。” 《雨中的猫》是美国著名小说家海明威的著名短篇,故事情节主要围绕一只雨中的猫展开,叙述了旅居意大利的一对美国夫妻的一段生活场景。本文用Wordsmith及AntConc的Wordlist、Concordance和Keyword对《雨中的猫》的文本特征、主要内容、人物形象和文本主题进行分析,以展示语料库检索软件在文学分析方面的强大功能。 一、基于词表的文本总体特征分析 基于语料库的语言研究一般采取定性与定量相结合的研究方法,要进行定量研究就要涉及文本检索和数据统计。Wordsmith软件中的Wordlist工具可以对文本的基本信息进行统计,自动生成词表(图1)。它可以提供文本中的简略统计数据,从而有助于分析文本的总体统计特征和基本情况。

北京语料库检索使用说明

北京语料库检索使用说明 首页 一关于CCL语料库及其检索系统 二关于查询表达式 2.1 特殊符号 2.2 基本项 2.3 简单项 2.4 复杂项 2.5 过滤项 2.6 子句 2.7 查询表达式 三关于查询结果 四在结果中查找 五举例 一关于CCL语料库及其检索系统 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如: “作者列表”:列出语料库中所包含的文件的作者 “篇名列表”:列出语料库中所包含的篇目名 “类型列表”:列出语料库中文章的分类信息 “路径列表”:列出语料库中各文件在计算机中存放的目录 “模式列表”:列出语料库中可以查询的模式

1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色: ?支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); ?支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句); ?支持在“结果集”中继续检索; ?用户可定制查询结果的显示方式(如左右长度,排序等); ?用户可从网页上下载查询结果(text文件); 二关于查询表达式 本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号 查询表达式中可以使用的特殊符号包括7个: | $ # + - ~ ! 这些符号分为三组: Operator1: | Operator2: $ # + - ~ Operaotr3: ! 符号的含义如下: (一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2) (1) | 相当于逻辑中的“或”关系。 (二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3) (2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number (3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number

语料库检索程序concapp使用简介

Wikipedia:语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记。百度百科:关于语料库的三点基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。 Concapp由香港理工大学虚拟语言学习中心发布,是一款针对语料库的检索软件,主要支持英语语料的处理,汉语和日语语料的处理不够理想。 Concapp在英文科技论文写作中,可以帮助我们了解其他文献(尤其是native speaker的论文)中一些词的用法。 使用: 1.concapp只能处理txt格式的文档,首先应将所用文献由pdf转为txt。 2.Concapp无需安装,直接双击exe文件(小于1M)即可运行。

3.单击菜单栏concordance选项,单击concordance search(F5)。 或直接单击菜单栏下的图标(图中标黑框)。 弹出对话框

其中Unicode是使用双字节对字符进行编码的统一码。一般选择ANSI,单击OK。 弹出对话框 对话框中,在Search string栏输入检索词。 File栏:Open是对打开的文件进行检索,Directory则是对目标文件夹中的文件进行检索。Search Option栏:Word/phrase: 搜索单词和短语,Prefix:搜索前缀,Suffix: 搜索后缀,Any string: 搜索出现在任何位置 例如,输入检索词efficiency。单击OK

弹出对话框 从中可以选择文件。可以选择一个或几个txt文档,或者单击最下面的Select all matching files,从而选中该文件夹中的全部txt文档。 弹出窗口

如何利用语料库辅助语言教学与研究(BNC)

如何利用语料库辅助语言教学与研究(BNC) 一、绪言 语料库是专门用于语言材料检索和统计的工具,包括为某一目的而收集的大量电子文本(加标注或未加标注)和专门的语料检索和管理程序。其最大的特点是能快速提供大量真实的语言材料并进行相关统计(如词频和搭配词等),已广泛运用于词典、教材、语法书和词汇表等的编纂及语言研究中。然而,语料库在日常外语课堂教学和学生自主学习中并没有得到广泛运用,至少在中国是如此。这一方面是由于对语料库在教学中的运用缺乏有力推广,加价格、市场等因素使得购买商用语料库有难度,自己建设语料库又需花费较大精力,另一方面人们对如何获取网上免费语料库资源缺乏了解。 语料库在日常英语课堂教学和学生自主学习中能够起到多种作用。作为一种高效的语言检索工具,它所提供的大量真实语言实例能提示从构词、词短语到句法结构乃至语篇几乎所有语言单位的语言生态(language ecology),包括语境、搭配规律、使用频率、语义和语用等。语料库的获得和个人建设虽然面临诸多困难,但幸运的是,开放的互联网为广大英语教师和英语学习者提供了接触和使用语料库的机会。 二、网络语料库的运用 1.英语单语语料库 目前,语料库运用于日常英语课堂教学的主要还是英语单语语料库,互联网上的情况也是如此。网上有许多大型通用语料库(单语)提供在线检索,其免费服务虽功能有所限制,但已能满足中学英语教学和学生自主学习的需求。如1亿词次的英语国家语料库(BNC)()和5600万词次的柯林斯在线词库(Collins Wordbanks Online)(www. Collins. https://www.360docs.net/doc/d812600693.html,/corpus/CorpusSearch.aspx)。二者均是当今较权威的英语语料库,其语料语域广泛,有较好代表性,且均做了词性赋码(Part-of-speech tags)。这些在线检索提供通配符功能(wildcard)、连续和非连续的词组或搭配检索功能(word combination),并能指定检索词词性,功能强大,检索方便,可在日常中学英语教学中加以运用。

莫言作品_蛙_的语料库检索分析_陈婵

第5期总第128期 2014年9月浙江工商大学学报JOURNAL OF ZHEJIANG GONGSHANG UNIVERSITY No.5Vol.128Sep.2014收稿日期:2014-04-11 基金项目:国家社会科学基金项目 “英语学术论文语篇的话语策略研究”(13BYY157)作者简介:陈婵,女,浙江工商大学外国语学院讲师,主要从事语料库文体学和话语分析研究;程乐,男,浙江大学外国语言文化与国际交流学院教授、博士生导师,法律话语与翻译中心主任,主要从事语料库、符号学以及专门传意等研究,系本文通讯作者。 莫言作品《蛙》的语料库检索分析 陈婵1,程乐2 (1.浙江工商大学外国语学院,杭州310018;2.浙江大学外国语言文化 与国际交流学院,杭州310058) 摘 要:文章利用语料库检索软件Antconc ,对莫言的小说《蛙》从主题、故事情节和人物 形象塑造等方面进行了较为深入的分析。首先,利用Antconc 的主题词功能提取出主题词并进行归类,结果不仅印证了《蛙》的主题与计划生育密切相关,而且也反映出《蛙》与莫言其 他作品之间的延续性以及作品中乡土立场和人文立场的统一。然后,利用Antconc 的索引功 能对主要角色“姑姑”进行检索,对每一条检索结果根据其描述内容和情感倾向做了人工标 注并统计,分析结果显示,对“姑姑”的感情生活、容貌性情以及身世等方面看似与主题无关 的描写实际上对小说人物塑造、情节发展都起到了至关重要的作用。 关键词:语料库;莫言;蛙;主题词;检索 中图分类号:I06文献标志码:A 文章编号:1009- 1505(2014)05-0026-09A Corpus-based Analysis of Mo Yan's Novel Frog CHEN Chan 1,CHENG Le 2 (1.School of Foreign Languages ,Zhejiang Gongshang University ,Hangzhou 310018,China ; 2.School of International Studies ,Zhejiang University ,Hangzhou 310058,China ) Abstract :The present paper applies the corpus retrieval software ,Antconc ,to study Mo Yan's novel Frog from the per-spectives of theme ,plot ,and means of character shaping.The extracted keywords not only confirm the theme of Frog is closely related to family planning ,but also reflect the continuity between Frog and other works of Mo Yan as well as the unity of local standpoint and humanistic position in the novel.Furthermore ,by annotating manually all the retrieval results of the major role “Aunt ”according to their contents and emotional tendency ,the paper finds that the seemingly irrelative descriptions of aunt's love and family life ,appearance and temperament ,actually play a critical role in character shaping and plot development. Key words :corpus ;Mo Yan ;Frog ;key words ;retrieval

AntConc的详细使用说明

AntConc3.2.0的使用说明1 1.提取语境共现 1.1设置检索项 (1)单项检索 a)点击file下拉菜单中的“open files”,选择要打开的语料(如果想打开整个文件 夹,可以选择open directory); b)在“Search Term”一栏键入要检索的词项,如go; c)在“Search Window Size”一栏设置每一共现行出现的词数; d)点击,开始检索。 检索结果如图 1.1所示: 图1.1单项检索结果 (2)多项检索 设置多项检索 除了检索单个词项以外,AntConc还具有检索多个词项的功能,检索方法为在检索项间键入“|”符号。 例:要检索动词go的各种时态形式,可在“Search Term”中输入go|went|gone|goes 1此说明书由华南师范大学外文学院2007研究生张杏娟编写,导师何安平订正和补充。 其中限定范围的检索方法由香港城市大学 D.Lee博士提供,仅此致谢。

设置语境词检索 为了限制语境共现的检索,可以设定一个语境词在检索项周边一定的 语境范围内出现。 例:如要研究 a … of 这一类词组,可通过AntConc提取所有的词项, 检索方法如下: a)在“Search Term”一栏键入a; b)点击“Search Term”旁的,进入“Advanced Search”界面, 如图1.2所示。点击“Use context words and horizons”,然后在“Context Words” 一栏键入of,点击。如要重新设置语境词,可先点击清除原来语境词, 后重复以上操作。另外,还需设定语境词距离检索项的位置,如本研究中,of在a的右 图1.2 Advanced Search界面二位置,所以“Content Horizon”确定为,最后点击; c)回到语境共现的界面后,点击,开始检索。结果可提取 a lot of, a bit of 等词块。 设置多字语检索 在研究中,如需检索多个词项,除了使用“|”以外,也可使用以下方法,尤其适 合检索项数目较多的情况。 例:研究感官动词watch, sound, feel, hear, smell a)在TXT文本中键入所有要检索的词项,可多达250个词。然后为该文本起名保存。 需注意:键入的词项需以列的形式排列。如: feel

基于语料库的《呼啸山庄》的检索分析

基于语料库的《呼啸山庄》的检索分析 随着语料库语言学的发展,越来越多的学者将语料库语言学融入文学作品进行研究。以往对于文学作品的研究,多以主观性的分析为主,而且局限于原文的部分词句,而语料库则能为文学作品的分析提供数据支持,而且可以对整体文本做出分析,从本质上弥补传统的文学作品研究的不足。《呼啸山庄》是世界文坛上不可多得的一枚瑰宝,对其进行的研究不胜枚举,但是从语料库视角研究《呼啸山庄》的文献却很少,因此,本文试图利用语料库文本检索软件AntConc3.2.4对文学作品《呼嘯山庄》文本的主题,情节等方面进行检索与分析。在运用语料库的同时也结合了以往传统的文学作品的研究方法,希望可以将两者有机结合,更好的研究分析《呼啸山庄》,帮助广大的读者更好的理解这部经典的文学作品。 标签:语料库,呼啸山庄,检索,分析 确定作品主题的可靠方法是提取主题词表。为进一步确定小说的主题,这里将《简爱》作为参照语料,打开AntConc的Tool Preferences窗口,选择Keyword List,并在Reference Corpus Options 处加载英文版《简爱》文本文件,点击Apply 按钮,回到AntConc主页面,选择Keyword List,点击Start按钮,便可得到主题词表,将“关键性”较高的主题单词进行归类整理,并在此基础上绘制分类主题词。 利用归类整理得到的行为者主题词可以得出此部小说的男女主角和次要角色,排名前三的人名依次是Heathcliff,Linton和Catherine。Linton是姓。File View 检索小说中有四个人的姓都是Linton(林敦先生,埃德加·林敦,伊莎贝拉·林敦,凯瑟琳·林敦),所以Linton的词频比较高,由此可以确认男女主角分别是Heathcliff和Catherine,而排在这两个人其后的人名分别是Hareton,Joseph,Earnshaw,Cathy,Edgar,Ellen,Nelly,Hindley,这些则是小说中的次要人物。 行为主题词,可以明显发现高频行为词主题词中,中性行为词(replied,answered,bid,settle,exclaimed)和消极性的行为词(crying,cried,muttered,compelled,weeping,sobbed)比较多,几乎没有积极性的动词(won)。描述类主题词大多都是消极意义的词(angry,worse,extremely,vexed,foolish,angrily,exceedingly),只有极少一部分是积极意义的词(young)。由此,可以明显看出相比《简爱》,《呼啸山庄》整体的语言风格呈现出沉闷,压抑,黑暗、恐怖、愤怒、复仇、爱恨交织的悲情氛围,将哥特式特征小说恐怖、神秘、超自然的描写风格淋漓尽致的表现了出来。 作者艾米莉·勃朗特在哥特式特征小说并不盛行的时期创作出这样优秀的作品,并被称为”奇书”,表现了其超人的写作天赋。作者不仅模仿了哥特式的写作风格,并且还对现传统风格有所突破,恐怖中反映现实,融合了现实元素,将哥特式特征小说发展到一个新的高度。《呼啸山庄》中除了哈里顿·恩萧与凯蒂在经历种种磨难后,最终结局还算不错,其他的人都经历了毁灭性的悲剧,所以,这

CCL使用说明书

一关于CCL语料库及其检索系统 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如: “作者列表”:列出语料库中所包含的文件的作者 “篇名列表”:列出语料库中所包含的篇目名 “类型列表”:列出语料库中文章的分类信息 “路径列表”:列出语料库中各文件在计算机中存放的目录 “模式列表”:列出语料库中可以查询的模式 1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色: ?支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); ?支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句); ?支持在“结果集”中继续检索; ?用户可定制查询结果的显示方式(如左右长度,排序等); ?用户可从网页上下载查询结果(text文件); 二关于查询表达式 本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号 查询表达式中可以使用的特殊符号包括8个:| $ # + -~ ! : 这些符号分为四组:

Operator1: | Operator2: $ # + - ~ Operaotr3: ! Delimiter: : 符号的含义如下: (一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项” 的定义见2.2) (1)| 相当于逻辑中的“或”关系。 (二)Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3) (2)$ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number (3)# 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number (4)+ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number (5)- 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字 的范围内,-号右边的“简单项”不出现。 (6)~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字 的范围内,~号右边的“简单项”不出现。 (三)Operator3:Operator3是一元操作符。 (7)! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。

语料库检索使用指南

Homework for Introduction part http://211.69.132.28/ 检索的库为:introduction 子语料库 语料库使用练习 目标一:熟悉语步与词汇的对应关系; 目标二:学习以扩展意义单位为基础的新语义观(核心词、搭配、类联接、语义倾向、语义韵); 目标三:掌握有语言问题后如何查找相应答案的技能。 提交的作业文件名为:姓名+introduction 提交的内容: 1. 在三个introductions,标注:1)M1, M2, M3;2)每个move的内容要点(用汉语);3)每个语步的经典句型划线,4)红颜色标注:语步1中的评价性形容词、语步2的转折连词(引出现有研究的问题),语步3中代表弥补现有研究不足的表达(如研究目的等) 2. 回答表格中基于语料库检索的8个问题。 提交时间:周二上课的班级提交时间为周一晚9:30:提交给刘琴同学的QQ邮箱 周三上课的班级提交时间为周二晚9:30 ,提交到周颖同学的QQ邮箱 Direction : 1.Download 3 introduction parts from 3 journal articles in your own professional fields. Identify the 3 moves of the introduction part and mark them respectively by M1, M2, M3.and point out the main point of each move inChinese in barckets. Mark evaluative adj.in M1(评价性形容词), disjunctive conj.(转折连词)in M2, and the expressions implying filling gaps, such as research purpose in M3 in red. Move1 : statements about the subjects. (M1), (main points :problems, background information, definition, importance ,etc) , Move2 : review of relevant studies(M2) (description & comments , point out the weakness of existing researches) Move3: introduction of the present study(M3)(purposes to fill the gaps, research focuses, questions, hypothesis,etc.) 2.Underline the representative sentence patterns in each move and summarize it in the bracket such as [importance] 3.Answer the questions in the right column of the form based on the corpus data. (注意:如果你不会调节表格,请把答案写在表格外) Sample : The separation of mixtures of alkanes is an important activity in the petroleum and petrochemical industries. For example, the products from a catalytic催化isomerization reactor consist of a mixture of linear, mono-methyl and di-methyl alkanes. Of these, the di-branched molecules are the most desired ingredients in petrol because they have the highest octane number. It is therefore required to separate the di-methyl alkanes and recycle the linear and mono-methyl alkanes back to the isomerization reactor. In the detergent industry, the linear alkanes are the desired components and need to be separated from the alkanes mixture[M1: 通过现实需要突出研究的重要性与意义] .Selective sorption on zeolites is often used for separation of alkanes mixture(1-7文献被省略). The choice of the zeolite depends on the specific separation task in hand. For example, small-pore Zeolite A are used for separation of linear alkanes using the molecular sieving principle. However, the branched molecules cannot enter the zeolite structure[M2:指出现有研究方法及方法中存在的问题]. This study aims to overcome this limitation. Both linear and branched molecules are allowed inside the medium-pore MFI matrix and the sorption hierarchy in MFI will be dictated both by the alkanes chain length and degree of branching.[M3:本研究目的和采用新方法的优势] Introduction的写作方法:说明论文特定主题与较为广泛的研究领域之间的关系,同时提供足够的背景资料。句子内容的范围逐步缩小。通过问题的展示,揭示研究的目的与意义。

相关文档
最新文档