多语种在线语料库检索平台使用简明手册.pdf

多语种在线语料库检索平台使用简明手册.pdf
多语种在线语料库检索平台使用简明手册.pdf

多语种在线语料库检索平台使用简明手册

许家金

中国外语与教育研究中心

、访问及登录

访问(用户名:和密码:),可点击使用相应的语料库。目前平台上已安装英语、汉语、德语、日语、俄语、阿拉伯语、冰岛语等数十个语料库。

图:主界面

、功能概要

按()对语料库分析工具的时代划分,属于第四代语料库工具,即在线语料库分析工具。四代工具的突出代表是美国杨百翰()大学教授创建的系列语料库检索界面()。类似的在线语料库检索系统还有、、、等。而当前主流的语料库工具属于第三代,其中以、和等为代表。

第四代语料库工具,将语料库与分析工具合二为一,越来越受到普通用户的青睐。在线语料库工具通常将语料库文本按特定格式建成索引(),存储在服务器上。用户检索响应速度要远高于三代软件在本地电脑上的检索速度。其操作也较三代语料库软件简便得多。

四代语料库工具可完成三代语料库几乎所有的功能,其中又以所能实现的功能最多最全。更重的是,是开源软件。概括说来,可以实现以下功能。

()在线生成语料库的词频表();

()查询()字词、语言结构等,以获取大量语言实例或相应结构的出现频次(),并可以按语体、年代、章节、学生语言水平级别、写作题材等分别呈现查询结果;

()计算特定词语在语料库中的典型搭配();

()计算语料库中的核心关键词(),等。

、使用实例

标准查询模式

在简单查询模式()下,可输入单词、短语等进行检索。

图:语料库查询界面

图:查询结果界面

点击查询结果页面右上角下拉菜单,显示(新查询)时,按键,即可重新回到语料库检索界面。相当于返回按钮。

新查询,返回语料库检索首页

查询结果随机抽样

频数分解、分解频数

查询结果的分布展示

查询结果排序设定

搭配计算

下载保存查询结果

(随机取样),比如,可从万行结果中,随机抽取行。

(频数分解)表示在进行复杂查询时,对命中的不同词项分别计算频数。比如,查询时,会按这个词项分别报告命中频数和频率。

图:动词查询(频数分解)结果示例

:按语体、年代、章节、学生语言水平、写作题材等分别呈现查询结果

图:语料库中"lov.*"的分布情况()

图:语料库中"lov.*"的分布情况(Bar chart)

:计算特定词语在语料库中的典型搭配

图:语料库中"lov.*"的典型搭配词(以log likelihood value排序)

限定条件查询

限定条件查询,指在任务一开始,即选定一个或多个限制条件(如,语体、年代、章节、写作题材等)进行查询。限定条件的有无、多寡,源自语料库文本的元信息()。因此,在创建语料库时,应尽可能详细记录语料文本产生的社会语言学信息。丰富的社会语言学信息,可以大大丰富研究的层面和深度。这样的元信息可以存储在文本的头部,也可以在文本之外单独存储。

图:限定在语料库的学术语体中查询情态动词生成词频表

图:语料库的词频表

生成主题词表

比如以《红楼梦》与语料库进行对比,可能得到《红楼梦》的主题性词汇。

、多语种语料库建设思路

本族语平衡语料库:百万词次以上

特定语体语域专门用途语料库:比如文学作品、新闻报导、法律文本、网络文本等学习者语料库:学习者作文、翻译练习

翻译文本及平行语料库

附录:平台中英文术语对照表(表)

词次

词种

词语搭配

语料库说明文档

语料库元信息

复杂检索语法

分布(按语体等分类条件分别呈现结果)

频数、频率

频数分解、分解频数

词频表、词表

词频表

主题词

对数似然率(典型词语搭配的统计方法)

最大跨距(计算搭配时中心词和左右语境词

之间的距离)

出现次数

检索词、中心词、节点词

查询结果每页显示的行数

查询、检索

限定条件查询

直译:在个不同文本中返回个匹

配项

意译:在个文本中查到例子

查询结果按中心词排序

简单查询(不区分大小写)

词语相关查询

附录:复杂检索举例(查询时,选择)

单词检索:、、

词码混合检索:、、、

近义词批量检索:、

北外语料库语言学团队网站:

使用北外平台,可引用:

许家金、吴良平,,基于网络的第四代语料库分析工具及应用实例,《外语电化教学》():,。

BCC语料库使用指南

1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。[F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。 例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。 例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。

语料库研究的优势及问题的理论解析

语料库语言学的理论解析 摘要:本文试图剖析有关语料库语言学的几个理论问题,以期揭示语料库语言学的本质。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 关键词:语料库语言学;基于语料库的研究方法;理论架构;语料库数据;发展前景 Abstract: This paper attempts to answer some theoretical questions of corpus-based language studies. Three theoretical considerations are addressed to capture the nature of corpus linguistics. 1) Is Corpus Linguistics an independent branch under the umbrella of linguistics? 2) What can corpus data offer to linguists? and 3) What kind of research that Corpus Linguistics should be? Answers to the three theoretical questions will conduce to a fuller understanding of the nature of corpus-based language studies and their development. Key words: Corpus linguistics; corpus-based approach; theoretical construct; corpus data; future directions 1.0 导言 目前利用语料库从事研究的学者主要有两类。一类是计算语言学家。他们主要从事自然语言处理(NLP)的研究,诸如语音合成、语音识别和机器翻译等等。他们的终极目标并非要揭示语言的本质,而是注重技术层面的研究,比方如何改进算法,如何完善词库的建设以实现技术上的突破。另一类就是语言学家,他们则希望借助这一强大的工具去揭示语言的本质这一学科目标,这正是本文所要关注的。 本文缘起于语言研究者中的一种争论,即“语料库语言学”是否配得上这个名称,它是一种新兴的理论视角还是“暴发户造谱牒”?而本文要探讨的正是有关于语料库语言学研究的理论意义。或者说,语言学家从语料库所提供的信息中到底可以获得什么?这是本文试图解决的核心问题。语料库建设、开发和利用在国内外语言学界日渐兴起,在国内也有相当数量介绍性和综述性文献涌现,为语料库语言学在我国的发展奠定了一定的理论基础。此外,一些语言学者和语言教师(包括外语教师和对外汉语教师)也设计、建立了一些自己的语料库以服务于教学科研。 然而真正对语料库的理论问题进行深入探讨的著述却为数不多。本文将试图剖析语料库语言学的几个理论问题,以期对语料库语言学的优势和不足有进一步的认识。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 2.0 语料库语言学是不是独立的新兴学科? 2.1 语料库语言学是一种理论架构 完全赞成语料库语言学是一种理论架构的几乎没有。只是某些学者比较强调语料库语言学的理论意义。比如,Halliday(1991;1992;1993)指出,语料库语言学作为一种理论架构(theoretical construct),将语料收集和理论概括统一了起来,从而使我们对语言的理解产生一种质变。这种新的理论架构有助于考察同时作为系统和实例(instance)的语言的本质。因为在Halliday的语言学思想当中,实际话语是语言系统的实例再现(instantiation)。而语言系统,或者说是语法体系是一种统计概率上(probabilistic)的自然结果。这一思想与所谓

语料库检索分析在高级英语语篇教学中的应用_语料库检索

语料库检索分析在高级英语语篇教学中的应用_ 语料库检索 语料库检索分析在高级英语语篇教学中的应用_语料库检索摘要语料库语言学通过对自然文本的检索、统计,实现文本的语篇结构、文体风格、语言特征等的量化分析。语料库软件工具如Wordsmith、Concordancer软件等为语篇教学提供了量化分析手段。本文依据语料库语言学的研究方法,主要运用Wordsmith、Antconc软件,以课文"Blackmail"为小型教学语料库,探索高级英语语篇教学的新途径。 关键词语料库检索分析;高级英语;语篇教学1.引言高级英语是英语专业高年级阶段的一门主干课程,其教学目标是"通过阅读和分析内容广泛的材料,扩大学生知识面,加深学生对社会和人生的理解,培养学生对名篇的分析和欣赏能力、逻辑思维与独立思考的能力,巩固和提高学生英语语言技能"1。鉴于此,围绕高级英语课程的教学研究与改革长期以来备受专家、学者和广大师生的关注,如朱传枝2、杨志亭3、刘采敏和楚向群4、李洁平5、黄文英6等。十多年来,随着语言教学理论研究的深入以及计算机网络和多媒体技术的快速发展,高级英语课程改革成绩斐然,教学效果显著提高。然而,在语篇教学中不难发现,由于缺乏科学的文本分析手段和工具,学生对语篇的分析和欣赏"多来自

教师在反复阅读全文的基础上根据某种理论框架或自身独特的理解能力及审美取向所做的解释"7,或者依赖于教学参考书籍上的注解,学习效果大打折扣,成为了困扰教师的一大教学瓶颈。语料库语言学的出现为高级英语语篇教学提供了有力的理论和技术支持,对于解决教学中存在的难题有着重大的启示和意义。 2.语料库与语料库检索分析软件的应用20世纪90年代以来,语料库语言学的迅速发展"给语言研究以及语言应用研究带来了一场革命性的变化"8,而"基于语料库的研究方法已经逐渐扩展到语言教学、话语分析、翻译研究、词典编纂和自然语言处理等多个领域"9。语料库语言学以真实的语言数据为研究对象,通过对大量语言事实进行分析,寻找语言应用的规律和模式。由于语料库研究中的统计数据以实际使用中语言现象的出现概率为依据,且基于语料库而得到的数据避免了偶然性,从而提升了分析结果的可信度。 因此,语料库语言学为语言研究和教学提供了一种全新的模式。 随着计算机信息技术的日新月异,语料库为语言研究提供了空前广泛的语言资料。目前,国际上影响较大的语料库有英国COBUILD语料库(CollinsBirminghamUniversityInternationalLanguageDatabas e)、BNC英语国家语料库(TheBritishNationalCorpus)、CIC 语料库CambridgeInternationalCorpus、ICE语料库

多语种在线语料库检索平台使用简明手册.pdf

多语种在线语料库检索平台使用简明手册 许家金 中国外语与教育研究中心 、访问及登录 访问(用户名:和密码:),可点击使用相应的语料库。目前平台上已安装英语、汉语、德语、日语、俄语、阿拉伯语、冰岛语等数十个语料库。 图:主界面 、功能概要 按()对语料库分析工具的时代划分,属于第四代语料库工具,即在线语料库分析工具。四代工具的突出代表是美国杨百翰()大学教授创建的系列语料库检索界面()。类似的在线语料库检索系统还有、、、等。而当前主流的语料库工具属于第三代,其中以、和等为代表。 第四代语料库工具,将语料库与分析工具合二为一,越来越受到普通用户的青睐。在线语料库工具通常将语料库文本按特定格式建成索引(),存储在服务器上。用户检索响应速度要远高于三代软件在本地电脑上的检索速度。其操作也较三代语料库软件简便得多。 四代语料库工具可完成三代语料库几乎所有的功能,其中又以所能实现的功能最多最全。更重的是,是开源软件。概括说来,可以实现以下功能。 ()在线生成语料库的词频表(); ()查询()字词、语言结构等,以获取大量语言实例或相应结构的出现频次(),并可以按语体、年代、章节、学生语言水平级别、写作题材等分别呈现查询结果; ()计算特定词语在语料库中的典型搭配(); ()计算语料库中的核心关键词(),等。

、使用实例 标准查询模式 在简单查询模式()下,可输入单词、短语等进行检索。 图:语料库查询界面 图:查询结果界面

点击查询结果页面右上角下拉菜单,显示(新查询)时,按键,即可重新回到语料库检索界面。相当于返回按钮。 新查询,返回语料库检索首页 查询结果随机抽样 频数分解、分解频数 查询结果的分布展示 查询结果排序设定 搭配计算 下载保存查询结果 (随机取样),比如,可从万行结果中,随机抽取行。 (频数分解)表示在进行复杂查询时,对命中的不同词项分别计算频数。比如,查询时,会按这个词项分别报告命中频数和频率。 图:动词查询(频数分解)结果示例 :按语体、年代、章节、学生语言水平、写作题材等分别呈现查询结果 图:语料库中"lov.*"的分布情况()

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

CCL语料库与检索系统方案

一关于CCL语料库及其检索系统 (如果时间紧张,可直接跳到最后的举例部分!) 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如: “作者列表”:列出语料库中所包含的文件的作者 “篇名列表”:列出语料库中所包含的篇目名 “类型列表”:列出语料库中文章的分类信息 “路径列表”:列出语料库中各文件在计算机中存放的目录 “模式列表”:列出语料库中可以查询的模式 1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色: ?支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); ?支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句); ?支持在“结果集”中继续检索; ?用户可定制查询结果的显示方式(如左右长度,排序等); ?用户可从网页上下载查询结果(text文件); 二关于查询表达式 本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号 查询表达式中可以使用的特殊符号包括8个: | $ # + - ~ ! : 这些符号分为四组: Operator1: | Operator2: $ # + - ~ Operaotr3: !

Delimiter: : 符号的含义如下: (一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2) (1) | 相当于逻辑中的“或”关系。 (二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3) (2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number (3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number (4) + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number (5) - 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。 (6) ~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,~号右边的“简单项”不出现。 (三)Operator3:Operator3是一元操作符。 (7) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。 注意: Operator2后面的Number是必须的,不能省略。Number=0表示相 邻,Number=1表示间隔1个单位,其余依此类推。 (四)Delimiter:西文冒号 : 是分隔符 (8) : 跟在 path,author,name,type,pattern 等关键字后面,用于分隔关键字和它们的取值。这样形成的查询式我们称之为“过滤项”(见下面2.5) 注意:上述特殊字符不能作为基本项在语料库中进行检索。path,author等关键字可以作为基本项进行检索。 2.2 基本项 指不包含特殊符号和空格的连续字符串

基于语料库的海明威作品《雨中的猫》分析

基于语料库的海明威作品《雨中的猫》分析 ——以写作风格和小说主题为例 王树振 (天津师范大学外国语学院,天津, 300387) 【摘要】美国著名作家厄内斯特·海明威的短篇小说《雨中的猫》(1922),自发表以 来便引起文学评论界的极大关注。在作品中,通过对一个日常生活片段的叙述,作者 揭示了女性生存困境的主题。而基于语料库的文学研究,则是通过利用语料库检索软 件来考察作者的写作风格、解读作品的主题。在前人研究的基础之上,笔者拟运用语 料库语言学的方法对这部小说进行更深入的研究。通过使用Wordsmith和AntConc等 语料库检索软件,笔者拟对《雨中的猫》进行词语、句子及篇章结构进行统计分析, 最后不仅能够分析得出海明威用词简单、句子简短的写作风格,还能利用关键词检索 和自动生成的语境,来了解小说的主要内容和人物形象的塑造,这为解读小说的主题 提供了新的研究方法和途径。 【关键词】语料库检索;写作风格;主题 近年来, 国内外不少学者将语料库研究方法应用到文学领域,利用语料库检索软件对文本进行分析, 如Sinclair(1991)、Biber(2000)、张厚振(2004)、肖普勤(2005)等。他们的研究大胆创新,为后来的文学研究者带来很大的启示。正如Sinclair(1991: 36)所论述的那样,“(语料库检索)最激动人心的方面不是对描述进行直观的分类,而是为找到新的方法、新的证据以及新的描述提供可能。在这里,计算机技术的客观性和表面的正当性变成了一种优势,而不是没有放弃直觉前提下的一种责任。当然,我们要尽力找到符合证据的解释,而不是为了迎合现有的解释而去修改我们的证据。” 《雨中的猫》是美国著名小说家海明威的著名短篇,故事情节主要围绕一只雨中的猫展开,叙述了旅居意大利的一对美国夫妻的一段生活场景。本文用Wordsmith及AntConc的Wordlist、Concordance和Keyword对《雨中的猫》的文本特征、主要内容、人物形象和文本主题进行分析,以展示语料库检索软件在文学分析方面的强大功能。 一、基于词表的文本总体特征分析 基于语料库的语言研究一般采取定性与定量相结合的研究方法,要进行定量研究就要涉及文本检索和数据统计。Wordsmith软件中的Wordlist工具可以对文本的基本信息进行统计,自动生成词表(图1)。它可以提供文本中的简略统计数据,从而有助于分析文本的总体统计特征和基本情况。

北京语料库检索使用说明

北京语料库检索使用说明 首页 一关于CCL语料库及其检索系统 二关于查询表达式 2.1 特殊符号 2.2 基本项 2.3 简单项 2.4 复杂项 2.5 过滤项 2.6 子句 2.7 查询表达式 三关于查询结果 四在结果中查找 五举例 一关于CCL语料库及其检索系统 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如: “作者列表”:列出语料库中所包含的文件的作者 “篇名列表”:列出语料库中所包含的篇目名 “类型列表”:列出语料库中文章的分类信息 “路径列表”:列出语料库中各文件在计算机中存放的目录 “模式列表”:列出语料库中可以查询的模式

1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色: ?支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); ?支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句); ?支持在“结果集”中继续检索; ?用户可定制查询结果的显示方式(如左右长度,排序等); ?用户可从网页上下载查询结果(text文件); 二关于查询表达式 本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号 查询表达式中可以使用的特殊符号包括7个: | $ # + - ~ ! 这些符号分为三组: Operator1: | Operator2: $ # + - ~ Operaotr3: ! 符号的含义如下: (一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2) (1) | 相当于逻辑中的“或”关系。 (二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3) (2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number (3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number

基于语料库、体裁分析和建构

基于语料库、体裁分析和建构 【摘要】本文回顾了英语概要写作国内外的研究现状,通过大学英语概要写作语料库研究了英语概要写作的语场特征,提出了基于语料库、体裁分析和建构主义教学模式相结合的支架式英语概要写作教学模式,本研究对于提高英语读、写结合教学具有重要意义。 【关键词】概要写作语料库体裁建构主义 概要(summary)是一种对原始文献(或文章)的基本内容进行浓缩的语义连贯的短文。它以迅速掌握原文内容梗概为目的,不加主观评论和解释,但必须简明、确切地表述原文的重要内容。概要写作(summary writing)是一种控制性的作文形式,它能使学生通过阅读原文,吸收原文的文章结构与语言方面的长处,写出内容一致、结构近似、语言简洁的短文。这种写作既要准确理解原文,又要能综合概括;既能培养欣赏能力,又能训练书面表达能力。 1 英语概要写作研究综述 曾炳辉(1989)在《英语概要写作与智力训练》中论述了概要写作是训练抽象概括能力即思维能力的最好的形式之一;郑文(2007)就大学英语读写过程中存在的输入和输出的矛盾,提出利用阅读教材作为写作输入,培养篇章图式;利用概要写作训练作为写作输出,揭示学生篇章图式的不足,提高学生的读写水平;张新玲和曾用强(2009)在《读写结合写作测试任务在大型考试中的构念效度验证》中从构念效度的实质方面入手对这类任务在我国大规模考试中所得分数进行效度验证,发现所取样本考生的读写结合写作测试应答数据和构念理论相拟合。 而国外学者,已经开始运用语料库,体裁分析理论,语篇分析理论和形式结构分析理论研究概要写作,如Rosalie Friend的“Effects of Strategy Instruction on Summary Writing of College Students”;Daniel Marcu的“From text discourse structures to text summaries”;Esther Uso Juan和Juan Carlos Palmer Silveira的“A Product-Focused Approach to Text Summarisation”;Sa-Kwang Song,Dong Hyun Jang,Sung Hyon Myaeng的“Text Summarization Based on Sentence Clustering wi th Rhetorical Structure Information”以及Jade Goldstein Stewart的“Genre Oriented Summarization”等。 2基于语料库的英语概要写作研究 语料库语言学研究的诞生可以追溯到19世纪末,二十世纪中叶以后随着计算机的广泛普及与使用,现今语料库的规模越来越大、种类越来越多,利用语料库进行语言研究和语言学习的人也就越来越方便。本研究建立了大学英语概要写作语料库,其目的是通过语料库来研究大学英语概要写作的篇章及体裁的一部份特点,为大学英语概要写作的教学及测试评价提供一定的依据。大学英语概要写作语料库中包括两个子语料库:概要写作原文库,概要写作库。每个子语料库按

语料库话语分析综述

近十年国内基于语料库的话语研究综述 A Review of Ten - year Research on Corpus-Based Discourse Analysis in China 摘要:文章从基于语料库的话语研究领域出发,通过对2002年至2011年发表在国内八种核心期刊上的论文进行统计与分析,发现这些研究在研究领域取得了很大的进步,涉及到话语各个方向,对于实践有重大指导作用,但同时也出现一些问题值得我们关注。 Abstract: From corpus-based discourse analysis, this thesis finds this field has made great progress, relates to many directions of discourse and has a significant guiding role for the practice, but also brings many problems worthy our attention. All of these are derived from the research and analysis of thesises published in 8 kinds of core journals from 2002 to 2011 in China. 关键词: 语料库话语基于语料库的话语研究 0. 引言 现代语料库语言学是20世纪中后期兴起的一门语言研究科学。语料库是指按一定的语言学原则,运用随即抽样的方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。在20 世纪后半叶的西方语言学界, Chomsky的观点大行其道,秉承该学说的语言研究者唯直觉语料独尊。他们躲在书斋,满足于依靠自己的直觉语料从事语言研究。随着社会语言学、话语分析、语用学、语料库语言学的兴起,越来越多的语言学家认识到光靠直觉语料来研究语言是远远不够的,人们还必须借助语料库语料以及其他各种语料,只有这样我们才能更好地揭示语言的本质,克服直觉语料的局限与不足。这样基于语料库的话语研究越发引起大家的重视,并取得了丰硕的成果。国内基于语料库的话语研究虽然起步较晚,但是成果仍然颇丰。 1. 研究样本 由于近几年运用语料库来做话语研究已经成为语言研究的热点,笔者通过检索主题与关键词,将文献定在2002年至2011年这十年期间,研究样本来源为发表在八种外语类核心期刊的22篇文章。这是因为这8种外语类期刊有一定的权

语料库检索程序concapp使用简介

Wikipedia:语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记。百度百科:关于语料库的三点基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。 Concapp由香港理工大学虚拟语言学习中心发布,是一款针对语料库的检索软件,主要支持英语语料的处理,汉语和日语语料的处理不够理想。 Concapp在英文科技论文写作中,可以帮助我们了解其他文献(尤其是native speaker的论文)中一些词的用法。 使用: 1.concapp只能处理txt格式的文档,首先应将所用文献由pdf转为txt。 2.Concapp无需安装,直接双击exe文件(小于1M)即可运行。

3.单击菜单栏concordance选项,单击concordance search(F5)。 或直接单击菜单栏下的图标(图中标黑框)。 弹出对话框

其中Unicode是使用双字节对字符进行编码的统一码。一般选择ANSI,单击OK。 弹出对话框 对话框中,在Search string栏输入检索词。 File栏:Open是对打开的文件进行检索,Directory则是对目标文件夹中的文件进行检索。Search Option栏:Word/phrase: 搜索单词和短语,Prefix:搜索前缀,Suffix: 搜索后缀,Any string: 搜索出现在任何位置 例如,输入检索词efficiency。单击OK

弹出对话框 从中可以选择文件。可以选择一个或几个txt文档,或者单击最下面的Select all matching files,从而选中该文件夹中的全部txt文档。 弹出窗口

如何利用语料库辅助语言教学与研究(BNC)

如何利用语料库辅助语言教学与研究(BNC) 一、绪言 语料库是专门用于语言材料检索和统计的工具,包括为某一目的而收集的大量电子文本(加标注或未加标注)和专门的语料检索和管理程序。其最大的特点是能快速提供大量真实的语言材料并进行相关统计(如词频和搭配词等),已广泛运用于词典、教材、语法书和词汇表等的编纂及语言研究中。然而,语料库在日常外语课堂教学和学生自主学习中并没有得到广泛运用,至少在中国是如此。这一方面是由于对语料库在教学中的运用缺乏有力推广,加价格、市场等因素使得购买商用语料库有难度,自己建设语料库又需花费较大精力,另一方面人们对如何获取网上免费语料库资源缺乏了解。 语料库在日常英语课堂教学和学生自主学习中能够起到多种作用。作为一种高效的语言检索工具,它所提供的大量真实语言实例能提示从构词、词短语到句法结构乃至语篇几乎所有语言单位的语言生态(language ecology),包括语境、搭配规律、使用频率、语义和语用等。语料库的获得和个人建设虽然面临诸多困难,但幸运的是,开放的互联网为广大英语教师和英语学习者提供了接触和使用语料库的机会。 二、网络语料库的运用 1.英语单语语料库 目前,语料库运用于日常英语课堂教学的主要还是英语单语语料库,互联网上的情况也是如此。网上有许多大型通用语料库(单语)提供在线检索,其免费服务虽功能有所限制,但已能满足中学英语教学和学生自主学习的需求。如1亿词次的英语国家语料库(BNC)()和5600万词次的柯林斯在线词库(Collins Wordbanks Online)(www. Collins. https://www.360docs.net/doc/2e8387632.html,/corpus/CorpusSearch.aspx)。二者均是当今较权威的英语语料库,其语料语域广泛,有较好代表性,且均做了词性赋码(Part-of-speech tags)。这些在线检索提供通配符功能(wildcard)、连续和非连续的词组或搭配检索功能(word combination),并能指定检索词词性,功能强大,检索方便,可在日常中学英语教学中加以运用。

莫言作品_蛙_的语料库检索分析_陈婵

第5期总第128期 2014年9月浙江工商大学学报JOURNAL OF ZHEJIANG GONGSHANG UNIVERSITY No.5Vol.128Sep.2014收稿日期:2014-04-11 基金项目:国家社会科学基金项目 “英语学术论文语篇的话语策略研究”(13BYY157)作者简介:陈婵,女,浙江工商大学外国语学院讲师,主要从事语料库文体学和话语分析研究;程乐,男,浙江大学外国语言文化与国际交流学院教授、博士生导师,法律话语与翻译中心主任,主要从事语料库、符号学以及专门传意等研究,系本文通讯作者。 莫言作品《蛙》的语料库检索分析 陈婵1,程乐2 (1.浙江工商大学外国语学院,杭州310018;2.浙江大学外国语言文化 与国际交流学院,杭州310058) 摘 要:文章利用语料库检索软件Antconc ,对莫言的小说《蛙》从主题、故事情节和人物 形象塑造等方面进行了较为深入的分析。首先,利用Antconc 的主题词功能提取出主题词并进行归类,结果不仅印证了《蛙》的主题与计划生育密切相关,而且也反映出《蛙》与莫言其 他作品之间的延续性以及作品中乡土立场和人文立场的统一。然后,利用Antconc 的索引功 能对主要角色“姑姑”进行检索,对每一条检索结果根据其描述内容和情感倾向做了人工标 注并统计,分析结果显示,对“姑姑”的感情生活、容貌性情以及身世等方面看似与主题无关 的描写实际上对小说人物塑造、情节发展都起到了至关重要的作用。 关键词:语料库;莫言;蛙;主题词;检索 中图分类号:I06文献标志码:A 文章编号:1009- 1505(2014)05-0026-09A Corpus-based Analysis of Mo Yan's Novel Frog CHEN Chan 1,CHENG Le 2 (1.School of Foreign Languages ,Zhejiang Gongshang University ,Hangzhou 310018,China ; 2.School of International Studies ,Zhejiang University ,Hangzhou 310058,China ) Abstract :The present paper applies the corpus retrieval software ,Antconc ,to study Mo Yan's novel Frog from the per-spectives of theme ,plot ,and means of character shaping.The extracted keywords not only confirm the theme of Frog is closely related to family planning ,but also reflect the continuity between Frog and other works of Mo Yan as well as the unity of local standpoint and humanistic position in the novel.Furthermore ,by annotating manually all the retrieval results of the major role “Aunt ”according to their contents and emotional tendency ,the paper finds that the seemingly irrelative descriptions of aunt's love and family life ,appearance and temperament ,actually play a critical role in character shaping and plot development. Key words :corpus ;Mo Yan ;Frog ;key words ;retrieval

AntConc的详细使用说明

AntConc3.2.0的使用说明1 1.提取语境共现 1.1设置检索项 (1)单项检索 a)点击file下拉菜单中的“open files”,选择要打开的语料(如果想打开整个文件 夹,可以选择open directory); b)在“Search Term”一栏键入要检索的词项,如go; c)在“Search Window Size”一栏设置每一共现行出现的词数; d)点击,开始检索。 检索结果如图 1.1所示: 图1.1单项检索结果 (2)多项检索 设置多项检索 除了检索单个词项以外,AntConc还具有检索多个词项的功能,检索方法为在检索项间键入“|”符号。 例:要检索动词go的各种时态形式,可在“Search Term”中输入go|went|gone|goes 1此说明书由华南师范大学外文学院2007研究生张杏娟编写,导师何安平订正和补充。 其中限定范围的检索方法由香港城市大学 D.Lee博士提供,仅此致谢。

设置语境词检索 为了限制语境共现的检索,可以设定一个语境词在检索项周边一定的 语境范围内出现。 例:如要研究 a … of 这一类词组,可通过AntConc提取所有的词项, 检索方法如下: a)在“Search Term”一栏键入a; b)点击“Search Term”旁的,进入“Advanced Search”界面, 如图1.2所示。点击“Use context words and horizons”,然后在“Context Words” 一栏键入of,点击。如要重新设置语境词,可先点击清除原来语境词, 后重复以上操作。另外,还需设定语境词距离检索项的位置,如本研究中,of在a的右 图1.2 Advanced Search界面二位置,所以“Content Horizon”确定为,最后点击; c)回到语境共现的界面后,点击,开始检索。结果可提取 a lot of, a bit of 等词块。 设置多字语检索 在研究中,如需检索多个词项,除了使用“|”以外,也可使用以下方法,尤其适 合检索项数目较多的情况。 例:研究感官动词watch, sound, feel, hear, smell a)在TXT文本中键入所有要检索的词项,可多达250个词。然后为该文本起名保存。 需注意:键入的词项需以列的形式排列。如: feel

基于语料库1

基于语料库的《麦田的守望者》检索分析 20 世纪80 年代以来,随着计算机的广泛应用,语料库语言学得到了蓬勃的发展。它为语言学研究提供了一套全新的研究思路和方法,广泛应用于语言研究的各个层面。由于计算机技术和因特网络的普及和发展,人们开始使用各种各样的语料库索引软件来作词汇搭配、翻译以及中介语的描述和分析。文本索引作为一种强有力的文本分析工具,不仅被广泛地应用在应用语言学的领域中,而且近年来在文学作品的研究中也开始发挥它们的独特作用。由于不少索引软件开发的最初目的是用来进行文学作品分析的(如Wordsmith Tools、TACT、Concordance 等) ,因此,在文学作品研究中,我们可以对某个作家的一部或多部作品进行分析和对比研究,这种分析对研究作家某种语体风格的形成或主题的表达提供了可靠的量化依据[1 ]165 。本文通过使用Wordsmith Tools 语料库索引软件对艾米莉·勃朗特的代表作《呼啸山庄》进行文本主旨、人物塑造与剧情发展等方面的分析 一、文本的总体统计特征及分析 基于语料库的语言研究一般采取定性与定量相结合的研究方法。要进行定量研究就要涉及文把《麦田的守望者》的文本用Wordsmith Tools 软件的wordlist 功能进行统计。它提供了有关这个文本的一些简略统计数字,如:字节数(bytes) 、形符数( tokens ,指文本一共有多少个词) 、类符数(types ,指文本一共有多少个不同的词形) 、类符形符比( type/ token ratio ,指形符与类符的比率, 即用词的变化性) 、标准化类符形符比( Standardised Type/ Token) 、平均词长、句子数等[1 ]153 。如表1 所示在这个文本中,从其字节数、形符数和句子数可以推断出这是一个较长的文本。因为单纯的形符数和类符数不能反映语篇的本质特征,如本文的类符形符比只有 3.39,但按一定的长度分批计算文本的类符形符比求平均值就可以得出标准类符形符比。它在一定程度上反映了语篇的某种本质特征,即用词的变化性。通过观察本文的标准类符形符比数35.18,可以推断此文本的词汇变化量为中低等程度。整个文章的句长为11.68,与平均句长14. 44 相比,意味着它比一些简易文本的句子要短。

基于语料库的《呼啸山庄》的检索分析

基于语料库的《呼啸山庄》的检索分析 随着语料库语言学的发展,越来越多的学者将语料库语言学融入文学作品进行研究。以往对于文学作品的研究,多以主观性的分析为主,而且局限于原文的部分词句,而语料库则能为文学作品的分析提供数据支持,而且可以对整体文本做出分析,从本质上弥补传统的文学作品研究的不足。《呼啸山庄》是世界文坛上不可多得的一枚瑰宝,对其进行的研究不胜枚举,但是从语料库视角研究《呼啸山庄》的文献却很少,因此,本文试图利用语料库文本检索软件AntConc3.2.4对文学作品《呼嘯山庄》文本的主题,情节等方面进行检索与分析。在运用语料库的同时也结合了以往传统的文学作品的研究方法,希望可以将两者有机结合,更好的研究分析《呼啸山庄》,帮助广大的读者更好的理解这部经典的文学作品。 标签:语料库,呼啸山庄,检索,分析 确定作品主题的可靠方法是提取主题词表。为进一步确定小说的主题,这里将《简爱》作为参照语料,打开AntConc的Tool Preferences窗口,选择Keyword List,并在Reference Corpus Options 处加载英文版《简爱》文本文件,点击Apply 按钮,回到AntConc主页面,选择Keyword List,点击Start按钮,便可得到主题词表,将“关键性”较高的主题单词进行归类整理,并在此基础上绘制分类主题词。 利用归类整理得到的行为者主题词可以得出此部小说的男女主角和次要角色,排名前三的人名依次是Heathcliff,Linton和Catherine。Linton是姓。File View 检索小说中有四个人的姓都是Linton(林敦先生,埃德加·林敦,伊莎贝拉·林敦,凯瑟琳·林敦),所以Linton的词频比较高,由此可以确认男女主角分别是Heathcliff和Catherine,而排在这两个人其后的人名分别是Hareton,Joseph,Earnshaw,Cathy,Edgar,Ellen,Nelly,Hindley,这些则是小说中的次要人物。 行为主题词,可以明显发现高频行为词主题词中,中性行为词(replied,answered,bid,settle,exclaimed)和消极性的行为词(crying,cried,muttered,compelled,weeping,sobbed)比较多,几乎没有积极性的动词(won)。描述类主题词大多都是消极意义的词(angry,worse,extremely,vexed,foolish,angrily,exceedingly),只有极少一部分是积极意义的词(young)。由此,可以明显看出相比《简爱》,《呼啸山庄》整体的语言风格呈现出沉闷,压抑,黑暗、恐怖、愤怒、复仇、爱恨交织的悲情氛围,将哥特式特征小说恐怖、神秘、超自然的描写风格淋漓尽致的表现了出来。 作者艾米莉·勃朗特在哥特式特征小说并不盛行的时期创作出这样优秀的作品,并被称为”奇书”,表现了其超人的写作天赋。作者不仅模仿了哥特式的写作风格,并且还对现传统风格有所突破,恐怖中反映现实,融合了现实元素,将哥特式特征小说发展到一个新的高度。《呼啸山庄》中除了哈里顿·恩萧与凯蒂在经历种种磨难后,最终结局还算不错,其他的人都经历了毁灭性的悲剧,所以,这

相关文档
最新文档