李文中-CLIC 2013 第二届中国语料库语言学大会 专家论坛发言(根据现场录

李文中-CLIC 2013 第二届中国语料库语言学大会 专家论坛发言(根据现场录
李文中-CLIC 2013 第二届中国语料库语言学大会 专家论坛发言(根据现场录

李文中

我这个话题正好接着何老师。何老师基于自己的研究,对语料库在外语教学应用方面做了总结性的、反思性的报告发言。我这个实际上算是research proposal,特别渴望待会儿讨论时,大家对我这一块提出批评和见解,我非常想听大家的意见。从2007年到2013年,我结了一个国家课题,《基于语料库的英语本土化研究及应用》。结题后今年又申请到一个新的国家课题,《基于语料库的中国文化英语表述中外对比研究》,就这个话题向大家做一个汇报,不是一个很成熟的研究。因为前一个研究到现在经过了中间一个很大的理论范式的一个转变。最初的动因也是从外语教育、英语学习这个视角来考虑的。80年代初,交际语言教学理念刚传到我们国家,其核心概念是真实语言材料,就是真实性原则。其他基于任务原则、意义原则、学习者为中心原则其实都是以真实性原则为基础的。当时争议的一个话题是:什么叫真实的英语?当时许国璋先生还专门写了一篇文章发在《外语教学与研究》上,讨论这个话题,对我们中国学生来说,什么英语才是真实的英语。许国璋先生自己的实践也回答了这个问题,在座的跟我年龄差不多的会记得,80年代初一直延伸到90年代中期,在大学里有一套教材特别流行,就是《许国璋英语》,每个人都在学这套英语。现在回头看那一段历史,这是一套非常独特的教材,感兴趣的话大家可以找来看看。教材里的内容安排和材料跟现在教材的理念是非常不一样的,我一直想对此作一番探索。正好当时赶上“世界英语”问题的讨论,90年代初“世界英语”到了第二个高潮阶段。我想就这个话题谈三个方面的问题,非常短,不去做繁琐的文献追踪,只是谈我的总结,不当之处请大家批评。

一是英语在中国是什么地位和角色?尤其对于外语学习和教学,在内容方面起到什么样的作用。二是英语对中国文化的承载能力,它能不能用来表述中国文化。这里涉及宏观和微观的问题。宏观上说是我们国家的文化战略,我们强调“中国文化走出去”,跟世界文化对接。最早的时候,改革开放初期,有一个口号“让中国走向世界,让世界了解中国”,实际上就是双向的。到现在,一个新的文化走出去战略,有人提出来“中国立场,世界表述”,还有“内知国情,外知世界”。这些都是战略上的思考和要求,对我们的外语学习和教学也有启发作用,这是关于文化层面的。在微观层面,如果英语能够表述和承载我们中国文化,那么它对我们的外语学习意义是什么?我们在学习英语或任何一门外语的时候,我们的学习内容、学习方法和学习目标会受到哪些影响?第三个方面是如何基于语料库对这一块开展研究,这也是接着我上一个课题研究。当时我的focus更多是在语言层面,就是把中国英语看成是一个独立变体,更多地看它的语言特征。说白了,更多的思想是受

Sylviane Granger的影响,她的Contrastive Interlanguage Analysis,CIA,就是基于学习者语料库把中国学生的英语产出跟本族人的英语产出做一个对比,然后对中国英语学习者的语言做一个诊断性研究,看看我们还存在哪些典型的困难和问题,然后通过补偿式教学去弥补它。这是最初的出发点。但是,后来理论范式在变化,而且自己在研究经验的总结提炼中,我的观点、思想慢慢也发生了一些变化。现在来看,有些范式,以前的框架、视角必须需要调整。我简单地说一下,一个是关于世界英语问题。实际上,关于世界英语问题,从20世纪80年代初到现在有三个阶段的变化。第一个阶段是80年代初,最著名的是美国印度裔的一个学者,叫Braj Kachru跟Randolph Quirk之间的一场争论。Quirk坚持本族语为标准,为了让英语变得更容易学习,他提出来“核心英语”,Nuclear English。他的核心观点是本族语英语是标准,是大家应该学习的目标。他还提出来什么是标准的变体,比如说,体制化,institutionalization,文典化,canonization,等等。那么,Kachru认为,当时英语在全球已形成了以本族人为核心,还有一些二语国家,还有一些外圈儿的以英语为外语的国家。他的核心观点是,除了本族人,这些二语国家的人也在形成标准,可以为英语提供新的规则和标准。但是他有一个小尾巴,就是,外语学习的外圈儿国家,像中国、日本、菲律宾、韩国等国家,必须遵从内圈儿和外圈儿的规则,还有一个特点就是坚持以本族语为标准。这是80年代初世界英语研究的核心话题,当时很多地方开始研究World Englishes,在二语国家新的英语变体。到90年代初,范式有一个非常大的变化,代表人物像(H. G.)Widdowson。这时候的突破点是英语的所有权问题,英语是谁的?Widdowson,还有Smith等许多学者提出来,英语主要是应用于交际,主要功能是交际,

由于交际有很高的语境特点,所以说,英语谁用是谁的,非英语本族人也分享英语的所有权,这是这个阶段的主要特征。到20世纪末,21世纪初,又有一个大的变化,新的学者

开始崛起,持有更加激进的观点。比如,(Barbara)Seidlhofer,受Widdowson影响比较大,是他的妻子,维也纳大学的。她建了一个国际通用英语语料库,VOICE,基于语料库来对国际通用英语的特征进行描述。她的主要贡献在于提出一系列问题和主张,她最激进的地方,她认为现在的英语已经脱离了内圈儿本族语的…??就是说在扩展圈儿,原来传统上

以英语为外语的国家这个人数占绝大多数,所以说这一扩展圈儿已经形成了自己的标准,不需要再跟本族语挂钩,这个非常激进。另外一个是Clave??,现在我们研究English as a lingual franca的特征时,,不是更多看它语言层面的东西,而是看它的语用特征,英语在使用中、交际中的使用策略、文化身份和当地文化的结合。这就与80年代初的研究形成了对称性的相对,英语本族人在这里是一个边缘性角色。他说本族人也可以参与English as a

lingual franca的交际活动,但是,也需要学习English as a lingual franca,只不过英语是他们的母语,他们学习English as a lingual franca时可能更容易些。目前,理论发展到现在,到Seidlhofer这里,基本上是对80年代研究的一个颠覆。我们现在考虑的是在教学实践中,真正追随Seidlhofer提出来的理论,我估计国内很多学者都还是不太赞同的,因为她走的

太远了。但是我觉得,她的理论适合于检查英语和当地的文化结合点、承载点。所以我在一篇论文中提出,现在英语在全球有两种力量推动,一个是全球化,所有人都在使用英语,由于互联网的发展,每个人都在用英语。在有些批评者看来,像Pary Cook和Illipson,英语是一个杀手语言,它挤压了当地语言的生存空间,挤压当地文化的生存空间。如果按照全球化的趋势,这个就是向心力的推动,那么以后全世界就剩一种语言,就是英语。所以很多人现在提出,全球语言,英语不是“之一”,而是“唯一”。其实还有一种力,就是由于它的全球化,英语在各个不同文化环境和国家、地域地面落地,产生了一个本地化的力量。我们在使用英语时会带上地方特色。这是一个本地化力量。本地化力量发展到极致,使英语像当年的拉丁语一样发展成不同的语言,一开始是变体,后来就成为独立的语言,互相听不懂。但是我认为,这两种力量是互相推动,而且互相抵消,所以任何一种力量都不可能走到极致,英语不会分成为不同的语言,也不会成为唯一的一个独立存在的语言。那么,结果是什么呢?它会形成一个具有共核的语言标准,但是外层又有很多地方特色的这么一个东西。我宁愿把这个东西叫做English as a lingual franca。对于中国人来说,我们的英语运用,这个共核部分能够保证我们和任何操英语的人能够顺利地交流,同时又能表达我们自己的东西,有我们自己的特色。这是一个问题。

第二个问题是关于文化的问题。如果英语能够在中国落地,承载我们的文化,背后的理论是,以前我们学英语,感觉到它的天然联系是跟英国文化、美国文化、英国史、美国史联系在一起,学英语一定要学这些文化和文学,不学这个文化、文学,英语是学不好的,我们当年受教育时老师们都是这么对我们说的。我们的课程体系里除了听说读写,还有英国文学、美国文学、英美概况这些课,因为背后的理念是学英语要与英语文化结合在一起。29:02

现在按照新的理论模式看,如果英语能承载中国文化,就是说英语与本族语文化不一定有天然的联系,我们可以通过英语学习自己的文化,学会用英语怎么来表述自己。那么,关于文化的定义和研究也是经历了很长时间的变化,现代主义、后现代主义等,此处不多说。

下面我想简短地说说怎么去开展这个研究。上一个课题我的focus主要想看看变体特

征,所以做成了一个很大的语料库,有4000多万,我想把它作为一个开放的语料库,继续向里面添加新语料。当时这个语料库的创建思想是想作为开放性的语料库,就是按照分好

的领域,收集各个领域的语料进来,然后做好充分的标记,把相关的文献信息都标记好,

使用者可以根据自己的需要从大库里构建自己的子库,由使用者决定构建的子库其代表性

如何去平衡、去保持。当初我们的设想是这样的。现在,按照新的范式,英语变体的理论

基础好像建在沙滩上,沙子越来越流失,基础越来越不牢。很多人在研究English as a lingual franca时不再把个体的英语看做一种变体,因为变体的参照依据还是本族语的标准,所以我现在更多地看英语与我们的文化结合点在哪里。我现在的思路,一是话题的选择,

比如经典的文学类作品、经典的思想哲学、历史和材料,所谓材料就是建筑、服饰这些东西,就是可见的、physical objects,它的文本材料。在分析层面上,昨天实际上听何老师的主题报告,还有上午濮建忠老师的《意义单位的发现程序》,很受启发,我们昨天晚上开

完大会,理事会开了个小会,理事会开完小会,我们又开了个小小会,开到差不多12点多,讨论如何把这个序列更好地从库中提取出来。我的观点是,意义单位是无法自动从库里提

取的,因为意义单位是一个价值判断、意义判断,这个判断是人做出来的,机器是做不出

来的,除非机器经过智能培训在以后的发展中获得了某种智能,它能够减少我们的决策程序,给我们提供一些半成品,但是现在只能通过程序去库里找一些我们觉得能用的一些序

列(?)。在分析层次上,一是搭配,一是从搭配研究到意义单位的分析,一直到后来的

扩展意义单位的分析,这也是Sinclair在意义研究中的发展阶段。现在我们谈起Sinclair对

他感觉非常敬佩,为什么?因为他的研究完全受他自己的学术驱动的,就是说他在研究一

个问题时,他的发现让他觉得现有的理论变得不稳定了、不确定的时候,他不怕去寻找新

的东西,所以Hoey在Trust the Text前面写了一个简短的评价,他说Sinclair这本书里每一章的内容所包含的创新性思想比一般的语言学家一生的创新思想都要多。这个话从两方面看,一是Sinclair是一个极具创新、极具原创性的思想家、语料库学家,同时,他是一个非常超前、激进的语料库学家。他的很多东西不一定能够兼容于当代其他领域的研究,因为

他是颠覆性的。当年他在研究意义单位时,他发现没有可用的理论框架,我们最常引用的

话就是,我们要overhaul the whole system,把原来的系统全部推翻、重新来。结合到我这个研究课题,我想,就算分析到扩展意义单位时,我们大家想一想,我们在一个文本中,

书面文本中,一个单位是一个句子,一个句子里至少会含有一个意义单位或者多个意义单位,因为意义单位不是一个终点,在Sinclair看来,一个意义单位是意义分析的起点。当时受语言学研究的主要理论范式影响,做什么研究总是喜欢把研究对象切成最小,分割成最

小单位。当时Sinclair在70年代的时候,做他的OSTI Report,他的主要目的也是做切分,找最小的意义单位,他甚至考虑过最小的意义单位是词素,就是构词的词素,后来他发现不是。单个的词语是不是意义单位?后来发现单个的词语很少能够构成独立的意义,这时他开始关注多词单位,就是短语层。他有一篇文章叫lexical grammar,专门写这个。对我来说,做到扩展意义单位分析当然是个很关键的步骤,但是真地要找到文化的表述或者命题,可能还要再往前扩展一步,就像何老师昨天说的,你看到扩展意义单位之后,再看它两边的东西,看它能不能形成一个命题,命题就是一个完整的思想,就是idea,意义单位是一个完整的意义,它可能是一个片段,只是它没有提它是完整的,是一个wholesome meaning,但是它能不能表达一个完整的思想,一个意义单位还看不出来。我现在需要解决的问题,一个是意义单位和扩展意义单位的理论意义和分析程序,在此基础上,再进一步看它命题的表达和表述。我就简单地给大家汇报到这里,我希望inviting questions and comments,希望大家给我提提建议。谢谢!

语料库术语中英对照

Aboutness 所言之事 Absolute frequency 绝对频数 Alignment (of parallel texts) (平行或对应)语料的对齐 Alphanumeric 字母数字类的 Annotate 标注(动词) Annotation 标注(名词) Annotation scheme 标注方案 ANSI/American National Standards Institute 美国国家标准学会 ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词 AWL/Academic word list 学术词表 Balanced corpus 平衡语料库 Base list 底表、基础词表 Bigram 二元组、二元序列、二元结构 Bi-hapax 两次词 Bilingual corpus 双语语料库 CA/Contrastive Analysis 对比分析 Case-sensitive 大小写敏感、区分大小写 Chi-square (χ2) test 卡方检验 Chunk 词块 CIA/Contrastive Interlanguage Analysis 中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则 Cluster 词簇、词丛 Colligation 类联接、类连接、类联结 Collocate n./v. 搭配词;搭配 Collocability 搭配强度、搭配力 Collocation 搭配、词语搭配 Collocational strength 搭配强度 Collocational framework/frame 搭配框架 Comparable corpora 类比语料库、可比语料库 ConcGram 同现词列、框合结构 Concordance (line) 索引(行) Concordance plot (索引)词图 Concordancer 索引工具 Concordancing 索引生成、索引分析 Context 语境、上下文 Context word 语境词 Contingency table 连列表、联列表、列连表、列联表 Co-occurrence/Co-occurring 共现 Corpora 语料库(复数) Corpus Linguistics 语料库语言学 Corpus 语料库 Corpus-based 基于语料库的

语料库语言学综述

语料库语言学综述 作者:刘美良 作者单位:柳州铁道职业技术学院,广西,柳州,545001 刊名: 科技信息 英文刊名:SCIENCE & TECHNOLOGY INFORMATION 年,卷(期):2010,""(21) 被引用次数:0次 参考文献(19条) 1.Chomsky,N Syntactic Structure 1957 2.Sinclair.John Corpus.Concordance Collocation 3.Susan Hunstom Corpora in Applied Linguistics 2006 4.Aijmer,K.Altenberg,B English Corpus Linguistics:Studies in Honour of Jan Svartvik 1991 5.杨惠中语料库语言学导论 2002 6.何安平语料库在外语教育中的应用--理论与实践 2004 7.何安平谈语料岸研究 1997(5) 8.丁信善语料库语言学的发展及研究现状 1998(1) 9.李文中2003上海语科库语言学国际会议述评 2004(1) 10.粱旭红语料库语言学研究综述 2001(1) 11.粱燕近十年我国语料库实证研究综述 2004(6) 12.刘满堂近40年英语语料库及语料库语言学研究的回顾与出展望 2004(1) 13.潘永本梁语料库语言学的目的和方法 2001(3) 14.王建新语料库语言学发展史上的几个重要阶段 1998(4) 15.许家金语料库语言学的理论解析 2003(6) 16.卫乃兴专业性搭配初探--语料库语言学方法 2001(4) 17.卫乃兴语料库语言学的弗斯学说基础 2008(3) 18.甄风超.张霞语料库语言学发展趋势瞻望--2003语料库语言学国际会议综述 2004(4) 19.吴菲国内外英语语料库的建设和发展述评 2007(6) 相似文献(4条) 1.期刊论文王虹.岳俊发.Wang Hong.Yue Jun Fa书面言语鉴定技术的发展历程-中国公共安全(学术版)2005,""(3) 书面言语鉴定技术产生于20世纪80年代中期.随着电子打印技术的普及,涉案的不留笔迹的打印文件显著增加,书面言语鉴定技术倍受关注.近年来,运用统计语言学、语料库语言学和计算机词频检索与统计等新技术获得了新的研究成果并应用于鉴定实践.书面言语鉴定技术已经发展成为文件检验学的一个新的分支,必将在司法鉴定领域发挥更大的功效. 2.期刊论文孙丰果话语分析整合研究-聊城大学学报(社会科学版)2010,""(2) 近60年来.话语分析经历了从无到有,从小到大的发展历程.话语分析要取得长足发展,需要有一个明确的概念,需要人们对其以前的发展情况进行总结和评述.对话语分析研究的评述不妨从系统功能语言学、认知语言学、语料库语言学等多角度进行.今后,话语分析研究可以从话语分析的哲学转向、心理学转向及整合批评话语分析和积极话语分析等方面展开. 3.期刊论文杨连瑞.Yang Lianrui第二语言习得研究的学科定位和进展-外语与外语教学2005,""(5) 第二语言习得是一种复杂的人文现象.作为一门新兴的交叉学科,第二语言习得研究在发展中应重视其学科性质的科学定位和学科体系的科学建构.本文在对第二语言习得研究的学科定位、学科性质和研究对象进行讨论后,回顾和评述了国外第二语言习得研究从对比分析、错误分析、中介语理论、普遍语法研究、语言类型学研究到语料库语言学研究的发展历程和研究问题,分析了目前我国开展这一学科研究的现状,并结合我国外语教学实际对目前开展这一学科的研究提出建设性意见. 4.学位论文魏琳中国英译旅游宣传材料的语料库分析2006 旅游业在全球范围内的迅猛发展使不同文化背景的人们进行文化交流变成了一种需要。在我国,旅游英语特别是网上的旅游英译材料是外国游客接触和了解我国的媒介。因此,旅游材料的翻译质量举足轻重。而目前旅游文本的翻译研究在中国还是一个比较新的话题,近年来主要是结合最新语言学

语料库话语分析综述

近十年国内基于语料库的话语研究综述 A Review of Ten - year Research on Corpus-Based Discourse Analysis in China 摘要:文章从基于语料库的话语研究领域出发,通过对2002年至2011年发表在国内八种核心期刊上的论文进行统计与分析,发现这些研究在研究领域取得了很大的进步,涉及到话语各个方向,对于实践有重大指导作用,但同时也出现一些问题值得我们关注。 Abstract: From corpus-based discourse analysis, this thesis finds this field has made great progress, relates to many directions of discourse and has a significant guiding role for the practice, but also brings many problems worthy our attention. All of these are derived from the research and analysis of thesises published in 8 kinds of core journals from 2002 to 2011 in China. 关键词: 语料库话语基于语料库的话语研究 0. 引言 现代语料库语言学是20世纪中后期兴起的一门语言研究科学。语料库是指按一定的语言学原则,运用随即抽样的方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。在20 世纪后半叶的西方语言学界, Chomsky的观点大行其道,秉承该学说的语言研究者唯直觉语料独尊。他们躲在书斋,满足于依靠自己的直觉语料从事语言研究。随着社会语言学、话语分析、语用学、语料库语言学的兴起,越来越多的语言学家认识到光靠直觉语料来研究语言是远远不够的,人们还必须借助语料库语料以及其他各种语料,只有这样我们才能更好地揭示语言的本质,克服直觉语料的局限与不足。这样基于语料库的话语研究越发引起大家的重视,并取得了丰硕的成果。国内基于语料库的话语研究虽然起步较晚,但是成果仍然颇丰。 1. 研究样本 由于近几年运用语料库来做话语研究已经成为语言研究的热点,笔者通过检索主题与关键词,将文献定在2002年至2011年这十年期间,研究样本来源为发表在八种外语类核心期刊的22篇文章。这是因为这8种外语类期刊有一定的权

语料库语言学的发展

语料库语言学的发展 语料库顾名思义就是放语言材料的仓库。现在人们谈起语料库,不言而喻是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学和词典出版商联合建设。另外,由于个人微机的迅猛发展和存贮数据的硬盘造价持续下降,研究者个人也开始建立适合于自己研究的小型语料库。 语料库语言学(英文corpus linguistics)这个术语有两层主要含义。一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。只有在这个意义上“语料库语言学”才是一个新学科的名称。从现有文献来看,属于后一类的研究还是极个别的。所以,严格地说,现在不能把语料库语言学跟语言学的分支, 如社会语言学、心理语言学、语用学等相提并论。 近年来,随着我国经济的发展,科研经费的增加,汉语语料库的建设得到了开展。1999 年我院把建立汉语语料库列为院重大课题。目前语言所正在构建三个大规模的语料库: 现场即席话语语料库,主要方言口语库和现代汉语文本语料库。在世界范围内,我国的语料库建设在规模上还赶不上欧洲的一些发达国家,特别是英国。然而,在语料库语言学的研究上,以及语料库的实际运用上,我国已经进入世界前沿的行列。 20 世纪语言研究的总特点可以用四个字概括──高度抽象。最近几十年来,语言研究的高度抽象倾向已经失去主导地位。这主要缘于两个方面的因素: 一是计算机技术,特别是基于计算机处理的多媒体技术的飞速发展;二是社会语言学、语用学、会话分析、人类语言学、计算语言学、人机对话研究、语音识别与合成等研究取得令人瞩目的成就。先前难以抓住并进行有效处理的五花八门的实际语料,现在可以对其进行大规模地的、自动的或人机配合的处理。比如个人发音特征,先前认为这跟语言学毫无关系,现在成了侦破语音学的重要内容。侦破语音学家首先建立个人发音特征语料库,这个语料库可以用来鉴别嫌疑犯。概言之,当今的语言研究由先前的高度抽象逐步走向最具体的语言的实际活动,其中

语料库语言学术语汇编Aglossaryofcorpuslinguistics.docx

语料库语言学术语汇编 ( V2.0 ) Last updated 2012-10-08 by许家金 Aboutness所言之事 Absolute frequency绝对频数 Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric字母数字构成的 Annotate标注(动词) Annotated text/corpus标注文本 /语料库、赋码文本/语料库Annotation标注(名词) Annotation scheme标注方案 ANSI/American National Standards Institute美国国家标准学会 ASCII/American Standard Code for Information美国信息交换标准码 Exchange Associates (of keywords)(主题词的)联想词 AWL/academic word list学术词表 Balanced corpus平衡语料库 Base list/baselist底表、基础词表 Bigram二元组、二元序列、二元结构 Bi-text/bitext双语合并文本、双语分行对齐文本 (一句源语一句目标语对齐后的文 本) Bi-hapax两次词 Bilingual corpus双语语料库 Bootcamp debate/discourse/discussion(新手)训练营大辩论 /话语 /大探讨CA/Contrastive Analysis对比分析 Case-sensitive/case sensitivity大小写敏感、区分大小写 Category-based approach基于类(范畴)的方法 Chi-square test/ 2χ卡方检验 Chunk词块 CIA/Contrastive Interlanguage Analysis中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-CLAWS 词性赋码系统 tagging System Clean text policy干净文本原则 Cluster词簇、词丛 Colligation类联接、类连接、类联结 Collocate n./v.搭配词;搭配 Collocability搭配强度、搭配力 Collocation搭配、词语搭配 Collocational strength搭配强度 Collocational framework/frame搭配框架 Collocational profile搭配概貌

桂诗春等-2010-语料库语言学与中国外语教学

2010年11月November 2010 第33卷第4期Vol.33No.4 现代外语(季刊) Modern Foreign Languages (Quarterly )语料库语言学与中国外语教学 桂诗春 冯志伟杨惠中何安平卫乃兴李文中梁茂成 [编者按] 为推动我国应用语言学研究的新发展,教育部人文社科重点研究基地———广东 外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了“首届广外应用语言学论坛”,庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。期间,举行了题为“语料库语言学与外语教学”的高层论坛,就语料库语言学的现状、发展前景及语料库的建设、共享、应用等展开了互动讨论。以下是根据专家发言,整理后的主要内容。 [中图分类号]H319 [文献标识码]A [文章编号]1003-6105(2010)04-0419-08 语料库语言学的发展前景与资源共享 广东外语外贸大学 桂诗春 1.语料库语言学的发展前景 语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,因为它的入门比较容易,上手较快;有的人把语料库语言学作为收集数据的重要手段。但是总的来说,我们的语料库研究还处在比较初级阶段,需要提高。究其原因是很多人把它看成是一种工具或手段,可以运用现有的一些现成的程序和公开的语料库,如Brown ,LOB ,Frown. Flob , BNC ,CLEC ,只要选题得当,就能获得很多量化的数据,从而写出洋洋洒洒的文章来。在计算机和扫描仪的支持下,自行收集一些语言素材,建立一个特定的语料库,也不是什么难事。 我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须许多方面要有比较雄厚的基础。首先是数学和统计学。Herdan (1960)的一本早期著作,叫做《词次/词型数学》(Type /token Mathematics ),其副标题就是《数理语言学教科书》(A Textbook of Mathematical Linguistics ),当时还是前计算机 时代,但Herdan 觉得有两件语言事实值得我们注意:一是大量语言资料(language in mass ),二是语言排列(language in line ),它们是任何语言运作都不能离开的两个方面。某些语言学研究分支如果考虑到这两个方面,将会从中获益。当时还没有真正的机读语料库, Brown 的语料库在1967年才面世,美国心理 学家John Carroll 根据该语料库以及他后来参与制作500万词的AHI 语料库,所提出的词汇频数对数正态模型(lognormal model )均源于Herdan 所奠定的基础。一直到最近美国Barber 利用计算机对英语语体的各种研究,更是利用了因子分析的统计方法。其次是计算机科学。语料库的发展离不开现代科学技术,其主要表现是个人电脑、扫描仪和大容量硬盘的普及,当初Brown 语料库要动用到大型电脑,而到如今,只需一万元左右就能在家里拥有这些设备,制作出甚至比Brown 还要大的语料库。但是我们往往只注意到硬件部分,而不认识到软件的建设。从事语料库语言学研究的人而不掌握一到两种编成语言,也不可能拓展他们的研究领域,因为他不能根据个人的研究需

语料库语言学简史

语料库语言学简史 语料库语言学及语料库方法的作用在今天已不容忽视,但是语料库语言学的发展却经历了一段长期曲折的过程。以1957年Chomsky《句法结构》的发表为界,此前的语料库研究被语言学界广泛称为“早期的语料库语言学”;从上世纪50年代至80年代语料库语言学进入低谷;从80年代开始,语料库语言学迎来了它的“复苏期”。 1 早期的语料库语言学 利用真实语言资料进行研究,是词汇学家和语法学家的优良传统。早在1747年英语词典编纂的鼻祖Samuel Johnson就发表了Plan of an English Dictionary,将前人收集资料的最好方法作了总结,他所编的英语词典含15万条以上的引证说明,可见其所收集的资料库已相当可观。Oxford English Dictionary于1928年完成,所用的引证达400多万条,卡片1100多万张,还专门出版了中古英语手稿与文章350册,供编写OED时参考。Webster’s New International Dictionary第二版的编写参照了100多万条引证,第三版于1961年付印时,新旧引证共达1000多万条。英语语法大师Jesperson在编写《英语语法大全》(1909-1949)时,所使用的卡片数目多达30至40万张。(王建新,1998:52) 20世纪40年代,美国的语言学家Boas在研究美洲印第安语言时就使用了语料库的方法(corpus-based methodology),后来的结构主义语言学家更是如此。只不过当时还没有出现一个专门叫“语料库语言学”的词汇而已。下面是早期语料库语言学的一些主要研究领域: 1.1 语言习得研究 19世纪70年代,语言学家就系统地对幼儿语言习得进行了研究。这些研究都基于父母对幼儿话语及时记录的日记材料。即使在现代,基于原始语料的语言习得研究也没有停止(Ingram,1978)。 在以日记材料为语料的研究风行过后(通常认为从1876年至1926年),语言习得的研究主要表现为下面两种方式:(1)以大量的、不同年龄段的儿童为语言素材的来源(informant),进行语言发展和成熟的研究;(2)以少量的儿童为语言素材的来源,长期跟踪记录他们使用的语言而进行的历时研究(McEnery,Wilson,2001:3)。 1.2 拼写规范研究 德国语言学家Kading以德语大型语料(1100万词次)为基础,对德语各字母在文本中的出现频率以及字母串进行了研究。 1.3 语言教学研究 20世纪20年代,由于大量移民涌向北美,以及各英属殖民地对英语教学的需要,有好几项工程都把寻找英语语言中最常用的词汇作为了主要的研究目标(Fries 和Traver,1940;Bongers,1947)。1921年,Thorndike借助于语料库发布了英语词汇的使用频率研究报告。此项研究对后来美国以及世界其他地区的英语教学都产生了巨大的影响。1944年,Thorndike进一步完善了他的早期研究,发表了“教师3万词汇手册”(The Teacher’s Wordbook of 30,000 words)。此时,Thorndike 研究所依据的语料库已达到1800万词次。 出于教学目的而对英语词汇进行基于语料库研究最著名的例子是Michael West的“实用英语词汇表”(General Service List of English Words)。此项成果发表于1953年,它对当时英语书面语中最常用的2,000个词汇进行了具体的描述,

(完整版)语言学专业词汇中英文对照版

语言学术语(英-汉对照)表 A abbreviation 缩写词,略语ablative 夺格,离格 accent 重音(符) accusative 宾格 achievement test 成绩测试acoustic phonetics 声学语音学acquisition 习得 acronym 缩略语 action process 动作过程 actor 动作者 address form 称呼形式addressee 受话人 addresser 发话人 adjective 形容词 adjunct 修饰成分附加语 adverb 副词 affix 词缀 affixation词缀附加法 affricate 塞擦音 agreement 一致关系 airstream 气流 alliteration 头韵 allomorph 词/语素变体 allophone 音位变体 allophonic variation 音位变体allophony音位变体现象 alveolar ridge 齿龈 alveolar 齿龈音 ambiguity 歧义 analogical creation 类推造字anapest 抑抑扬格 anaphor 前指替代 anaphoric reference 前指照应animate 有生命的 annotation 注解 antecedent 先行词前在词anthropological linguistics 人类语言学 anticipatory coarticulation 逆化协同发音 antonomasia 换称代类名antonym 反义词 antonymy 反义(关系) appellative 称谓性 applied linguistics 应用语言学applied sociolinguistics 应用社会语言学 appropriacy 适宜性appropriateness 适宜性得体性 approximant 无摩擦延续音 aptitude test 素质测试 Arabic 阿拉伯语 arbitrariness 任意性 argument 中项中词主目 article 冠词 articulation 发音 articulator 发音器官 articulatory phonetics 发音语音学 artificial speech 人工言语 aspect 体 aspirated 吐气送气 assimilation 同化 associative 联想 associative meaning 联想意义 assonance 准压韵半谐音 attributive 属性修饰语定语 auditory phonetics 听觉语音学 authentic input 真实投入 authorial style 权威风格 authoring program 编程 autonomy 自主性 auxiliary 助词 auxiliary verb 助动词 B babbling stage 婴儿语阶段 back-formation 逆构词法 base component 基础部分 behavioural process 行为过程 behaviourism 行为主义 bilabial 双唇音 bilabial nasal 双唇鼻音 bilateral opposition 双边对立 bilingualism 双语现象 binary division 二分法 binary feature 二分特征 binary taxonomy 二分分类学 binding 制约 binding theory 制约论 blade 舌叶舌面前部 blank verse 无韵诗 blending 混成法 borrowing 借用借词 bound morpheme 粘着语素 bounding theory 管辖论 bracketing 括号法 brevity maxim 简洁准则 bridging 架接 broad transcription 宽式音标 broadening 词义扩大 Brown corpus 布朗语料库 C calculability 可计算性 calque 仿造仿造词语 cancellability 可删除 cardinal numeral 基数 cardinal vowel 基本元音 case 格 case grammar格语法 case theory格理论 category 范畴 categorical component 范畴成分 causative 使役的使投动词 center 中心词 central determiner 中心限定词 chain relation 链状关系 chain system 链状系统 choice 选择 choice system 选择系统 circumstance 环境因子 class 词类 class shift 词性变换 clause 小句从句 click 吸气音咂音 clipping 截断法 closed class 封闭类 closed syllable 闭音节 cluster 音丛 coarticulation 协同发音 coda 结尾音节符尾 code 语码信码 cognitive psychology 认知心理学 cognitive system 认知系统 coherence 相关关联 cohension 衔接 co-hyponym 同下义词 colligation 类连结 collocative meaning 搭配意义 color word 色彩词 color word system 色彩词系统 command 指令 common core 共核 common noun 普通名词 communication 交际 communicative competence 交际能 力 communicative dynamism, CD 交际 性动力 communicative language teaching, CLT

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

语料库常用术语

语料库常用术语 Type 类符 Tokens 形符 例如“I see a cat and a dog”类符6个,形符7个 Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。例如,计算每个文本1000词的TTR,均值处理,得出STTR。Frequency(频率) 例如每百万词、十万词中,某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。 Wordlist词表 根据单词或词组在语篇中出现的频率大小而排列形成的列表。 Ranks Lemma词目,词元 比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词 Concordance 索引(KWIC 语境中的关键词key words in context) 运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配 搭配强度MI,T-score ,Z-score Colligation类连接、语法搭配 semantic prosody语义韵 词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。 POS tagging 词性赋码 Regular expression regex 正则表达式

语言学常用术语

语言学常用术语

A List of Commonly-used Linguistic Terminology 语言学常用术语表 Part I General Terms 通用术语 Acquisition 习得 Agglutinative language 粘着语Anthropology 人类学 Applied linguistics 应用语言学Arbitrariness 任意性 Artificial intelligence (AI)人工智能Behaviorism 行为主义Behaviorist psychology 行为主义心理学 Bilingualism 双语现象 Cognition 认知 Cognitive linguistics 认知语言学Cognitive science 认知科学Comparative linguistics 比较语言学Computational linguistics 计算语言学 Corpus-linguistics 语料库语言学Creole 克里奥耳语;混合语 Culture 文化 Descriptive linguistics 描写语言学Design features 识别特征Developmental psycholinguistics 发展心理语言学 Diachronic/historical linguistics历时语言学 Dialect 方言 Dialectology 方言学 Displacement 不受时空限制的特性Dualism 二元论 Duality 二重性 Epistemology认识论 Etymology 辞源学 Experimental psycholinguistics 实验心理语言学 Formalization 形式化 Formal linguistics 形式语言学Forensic linguistics 法律语言学Functionalism 功能主义General linguistics 普通语言学Grammaticality 符合语法性Ideography 表意法 Inflectional language 屈折语 Inter-disciplinary 交叉性学科的Isolating language 孤立语 Langue 语言 Macro-sociolinguistics 宏观社会语言学 Mentalism 心智主义 Micro-sociolinguistics 微观社会语言学 Montague grammar蒙太古语法Neuro-linguistics 神经语言学Orthography 正字法 Orthoepic 正音法的 Paradigmatic 聚合关系 Parole 言语 Pedagogy 教育学;教授法Philology 语文学 Philosophy 哲学 Phonography 表音法 Pidgin 皮钦语;洋泾浜语Polysynthetic language 多式综合语Prescriptive linguistics 规定语言学Psycholinguistics心理语言学Psychology 心理学 Semeiology 符号学 Sociology 社会学 Speech 言语 Sociolinguistics社会语言学Structuralism 结构主义 Synchronic linguistics 共时语言学Syntagmatic 组合关系 Theoretic linguistics 理论语言学Universal grammar 普遍语法Universality 普遍性 Part II Phonology 音位学 Ablaut 元音变化 Acoustic phonetics 声学语音学Affricate 塞擦音 Allophone 音位变体

可以免费使用的大型英语语料库资源

英语语料库#参考 2012-03-02 22:29:26 ■BNC=The British National Corpus英国国家语料库 https://www.360docs.net/doc/f013432935.html,/(备用) https://www.360docs.net/doc/f013432935.html,/bnc/ ■ANC = The American National Corpus美国国家语料库 https://www.360docs.net/doc/f013432935.html,/ ■COCA = Corpus of Contemporary American English 美国当代英语语料库 https://www.360docs.net/doc/f013432935.html,/ ■COHA = Corpus of Historical American English 美国近当代英语语料库 https://www.360docs.net/doc/f013432935.html,/coha/ ■BOE=Bank of English 柯林斯英语语料库 https://www.360docs.net/doc/f013432935.html,/wordbanks/ ■NMC=New Model Corpus 新规范语料库 https://www.360docs.net/doc/f013432935.html,/ ■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库 https://www.360docs.net/doc/f013432935.html,/auth/preloaded_corpus/aclarc/ske/first_form ■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库 https://www.360docs.net/doc/f013432935.html,/auth/preloaded_corpus/bawe2/ske/first_form https://www.360docs.net/doc/f013432935.html,/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download ■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库 https://www.360docs.net/doc/f013432935.html,/fac/soc/celte/research/base/ ■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库 https://www.360docs.net/doc/f013432935.html,/ ■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库 https://www.360docs.net/doc/f013432935.html,/cmsw/ Slang https://www.360docs.net/doc/f013432935.html,/ (American, English, and Urban slang) https://www.360docs.net/doc/f013432935.html,/slang/ (UK) https://www.360docs.net/doc/f013432935.html,/ https://www.360docs.net/doc/f013432935.html,/cybereng/slang/ https://www.360docs.net/doc/f013432935.html,/ https://www.360docs.net/doc/f013432935.html,/

语言学专业词汇中英文对照版

语言学术语(英-汉对照)表Aabbreviation缩写词,略语ablative夺格,离格 accent重音(符) accusative宾格 achievement test成绩测试 acquisition习得 acronym缩略语 action process动作过程 actor动作者 address form称呼形式 addressee受话人 addresser发话人 adjective形容词 adjunct修饰成分附加语 adverb副词 affix词缀 affixation词缀附加法 affricate塞擦音 agreement一致关系 airstream气流

alliteration头韵 allomorph词/语素变体 allophone音位变体 allophonic variation音位变体 allophony音位变体现象 alveolar ridge齿龈 alveolar齿龈音 ambiguity歧义 analogical creation类推造字 anapest抑抑扬格 anaphor前指替代 anaphoric reference前指照应 animate有生命的 annotation注解 antecedent先行词前在词 anthropologicallinguistics人类语言学anticipatorycoarticulation逆化协同发音 antonomasia换称代类名 antonym反义词 antonymy反义(关系) appellative称谓性

applied linguistics应用语言学appliedsociolinguistics应用社会语 言学 appropriacy适宜性appropriateness适宜性得体性approximant无摩擦延续音 aptitude test素质测试 Arabic阿拉伯语 arbitrariness任意性 argument中项中词主目 article冠词 articulation发音 articulator发音器官 artificial speech人工言语 aspect体 aspirated吐气送气 assimilation同化 associative联想 associative meaning联想意义 assonance准压韵半谐音 attributive属性修饰语定语 authentic input真实投入

语言学专业术语

语言学专业术语 语言学及应用语言学陈倩雯李学娇徐玮琳殷彦明邓利洁 acquisition习得 Active articulator 积极发音器官 Affixation(词缀) Allophones音位变体 Alphabet 字母 anthropological linguistics人类语言学 Antonymy(反义关系) applied linguistics应用语言学 applied sociolinguistics应用社会语言学 Aspect体 associative联想 Bilingual corpus 双语语料库 Bound Morphemes (粘着词素) Broad transcription 宽式标音 Case-格 category范畴 Category-范畴 Clause-小句\从句 Clean text policy 干净文本原则

Cluster 词簇、词丛 Colligation 类联接、类连接、类联结Collocate n./v. 搭配词;搭配 Collocation 搭配、词语搭配Cognitivegrammars-认知语法 Collocation(搭配) Compound vowel 韵母 compounding(复合) computational linguistics计算语言学concept概念 Consonant 辅音 Construction-句子结构 contextual analyses语境分析 context语境 contrastive analysis对比分析 Conversion(转换) Corpus Linguistics 语料库语言学 Corpus 语料库 Comparable corpora 类比语料库、可比语料库corpus linguistics语料库语言学 derivation(派生) Derivational affixes (派生词缀)

相关文档
最新文档