语料库及其检索工具在英语教学中的应用

语料库及其检索工具在英语教学中的应用
语料库及其检索工具在英语教学中的应用

语料库及其检索工具在英语教学中的应用

刘晓阳

(安徽农业大学外国语学院,安徽合肥230036)

要:随着电子语料库的发展,它在英语教学中的应用也逐渐引起研究者们的重视。本文重点分析了语料库及其检索工具所提供的词频表和惯用搭配在英语教学中的应用。关键词:语料库;检索工具;词频表;惯用搭配中图分类号:H319

文献标识码:A

文章编号:1009-2463(2006)01-0140-05

TheUseofCorporaandConcordancersinEnglishLanguageTeaching

LIUXiao-yang

(DepartmentofForeignLanguage,AAD,Heifei,230036,Anhui)

Abstract:Withthedevelopmentofcomputerizedcorpora,researchersshowconsiderableinterestin

theirapplicationinEnglishLanguageTeaching.ThispaperfocusesontheuseoffrequencylistsandcollocationsprovidedbycorporaandthecorrespondingconcordancersinEnglishlanguageteaching.

Keywords:corpus;concordancer;frequencylist;collocation语料库是大型的书面语和口语的自然语言材料的集合。随着计算机的发展和应用,我们目前所使用的语料库基本上都是通过计算机以文本形式来存储

大量语言材料的电子语料库。20世纪90年代以来,伴随着大规模﹑多品种语料库的建设,"语料库语言学"(CorpusLinguistics)这一名词频繁出现在应用语言学的研究领域。对于这一术语,我们可以从两个角度来理解:一是语料库语言学是利用语料库对一些自然语言现象进行分析,从这个意义上讲,它是一种新的研究语言的手段;二是针对语料库所反映的语言现象从一种新的角度对语言学理论进行研究,从这个意义上讲,它一门新兴的学科。无论从上述哪个角度来理解,语料库作为探索自然语言模式的有效手段,对语言研究领域的贡献是有目共睹的。然而,语料库能否或者说在何种程度上能为英语教学发挥作用依然是一个值得探讨的问题。

一、语料库与英语教学

Chomsky曾经指出以语料库为基础的语言分析强调了语言的运用(LanguagePerformance)而忽略了

语言的能力(LanguageCompetence)。[1]语料库收集了人们在日常生活中使用的语言实例,它反映的是人

们使用过的语言,

因而它是有限的,而人们通过一定的语法规则转换生成的语言却是无限的。因此,语料库不能完全反映语言的本质。他还指出语料库所收集的语言材料并非都具有代表性,有些语句因为语法错误或不礼貌而没有被收录。另外,人们也有可能因为短期记忆障碍或喝醉了酒等原因而导致了他们在某些场合下改变了正常使用语言的方式,因此语料库所提供的信息并非完全准确可靠。从Chomsky

的观点出发,语料库对英语教学似乎没有指导意义。

对英语学习者使用语料库持怀疑态度的Cook也曾指出,英语学习者在学习的过程中没有必要照

搬本族语使用者的语言表现形式。语料库所提供的语言材料很多情况下都结合了英语的文化特点,或者是在特定语境下发生的,这可能导致英语学习者

把从语料库中所学的语言运用在不恰当的语境之

收稿日期:2005-09-15

作者简介:刘晓阳(1971-),女,汉族,安徽巢湖人,安徽农业大学外国语学院讲师,硕士。

2006年1月安徽农业大学学报(社会科学版)

Jan.,2006第15卷第1期

JournalofAnhuiAgriculturalUniversity(socialscienceedition)

Vol.15No.1

?140?

下。[2]Cook认为语言材料应该以简化的方式、分阶段地呈现给英语学习者,从而使他们逐渐接近本族语使用者的水平。从这个角度来看,语料库显然不适合这一要求。

然而,针对这一问题Carter却提出了不同的见解。[3]他通过对比英语教科书上出现的对话和CANCODE(CambridgeandNottinghamCorpusofDiscourseinEnglish)语料库中收集的生活中自然发生的对话,发现二者具有明显的差异。他指出自然发生的对话中包含有一定数量的重复、停顿﹑模糊限制语和不完整的语句,但教科书中的对话却没有体现出这些语言现象。因此Carter认为教科书中经过改写的语言材料并不能完全反映英语的真实用法,尽管它们可能会更便于学习和理解。他建议英语学习者应该更多地接触英语的真实的语言材料,适当学

习英语的习惯用语和固定搭配,并通过生活中的语言实例来了解它们所反映的文化背景。

在中国,英语对大多数学生来说是一门外语学科。很多学生在课堂以外很少有机会接触到英语的语言材料或者用英语和别人进行交流,教科书可能是他们惟一可以接收语言输入的渠道。但正如Carter所指出的那样,教科书上的语言材料很多都经过了删减和改写以符合教学大纲的要求,在某些程度上失去了英语的原汁原味。而语料库恰恰弥补了这一不足。通过对真实语料的分析,学习者可以从不同的角度了解到本族语使用者是如何运用语言的,从而了解到一些无法从书本上获取的知识。那么语料库是如何在教学中起作用的呢?要解答这个问题,我们首先必须回顾一下语料库的发展和常见的检索工具。

二、语料库的发展和常见的检索工具

第一代电子语料库建立于20世纪60-70年代,其中BROWN(theBrownCorpus)和LOB(theLancaster/Oslo-BergenCorpus)拥有约一百万词次,在当时算是规模庞大的。随着现代化信息技术的发展,计算机的存储量越来越大,而价格却越来越便宜,这些条件使建设多种类型的大规模语料库成为可能。上世纪90年代建立的BNC(theBritishNationalCorpus)已达到一亿词次。实际上,据试验表明,一百万词次的语料库已基本能为一般的研究问

题提供足够的可靠的语料。早期的语料库多数局限于书面语语料,随着科技的发展,语言学家对口语语料的研究兴趣与日俱增。许多现代语料库都包括口语部分,这些语言材料来自各种渠道,例如朋友或家人间自然发生的对话,学术性演讲或国家电台的广播等。BNC的编纂者曾打算收集同等数量的口语和书面语语料,但由于口语语料要经过转写这一复杂过程,既费时又耗力,最终没有达到目的。如今

BNC所包含的口语语料占总数的十分之一。也有一些语

?141?

料库专门收集口语语料,例如前面所提到的CANCODE。尽管其规模比BNC等大型语料库小得多,但它可以为口语的语篇分析提供丰富的自然语言材料。

随着语料库的不断发展,与之相关的检索工具(Concordancer)也进一步地开发和研制。利用语料库的检索工具,使用者在输入关键词后,就可以在语料库中搜索到该词及与该词共现的一定长度的语境。通常情况下,检索的结果以KWIC(KeyWordinContext)的形式出现,也就是说以关键词为中心,把该词所在的语境,以一定的跨距(WordSpan)显现在屏幕上。下图展示的是检索工具FreeTextBrowser对关键词best进行搜索的结果。这一页面的上方展示了best和其他一些以b开头的单词的出现频率,中间部分是关键词best及其所在的简短语境。当鼠标指向关键词best时,页面下方即显示出该词所在的语境。常见的检索工具除了FreeTextBrowser,还有Conc1.70、MicroConcordMicro-OCP、Wordsmith、WebConcordancer等。使用者可以根据自己的具体需求,有针对性地选择相应的索引工具。

一般说来,通过检索工具,语料库主要可以提供下几类信息:(1)反映词汇在实际使用中出现频率的词频表(FrequencyList);(2)某一词汇的惯用搭配(Collocation);(3)反映某一词汇的共现模式(LexicalCo-occurrencePattern);(4)反映某类语篇结构词的使用特征;(5)学习者使用目的语时出现的错误及纠正模式等。这些信息为“数据驱动学习”(Data-driv-ingLearning)提供了很好的素材。教师可以鼓励学生从大量的自然语言数据中发现规则,了解语境。从这个意义上讲,语料库及其检索工具是语言学习的得力工具和有效辅助手段。下面笔者将从词频表和惯用搭配这两个角度具体分析语料库及其检索工具在教学中的作用。

三、语料库与索引工具在英语教学中的具体应用

(一)词频表

语料库的检索工具可以根据词汇在语料库中出现的频率,按照由高到低的顺序排列出词频表。词频表可以为确定教学大纲中的词汇范围提供客观依据。例如,大纲编纂者可以在合适的语料库中,挑选出现频率较高的词作为学生必需掌握的词汇,这样在一定程度上可以避免学生所学的词汇与现实交际活动的需要相脱离。同时,Nation曾指出在真实语言应用中出现频率较高的基本上是语言学习者必须掌握的重要词汇,这些词汇应该最先呈现给学习者。[4]因此,从这个意义上讲,词频表对于教材编写者和教师按照何种顺序来呈现新词汇也有一定的参考价值。

另外,词频表还可以提供同一词汇的不同语义的出现频率。许多英语词汇拥有不止一个词义,教师如何确定呈现这些语义的顺序呢?在这种情况下,教师可以借助这种反映语义出现频率的词频表,把出现频率高的语义先介绍给学生。West所制定的GSL(GeneralServiceList)就是很好的一种资源,它收集了英语中两千多个最常用的词汇,并列出了每个词汇不同语义的频率。[5]例如,GSL中关于block的词条是这样的:

BLOCK,n.184e

(1)

(mass)

Ablockofstone,woodetc.34%(2)

(houses)

Ablockofhouses,flats21%(3)

(obstacle,stoppage)

stumblingblock1%

[varioustechnicaluses;Butcher’sblock;

pictureblock;blockandtackle,6%]

block,v.Theroadisblocked

Blockupthedoorway28%从这个例子中,教师会发现block被用为mass这一意义的频率最高,达34%。其次是用作动词时,出现的频率是28%,另外,block用作houses这意义时,出现的频率也比较高,为21%。教师可以先把这些常见的语义介绍给学生。一些出现频率很低的语义,在实际生活中用到的几率很小,教师可以忽略它们。

(二)惯用搭配

Sinclair曾指出语言构成遵循着开放选择原则(Open-choicePrinciple)和惯用搭配(IdiomPrinci-ple)原则。[6]他指出传统的观点认为语言是按照一定的语法框架,自由选择相应的词汇镶嵌而成,这就是开放选择原则。从这个观点出发,语言是创造性的,可以由大量的词汇自由搭配组合。然而,他发现这一原则不能解释所有语言现象,因为在语言的构成当中,还存在着词汇共现的规律,也就是说有些词汇总是和另外一些词汇固定搭配在一起。例如,人们习惯上说“set/startsomethingonfire”,却不用“putsome-thingonfire”。英语中这种约定俗成的搭配现象就是所谓的惯用搭配原则。这种惯用搭配对于外语学习者来说,往往是一个难点,在某种程度上也是造成他们的语言不够地道的原因。而语料库及其检索工具可以为语言学习者展现某一词汇的惯用搭配结构。通过对这些自然语言材料的分析,学习者可能会发现一些在教材和字典中所了解不到的知识。例如,Stubbs通过研究provide和cause这两个后面所搭配的名词,发现provide基本上与具有正面意义的词搭

?142?

配,而cause却经常与具有负面意义的词搭配。[7]笔者利用检索工具WebConcordancer在BROWN语料库中对这两个词进行检索后,从结果中任意选取了12个例子,如下所示:

solinethananyotherindustryandprovideamajormarketforhomeappliances

ertilityratesforthispopulationprovideameansofincreasingthenumerica

aluableinthiscategory.Thedataprovideamea-sureofthetotalmassofcos

nends.Theobjectiveshouldbetoprovideamethodofgettingintoprintah

chronologicalmembershipregister.Provideanamecardforeachnewmember.O

rCooperativeswereestablishedtoprovideapermanentsourceofcreditona

ubpastsurpluseshadbeenusedtoprovideaprivatehospitalnurseMondayfo

untingprocedurescanbevariedtoprovideara-tionaleforalmostanyprice.

caravanroutescamein.Itwastoprovideasafeandspaciouscrossingforth

atesonatourofdebates,itcanprovideaservicetothestate.Butth

byavoidingdirectintervention,provideashort-of-warstrategytomeetsh

kabroad-allthismaycombinetoprovideasubstantialpopularbaseforresp

discoverythatmanyvegetablefatscausebloodcholesterollevelstodropr

otshrinkwiththeclayandwouldcausebreak-age.Letallprojectsdry

heattentionoftheuninitiateandcauseconfusionforthemoreknowledgeab

inthereactionsystemwhichwouldcausedeacti-vationofpropagationcenter

hconstituteeachotherandwhichcauseeachothertobeandnottobeis

eatherorunexpectedsetbackscancauseextraworkthatmustbecaughtup.

bymeasuringtheloadrequiredtocausefailurebybending.Thehigher-den

tor.Butthemachinequackcancausefarmorethanjustsuffering.Ins

alprivacy“orthat”itisamajorcauseforawastefuleconomyofabundanc

-14fromthefusionprocesswouldcausefourmillionembryonic,neonatalor

ectious.Agentsthatareknowntocausefrequentinfectionsamonglaborator

willseethat“dumping”practicescausefrictionallaroundandmayresult

esforalongperiodoftimewillcausegoitre,ow-ingtoinhibitionofthyr7

从这些例子当中,我们可以看到provide右侧所出现的词,如means,measure,method,nurse,source等,指代的都是人们所需要的,对人们的工作、生活有帮助的人或物。Cause右侧所出现的名词,如breakage,confusion,failure,goitre,infection等,指代的大都是一些不良的后果,是人们所不希望发生的事情。教师在教学过程中,可以鼓励学生从这些语言实例当中发现、归纳这些规律,从而更全面地了解如何在实际生活中正确地运用所学词汇,避免使用语法正确,但搭配不地道的语言。

语料库所提供的关于惯用搭配的信息还可以帮助学生解决近义词辨析的难题。对于英语中的某些近义词,我们有时很难捕捉他们在使用时的区别,但通过语料分析,这个问题会很容易被解决。下面我们以big和large这两个词为例做一个分析。笔者利用检索工具WebConcordancer在BROWN语料库中对这两个词进行检索后,随机选取了以下实例:spaceoftimeand,ofcourse,thebigadvantageofelectronicsisitssp

about.IwatchedhimgetintohisbigAmericancaranddriveaway.

Titoflighttheheadlineswerebigandblack.Theshopkeeper’swifegl

suallycentredaroundashareofabigawardforsalvageatsea.Even

ustoallkin’o’boats,widd’osebig,bigrocksinan’outo’dewater.

cLeodeyedhim."They’rethosebigbirdswithapiercingcry,aren’tt

’t.Verywell,Sure-shot.You’reabigboynow.Shouldbeabletolookaf

ationbroadlyresemblesthatofabigdepartmentstore,eachdepartmentf

directingnowandthencanmakeabigdiffer-enceintheappealofsucha

sideoftheroomwasopened,andabigmanwithanextremelyuglyfaceen

blazingawayatthetiresofthebigjet.The

?143?

slugsflattenedtentires

akesonlysix.WhenIhadmybigjobwiththedoubleheadlightsand

ownforme,huh?Printitinrealbigletters,an’Icancipheritoutla

suchfineworksofartandsuchabiglibrary,thattherecanbelittle

nallthemountaincounty.Itwaslargeandcomfortableandpractical,thou

zonesthatwererevokedcoveredalargeareainwhichalotofoldpeople

theausterehalloftheclinicinlargebaskets,andattheendofacorrid

ying,butthisisdifficultwithalargebird,andshouldnotbenecessary

Mostgeneralwholesalersoccupylargebuildingsinthecentralareasof

ghoutthecounty,butalsoforthelargeincreaseinthenumberofpupils

vgathersomeLeft-wingsupport,alargemajorityofLabourMPsarelikely

creambeneathawhitestatueofalargemanwithadoveinhislefthand

a,andatonceprceededtobuyalargenumberofbooksonphilosophy.He

iendshavesucceededinshockingalargepartoftheworldthatmighthave

2contactwiththeircustomers.Alargepropor-tionoftheirbusinessiscon

lymechanizedfoundriesproducinglargequanti-tiesoflightrepetitioncast

fraisingloansbycompulsiononalargescalefrommanyofthelandowners,

Twenty-fivethousanddollarsisalargesum.Al-thoughtoHilary,ofcourse,

factoryinthecountryproducesalargeamountofsteam,whichisthenuse

ccategoriesofrealityhavetoalargeextentemptiedthespiritworldofAmericanpeoplewilldoturnsinlargedegreeontheirleadership.Wecann通过观察big和large右侧所出现的搭配词,我们会发现与large相搭配的词中经常出现与数量和程度相关的名词,如number,quantities,sum,amount,degree,extent等,而与big搭配的词却没有体现这一特点。尽管我们通过其他的方式可能也会发现这一区别,但这种实例分析可以比较直观地让学生领悟到这两个词的差异,并使他们更充分的了解到与之相关的语境,还可以增加一定数量的语言输入。

语料库为英语教学提供了大量的真实的语言材料,这对于缺乏语言环境的英语学习者来说非常重要。配合相关的检索工具,语料库所提供的词频表可以为大纲编纂者确定词汇范围提供科学的依据,还可以为教师按何种顺序呈现同一词汇的不同语义提供参考数据。另外,根据语料库所提供的某一特定词汇的惯用搭配,学生可以更好地掌握词汇的习惯用法并对近义词进行辨析。更为重要的事,将语料库及检索工具引入课堂教学,可以促进学生运用数据驱动法进行“发现式学习”,让学生在实例分析的过程中发现并归纳语言的规则。这种方法能有效的激发学生的学习动机,增强他们分析问题和解决问题的能力,从而进一步提高英语教学的效果。

参考文献:

[1]McEnery,TZ…wilson,A.CorpusLinguistics[M].Ed-inburgh;Edinburgh.UniversitypressLtd,1996.

[2]Cook,G.Theusesofreality:areplytoRonaldCarter[A].InSeidlhofer,B.(ed.).ControversiesinAppliedLinguistics.[C]Oxford:OxfordUniversityPress;2003.

[3]Carter,R..Ordersofreality:CANCODE,communi-cation,andculture,[J].ELTJournal,V.52,(1).Oxford:OxfordUniversityPress,1998.

[4]Nation,P.Thewordonwords:AninterviewwithPaulNation.InterviewedbyN.Schmitt[J].TheLan-guageTeacher,1995,19,(2):5-7.

[5]West,M.AGeneralServiceListofEnglishWords[M].London:Longman,Green,1995.

[6]Sinclair,J.Corpus,Concordance,Collocation[M].Oxford:OxfordUniversityPress,1991.

[7]Stubbs,M.Collocationsandsemanticprofiles:Onthecausesofthetroublewithquantitativestudies[J].Functionsoflanguage,1995,2(1):1-33.

责任编辑:许有江

?144?

BCC语料库使用指南

1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。[F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。 例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。 例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

自建小型语料库在英语教学中的运用

自建小型语料库在英语教学中的运用 引言:随着语料库语言学近年来的发展,运用电脑语料库进行教学已经成为现代外语教育的新趋势。各种大型语料库(如LOB, BROWN, ELEC)已被广泛用于课堂教学的很多方面,如语料库在语法教学中的应用(何安平,2001;关文玉,2004),语料库在英语精读课中的应用(林丽云,2004)以及语料库在词汇(莫咏仪,2004;邓飞,2004)及写作(胡玉迎,2004)等方面的应用。然而,大型语料库最初的建库目的并非直接用于课堂教学,其语料规模庞大,就语言教学的具体方面而言,难免缺乏针对性,而且,由于价格,市场等原因,个人很难购买到大型语料库及检索软件。因此,在日常教学中,个人教学语料库的建设就显得尤为重要。Ragan(2001)指出小型语料库已成为以课堂为中心的实证教学研究的有力手段。而国内目前对个人教学语料库的研究还相对贫乏,本文将初步探讨自建小型语料库在帮助学生理解课文篇章主题意义方面的作用。 1.自建小型语料库的特征 1.1 针对性强。首先,与大型语料库相比,自建小型语料库规模小,但在内容选择上却比较有针对性,建库者可以根据自己教学及学生自主学习的需要科学的选择合适的语料,从而,使语料能够充分体现学习者的需求,满足不同层次学习者的需要,如目前大多数小学都开设了英语课,但适合这些初学者的语料库却几乎没有。在这种情况下,老师便可以通过因特网搜集儿童英语的材料和儿童感兴趣的话题制成小型语料库,从而是儿童能从开始就学到地道的英语。其次,小型语料库易于突出语言的语域和语体特征,正如Beaugr (2001)所说,依据特定的语域,语篇和话题而建的小型语料库有助于学习者培养语言的体裁,语域,语篇感,深化对语言在具体环境下的涵义的理解。 1.2 实效性强。与大型语料库相比,小型语料库在内容选择上非常灵活,可以避免选择那些语法正确但已经过时的语料,使语料库能跟上语言不断发展变化的步伐,尤其是新闻,杂志等语料更是能把最前沿的语言变体及新词,新句带给学习者。另外,小型语料库标注比较灵活,能满足更多学习者的个性化需求,而且,检索方便快捷,学习者可以在自己的操作过程中去发现目标语的各种语法特征和规律,便于学习者进行自主学习。 2.自建小型语料库促进英语教学的实例 正如Guy(1997)所说,小型语料库有助于学习者通过建构陈述性和程序性知识培养语言使用能力。目前计算机的使用已经相当普遍,所以对中学生灌输有关计算机方面的知识是非常有必要的。下面我们将以the use of computer 一文为例,说明在引导学习者建构该篇课文主题意义及对已有知识进行扩展方面,自建小型语料库能起什么作用。 学习者通过日常接触,对有关计算机方面的基础知识已经有了一定的基本图式,如计算机是一种高科技产品,运用广泛,速度快,因特网,游戏等。然而,若要比较全面的建构出有关计算机的图式,则还需对已有图式进行深入和扩展,如对计算机功能,利弊,历史,前景等方面知识的掌握。为了使学习者能够最大限度熟悉该话题,建构起该话题的心理词库,流利准确的表达该话题的相关知识,我们将利用自建的语料库的词频显现和语境共现功能,为学习者提供大量真实的语料,让学习者在自己观察,分析,概括的基础上归纳出相关图式,建构起该话题的陈述性知识;并通过小组讨论,任务汇报,课堂演示等方法扩展和巩固该话题的图式,从而,实现程序性知识的建构。 2.1 建立相关微型语料库 在大学英语第二册中有一篇the use of computer的课文,主要介绍了计算机的历史及目前计算机在各个行业中的广泛运用。为了向学习者提供更多的相关语料,笔者另外从因特网上搜集了十篇难度和体裁相当的相关文章,通过对无关内容的删减,加工,标注后制成微型

基于双语平行语料库的翻译教学

基于双语平行语料库的翻译教学 翻译是英语专业高年级学生一门非常重要的课程。传统的翻译教学以教师讲解为中心,以翻译教材为学习载体,学生在上完课之后很难具备一定水平的翻译能力。针对于此,我们把双语平行语料库及相应的检索功能引入到翻译教学当中,以提高翻译教学质量,提升学生的翻译能力。 标签:双语平行语料库;翻译;教学 双语平行语料库是指使用两种语言撰写相互间具有翻译关系的文本的集合平台,与普通的词典相比,这种翻译方法更加准确、便利、快捷,更新速度快,可以提供大量真实的双语对译语料以供学习者查询。 何安平指出,将语料库引入翻译教学,会改变传统的翻译教学模式,使学生可以开展各种学习活动,比如互动式学习、开放式学习和分析归类型学习,这一系列学习可以激发学生的好奇心、求知欲,帮助学生塑造的批判精神和反思精神,为培养学生的创新思维提供了条件。 本文例句所使用的双语平行语料库是指北京外国语大学通用双语平行语料库。 1.基于双语平行语料库的词汇翻译 曾有人提出,平行语料库最典型的应用范围之一是双语词汇教学。无论是英译汉还是汉译英,在很多时候英汉两种语言不存在一一对应的词汇,一词多义的现象很普遍,这就意味着这个词有多种译文;而且,在某些特定的语境中,有的词被赋予固定的意思,这又是新的译文。北京外国语大学王克非教授以汉语“克服”一词为例,在北京外国语大学通用汉语双语平行语料库中检索,发现24处“克服”一词中,有15处翻译为overcome。在学生学习完这24个例子后,他们就会明白,在以后的翻译中,不是所有的“克服”都用overcome翻译,在其他情况下使用cope with,fight down,get rid of 等会更加贴切。 学习者可以借助双语平行语料库的真实语境平台,找到单词在不同语境下的地道翻译,既丰富了词汇量,快速准确地译出对应语,同时可增强语感,提升双语翻译能力。 2.基于双语平行语料库的句式翻译 有时候,学生会感觉无论是英语还是汉语,其中一些句式很难理解,至于翻译更是无从下手。在这种情况下,双语平行语料库为学生们提供了大量的特殊句式翻译例句。我们以英文中“it is said that”为例。这是英语中常用的句式,很多学生张口就翻译为“据说”,好像也没有人怀疑过;包括我本人在接触双语平行语料库之前,见到it is said that也随口就翻译为“据说”。但是,笔者通过双语平行语

哪里有可以免费使用的大型英语语料库资源-外语教学与研究出版社

语料库相关资源 David Lee语料库研究书签 Bookmarks for Corpus-based Linguists (David Lee) https://www.360docs.net/doc/205546771.html,.au/~dlee/CBLLinks.htm (https://www.360docs.net/doc/205546771.html,/corpora) 常用语料库资源链接汇集(语料天涯) https://www.360docs.net/doc/205546771.html,/corpus/ 互动平台 https://www.360docs.net/doc/205546771.html,/forum/ 入门读物 专著 梁茂成、李文中、许家金,2010,《语料库应用教程》。北京:外语教学与研究出版社。Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进) 期刊论文 中国期刊网 EBSCO英文期刊数据库 书店可以买到的语料库相关书籍 Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进) Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St. Jerome Publishing. (外研社引进) Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999. Longman Grammar of Spoken and Written English. Longman Publications Group. (外研社引进) Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)

语料库与语料库建设

语料库与语料库建设 语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是 指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 口前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档,语料库的建设有特定的研究LI 的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设讣与建设有系统的语言学理论指导,语料库的开发具有明确而乂具体的U的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行

研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。 2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,山此保证基于语料库的语言研究的科学性、客观性。 3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。 4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过讣算机处理的,具有资源优势和处理速度优势。5>基于语料库的研究以量化研究为基石,以概率统汁为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,乂代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪 50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛圉无疑促进了对语料的重视。1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库,在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。 20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象,语料库收集的只是人们的语言运用,语言运用会因超语言因素的影响而发生变化,它并

可以免费使用的大型英语语料库资源

英语语料库#参考 2012-03-02 22:29:26 ■BNC=The British National Corpus英国国家语料库 https://www.360docs.net/doc/205546771.html,/(备用) https://www.360docs.net/doc/205546771.html,/bnc/ ■ANC = The American National Corpus美国国家语料库 https://www.360docs.net/doc/205546771.html,/ ■COCA = Corpus of Contemporary American English 美国当代英语语料库 https://www.360docs.net/doc/205546771.html,/ ■COHA = Corpus of Historical American English 美国近当代英语语料库 https://www.360docs.net/doc/205546771.html,/coha/ ■BOE=Bank of English 柯林斯英语语料库 https://www.360docs.net/doc/205546771.html,/wordbanks/ ■NMC=New Model Corpus 新规范语料库 https://www.360docs.net/doc/205546771.html,/ ■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库 https://www.360docs.net/doc/205546771.html,/auth/preloaded_corpus/aclarc/ske/first_form ■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库 https://www.360docs.net/doc/205546771.html,/auth/preloaded_corpus/bawe2/ske/first_form https://www.360docs.net/doc/205546771.html,/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download ■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库 https://www.360docs.net/doc/205546771.html,/fac/soc/celte/research/base/ ■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库 https://www.360docs.net/doc/205546771.html,/ ■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库 https://www.360docs.net/doc/205546771.html,/cmsw/ Slang https://www.360docs.net/doc/205546771.html,/ (American, English, and Urban slang) https://www.360docs.net/doc/205546771.html,/slang/ (UK) https://www.360docs.net/doc/205546771.html,/ https://www.360docs.net/doc/205546771.html,/cybereng/slang/ https://www.360docs.net/doc/205546771.html,/ https://www.360docs.net/doc/205546771.html,/

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

可以免费使用的大型英语语料库资源

可以免费使用的大型英语语料库资源 https://www.360docs.net/doc/205546771.html,/time/ http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯) http://202.204.128.82/sweccl/Corpus/ https://www.360docs.net/doc/205546771.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.360docs.net/doc/205546771.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.360docs.net/doc/205546771.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.360docs.net/doc/205546771.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.360docs.net/doc/205546771.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.360docs.net/doc/205546771.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.360docs.net/doc/205546771.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.360docs.net/doc/205546771.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.360docs.net/doc/205546771.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

语料库语言学与中国外语教学_桂诗春

2010年11月November 2010 第33卷第4期Vol.33No.4 现代外语(季刊) Modern Foreign Languages (Quarterly )语料库语言学与中国外语教学 桂诗春 冯志伟杨惠中何安平卫乃兴李文中梁茂成 [编者按] 为推动我国应用语言学研究的新发展,教育部人文社科重点研究基地———广东 外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了“首届广外应用语言学论坛”,庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。期间,举行了题为“语料库语言学与外语教学”的高层论坛,就语料库语言学的现状、发展前景及语料库的建设、共享、应用等展开了互动讨论。以下是根据专家发言,整理后的主要内容。 [中图分类号]H319 [文献标识码]A [文章编号]1003-6105(2010)04-0419-08 语料库语言学的发展前景与资源共享 广东外语外贸大学 桂诗春 1.语料库语言学的发展前景 语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,因为它的入门比较容易,上手较快;有的人把语料库语言学作为收集数据的重要手段。但是总的来说,我们的语料库研究还处在比较初级阶段,需要提高。究其原因是很多人把它看成是一种工具或手段,可以运用现有的一些现成的程序和公开的语料库,如Brown ,LOB ,Frown. Flob , BNC ,CLEC ,只要选题得当,就能获得很多量化的数据,从而写出洋洋洒洒的文章来。在计算机和扫描仪的支持下,自行收集一些语言素材,建立一个特定的语料库,也不是什么难事。 我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须许多方面要有比较雄厚的基础。首先是数学和统计学。Herdan (1960)的一本早期著作,叫做《词次/词型数学》(Type /token Mathematics ),其副标题就是《数理语言学教科书》(A Textbook of Mathematical Linguistics ),当时还是前计算机 时代,但Herdan 觉得有两件语言事实值得我们注意:一是大量语言资料(language in mass ),二是语言排列(language in line ),它们是任何语言运作都不能离开的两个方面。某些语言学研究分支如果考虑到这两个方面,将会从中获益。当时还没有真正的机读语料库, Brown 的语料库在1967年才面世,美国心理 学家John Carroll 根据该语料库以及他后来参与制作500万词的AHI 语料库,所提出的词汇频数对数正态模型(lognormal model )均源于Herdan 所奠定的基础。一直到最近美国Barber 利用计算机对英语语体的各种研究,更是利用了因子分析的统计方法。其次是计算机科学。语料库的发展离不开现代科学技术,其主要表现是个人电脑、扫描仪和大容量硬盘的普及,当初Brown 语料库要动用到大型电脑,而到如今,只需一万元左右就能在家里拥有这些设备,制作出甚至比Brown 还要大的语料库。但是我们往往只注意到硬件部分,而不认识到软件的建设。从事语料库语言学研究的人而不掌握一到两种编成语言,也不可能拓展他们的研究领域,因为他不能根据个人的研究需

语料库的应用(最终)

语料库的应用 语料库方法广泛应用于语言学理论研究、军事等领域。当代语料库语言学(以语料库方法为取向的研究语言的分支就被称为语料库语言学)已是高歌猛进,日新月异,新的语料库更是层出不穷,经过科学选材和标注,具有适当规模的语料库能够反映和记录语言的实际使用情况,人们通过语料库观察和把握语言事实,分析和研究语言系统的规律,极大地方便了语言研究者。 军事语料库对信息化条件下的军事斗争具备潜在价值,积极开展军事语料库的研究和建设实践活动,并把研究成果转化到实战之中。和平时期对信息化高科技武器的建设不可小视,对战场态势的综合信息捕捉、把握和利用的能力建设至关重要,但对身边已有的各类信息的综合收集和利用也同样不可忽视。军事语料库的建设正是针对实现信息化战争中争夺与占有信息资源、获取不对称的战争中的信息掌握和信息利用的不对称优势。 【一】、语料库成为语言学理论研究的基础资源 语料库是计算语言学的基础。语料库对应的英文是corpus,复数形式为corpora。这个词既可以指语料也可以表示语料库。英国语言学专家戴维?克里斯特尔认为,语料库“指收集的一批语言学数据,或为书面文本或为言语录音的转写,可用作语言学描写的出发点,也

可作为验证语言假说的手段。计算机语料库是一大批机器可读文本的结集。各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究,社会语言学研究,口语研究,词典编纂,语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。 起初语料库主要用于语言学研究,而且建成的语料库多为通用语料库,服务的研究领域主要集中于词典编纂、词语搭配与结构、基于平行语料库的英汉互译、文学作品和作家语言风格的研究以及基于语料库的外语教学研究等。随着研究的不断深入,各种专业领域语料库也相继建立,语料库的应用研究逐渐扩大到其他学科。 我国在语料库的应用上还处于起步阶段,在计算语言学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息和概率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果。 目前国外已建成且较有影响的主要为以下的语料库:美国:布朗大学的今日美国英语标准语料库(The Brown University Standard Corpusof Present Day American English)、兰卡斯特一奥斯陆/卑尔根语料库(The Lancast-er-Oslo/Bergen (LOB) Corpus)、英语语库(TheBank of English)、英国国家语料库(The BritishNational Corpus(BNC、伦敦一隆德语料库(Lon-don -Lund Corpus(LLC》、美国传统中介语料(American Heritage Intermediate(AHI) Corpus)以及英语国际语料库(The Intemational Corpus ofEnglish(ICE》等。

国外个主流语料库使用

1. The Complete Lexical Tutor http://www.lextutor.ca/ 参考期刊网上刘玉山,胡志军的介绍。 是一个语料库中心词索引软件(concordancer),加拿大魁北克大学Tom Cobb the University of Quebec at Montreal (UQAM), 开发 三部分:learners, researchers, teachers自我学习,研究,教师命题。 特别是concordance中有13个语料库为检索对象。还可以用来对学生作文中的用词分析。http://www.lextutor.ca/concordancers/concord_e.html 可以同时提供多个语料库的在线搜索,但缺点是每次只能对一个文本加工。 2.BNC 2014年开始,免费获得,通过BYU的申请。 British National Corpus 一亿词,书面语90%,口语10%,共4124篇文本,从1980到1993年的语料 英国牛津出版社﹑朗文出版公司﹑钱伯斯—哈洛普出版公司﹑牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库 共有七类 口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic 还有COCA分类中没有的两类non-academic, miscellaneous second edition BNC World (2001) third edition BNC XML Edition (2007) extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text 通常可进入的那个链接是BYU, 美国杨百翰大学提供的 BYU大学在2012年对语料库经行了重新附码,用的CLAWS 7 3. COCA: the corpus of contemporary American English Brigham Young University 美国犹他州杨百翰大学 Doctor Mark Davies 3.6亿,1990-2007年间,美国国内各种语料 口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic共五类语料来源 且持续更新中,每年以2000万词递增,目前到1990-2012,共4.5亿词 Display:显示方式,compare选项可以用来比较两个词的搭配区别,排列方式选择relevance 相关度 标记了语料的时间,便于研究语言历时与共时的变化 教学中相关用法 查找同义词,如[=scold].[V*]表示查找所有scold的同义词

语料库整理要求及方法

一、需整理的多是ppt语料,也有些word文档的语料(见Boston Consulting-需做库-12.10文件夹)。整理要求如下: 1、利用Align Assist工具将ppt中原文译文提取出来,并根据中英文内容一句句对齐。如图: 2、利用Align Assist工具对ppt中的内容进行提取时,软件会遗漏部分内容。因此需要在对齐之后将软件自动提取后遗漏的句对逐句复制补充进去。 3、对齐完成后,将对齐结果分别保存为tmx格式及aares格式,tmx为最终需要的语料格式,但无法修改且预览不便。aares为临时语料文件,可修改,可即时预览。因此,请大家对齐时两种格式都保存下来。保存方法见第二部分。 二、整理方法: 1、安装Align Assist语料对齐工具(安装程序见AlignAssist_Setup_1.5.1文件夹)。双击AlignAssist_Setup_1.5.1.exe的程序进行安装。语言选择为english。

2、双击运行。将要对齐的原文文件和译文文件分别添加进去。

注意原文和译文语言方向。根据文件夹要求确定英文、中文何为原文,何为译文。 例:project1-中到英,则中文文件为source file,英文文件为target file。 源文本和译文本添加完成后,点击Align。进入如下界面。 3、注意split、merge、delete、swap的用法。 (1)split:将一句话断开为两句

随意举例:将第六句原文“当前全球经济正经历深度调整,各国需联手培育新的经济增长点和竞争优势。”断为:“当前全球经济正经历深度调整,”及“各国需联手培育新的经济增长点和竞争优势。”选中第六句原文,边框变黑。 单击上方菜单split。 进入下图界面。将第二小句内容剪切粘贴到cell 2部分,然后单击ok。 即分句完成。

如何自建英语语料库

论自建小型学习者语料库的方法及作用 ——以自建中学生英语写作语料库为例 曹鹤 北京市第三十一中 摘要: 大型语料库的出现和发展在研究语言的用法、翻译、教学、教材编写以及词典编撰等方面起着重要作用,但对于处于一线从事基础教育的外语教师而言,针对性和使用性不强。本文以自己建立小型基础英语教学中中学生写作语料库为例介绍了小型学习者语料库建设的可行性、方法和应用,借以提倡广大一线从事基础教育的教师利用高科技所带来的成果,武装和丰富自己,让自己的教学科学化、客观化。 关键词:小型学习者语料库;英语写作;基础教育 自20世纪60年代至今,语料库从萌芽阶段已经发展到广泛应用于语言研究的各个方面,如:词典编撰、语言学研究、教材编写、翻译、语言教学等等。同时,计算机技术的高速发展使语料库(Corpus)在过去的50多年来也得到了长足的发展,突出表现就是大型语料库的出现。大型语料库为语言研究提供了可靠的信息,但正因为其包罗万象、内容泛泛,在辅助基础教学研究等方面缺乏针对性,实用性不强。作者认为广大英语教师可以根据自己的实际需要建设小型学习者语料库,开展有针对性地研究,并将其应用到教学中。本文以建立中学生写作语料库为例介绍建设小型学习者语料库的方法、以及如何使用小型语料库等方面做主要论述,向基础英语教师展示如何运用这一新技术来辅助英语写作教学。 一、语料库简介 建设语料库之前,我们应首先明白什么是语料库。语料库并不复杂,它通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体(杨惠中,2004)。语料库可以帮助人们观察和把握语言事实,分析和研究语言系统的规律。从语料库语言学的发展历程可以看出,语料库的用途主要体现在对语言现象以及语言本质的研究,如语言统计、词典编撰、词汇搭配和自然语言处理等方面(顾曰国,1988)。现在语料库也开始逐渐应用到语言教学研究中。根据邢富坤(2006)的统计,国内基于语料库的教学研究的数量越来越大,将语料库应用于外语教学的趋势也越来越明显。

语料库与英语教学

语料库与英语教学-英语论文 语料库与英语教学 文/续娜 【摘要】随着我国基础教育课程改革的实行,大学英语教师的教学观念也受到了一定程度的影响。然而,由于大学教育课程改革还处于改革的初级阶段,很多方面还不是很成熟,所以,在大学英语教育中应用语料库时就出现了很多问题。因此,研究语料库与英语教学具有非常重大的意义。本文分析了当前英语教学的现状,阐述了语料库与英语教学的关系,最后介绍了语料库语言学在英语教学中的应用。 关键词语料库;英语;教学 前言 随着我国基础教育课程改革的新形势情况下,英语教师的教学观念也受到了一定程度的影响。对于英语课堂教学而言,语料库在英语教育中的应用被越来越多的教师所接受。然而,由于基础教育课程改革还处于改革的初级阶段,因此在很多方面还不是很成熟。在大学英语教学过程中采用语料库的应用出现了很多问题,从而影响了大学英语教学的质量。因此,为了更好地提高大学英语教学的课堂效率,大学英语教学应用语料库显得很有必要。 一、当前大学英语教学的现状分析 当前,我国大学英语课堂教学中的互动只是流于形式化,大学英语教学课堂中师生之间的互动都缺少实质性的内容。但是,这种形式化的课堂师生之间的互动并到达启迪学生思维的效果,更不用说激发学生更深层次的思维活动了。在这样的大学英语教学模式下,造成很多大学生根本不了解语料库。这种课堂师生之

间的对话不仅压抑了学生的学习主动性,从而造成语料库在大学英语教学中的应用无法正常进行,因为学生才是学习的主人,只有让学生了解语料库的真实含义,才能发挥语料库在大学英语中的作用。因此,在大学英语课堂教学中,必须要突出学生的主体地位,充分发挥语料库的作用。只有这样,才能给学生充分展示才能的空间。因此,语料库的应用受到了大学英语教学教师的广泛关注,随着语料库在大学英语教学中的应用不断加深,语料库的应用也出现了一定的问题,从而影响了大学英语教学的质量。 二、语料库与英语教学的关系 从语料库在大学英语教学中的应用实践来看,表明语料库更加合适在大学英语教学中的应用。然而,在大学英语教学中,传统的以课本为主的大学英语教学方式已经无法满足大学英语教学的需要,因此,现阶段的大学英语教学中,教师应该更加全面地使用语料库。同时,将语料库应用于大学英语教学中,这样不仅可以很好地改变传统的大学英语教学模式,还能极大地提高学生学习英语的兴趣,从而充分挥发学生的积极性。当然,语料库的英语也是现代大学英语教学的改革的必然选择。并且语料库的应用,还能使学生更能掌握学习的主动权,进而为大学英语教学创造更加便捷的途径。因此,语料库能够方便的应用在大学英语教学过程中。 从语料库的理论方面来说,语料库与大学英语教学的关系包括以下几个方面,第一,现代的大学英语教学理论应该为学生为中心,因而现代的大学英语教学更加要求学生能够参加到英语教学的过程中,进而激发学生英语创新思维。由于语料库的应用还能够开发学生的注意力、记忆力和推理能力。同时,由于语料库含有大量的实例和数据,因而语料库能够更好地吸引学生的注意力,还能强化

相关文档
最新文档