基于学习者语料库的中介语对比分析法

基于学习者语料库的中介语对比分析法
基于学习者语料库的中介语对比分析法

语料库翻译学_问题与展望_龙绍赟

江西社会科学2012.12 244 语料库翻译学:问题与展望 ■龙绍眖语料库翻译学在汲取语料库语言学、描写性译学及其他相关学科营养的同时,不断丰富和发展自己的研 究内容和研究方法,颠覆了传统译学的研究方法,形成了自己独特的研究对象,拓展和深化了翻译学研究的外延和内涵。然而,语料库翻译学研究也存在内容上的缺陷。因此,未来的语料库翻译学研究应紧密结合翻译学的跨学科属性,构建并完善语料库翻译学的理论体系,发挥其方法优势,突破自身的缺陷,实现其发展预期。 [关键词]语料库翻译学;跨学科属性;代表性;应用文体;深度与广度 [中图分类号]H0[文献标识码]A[文章编号]1004-518X(2012)12-0244-05 龙绍眖(1969—),男,江西师范大学外国语学院副教授,硕士生导师,主要研究方向为语料库语言学。(江西南昌330022) 20世纪以来,描写性译学悄然兴起,语料库语言学蓬勃发展。20世纪90年代,以英国曼彻斯特大学翻译与跨文化研究中心Mona Baker为代表的一批学者相继将语料库应用于翻译学研究,开启了全新的译学研究范式—— —语料库翻译学。语料库翻译学注重实证研究,强调数据统计与理论分析的有机结合,主张从大量翻译事实或现象出发,在对获取数据进行统计分析的基础上来阐明翻译本质、翻译过程、翻译策略及翻译活动的制衡因素,有效地弥补了定性研究的缺陷与不足。短短十几年的发展,语料库翻译学已逐渐形成自己独特的研究领域,并发展为翻译研究领域不可或缺的学科。但语料库翻译学研究在技术层面、研究方法、研究广度和深度等层面还有很多不足,本文就此提出一些建议与策略。 一、语料库翻译学的发展概况 语料库翻译学,指以语料库为基础,以真实的双语语料或翻译语料为研究对象,以数据统计和理论分析为研究方法,依据语言学、文学和文化理论及翻译学理论,系统分析翻译本质、翻译过程和翻译现象等内容的研究。[1]语料库翻译学最早由Mona Baker于1996年正式提出[2],Tymoczko将该领域的研究命名为“Corpus Trans-lation Studies”(语料库翻译学研究)。[3]语料库翻译学是语料库语言学和描写性译学相互影响、相互结合的产物。Sara Laviosa认为:语料库语言学和翻译研究的结合形成了“一种连贯的、全面而丰富的研究范式。该范式涉及翻译理论、描写和实践等方面的问题,业已成为当代描写性译学研究的新范式”。[4]相应的,语料库翻译学具有这两个研究领域的特征,即语料库方法的运用与注重描写与实证。[1] 语料库翻译学已成为语料库翻译学区别于传统译学研究不可或缺的研究领域。译学研究语料库的建设应属语料库翻译学的研究内容之一。不同于以学者直觉和

关于汉语中介语语料库建设研究报告

汉语中介语语料库建设研究 沈锐1,黄薇2 (1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100) 【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。 【关键词】语料库;中介语;汉语教学 语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中

小规模的语料库。 一、需求分析和框架设计 语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。依照软件工程的方法,建立数据库首先需要进行需求分析,在需求分析过程中要注意汉语中介语语料库主要是服务于对外汉语教学的一线教师,以及辅助母语非汉语学生自学,因此主要注重以上二类服务对象的应用需求,确保建成的语料库能够对第二语言教学、研究以及教材的编写提供持续支持。基于以上要求,在对中介语语料库的建设思路及框架做了总体考虑,基本归纳为以下三个方面: 1、中介语语料库为专门用途语料库,主要目的为研究母语非汉语的学生在学习汉语过程中的中介语现象而设计制作的。 2、中介语现象存在于母语非汉语的学生在学习汉语过程中的书面语料及口语语料中,由于口语语料的收集、分析和标注都较为困难,因此在建库的第一阶段只考虑收录书面语料,这有利于语料库的快速建设与使用。 3、语料标注的加工标准使用中科院计算所汉语词性标记集V3.0。 二、语料收集与加工

Corpus Linguistics and Translation Studies Mona Baker 1993 语料库翻译学文献

Corpus Linguistics and Translation Studies Implications and Applications Mona Baker Cobuild, Birmingham Abstract The rise of corpus linguistics has serious implications for any discipline in which language plays a major role. This paper explores the impact that the availability of corpora is likely to have on the study of translation as an empirical phenomenon. It argues that the techniques and methodology developed in the field of corpus linguistics will have a direct impact on the emerging discipline of translation studies, particularly with respect to its theoretical and descriptive branches. The nature of this impact is discussed in some detail and brief reference is made to some of the applications of corpus techniques in the applied branch of the discipline. 0.Introduction A great deal of our experience of and knowledge about other cultures is mediated through various forms of translation, including written translations, sub-titling, dubbing, and various types of interpreting activities. The most obvious case in point is perhaps literature. Most of us know writers such as Ibsen, Dostoyevsky and Borges only through translated versions of their works. But our reliance on translation does not stop here. Our understanding of political issues, of art, and of various other areas which are central to our lives is no less dependent on translation than our understanding of world literature. Given that translated texts play such an important role in shaping our experience of life and our view of the world, it is difficult to understand why translation has traditionally been viewed as a second-rate activity, not worthy of serious academic enquiry, and why translated texts have been regarded as no more than second-hand and distorted versions of …real? text s. If they are to be studied at all, these second-hand texts are traditionally analysed with the (233) sole purpose of proving that they inevitably fall short of reproducing all the glory of the original. A striking proof of the low status accorded to translated texts comes from the young but by now well-established field of corpus linguistics. A recent survey commissioned by the Network of European Reference Corpora, an EEC-funded project, shows that many corpus builders in Europe specifically exclude translated text from their corpora.1 This

语料库翻译学研究内容

研讨五语料库翻译学 1. 什么是语料库翻译学? 2. 语料库翻译学的理论基础? 3. 语料库翻译学的研究内容? 4. 什么是翻译共性? 根据研究课题的来源,语料库翻译学的研究领域分为三类。 第一类源自传统译学研究,包括基于语料库的文学翻译、翻译史、翻译教学、翻译实践、机器翻译和口译等领域的研究。 基于语料库的文学翻译研究以文学翻译作品的文本分析为基础,研究文学翻译理论与实践的相关课题。这些课题具体为: 1) 意象和人物形象的再现与变形,2) 文学风格的再现与重构,3) 文学翻译的创造性,4) 译者风格,5) 文学作品空白和未定性的翻译,6) 文化负载词的翻译,7) 误译和漏译研究。 基于语料库的翻译史研究利用历时性平行语料库对名家译作进行文本分析,揭示翻译家在翻译策略应用、翻译风格和翻译语言等方面所表现出的个性特征及其所遵循的翻译规范。目前,翻译史研究大多将翻译家的观点或言论视为客观现实,满足于翻译事实的罗列,对于翻译规范和历史语境关注不够。事实上,翻译家的所做与所言往往不一致,翻译家所言并不能反映其翻译作品的特征。此外,翻译是一种特殊的社会文化行为,受特定规范的制约。这些规范因时代或文化的差异而不同。利用语料库分析翻译文本的具体特征,归纳不同历史时期的翻译规范,可以阐明翻译家的所作所为,还原历史的真实面貌。另外,该领域的研究还通过提取语料库的篇头信息,对于具体某一历史时期的翻译活动进行客观描述。这些信息包括出版商、出版时间、作品主题、译者姓名和性别等内容。应当指出,语料库翻译学与翻译史均强调对研究对象进行客观描写,重视还原语境方法( contextualization) 的应用。这些共性为语料库在翻译史研究中的应用提供了作为空间。 以上研究均属语料库翻译学理论层面的研究,而基于语料库的翻译教学、翻译实践和机器翻译研究都是应用层面的研究。前者侧重于探讨语料库在翻译评估、翻译教材编写和翻译教学模式中的应用,后者主要关注双语词汇和句式之间的对应关系、翻译策略和方法的应用等问题。基于语料库的机器翻译研究是指利用语料库的核心技术,建设具有海量信息的知识库,以满足机助翻译或自动翻译的需求。 基于语料库的口译研究侧重于分析口译语料词汇、句法和语篇等层面的特征,研究口译语言特征、口译规范、口译策略和方法等。该领域的研究是综合性研究,既有理论层面的探讨,也有实践层面的分析。 第二类研究领域源自描写性译学研究,涵盖翻译共性、翻译规范和批评译学等领域的研究。 翻译共性是指由于翻译过程而形成的翻译文本所具有的区别于原创文本的特征,与源语和目的语之间差异无关,具体表现为显化、隐化、简化和范化等。翻译规范是“译者在具体时间或社会文化环境中所做出的规律性或习惯性选择”。“翻译规范是关于翻译作品和翻译过程正确性的规范,体现了具体某一社会或历史时期关于翻译的价值观和行为原则”。翻译规

中介语语料库与汉语教学研究

中介语语料库与汉语教学研究 什么是汉语中介语 早期的和后期的(早期受行为主义影响,语言学家通过对比发现差异,预测可能有的错误,从而指定大纲) 早期对比分析的理论方法存在致命弱点,如果归结为一句话,那就是,人们试图用简单的语言学的方法取解决复杂的心理学的问题。语言习得涉及学习的主体和客体的方方面面,对比分析却仅仅局限于语言系统的对比,忽略了学习者这一主体以及作为学习客体的过程。 早期的中介语理论,首先在理论导向上实现了所谓“教学中心”的观点向“学习中心”的观点的根本转变。 中介语理论把目光转向学习者特有的语言系统,并将其作为一个独立的、与学习者的母语和目的语系统并列的系统来考察。也就是说,中介语研究不仅要考察学习者的母语和目的语系统,还要考察学习者的中介语系统,考察学习者自身及习得过程,这标志着第二语言习得研究方向的根本转变。 目前中介语研究在方法上存在的问题: (1)在研究方法上一个最严重的问题是不能进行重复性的研究;(2)在对第二语言学习者的言语行为进行解释时,没有考虑到足够的相关材料;(3)只在单一的情景运用单一的方法收集中介语语料;(4)收集数据的方法不恰当;(5)在假设检验的研究中满足于对逸闻趣事的材料进行分析,缺乏定量分析;(6)在实验研究中或获得基线数据时,收集数据的手段可靠。 有关中介语的研究 王建勤《历史回眸:早期的中介语理论研究》,《语言教学与研究》2000年第2期。 王建勤《关于中介语研究方法的思考》,《汉语学习》2000年第3期。(中介语研究的理论和方法进行了探讨) 彭利贞《论中介语的语篇层次》,《第五届国际汉语教学讨论会论文选》北京大学出版社1997年。 ----------------------------------- 中介语研究的现状与发展 自上世纪80年代算起,对外汉语教学领域的中介语研究已经有20多年的历史了。20多年来,这一领域的研究发生了很大的变化。 1984年鲁健冀《中介语理论与外国人学习汉语的语音偏误分析》 中介语研究引起了普遍的关注 由于中介语理论的引进不够系统,对外汉语教学界的中介语研究基本上停留在偏误分析的基础上。 近年来中介语研究的进展表现之一是研究的范围进一步扩大。从语篇的角度研究学习者的中介语系统,早在上世纪80年代初就引起了国外学者的关注。在汉语习得研究领域,中介语

语料库语言学的发展

语料库语言学的发展 语料库顾名思义就是放语言材料的仓库。现在人们谈起语料库,不言而喻是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学和词典出版商联合建设。另外,由于个人微机的迅猛发展和存贮数据的硬盘造价持续下降,研究者个人也开始建立适合于自己研究的小型语料库。 语料库语言学(英文corpus linguistics)这个术语有两层主要含义。一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。只有在这个意义上“语料库语言学”才是一个新学科的名称。从现有文献来看,属于后一类的研究还是极个别的。所以,严格地说,现在不能把语料库语言学跟语言学的分支, 如社会语言学、心理语言学、语用学等相提并论。 近年来,随着我国经济的发展,科研经费的增加,汉语语料库的建设得到了开展。1999 年我院把建立汉语语料库列为院重大课题。目前语言所正在构建三个大规模的语料库: 现场即席话语语料库,主要方言口语库和现代汉语文本语料库。在世界范围内,我国的语料库建设在规模上还赶不上欧洲的一些发达国家,特别是英国。然而,在语料库语言学的研究上,以及语料库的实际运用上,我国已经进入世界前沿的行列。 20 世纪语言研究的总特点可以用四个字概括──高度抽象。最近几十年来,语言研究的高度抽象倾向已经失去主导地位。这主要缘于两个方面的因素: 一是计算机技术,特别是基于计算机处理的多媒体技术的飞速发展;二是社会语言学、语用学、会话分析、人类语言学、计算语言学、人机对话研究、语音识别与合成等研究取得令人瞩目的成就。先前难以抓住并进行有效处理的五花八门的实际语料,现在可以对其进行大规模地的、自动的或人机配合的处理。比如个人发音特征,先前认为这跟语言学毫无关系,现在成了侦破语音学的重要内容。侦破语音学家首先建立个人发音特征语料库,这个语料库可以用来鉴别嫌疑犯。概言之,当今的语言研究由先前的高度抽象逐步走向最具体的语言的实际活动,其中

双语对应语料库翻译教学平台的应用初探_王克非

语言技术与外语教学研究 *版权所有 文责自负* 双语对应语料库翻译教学平台的应用初探 王克非1 ,秦洪武2 ,王海霞 2 (1.北京外国语大学中国外语教育研究中心,北京 100089;2.曲阜师范大学外语学院,山东曲阜 273165) 摘 要:本文通过语料呈现实验探讨双语对应语料库翻译教学平台的应用效果。实验显示,学生在观察语料后能够归纳和总结出有意义的翻译技巧,并能据此评估或反思自己的翻译行为。实验表明,在翻译课堂教学中使用语料资源有助于自主学习和发现式翻译教学环境的创建,也有助于学习者形成 稳定的翻译技巧。 关键词:对应语料库;翻译教学;发现式学习;语料呈现中图分类号:H 319.3 文献标识码:A 文章编号:1001-5795(2007)12-0003-0006 近20年来,语料库的创建和应用取得了长足发展。对应语料库大都在上世纪九十年代开始创建,起步较晚,但已展现出广阔的应用前景。在欧美,这类语料库有十多个,涉及近20个语种,如H ansard(法-英对应语料库)和ENPC (英语-挪威语对应语料库)(V ron is 2000:14-15);在中国,有中科院计算所的大规模汉英对应语料库、北京大学的/B ABLE 汉英平行语料库0,以及北京外国语大学的/通用汉英对应语料库0(该库现有可检索语料2千万字/词以上,见王克非2004a),后者是本项研究使用的主要工具。对应语料库的创建有两个主要目的:一是用于语言与翻译研究,二是用于外语教学。用于前者的研究成果丰富,涉及语言对比、双语词典编纂和翻译研究(Lav i o sa 1997;Baker 1999;Serpellet 2000;H unston 2002)。用于后者尤其是用于翻译教学的研究也已取得不少成果,如Zanetti n 1998、Pearson (2003:15-24)和Bernardini (2004b :97-111),但大都研究平行语料为翻译训练提供的可能的资源和手段,还没有研究探讨大型对应语料库在课堂教学中的实际应用问题。 1 研究内容 有关运用语料库提高翻译效率和质量的研究还没有全面展开,而将对应语料库应用于翻译教学的研究则是刚刚开始(Bo w ker 2003;Ber nardi n i 2004b)。从理 论上看,语料库用于教学有利于自主学习环境的创建(Bernardini 2004a :22;秦洪武、王克非2007)。自主性学习主要表现在两个方面:研究性学习和发现式学习(learning as discovery)。前者假定学习者和教师研究兴趣相投、研究能力相当;后者则鼓励学习者自行调节兴趣点,并给他们提供机会来提高自己观察和处理问题的能力,使他们对两种语言的特征和差异有敏锐的觉识。本文认为,研究和发现虽不矛盾,但在以技能培养为核心的翻译教学中,不宜过分强调学生的研究能力,发现式学习这一提法更合适一些。 近年来,国内也有研究关注语料库在翻译教学中的应用问题。有些研究探讨了语料库在翻译教学中的用途(郭红2004;于连江2004;王克非2004b),但还没有研究系统地探讨对应语料在课堂教学中的应用方式和应用效果,也没有研究关注学生对于语料使用的态度。鉴于此,我们以/通用汉英对应语料库0为翻译教学平台,探讨在现有技术条件下翻译语料用于翻译教 作者简介:王克非:男,教授,博士生导师。研究方向:语言学、翻译学。 秦洪武:男,教授,博士。研究方向:语言学、翻译学。王海霞:女,讲师,硕士。研究方向:翻译学。 收稿日期:2007-03-18 基金项目:本文是国家社科基金课题/基于大型英汉对应语料库的翻译研究与翻译教学平台0的阶段性成果(编号05BYY 013),并获得曲阜师范大学科研启动基金资助(编号Bsqd2007022)。 # 3#第118期2007年12月 外语电化教学 C AFLE N o .118D ec . 2007

桂诗春等-2010-语料库语言学与中国外语教学

2010年11月November 2010 第33卷第4期Vol.33No.4 现代外语(季刊) Modern Foreign Languages (Quarterly )语料库语言学与中国外语教学 桂诗春 冯志伟杨惠中何安平卫乃兴李文中梁茂成 [编者按] 为推动我国应用语言学研究的新发展,教育部人文社科重点研究基地———广东 外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了“首届广外应用语言学论坛”,庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。期间,举行了题为“语料库语言学与外语教学”的高层论坛,就语料库语言学的现状、发展前景及语料库的建设、共享、应用等展开了互动讨论。以下是根据专家发言,整理后的主要内容。 [中图分类号]H319 [文献标识码]A [文章编号]1003-6105(2010)04-0419-08 语料库语言学的发展前景与资源共享 广东外语外贸大学 桂诗春 1.语料库语言学的发展前景 语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,因为它的入门比较容易,上手较快;有的人把语料库语言学作为收集数据的重要手段。但是总的来说,我们的语料库研究还处在比较初级阶段,需要提高。究其原因是很多人把它看成是一种工具或手段,可以运用现有的一些现成的程序和公开的语料库,如Brown ,LOB ,Frown. Flob , BNC ,CLEC ,只要选题得当,就能获得很多量化的数据,从而写出洋洋洒洒的文章来。在计算机和扫描仪的支持下,自行收集一些语言素材,建立一个特定的语料库,也不是什么难事。 我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须许多方面要有比较雄厚的基础。首先是数学和统计学。Herdan (1960)的一本早期著作,叫做《词次/词型数学》(Type /token Mathematics ),其副标题就是《数理语言学教科书》(A Textbook of Mathematical Linguistics ),当时还是前计算机 时代,但Herdan 觉得有两件语言事实值得我们注意:一是大量语言资料(language in mass ),二是语言排列(language in line ),它们是任何语言运作都不能离开的两个方面。某些语言学研究分支如果考虑到这两个方面,将会从中获益。当时还没有真正的机读语料库, Brown 的语料库在1967年才面世,美国心理 学家John Carroll 根据该语料库以及他后来参与制作500万词的AHI 语料库,所提出的词汇频数对数正态模型(lognormal model )均源于Herdan 所奠定的基础。一直到最近美国Barber 利用计算机对英语语体的各种研究,更是利用了因子分析的统计方法。其次是计算机科学。语料库的发展离不开现代科学技术,其主要表现是个人电脑、扫描仪和大容量硬盘的普及,当初Brown 语料库要动用到大型电脑,而到如今,只需一万元左右就能在家里拥有这些设备,制作出甚至比Brown 还要大的语料库。但是我们往往只注意到硬件部分,而不认识到软件的建设。从事语料库语言学研究的人而不掌握一到两种编成语言,也不可能拓展他们的研究领域,因为他不能根据个人的研究需

基于CLEC语料库的中国学习者错误分析

第33卷第8期湖北科技学院学报Vol.33,No.8 2013年8月Journal of Hubei University of Science and Technology Aug.2013文章编号:2095-4654(2013)08-0066-02 基于CLEC语料库的中国学习者错误分析 叶翠英 (广西大学,广西南宁530004) 摘要:这篇文章运用错误分析理论和语料库检索方法,使用“中国英语学习者语料库”(CLEC),将语料库中380篇四级作文作为研究主体,主要分析学生写作中名词误用、动词误用及动/名搭配错误及产生错误的原因,并给出了对于中国英语作为第二语言教学实践的一些启示。 关键词:CLEC语料库;四级写作;错误分析 中图分类号:H319文献标识码:A 中国英语学习者英语语料库(Chinese Learner English Corpus,以下简称CLEC)是国家哲学社会科学“九五”规划的一个项目,由桂诗春和杨惠中教授主持组建,于2003年建成,也是目前国内最大、最权威的语言资料库。它收集了包括中学生、大学英语4、6级、英语专业低年级和高年级学生在内的书面语语料,总容量为100万词。它收录了5个等级学生(中学生、大学非英语专业四、六级和英语专业一、二阶段)笔头作文中的11类错误,动词错误又分为9类,按数量由多到少依次为时态错误、一致错误、及物动词模式错误、固定短语错误、语态错误、有定式/不定式错误、不定式错误、情态错误和语气错误。 很多语言学者从不同角度出发,利用CLEC语料库进行了一系列的研究。例如:桂诗春(2004)研究了以语料库为基础的中国学习者英语失误分析的认知模型;李文中(2003)分析了基于学习者语料库的主题词研究;基于此,本文运用错误分析理论和语料库检索方法,从CLEC子语料库中抽取380篇四级作文作为研究主体,对作文中出现的名词误用、动词误用及动/名搭配错误进行归类分析,以及错误产生的原因,并给出了对于中国英语作为第二语言教学实践的启示。 一、错误分析理论 错误分析于20世纪60年代作为应用语言学的一个分支发展起来。差错分析理论通过分析学习者在语言使用中犯的错误,对其语言学习过程中的难点进行科学预测。在学科课时分配中,英语课程学的课时一般比较紧张,为了应对平时的考核,有些学校放弃开展英语课程的实践教学;在一些硬件设施比较欠缺的学校,由于英语课程的CLEC语料库和设备都存在问题,导致英语课程教学的效果不佳或无法开展等。根深蒂固的应试教学观念和教学方法不仅不符合英语课程学的发展特点,也影响学生对英语课程的学习和事物的认识,不利于学生的全面发展。在对错误分析,例如技能目标,必须使用诸如“能够模仿”、“能够领悟”、“能够做到”等行为动词,并使用诸如“至少完成多少次什么动作”、“准确判断率达到95%”等的指标予以量化。在一个课次中,教学任务必须有道德品质教学任务,例如培养积极进取的集体主义精神。教学目标必须有学习者错误分析的基础,例如培养团队竞争与合作意识。 二、研究问题与方法 (一)研究问题 本研究主要问题如下: 1.非英语专业学生在写作中名词误用、动词误用,动/名搭配错误,主要有哪几类错误,错误频率最高的是哪类? 2.错误产生的原因主要有哪些? 3.对于这些错误的分析会给教学带来什么启示? (二)研究工具 1.中国学习者英语语料库(CLEC),ST3子语料库。抽取以Practice Makes Perfect为题目380篇四级考试作文进行分析。共计30342个单词。 2.用语料库检索工具Antconc3.2,主要检索出本语料库中出现的名词误用、动词误用,动/名搭配错误。 三、研究结果与分析 通过检索,此语料库共有363个词汇错误,包括词序错误,词类错误,替代错误,动/名搭配错误,省略型错误,冗余型错误,重复型错误以及语义含糊。本文仅分析词类错误,动/名搭配错误。 (一)词类错误(part of speech error)指词根正确但词类错误的词 例如: (1)In our live[life],we will find much Examples. (2)If w e w ant to be a succeed[successful]man,we must obey the w o rd– Practice Makes Perfect. *收稿日期:2013-04-18 基金项目:本研究是广西大学高等项目“基于语料库的大学英语写作教学模式研究”的阶段性成果之一

小型学习者语料库的建设与应用

第25卷第6期 贵州大学学报(社会科学版)V o.l 25 N o .62007年11月J OURNAL OF GU IZ HOU UN IVERS I TY (Socia l Sc i ences)N ov .2007 小型学习者语料库的建设与应用 周 杰 (贵州大学大学外语教学部,贵州贵阳550003) 摘 要:语料库在研究语言的用法、翻译、教学、教材编写以及词典编撰等方面起着重要作用。外语教师可 以收集整理相关材料,有针对性地建设小型学习者语料库,并将其应用到实际教学、研究、翻译中。本文介绍了 语料库的种类和用途、建设小型学习者语料库的基本方法以及小型学习者语料库的应用等。 关键词:小型;学习者语料库;建设与应用 中图分类号:H 319.3 文献标识码:A 文章编号:1000-5099(2007)06-0117-04 语料库自20世纪60年代发展至今,已经广泛应用于语言学研究的各个方面,如:词典编撰、语言本质的研究、教材编写、翻译比较、语言教学等。计算机技术的高速发展使语料库语言学(Corpus L i n gu istics)在过去的20多年来也得到了长足的发展,已成为现代语言学的一个重要分支(潘永樑,2001)。大型语料库语料收集面广,代表性强,可以为语言研究提供可靠的信息。但正因为其包罗万象,大型语料库在辅助教学研究等方面缺乏针对性,实用性不强。作者认为,广大教师可以根据自己的实际需要建设小型学习者语料库,开展有针对性地研究,并将其应用到教学中。本文从语料库语言学的种类与用途、建设小型学习者语料库的可行性、建设小型语料库的基本方法以及如何使用小型语料库等方面做了主要论述。 一、语料库的种类与用途 建设语料库之前,我们应首先明白语料库的定义。在语料库语言学的长期发展过程中,根据不同学者的研究内容或形式,形成了语料库的不同定义,但其核心内容均包含计算机和语料文本以及检索分析工具等。笔者认为,Granger 的定义能清楚明确地描述语料库(Co r pus),即:应用计算机技术对海量自然语言材料进行处理(包括预处理、语法自动赋码、自动句法分析、语义分析等)、存储,以供自动检索(retr i e val)、索引(concordance)以及统计分析的大型资料库。它是按照明确的设计标准为某一具体目标而建立的语言资料库(转引自李文中,1999)。简单说来,语料库是指存放在计算机里的大量原始语料文本或经过加工后带有信息标注的文本。它是一个庞大的语言素材的集合体,主要用于观察、分析和研究目标语的各种特征(唐洁仪,2004)。而更通俗的说法则是把语料库看作是 按照特定的目的与方式建立起来的存储语言材料的仓库 (武和平,2002)。那么,这个 仓库 能发挥怎样的作用呢?从语料库语言学的发展历程我们可以看到,语料库的用途主要体现在对语言现象以及语言本质的研究,如语言频率统计、词典编撰、词汇搭配研究和自然语言处理等方面。现在,语料库也逐渐应用到教学研究中。根据邢富坤(2006)的统计,国内基于语料库的教学研究的绝对数量越来越大,将语料库应用于外语教学的趋势也越来越明显。 根据不同标准,语料库可以分为单语语料库、多语种平行语料库、历时语料库、共时语料库等多种类型(潘永樑,2001)。以下为其中两种分类法: 1)以语料的原始形式分类:书面语语料库、口语语料库和视频语料库。书面语语料库语料收集相对容易,因而语料库规模较大;而口语和视频语料库的内容需要通过音频或视频转写,工作繁杂,难度大,因而相对来说,这两种语料库规模较小,且建成的不多,国内现已完成的库容量较大的主要有南京大学的!117! 收稿日期:2007-11-08 作者简介:周 杰(1971-),女,四川乐山人,贵州大学大学外语教学部副教授。

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

语料库语言学综合

语料库语言学基础知识 2008-09-11 01:45:34| 分类:学术|举报|字号订阅 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。 语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。 语料库建设中涉及的主要问题包括: (1)设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。 (2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。 (3)语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。 (4)语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、

语料库语言学术语汇编Aglossaryofcorpuslinguistics.docx

语料库语言学术语汇编 ( V2.0 ) Last updated 2012-10-08 by许家金 Aboutness所言之事 Absolute frequency绝对频数 Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric字母数字构成的 Annotate标注(动词) Annotated text/corpus标注文本 /语料库、赋码文本/语料库Annotation标注(名词) Annotation scheme标注方案 ANSI/American National Standards Institute美国国家标准学会 ASCII/American Standard Code for Information美国信息交换标准码 Exchange Associates (of keywords)(主题词的)联想词 AWL/academic word list学术词表 Balanced corpus平衡语料库 Base list/baselist底表、基础词表 Bigram二元组、二元序列、二元结构 Bi-text/bitext双语合并文本、双语分行对齐文本 (一句源语一句目标语对齐后的文 本) Bi-hapax两次词 Bilingual corpus双语语料库 Bootcamp debate/discourse/discussion(新手)训练营大辩论 /话语 /大探讨CA/Contrastive Analysis对比分析 Case-sensitive/case sensitivity大小写敏感、区分大小写 Category-based approach基于类(范畴)的方法 Chi-square test/ 2χ卡方检验 Chunk词块 CIA/Contrastive Interlanguage Analysis中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-CLAWS 词性赋码系统 tagging System Clean text policy干净文本原则 Cluster词簇、词丛 Colligation类联接、类连接、类联结 Collocate n./v.搭配词;搭配 Collocability搭配强度、搭配力 Collocation搭配、词语搭配 Collocational strength搭配强度 Collocational framework/frame搭配框架 Collocational profile搭配概貌

语料库常用术语

语料库常用术语 Type 类符 Tokens 形符 例如“I see a cat and a dog”类符6个,形符7个 Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。例如,计算每个文本1000词的TTR,均值处理,得出STTR。Frequency(频率) 例如每百万词、十万词中,某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。 Wordlist词表 根据单词或词组在语篇中出现的频率大小而排列形成的列表。 Ranks Lemma词目,词元 比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词 Concordance 索引(KWIC 语境中的关键词key words in context) 运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配 搭配强度MI,T-score ,Z-score Colligation类连接、语法搭配 semantic prosody语义韵 词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。 POS tagging 词性赋码 Regular expression regex 正则表达式

相关文档
最新文档