国家语委现代汉语语料库介绍-cssn

国家语委现代汉语语料库介绍

肖航

教育部语言文字应用研究所

2012

语料库建设

?国家语委语料库建设

?1991年12月国家语言文字工作委员会提出立项;

?1992年4月召开现代汉语语料库选材原则专家论证会;

?1993年1月制订《现代汉语语料库选材原则》;

?1993年9月召开现代汉语语料库选材专家审定会;

?1998年底建成 7000万字的生语料库;

?目前已完成1亿字生语料和5000万字标注语料;

?语料库建设和加工工作还在继续进行。

?被列为国家语委“九五”、“十五”科研重大项目

?得到国家科技部“863”、“973”计划多个项目的支持

?“智能中文信息处理平台”

?“图像、语音和自然语言理解”

?“中文信息处理应用基础研究”

生语料库

语料库的主要内容

?未经标注加工的生语料库

?标注语料库

?词语切分

?词类标注

?句法树库

?内部结构

?外部功能

?分词词表

?88000词条

?词性标注

?频率信息

?语料库加工标注规范

?语料库软件工具 标注语料库 句法树库

语料库的主要用途

?主要用途

?语言文字的信息处理

?语言文字规范和标准的制定

?语言文字的学术研究

?语文教育

?语言文字的社会应用

语料来源

?1993年以前的语料

?以人工录入印刷版本的语料为主

?约7000万字

?1993~2002年的语料

?部分采用人工录入印刷版本语料

?约1500万字

?部分来源自网络电子文本

?约1500万字

?2002以后的语料

?以网络电子文本为主

?约1000万字

语料分类

?三个主要类别

?人文与社会科学类

?包括政法、历史、社会、经济、文学、艺术等类别语言材料

?自然科学类

?自然科学的语言材料(含农业、工业、医学、电子、工程技

术等),涉及科学技术发展的各个领域。

?综合类

?应用文

?难于归类的语料

人文与社会科学类

?人文与社会科学类划分为8个大类和30个小类:

?政法:哲学、政治、宗教、法律;

?历史:历史、考古、民族;

?社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗;

?经济:工业经济、农业经济、政治经济、财贸经济;

?艺术:音乐、美术、舞蹈、戏剧;

?文学:小说、散文、传记、报告文学、科幻、口语;

?军体:军事、体育;

?生活。

?人文与社会科学类约占语料总量的50%

自然科学类

?自然科学划分为6类:

?数理

?生化

?天文地理

?海洋气象

?农林

?医药卫生

?自然科学类约占语料总量的30%,

综合类

?综合类语料由应用文和难于归类的其他语料两部分组成。

?应用文主要包括以下6类:

?行政公文:请示、报告、批复、命令、指示、布告、纪要、通知等;

?章程法规:章程、条例、细则、制度、公约、办法、法律条文等;

?司法文书:诉讼、辩护词、控告信、委托书等;

?商业文告:说明、广告、调查报告、经济合同等;

?礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等;

?实用文书:请假条、检讨、申请书、请愿书等。

?综合类约占语料总量的20%

样例语料分类

语料库选材

?人文与社会科学类

?以1919年为上限,选取五四以来的语言材料。

?对五四以来各个历史时期的语料采取不等密度选用的方式。?自然科学类

?比较通用的中、小学各科教材。

?比较通用的具有通论性质的大学各科基础必修课程的教材。

?涉及自然科学各个门类的科普读物。

?教材

?选取当时通用的教材为建库的语言材料。

?中小学课本所选内容涉及的各个学科的基本知识

?一般为典范的现代汉语作品,应具有相当的普及性、代表性。

语料库选材的历时性

?以人文与社会科学类为例

?1919 - 1925年,约占5%。

?五四时期的白话文仍留有文言痕迹,选用少量的影响较大的代表性作品。

?被选用的作品在行文上要尽量符合现代汉语的规范。

?1926 - 1949年,约占15%。

?白话文逐步脱离文言痕迹,现代汉语日趋成熟的时期。

?1950 - 1965年,约占25%。

?新中国的成立给社会文化生活带来巨大变化,新词新语大量涌现。

?1966 - 1976年,约占5%。

?文革时期的作品,其中许多仅作为历史词语存于现代汉语之中。

?1977 -至今,占50%以上。

?新时期的语料代表了现代汉语的新发展。

?每年按选材原则增补300万字左右的语料

语料的通用性原则

?作为通用型语料库,应该比较真实地反映现代汉语在文字、词汇、

语法、语义等方面的全貌。

?在语料的选择上,应当具有区别性特征。

?有别于专业性

?有别于地域性

?有别于纯口语性

?尽可能地提高所选语料在采字、采词、采句和采义等方面的广度,

要考虑到语料的时间层次、文化层次和社会使用面等层次。

?时间层次。

?文化层次。以具有高中文化程度的人能够阅读的语料为主。

?社会使用面层次。

?以社会使用面较为广泛的语料为主,其他语料为辅;以人文

与社会科学为主,自然科学为辅;以门类为主,以语体为辅。

语料抽样原则

?语言材料的多样性

?选用政论性文章、新闻报道、各类文学艺术作品、科普读物、通俗读物、学术专论及各种应用文语体等现代汉

语作品。

?语言材料的完整性

?2000字以下的文章原则上全篇采用。

?报纸可采取整篇文章、整版和整张相结合的方式。

?语言材料的遍历性

?选材要注意各学科,各学科分支,各行各业,以及社会生活各个领域的语言文字应用的代表性。

语料抽样数量

?书籍

?抽样数量一般占全书字数的3~5%,字数最多不超过10000字。样本容量2000字,允许±500字。

?报纸

?采用整版(4版或8版)选用的方式。不同的报纸选用不同的月份,以免内容重复。

?报纸上的广告、启事等归在应用文类,不在报刊类语料的统计之列。

?刊物

?每本刊物上所选的总字数原则上不超过5000字。样本容量2000字,允许±500字。

语料抽样方式

?对同一版面的不同文章,按从上至下、从左到右的顺序

选取。

?一个样本必为同一作者的同一篇文章,限字数不限样本

数(报刊除外)。

?每个样本之中必为连续的语料内容。

?应用文(包括广告、说明书等)

?2000字以内的应用文宜整篇选用。对于篇幅较长的应用文,所选样本的容量为2000字,允许±500字。

语料抽样的其他原则

?避免选取文言色彩较重的篇章作语料

?例如鲁迅等作家的作品不宜用作语料。

?避免选取诗歌作语料,剔除篇章中诗歌形式的内容。

?大学教材门类以国家规定的大学基础必修课为准。

?选材年限及密度的规定是着眼于科学的整体发展而制定的。

?各个学科的发展在不同的年代并不是齐头并进的,可根据具体情况适当调整依年限分布的比例、字数。

?调整的理由、调整后的比例和字数当详细说明,并作为附件收于清单之后。

语料样本信息

语料样本最多包含24个信息

样例语料相关信息

语料库样本分布-类别

语料库研究的优势及问题的理论解析

语料库语言学的理论解析 摘要:本文试图剖析有关语料库语言学的几个理论问题,以期揭示语料库语言学的本质。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 关键词:语料库语言学;基于语料库的研究方法;理论架构;语料库数据;发展前景 Abstract: This paper attempts to answer some theoretical questions of corpus-based language studies. Three theoretical considerations are addressed to capture the nature of corpus linguistics. 1) Is Corpus Linguistics an independent branch under the umbrella of linguistics? 2) What can corpus data offer to linguists? and 3) What kind of research that Corpus Linguistics should be? Answers to the three theoretical questions will conduce to a fuller understanding of the nature of corpus-based language studies and their development. Key words: Corpus linguistics; corpus-based approach; theoretical construct; corpus data; future directions 1.0 导言 目前利用语料库从事研究的学者主要有两类。一类是计算语言学家。他们主要从事自然语言处理(NLP)的研究,诸如语音合成、语音识别和机器翻译等等。他们的终极目标并非要揭示语言的本质,而是注重技术层面的研究,比方如何改进算法,如何完善词库的建设以实现技术上的突破。另一类就是语言学家,他们则希望借助这一强大的工具去揭示语言的本质这一学科目标,这正是本文所要关注的。 本文缘起于语言研究者中的一种争论,即“语料库语言学”是否配得上这个名称,它是一种新兴的理论视角还是“暴发户造谱牒”?而本文要探讨的正是有关于语料库语言学研究的理论意义。或者说,语言学家从语料库所提供的信息中到底可以获得什么?这是本文试图解决的核心问题。语料库建设、开发和利用在国内外语言学界日渐兴起,在国内也有相当数量介绍性和综述性文献涌现,为语料库语言学在我国的发展奠定了一定的理论基础。此外,一些语言学者和语言教师(包括外语教师和对外汉语教师)也设计、建立了一些自己的语料库以服务于教学科研。 然而真正对语料库的理论问题进行深入探讨的著述却为数不多。本文将试图剖析语料库语言学的几个理论问题,以期对语料库语言学的优势和不足有进一步的认识。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 2.0 语料库语言学是不是独立的新兴学科? 2.1 语料库语言学是一种理论架构 完全赞成语料库语言学是一种理论架构的几乎没有。只是某些学者比较强调语料库语言学的理论意义。比如,Halliday(1991;1992;1993)指出,语料库语言学作为一种理论架构(theoretical construct),将语料收集和理论概括统一了起来,从而使我们对语言的理解产生一种质变。这种新的理论架构有助于考察同时作为系统和实例(instance)的语言的本质。因为在Halliday的语言学思想当中,实际话语是语言系统的实例再现(instantiation)。而语言系统,或者说是语法体系是一种统计概率上(probabilistic)的自然结果。这一思想与所谓

外来词使用状况的语料库考察

外来词使用状况的语料库考察 研究一种语言面对外来词时如何反应――拒绝它们,翻译它们,或是任意接受它们-- 对看清这种语言内在的形式趋势很有 价值。研究现代汉语对外来词的接受和使用状况有助于了解现代汉语的发展趋势;也只有摸清外来词在汉语中的生存和发展状况,才有可能给“外来词”一个符合实际的定义,并对其进行科学分类,为进一步的深入研究奠定基础。 一、研究目的与方法 本研究通过语料库考察和统计分析,定量研究人们对外来词的接受度及使用现状,探索和总结当前汉语外来词的使用特点和表现趋势。 为此,笔者通过分层随机抽样的方法选取了99 条外来词作为研究样本,按照引人方式对样本进行分类,然后进行语料库检索,并运用相关的统计方法对数据进行分析,最后对提出的原假设进行检验和分析。 本研究使用了国家语委语料库和中国传媒大学的生语料库。前者是大型的、通用的现代汉语平衡语料库,反映汉语笔语的总体使用情况;中国传媒大学的生语料库则包含2000 篇电视节目文字稿,基本反映较为正式的汉语口语使用情况。两者参照,能够较好地体现当前汉语对外来词吸收和使用的一般状况。 研究中引入了外来词的“出现率”、“出现频次”和“平均频

次”三个测度指标,并将其分别设定为变量r、f 。设外来词 分别属于八个类型组G1, G2……G8任意一组中有外来词W 个;其中在语料库中出现n 个。 r 可以显示某类型外来词中有多少个在语料库中出现f 为某个外来词在语料库中出现的次数f 则说明某类型外来词在语料库中出现的平均密度。 二、研究假设 假设1 :外来词的使用相当普遍 目前学术界和相关人士普遍认为:汉语对通过不同翻译方法引入的外来词接受度不同,最易接受符合汉语构词习惯的纯意译词,其次是含音译成份的词,最后是近年来似乎有些泛滥的字母词。该假设是对当前流行的学术界普遍看法进行定量检验。 假设2:外来词在现代汉语中处于上升状态该假设认为不同类型的外来词在汉语中的发展状况并不平衡,但整体而言,外来词在现代汉语中是处于上升状态的,无论从规模还是速度上看都是如此。 假设3:外来词的使用频率高 该假设认为外来词的使用频率较高,甚至有可能高于某些较为常用的汉语词汇。对该假设的进一步研究将会对外来词的科学划分提供理论依据。 三、研究结果 (一)外来词的出现率和平均频次 两个通用语料库的检索结果均表明,以往的定性研究虽然没有

哪里有可以免费使用的大型英语语料库资源-外语教学与研究出版社

语料库相关资源 David Lee语料库研究书签 Bookmarks for Corpus-based Linguists (David Lee) https://www.360docs.net/doc/cf17741411.html,.au/~dlee/CBLLinks.htm (https://www.360docs.net/doc/cf17741411.html,/corpora) 常用语料库资源链接汇集(语料天涯) https://www.360docs.net/doc/cf17741411.html,/corpus/ 互动平台 https://www.360docs.net/doc/cf17741411.html,/forum/ 入门读物 专著 梁茂成、李文中、许家金,2010,《语料库应用教程》。北京:外语教学与研究出版社。Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进) 期刊论文 中国期刊网 EBSCO英文期刊数据库 书店可以买到的语料库相关书籍 Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进) Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St. Jerome Publishing. (外研社引进) Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999. Longman Grammar of Spoken and Written English. Longman Publications Group. (外研社引进) Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)

国内语料库翻译学20年述评_1993_2012_宋庆伟(DOC)

上海翻译Shanghai Journal of Translators2013 No. 2 国内语料库翻译学20年述评( 1993—2012) 宋庆伟匡华吴建平( 厦门大学外文学院,福建厦门 361005;济南大学外国语学院,山东济南 250022) ( 山东大学外国语学院,山东济南250061) ( 厦门大学外文学院,福建厦门361005) [摘要]本文以中国知网( CNKI) 1993-2012年外语核心期刊中关于语料库翻译学的学术论文为样本,从翻译语言特征、译者风格和应用研究等六个方面对国内近20年语料库翻译学的发展历史进行钩沉,梳理其主要研究脉络和现状,总结语料库翻译学研究的成就、问题与趋势,以期能为该领域研究提供全景式的概况。作者认为,当前研究还存在诸如研究内容与视角比较狭窄,跨学科性研究不足,定量研究层次不高和语料库( 特别是口译语料库) 建设和研究相对滞后等问 题,亟待有针对性的改进与完善。 [关键词]语料库翻译学; 翻译共性; 译者风格; 口译 [中图分类号]H059 [文献标识码] A [文章编号]1672-9358( 2013) 02-0025-06 1 引言到翻译研究当中,使语料库翻译研究迅速发展,逐步 近几年,语料库翻译学随着语料库语言学和描成为描述翻译研究中的一种新范式( Laviosa,1998: 写翻译理论的发展和融合迅速成长起来。从发展历474; 2002: 22)。基于语料库的研究为翻译学提供程来看,她还非常年轻,从1993年Mona Baker发表了新的方法和思路,现在学界形成的共识是利用语语料库翻译学的开山之作《语料库语言学与翻译研料库进行翻译研究是一种不可或缺且可靠的手段。究: 启示和应用》至2012年,刚刚走过了短短的20 从一定程度上来讲,语料库翻译学即语料库语言学年。国内语料库翻译研究几乎与国外同步,肇始于和描写性翻译研究的相加,二者的结合可以说是相1993 年,代表作为杨惠中《语料库语言学与机器翻得益彰,在当今翻译研究注重描写和实证的趋势下,译》一文。如今,国内语料库翻译研究已初具规模,语料库翻译学应运而生。语料库翻译学以翻译本体在翻译共性、译者风格和语料库建设等诸方面都取为研究对象,从大规模翻译文本或翻译语言整体入得了可喜的进步,Tymoczko( 1998: 652) 曾大胆预言手,采用语内对比与语际对比相结合的模式,对翻译基于语料库的翻译研究将是翻译研究的重中之重。现象进行描写和解释,探索翻译的本质。( 王克非、近20年,特别是近几年涌现出一大批语料库翻译学黄立波,2008: 9-14) 的专著和论文,国家社科基金和教育部人文社科基 金对该领域的研究也进行了倾斜。鉴于此,笔者认 3 数据采集 为极有必要对其发展脉络进行梳理和分析,以期为近几年,国内基于语料库的翻译研究发展迅速,今后的研究提供借鉴和参考。本文以中国知网研究的深度和广度也不断拓展,发表文章数量逐年( CNKI) 近20年来外语核心期刊中收录的有关语料增加。为了更好地说明这种趋势,笔者统计了近20 库翻译学的学术论文为基础,借以梳理其研究现状、年( 1993-2012) 中国知网收录的外语核心期刊中关分析成就和问题并展望发展趋势。于语料库翻译学的文章,该统计涉及2012-2013年 版CSSCI外语类来源期刊( 包括扩展版) 共15种,2 语料库翻译学基本原理收集有关文章共97篇,具体数据如下表所示: Mona Baker( 1993)开创性地把语料库方法应用 [基金项目]本文是上海市科委课题“英汉双语平行句对应语料库建设”( 编号: 08dz1501100) 的阶段性成果。论文在写作过程中,得到秦洪武 教授的悉心指点,谨致谢忱! [收稿日期]2013-02-20 [作者简介]宋庆伟,厦门大学博士生,济南大学外国语学院讲师,研究方向: 语料库翻译学、双语词典编纂与翻译; 匡华,山东大学外 国语学院讲师,研究方向: 语料库语言学与英语教学; 吴建平,厦门大学外文学院教授,博士生导师,研究方向: 翻译学与双语词典学。

基于语料库的中国大学生英语口语表达中的“中式 英 语” 探究

基于语料库的中国大学生英语口语表达中 的“中式英语” 探究 摘要:本文利用大学学习者英语口语语料库,选取全国大学英语考试口语考试部分27名考生的口语语料库作为研究对象,对其中出现的中式英语进行标注和分类。作者根据统计结果,从词法和句法两个层面分析我国大学生英语口语中出现的中式英语现象,探讨汉语母语作为中式英语出现的主要原因及对英语口语的影响,最后对中国大学生的英语日常学习及口语水平的提高提出相关建议,为广大高校师生提供借鉴意义。 关键词:中式英语中国大学生口语语料库 1.引言 中国大学生在他们的年纪已经获得用汉语思考和表达的能力,形成用汉语思考和表达的习惯。绝大部分中国人都是在掌握了母语之后才开始学习英语的,所以在学英语的过程中,总是从中国人的思维角度思考,不顾西方的语言习惯,这就造成中式英语的大量存在。由于不符合英语的表达习惯,中式英语在人际交流中有时会引起误解和困惑。因此,它作为一种特殊的语言现象,应该引起人们的注意。在中国,高校在校学生占英语学习者的很大一部分,他们毕业之后就

由英语学习者转变为英语使用者,所以他们在学校学得如何,直接影响他们在工作岗位上用得如何。 从现状看,我国大学毕业生的平均英语水平不能满足各行各业越来越高的需求,尤其是在口语表达和人际交流方面。在现行教育体制下,高校英语教学过于强调语法和词汇的讲解,而对学生语言能力的培养和英语文化的教授则有所忽略。其结果就是许多中国大学生在学了十多年英语之后,只是善于记忆单词和语法规则;他们能在笔试中得高分,但是一张嘴就是中式英语。 《牛津英语词典》对中式英语作了如下定义:中式英语是一种汉语和英语的混合体;尤其是汉语使用者使用的或中英双语语境中的一种英语变体,典型地夹杂一些汉语的词汇和结构,或是汉语语境中特有的英语术语。 总的说来,中式英语是指一种不符合英语文化习惯的畸形英语,由某些受汉语思维方式和文化背景影响而将母语的语言规则运用到英语中的中国人说出或写出。 2.研究方法 2.1研究对象和数据收集 “大学学习者口语语料库”由上海交通大学的杨惠中教授主持完成。该语料库容量达70万字,来源是全国大学英语考试口语考试部分的真实音视频材料。它按照考试来源地、专业、考试成绩和对话题目,采取随机抽样的方法组

语料库

Background Information 语料库的概念 语料库是指按照一定的语言学规则,利用随机抽样的方法收集的有代表性的语言材料的总汇,它是语言材料的样本。 语料库通常指为语言研究机构收集的,具有一定容量的大型电子文本语料库。它是由口语语料和书面语的样本汇集而成,用来代表特定的语言或语言变体,或经过加工后带有语言学信息标注的文本的集合。 语料库的分类 按照语料库所涉及的语言种类,语料库课分为单语语料库,双语平行语料库(parallel corpus)和多语语料库(multilingual corpus); 按照语言涉及的题材,语料库可分为普通语料库(general corpus)和专门用途语料库(specialized corpus); 按语料的来源,又可分为口语语料库和书面语语料库; 按语料库是否被标注,语料库可分为生语料库或原始语料库(raw corpus)和熟语料库或标注语料库(annotated corpus) In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is

语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京 语料库语言学的发展及研究现状 丁信善 1.0引言 语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。 这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。 2.0语料库语言学的定义 关于语料库语言学的定义,现引述三例: a. 根据篇章材料对语言的研究称为语料库语言学。 (K.Aijmer&B.Aitenberg,1991,p.1) b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。 (T.M c Enery&A. Wilson,1996,p.1) c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。 (D. Crystal,1991,p.86) 由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。 3.0语料库语言学的历史发展 语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段: 3.1语料库语言学的早期发展 早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。此类研究主要集中在以下几个方面: (1)语言习得是应用语料研究方法较早且较普遍的领域。19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且时至今日仍是许多学者的研究语料之一。自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。 (2)利用自然语料开展音系研究,在西方当首推美国早期的结构主义语言学家,如F.Boas和 E.Sapir等人。他们注重 野外工作 ,强调语料获取的自然性和语料分析的客观性。这些都为后来的语料语言学所继承和发展。 本文承蒙哥本哈根大学翻译与词典学研究中心主任C.Dollerup博士提供有关欧洲语料库网络的材料,特此致谢。

可以免费使用的大型英语语料库资源

可以免费使用的大型英语语料库资源 https://www.360docs.net/doc/cf17741411.html,/time/ http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯) http://202.204.128.82/sweccl/Corpus/ https://www.360docs.net/doc/cf17741411.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.360docs.net/doc/cf17741411.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.360docs.net/doc/cf17741411.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.360docs.net/doc/cf17741411.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.360docs.net/doc/cf17741411.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.360docs.net/doc/cf17741411.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.360docs.net/doc/cf17741411.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.360docs.net/doc/cf17741411.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.360docs.net/doc/cf17741411.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

浅析语料库对于翻译研究的意义

浅析语料库对于翻译研究的意义 【摘要】基于语料库的翻译研究在当今已进入一个全新模式,多种语料库被开发应用在人工翻译和机器翻译等实践领域当中。本文对语料库的概念以及某些种类语料库在翻译活动中具体实用情况做出分析,揭示语料库对于翻译研究的意义。 【关键词】语料库;翻译;双语语料库;平行/对应语料库 An Analysis on the Significance of Corpus to Translating Research CHEN Dan (Eastern Liaoning University,Dandong Liaoning 118000,China) 【Abstract】Translating research based on corpus has stepped into a new mode today,and many kinds of corpora are developed and applied in practical fields of manual translation and machine translation. The thesis analyzes the concept corpus and the application of some corpora in translating,which exemplify the significance of corpus to translating research. 【Key words】Corpus;Translating;bilingual corpus;Parallel corpus “语料库”的英语单词corpus来源于拉丁语,意思是body,有“全集”的含义,即“语料的集合”。有的学者认为语料库是基于形式和目的的存储于电子数据库中的文本集合,是描述自然发生语言的集合;也有人认为它是按照明确的语言学标准选择并排序的语言运用材料的汇集,旨在用作语言的样本。国内语料库学者杨惠中对语料库的定义做了较为详细的界定。他指出,“语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库”。 语料库所收集的语料是真实、自然的语言。不同于普通的文本数据库,它的设计和建设是以系统的理论语言学原则为依据,并且具有明确的目的性。语料库的结构严格依照既定程序设定,以一定研究目的为基础,按学科或语篇类型分类存储。语料库中的语料必须符合科学的语言研究,语料可以随机抽取或按统计学方法采集。 语料库的类型和分类标准很多。按用途分,语料库可分为通用语料库(general corpus)和专用语料库(specialized corpus);按语料选取时间,语料库可分为历时语料库(diachronic corpus)和共时语料库(synchronic corpus);按不同结构,语料库可分为平衡语料库(balanced corpus)和自然随机结构语料库(random structure corpus);按语料库的性质,语料库可分为原始语料库(raw corpus)和标注语料库(annotated corpus);按语言种类,语料库可分为单语语料库

国家语委十五科研重大项目-现代汉语语料库的建设及深加

国家语委十五科研重大项目-现代汉语语料库的建设及深加工 国家语委语料库科研成果简介 教育部语言文字应用研究所计算语言学研究室 一、国家语委现代汉语语料库介绍 语料库是存储于计算机中并可利用计算机进行检索、查询、分析的语言素材的总体。基于语料库的分析方法是对传统的基于规则的分析语言的方法的一个重要补充。语料库具有“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字信息处理等领域的基础工程。近十几年来,美、英、法、德、日等国家都投入巨资,相继建立了大规模的语料库,如英国国家语料库BNC等。我国从1990年开始由国家语言文字工作委员会主持,组织了语言学界和计算机界的专家学者共同建立了大型的国家级语料库,即国家语委现代汉语语料库。 国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领先水平,在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。 国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约40个小类组成。具体类别如下: 1.人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律;(2)历史:历史、考古、民族;(3)社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗;(4)经济:工业经济、农业经济、政治经济、财贸经济;(5)艺术:音乐、美术、舞蹈、戏剧;(6)文学:小说、散文、传记、报告文学、科幻、口语;(7)军体:军事、体育;(8)生活。

国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探* 王立非1,刘斌2 (1.南京大学, 江苏南京 210093; 2.解放军国际关系学院,江苏南京 210039) 摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一, 对开展口语语料库研究和语言习得研究具有重要价值,本文探讨该语料库 的录写系统的赋码原则与具体操作问题,对促进我国英语口语语料库的建 立和研究具有借鉴作用和启示意义。 关键词:国际儿童口语语料库;英语口语语料;语料库语言学 中图分类号:文献标识码:文章编号:The CHILDES Corpus: Coding and Operation of the CHAT Tool WANG Lifei1, LIU Bin2 (1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China) Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China. Key words: CHILDES;English spoken corpus;corpus linguistics 1.引言 新世纪的语言学研究已进入计算机时代,基于语料库的研究成果不断涌现,国际儿童口语语料库CHILDES(Child Language Data Exchange System)就是众多语料库中的一员,已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助,于1984年开始筹建,经过近20年的建设,已成为目前世界上最大的儿童口语语料库。到目前为止,该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载(https://www.360docs.net/doc/cf17741411.html,/CHA T.html)语料。CHILDES语料库由三部分组成,第一部分是儿童英语口语语料库(DATA-BASE),第二部分为文本赋码系统(CHAT),第三部分为语料分析程序(CLAN),均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作,目的是对我国建设英语口语语料库提供借鉴与启示。 2.录写赋码系统的途径与原则

可以免费使用的英语语料库资源

可以免费使用的大型英语语料库资源 常用语料库资源链接汇集(语料天涯) http://202.204.128.82/sweccl/Corpus/ https://www.360docs.net/doc/cf17741411.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.360docs.net/doc/cf17741411.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.360docs.net/doc/cf17741411.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.360docs.net/doc/cf17741411.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.360docs.net/doc/cf17741411.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.360docs.net/doc/cf17741411.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.360docs.net/doc/cf17741411.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.360docs.net/doc/cf17741411.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.360docs.net/doc/cf17741411.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

国外个主流语料库使用

1. The Complete Lexical Tutor http://www.lextutor.ca/ 参考期刊网上刘玉山,胡志军的介绍。 是一个语料库中心词索引软件(concordancer),加拿大魁北克大学Tom Cobb the University of Quebec at Montreal (UQAM), 开发 三部分:learners, researchers, teachers自我学习,研究,教师命题。 特别是concordance中有13个语料库为检索对象。还可以用来对学生作文中的用词分析。http://www.lextutor.ca/concordancers/concord_e.html 可以同时提供多个语料库的在线搜索,但缺点是每次只能对一个文本加工。 2.BNC 2014年开始,免费获得,通过BYU的申请。 British National Corpus 一亿词,书面语90%,口语10%,共4124篇文本,从1980到1993年的语料 英国牛津出版社﹑朗文出版公司﹑钱伯斯—哈洛普出版公司﹑牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库 共有七类 口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic 还有COCA分类中没有的两类non-academic, miscellaneous second edition BNC World (2001) third edition BNC XML Edition (2007) extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text 通常可进入的那个链接是BYU, 美国杨百翰大学提供的 BYU大学在2012年对语料库经行了重新附码,用的CLAWS 7 3. COCA: the corpus of contemporary American English Brigham Young University 美国犹他州杨百翰大学 Doctor Mark Davies 3.6亿,1990-2007年间,美国国内各种语料 口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic共五类语料来源 且持续更新中,每年以2000万词递增,目前到1990-2012,共4.5亿词 Display:显示方式,compare选项可以用来比较两个词的搭配区别,排列方式选择relevance 相关度 标记了语料的时间,便于研究语言历时与共时的变化 教学中相关用法 查找同义词,如[=scold].[V*]表示查找所有scold的同义词

英汉语料库汇总

1.英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大 2.大学英语学习者口语语料库 COLSEC (5万) 上海交大 3.香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学 4.中国英语专业语料库 CEME (148万) 南京大学 5.中国英语学习者口语语料库 SECCL (100万) 南京大学 6.国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大 7.硕士写作语料库 MWC (12万) 华中科技大学 9.平行语料库汉英平行语料库 PCCE 北外 10.南大-国关平行语料库南京大学 11.英汉文学作品语料库;外研社 12.冯友兰《中国哲学史》汉英对照语料库 13.李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库 14.计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所 15.柏拉图(Plato)哲学名著《理想国》的双语语料库 16.英汉双语语料库(15万对) 中科院软件所 17.英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所 18.英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学 19.英汉双语语料库(40-50万句子对) 哈尔滨工业大学 20.双语语料库(5万多对) 北京大学计算语言学研究所 21.对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学 22.平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾 23.特殊英语语料库中国英语(China English)语料库河南师范大学 24.军事英语语料库(Corpus of Military Texts) 解放军外语学院 25.新视野大学英语教材语料库上海交通大学 26.汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学 27.现代汉语语料库(1983年,2000万字) 北京航空航天大学 28.中学语文教材语料库(1983年,106万8000字) 北京师范大学 29.现代汉语词频统计语料库(1983年,182万字) 北京语言学院 30.国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会 31.《人民日报》语料库(2700万字) 北京大学计算机语言学研究所 32.大型中文语料库(5亿字,10分库) 北京语言文化大学 33.现代汉语语料库(1亿字) 清华大学 34.汉语新闻语料库;(1988年,250万字) 山西大学 35.标准语料库(2000年,70万字) 36.生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学 37.现代自然口语语料库中国社会科学院语言所 38.旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所 39.北京大学汉语语言学研究中心的三个语料库

相关文档
最新文档