中文词性标注集

中文词性标注集
中文词性标注集

POS_MAP = {

'n': ('名词', 'noun', {

'nr': ('人名', 'personal name', {

'nr1': ('汉语姓氏', 'Chinese surname'),

'nr2': ('汉语名字', 'Chinese given name'),

'nrj': ('日语人名', 'Japanese personal name'),

'nrf': ('音译人名', 'transcribed personal name') }),

'ns': ('地名', 'toponym', {

'nsf': ('音译地名', 'transcribed toponym'), }),

'nt': ('机构团体名', 'organization/group name'),

'nz': ('其它专名', 'other proper noun'),

'nl': ('名词性惯用语', 'noun phrase'),

'ng': ('名词性语素', 'noun morpheme'),

}),

't': ('时间词', 'time word', {

'tg': ('时间词性语素', 'time morpheme'),

}),

's': ('处所词', 'locative word'),

'f': ('方位词', 'noun of locality'),

'v': ('动词', 'verb', {

'vd': ('副动词', 'auxiliary verb'),

'vn': ('名动词', 'noun-verb'),

'vshi': ('动词"是"', 'verb 是'),

'vyou': ('动词"有"', 'verb 有'),

'vf': ('趋向动词', 'directional verb'),

'vx': ('行事动词', 'performative verb'),

'vi': ('不及物动词', 'intransitive verb'),

'vl': ('动词性惯用语', 'verb phrase'),

'vg': ('动词性语素', 'verb morpheme'),

}),

'a': ('形容词', 'adjective', {

'ad': ('副形词', 'auxiliary adjective'),

'an': ('名形词', 'noun-adjective'),

'ag': ('形容词性语素', 'adjective morpheme'),

'al': ('形容词性惯用语', 'adjective phrase'), }),

'b': ('区别词', 'distinguishing word', {

'bl': ('区别词性惯用语', 'distinguishing phrase'), }),

'z': ('状态词', 'status word'),

'r': ('代词', 'pronoun', {

'rr': ('人称代词', 'personal pronoun'),

'rz': ('指示代词', 'demonstrative pronoun', {

'rzt': ('时间指示代词', 'temporal demonstrative pronoun'),

'rzs': ('处所指示代词', 'locative demonstrative pronoun'),

'rzv': ('谓词性指示代词', 'predicate demonstrative pronoun'), }),

'ry': ('疑问代词', 'interrogative pronoun', {

'ryt': ('时间疑问代词', 'temporal interrogative pronoun'),

'rys': ('处所疑问代词', 'locative interrogative pronoun'),

'ryv': ('谓词性疑问代词', 'predicate interrogative pronoun'), }),

'rg': ('代词性语素', 'pronoun morpheme'),

}),

'm': ('数词', 'numeral', {

'mq': ('数量词', 'numeral-plus-classifier compound'),

}),

'q': ('量词', 'classifier', {

'qv': ('动量词', 'verbal classifier'),

'qt': ('时量词', 'temporal classifier'),

}),

'd': ('副词', 'adverb'),

'p': ('介词', 'preposition', {

'pba': ('介词“把”', 'preposition 把'),

'pbei': ('介词“被”', 'preposition 被'),

}),

'c': ('连词', 'conjunction', {

'cc': ('并列连词', 'coordinating conjunction'),

}),

'u': ('助词', 'particle', {

'uzhe': ('着', 'particle 着'),

'ule': ('了/喽', 'particle 了/喽'),

'uguo': ('过', 'particle 过'),

'ude1': ('的/底', 'particle 的/底'),

'ude2': ('地', 'particle 地'),

'ude3': ('得', 'particle 得'),

'usuo': ('所', 'particle 所'),

'udeng': ('等/等等/云云', 'particle 等/等等/云云'),

'uyy': ('一样/一般/似的/般', 'particle 一样/一般/似的/般'),

'udh': ('的话', 'particle 的话'),

'uls': ('来讲/来说/而言/说来', 'particle 来讲/来说/而言/说来'), 'uzhi': ('之', 'particle 之'),

'ulian': ('连', 'particle 连'),

}),

'e': ('叹词', 'interjection'),

'y': ('语气词', 'modal particle'),

'o': ('拟声词', 'onomatopoeia'),

'h': ('前缀', 'prefix'),

'k': ('后缀', 'suffix'),

'x': ('字符串', 'string', {

'xe': ('Email字符串', 'email address'),

'xs': ('微博会话分隔符', 'hashtag'),

'xm': ('表情符合', 'emoticon'),

'xu': ('网址URL', 'URL'),

'xx': ('非语素字', 'non-morpheme character'), }),

'w': ('标点符号', 'punctuation mark', {

'wkz': ('左括号', 'left parenthesis/bracket'),

'wky': ('右括号', 'right parenthesis/bracket'),

'wyz': ('左引号', 'left quotation mark'),

'wyy': ('右引号', 'right quotation mark'),

'wj': ('句号', 'period'),

'ww': ('问号', 'question mark'),

'wt': ('叹号', 'exclamation mark'),

'wd': ('逗号', 'comma'),

'wf': ('分号', 'semicolon'),

'wn': ('顿号', 'enumeration comma'),

'wm': ('冒号', 'colon'),

'ws': ('省略号', 'ellipsis'),

'wp': ('破折号', 'dash'),

'wb': ('百分号千分号', 'percent/per mille sign'),

'wh': ('单位符号', 'unit of measure sign'), }),

}

现代汉语词性专题练习资料

现代汉语词性专题练 习

现代汉语词性专题练习 一、选择题 1.能带宾语的是()A名词 B动词 C形容词 D副词 2.“上来”是()A助动词 B判断动词 C趋向动词 D及物动词 3.“不、没”都是()A程度副词 B时间副词 C范围副词 D否定副词 4.“很、挺、十分”是()A程度副词 B范围副词 C语气副词 D情态副词 5.“我、你、他”是()A指示代词 B疑问代词 C人称代词 D名词 6.“他在黑板上写字”的“在”是()A动词 B副词 C介词 D方位词 7.“哎哟”是()A拟声词 B语气词 C叹词 D助词 8.代词包括()A人称代词 B指示代词 C疑问代词 D代名词 E代动词 9.虚词包括()A介词 B副词 C连词 D助词 E语气词 10.“报告”一词兼()A名词 B动词 C形容词 D连词 E代词 11.“和、跟、同、与”兼()A动词 B连词 C介词 D副词 E助词 12.下列语句中的“在”不属于介词的是() A我在家 B他在黑板上写字 C把东西放在桌子上 D他在看书 E在家要孝顺父母 13.下列句子中不属于介词“跟”的有()。 A我跟他一起去的 B你跟他要 C谁跟谁都没关系 D你抽空跟他谈谈 E你快跟着我走 二、指出下列词的词性:非常()这里()前后()小()哪里()终于()已经()不()赋予()轰隆()得()大()忽然 ()简直()才()半夜()除了()很多()勇敢()思想 ()啊()或许()只好()二万()迅速()进来()仅仅 ()立刻()

热爱()十几棵()喜欢()大约()次()哗啦()下去() 斟酌()怎样()起来()晚上()亩()前面()或者() 对于()跟()是()三百()美丽()叮当()夏天()鲁迅()我们()批评()的()吧()平坦()有()变化()十分()自己()聪明()从()专家()扩大()缓慢()应该() 按照()回来()喂()马上()消失()飞机()许多() 简直() 三、.指出下列句子中加标记词所属的词类。 (1)这件事已经讨论过了。(过)()(2)天渐渐冷起来了。(渐渐)() (3)他正在教室里看书。(正)()(4)自行车他骑出去了。(出去)() (5)我拿着—本书。(着)()(6)你吃了饭再走。(了)() (7)他是外国人吗?(吗)()(8)你应该努力学外语。(努力)()(9)他刚才来过。(刚才)()(10)最好听的是这首歌。(最)()(11)房子上面铺着瓦。(上面)()(12)这是一本袖珍词典。(袖珍)() (13)老张请我吃饭。(请)()(14)幸亏他来。(幸亏)() (15)我忽然想起来了。(忽然)()(16)这件事很突然。(突然)()(17)无论谁都说好。(无论)()(18)他连忙说不行。(连忙)()

CTB 词性标注中文版翻译

CTB词性标注指南 第一章 引言 中文几乎没有屈折语素。譬如,词语不随时态、格、人称和数量而曲折变化。因此,对特定文本中的词进行词性标注往往都很困难。 这个文件是专为宾州中文树库项目[XPS+00]所设计的。这个项目的目标是构建一个十万词的有语法托架的中文官话文本语料库。标注包括两个步骤:第一阶段是中文分词和词性标注,第二阶段是句法托架。每个步骤包括至少两个经过,即数据库由一个标注者标注,结果文件由另一个标注者检查。 词性标注指南,就如分词指南和托架指南,在项目进行过程中已经修订了多次。到目前为止,我们已经在我们的网站上发行了三个版本:第一部草作完成于1998年12月,在第一个中文分词和词性标注文件发行后;第二部草作完成于1999年3月,在第二个中文分词和词性标注文件发行后;这个文件,是第三部草作,修订于第二个托架文件发行后。在这个第三部草作中,与前两部草作相比,主要改变在于:(1)我们增加了一章引言来解释指南中存在的一些基本原理;(2)我们增加了对中文词语的注释;(3)我们把这个指南写成了一个技术性报告,报告被发表于宾夕法尼亚大学认知科学研究机构(IRCS)。 1.1 标注标准 词性标注(POS)的核心问题是词性标注是否应该基于意义或者句法分布来标注。这个问题自1950年以来就被热烈争论到现在,并且始终存在两种不同的观点。譬如,中文词“毁灭”可以被翻译为英文中的destroy或destroys或destroyed或destroying或destruction,并且如它英文所对应的词一样使用。根据第一种观点,词性标注应该只基于意义。因为词的意义在它所有的用法中基本都是一样的,它就应该总是被标注为一个动词。第二种观点是词性标注应该由词的句法分布来决定。当“毁灭”是一个名词短语的首词,它在那个文本中就应该被标注为一个名词;当“毁灭”是一个动词短语的首词,它就应该被标注为一个动词。 我们选择了句法分布作为我们词性标注的主要标准,因为这与当代语言学理论所采纳的原则一致,譬如X-bar理论和GB理论中的首字投射概念。 由于很多中文动词也出现在名词位置,因此需要两个词性标注标记,这就导致使用句法分布方法将会扩大词典的规模,因此这个原因常被用来反对句法分布方法。我们认为这个观点不足以让人信服,主要有如下两个理由。首先,两个词性标注标记可以让我们区别可以出现在名词位置的动词和不可以出现名词位置的动词(譬如单音词动词和重叠词形式的动词如AABB,A不A)。如果存在动词可以出现在名词位置或者不能出现在名词位置的实词虚化现象,这些实词虚化可以被看做构形规则,这会使得词典自动被扩大。另一方面,如果不存在这样的实词虚化现象并且名词化过程大部分都很特殊,这就验证了一个观点:这是一个词汇现象并且那些可以被名词化的动词在词典中应该有两个词性标注标记。其次,很多动词可以出现在名词位置的现象并不只存在于中文,在其他语言中设立的标准也是给予这些词两个标记。 1.2 词性标注标记集 我们的词性标注标记集有33种标记: 动词,形容词(4):V A,VC,VE,VV。

现代汉语的词性分类

现代汉语的词可以分为两类12种词性。一类是实词:名词、动词、形容词、数词、量词和代词。一类是虚词:副词、介词、连词、助词、叹词和拟声词。 实词 一.名词 表示人和事物的名称叫名词。如“黄瓜、猪、马、羊、白菜、拖拉机、计算机”。 1、表示专用名称的叫做“专用名词”,如“云南、上海、李白、白居易,中国”。 2、表示抽象事物的名称的叫做“抽象名词”,如“范畴、思想、质量、品德、品质、友谊、方法”。 3、表示方位的叫做“方位名词”,如“上、下、左、右、前、后、中、东、西、南、北、前面、后边、东边、南面、中间”等。二.动词 动词表示人或事物的动作、行为、发展、变化。 1、有的动词表示一般的动作,如"来、去、说、走、跑、吼、叫、学习、起飞、审查、认识"等。 2、有的动词表示心理活动,如“想、重视、注重、尊敬、了解、相信、佩服、惦念”等,这样的动词前面往往可以加上“很、十分”。 3、有的动词表示能够、愿意这些意思,叫做“能愿动词”,它们是

“能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须”,这些能愿动词常常用在一般的动词前面,如“得去、能够做、可以考虑、愿意学习、应该说明、可能发展”。 4、还有一些动词表示趋向,叫做“趋向动词”,如“来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起来”,它们往往用在一般动词后面表示趋向,如“跳起来、走下去、抬上来、跑过去”。 5、“是”“有”也是动词,跟动词的用法一样,“是”也成为判断动词。 三.形容词 形容词表示事物的形状、性质、颜色、状态等,如“多、少、高、矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色”。状态形容词通红、雪白、红通通、黑不溜秋等前面不能加“很”。 四.数词 数词是表示事物数目的词。如“一、二、两、三、七、十、百、千、万、亿、半”。 五.量词 量词是表示事物或动作单位的词。汉语的量词分为名量词和动量词。 1、名量词表示事物的数量,又可以分为单位量词和度量量词。单位量词表示事物的单位,如“个、张、、只、支、本、台、架、辆、颗、

HanLP

HanLP HanLP下载 文档 联系 关于调用简单欢迎使用HanLP HanLP v1.2.7HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言 处理在生产环境中的应用。不仅仅是分词,而是提供词法分析、句法分析、语义理解等完备的功能。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。Download Free & Open SourceHanLP完全开源,包括词典。不依赖其他jar,底层采用了一系列高速的数据结构,如双数组Trie树、DAWG、AhoCorasickDoubleArrayTrie等,这 些基础件都是开源的。官方模型训练自2014人民日报语料库,您也可以使用内置的工具训练自己的模型。 Star Me Easy to Use

通过工具类HanLP您可以一句话调用所有功能,文档详细,开箱即用。底层算法经过精心优化,极速分词模式下可达2,000万字/秒,内存仅需120MB。在IO方面,词典加载速度极快,只需500 ms即可快速启动。HanLP经过多次重构,欢迎二次开发。Documentation组件一览技术参数 HanLP v1.2.7的特征: 最高分词速度2,000万字/秒(极速分词,2.0GHz i7) 35万词典,覆盖现代汉语常用词、网络新词等 337万接续BiGram文法模型 500 ms 词典加载 训练自2014年人民日报切分语料 词语标注集兼容《ICTPOS3.0汉语词性标记集》 词语标注集兼容《现代汉语语料库加工规范——词语切分与词性标注》 最低内存要求120 MB(-Xms120m -Xmx120m -Xmn64m)基于双数组Trie的AhoCorasick自动机算法实现O(n)多模

现代汉语词性及专题训练、答案

现代汉语词类专题练习 一、选择题 1.能带宾语的是()。A名词B动词C形容词D副词 2.“上来”是()A助动词B判断动词C趋向动词D及物动词 3.“不、没”都是()A程度副词B时间副词C范围副词D否定副词 4.“很、挺、十分”是()A程度副词B范围副词C语气副词D情态副词 5.“我、你、他”是()A指示代词B疑问代词C人称代词D名词 6.“他在黑板上写字”的“在”是()A动词B副词C介词D方位词 7.“哎哟”是()A拟声词B语气词C叹词D助词 8.代词包括()A人称代词B指示代词C疑问代词D代名词E代动词 9.虚词包括()A介词B副词C连词D助词E语气词 10.“报告”一词兼()A名词B动词C形容词D连词E代词 11.“和、跟、同、与”兼()A动词B连词C介词D副词E助词 12.下列语句中的“在”不属于介词的是() A我在家B他在黑板上写字C把东西放在桌子上 D他在看书E在家要孝顺父母 13.下列句子中不属于介词“跟”的有()。 A我跟他一起去的B你跟他要C谁跟谁都没关系 D你抽空跟他谈谈E你快跟着我走 二、指出下列词的词性: 非常()这里()前后()小()哪里()终于()已经()不()赋予()轰隆()得()大()忽然()简直()才()半夜()除了()很多()勇敢()思想()啊()或许()只好()二万()迅速()进来()仅仅()立刻()热爱()十几棵()喜欢()大约()次()哗啦()下去()斟酌()怎样()起来()晚上()亩()前面()或者()对于()跟()是()三百()美丽()叮当()夏天()鲁迅()我们()批评()的()吧()平坦()有()变化()十分()自己()聪明()从()专家()扩大()缓慢()应该()按照()回来()喂()马上()消失()飞机()许多()简直() 三、.指出下列句子中加标记词所属的词类。 (1)这件事已经讨论过了。(过)()(2)天渐渐冷起来了。(渐渐)() (3)他正在教室里看书。(正)()(4)自行车他骑出去了。(出去)()

当代汉语文本语料库分词词性标注加工规范

973当代汉语文本语料库分词、词性标注加工规范 (草案) 山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。这次承担973任务后制定出本规范。本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。 《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。 1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年 2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布 3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年 北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年 北京大学计算语言学研究所 5.《信息处理用现代汉语词类标记规范》,2002年, 教育部语言文字应用研究所计算语言学研究室 6.《现代汉语语料库文本分词规范说明》,2000年 山西大学计算机科学系山西大学计算机应用研究所 7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会 一、分词总则 1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。追求分词后语料的一致性(consistency)是本规范的目标之一。 2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。本文中仍用“词”来称谓“分词单位”。 3.分词中充分考虑形式与意义的统一。形式上要看一个结构体的组成成分能否单用,结构体能否扩展,组成成分的结构关系,以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性。 4. 本规范规定的分词原则及规则,既要适应语言信息处理与语料库语言学研究的需要,又力求与传统的语言学研究成果保持一致;既要适合计算机自动处理,又要便于人工校对。 5.分词时遵循从大到小的原则逐层顺序切分。一时难以判定是否切分的结构体,暂不切分。 二、词性标注总则 信息处理用现代汉语词性标注主要原则有三个: (1)语法功能原则。语法功能是词类划分的主要依据。词的意义不作为划分词类的主要依据,但有时也起着某些参考作用。

基于SVMTOOL的越南语词性标注

摘要:当前已有很多种方法用于词性标注,词性标注的本质是序列标注问题。它是信息抽取、信息检索、句法分析、语义角色标注等众多中文自然语言处理任务的基础。本文将基于svm 的svmtool应用到越南语词性标注上。标注集按照越南语的词性和符号共分为28种标注,训练语料包含25万词,实现了的越南语词性注,取得了较好的效果,准确率达到96.01%。 关键词:词性标注;越南语;自然语言处理;svmtool 中图分类号:tp391.1 文献标识码:a 文章编号:1006-4311(2016)20-0159-03 0 引言 词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。词性标注是自然语言处理中一项非常重要的基础性工作[1]。词性标注工作作为老挝语命名实体识别、依存句法分析、词义消歧、语义角色标注等研究工作的重要基础,并且应用于如文本索引、文本分类、语料库加工等众多领域。越南语是一门重要的东方语言,由于其书写形式及本身的词汇构成与英语及汉语呈现相似的一面又具有自己的特点,它采用的是扩展的拉丁符号;在组成上,越南语单音节词居多;在形态上,语法意义是通过语法词等词来实现。以上特点使得越南语与西方语言与东方语言既有相似之处,又有区别。越南语是一种孤立语,动词无变化,词既没有文法上的性别跟数的形式,也没有文法上格的变化,形容词也不需要跟被修饰的名词保持文法上的性、数、格上的一致。它以不变的根词的词序和虚词来表示语法关系。句子的主语在谓语之前,宾语和补语在动词之后,名词修饰语一般在名词之后,但数词、量词修饰语在名词之前。词序或虚词改变后,语义也随之而变。 目前,国内外对中文文本词性标注、欧美国家多种语言的词性标注技术的研究比较成熟[2][3],而对东南亚国家语言,只有越南河内国家大学khong phtrong博士进行过越南语文本处理相关研究,他们使用的方法是最大熵,准确率为95%左右,还有越南国内vlsp课题组进行了相关研究,其词性标注准确率为93%。越南语词性标注面临的难点主要是它属于意合型语言,缺乏词形态变化,词的类别不能像印欧语那样,直接从词的形态变化上来判别。 当前,很多基于统计的方法用于词性标注,如隐马尔科夫模型(hmm)[4],最大熵(me),条件随机场(crf)[5]和支持向量机[6]。其中基于svm的svmtool[7]符合自然语言处理技术的要求,具有简单、灵活、高效等特点。词性标注可以看作是多分类问题。 本文将简单介绍svm原理、如何将二分类器应用于多分类问题中及如何将svmtool应用于越南语词性标注问题。 4 实验结果 在实验中,采用了本文定义的30种词类组成的标注集,语料是从越南语相关网站上获取的包含约30万词,内容涉及政治、经济、文化、地理等题材。在词典数量不变的条件下,分别对5万、10万…30万词的语料进行开放和封闭测试。 4.1 不同规模训练语料实验 在进行封闭测试时,首先分别以5万、10万…25万词的语料进行训练,建立模型,然后从用来训练的语料中取5万词的语料重新进行词性标注,求出每一个句子的最佳词性标注序列,即完成了封闭测试。 在进行开放测试时,先从30万的语料库中抽出含5万词的句子,这些句子不参与训练,用于后面的测试。同样的也是分别以5万、10万…25万词的语料进行训练,并对测试集进行词性标注,从而完成了开放测试。 封闭测试和开放测试准确率与训练语料规模的关系如表2所示。 4.2 不同词性标注方法的比较 本文进行了与最大熵模型的比较。采用的语料是是含25万词的越南语词性标注语料作为训练语料,对含5万词的越南语文本进行标注,实验结果如表3所示。

汉语语料库词性标注自动校对方法研究

收稿日期:2004-06-15;修订日期:2004-11-27 基金项目:国家863计划资助项目(2001AA4031) 作者简介:张虎(1979-),男,山西大同人,硕士研究生,主要研究方向:中文信息处理; 郑家恒(1948-),女,山西太原人,教授,主要研究方 向:中文信息处理; 刘江(1980-),男,山西太原人,硕士研究生,主要研究方向:中文信息处理. 文章编号:1001-9081(2005)01-0017-03 汉语语料库词性标注自动校对方法研究 张 虎,郑家恒,刘 江 (山西大学计算机与信息技术学院,山西太原030006) (four_tiger@https://www.360docs.net/doc/7218282305.html,) 摘 要:从聚类和分类的角度入手,对大规模语料库中的词性标注的自动校对问题作了分析,提出了语料库词性标注正确性检查和自动校对的新方法。该方法利用聚类和分类的思想,对范例进行聚类并求出阈值,根据阈值,判定词性标注的正误;对标注错误的词性,按靠近各词性类别重心的原则归类,给出一个校对词性,进而提高汉语语料库词性标注的准确率。 关键词:聚类;词性标注;自动校对中图分类号:TP391 文献标识码:A Study on auto -proofreading method for POS tagging of Chinese corpus ZHANG Hu,ZHENG Jia -heng,LIU Jiang (College o f Computer &In f ormation Technology ,Shan xi University ,Taiyuan Shanxi 030006,China) Abstract:The auto -proofreading problem in the large -scale corpus was analyzed,and a new method inspecting the correctness of POS tagging and an auto -proofreading method based on clustering and classifying were put https://www.360docs.net/doc/7218282305.html,ing clustering and classifying,the method firstly classified the sequences of part of speech of the example and got the threshold value.Then according to the threshold value,it classified the tes t sequences to judge its correctness,and gave out a proofreading POS to the wrong POS Tagging.Furthermore,i t enhanced the correctness ratio of the part of speech tagging on large -scale corpus. Key words:clustering;POS Tagging ;au to -proofreadi ng 0 引言 随着语料库语言学研究的兴起,建设高质量的大规模语料库已成为首要任务。语料库作为研究资源其价值是通过对语料的标注来体现的,对语料库标注得越准确,语料库的价值就越高。 近年来国内外对词性标注的研究有很多,大多是采用基于规则和基于统计的方法,标注正确率分别达到89%和96%[5]。对错误标注结果进行分析,可以看出,无论哪种标注算法都有其固有缺陷:概率标注方法总会抑制小概率事件的发生,而规则方法本质上说是一种确定性的演绎推理方法,因此它们很难对词性标注的准确率进行进一步的提高。显然,这样的准确率仍然严重影响语料库的加工质量。 要对标注错误的词性进行自动校对,一个首要问题是词性标注的正确性检查。受一些文献的启发[6],本文提出了基于聚类和分类的词性标注自动校对的方法。该方法首先随机抽出一些含有兼类词的句子,经人工校对后,将含有相同兼类词的词性序列进行聚类并求出阈值;然后根据阈值对每个含有兼类词的词性序列进行逐一分类;通过计算相似度,找出标有该类的词性但相似度不在该类的阈值范围之内的序列,这些序列就被认为是词性标注不正确的;对词性标注错误的词性,按靠近各词性类别重心的原则归类,给出一个校对词性。我们对网上下载的中文核心期刊中的50万语料进行实验,正 确性检查的有效性约为76%,准确率约为83%,自动校对的准确率约为70%,对词性标注的准确率可以提高2~3个百分点。 1 词性错标现象分析 语料库中已标注词性的词语有两种标注结果:单标记词语和多标记词语。所谓单标记词语,即在语料库中只有一种词性标记的词语;多标记词语则为在语料库中标有两种或两种以上词性的词语。我们所做的正确性检查是针对多标记词语而言的。经分析,这些多标记词语包括两种情况: 1)词表中是单标记词语,但在语料中标了不同的词性,出现了词性标注的不正确。 词条:量化 语料中的多标记词性:k 、v 错例:所/u 获得/v 的/u 部分/n 集体/n 量化/k 资产/n 不/d 允许/vu 转让/v 校正词性:v 分析:/量化0这一词是非兼类词,在词表中只有v 这一唯一词性,没有标注k 的词性。 2)词表中是兼类词,即有不同标记的词语,这部分词语可能存在词性标注错误,即:在相同的语境中出现了不同的词性。 词条:高 第25卷第1期 2005年1月 计算机应用Computer Applications Vol.25No.1Jan.2005

现代汉语词性及专题训练答案

现代汉语词性及专题训 练答案

现代汉语词性及专题训 练答案 Pleasure Group Office【T985AB-B866SYT-B182C-BS682T-STT18】

现代汉语词性 一.名词 表示人和事物的名称叫。如:黄瓜、猪、羊、白菜、拖拉机、计算机。 1、表示专用名称的叫做专用名词,如云南、上海、、白居易,中国。 2、表示抽象事物的名称的叫做抽象名词,如范畴、思想、质量、品德、品质、友谊、方法。 3、表示方位的叫做方位名词,如上、下、左、右、前、后、中、东、西、南、北、前面、后边、东边、南面、中间等。 二.动词 表示人或事物的动作、行为、发展、变化。 1、有的动词表示一般的动作,如来、去、说、走、跑、吼、叫、学习、起飞、审查、认识等。 2、有的动词表示心理活动,如想、重视、注重、尊敬、了解、相信、佩服、惦念等,这样的动词前面往往可以加上"很、十分"。 3、有的动词表示能够、愿意这些意思,叫做,它们是能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须,这些能愿动词常常用在一般的动词前面,如得去、能够做、可以考虑、愿意学习、应该说明、可能发展等 4、还有一些动词表示趋向,叫做趋向动词,如来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起,它们往往用在一般动词后面表示趋向,如跳起来、走下去、抬. 5、"是、有"也是动词,跟动词的用法一样,“是”也成为判断动词。 三.形容词 表示事物的形状、性质、颜色、状态等,如多、少、高、矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色…… 状态形容词通红、雪白、红通通、黑不溜秋等前面不能加“很”。 四.数词 是表示事物数目的词。如一、二、两、三、七、十、百、千、万、亿、半……五.量词 量词是表示事物或动作单位的词。汉语的量词分为名量词和动量词。 1、名量词表示事物的数量,又可以分为单位量词和度量量词。 单位量词表示事物的单位,如个、张、、只、支、本、台、架、辆、颗、株、头、间、把、扇等; 度量量词表示事物的度量,如寸、尺、丈、斤、两、吨、升、斗、加仑、、欧姆、立方米等。 2、动量词表示动作的数量,用在动词前后表示动作的单位,如次、下、回、趟、场… 六.代词 能代替实词和。表示指称时,有定指和不定指的区别。不定指往往是指不确定的人、物或某种性状、数量、程度、动作等。他不常指某一定的人物,也就不可能有一定意义,介乎虚实之间。 1、:代替人或事物的名称。如我、你、您、他、她、它、我们、你们、他们、她们、它们、咱们、自己、别人、大家、大伙……(自己能和其他代词连用,起强调作用。例如:我自己、你们自己、大家自己等)

词性标注说明_128601491

人民日报标注语料库(PFR)使用说明书 本文是PFR标注语料库的使用说明书,帮助用户了解它,更好地使用它。 PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz);从语言学角度也增加了一些标记,总共使用了40多个个标记。

二.格式说明 1.语料是纯文本文件,文件中每一行代表一自然段或者一个标题,一篇文章有若干个自然段,因此在语料中一篇文章是由多行组成的。 2.文件名格式为“月-日-版号-篇章号”。 3.一篇文章里面的段落之间是不空行的,在两篇文章之间,会有一个空行,表示文章的分界线,同时,下一篇文章的“篇章号-段号”都会有所改变。 4.标号之后,是2个单字节空格,然后开始正文。 5.正文部分按照规范已经切分成词,并且加上标注,标注的格式为“词语/词性”,即词语后面加单斜线,再紧跟词性标记。词与词之间用2个单字节空格隔开。每段最 后的词,在标记之后也有2个单字节空格,保持格式一致。 6.语料中除了词性标记以外,还有“短语标记”,这种情况一般出现在机构团体名称、成语等情况中。如“通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w”中,用 “[ ]”合起来的部分是一个完整的机构团体名称,方括号后面紧跟标注nt,nt之后 空两个单字节空格,保持了格式的一致。 三.例子 迈向/v 充满/v 希望/n 的/u 新/a 世纪/n ——/w 一九九八年/t 新年/t 讲话/n (/w 附/v 图片/n 1/m 张/q )/w …… 在/p 1998年/t 来临/v 之际/f ,/w 我/r 十分/m 高兴/a 地/u 通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w [中国/ns 国际/n 广播/vn 电台/n]nt 和/c [中央/n

关于现代汉语词语的语法功能分类

关于现代汉语词语的语法功能分类 俞士汶 北京大学计算语言学研究所 1.信息处理用现代汉语词语分类体系 在朱德熙先生的语法理论的指导下,北大计算语言学研究所与中文系合作,经过几年的研究,提出了一个服务于语言信息处理的现代汉语词语分类体系,并将数以万计的词语实际进行了归类,与此同时还按类详细描述了每个词语的多种语法属性,初步建成了“现代汉语语法电子词典”,另外对数十万字的语料进行了切分和词性标注。这就又进一步检验了词类划分的科学性与可操作性。这到如此规模和如此浓度的汉语语言工程实践可能是罕见的。 本文介绍现代汉语词语分类体系、分类的理论基础,并以若干词类例详细介绍具体的划类准则。 现代汉语的词分以下18个基本词类,括号中的拉丁字母是各个词类的代码。 名词(n),时间词(t),处所词(s),方位词(f),数词(m),量词(q),区别词(b),代词(r),动词(v),形容词(a),状态词(z),副词(d),介词(p),连词(c),助词(u),语气词(y),拟声词(o),叹词(e)。 这些基本词类可以合并为较大的词类。名词、时间词、处所词、方位词、数词、量词统称为体词,动词、形容词、状态词统称为谓词。有一部分代词属于体词,另一部分代词属于谓词。体词、谓词、区别词和副词又合称为实词。介词、连词、助词、语气词合称虚词。实词与虚词是汉语两大词类。此外还有拟声词与叹词,它们游离于这两大词类之外。 自然语言处理的常规技术要求庆自然语言处理系统中配备一部电子词典。对于计算机来说,可以认为作为电子词典的登录项的语言单位是“词”。基本中大部分肯定是语言学家认同的词,这也就是暗示了其中一部分不能看作“词”。从计算机处理实际文本的需要出发,从提高计算机处理效率的角度考虑,词典中另外包含了以下7类语言成分: 前接成分(h):阿,老,非,超,单 后接成分(k):儿,子,性,员,器 语素字(g):民,衣,失,遥,郝 非语素字(x):鸳,批,蚣 成语(i):接部就班,八拜之交 习用语(l):总而言之,由此可见 简称略语(j):三好,全总 前4类是比“词”更小的单位,不成词。这些成分的数量是有限的,只要电子词典的规模允许,应当尽可能地将这些成分全部收入。后3类是比“词”更大的单位,词典中只能收一部分使用频率高的。本文将电子词典中登录的各种语言万分笼统地叫做“词语”。

计算所汉语词性标记集ICTPOS3.0

计算所汉语词性标记集 Version 3.0 制订人:刘群张华平张浩 0.说明 计算所汉语词性标记集主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。本标记集主要参考了以下词性标记集: 1.北大《人民日报》语料库词性标记集; 2.北大2002新版词性标记集(草稿); 3.清华大学汉语树库词性标记集; 4.教育部语用所词性标记集(国家推荐标准草案2002版); 5.美国宾州大学中文树库(ChinesePennTreeBank)词性标记集; 由于计算所的汉语词法分析器主要采用北大《人民日报》语料库进行参数训练,因此本词性标记集主要以北大《人民日报》语料库的词性标记集为蓝本,并参考了北大《汉语语法信息词典》中给出的汉语词的语法信息。 本标记集在制定过程中主要考虑了以下几方面的因素: 1.有助于提高汉语词法分析器的切分和标注正确率; 2.有助于提高汉语句法分析器的正确率; 3.有助于汉英机器翻译系统进行翻译; 4.易于从北大《人民日报》语料库词性标记集进行转换; 5.对于语法功能不同的词,在不造成词法分析和句法分析歧义区分困难的情况下, 尽可能细分子类。 基于以上考虑,我们在标注过程中尽量避免那些容易出错的词性标记,而采用那些不容易出错、而对提高汉语词法句法分析正确率有明显作用的标记。例如,在动词的子类中,我们参考了宾州大学中文树库的做法,把汉语动词“是”和“有”分别做成单独的标记,而没有采用“系动词”的标记。因为同样是“是”这个动词,其句法功能很多,作“系动词”只是其中一种功能,而要区分这些功能是非常困难的,会导致词法分析的正确率下降。 在名词子类中,我们区分了“汉语人名”、“日语人名”和“翻译人名”,这不仅仅是因为这三种人名要采用不同的参数进行训练与识别,而且在汉英机器翻译中也要采用不同的分析算法进行翻译。又如,我们把表示时间的“数词+‘年’”(如“1995年”)合并成一个时间词,而表示年头的“数词+‘年’”分别标注为“数词”和“量词”,这是因为我们通过实验发现这种区分在词法分析阶段通过统计方法可以达到较高的正确率,而且这种区分对于后续的句法分析和机器翻译有非常重要的作用。 对于某些词类(助词和标点符号),基本上是一个封闭集,而这些词类中各个词的语法功能相差很大,在这种情况下,我们尽可能地细分其子类。 另外,与其他词性标记集类似,在我们的标记体系中,小类只是大类中一些有必要区分的一些特例,但小类的划分不满足完备性。

现代汉语词性专题训练答案

现代汉语词性专题训练、答案. 现代汉语词性专题练习 一、选择题 1.能带宾语的是()。A名词B动词C形容词D副词 2.“上来”是()A助动词B判断动词C趋向动词D及物动词

3.“不、没”都是()A程度副词B时间副词C范围副词D否定副词 4.“很、挺、十分”是()A程度副词B范围副词C语气副词D情态副词 5.“我、你、他”是()A指示代词B疑问代词C人称代词D名词 6.“他在黑板上写字”的“在”是()A动词B副词C介词D方位词 D助词7.“哎哟”是()A拟声词B语气词C叹词 8.代词包括()A人称代词B指示代词C疑问代词ED代名词代动词 C连词B副词9.虚词包括()D助词E语气词A介词 10.“报告”一词兼()A名词BE动词C形容词D连词 代词D副词11.“和、跟、同、与”兼()A动词B连词C介词 助词E12.下列语句中的“在”不属于介词的是() A我在家B他在黑板上写字C把东西放在桌子上 D他在看书 E 在家要孝顺父母

13.下列句子中不属于介词“跟”的有()。 A我跟他一起去的B你跟他要C谁跟谁都没关系 E你快跟着我走你抽空跟他谈谈D二、指出下列词的词性: 非常()这里()前后()小()哪里()终于()已经()不()赋予()轰隆()得()大()忽然()简直()才()半夜()除了()很多()勇敢()思想()啊()或许()只好()二万()迅速()进来()仅仅()立刻()热爱()十几棵()喜欢()大约()次()哗啦()下去()斟酌()怎样()起来()晚上()亩()前面()或者()对于()跟()是()三百()美丽()叮当()夏天()鲁迅()我们()批评()的()吧()平坦()有()变化()十分()自己()聪明()从()专家()扩大()缓慢()应该()按照()回来()喂()马上()消失()飞机()许多()简直() 三、.指出下列句子中加标记词所属的词类。 )((渐渐))天渐渐冷起来了。2()((过))这件事已经讨论过了。1(. ))(4)自行车他骑出去了。(出去)((3)他正在教室里看书。(正)( )6)()你吃了饭再走。(了)((5)我拿着—本书。(着)( )(8)你应该努力学外语。(努力)((7)他是外国人吗?(吗)())10)最好听的是这首歌。(最)((刚才)(9)他刚才来过。()()12)这是一本袖珍词典。(袖珍)((11)房子上面铺着瓦。(上面)()

汉语词性标注

湖南文理学院课程设计报告 课程名称:计算机软件技术基础 系部:电信系 专业班级:通信工程T09103班 学生姓名:刘程程 指导教师: 完成时间:2011.12.28 报告成绩:

目录 中文摘要 .................................................................................................................................................................... I ABSTRACT ............................................................................................................................................................ II 第一章引言 (1) 1.1背景和意义 (1) 1.2词性标注定义及其困难 (1) 1.2.1词性的定义 (2) 1.2.2词性标注的难点 (2) 第二章基础理论介绍 (3) 2.1隐马尔科夫模型(H1DDEN M ARKOV M ODEL,HM) (3) 2.2HMM用于词性标注 (4) 第三章改进HMM标注模型与参数估计 (4) 3.1改进HMM模型词性标注 (4) 3.2参数估计 (5) 3.2.1训练语料库 (5) 3.2.2当用数据库 (5) 第四章改进VITERBI算法标注 (7) 4.1标注过程 (7) 4.2改进后的V ITERBI算法的具体描述 (7) 第五章实验结果与分析 (8) 5.1评价标准 (8) 5.2实验结果 (9) 5.3错误分析 (10) 参考文献 (11)

基于改进的隐马尔科夫模型的汉语词性标注

课程设计报告 课程名称:计算机软件技术基础 系部: 专业班级: 学生姓名: 指导教师: 完成时间: 报告成绩: 评阅意见: 评阅教师日期

基于隐马尔科夫模型的汉语标注

目录 中文摘要 .................................................................................................................................................................... I ABSTRACT ..............................................................................................................................................................II 第一章引言 . (1) 1.1背景和意义 (1) 1.2词性标注定义及其困难 (1) 1.2.1词性的定义 (1) 1.2.2词性标注的难点 (2) 第二章基础理论介绍 (3) 2.1隐马尔科夫模型(H1DDENMARKOVMODEL,HM) (3) 2.2HMM用于词性标注 (4) 第三章改进HMM标注模型与参数估计 (5) 3.2参数估计 (6) 3.2.1训练语料库 (6) 3.2.2当用数据库 (6) 第四章改进VITERBI算法标注 (7) 4.1标注过程 (7) 4. 2改进后的VITERBI算法的具体描述 (8) 4.3标注实例 (9) 第五章实验结果与分析 (11) 5.1评价标准 (11) 5.2实验结果 (12) 5.3错误分析 (13) 参考文献 (14) 实习心得 (15)

现代汉语词性及专题训练答案汇编

学习-----好资料 现代汉语词性 一.名词 表示人和事物的名称叫名词。如:黄瓜、猪、羊、白菜、拖拉机、计算机。 1、表示专用名称的叫做专用名词,如云南、上海、李白、白居易,中国。 2、表示抽象事物的名称的叫做抽象名词,如范畴、思想、质量、品德、品质、友谊、方法。 3、表示方位的叫做方位名词,如上、下、左、右、前、后、中、东、西、南、北、前面、后边、东边、南面、中间等。 二.动词 动词表示人或事物的动作、行为、发展、变化。 1、有的动词表示一般的动作,如来、去、说、走、跑、吼、叫、学习、起飞、审查、认识等。 2、有的动词表示心理活动,如想、重视、注重、尊敬、了解、相信、佩服、惦念等,这样的动词前面往往可以加上很、十分。 3、有的动词表示能够、愿意这些意思,叫做能愿动词,它们是能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须,这些能愿动词常常用在一般的动词前面,如得去、能够做、可以考虑、愿意学习、应该说明、可能发展等 4、还有一些动词表示趋向,叫做趋向动词,如来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起,它们往往用在一般动词后面表示趋向,如跳起来、走下去、抬. 5、是、有也是动词,跟动词的用法一样,“是”也成为判断动词。 三.形容词 形容词表示事物的形状、性质、颜色、状态等,如多、少、高、矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色…… 状态形容词通红、雪白、红通通、黑不溜秋等前面不能加“很”。 四.数词 数词是表示事物数目的词。如一、二、两、三、七、十、百、千、万、亿、半…… 五.量词 量词是表示事物或动作单位的词。汉语的量词分为名量词和动量词。 1、名量词表示事物的数量,又可以分为单位量词和度量量词。 单位量词表示事物的单位,如个、张、、只、支、本、台、架、辆、颗、株、头、间、把、扇等; 度量量词表示事物的度量,如寸、尺、丈、斤、两、吨、升、斗、加仑、伏特、欧姆、立方米等。 2、动量词表示动作的数量,用在动词前后表示动作的单位,如次、下、回、趟、场… 六.代词 代词能代替实词和短语。表示指称时,有定指和不定指的区别。不定指往往是指不确定的人、物或某种性状、数量、程度、动作等。他不常指某一定的人物,也就不可能有一定意义,介乎虚实之间。 1、人称代词:代替人或事物的名称。如我、你、您、他、她、它、我们、你们、他们、她们、它们、咱们、自己、别人、大家、大伙……(自己能和其他代词连用,起强调作用。例如:我自己、你们自己、大家自己等) 2、疑问代词:用来提出问题。如谁、什么、哪(问人或事物)、哪儿、那里(问处所)、几 多(问数量)、多、多么(问程度)、怎么、怎样、怎么样(问性质状态)、什么、怎样、什么样

现代汉语的词性分类

现代汉语的词性分类 的词可以分为12类。 :名词、、形容词、、和。 :、、、、叹词、。 1.名词:表示人和事物的名称的实词。如:"黄瓜、白菜、拖拉机、计算机"。 1、表示专用名称的叫做"专有名词",如"云南、上海、李白、白居易"。 2、表示抽象事物的名称的叫做"抽象名词",如"范畴、思想、质量、品德、友谊、方法"。 3、表示方位的叫做"方位名词",如"上""下""左""右""前""后""中""东""西""南""北""前面""后边""东边""南面""中间"等。 2.动词:表示人或事物的动作、行为、发展、变化。 1、有的动词表示一般的动作,如"来、去、说、走、跑、学习、起飞、审查、认识"等。 2、有的动词表示心理活动,如"想、重视、注重、尊敬、了解、相信、佩服、惦念"等,这样的动词前面往往可以加上"很、十分"。 3、有的动词表示能够、愿意这些意思,叫做"能愿动词",它们是"能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须",这些能愿动词常常用在一般的动词前面,如"得去、能够做、可以考虑、愿意学习、应该说明、可能发展"。 4、还有一些动词表示趋向,叫做"趋向动词",如"来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起;,它们往往用在一般动词后面表示趋向,如"跳起来、走下去、抬上来、跑过去"。 5、"是""有"也是动词,跟动词的用法一样,“是”也称为判断动词。有与无对应是存在性动词。 3.形容词:表示事物的形状、性质、颜色、状态等,如“多、少、高、 矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色……”。 状态形容词通红、雪白、红通通、黑不溜秋等前面不能加“很”。

相关文档
最新文档