973当代汉语文本语料库分词、词性标注加工规范

973当代汉语文本语料库分词、词性标注加工规范
973当代汉语文本语料库分词、词性标注加工规范

973当代汉语文本语料库分词、词性标注加工规范

(草案)

山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。这次承担973任务后制定出本规范。本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。

《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。

1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年

2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布

3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年

北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年

北京大学计算语言学研究所

5.《信息处理用现代汉语词类标记规范》,2002年,

教育部语言文字应用研究所计算语言学研究室

6.《现代汉语语料库文本分词规范说明》,2000年

山西大学计算机科学系山西大学计算机应用研究所

7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会

一、分词总则

1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。追求分词后语料的一致性(consistency)是本规范的目标之一。

2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。本文中仍用“词”来称谓“分词单位”。

3.分词中充分考虑形式与意义的统一。形式上要看一个结构体的组成成分能否单用,结构体能否扩展,组成成分的结构关系,以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性。

4. 本规范规定的分词原则及规则,既要适应语言信息处理与语料库语言学研究的需要,又力求与传统的语言学研究成果保持一致;既要适合计算机自动处理,又要便于人工校对。

5.分词时遵循从大到小的原则逐层顺序切分。一时难以判定是否切分的结构体,暂不切分。二、词性标注总则

信息处理用现代汉语词性标注主要原则有三个:

(1)语法功能原则。语法功能是词类划分的主要依据。词的意义不作为划分词类的主要依据,但有时也起着某些参考作用。

(2)允许有兼类。根据各种统计研究,现代汉语的某些词具有多种语法功能,但这多种功能的分布概率不同。在信息处理用现代汉语词类体系中,各词类的确立要根据词的主要语法功能。

(3)词类加工规范的标记集中的大类应能覆盖现代汉语的全部词。

为满足计算机处理真实文本词类标注的需要,本规范所定义的标记集,覆盖了比词小的单位,如前接成分(前缀)、后接成分(后缀)、语素字、非语素字等;比词更大的单位,如习用语、简称和略语,以及标点符号、非汉字符号等。

三、词类标记集

本规范的词类标记集采用《信息处理用现代汉语词类标记规范》的大类,只增加了部分细类。

本规范的词类标记集规定,每个分词单位的标记由英文字母串构成。标记的第一位代码,表示信息处理用现代汉语词类的基本词类,共20类,标记的第二、三位代码,表示信息处理用现代汉语基本词类下的细类。

词类分别为:

(1)名词n:

普通名词(n)

时间名词(nt)

方位名词(nd)

处所名词(nl)

人名(nh)

汉族或类汉族人名(人名 nhh:姓nhf, 名nhg)

音译名或类音译名(nhy)

日本人名(nhr)

其他(nhw):如绰号,笔名,尊称等。

地名(ns)

族名(nn)

团体机构名(ni)

其他专有名词(nz)

(2)动词v:

普通动词(v)

能愿动词(vu)

趋向动词(vd)

系动词(vl)

(3)形容词:

性质形容词(aq)

状态形容词(as)

(4)区别词f

(5)数词m

(6)量词q

(7)副词d

(8)代词r

(9)介词p

(10)连词c

(11)助词u

(12)叹词e

(13)拟声词o

(14)习用语i

名词性习用语(in)

动词性习用语(iv)

形容词性习用语 (ia)

连词性习用语(ic)

(15)简称和略语j

名词性简称和略语 jn

动词性简称和略语 jv

形容词性简称和略语 ja

(16)前接成分h

(17)后接成分k

(18)语素字g

(19)非语素字x

(20)其它w:

标点符号 (wp)

非汉字字符串(ws)

其他未知的符号(wu)

四、细则

1.本规范参照 GB/T 13715-92的做法,以词类为纲对各类单位作具体切分与词性标注

规定。

2.本次加工规定,凡是收入词表中的词语,不再遵循本规范进行切分。所使用词表的

收词原则遵从清华大学《信息处理用现代汉语分词词表》规范。

3.独立性较强的语素字均标注词类,减少语素字标记的比例。

4.大类与细类可兼类。

五、分词与词性标注的详细说明

1.名词(n)

表示人和事物的名称或时间、处所等,在句中主要充当主语和宾语。

1.l 普通名词(n)

表示人和事物的名称

1.1.l 合成式

[1] 并列关系

凡是使用稳定、结合紧密的二字并列关系名词一律为分词单位。如:

省市/n 房屋/n 资金/n

其余双音节的只要能扩展,则可切分。

三音节以上的结构体能扩展的应切分。例如:

省/n市/n县/n

[2] 定中关系

A.[名十名]

对2至4音节组合,如其中一部分音节长度为1,一般来说,整体不切分。例如:阵营/n 风波/n 法人/n 饭店/n

大气层/n 火车站/n 州政府/n

凤仙花汁/n 芭蕾舞裙/n

对两部分音节长度都大于或等于2的组合,如中间能加“的”且意义不变的切开,否则不切分。例如:

中国/ns 公民/n 软件/n 程序/n 文件/n精神/n

知识产权/n 技术人员/n 航空母舰/n 绿色食品/n 集团公司/n

5音节以上的组合原则上切开。例如:

律师/n 资格/n 获得者/n 超线程/n 技术/n

B.[动十名]

对2至4音节组合,构成动宾式合成词时,如其中一部分音节长度为1,则整体不切分。例如:

编号/n 贷款/n 报表/n

代名词/n 承包商/n 负责人/n 影响力/n

说明:“动+名”如为述宾结构的短语,应切分开。如:

看/v 电影/n 洗/v 衣服/n 买/v 东西/n

但有些结合紧密或使用稳定的述宾结构已在词典中登录,则处理成一个切分单位,标注为动词v,如:

吃饭/v 跳舞/v 唱歌/v。

对两部分音节长度都大于或等于2的组合,如中间能加“的”且意义不变的切开,否则不切分。如:

等待/v时间/n 设计/v方案/n 生产关系/n

C.[形十名]

以下几种情况不切分,整体标注名词,其余情况切分。

a.形容词反映的是名词所指事物的典型属性,如:

咸盐/n 白雪/n 蓝天/n 绿叶/n 白兔/n 红花/n 绿草/n 冷水/n 低价/n

b.形容词具有分类作用而不是临时指别作用,如:

体细胞/n 小桥/n 矮个子/n

c.形容词与名词的组合有一定象征意义。如:

红旗/n

d.形容词与名词的切分意义发生了变化。如:

黑市/n 软盘/n 白菜/n 冷门/n 小金库/n 多媒体/n

D.[量十名]

双音节的不切分,整体标注为n。如:

度数/n 天数/n 个数/n 页数/n 种数/n 次数/n

三音节以上的切分,量词与名词分别标注。例如:

亩/q 产量/n 公里/q数/n

E. [数十名]

a.表序数的一般要切分,数词与名词分别标注。例如:

五/m楼/n 三/m厂/n

b.省略量词的组合,整体不作为分词单位,分别标注。如:

两/m 脚/n 都/d 是/v 泥/n

c.其余的组合,不切分,标注为n。例如:

半岛/n 半球/n 二心/n 六指儿/n 两头/n

[3] 主谓关系

结构体在上下文中呈体词性时,无论音节多少,均不切分, 标注为n。例如:癌变/n 海啸/n 脑溢血/n

1.1.2 附加式

附加式包括如下几部分构词形式

[1] 前接成分十语素或词

[2] 语素或词+后接成分

[3] 前接成分+语素或词+后接成分

这类名词的切分和标注规则见前后接成分。

1.1.3 重叠式。

不切分。例如:

人人/n 家家/n 山山水水/n 方方面面/n

1.1.4明显带排行的亲属称谓不切开。

三哥/n 大婶/n 大女儿/n 大哥/n 小弟/n 老爸/n

1.1.5专业术语

[1] 专业术语四音节以下(含四音节)的一般不切分,标注n,四音节以上的按词切分。例如:

不定积分/n 氯胺酮/n 汇编语言/n 生物化学/n 多/a弹头/n导弹/n

[2] 食谱上的菜名一般不切分,标注n。

八宝粥/n 霉干菜/n 松鼠鳜鱼/n 红烧肉/n,

鸡蛋汤/n 芝麻饼/n 鸡丝面/n

1.2 时间名词 (nt)

表示时间。

[1] 一周的七天,农历的初一到初十,“(大)年初一”到“(大)年初十”不切分。例:

星期一/nt 初三/nt 年初二/nt 大年初一/nt

[2] 年月日时分秒,按年、月、日、时、分、秒切分,标注为nt 。

1997/m 年/nt 3/m 月/nt 19/m 日/nt,

下午/nt 2/m 时/nt 18/m 分/nt 35/m 秒/nt

[3] 朝代名不切分,标注为nt。例如:

唐朝/nt 南北朝/nt 清代 /nt

[4] 著名的节日名,不切分, 标注为nt。例如:

春节/nt 圣诞节/nt 国庆节/nt 复活节/nt 三八妇女节/nt “六一”儿童节/nt

[5]“前、后、上、下、大前、大后、头”加“天”或“上/下”加“月/周/星期”时,

不切分,标注为nt。例如:

前天/nt 大前天/nt 头天/nt 上周/nt 上月/nt 下星期/nt 但是中间加数词或量词时切开。例如:

前/nd几/m天/nt 上/nd半/m年/nt 上/nd 个/q月/nt 下/nd个/q 星期/nt

[6] “点钟、分钟、秒钟、刻钟”不切分, 标注为nt:

一/m点钟/nt 十/m秒钟/nt

[7] “年间”不切分。例如:

乾隆/nhh 年间/nt 战乱/j 年间/nt

[8] “年终、此间、公元前、前不久”均不切分,标注为nt。

[9] 十二生宵表示的年不切分,标注为nt。例如:

牛年/nt 虎年/nt

[10] 以天干、地支表示的年不切分,标注为nt。例如:

甲午年/nt、庚子/nt、戊戌/nt

[11] 二十四节气不切分,标注nt。例如:

春分/nt 惊蛰/nt

[12] 数字与“:”或“-”结合在一起的表示具体时间的串,整体标注nt。如:

08:35:28/nt 2003-03-29/nt

1.3 方位名词(nd)

表示位置、时间、数的相对方向或范围的词语。

方位词分为单纯方位词和合成方位词两种,一般来说,方位词和名词组合后(方位结构),构成处所词或时间词。

[l] 方位词前置作修饰语时,结合紧密的不切分,其余切分。例如:

前门/nl 里屋/nl 西太平洋/ns, 上周/nt 前天/nt 上/nd 赛季/n

[2] 部分方位词+数词(量词)+时间词时,切分。例如:

下/nd 半/m 年/nt

[3] 方位词后置的,如果前面的成分不单用,则整体不切分。例如:

境内/nl 国内/nl 关外/nl 心目中/nl

如前面的成分单用,常用的(已收入词表)不切分,其余切分。例如:

心里/nl 空中/nl 课前/nt 门后/nl 出发/v之前/nd 球/n 上/nd

[4] 时间名词后接“…来(以来)”,要切分。例如:

三/m 年/q 来/nd 今年/nt 以来/nd

“年、月”后跟“初、中、末、底”等类方位词时,如前面有数词,则切分,否则不切分。例如:

年初/nt 月底/nt 年中/nt

1985/m年/nt初/nd 三/m月/nt底/nd

[5] 用于表概数或范围的方位结构,切分。例如:

50/m左右/nd 100/m人/n上下/nd

七一/nt前后/nd 六十/m开外/nd 九七/m 年/nt 以来/nd

1.4 处所名词(nl)

表示处所、位置的词语。

[1] 单音节名词或语素+单纯方位词构成的处所词,一般不切分。如:

窗外/nl 场内/nl 网上/nl 文中/nl

双音节或多音节名词+单纯方位词构成的处所短语,若前面的成分不单用,则整体形成处所词,否则,进行切分,分别标注。如:

心目中/nl 阳光/n 下/nd 运动场/n 上/nd

[2] 名词或语素+合成方位词构成的处所词,前面成分不可以单独使用的,不切分,其余

切分。

[3] 方位词+名词构成的处所词,一般不切分。如:

西北麓、西郊

[4]“头、口、脚、边”等名词有时用法跟方位词差不多,可以和名词组成处所词。例如:

门口儿/nl 墙脚/nl 床边儿/nl

1.5 专有名词

1.5.1 人名(nh),表示人的名称(姓名)。

人名进一步分为如下子类:

汉族或类汉族人名(nhh,nhf,nhg)

音译名或类音译名(nhy)

日本人名(nhr)

其它(nhw):如绰号,笔名,尊称等。

[1] 汉族或类汉族人名,姓和名之间不分,整体标注nhh,当姓和名单独出现时,分别标注nhf,nhg。

余秋雨/nhh 欧阳修/nhh 阮志雄/nhh 金正日/nhh

姓名后的职务、职称或称呼要分开。

江/nhf 主席/n 小平/nhg 同志/n 胡/nhf 总书记/n

张/nhf 教授/n 王/nhf 部长/n 陈/nhf 老总/n

李/nhf 大娘/n 刘/nhf 阿姨/n 龙/nhf 姑姑/n 张/nhf姐/n

[2] 音译名或类音译名(nhy)整体不切分。

外国人或少数民族的译名不予切分,标注为nhy。

布什/nhy 普京/nhy 才旦卓玛/nhy 爱因斯坦/nhy 艾米里亚/nhy 有些西方人的姓名中有小圆点,也不分开。

卡尔·马克思/nhy C.S.刘易斯/nhy

[3] 日本人名(nhr)整体不切分。

岸信介/nhr 本田宗一郎/nhr 池田香代子/nhr

[4] 其它(nhw)

a. 对人的简称、尊称或姓氏加(类)后缀等,若为两个字,则合为一个切分单位,并标以nhw。

老张/nhw 大李/nhw 小郝/nhw 郭老/nhw 陈总/nhw 张某/nhw 戴妃/nhw

b. 一些著名作者的或不易区分姓和名的笔名通常作为一个切分单位。

鲁迅/nhw 茅盾/nhw 巴金/nhw 三毛/nhw 琼瑶/nhw

c. 昵称、绰号不切分。例如:

阿扁/nhw 二当家/nhw 寒星雨/nhw 老君山人/nhw 牛魔王/nhw

1.5.2 地名(ns),表示地理区域的名称。

[1] 地名后有“省、市、县、区、乡、镇、村、旗、州、都、府、道”等单字的行政区划名称时,作为一个切分单位,标注为ns。如:

山西省/ns 平壤市/ns 正定县/ns

[2] 地名后的行政区划有两个以上的汉字,则将地名同行政区划名称切开,将地名同行政区划名称用方括号括起来,并标以ns。如:

[珠江/ns 三角洲/n]ns [内蒙古/nsh 自治区/n]ns [长江/ns 流域/n]ns

[深圳/ns 特区/n]ns [香港/ns 特别/aq 行政区/n]ns

[3] 地名后有表示地形地貌的一个字的普通名词,如“江、河、山、洋、海、岛、峰、湖”等,不予切分,标注为ns。如:

地中海/ns 亚马逊河/ns 喜马拉雅山/ns 珠穆朗玛峰/ns

[4] 地名后接的表示地形地貌的普通名词若有两个或两个以上汉字,一般应切开,同时要将地名同该普通名词用方括号括起来。地名有缩略现象时,不再切分,并标以ns。

[台湾/ns 海峡/n]ns [华北/ns 平原/n]ns [帕米尔/ns 高原/n]ns,

[南沙/ns 群岛/n]ns [京东/ns 大/aq 峡谷/n]ns 横断山脉ns

[5] 地名后有表示自然区划的一个字的普通名词,“街,路,道,巷,里,町,庄,村,弄,

堡”等,不予切分,标注为ns。如:

海珠区/ns 淘金路/ns 中关村/ns 长安街/ns

[6] 地名后接的表示自然区划的普通名词若有两个以上汉字,则应切开。也要将地名同自然区划名词用方括号括起来,并标以ns。

[复兴门/n大街/n]ns [蒋/nhf家/n 胡同/n]ns [陶然亭/ns 公园/n]ns [7] 大小地名相连时, 将整个地名用方括号括起来,并标以ns。

[福建省/ns 漳州市/ns 龙海县/ns 榜山镇/ns 洋西村/ns]ns

1.5.3 族名(nn),表示民族或部落名称的专有名词。如:

汉族/nn 回族/nn 藏族/nn 朝鲜族/nn 俄罗斯族/nn 纳西族/nn 土家族/nn

1.5.4 团体机构名(ni),包括团体、机构、组织的专有名称。

[1] 团体、机构、组织的专有名称若作为名词登录在分词库中,则直接标注为ni。如,

联合国/ni 中共中央/ni 国务院/ni

[2] 大多数团体、机构、组织的专有名称一般是短语型的,较长,且含有地名或人名等专名,对于词表中没有收录的,按词语切分开来,暂不做整体标注。

中国/ns 中文/n 信息/n 学会/n

澳大利亚/ns 科学/n 与/c 工业/n 研究/v 组织/n

巴塞尔/ns 大学/n

北京/ns 图书馆/n

[3] 团体、机构、组织名称的专指性是必要的、孤立的,“大学、学院、图书馆、植物园”等只标为n,不标为ni。本次加工只考虑局部的上下文。但是在国际或中国范围内的知名的唯一的团体、机构、组织的名称即使前面没有专名,也标为ni。

联合国/ni 国务院/ni 外交部/ni 财政部/ni 教育部/ni 国防部/ni

1.5.5 其他专有名词(nz),包括以下类别。

[1] 包含专有名称(或简称)的交通线,标以nz;短语型的,不整体考虑。

津浦路/nz 石太线/nz 京/j 九/j 铁路/n

[2] 历史上重要事件不切分,标以nz。

卢沟桥事件/nz 西安事变/nz 五四运动/nz 第二次世界大战/nz 海湾战争/nz

[3] 专有名称后接多音节的名词,如“语言”、“文学”、“文化”、“方式”、“精神”等,失去专指性,则应切分。

欧洲/ns 语言/n 法国/ns 文学/n 西方/n 文化/n

贝多芬/nhy 交响乐/n 雷锋/nhh 精神/n

美国/ns 方式/n 日本/ns 料理/n 宋朝/nt 古董/n

[4] 商标(包括专名及后接的“牌”、“型”等)是专指的,标以nz,但其后所接的商品仍标以普通名词n。

海棠牌/nz 洗衣机/n 牡丹III型/nz 电视机/n TU-154/nz 飞机/n

耐克/nz 鞋/n

任何词语都可能成为商标名称,此时该词语标注为nz。例:

联想/nz 电脑/n 鳄鱼/nz 皮包/n 张一元/nz 茶庄/n

[5] 以序号命名的名称一般不认为是专有名称。

2/m 号/q 国道/n 十一/m 届/q 三中全会/j

[6] 书、报、杂志、文档、报告、协议、合同等的名称通常有书名号加以标识,不作为专有名词。由于这些名字往往较长,名字本身按常规处理。

《/wp 宁波/ns 日报/n 》/wp 《/wp 鲁迅/nhw 全集/n 》/wp,

中华/n 读书/v 报/n 杜甫/nhh 诗选/n,

《/wp 大众/n 医学/n 》/wp 邓小平/nhh 文选/n 马关/nz 条约/n

收入词表的书名、报刊名等专有名称,则不切分。

红楼梦/nz 人民日报/nz 儒林外史/nz

[7] 当无法分辨专名的具体分类时,标以nz。

巴塞尔/nz 俱乐部/n

[8] 一般的命名活动常用引号表示,也不看作专有名称。

香港/ns 举行/v “/wp 庆/v 回归/v 公益/n 千万/m 行/v ”/wp 活动/n

2.动词(v)

表示动作、行为,人或动物的心理活动、生理状态,事物的存现、变化等,在句子中主要充当谓语。

2.1普通动词(v)

表示动作、行为,人或动物的心理活动、生理状态等,

2.l.1合成式

[1] 并列关系。双音节一般不切分,多音阶切分。例如:

买卖/v公平/aq 借贷/v双方/n

产/v供/v销/v一条龙/n 不/d能/v 管/v 卡/v 压/v

[2] 动宾关系。常用的双音节的组合,不予切分,但能扩展,不发生转义,切分。例如:

开会/v 跳舞/v 吃饭/v 念书/v

打/v人/n 做/v饭/n 开/v门/n 交/v钱/n

三音节以上的,一般切分;如是整体意义不能分割的作如下规定:

A.组成成分不能分离的不切分。例如:

滚雪球/v 破天荒/v 够意思/v

B.组成成分可以分离的,合时不切,标注v,分时分别标注各自的词性。例如:打交道/v——打/v了/u两/m回/q交道/n

[3] 状中关系

A.[副十动]常用的不切分,其它的切分。例如:

瞎写/v 胡闹/v 胡编/v 不/d顾/v 就/d去/v 乱/aq 批评/v 净/d打架/v

B.[形十动]常用的不切分,其它的切分。例如:

多/aq吃/v 少/aq说/v 好说/v、好买/v、好懂/v 严禁/v 以下几个这类组合整体为形容词,不切分,标注为aq:

好看/aq 难看/aq 好吃/aq 难吃/aq 好喝/aq 难喝/aq 好听/aq

难听/aq 好闻/aq 难闻/aq

B.[动十动]双音节的一般不切分,标注为v。三音节以上(含三音节)的一般切分,

分别标注v。例如:

飞跑/v 纵身/v跳/v到/p河里/nl

[4] 动补关系

A.[动十结(动、形、趋)] 常用的不切分,其它的切分。例如:

摘下/v 达到/v 看上/v 变成/v 打倒/v 推翻/v 闯过/v 提高/v 称为/v

写/v下去/v 听/v清楚/aq 走/v进去/v 打扫/v干净/aq

B.[动十于]动词不单独使用的不切分,其余切分。例如:

用/v于/p 发表/v于/p 出生/v于/p 寄/v希望/v于/p

有待于/v 近乎于/v 有志于/v 低于/v

2.1.2 附加式

见后接成分部分

2.1.3 重叠式

[1] AA式,不切分,标注为v:

坐坐/v 走走/v

[2] A一A或ABAB式作如下切分与标注:

看/v一/m看/v 研究/v研究/v

[2] AABB式,不切分,标注为v。例如:

遮遮掩掩/v 来来往往/v 磨磨蹭蹭/v 躲躲闪闪/v

[3] AAB式,一般不切分, 标注为v。例如:

招招手/v 帮帮忙/v 试试看/v 念念看/v

2.1.4 疑问式

[1] 无论“V不(没)V”式还是“V…不(没)V”式,一律切分。例如:

去/v不/d去/v 看/v没/d看/v 学/v汉语/n不/d学/v

[2] “是不是、有没有”分两种情况:

A. 作谓语,切分。标注方式如下:

她/r是/vl不/d 是/vl老师/n ?/wp

她/r是/vl老师/n不/d是/vl ?/wp

你/r有/v 没有/v 钢笔/n ?/wp

你/r有/v钢笔/n没有/v ?/wp

B. 作状语,不切分,标注为d。例如:

你/r是不是/d来/v一/m趟/q ?/wp

你/r有没有/d去/v过/u ?/wp

[3] A不(没)AB式,当A为语素时,一般不切分,标注为v。例如:

鞠没鞠躬/v 相不相信 /v

2.1.5 短语式动词

双音节的述补结构中间插入“得”或“不”一般应切分,分别标注。但去掉“得”或“不”前后两个字不能组成词的或去掉“得”或“不”后虽然是一个合成词,但其中至少有一个是语素,拆分后难以理解的,不予切分,整体标注为v.

走/v得/u到/v 走/v不/d到/v 看/v得/u见/v 看/v不/d见/v

对得起/v 比得上/v 行得通/v 容不得/v 形不成/v

2.1.6 语型式

凡能进入“不…不…”“爱…不…”等四字语型的,整体不切分,标注为i。例如:不痛不痒/i 爱搭不理/i 爱理不理/i

2.1.7 “所”的规定

除了“有所、所谓、无所谓”几个组合以外,“所”与动词组合要切分。例如:有所/d进步/v 所/u用/v办法为/p能力/n所/u囿/v 但以下词语已是成语,整体不切分,标注为i。

所见所闻/i 所思所想/i 无所不能/i 无所不为/i 无所不知/i

无所不在/i 无所畏俱/i

2.1.8 动词特殊用法

有一部分双音节动词,当它在句法结构中具有以下几种语法功能之一时,仍标为v

a. 作特殊动词“有”的宾语。

b. 充当了形式动词或其他准谓宾动词的准谓词性宾语。

c. 直接充当体词性短语的中心语。

d. 不加助词“的”,直接充当体词性短语的修饰语。

e. 作状语时。

f. 直接作主语或谓宾动词的宾语。

领导/n 对/p 这/r 件/q 事/n 有/v 考虑/v

进行/v 一/m 次/q 深入/aq 的/u 考察/v

予以/v 严肃/aq 处理/v

加以/v 整理/v

语法/n 研究/v 很/d 重要/aq

必须/d 改进/v 训练/v 方法/n

这个/r 研究/v 思路/n 很/d 新颖/aq

他/r 讽刺/v 说/v

主任/n 强调/v 地/u 指出/v

考察/v 是/v 必要/aq 的/u

我们/n 来/v 的/u 目的/n 就是/v 考察/v 考察/v

2.2 能愿动词vu

表示可能、意愿。标注为vu,如:

能够/vu 能/vu 肯/vu 应当/vu 可以/vu 可能/vu 情愿/vu 要/vu 会

/vu 应该/vu 得(de2) /vu 敢/vu 想/vu 该/vu 愿意/vu 乐意/vu 许

/vu 准/vu 配(不配)/vu 值得/vu 好/vu

[1] 能愿动词与其他成分组合需要切分。如:

能/vu行/v 可以/vu去/v 肯/vu帮忙/v 能够/vu完成/v 值得(de2)/vu钦佩/ [2] 在动词后表可能义的“得”要切出。例如:

吃/v得/vu 去/v不/d得/vu

2.3 趋向动词vd

表示动词实际的和抽象的趋向。

当单音节趋向动词表示抽象的趋向意义时切分,而当它们表示实在的趋向意义时不切分,与动词一起构成普通动词;双音节趋向动词单独切分,标注vd。如:

烘托/v出/vd 爱/v上/vd 掉下/v 滚进/v 说/v出来/vd 拿/v过去/vd 2.4系动词(vl)

表示关系的判断,如:

系/vl 为/vl 是/vl

3.形容词

表示性质、状态,在句中主要充当谓语、定语、状语和补语。

3.1 性质形容词 (aq)

表示性质。

[1] 颜色形容词标注为性质形容词。如:

红/aq橄榄绿/aq

[2] 形容词后接“地”作状语时,形容词仍标注为 aq 。

我们/r 应当/v 深入/aq 地/u 研究/v 语法/n

[3] 并列式形容词。双音节结合紧密不切分,其他切分。例如:

白嫩/aq 松软/aq 宽大/aq 瘦小/aq 窄小/aq 光洁/aq 透明/aq

蓝/aq 黑/aq 军团/n

广/aq 浩/aq 的/u 债务/n

[4] 性质形容词重叠形式ABAB式,切分。如:

热闹/aq 热闹/aq 亲热/aq 亲热/aq 轻松/aq 轻松/aq

[5] 颜色词后加“色”字,一般不切分。标注为n。例如:

红色/n 绿色/n 深蓝色/n 淡黄色/n 苹果绿色/n

[6]形容词的特殊用法

形容词具有以下3种语法功能之一时,认为它具有名词特点,但仍标注为aq。

a. 作了“有”的宾语。

b. 充当了准谓宾动词的准谓词性宾语。

c. 直接充当体词性短语的中心语。

d. 形容词直接作主语或谓宾动词的宾语。

他/r 有/v 很多/m 苦恼/aq

这里/nl 有/v 奥妙/aq

维护/v 环境/n 的/u 整洁/aq

交通/n 安全/aq 是/vl 第一/m 要/v 注意/v 的/u

需要/v 努力/aq

需要/v 进一步/d 努力/aq

3.2状态形容词 (as)

表示状态。

[1] 状态词的构词形式从音节形式上看,有AA、AB、AABB、ABB、A里AB、A不X(Y)等几种形式。

AA式:

悠悠/as耿耿/as赫赫/as 朗朗/as

AB(AB)式:

冰凉/as银亮/as细高/as崭新/as翠绿/as笔直笔直/as通红通红/as AABB式:

错错落落/as弯弯曲曲/as风风火火/as

ABB式:

白茫茫/as赤裸裸/as假惺惺/as脆生生/as火辣辣/as

A里AB式:

古里古怪/as糊里糊涂/as

A不X(Y)式:

酸不唧唧/as灰不溜秋/as

其它形式:

黑咕隆咚/as麻麻亮/as可怜巴巴/as老实巴交/as

[2] 由性质形容词重叠形式和“的”构成的状态形容词(as)。如:

好好的/as大大的/as早早的/as干干净净(的)/as快快乐乐(的)/as 当性质形容词重叠后,必须加“的”才构成状态形容词的,则“的”字不单独切分,其

余可切分。如:

胖胖的/as 小孩/n 笔直/as 的/u 马路/n

糊里糊涂/as 地/u 犯/v 了/u 错误/n

这/r 孩子/n 长/v 得/u 胖胖的/as 他/r 穿/v 得/u 严严实实/as 的/u

阳光/n 金灿灿/as的/u

[3] 用肯定加否定的形式表示疑问的形容词的词组,一般切分开。例如:

容易/aq 不/d 容易/aq

但是如形成“A不AB”的不完整形式,则不予切分。例如:

容不容易/as 漂不漂亮/as

4. 区别词( f )

表示事物的区别性特征,只能做定语修饰名词或跟助词“的”组成“的”字结构。

[1] 单音节区别词作为一个切分单位,并标以区别词词性f。如:

雄/f 雌/f 男/f 女/f 单/f 正/f 负/f 副/f

[2] 单音节区别词+单音节名词或名语素组合,作为一个切分单位,并标以名词词性n。如:

雄鸡/n 雌象/n 女魔/n 古币/n 雄鸡/n 母鸡/n

[3] 双音节区别词或三音节区别词作为一个切分单位,并标以区别词词性f。如:

国有/f 人工/f 公共/f 国产/f 私人/f 公共/f 半自动/f

[4] 区别词+双音节以上(含双音节)词的组合,则切分。如:

女/f 司机/n 金/f 手镯/n 副/f 主任/n

慢性/f 胃炎/n 中式/f服装/n 袖珍/f词典/n 高速/f公路/n

[5] “共同、自动、长期、局部”除了作区别词修饰名词以外,还可作副词修饰动词。如:

共同/d协商/v 共同/f协议/n 自动/d进行/v 自动/f步枪/n

长期/d相处/v 长期/f合同/n 局部/d解决/v 局部/f问题/n

5. 数词(m)

表示数目和次序。

[1] 基数、序数、小数、分数、百分数不予切分,标注为 m 。例如:

一百二十三/m 120万/m 123.54/m,

第一/m 第三十五/m 20%/m 三分之二/m 千分之三十/m

“几”和“零”属于基本的系数词(或位数词),因此包含“几”和“零”的基数、序数、

小数、分数、百分数也不切分。例如:

几十/m 人/n 几十万/m 元/q 第一百零一/m 个/q

[2] 约数,前加副词、形容词或后加“来、左右”等应予切分。例如:

约/d 一百/m 多/m 万/m 仅/d 一百/m 个/q 四十/m 来/nd 个/q,

三十/m 左右/nd 近/aq 20/m 年/nt 来/nd

[3] 两个数词相连的及带“成、上”加位数词不切分。例如:

五六/m 年/q 七八/m 天/q 十七八/m 岁/q 成百/m 学生/n

成千/m 群众/n 上百/m 人/n 成千上万/i 的/u 群众/n

[4] 数量词组应切分为数词和量词。例如:

三/m 个/q 10/m 公斤/q 一/m 盒/q 花/n

但如果整个组合有特定意义,不切分。例如:

二把刀/n 三只手/n

[5] 倍数的切分方法如下:

五/m倍/q半/m 十/m成/q 以上/nd 六/m折/q 多m

[6] 概数按下列规定切分:

(1)数字并列式,不切分。例如:

四五/m 个/q 三五/m 斤/q 百十/m个/q

(2)“好些、好多、好几、许多、一些”均不切分。例如:

好些/m人/n 好几/m个/q

[7] 相连的两个数字之间若插入顿号等标点符号,予以切分。例如:

五/m、/wp六/m年/q 七/m、/wp八/m点钟/nt 初四/nt 、/wp五/m [8] 二字数词的重叠形式“AABB”为一个切分单位,并标注为数词m。如:

许许多多/m 多多少少/m

[9] 二字数词的重叠形式“ABAB”切分开,并标注为数词m。如:

很多/m 很多/m 许多/m 许多/m

[11] 天干和地支作序数词使用时,作为一个切分词单位,标注词性m。

[12] 带“几、数、两、若干、挂零、多、余”为数词m。如:

孩子/n几/m岁/q了/u

数/m人/n 数/m次/q 数/m十/m年/q

再/d看/v两/m眼/n

若干/m斤/q白菜/n

20 /m 挂零/m

五百/m多/m人/q

20/m 余/m 人/n

6. 量词(q)

表示事物的单位或动作的量。包括,常和名词连用的名量词,有个体量词(位、辆、张),度量词(克、千米),复合量词(人次、架次、吨公里),不定量词(点、些);以及动量词(次、回、趟)和时量词(天、小时)等。

[1] 各类量词均要切出。例如:

一/m本/q书/n 去/v一/m次/q 一/m阵/q乱/a叫/v

[2] 各国货币单位与数词结合时,标注为量词。如:

一/m欧元/q 3/m镑/q 5/m比索/q

[3] 复合量词均不切分。例如:

班次/q 版次/q 人次/q 千瓦/时/q

[4] 量词重叠不切分。例如:个个/q 一/m件件/q 一/m次次/q

7.副词(d)

说明动作行为或状态性质等所涉及的范围、时间、程度、频率以及肯定或否定的情况,在句中能且只能做状语。副词主要修饰动词和形容词。

[1] 副词一般单独切分。如:

很/d 十分/d 只有……才/d…… 即使……也/d…… 就/d 仅/d

曾经/d 统统/d 痛苦/a万分/d 聪明/a绝顶/d

透/d(糟透了)透顶/d(糟糕透顶)

常常/d 好好/d 原原本本/d

[2] 词组“越来越/d…”不切分,并标注为副词词性d。但“越/d…越/d…”格式中的“越”要切出。如:

越来越/d热/a 越/d走/v越/d累/a

[3]“是否”不切分,标副词。例如:

你/r是否/d 来/v 过/u ?/wp

8.代词(r)

起替代和复指作用,在句中替代名词、形容词、动词、副词等。

[1]“这、那”除了下列组合以外,均要切分。

这儿/r 这里/r 这么/r 这样/r 这般/r 这下/r 这个/r 这些/r

这边/r 这时/r 这天/r 这会/r 这会儿/r 这点/r 这么点儿/r 这时候

/r这么些/r 这么样/r 这么着/r 这下子/r 那儿/r 那里/r 那么/r 那样

/r 那般/r 那个/r 那些/r 那边/r 那时/r 那天/r 那阵/r 那会/r 那

会儿/r那么点儿/r 那么些/r 那么样/r 那么着/r 那末/r

[2] “本、此、每、各、诸、某、该、此”后接语素字、以及结合紧密的单音节名词、单音

节量词时,不切分,进行整体标注。其余的情况,这些代词单独进行切分,标注r。如:本校/n 本期/r 本厂/n 每户/r 每年/nt 此时nt 各地/n 某些/r

每/r 次/q 该/r /技术/n 某/r 部门/n 某/r 项/q

[3]“俺、吾、我、尔、你、您、她、他、它、咱、别”后接名词,一律切分。

俺/r 村/n 吾/r 镇/n 我/r 县/n 尔/r 辈/n 你/r 妈/n 她/r 家/n

他/r 方/n 咱/r 村/n 别/r 家/n 别/r 国/n

[4]“俺、你、您、她、他、它、咱”等后接“俩、仨”,一律不切分,标注词性r。

俺俩/r 你俩/r 他俩/r 俺仨/r 你仨/r 他仨/r

[5] 疑问词语一般不切分,标注词性r。例如:

什么/r 怎样/r 怎么/r 怎么样/r 怎么办/r 怎么着/r 怎么的/r 为什么/r 干什么/r

干吗(嘛)/r 哪儿/r 多少/r 多久/r 多会儿/r 什么样/r

但是,“为什么、干什么”不做状语时切分。例如:

这样/r 做/v 是/v 为/v 什么/ r 你/r 在/d 干/v 什么/r

9.介词 (p)

引介名词性成分,不能单独充任句子成分。介词单独切分,标注为p。

单音节介词后加“着”仍是介词,不切分,标注为p。例如:

为着/p 朝着/p 向着/p 对着/p 跟着/p 沿着/p 靠着/p 凭着/p 冲着/p

10.连词(c)

连接词、短语或句子,表示两者之间所具有的某种逻辑关系。连词单独切分, 标注为c。

[1] 并列连词,如:

和/c 及/c 与/c 则/c 并且/c 与其/c

[2] 从属连词,如:

因为/c 虽然/c 只要/c 如果/c 即使/c 以便/c

11.助词(u)

表示结构关系、动作的态、比况和语气。如:

的/u 地/u 得/u 着/u 了/u 过/u 似的/u 一样/u 等/u 等等/u 云

云/u 了/u 的/u 呢/u 吗/u 吧/u 罢/u 了/u 啊/u

除一般常见助词外,以下形式也不切分,整体标助词u:

的话/u 罢了/u 来着/u 似的/u 也罢/u 不成/u 不可/u 得慌/u 来说/u

来讲/u 而言/u 而论/u 等等/u 之流/u 之类/u 之辈/u

但以下组合已成固定短语,不切分,标注为i:

一般来讲/i 一般而言/i 一般说来/i 总的来说/i 平心而论/i

相对来讲/i 反过来说/i

12.叹词(e)

表示应答呼唤或感叹。叹词单独切分,标注为e。如:

唉/e 哎呀/e 嗯/e 哼/e 喂/e

13.拟声词(o)

模拟事物或自然界的声音,在句中充当状语、定语、谓语或补语。可以独立成句或在句中作插入语。拟声词加“的”可以作定语加“地”可以作状语。拟声词单独切分,标注为o。如:

哗啦/o 唧哩咕咚/o 扑通通/o 滴答/o 轰轰/o

14.习用语(i)

习用语是汉语中的固定用法,包括成语、惯用语、谚语、格言等。如:

[1]名词性习用语in:如:

男女老少/in 真才实学/in

[2]动词性习用语iv:如:

脱颖而出/iv 一意孤行/iv 开倒车/iv

[3]形容词性习用语ia:如:

行之有效/ia 求贤若渴/ia

[4]连词性习用语ic:如:

除此之外/ic 一方面/ic……,一方面/ic……一则/ic……二则/ic……

15.简称和略语(j)

简称和略语是汉语中专有名词或常用语的简略表达形式。一般具有地域性或行业性,有的简称、略语使用的范围很广,生命力很强。简称、略语在句中通常起名词、动词或形容词的作用。如:

[1]名词性简称和略语jn:如:

人大/jn 欧盟/jn 中小学/jn

[2]动词性简称和略语jv :如:

出入境/jv

[3]形容词性简称和略语ja :

短平快/ja

16.前接成分(前缀)(h)

前接成分是一种辅助的构词成分,加在词或语素的前面,构成合成词。

[1] 前接成分+语素或单字词,为一个切分单位。如:

阿嫂/n 阿爸/n 老虎/n 超人/n 非人/n

[2] 前接成分+二字及二字以上词,若与前接成分有逻辑联系的词语是与其相邻的,则构成一个切分单位,否则切分。如:

总书记/n 超音速/f 非公有制/f

非/h 国家/n 工作/n 人员/n 非/h 本市/r 注册/n 车辆/n

17.后接成分(后缀)(k)

后接成分是一种辅助的构词成分,加在词或语素后面,构成合成词。一般说来,只表示某种附加的或语法的意义。

[1] 语素或单字词+后接成分,为一个切分单位。如:

桌子/n 花儿/n 作者/n

[2] 二字及二字以上词+后接成分,若与后接成分有逻辑联系的词语是与其相邻的,则构成一个切分单位,否则切分。如:

学术界/n 准确率/n 年轻化/v 生产者/n

文艺/n 工作者/n

违反/v 纪律/n 者/k

[3]“语素或词+们”

表示名词复数的“们”单独切分,并标以k。如:

朋友/n 们/k 孩子/n 们/k

以下不再切分

人们/n 哥儿们/n 爷儿们/n 我们/r

18.语素字(g)

语素字指汉字字符集中一般不单独使用,又具有意义的汉字。如:

上v 大学n 时g

某些双音节离合词分开使用,其中一个是语素。例如

出差/v: 出/v 过/v 两/m 天/q 差/g

着急/aq: 我/r 着/v 了/u 很/d 大/aq 的/u 急/g

19.非语素字(x)

非语素字指汉字字符集中,单独使用时不具有意义的汉字,如:

葡/x、萄/x、尴/x、尬/x

非语素字单独在文本中时,切开。例如:

“/wp 鹌鹑/n ”/wp的/u “/wp 鹌/x ”/wp 字/n 怎么/r 读/v ?/wp

20.其他(w)

[1] 标点符号wp:包括句号、问号、叹号、逗号、顿号、分号、冒号、引号、括号、破折号、省略号、着重号、连接号、间隔号、书名号、专名号及西文特殊符号。

[2] 字符串ws:如:office/ws 、 100/m kg/ws

[3] 未知词wu:指在文本的处理过程中,无法归入上述类别的词,这些词往往要在后面的处理步骤中作进一步的加工处理。

现代汉语词性专题练习资料

现代汉语词性专题练 习

现代汉语词性专题练习 一、选择题 1.能带宾语的是()A名词 B动词 C形容词 D副词 2.“上来”是()A助动词 B判断动词 C趋向动词 D及物动词 3.“不、没”都是()A程度副词 B时间副词 C范围副词 D否定副词 4.“很、挺、十分”是()A程度副词 B范围副词 C语气副词 D情态副词 5.“我、你、他”是()A指示代词 B疑问代词 C人称代词 D名词 6.“他在黑板上写字”的“在”是()A动词 B副词 C介词 D方位词 7.“哎哟”是()A拟声词 B语气词 C叹词 D助词 8.代词包括()A人称代词 B指示代词 C疑问代词 D代名词 E代动词 9.虚词包括()A介词 B副词 C连词 D助词 E语气词 10.“报告”一词兼()A名词 B动词 C形容词 D连词 E代词 11.“和、跟、同、与”兼()A动词 B连词 C介词 D副词 E助词 12.下列语句中的“在”不属于介词的是() A我在家 B他在黑板上写字 C把东西放在桌子上 D他在看书 E在家要孝顺父母 13.下列句子中不属于介词“跟”的有()。 A我跟他一起去的 B你跟他要 C谁跟谁都没关系 D你抽空跟他谈谈 E你快跟着我走 二、指出下列词的词性:非常()这里()前后()小()哪里()终于()已经()不()赋予()轰隆()得()大()忽然 ()简直()才()半夜()除了()很多()勇敢()思想 ()啊()或许()只好()二万()迅速()进来()仅仅 ()立刻()

热爱()十几棵()喜欢()大约()次()哗啦()下去() 斟酌()怎样()起来()晚上()亩()前面()或者() 对于()跟()是()三百()美丽()叮当()夏天()鲁迅()我们()批评()的()吧()平坦()有()变化()十分()自己()聪明()从()专家()扩大()缓慢()应该() 按照()回来()喂()马上()消失()飞机()许多() 简直() 三、.指出下列句子中加标记词所属的词类。 (1)这件事已经讨论过了。(过)()(2)天渐渐冷起来了。(渐渐)() (3)他正在教室里看书。(正)()(4)自行车他骑出去了。(出去)() (5)我拿着—本书。(着)()(6)你吃了饭再走。(了)() (7)他是外国人吗?(吗)()(8)你应该努力学外语。(努力)()(9)他刚才来过。(刚才)()(10)最好听的是这首歌。(最)()(11)房子上面铺着瓦。(上面)()(12)这是一本袖珍词典。(袖珍)() (13)老张请我吃饭。(请)()(14)幸亏他来。(幸亏)() (15)我忽然想起来了。(忽然)()(16)这件事很突然。(突然)()(17)无论谁都说好。(无论)()(18)他连忙说不行。(连忙)()

现代汉语词性专题练习

现代汉语词性专题练习 指出下列词的词性: 非常()这里()前后()小()哪里()终于()已经()不()赋予()轰隆()得()大()忽然()简直()才()半夜()除了()很多()勇敢()思想()啊()或许()只好()二万()迅速()进来()仅仅()立刻()热爱()十几棵()喜欢()大约()次()哗啦()下去()斟酌()怎样()起来()晚上()亩()前面()或者()对于()跟()是()三百() 美丽()叮当()夏天()鲁迅()我们()批评()的()吧()平坦()有()变化()十分()自己()聪明()从()专家()扩大()缓慢()应该()按照()回来()喂()马上()消失()飞机()许多()简直() 现代汉语词性专题练习答案 一、副、代、名、形、代、副、副、副、动、拟声、助、形、副、副、连、名、副、形、形、名、叹、副、副、数、副、动、副、副、动、数量、动、副、量、拟声、动、动、代、动、名、量、名、副、介、介、动、数、形、拟声、名、名、代、动、助、语气、形、动、动、副、代、形、介、名、动、形、副、动、动、动、副、动、名、数、副

二、.指出下列句子中加标记词所属的词类。 (1)这件事已经讨论过了。(过)()(2)天渐渐冷起来了。(渐渐)() (3)他正在教室里看书。(正)() (4)自行车他骑出去了。(出去)() (5)我拿着—本书。(着)() (6)你吃了饭再走。(了)() (7)他是外国人吗?(吗)() (8)你应该努力学外语。(努力)() (9)他刚才来过。(刚才)() (10)最好听的是这首歌。(最)() (11)房子上面铺着瓦。(上面)() (12)这是一本袖珍词典。(袖珍)()(13)老张请我吃饭。(请)() (14)幸亏他来。(幸亏)() (15)我忽然想起来了。(忽然)() (16)这件事很突然。(突然)() (17)无论谁都说好。(无论)() (18)他连忙说不行。(连忙)() (19)问题要彻底解决。(彻底)() (20)我们应该历史地分析。(历史)()(21)我们又继续战斗了。(继续)()(22)屋里有一扇门。(扇)() (23)我们要辩证地看问题。(辩证)()(24)所有人都不得离开。(所有)()(25)这种情况是很正常的。(正常)()(26)我们要不断改进服务态度。(不断)()(27)共产党员要加强自我修养。(修养)()(28)他作了一个报告。(报告)() (29)我们要赶快行动。(行动)() (30)工程刚刚开始。(刚刚)() (31)所谓“大师”其实是骗子。(所谓)()(32)这件事让他感慨万分。(感慨)()(33)这部影片儿童不宜观看。(不宜)()(34)你有什么擅长?(擅长)() (35)我不敢再奢望什么。(奢望)()(36)敌人企图拿下这个山头。(企图)()(37)然后再看你喜欢什么。(然后)()(38)他这个人很勇敢。(勇敢)() (39)这个小孩真可爱。(可爱)() (40)这两个方案是—样的。(—样)()

CTB 词性标注中文版翻译

CTB词性标注指南 第一章 引言 中文几乎没有屈折语素。譬如,词语不随时态、格、人称和数量而曲折变化。因此,对特定文本中的词进行词性标注往往都很困难。 这个文件是专为宾州中文树库项目[XPS+00]所设计的。这个项目的目标是构建一个十万词的有语法托架的中文官话文本语料库。标注包括两个步骤:第一阶段是中文分词和词性标注,第二阶段是句法托架。每个步骤包括至少两个经过,即数据库由一个标注者标注,结果文件由另一个标注者检查。 词性标注指南,就如分词指南和托架指南,在项目进行过程中已经修订了多次。到目前为止,我们已经在我们的网站上发行了三个版本:第一部草作完成于1998年12月,在第一个中文分词和词性标注文件发行后;第二部草作完成于1999年3月,在第二个中文分词和词性标注文件发行后;这个文件,是第三部草作,修订于第二个托架文件发行后。在这个第三部草作中,与前两部草作相比,主要改变在于:(1)我们增加了一章引言来解释指南中存在的一些基本原理;(2)我们增加了对中文词语的注释;(3)我们把这个指南写成了一个技术性报告,报告被发表于宾夕法尼亚大学认知科学研究机构(IRCS)。 1.1 标注标准 词性标注(POS)的核心问题是词性标注是否应该基于意义或者句法分布来标注。这个问题自1950年以来就被热烈争论到现在,并且始终存在两种不同的观点。譬如,中文词“毁灭”可以被翻译为英文中的destroy或destroys或destroyed或destroying或destruction,并且如它英文所对应的词一样使用。根据第一种观点,词性标注应该只基于意义。因为词的意义在它所有的用法中基本都是一样的,它就应该总是被标注为一个动词。第二种观点是词性标注应该由词的句法分布来决定。当“毁灭”是一个名词短语的首词,它在那个文本中就应该被标注为一个名词;当“毁灭”是一个动词短语的首词,它就应该被标注为一个动词。 我们选择了句法分布作为我们词性标注的主要标准,因为这与当代语言学理论所采纳的原则一致,譬如X-bar理论和GB理论中的首字投射概念。 由于很多中文动词也出现在名词位置,因此需要两个词性标注标记,这就导致使用句法分布方法将会扩大词典的规模,因此这个原因常被用来反对句法分布方法。我们认为这个观点不足以让人信服,主要有如下两个理由。首先,两个词性标注标记可以让我们区别可以出现在名词位置的动词和不可以出现名词位置的动词(譬如单音词动词和重叠词形式的动词如AABB,A不A)。如果存在动词可以出现在名词位置或者不能出现在名词位置的实词虚化现象,这些实词虚化可以被看做构形规则,这会使得词典自动被扩大。另一方面,如果不存在这样的实词虚化现象并且名词化过程大部分都很特殊,这就验证了一个观点:这是一个词汇现象并且那些可以被名词化的动词在词典中应该有两个词性标注标记。其次,很多动词可以出现在名词位置的现象并不只存在于中文,在其他语言中设立的标准也是给予这些词两个标记。 1.2 词性标注标记集 我们的词性标注标记集有33种标记: 动词,形容词(4):V A,VC,VE,VV。

现代汉语词性专题训练答案

现代汉语词性专题训练、答案. 现代汉语词性专题练习 一、选择题 1.能带宾语的是()。A名词B动词C形容词D副词 2.“上来”是()A助动词B判断动词C趋向动词D及物动词

3.“不、没”都是()A程度副词B时间副词C范围副词D否定副词 4.“很、挺、十分”是()A程度副词B范围副词C语气副词D情态副词 5.“我、你、他”是()A指示代词B疑问代词C人称代词D名词 6.“他在黑板上写字”的“在”是()A动词B副词C介词D方位词 D助词7.“哎哟”是()A拟声词B语气词C叹词 8.代词包括()A人称代词B指示代词C疑问代词ED代名词代动词 C连词B副词9.虚词包括()D助词E语气词A介词 10.“报告”一词兼()A名词BE动词C形容词D连词 代词D副词11.“和、跟、同、与”兼()A动词B连词C介词 助词E12.下列语句中的“在”不属于介词的是() A我在家B他在黑板上写字C把东西放在桌子上 D他在看书 E 在家要孝顺父母

13.下列句子中不属于介词“跟”的有()。 A我跟他一起去的B你跟他要C谁跟谁都没关系 E你快跟着我走你抽空跟他谈谈D二、指出下列词的词性: 非常()这里()前后()小()哪里()终于()已经()不()赋予()轰隆()得()大()忽然()简直()才()半夜()除了()很多()勇敢()思想()啊()或许()只好()二万()迅速()进来()仅仅()立刻()热爱()十几棵()喜欢()大约()次()哗啦()下去()斟酌()怎样()起来()晚上()亩()前面()或者()对于()跟()是()三百()美丽()叮当()夏天()鲁迅()我们()批评()的()吧()平坦()有()变化()十分()自己()聪明()从()专家()扩大()缓慢()应该()按照()回来()喂()马上()消失()飞机()许多()简直() 三、.指出下列句子中加标记词所属的词类。 )((渐渐))天渐渐冷起来了。2()((过))这件事已经讨论过了。1(. ))(4)自行车他骑出去了。(出去)((3)他正在教室里看书。(正)( )6)()你吃了饭再走。(了)((5)我拿着—本书。(着)( )(8)你应该努力学外语。(努力)((7)他是外国人吗?(吗)())10)最好听的是这首歌。(最)((刚才)(9)他刚才来过。()()12)这是一本袖珍词典。(袖珍)((11)房子上面铺着瓦。(上面)()

现代汉语词性及专题训练、答案

现代汉语词类专题练习 一、选择题 1.能带宾语的是()。A名词B动词C形容词D副词 2.“上来”是()A助动词B判断动词C趋向动词D及物动词 3.“不、没”都是()A程度副词B时间副词C范围副词D否定副词 4.“很、挺、十分”是()A程度副词B范围副词C语气副词D情态副词 5.“我、你、他”是()A指示代词B疑问代词C人称代词D名词 6.“他在黑板上写字”的“在”是()A动词B副词C介词D方位词 7.“哎哟”是()A拟声词B语气词C叹词D助词 8.代词包括()A人称代词B指示代词C疑问代词D代名词E代动词 9.虚词包括()A介词B副词C连词D助词E语气词 10.“报告”一词兼()A名词B动词C形容词D连词E代词 11.“和、跟、同、与”兼()A动词B连词C介词D副词E助词 12.下列语句中的“在”不属于介词的是() A我在家B他在黑板上写字C把东西放在桌子上 D他在看书E在家要孝顺父母 13.下列句子中不属于介词“跟”的有()。 A我跟他一起去的B你跟他要C谁跟谁都没关系 D你抽空跟他谈谈E你快跟着我走 二、指出下列词的词性: 非常()这里()前后()小()哪里()终于()已经()不()赋予()轰隆()得()大()忽然()简直()才()半夜()除了()很多()勇敢()思想()啊()或许()只好()二万()迅速()进来()仅仅()立刻()热爱()十几棵()喜欢()大约()次()哗啦()下去()斟酌()怎样()起来()晚上()亩()前面()或者()对于()跟()是()三百()美丽()叮当()夏天()鲁迅()我们()批评()的()吧()平坦()有()变化()十分()自己()聪明()从()专家()扩大()缓慢()应该()按照()回来()喂()马上()消失()飞机()许多()简直() 三、.指出下列句子中加标记词所属的词类。 (1)这件事已经讨论过了。(过)()(2)天渐渐冷起来了。(渐渐)() (3)他正在教室里看书。(正)()(4)自行车他骑出去了。(出去)()

中文分词实验

中文分词实验 一、实验目的: 目的:了解并掌握基于匹配的分词方法,以及分词效果的评价方法。 实验要求: 1、从互联网上查找并构建不低于10万词的词典,构建词典的存储结构; 2、选择实现一种机械分词方法(双向最大匹配、双向最小匹配、正向减字最大匹配法等)。 3、在不低于1000个文本文件,每个文件大于1000字的文档中进行中文分词测试,记录并分析所选分词算法的准确率、分词速度。 预期效果: 1、平均准确率达到85%以上 二、实验方案: 1.实验平台 系统:win10 软件平台:spyder 语言:python 2.算法选择 选择正向减字最大匹配法,参照《搜索引擎-原理、技术与系统》教材第62页的描述,使用python语言在spyder软件环境下完成代码的编辑。 算法流程图:

Figure Error! No sequence specified.. 正向减字最大匹配算法流程

Figure Error! No sequence specified.. 切词算法流程算法伪代码描述:

3.实验步骤 1)在网上查找语料和词典文本文件; 2)思考并编写代码构建词典存储结构; 3)编写代码将语料分割为1500个文本文件,每个文件的字数大于1000字; 4)编写分词代码; 5)思考并编写代码将语料标注为可计算准确率的文本; 6)对测试集和分词结果集进行合并; 7)对分词结果进行统计,计算准确率,召回率及F值(正确率和召回率的 调和平均值); 8)思考总结,分析结论。 4.实验实施 我进行了两轮实验,第一轮实验效果比较差,于是仔细思考了原因,进行了第二轮实验,修改参数,代码,重新分词以及计算准确率,效果一下子提升了很多。 实验过程:

当代汉语文本语料库分词词性标注加工规范

973当代汉语文本语料库分词、词性标注加工规范 (草案) 山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。这次承担973任务后制定出本规范。本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。 《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。 1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年 2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布 3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年 北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年 北京大学计算语言学研究所 5.《信息处理用现代汉语词类标记规范》,2002年, 教育部语言文字应用研究所计算语言学研究室 6.《现代汉语语料库文本分词规范说明》,2000年 山西大学计算机科学系山西大学计算机应用研究所 7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会 一、分词总则 1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。追求分词后语料的一致性(consistency)是本规范的目标之一。 2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。本文中仍用“词”来称谓“分词单位”。 3.分词中充分考虑形式与意义的统一。形式上要看一个结构体的组成成分能否单用,结构体能否扩展,组成成分的结构关系,以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性。 4. 本规范规定的分词原则及规则,既要适应语言信息处理与语料库语言学研究的需要,又力求与传统的语言学研究成果保持一致;既要适合计算机自动处理,又要便于人工校对。 5.分词时遵循从大到小的原则逐层顺序切分。一时难以判定是否切分的结构体,暂不切分。 二、词性标注总则 信息处理用现代汉语词性标注主要原则有三个: (1)语法功能原则。语法功能是词类划分的主要依据。词的意义不作为划分词类的主要依据,但有时也起着某些参考作用。

现代汉语的词性分类

现代汉语的词可以分为两类12种词性。一类是实词:名词、动词、形容词、数词、量词和代词。一类是虚词:副词、介词、连词、助词、叹词和拟声词。 实词 一.名词 表示人和事物的名称叫名词。如“黄瓜、猪、马、羊、白菜、拖拉机、计算机”。 1、表示专用名称的叫做“专用名词”,如“云南、上海、李白、白居易,中国”。 2、表示抽象事物的名称的叫做“抽象名词”,如“范畴、思想、质量、品德、品质、友谊、方法”。 3、表示方位的叫做“方位名词”,如“上、下、左、右、前、后、中、东、西、南、北、前面、后边、东边、南面、中间”等。二.动词 动词表示人或事物的动作、行为、发展、变化。 1、有的动词表示一般的动作,如"来、去、说、走、跑、吼、叫、学习、起飞、审查、认识"等。 2、有的动词表示心理活动,如“想、重视、注重、尊敬、了解、相信、佩服、惦念”等,这样的动词前面往往可以加上“很、十分”。 3、有的动词表示能够、愿意这些意思,叫做“能愿动词”,它们是

“能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须”,这些能愿动词常常用在一般的动词前面,如“得去、能够做、可以考虑、愿意学习、应该说明、可能发展”。 4、还有一些动词表示趋向,叫做“趋向动词”,如“来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起来”,它们往往用在一般动词后面表示趋向,如“跳起来、走下去、抬上来、跑过去”。 5、“是”“有”也是动词,跟动词的用法一样,“是”也成为判断动词。 三.形容词 形容词表示事物的形状、性质、颜色、状态等,如“多、少、高、矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色”。状态形容词通红、雪白、红通通、黑不溜秋等前面不能加“很”。 四.数词 数词是表示事物数目的词。如“一、二、两、三、七、十、百、千、万、亿、半”。 五.量词 量词是表示事物或动作单位的词。汉语的量词分为名量词和动量词。 1、名量词表示事物的数量,又可以分为单位量词和度量量词。单位量词表示事物的单位,如“个、张、、只、支、本、台、架、辆、颗、

现代汉语词性及专题训练答案

现代汉语词性及专题训 练答案

现代汉语词性及专题训 练答案 Pleasure Group Office【T985AB-B866SYT-B182C-BS682T-STT18】

现代汉语词性 一.名词 表示人和事物的名称叫。如:黄瓜、猪、羊、白菜、拖拉机、计算机。 1、表示专用名称的叫做专用名词,如云南、上海、、白居易,中国。 2、表示抽象事物的名称的叫做抽象名词,如范畴、思想、质量、品德、品质、友谊、方法。 3、表示方位的叫做方位名词,如上、下、左、右、前、后、中、东、西、南、北、前面、后边、东边、南面、中间等。 二.动词 表示人或事物的动作、行为、发展、变化。 1、有的动词表示一般的动作,如来、去、说、走、跑、吼、叫、学习、起飞、审查、认识等。 2、有的动词表示心理活动,如想、重视、注重、尊敬、了解、相信、佩服、惦念等,这样的动词前面往往可以加上"很、十分"。 3、有的动词表示能够、愿意这些意思,叫做,它们是能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须,这些能愿动词常常用在一般的动词前面,如得去、能够做、可以考虑、愿意学习、应该说明、可能发展等 4、还有一些动词表示趋向,叫做趋向动词,如来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起,它们往往用在一般动词后面表示趋向,如跳起来、走下去、抬. 5、"是、有"也是动词,跟动词的用法一样,“是”也成为判断动词。 三.形容词 表示事物的形状、性质、颜色、状态等,如多、少、高、矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色…… 状态形容词通红、雪白、红通通、黑不溜秋等前面不能加“很”。 四.数词 是表示事物数目的词。如一、二、两、三、七、十、百、千、万、亿、半……五.量词 量词是表示事物或动作单位的词。汉语的量词分为名量词和动量词。 1、名量词表示事物的数量,又可以分为单位量词和度量量词。 单位量词表示事物的单位,如个、张、、只、支、本、台、架、辆、颗、株、头、间、把、扇等; 度量量词表示事物的度量,如寸、尺、丈、斤、两、吨、升、斗、加仑、、欧姆、立方米等。 2、动量词表示动作的数量,用在动词前后表示动作的单位,如次、下、回、趟、场… 六.代词 能代替实词和。表示指称时,有定指和不定指的区别。不定指往往是指不确定的人、物或某种性状、数量、程度、动作等。他不常指某一定的人物,也就不可能有一定意义,介乎虚实之间。 1、:代替人或事物的名称。如我、你、您、他、她、它、我们、你们、他们、她们、它们、咱们、自己、别人、大家、大伙……(自己能和其他代词连用,起强调作用。例如:我自己、你们自己、大家自己等)

现代汉语词性专题练习 (2)

现代汉语词性专题练习 一、选择题 1.能带宾语的是()A名词B动词C形容词D副词 2.“上来”是()A助动词B判断动词C趋向动词D及物动词 3.“不、没”都是()A程度副词B时间副词C范围副词D否定副词 4.“很、挺、十分”是()A程度副词B范围副词C语气副词D情态副词 5.“我、你、他”是()A指示代词B疑问代词C人称代词D名词 6.“他在黑板上写字”的“在”是()A动词B副词C介词D方位词 7.“哎哟”是()A拟声词B语气词C叹词D助词 8.代词包括()A人称代词B指示代词C疑问代词D代名词E代动词 9.虚词包括()A介词B副词C连词D助词E语气词 10.“报告”一词兼()A名词B动词C形容词D连词E代词 11.“和、跟、同、与”兼()A动词B连词C介词D副词E助词 12.下列语句中的“在”不属于介词的是()A我在家B他在黑板上写字 C把东西放在桌子上D他在看书E在家要孝顺父母 13.下列句子中不属于介词“跟”的有()。A我跟他一起去的B你跟他要 C谁跟谁都没关系D你抽空跟他谈谈E你快跟着我走 二、指出下列词的词性:非常()这里()前后()小()哪里()终于()已经()不()赋予()轰隆()得()大()忽然()简直()才()半夜()除了()很多()勇敢()思想()啊()或许()只好()二万()迅速()进来()仅仅()立刻() 热爱()十几棵()喜欢()大约()次()哗啦()下去() 斟酌()怎样()起来()晚上()亩()前面()或者() 对于()跟()是()三百()美丽()叮当()夏天()鲁迅()我们()批评()的()吧()平坦()有()变化()十分()自己()聪明()从()专家()扩大()缓慢()应该() 按照()回来()喂()马上()消失()飞机()许多() 简直() 三、.指出下列句子中加标记词所属的词类。 (1)这件事已经讨论过了。(过)()(2)天渐渐冷起来了。(渐渐)() (3)他正在教室里看书。(正)()(4)自行车他骑出去了。(出去)() (5)我拿着—本书。(着)()(6)你吃了饭再走。(了)() (7)他是外国人吗?(吗)()(8)你应该努力学外语。(努力)() (9)他刚才来过。(刚才)()(10)最好听的是这首歌。(最)() (11)房子上面铺着瓦。(上面)()(12)这是一本袖珍词典。(袖珍)() (13)老张请我吃饭。(请)()(14)幸亏他来。(幸亏)() (15)我忽然想起来了。(忽然)()(16)这件事很突然。(突然)() (17)无论谁都说好。(无论)()(18)他连忙说不行。(连忙)() (19)问题要彻底解决。(彻底)()(20)我们应该历史地分析。(历史)() (21)我们又继续战斗了。(继续)()(22)屋里有一扇门。(扇)() (23)我们要辩证地看问题。(辩证)()(24)所有人都不得离开。(所有)()(25)这种情况是很正常的。(正常)()(26)我们要不断改进服务态度。(不断)()(27)共产党员要加强自我修养。(修养)()(28)他作了一个报告。(报告)()

分词工具比较

IKAnalyzer IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene 项目,同时提供了对Lucene的默认优化实现。 语言和平台:基于java 语言开发,最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer 3.0 则发展为面向 Java 的公用分词组件,独立于 Lucene 项目,同时提供了对Lucene 的默认优化实现。 算法:采用了特有的“正向迭代最细粒度切分算法”。采用了多子处理器分析模式,支持:英文字母( IP 地址、 Email 、 URL )、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。优化的词典存储,更小的内存占用。支持用户词典扩展定义。针对 Lucene 全文检索优化的查询分析器 IKQueryParser ;采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高 Lucene 检索的命中率。 性能:60 万字 / 秒 IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的正反向全切分算法,是LuceneAnalyzer接口的实现。该算法适合与互联网用户的搜索习惯和企业知识库检索,用户可以用句子中涵盖的中文词汇搜索,如用"人民"搜索含"人民币"的文章,这是大部分用户的搜索思维;不适合用于知识挖掘和网络爬虫技术,全切分法容易造成知识歧义,因为在语义学上"人民"和"人民币"是完全搭不上关系的。 je-anlysis的分词(基于java实现) 1. 分词效率:每秒30万字(测试环境迅驰1.6,第一次分词需要1-2秒加载词典) 2. 运行环境: Lucene 2.0 3. 免费安装使用传播,无限制商业应用,但暂不开源,也不提供任何保证 4. 优点:全面支持Lucene 2.0;增强了词典维护的API;增加了商品编码的匹配;增加了Mail地址的匹配;实现了词尾消歧算法第二层的过滤;整理优化了词库; 支持词典的动态扩展;支持中文数字的匹配(如:二零零六);数量词采用“n”;作为数字通配符优化词典结构以便修改调整;支持英文、数字、中文(简体)混合分词;常用的数量和人名的匹配;超过22万词的词库整理;实现正向最大匹配算法;支持分词粒度控制 ictclas4j ictclas4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目,简化了原分词程序的复

词性标注说明_128601491

人民日报标注语料库(PFR)使用说明书 本文是PFR标注语料库的使用说明书,帮助用户了解它,更好地使用它。 PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz);从语言学角度也增加了一些标记,总共使用了40多个个标记。

二.格式说明 1.语料是纯文本文件,文件中每一行代表一自然段或者一个标题,一篇文章有若干个自然段,因此在语料中一篇文章是由多行组成的。 2.文件名格式为“月-日-版号-篇章号”。 3.一篇文章里面的段落之间是不空行的,在两篇文章之间,会有一个空行,表示文章的分界线,同时,下一篇文章的“篇章号-段号”都会有所改变。 4.标号之后,是2个单字节空格,然后开始正文。 5.正文部分按照规范已经切分成词,并且加上标注,标注的格式为“词语/词性”,即词语后面加单斜线,再紧跟词性标记。词与词之间用2个单字节空格隔开。每段最 后的词,在标记之后也有2个单字节空格,保持格式一致。 6.语料中除了词性标记以外,还有“短语标记”,这种情况一般出现在机构团体名称、成语等情况中。如“通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w”中,用 “[ ]”合起来的部分是一个完整的机构团体名称,方括号后面紧跟标注nt,nt之后 空两个单字节空格,保持了格式的一致。 三.例子 迈向/v 充满/v 希望/n 的/u 新/a 世纪/n ——/w 一九九八年/t 新年/t 讲话/n (/w 附/v 图片/n 1/m 张/q )/w …… 在/p 1998年/t 来临/v 之际/f ,/w 我/r 十分/m 高兴/a 地/u 通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w [中国/ns 国际/n 广播/vn 电台/n]nt 和/c [中央/n

汉语词性标注

湖南文理学院课程设计报告 课程名称:计算机软件技术基础 系部:电信系 专业班级:通信工程T09103班 学生姓名:刘程程 指导教师: 完成时间:2011.12.28 报告成绩:

目录 中文摘要 .................................................................................................................................................................... I ABSTRACT ............................................................................................................................................................ II 第一章引言 (1) 1.1背景和意义 (1) 1.2词性标注定义及其困难 (1) 1.2.1词性的定义 (2) 1.2.2词性标注的难点 (2) 第二章基础理论介绍 (3) 2.1隐马尔科夫模型(H1DDEN M ARKOV M ODEL,HM) (3) 2.2HMM用于词性标注 (4) 第三章改进HMM标注模型与参数估计 (4) 3.1改进HMM模型词性标注 (4) 3.2参数估计 (5) 3.2.1训练语料库 (5) 3.2.2当用数据库 (5) 第四章改进VITERBI算法标注 (7) 4.1标注过程 (7) 4.2改进后的V ITERBI算法的具体描述 (7) 第五章实验结果与分析 (8) 5.1评价标准 (8) 5.2实验结果 (9) 5.3错误分析 (10) 参考文献 (11)

现代汉语词性

现代汉语词性 一.名词 表示人和事物的名称叫名词。如:"黄瓜、猪、马、羊、白菜、拖拉机、计算机"。 1、表示专用名称的叫做"专用名词",如"云南、上海、李白、白居易,中国"。 2、表示抽象事物的名称的叫做"抽象名词",如"范畴、思想、质量、品德、品质、友谊、方法"。 3、表示方位的叫做"方位名词",如"上""下""左""右""前""后""中""东""西""南""北""前面""后边""东边""南面""中间"等。 二.动词 动词表示人或事物的动作、行为、发展、变化。 1、有的动词表示一般的动作,如"来、去、说、走、跑、吼、叫、学习、起飞、审查、认识"等。 2、有的动词表示心理活动,如"想、重视、注重、尊敬、了解、相信、佩服、惦念"等,这样的动词前面往往可以加上"很、十分"。 3、有的动词表示能够、愿意这些意思,叫做"能愿动词",它们是"能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须",这些能愿动词常常用在一般的动词前面,如"得去、能够做、可以考虑、愿意学习、应该说明、可能发展"。 4、还有一些动词表示趋向,叫做"趋向动词",如"来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起;,它们往往用在一般动词后面表示趋向,如"跳起来、走下去、抬上来、跑过去"。 5、"是""有"也是动词,跟动词的用法一样,“是”也成为判断动词。 三.形容词 形容词表示事物的形状、性质、颜色、状态等,如“多、少、高、矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色……”。 状态形容词通红、雪白、红通通、黑不溜秋等前面不能加“很”。 四.数词 数词是表示事物数目的词。如"一、二、两、三、七、十、百、千、万、亿、半"。 五.量词 量词是表示事物或动作单位的词。汉语的量词分为名量词和动量词。 1、名量词表示事物的数量,又可以分为单位量词和度量量词。 单位量词表示事物的单位,如"个、张、、只、支、本、台、架、辆、颗、株、头、间、把、扇、等; 度量量词表示事物的度量,如"寸、尺、丈、斤、两、吨、升、斗、加仑、伏特、欧姆、立方米"。 2、动量词表示动作的数量,用在动词前后表示动作的单位,如"次、下、回、趟、场"。 六.代词 代词能代替实词和短语。表示指称时,有定指和不定指的区别。不定指往往是指不确定的人、物或某种形状、数量、程度、动作等。他不常指某一定的人物,也就不可能有一定意义,介乎虚实之间。 1、人称代词:代替人或事物的名称。我你您他她它我们你们他们她们它们咱们自己别人大家大伙(自己能和其他代词连用,起强调作用。例如:我自己你们自己大家自己) 2、疑问代词:用来提出问题谁什么哪(问人或事物)哪儿那里(问处所)几多(问数量)多多么(问程度)怎么怎样怎么样(问性质状态)什么怎样什么样(问方式行动) 3、指示代词:用来区别人或事物这那(指人或事物)这儿这里那儿那里(指处所) 这会儿那会儿(指时间)这么这样这么样那么那样那么样(指性质、状态、方式、行动、程度)这些那些这么些那么些(指数量)每各(指所有的或全体中任何一个)某另别(确有所指,未说明哪一个) 代词一般不受别的词类的修饰。代词同它所代替的或指示的实词或短语的用法相当,它所代替的词能充当什么句子成分,它也能充当什么句子成分。 七.副词 副词的意义和种类

现代汉语词性及专题训练答案汇编

学习-----好资料 现代汉语词性 一.名词 表示人和事物的名称叫名词。如:黄瓜、猪、羊、白菜、拖拉机、计算机。 1、表示专用名称的叫做专用名词,如云南、上海、李白、白居易,中国。 2、表示抽象事物的名称的叫做抽象名词,如范畴、思想、质量、品德、品质、友谊、方法。 3、表示方位的叫做方位名词,如上、下、左、右、前、后、中、东、西、南、北、前面、后边、东边、南面、中间等。 二.动词 动词表示人或事物的动作、行为、发展、变化。 1、有的动词表示一般的动作,如来、去、说、走、跑、吼、叫、学习、起飞、审查、认识等。 2、有的动词表示心理活动,如想、重视、注重、尊敬、了解、相信、佩服、惦念等,这样的动词前面往往可以加上很、十分。 3、有的动词表示能够、愿意这些意思,叫做能愿动词,它们是能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须,这些能愿动词常常用在一般的动词前面,如得去、能够做、可以考虑、愿意学习、应该说明、可能发展等 4、还有一些动词表示趋向,叫做趋向动词,如来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起,它们往往用在一般动词后面表示趋向,如跳起来、走下去、抬. 5、是、有也是动词,跟动词的用法一样,“是”也成为判断动词。 三.形容词 形容词表示事物的形状、性质、颜色、状态等,如多、少、高、矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色…… 状态形容词通红、雪白、红通通、黑不溜秋等前面不能加“很”。 四.数词 数词是表示事物数目的词。如一、二、两、三、七、十、百、千、万、亿、半…… 五.量词 量词是表示事物或动作单位的词。汉语的量词分为名量词和动量词。 1、名量词表示事物的数量,又可以分为单位量词和度量量词。 单位量词表示事物的单位,如个、张、、只、支、本、台、架、辆、颗、株、头、间、把、扇等; 度量量词表示事物的度量,如寸、尺、丈、斤、两、吨、升、斗、加仑、伏特、欧姆、立方米等。 2、动量词表示动作的数量,用在动词前后表示动作的单位,如次、下、回、趟、场… 六.代词 代词能代替实词和短语。表示指称时,有定指和不定指的区别。不定指往往是指不确定的人、物或某种性状、数量、程度、动作等。他不常指某一定的人物,也就不可能有一定意义,介乎虚实之间。 1、人称代词:代替人或事物的名称。如我、你、您、他、她、它、我们、你们、他们、她们、它们、咱们、自己、别人、大家、大伙……(自己能和其他代词连用,起强调作用。例如:我自己、你们自己、大家自己等) 2、疑问代词:用来提出问题。如谁、什么、哪(问人或事物)、哪儿、那里(问处所)、几 多(问数量)、多、多么(问程度)、怎么、怎样、怎么样(问性质状态)、什么、怎样、什么样

现代汉语的词性分类

现代汉语的词性分类 的词可以分为12类。 :名词、、形容词、、和。 :、、、、叹词、。 1.名词:表示人和事物的名称的实词。如:"黄瓜、白菜、拖拉机、计算机"。 1、表示专用名称的叫做"专有名词",如"云南、上海、李白、白居易"。 2、表示抽象事物的名称的叫做"抽象名词",如"范畴、思想、质量、品德、友谊、方法"。 3、表示方位的叫做"方位名词",如"上""下""左""右""前""后""中""东""西""南""北""前面""后边""东边""南面""中间"等。 2.动词:表示人或事物的动作、行为、发展、变化。 1、有的动词表示一般的动作,如"来、去、说、走、跑、学习、起飞、审查、认识"等。 2、有的动词表示心理活动,如"想、重视、注重、尊敬、了解、相信、佩服、惦念"等,这样的动词前面往往可以加上"很、十分"。 3、有的动词表示能够、愿意这些意思,叫做"能愿动词",它们是"能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须",这些能愿动词常常用在一般的动词前面,如"得去、能够做、可以考虑、愿意学习、应该说明、可能发展"。 4、还有一些动词表示趋向,叫做"趋向动词",如"来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起;,它们往往用在一般动词后面表示趋向,如"跳起来、走下去、抬上来、跑过去"。 5、"是""有"也是动词,跟动词的用法一样,“是”也称为判断动词。有与无对应是存在性动词。 3.形容词:表示事物的形状、性质、颜色、状态等,如“多、少、高、 矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色……”。 状态形容词通红、雪白、红通通、黑不溜秋等前面不能加“很”。

hanlp中文分词器解读

中文分词器解析hanlp分词器接口设计:

提供外部接口: 分词器封装为静态工具类,并提供了简单的接口

标准分词是最常用的分词器,基于HMM-Viterbi实现,开启了中国人名识别和音译人名识别,调用方法如下: HanLP.segment其实是对StandardTokenizer.segment的包装。 /** * 分词 * * @param text 文本 * @return切分后的单词 */ publicstatic Listsegment(String text) { return StandardTokenizer.segment(text.toCharArray()); } /** * 创建一个分词器
* 这是一个工厂方法
* 与直接new一个分词器相比,使用本方法的好处是,以后HanLP升级了,总能用上最合适的分词器 * @return一个分词器 */ publicstatic Segment newSegment() }

publicclass StandardTokenizer { /** * 预置分词器 */ publicstaticfinalSegment SEGMENT = HanLP.newSegment(); /** * 分词 * @param text 文本 * @return分词结果 */ publicstatic Listsegment(String text) { return SEGMENT.seg(text.toCharArray()); } /** * 分词 * @param text 文本 * @return分词结果 */ publicstatic Listsegment(char[]text) { return SEGMENT.seg(text); } /** * 切分为句子形式 * @param text 文本

现代汉语词性分类.

现代汉语词性分类 一、实词:名词、动词、形容词、数量词、代词. (-)名词 名词是表示人或事物的词。例如: 指人的:鲁迅、农民、工人、作家、老师、学生 指物的:日、风、山、马、稻子、飞机、原子、计算机、车辆、纸张、道德、法律、文化 表时间的:春天、明年、早晨、星期天、现在、刚才 表处所的:马来西亚、北京、凯旋门、大庆、亚洲 表方位的:上、下、前、左、右、东、南、内、外(单纯的) 以上、以前、以东、上边、上面、东边、西边、里头、外头、中间(合成的)(二)动词 动词是表示动作、行为、心理活动或存在变化等的词。例如: 表示动作行为:走、坐、听、看、批评、宣传、保卫、学习、研究、进行、开始、停止、禁止 表示存在变化消失:存在、在、有、等于、发生、演变、发展、生长、死亡、消灭 表示心理活动:爱、恨、伯、想念、打算、喜欢、希望、害伯、担心、讨厌 表示判断:是 表示可能意愿必要(助动词):能、能够、会、可以、愿、愿意、肯、敢、要、应当、应该、配、值得 表示趋向(趋向动词):上、下、进、出、回、开、过、起、来、上来、下来、进来、出来、回来、 开来、过来、起来、去、上去、下去、进去、出主、回去,开去、过去 动词的语法特点: 1.一部分动词可以重叠,表示“动作短暂”或“尝试”的意思,是时态的表示法。单音节动词重叠形式是:AA 看——看看想——想想 试——试试讲——讲讲 双音节动词重叠形式是:ABAB 学习——学习学习批评——批评批评 讨论——讨论讨论休息——休息休息 动词比较复杂,有的需要加以说明。 1.动词“是” I. “是”用在名词前边是动词,这种“是”常常表示主语“等于什么”或“属于什么”。例如“鲁迅就是周树人”、“牛是反刍动物”、“他是个开车的”、“是他救了我”;此外,“这一年,人家都是丰年,我是歉年,收完秋就没吃的了”等里面的“是”仍是动词,作谓语。 II. “是”用在动词、形容词前边,表示肯定,含有“的确”、“实在”的意思,可以看作语气副词,作状语,例如“我〔是〕懂了”、“他〔是〕勇敢”、“这样做〔是〕好”。 2.动词“有”

相关文档
最新文档