基于词平台汉字编码的自动标引研究

基于词平台汉字编码的自动标引研究
基于词平台汉字编码的自动标引研究

基于词平台汉字编码的自动标引研究

焦慧,刘迁,贾惠波

清华大学精密仪器与机械学系,北京(100084)

Email:jiaoh04@https://www.360docs.net/doc/a312130412.html,

摘要:自动标引是基于内容检索的关键技术之一。目前国内的汉语自动标引研究主要集

中于汉语自动分词这个前期处理问题上。本文提出一种基于词平台的汉字编码方法,建立

一种新的中文计算机文档表达格式,使词成为最小的信息单位,汉语分析无需再进行自动

分词,可直接进行自动标引,从而提高自动标引的效率和质量。

关键词:自动标引,词平台,汉字编码,自动分词

1.引言

标引起源于文献工作,是指采用一个或若干个信息标识(词语或代号)来表示或替代文献内容特征的过程[1]。标引工作在检索系统中占有重要地位,但需要花费大量的人力,一直是建立计算机检索系统的最大障碍。为了解决这个难题,已有不少人开展了计算机自动标引的研究。1957年,美国IBM公司的H.P.Luhn发表了两篇论文[2][3],首次将计算机技术引入文献标引领域,开创了以自动标引为特征的现代标引方法。自动标引也叫做机器标引,是指直接使用计算机对信息记录进行标引。

西文的词汇之间有天然的词间间隔:空格,因此自动标引较易实现,而中文词汇间并无天然分隔,比西文多了一个分词的困难,这正是中文自动标引难以实现的关键所在。从当前国内情况看,汉语自动标引所采用的方法大多仍然以自动分词为基础,由于自动分词的准确性难以达到很高的水平,使得在此基础之上的自动标引的效率和质量都未能达到令人满意的效果。为了克服自动分词问题带来的困难,我们提出一种基于词平台的中文文本编码方法,建立一种新的中文计算机文档表达格式,并把这种方法应用在汉语自动标引的研究中。

2.汉语自动标引研究现状

自1980年以后国内开始有人涉足自动标引领域,并取得了一些初步成果。最早的自动标引方案是从篇名标引实验开始的[4],后来又有了基于“词部件词典”的抽词标引实验[5],和规则标引实验[6]。目前国内使用的自动标引方法主要有:(1)词典分词标引,即事先构造一个词典,然后根据某种方法将文献中的字符串取出来与词典对照,如相同则认为该字符串为一个词汇,然后进行标引;(2)逐字标引法,将篇名中的汉字全部抽出标引,检索时再组配起来;(3)切分标记法,切分标记法是将能够断开句子或表示汉字之间联系关系的汉字集合组成字典,并输入计算机。当原文句子被切分标记字典中的汉字分割成汉语词组或短语之后,再按一定的分解模式将它们分割成单词或专用词;(4)统计标引法,汉语统计标引法吸收了国外有关词频统计标引的思想,把一些加权思想融进汉语文献的自动标引之中;(5)语法语义分析法,建立分词知识库,将语法、语义等知识分词技术应用于自动标引;(6)神经网络法,利用神经网络方法建立分词与理解系统,从而进行自动标引。以上各方法虽然在小规模的实验中都取得了较好的效果,但在大规模的实用标引中还可能遇到一些预想不到的问题,产生一定的误差。到目前为止,国内外还没有建立起一个实用的汉语自动标引系统。

由于汉语信息的表达与组织所固有的特点,20几年来我国的自动标引研究主要集中在解决汉语的自动分词问题上。虽然关于自动分词已经出现了很多不错的方法,也取得了比较理想的效果,但限于汉语自身特点等原因,自动分词的准确性仍然难以达到很高的水平,使

得在此基础之上的自动标引的质量也受影响。理想的自动标引,需要准确找出关键词,并通过对关键词的分析处理,析出主题概念,挑选出相关标引词,这样才可称作为是完全的自动标引[7]。

3.基于词平台的汉字编码方法

3.1总体思路

目前几乎所有中文信息处理研究都是基于字平台的。而由于中文的连续书写习惯,无论分词规范多么详细,分词词表多么完善,中文自动分词中的歧义切分等问题都将始终存在,并且将严重影响着分词系统的切分精度。

解决中文文本处理难题,可以另辟蹊径,从根本上突破分词这一技术瓶颈。一般的说,分词问题的产生是由于中文的连续书写习惯。而深究则发现,问题的根源在于中文文本的计算机表达采用的是以字为单位的内码表示法。我们可以在不改变汉字连写传统的条件下,在计算机内采用以词为基本单元的表达方法,从而彻底抛弃分词问题。

由于在汉语语言学里,“词”的确切定义尚无定论,这里所说的词,是指中文语句中有意义的,可独立运用的最小单位,即通常所说的词、词组、短语和成语等。我们对每个词进行编码,文章使用这样基于词的编码格式就可以使词成为计算机中文处理中的最小信息载体,无须再进行中文分词,使中文计算机处理与西文处在相同的起点水平,而且有了这个系统,西文对于语言处理的研究成果都可以在中文处理中应用。使用此编码方法的文档系统总体结构示意图如图1所示:

图1 总体结构示意图

3.2具体编码方法

基于词平台的计算机用汉字编码方法,包括新的中文文档编码格式,每个词的新编码(称为词典码)与机内码对应的词典码表(即一个数据库)。采用新的编码格式后,整个文档文件由一系列码字组成,控制码采用国际标准的ASCII码表示,西文字符采用国际标准的表示西文字符和符号的ASCII码表示,而对一般中文词汇建立了一套编码方式。为了使新的编码方式能在计算机上实现,需要将词典码与目前计算机中表示汉字的机内码联系起来,我

们通过一个数据库建立起词典码与机内码的对应关系,称为词典码表。词典码表是根据词性分类,在每一类词中再按拼音字母顺序排列,给每一个词用四个字节编码,并对应组成这个词的汉字的机内码,构成一个词典码表的数据库:

步骤1:把汉语词汇按它们最常用的词性分为名词、动词(包括动词短语)、形容词、副词、代词、数词、量词、象声词、叹词、介词、连词、助词和语气词,此外,汉语中还有大量的成语,把它们归为一类词。我们称按以上方法分好类的词为词典词。给每个词典词进行编码,称为词典码,所有词典码都是由4个字节构成,按十六进制表示的具体形式为:[AxH xxH xxH xxH] (H是十六进制的表示符号,下同,以下词典码均用十六进制表示)

其中第一个字节的高四位必须是AH(二进制表示为1010),第一字节的低四位x的范围是1H到FH,用来表示这个词的词性,名词、形容词等大类词性独立为一组,助词、叹词、语气词等小类词性合成为一组,对于动词和动词短语,时态、数等情况比较复杂,B代表单字实义动词,C代表多字实义动词,D代表动词短语,E和F保留,以待将来扩充功能。具体对应如表1:

表1 词性对照表

1 2 3 4 5 6 7 8 9 A B-F

名词形容词副词代词数词量词成语介词、

连词小词

(助

词、语

气词、

象声

词、叹

词)

标点符

动词和

动词短

第二字节的高四位为保留位,第二字节低四位用来表示该词所包含的字数(1-15个);将剩余的第三字节和第四字节组成一个顺序码,范围是1到FFFFH(即65535),用来将词汇按拼音顺序进行排列。按此方式编码至少能容下的词条数是14×65535=917490条。

我们称一类词为非词典词,即一些专有名词,如人名、地名、商品名等。我们对这类词的编码也采用四字节编码的方法,

[AxH xxH xxH xxH]

只是第一个字节AxH中x恒取零,即非词典词的第一字节总是A0H,其余部分与以上编码方法相同。

本方法对于汉字标点等符号(或全角符号),同样采用四字节编码:

[AaH xxH xxH xxH] 其中第一个字节恒为AaH,第二个字节恒为00H,后面两个字节是这个标点符号的机内码。

把得到的词典码表输入到计算机中去,中文输入时分别形成词典码格式和机内码格式的文件。对于词典码格式的文件,每个四字节的码字就是一个词,可以表达某个完整含义,成为了文档中最小的信息单位。采用这样的方式就可以绕过分词问题进行中文信息处理了。

4.基于词平台汉字编码的自动标引

有了以上的汉字编码方法,任何一篇汉语文章中的词汇就都能以这种四字节码字的形式表示出来。这样每四字节就表示一个词,表达一个完整的意义。在此基础之上,标引时就可以根据需要直接抽取出能表示文章内容的词。

作者对以上方法进行了初步实验。由于最初研究自动标引时的标引源就是文章标题,

而且这种方法也已经很成熟,并广泛用于西文、KWIC、KWOC索引的编制。我们也从标引文章标题开始实验,也就是从文章标题中抽取关键词作为标引词。从2005年第21期《计算机工程》期刊中选取45个文章标题,对每个标题中表达完整含义的词或词组按以上方法进行编码,形成词典码;并取得词中每个汉字的机内码,使词的词典码与机内码一一对应起来形成数据库。

为了模拟词典码文件在计算机中的存储形式,作者人工地将这45个汉语标题按其中每个词的词典码改写成了标题的词典码文件。例如,标题“人机合作的免疫算法及其在布局设计中的应用”对应的词典码文件形式就是a1040008 a9010001 a1020009 a1020007 a8020003 a8010001 a104000a a8010002 a9010001 ac02000c。这样形成的文件每四个字节就代表一个词,从而就避开了分词这个瓶颈,计算机就可以直接对词典码文件进行分析了。

形成标题的词典码文件之后,我们对这些标题进行分析,抽取出能说明标题内容的关键词。首先把标题中没有实际意义或者对说明标题含义没有作用的词去掉。由于绝大部分标题中能明确表达含义的就是名词、动词和形容词,我们把其他词舍去,只将名词、动词、形容词和非词典词留下。即对标题中每个四字节码进行分析,如果第二位的值为0,1,2和字母就将这个词留下。

经过第一步处理之后,抽取出了标题中能表达具体意义的实词。根据香侬(Shannon)的信息学原理可知,如果词条在所有文档中出现的频率越高,那么它所包含的信息熵就越少,说明这个词比较普通,很可能不适于当作关键词;而如果词条的出现较为集中,只在少量的文档中有较高的出现频率,那么它就会拥有较高的信息熵。也就是说,比如“研究、应用、实验”等词条,虽然它们在计算机类文献标题中出现的频率都很高,但是这些词对于明确表达标题特征所起到的作用是很小的。在信息检索中常常用IDF(Inverse Document Frequency)权重来解决这个问题。假设n是出现特征词的文献数,N是研究对象中总的文献数,IDF特征词权重系数idf可由下式表示[8]:

idf=ln(N/n) (1)第二步处理就将IDF特征词权重系数偏小的词舍去。将经过这样两步处理之后得到的关键词与人工标引的关键词进行比较,对照结果如表2:

表2 实验结果分析

实验标题总数抽出词总数关键词总数平均抽词数人工标引45 219 108 2.40

自动标引45 248 119 2.64

分析标引结果可知,采用词典码的方法进行的自动标引与人工标引的平均抽词数相差不多,而且对比人工标引与自动标引的具体内容发现,两种结果的一致性比较好,准确率达90.76%,而且人工标引的结果全部出现在了自动标引的结果中,说明自动抽词没有遗漏。但自动抽取的词总数和保留的关键词总数都比人工标引的多,这是由于自动标引时把任何一个词都先抽出来然后再取舍,比如“基于”、“的”等都被当作单独的词抽取出来,这样必然会增大抽出词总数。而关键词的自动抽取是先去除无实际意义的虚词,再去除词频统计后高于阈值的普通词之后得到的。分析结果发现,一些普通词,比如“用于”、“适用”、“思想”等由于词频统计结果并没有高于阈值,而被保留了下来。这是由标题样本数有限造成的,如果进一步增大样本数,这些普通词很可能会更多次出现,词频高于阈值时就会被去除,从而减小自动标引结果的“噪声”。

5.结论

本文总结了目前常用的汉语自动标引方法,然后提出了一种基于词平台的汉字编码方法,使中文文档系统实现了以词为最小信息载体的文档格式,从而完全避免了分词问题带来的障碍。将此方法应用于文章标题的关键词抽取研究中,取得了比较好的效果。同时这种方法也存在需要进一步研究的问题,比如词典码数据库建立的方式问题,文献量比较大时的效率问题等。

参考文献:

[1] 苏新宁,邹晓明.文献信息自动标引研究[J].现代图书情报技术,2000(1):23-26.

[2] H. P. Luhn. A Statistical Approach to Mechanized Encoding and searching of Literary Information[J], IBM

Journal of Research and Development, 1957, 4(1):309-317.

[3] H. P. Luhn. The Automatic Creation of Literature Abstracts[J], IBM Journal of Research and Development,

1958, 2(2):159-165.

[4] 陈培久.汉语科技文献标题的自动标引实验[J].情报学报,1983,2(2):113-120.

[5] 王永成,肖玮英.自动编制中文标题的主题词轮排索引及自动抽词[J].南京大学学报一自然科学

版,1984,20(1):39-44.

[6] 郭友仁.自动标引研究的历史、现状及发展方向[J].情报科学,1986,7(4):22-31.

[7] 苏新宁,邵波.信息传播技术[M].南京:南京大学出版社,1998.

[8] 王洪.20T光盘知识库系统自动内容标引与分类的实验研究[D].北京:清华大学精密仪器与机械学系,

2002.

Auto-Indexing Based on Chinese Characters Coding on

Words Platform

Jiao Hui,Liu Qian,Jia Huibo

Department of Precision Instruments and Mechanology, Tsinghua University, Beijing, PRC,

(100084)

Abstract

Auto-indexing is one of the key techniques of information retrieval based on contents. At present the research on Chinese auto-indexing mainly focuses on automatic segmentation which is a predisposal problem. This paper presents a kind of Chinese characters coding method on words platform, and establishes a new Chinese text format in computer which makes words the smallest information unit. Based on this method, auto-indexing does not rely on segmentation as before. Thereby the efficiency and quality of auto-indexing would be improved.

Keywords: auto-indexing; words platform; Chinese characters coding; automatic segmentation

作者简介:

焦慧,女,1982年出生,河北人,博士研究生,主要研究方向为中文信息处理、基于内容的文字信息处理,E-mail: jiaoh04@https://www.360docs.net/doc/a312130412.html,;

刘迁,男,1977年出生,北京人,博士研究生,主要研究方向为中文文本处理,自然语言处理, E-mail: liuqian00@https://www.360docs.net/doc/a312130412.html,;

贾惠波,男,1945年出生,河北人,教授,博士生导师,主要研究方向为精密仪器、信息存储,E-mail: jiahb@https://www.360docs.net/doc/a312130412.html,。

如何写摘要及关键词完整版

如何写摘要及关键词 HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】

如何写摘要及关键词 论文摘要的作用 论文摘要是为读者检索论文服务的。是便于读者用最短时间掌握信息,了解研究工作或文章的主要内容和结果,从而决定是否需要详读全文。对于摘要的其总体要求是:读者即使不着全文而只看摘要,也可以获得文档的信息以决定是否有必要花时问阅读全文。所以从摘要中应该很容易看出该研究作了哪些具体工作,有哪些具体成果及与以往同类研究的不同之处。摘要其实是一个非常重要的部分,因为它要用最少的语句表达最重要的信息。 概括成一句话:摘要是文章的高度浓缩。 论文摘要的内容 内容摘要是毕业论文(设计)的内容不加注释和评论的简短陈述,具有独立性和自含性。包括:课题来源,主要设计,实验方法,本人主要完成的成果。它应是约含200个字符的中文摘要。 论文摘要一般要包括以下内容:研究目的(简短说明要解决什么问题,该部分可以省略),研究方法和过程(对象、条件、原理、步骤等),研究结果和结论。重点应突出作者研究的创新内容和结果。 摘要中容易出现的问题 问题一:摘要只写一大堆的研究背景和意义,只交代做了什幺,而没有写出具体的内容有什么,具体规律是什幺,具体关系是什么,具体结果有哪些等等。研究背景和研究意义的介绍应该属于引言的内容,将过多的介绍内容放入摘要会使内容空洞,缺乏给出足够的有用的信息。 问题二:应避免对题目的重复和一般性内容的叙速(如背景、意义、重要性)。不写无用的话,如“本文所谈的有关研究工作是对过去老方法的一个极大的改进”,“本工作首次实现…·”,“经检索尚未发现与本文类似的文献”等词句不要写入内容摘要。 摘要的结构 以结构式摘要为例, 结构式摘要需明确写出目的、方法、结果和结论四部分。 1.目的(Objective):简明指出此项工作的目的,研究的范围。 2.方法(Methods):简要说明研究课题的基本做法,包括研究对象、材料和方法。 3.结果(Results):简要列出主要结果(需注明单位)、数据、统计学意义等,并说明其价值和局限性。 4.结论(Conclusion):简要说明从该项研究结果取得的正确观点、理论意义或实用价值、推广前景。 摘要实例分析 题目:声带振动功能模式识别 摘要:应用小波变换估计传导语音的谐波噪声比(方法),研究了不同发声方式、发音及声带病变对传导语音谐波噪声比的影响,并与口腔语音的谐波噪声比进行了对比研究(对象),发现发不同元音时,传导语音谐波噪声比的变化范围是5bB,口腔语音谐波噪声比的变化范围为20dB;不同发声方式的传导语音谐波噪声比的变化范围可达18dB,口腔语音的变化范围为12dB(结果)。结果表明传导语音谐波噪声比能够更好地反映声带振动模式,是一种研究声带振动功能和模式及喉部疾病诊断的有效方法(结论)。 从上述的内容摘要中,我们可以很清晰地得到以下的内容:

主题词

公文主题词应用知识 公文主题词是公文格式的一个重要内容,是一份完整公文不可或缺的主要组成部分。但在当前的实际工作中,有不少机关文秘工作人员对其的使用方法等大都存在一知半解的问题和现象,在具体使用中很难做到标注的规范化、科学化,下面介绍几点具体知识。一、首先要明了标注公文主题词目的和特点公文主题词是随着办公现代化的发展需要而产生的,党政机关已在上世纪80年代开始在公文上标注主题词,现已走上制度化、规范化的固定路子。大家首先要明白,使用主题词的主要目的是以便用计算机来检索和管理公文。就其定义而言,它是确切表达出公文主题的规范化的名词或名词性词组。由此,我们可以看出它具有以下几个特点:(一)它是一个历史产物,是随着计算机在办公系统中被广泛运用而产生的。(二)它具有鲜明的目的性,即确切表达出公文的主题。(三)它具有规范性,党的机关和国家行政机关的公文处理办法都有规范的《主题词表》供作者使用和参考,其他机关和事业单位也大都有符合自己工作特点的公文《主题词表》。(四)它对主题词的词性有明确限定性,即名词或名词性词组。二、其次要明了编制主题词的原则与做法就党的机关公文和行政机关公文而言,由于二者分属不同的系统,因此二者既有联系又有区别,在具体执行标准上有着各自的不同规定。目前,党的机关编制《主题词表》共分19类、5116个主题词,主题标引分高层次和低层次两级;国家行政机关颁布的《主题词表》共分15类、1049个主题词,主题标引分固定码区和自由码区;高层次标引与固定码区标引,低层次标引与自由码区标引的含义基本相同,前两者的含义都是选用《主题词表》中的词,后两者的含义都是指选用《主题词表》以外的词。党的公文处理条例和国家行政机关公文处理条例都明确规定,上报的文件应当按照上级的要求和《公文主题词表》的规定标注主题词。根据这一规定,任何一个单位在上报文件时,除了参照自身的《公文主题词表》外,更要按照上级机关的《主题词表》来标注主题词;如果下发文件就要使用自身的《主题词表》。那么到底遵循什么样的原则和方法编制一组符合公文规则要求的主题词呢?下面我结合自身的工作体会并 参照有关公文处理教材谈几点体会。(一)主题词构成格式是类别词+类属词+文种。类别词反映主题内容的类别,类属词反映文件内容,文种反映公文的形式。(二)标引主题词时应当根据主题词的含义由大到小、从内容到形式的次序进行。主题词的个数一般不超过7个,以3-5个为宜,而最后一个主题词一般应是公文的文种。(三)当一份文件如有两个以上的主体内容时,应先集中标注第一个主题内容,再对第二个主体内容进行标注。如《国务院关于在若干城市试行国有企业兼并破产和职工再就业有关问题的通知》,要先标反映第一个主题内容的类别词“经济管理”,再标类属词“企业”、“破产”;然后标反映第二个主题内容的类别词“劳动”,再标类属词“就业”;最后标“通知”。(四)当词表中找不出准确反映文件主题的类属词时,可以在类别词中选择适当的词标引。也可以选用词表以外的适当词(即自由词),并在该词后加“△”标记。(五)动词不可单独使用,如需使用时应当与相关的词组搭配成名词性词组使用。比如,标注“打击经济犯罪”时,不可出现“打击”、“经济犯罪”,应为“经济”、“打击犯罪”。(六)标引人名、地名等自由词时,应尽量使用全称,该类词无须加“△”标记。(七)附表中的主题词与主表中的主题词具有同等效力,标引方法相同。(八)标注主题词应在抄送机关上方,居左侧顶格;“主题词”要用3号黑体字后加冒号,主题词词目用3号小标宋体字。三、再次应明了需要掌握的其

关键词标引常见问题探讨

关键词标引常见问题探讨 通过对关键词标引现状及其常见问题的分析,提出优化词表,重视关键词检索、加强人员培训和制定关键词标引的质控体系。以提高关键词标引质量。 关键词标引已成为现代文献数据加工的重要环节,其原因在于关键词在统一同类文献、涵盖不同专业文献,有利于文献查找方面发挥着不可替代的作用。正因为如此,如何改进和提高关键词标引的质量,吸引了大量研究人员进行探讨并深入挖掘关键词在文献数据库构建中的巨大潜力。本文对关键词标引的现状、常见问题进行分析,并对如何提高关键词标引的质量提出一些建议,供研究者参考。 关键词标引的现状 关键词标引是构建文献数据库的基础。关键词标引的好坏,直接影响文献数据库的质量。正确理解关键词的概念以及关键词标引的要求、作用和意义,对于把握关键词标引有着至关重要的作用。

1、关键词的概念 《科学技术报告,学位论文和学术论文的编写格式》(GB7713-87)对关键词的定义如下:“关键词是为了文献标引工作从报告、论文中选取出来用以表示全文主题内容信息款目的单词或术语。”学术界对关键词的定义更为具体,如有的学者认为“所谓关键词,是指那些出现在文献的标题(篇名、章节名)、摘要和正文中,对表征文献主题内容具有实质意义的词语,亦即对揭示和描述主题内容来说是重要的、带有关键性的、可作为检索入口的词或短语,是一种近似于自由词的自然语言。”(《医学论文关键词的标引》,陈晶等著)但是,我国尚无国家标准直接将关键词定性为“近似于自由词的自然语言”,为非受控词汇。在实际应用中,关键词标引时受较少控制,可以比较自由地标引,但也不是绝对的自由,其遵循的原则应选择表述文献主题的具有实质意义的词或短语。由于关键词标引是依据被标引文献原文选取关键词,选取的关键词具有一定的专指性,具备及时反映新学科、新理论、新技术、新材料等概念的优点,但不足之处在于查全率不高。 2、关键词标引的要求、作用及意义 一般情况下,标引的关键词必须是表达某个主题概念的具有专业用语性质的词或词组。这个词或词组应该是名词或

关键词的写法

关键词的写法 关键词是科技论文的文献检索标识,是表达文献主题概念的自然语言词汇。科技论文的关键词是从其题名、层次标题和正文中选出来的,能反映论文主题概念的词或词组。 关键词是为了适应计算机检索的需要而提出来的,位置在摘要之后。早在1963年,美国chemicalAbstracts从第58卷起,就开始采用电子计算机编制关键词索引,提供快速检索文献资料主题的途径。在科学技术信息迅猛发展的今天,全世界每天有几十万篇科技论文发表,学术界早已约定利用主题概念词去检索最新发表的论文。作者发表的论文不标注关键词或叙词,文献数据库就不会收录此类,读者就检索不到。关键词选得是否恰当,关系到该文被检索和该

成果的利用率。 1关键词分类 关键词包括叙词和自由词。 1)叙词——指收入《汉语主题词表》、《meSH》等词表中可用于标引文献主题概念的即经过规范化的词或词组。 2)自由词——反映该论文主题中新技术、新学科尚未被主题词表收录的新产生的名词术语或在叙词表中找不到的词。 2关键词标引 为适应计算机自动检索的需要,GB/T3179—92规定,现代科技期刊都应在学术论文的摘要后面给出3~8个关键词。关键词的标引应按GB/T3860-1995《文献叙词标引规则》的原则和方法,参照各种词表和工具书选取;未被词表收录的新学科、新技术中的重要术语以及题名的人名、地名也可作为关键词标出。 所谓标引,系指对文献和某些具有检索意义的特征如:研究对象,处理方

法和实验设备等进行主题分析,并利用主题词表给出主题检索标识的过程。对文献进行主题分析,是为了从内容复杂的文献中通过分析找出构成文献主题的基本要素,以便准确地标引所需的叙词。标引是检索的前提,没有正确的标引,也就不可能有正确的检索。科技论文应按照叙词的标引方法标引关键词,并尽可能将自由词规范为叙词。 3标引关键词应遵循的基本原则 3.1专指性原则 一个词只能表达一个主题概念为专指性。只要在叙词表中找到相应的专指性叙词,就不允许用词表中的上位词或下位词;若找不到与主题概念直接对应的叙词,而上位词确实与主题概念相符,即可选用。例如:“飞机防火”在叙词表中可以找到相应的专指词“专机防火”,那么就必须优先选用。不得用其上位词“防火”标引,也不得用“飞机”与“防 火”这两个主题词组配标引。 3.2组配原则

怎样给行政公文标注主题词

怎样给行政公文标注主题词 主题词分正式主题词和非正式主题词,正式主题词用来标引和检索文献,非正式主题词是查找正式主题词的引导词,它主要供制作公文索引和电子计算机检索之用。 为什么要标引公文主题词 (一)标引公文主题词有利于建立先进的公文检索体系,辅助领导同志决策。 信息量的增加,数据量的增大,单纯的分类检索方法难以满足人们对多主题文件查找的要求。主题检索方法弥补了分类检索方法的不足,检索更自由,查找跨度更大。 (二)标引公文主题词是建立机关办公自动化检索系统的前提条件。 办公自动化系统通过文件上标注的主题词将文件纳入检索系统。办文人员在办公自动化系统上通过主题词来查找有关主题的文件。 (三)标引主题词是实现公文管理现代化的基础。 档案工作人员可以根据公文主题词编制档案、文件主题索引或主题目录、专题目录等手工检索工具。办文人员可直接利用根据公文主题词而建立的档案编目计算机检索系统查找文件。 (四)对提高秘书工作人员业务素质有重要作用。 怎样标引公文主题词 (一)主题词标引程序“三步”走 第一步:审读文件,分析主题。 首先通读公文,了解公文的主要内容和发文意图。一般来说,审读文件标题,进行主题词标引是文秘人员常用的方法。如文件

标题能概括公文的主要内容,就从标题入手分析主题。否则,就要从公文的内容入手进行主题分析。 主题类型分为单主题和多主题两种。单主题是指一份公文所研究和论述的只有一个对象或问题。多主题是指一份公文所研究和论述的主题对象不只一个,而是两个或者更多,而且都是并列的独立主题。单主题标引时用多个表达同一概念主题词,多主题用分组的多个主题词分别表达各自的主题概念。 分析主题重点是主题结构分析,确定主题因素。主题结构分析即分析主题里面的主要成分和次要成分以及它们之间的关系。 主题因素分为主体因素、通用因素、位置因素、时间因素和文献类型因素五部分。主体因素是指公文论述的主题中的关键性概念,它是公文主题的主要成分,其他主题因素都附属于这个主体因素;通用因素是构成主题的一些通用概念,它说明主体因素的动态和趋势。通用概念没有专指性也没有独立检索价值,不宜单独使用;位置因素是表明主体因素所处的位置和范围,文件规定适用的地区、位置和对象。位置因素包括国家名称、地区名称和组织机构名称;时间因素是从时间上对主体因素进行限定,把主题对象放在特定的时间范围之内。时间因素包括年代、时代、朝代、期限等;文献类型因素包括文献种类、公文文种、文件名称编号等。 第二步:提炼、转换主题概念。 经过分析主题类型和主题结构后,就掌握了一份文件的全部主题概念。对这些主题概念,并不完全需要标引出来,而应当去粗取精,有所取舍。要提炼标引那些最重要的、专指性最强的主题概念,舍弃一般的主题概念。 对提炼出的公文真正具有检索意义的主题概念,查公文主题词表将其准确、规范、科学地转换成主题词。 1、公文主题词的选取方法主要有四:一是从公文标题中摘录;二是从公文正文中提取;三是题文结合撮要;四是自己概括。以能表达公文的主要内容为原则。

关键词是科技论文的文献检索标识

关键词是科技论文的文献检索标识,是表达文献主题概念的自然语言词汇。科技论文的关键词是从其题名、层次标题和正文中选出来的,能反映论文主题概念的词或词组。 关键词是为了适应计算机检索的需要而提出来的,位置在摘要之后。早在1963年,美国Chemical Abstracts从第58卷起,就开始采用电子计算机编制关键词索引,提供快速检索文献资料主题的途径。在科学技术信息迅猛发展的今天,全世界每天有几十万篇科技论文发表,学术界早已约定利用主题概念词去检索最新发表的论文。作者发表的论文不标注关键词或叙词,文献数据库就不会收录此类文章,读者就检索不到。关键词选得是否恰当,关系到该文被检索和该成果的利用率。 1 关键词分类 关键词包括叙词和自由词。 1) 叙词——指收入《汉语主题词表》、《MeSH》等词表中可用于标引文献主题概念的即经过规范化的词或词组。 2) 自由词——反映该论文主题中新技术、新学科尚未被主题词表收录的新产生的名词术语或在叙词表中找不到的词。 2 关键词标引 为适应计算机自动检索的需要,GB/T 3179—92规定,现代科技期刊都应在学术论文的摘要后面给出3~8个关键词(或叙词)。关键词的标引应按GB/T 3860-1995《文献叙词标引规则》的原则和方法,参照各种词表和工具书选取;未被词表收录的新学科、新技术中的重要术语以及文章题名的人名、地名也可作为关键词标出(自由词)。 所谓标引,系指对文献和某些具有检索意义的特征如:研究对象,处理方法和实验设备等进行主题分析,并利用主题词表给出主题检索标识的过程。对文献进行主题分析,是为了从内容复杂的文献中通过分析找出构成文献主题的基本要素,以便准确地标引所需的叙词。标引是检索的前提,没有正确的标引,也就不可能有正确的检索。科技论文应按照叙词的标引方法标引关键词,并尽可能将自由词规范为叙词。 3 标引关键词应遵循的基本原则 3.1 专指性原则 一个词只能表达一个主题概念为专指性。只要在叙词表中找到相应的专指性叙词,就不允许用词表中的上位词(S项)或下位词(F项);若找不到与主题概念直接对应的叙词,而上位词确实与主题概念相符,即可选用。例如:“飞机防火”在叙词表中可以找到相应的专指词“专机防火”,那么就必须优先选用。不得用其上位词“防火”标引,也不得用“飞机”与“防火”这两个主题词组配标引。

论文中关键词的写法指导

临近毕业了,大家的论文写好了吗,下文是论文中关键词的写法,希望大家有所收获! 论文中关键词是科技论文的文献检索标识,是表达文献主题概念的自然语言词汇。科技论文的关键词是从其题名、层次标题和正文中选出来的,能反映论文主题概念的词或词组。 1 关键词分类 关键词包括叙词和自由词。? 1) 叙词——指收入《汉语主题词表》、《mesh》等词表中可用于标引文献主题概念的即经过规范化的词或词组。 2) 自由词——反映该论文主题中新技术、新学科尚未被主题词表收录的新产生的名词术语或在叙词表中找不到的词。 2 关键词标引 为适应计算机自动检索的需要,gb/t 3179—92规定,现代科技期刊都应在学术论文的摘要后面给出3~8个关键词(或叙词)。关键词的标引应按gb/t 3860-1995《文献叙词标引规则》的原则和方法,参照各种词表和工具书选取 ;未被词表收录的新学科、新技术中的重要术语以及文章题名的人名、地名也可作为关键词标出(自由词)。 所谓标引,系指对文献和某些具有检索意义的特征如:研究对象,处理方法和实验设备等进行主题分析,并利用主题词表给出主题检索标识的过程。对文献进行主题分析,是为了从内容复杂的文献中通过分析找出构成文献主题的基本要素,以便准确地标引所需的叙词。标引是检索的前提,没有正确的标引,也就不可能有正确的检索。科技论文应按照叙词的标引方法标引关键词,并尽可能将自由词规范为叙词。 3 标引关键词应遵循的基本原则 3.1 专指性原则 一个词只能表达一个主题概念为专指性。只要在叙词表中找到相应的专指性叙词,就不允许用词表中的上位词(s项)或下位词(f项);若找不到与主题概念直接对应的叙词,而上位词确实与主题概念相符,即可选用。例如:“飞机防火”在叙词表中可以找到相应的专指词“专机防火”,那么就必须优先选用。不得用其上位词“防火”标引,也不得用“飞机”与“防火”这两个主题词组配标引。? 3.2 组配原则叙词组配应是概念组配。概念组配包括2种类型:? 交叉组配。系指2个或2个以上具有概念交叉关系的叙词所进行的组配,其结果表达一个专指概念。例如:“喷气式垂直起落飞机”,可用“喷气式飞机”和“垂直起落飞机”这2个泛指概念的词确切地表达叙词表中没有的专指概念;“肾结石”可用“肾疾病”和“结石”这2个叙词表示一个专指概念。? 方面组配。系指一个表示事物的叙词和另一个表示事物某个属性或某个方面的叙词所进行的组配,其结果表达一个专指概念。例如:“信号模拟器稳定性”可用“信号模拟器”与“稳定性”组配,即用事物及其性质来表达专指概念;“彩色显像管荧光屏涂履”,可用“彩色显像管”、“荧光屏(电子束管)”和“涂覆”3个词组配,即用事物及其状态、工艺过程3个方面的叙词表达一个专指概念。 在组配标引时,优先考虑交叉组配,然后考虑方面组配;参与组配的叙词必须是与文献主题概念关系最密切、最邻近的叙词,以避免越级组配;组配结果要求所表达的概念清楚、确切,只能表达一个单一的概念;如果无法用组配方法表达主题概念时,可选用最直接的上位词或相关叙词标引。 3.3 自由词标引 下列几种情况关键词允许采用自由词标引。? a.主题词表中明显漏选的主题概念词。? b.表达新学科、新理论、新技术、新材料等新出现的概念。?

主题词标引

主题词标引 主题词也称叙词,是一些以概念为基础的,规范化的,具有组配性能,并可显示词间语义关系的词和词组。主题词分正式主题词和非正式主题词。正式主题词用来标引和检索文献,非正式主题词是查找正式主题词的引导词。 主题词表也称叙词表,是指由自然语言中优选出来的语义相关、族性相关的名词术语按字顺排列所组成的一种规范化的动态词典。《公文主题词表》是用于公文主题标引与检索的主题词表。它是适应机关办公自动化,尤其是计算机数据处理的需要,为党政机关公文主题标引与检索而编制的一部术语控制工具。 公文应当按照主题词表规定的标识规则和词目标注主题词。上行文按照上级机关的要求标注主题词。 一、标引规则 1.要直接、准确、客观地反映公文论述的主题。 2.选用的词,一般应是《公文主题词表》中的正式主题词,其书写形式应与词表中的词形一致。 3.选词时,应首先选用切合公文主题概念的、专指性较强的主题词。 4.当没有专指性较强的主题词时,应选用与主题词概念关系较密切的正式主题词进行组配标引。组配标引应遵循下列原则:应优先考虑概念组配,即相组配的主题词之间存在概念相交或概念限定的关系;当词表中没有合适的主题词进行概念组配时,可进行字面组配;组配结果应概念清楚、准确。 5.若词表中无合适主题词进行组配标引时,应选用直接上位主题词标引。 6.若仍无合适的直接上位主题词进行标引时,方可选用主题词表以外的适当词(称自由词)进行标引。自由词标引应遵循下列原则:选用的自由词应符合主题词表的选词原则;标引时,应在自由词后加“△”标记,同时标引出相应的上位主题词;选用人物、年代、组织机构、地区等专用名词作为自由词标引时,人物名称用全称,年代用阿拉伯数字,组织机构、地区名称用全称或规范化简称,不加“△”标记。 7.主题词的标引数量。每件公文所选用的主题词数量一般应在十个以内。 8.主题词的排列次序。一般次序为:反映公文内容的主题在前,反映公文形式的主题词在后。在单主题公文中,反映公文中心内容的主题词在前,反映公文分述内容主题词在后;在多主题公文中,反映公文内容的各主题词按其出现的先后次序排列。 标引的地区名称、组织机构名称、年代和人物名称等,置于反映公文内容的主题词、文种之前。若地区名称、组织机构名称、年代和人物名称等同时出现在同一公文中,则按地区名称、组织机构名称、年代和人物名称的顺序排列。公文的文种置于最末位。在转(印)发类型的公文中,被转(印)发的公文文种不可作为主题词标引;但如果被转(印)发的公文属于企业内法规,其名称(准则、条例、规则、规定、办法、细则等)应作为主题词标引。 二、标引程序 1.主题分析。主题分析的目的,在于确定公文的主题,据此准确地提炼出主题概念。它是通过审读公文、分析公文的主题类型、结构和确定公文主题标引方式来进行的。 审读公文。主要是通过审读公文内容,特别是公文的标题、摘要或按语、关键性句子、结论性意见,来了解公文发布的意图,从而确定公文的主题(即中心思想),并用精练的一句话或几句话表述出来。 分析公文的主题类型。公文的主题类型分为单主题和多主题。单主题是指一件公文只有一个主题。多主题又称并列主题,是指一件公文有两个或两个以上的主题。领导讲话、会议纪要、工作总结等公文大多为多主题公文。

主题词标引

关于主题词标引 一、什么叫主题词、主题词表和检索语言 (一)主题词。主题词也称叙词,是一些以概念为基础的,规范化的,具有组配性能,并可显示词间语义关系的词和词组。 主题词分正式主题词和非正式主题词。正式主题词用来标引和检索文献,非正式主题词是查找正式主题词的引导词。 (二)主题词表。主题词表也称叙词表,是指由自然语言中优选出来的语义相关、族性相关的名词术语按字顺排列所组成的一种规范化的动态词典。 (三)《公文主题词表》。《公文主题词表》是用于公文主题标引与检索的主题词表。它是适应机关办公自动化,尤其是计算机数据处理的需要,为党政机关公文主题标引与检索而编制的一部术语控制工具。 (四)检索语言。检索语言是根据人们检索工作的需要而创造的一种人工语言,它是存储、查找文献的共同依据,也叫标引语言。检索语言又分为分类语言和主题语言。分类语言是指以阿拉伯数字或以拉丁字母和数字混合作为类目标识符号,以基本类目作为词汇,以类目的从属关系表达复杂概念的一类检索语言。主题语言是以直接论述的事物、对象为依据,以自然语言为基本词汇,以概念之间的逻辑关系作为构词法的一类检索语言。 二、为什么要标引公文主题词

(一)标引公文主题词有利于建立先进的公文检索体系,辅助领导同志决策。信息量的增加,数据量的增大,单纯的分类检索方法难以满足人们对多主题文件查找的要求。主题检索方法弥补了分类检索方法的不足,检索更自由,查找跨度更大。 (二)标引公文主题词是建立机关办公自动化检索系统的前提条件。办公自动化系统通过文件上标注的主题词将文件纳入检索系统。办文人员在办公自动化系统上通过主题词来查找有关主题的文件。 (三)标引主题词是实现公文管理现代化的基础。档案工作人员可以根据公文主题词编制档案、文件主题索引或主题目录、专题目录等手工检索工具。办文人员可直接利用根据公文主题词而建立的档案编目计算机检索系统查找文件。 (四)对提高秘书工作人员业务素质有重要作用。 三、《公文主题词表》的体系结构 《公文主题词表》由范畴表、字顺表、附表三大部分组成。 1、范畴表。范畴表又称分类表,它根据公文的主要内容和职能部门的分工划分若干范畴,将字顺表中所列款目词按词义归入有关类目,满足按类查词和按族性检索的要求。范畴表设两级类目,一级类目19个,用一个汉语拼音字母标识。二级类目70个,用两个拼音字母标识。 2、字顺表。字顺表由正式主题词与非正式主题词款目(词单元)、款目词的汉语拼音、范畴号和词的参照关系四部分组成,个别词还有注释。

硕士论文的关键词怎么写

硕士论文的关键词怎么写 关键词是科技论文的文献检索标识,是表达文献主题概念的自然语言词汇。科技论文的关键词是从其题名、层次标题和正文中选出来的,能反映论文主题概念的词或词组。 关键词是为了适应计算机检索的需要而提出来的,位置在摘要之后。早在1963年,美国chemical abstracts从第58卷起,就开始采用电子计算机编制关键词索引,提供快速检索文献资料主题的途径。在科学技术信息迅猛发展的今天,全世界每天有几十万篇科技论文发表,学术界早已约定利用主题概念词去检索最新发表的论文。作者发表的论文不标注关键词或叙词,文献数据库就不会收录此类文章,读者就检索不到。关键词选得是否恰当,关系到该文被检索和该成果的利用率。 1 关键词分类 关键词包括叙词和自由词。 1) 叙词——指收入《汉语主题词表》、《mesh》等词表中可用于标引文献主题概念的即经过规范化的词或词组。 2) 自由词——反映该论文主题中新技术、新学科尚未被主题词表收录的新产生的名词术语或在叙词表中找不到的词。 2 关键词标引 为适应计算机自动检索的需要,gb/t 3179—92规定,现代科技期刊都应在学术论文的摘要后面给出3~8个关键词(或叙词)。关键词的标引应按gb/t 3860-1995《文献叙词标引规则》的原则和方法,参照各种词表和工具书选取 ;未被词表收录的新学科、新技术中的重要术语以及文章题名的人名、地名也可作为关键词标出(自由词)。 所谓标引,系指对文献和某些具有检索意义的特征如:研究对象,处理方法和实验设备等进行主题分析,并利用主题词表给出主题检索标识的过程。对文献进行主题分析,是为了从内容复杂的文献中通过分析找出构成文献主题的基本要素,以便准确地标引所需的叙词。标引是检索的前提,没有正确的标引,也就不可能有正确的检索。科技论文应按照叙词的标引方法标引关键词,并尽可能将自由词规范为叙词。 3 标引关键词应遵循的基本原则

主题词的确定

主题词又叫关键词。它是指公文中代表其内容特征的、最能说明问题的、起关键作用的词。主题词是办公现代化的产物,它主要供制作公文索引和电子计算机检索之用。《中国共产党机关公文处理条例》第八条和《国家行政机关公文处理办法》第十条第十二项都明确指出,上报的公文,应按照上级要求和公文主题词表的规定标注主题词。因此,任何单位在上报公文时,除了参照自身的公文主题词表外,更要按照上级机关的主题词表来进行标注;如是下发公文,还得使用自身的主题词表。 从数量上来看,一份公文除类别词外,最多不超过5个主题词。以《国务院公文主题词表》为例,选用主题词的原则和方法是:从“类别词”到“类属词”,从内容到形式。 《国务院公文主题词表》把“词表分为三个层次。第一层是对主题词区域的分类,如…综合经济?、…财政、金融?类等。第二层是类别词,即对主题词的具体分类,如…工交、能源、邮电?类中的…工业?、…交通?、…能源?和…邮电?等。”从这个意义上看,类别词有点儿类似于公文内容所在的行业划分。《国务院公文主题词表》中的《主题词主表》的第一层划分有综合经济,工交、能源、邮电,旅游、城乡建设、环保、农业、林业、水利、气象等13类。第二层是对13类中每一类的具体分类。如农业、林业、水利、气象这一类下就具体地分为农业、林业、水利、气象四个小类。我们要给自己撰拟的公文标引主题词,首先就要找到公文所在第一、二层中的“行业”主题词。如某市妇联撰拟一份通报,要标注主题词,首先就要在主题词表中找到第一层分类所在的“综合党团”(这一层分类只起引导作用,要选用的主题词还在下面),然后再在下面找到第二层所在的“党派团体”。这就是类别词,也是我们在这份公文中要标注的第一个主题词。接着我们在“党派团体”下找出与公文主题相符的“妇女”、“儿童”,这就是“类属词”,也是我们在这份公文中要标注的第二、第三个主题词。再如《国务院关于发布<国家行政机关公文处理办法>的通知》,其主题词的类别词是“文秘工作”,它的第一层分类是“秘书、行政”;“类属词”是“文秘工作”下的“公文”。类属词一般就在类别词(第二层)下。它是能够概括反映公文主题概念的词。如《国务院关于发布<国家行政机关公文处理办法>的通知》,标注的第二个主题词是“公文”。这个主题词就在“文秘工作”下附的主题词表内。类属词也可以在其他类别词下选用或“根据需要,可将不同类的主题词进行组配标引”。如《国务院关于加强水土保持工作的通知》,标引的类别词是“农业”,类属词却是在“水利”这个类别词下选用的。《国务院关于“九五”期间深化科技技术体制改革的决定》,类别词是“科技”,但类属词“体制”却在“民政、劳动人事”下的“机构”这个类别词下面,“改革”在“综合经济”下的“经济管理”这个类别词下面。 如果一份文件有两个以上的主题内容,可先集中对一个主题内容进行标引,再对第二个主体内容进行标引。如《国务院关于在若干城市试行国有企业兼并破产和职工再就业有关问题的通知》,便先标了反映第一个主题内容的类别词“经济管理”,再在这个类别词下找到类属词“企业”、“破产”;然后标了反映第二个主题内容的类别词“劳动”,再在“劳动”这个类别词后找到“就业”这个类属词。 当词表找不出准确反映文件主题内容的类属词时又怎么办呢?这时,你可以在类别词中选择适当的词标引。同时将能够准确反映文件内容的词标在类别词的后面,并在该词后面加“?荭”以便区别。

如何标引公文主题词

如何标引公文主题词 主题词是指能表达文件基本内容并经过规范化处理的名词术语。制定统一的词汇和规则,是为了方便标引文件主题词和利用主题词检索文件。 一、主题词的选词原则 主题词的选词是编制主题词表的基础;主题词以名词为主,概念必须清楚、确切,具有实际检索意义。形容词、数词、量词一般不选作主题词,动词和虚词不能作为主题词。编写省公安厅公文主题词的原则是: 1,着重选用公安工作范围内的基本名词术语。 2.选用各项业务工作中经常出现的具有检索意义和使用频率较多的名词术语。 3.在过去文件中经常出现的,但现在不常用的名词术语不选用。 二、主题词标引规则 1、主题词要能够直接地、客观地反映文件的主题。如“公共娱乐场所消防安全管理”这一中心意思,主题词可标引为消防安全管理公共娱乐场所 2、主题词标引一般应按照《公安主题词表》中的词标引,如果主题词表中确实没有专指的词来标引时,按照主题词的选词原则,可自由选用适当的词来标引,但第一个主题词必须选用主题词表中的词。如:《关于大中城市公安局普

遍建立110报警服务台的通知》主题词:“治安报警服务台”其中的报警服务台为自由标引。 3、一个文件涉及几个业务部门,主题词的标引以主办部门为主。如省厅一处起草的《关于台胞来大陆探亲旅游几个问题的通知》,主题词:“政保出入境管理治安台湾同胞”。 4、一个业务部门的文件涉及本部门的几项业务工作,主题词应按文件内容的主次排列。 5、人名、地名和组织机构的名称一律自由标引。人名标用全称。省(含自治区、直辖市)、市、县只标引名称,如:广东、深圳、增城,不写“省”、“市”、“县”字样。机构名称标引标准简称。 三、主题词的应用范围 凡是以省公安厅或省厅办公室名义行文的公文,除明传电报、密码电报外,都必须标引主题词。由本厅主办与其他厅局联合发出的公文也必须标引主题词。 四、主题词标引程序和其他注意事项 1、公文主题词由文件拟稿人在起草文件时标引,并把这项工作列为办文的必要程序之一,要求根据文件的基本内容,直接地、全面地、客观地揭示出文件的主题概念,切忌只按文件的标题进行标引。各业务部门的负责人在审核文件时必须同时审核主题词。

关键词写作格式

关键词写作格式 关键词是科技论文的文献检索标识,是表达文献主题概念的自然语言词 汇。科技论文的关键词是从其题名、层次标题和正文中选出来的,能反映论 文主题概念的词或词组。关键词是为了适应计算机检索的需要而提出来的, 位置在摘要之后。早在1963 年,美国Chemical Abstracts 从第58 卷起,就开始采用电子计算机编制关键词索引,提供快速检索文献资料主题的途径。在 科学技术信息迅猛发展的今天,全世界每天有几十万篇科技论文发表,学术 界早已约定利用主题概念词去检索最新发表的论文。作者发表的论文不标注 关键词或叙词,文献数据库就不会收录此类,读者就检索不到。关键词选得 是否恰当,关系到该文被检索和该成果的利用率。1 关键词分类关键词包括叙词和自由词。1) 叙词——指收入《汉语主题词表》、《MeSH》等词表中可用于标引文献主题概念的即经过规范化的词或词组。2) 自由词——反映该论文主题中新技术、新学科尚未被主题词表收录的新产生的名词术语或在叙 词表中找不到的词。2 关键词标引为适应计算机自动检索的需要,GB/T 3179—92 规定,现代科技期刊都应在学术论文的摘要后面给出3~8 个关键 词(或叙词)。关键词的标引应按GB/T 3860-1995《文献叙词标引规则》的原则和方法,参照各种词表和工具书选取;未被词表收录的新学科、新技术中 的重要术语以及题名的人名、地名也可作为关键词标出(自由词)。所谓标 引,系指对文献和某些具有检索意义的特征如:研究对象,处理方法和实验 设备等进行主题分析,并利用主题词表给出主题检索标识的过程。对文献进 行主题分析,是为了从内容复杂的文献中通过分析找出构成文献主题的基本

关于关键词的标引(新)

有所反复,目前该例泼尼松规律口服,临床症状稳定,生长发育正常。但由于其年龄尚小,且其疾病可能进展,故其治疗仍需长期随访和调整。 报道了中国首例STAT3基因功能获得性突变导致的免疫失调性疾病,其主要表现为自身免疫性全血细胞减少、肝脾淋巴结肿大及易患感染,并对其免疫功能进行了全面评估,扩大了我国原发性免疫缺陷病疾病谱的同时,也有利于提高临床医师对该病的全面认识,做到早期诊断和治疗。 参考文献 [1]FlanaganSE,HaapaniemiEM,RussellMA,etal.ActivatinggermlinemutationsinSTAT3causeearly-onsetmulti-organ autoimmunedisease[J].NatGenet,2014,46(8):812-814. DOI:10.1038/ng.3040. [2]MilnerJD,VogelTP,ForbesL,etal.Early-onsetlymphoproliferationandautoimmunitycausedbygermlineSTAT3 gain-of-functionmutations[J].Blood,2015,125(4):591-599. DOI:10.1182/blood-2014-09-602763. [3]HaapaniemiEM,KaustioM,RajalaHLM,etal.Autoimmunity,hypogammaglobulinemia,lymphoproliferation,andmycobacterial diseaseinpatientsFwithactivatingmutationsinSTAT3[J]. Blood,2015,125(4):639-648.DOI:10.1182/blood-2014-04-570101. [4]BousfihaA,JeddaneL,Al-HerzW,etal.The2015IUISphenotypicclassificationforprimaryimmunodeficiencies[J].J ClinImmunol,2015,35(8):727-738.DOI:10.1007/s10875-015-0201-1. [5]HollandSM,DeLeoFR,ElloumiHZ,etal.STAT3mutationsinthehyper-IgEsyndrome[J].NEnglJMed,2007,357(16): 1608-1619.DOI:10.1056/NEJMoa073687. [6]MinegishiY,SaitoM,TsuchiyaS,etal.Dominant-negativemutationsintheDNA-bindingdomainofSTAT3causehyper-IgE syndrome[J].Nature,2007,448(7157):1058-1062.DOI:10.1038/nature06096. [7]TangyeSG,CookMC,FulcherDA.Insightsintotheroleof STAT3inhumanlymphocytedifferentiationasrevealedbythe hyper-IgEsyndrome[J].JImmunol,2009,182(1):21-28. [8]KoskelaHL,EldforsS,EllonenP,etal.SomaticSTAT3mutationsinlargegranularlymphocyticleukemia[J].NEnglJ Med,2012,366(20):1905-1913.DOI:10.1056/NEJMoa1114885. [9]CasanovaJL,HollandSM,NotarangeloLD.InbornerrorsofhumanJAKsandSTATs[J].Immunity,2012,36(4):515-528. DOI:10.1016/j.immuni.2012.03.016. [10]JerezA,ClementeMJ,MakishimaH,etal.STAT3mutationsindicatethepresenceofsubclinicalT-cellclonesinasubsetof aplasticanemiaandmyelodysplasticsyndromepatients[J].Blood,2013,122(14):2453-2459.DOI:10.1182/blood-2013-04-494930. [11]FasanA,KernW,GrossmannV,etal.STAT3mutationsarehighlyspecificforlargegranularlymphocyticleukemia[J].Leukemia,2013,27(7):1598-1600.DOI:10.1038/leu.2012.350. [12]SlowikV,DinwiddieDL,CiaccioCE,etal.AnovelvariantintheSTAT3geneassociatedwithautoimmuneenteropathyina father-sonduo[J].JGenomesandExomes,2014,3:1-5.DOI: 10.4137/JGE.S13067. [13]BeaucoudreyL,PuelA,Filipe-SantosO,etal.MutationsinSTAT3andIL12RB1impairthedevelopmentofhumanIL-17-producingTcells[J].JExpMed,2008,205(7):1543-1550. DOI:10.1084/jem.20080321. [14]MilnerJD,BrenchleyJM,LaurenceA,etal.ImpairedT(H)17celldifferentiationinsubjectswithautosomaldominanthyper-IgE syndrome[J].Nature,2008,452(7188):773-776.DOI:10.1038/nature06764. [15]KaneA,LauA,BrinkR,etal.B-cell-specificSTAT3deficiency:Insightintothemolecularbasisofautosomal-dominant hyper-IgEsyndrome[J].JAllergyClinImmunol,2016,138 (5):1455-1458.DOI:10.1016/j.jaci.2016.05.018. [16]JohnsonMB,FlanaganSE,MartinsTB,etal.LowIgEIsaUsefulTooltoIdentifySTAT3Gain-of-functionMutations[J].ClinChem,2016,62(11):1536-1538.DOI:10.1373/clinchem.2016.263624. (收稿日期:2016-10-13) (本文编辑:江澜) ?作者须知? 关于关键词的标引 我刊要求对论著类文章需标引2~5个关键词。请使用中国医学科学院医学信息研究所的《中文医学主题词表》(CmeSH)所列的词,或登录万方医学网:http://med.wanfangdata.com.cn/Mesh/Mesh.aspx查找。如果查不到相应的关键词,处理办法有:(1)可选用直接相关的几个主题词进行组配。(2)可根据树状结构表选用最直接的上位主题词。(3)必要时,可采用习用的自由词并排列于最后。每组英文关键词第一个字母大写,各组词汇之间用“;”相隔。 ?63 ?中华儿科杂志2017年1月第55卷第1期ChinJPediatr,January2017,Vol.55,No.1万方数据

论文关键词怎么写

论文关键词怎么写 关键词是科技论文的文献检索标识,是表达文献主题概念的自然语言词汇。科技论文的关键词是从其题名、层次标题和正文中选出来的,能反映论文主题概念的词或词组。那么如何为一篇论文选出关键字呢?下面我就介绍一下选关键字的技巧和步骤。 1 关键词分类 关键词包括叙词和自由词。 1) 叙词——指收入《汉语主题词表》、《MeSH》等词表中可用于标引文献主题概念的即经过规范化的词或词组。 2) 自由词——反映该论文主题中新技术、新学科尚未被主题词表收录的新产生的名词术语或在叙词表中找不到的词。 2 关键词标引 为适应计算机自动检索的需要,GB/T 3179—92规定,现代科技期刊都应在学术论文的摘要后面给出3~8个关键词(或叙词)。关键词的标引应按GB/T 3860-1995《文献叙词标引规则》的原则和方法,参照各种词表和工具书选取;未被词表收录的新学科、新技术中的重要术语以及文章题名的人名、地名也可作为关键词标出(自由词)。 所谓标引,系指对文献和某些具有检索意义的特征如:研究对象,处理方法和实验设备等进行主题分析,并利用主题词表给出主题检索标识的过程。对文献进行主题分析,是为了从内容复杂的文献中通过分析找出构成文献主题的基本要素,以便准确地标引所需的叙词。标

引是检索的前提,没有正确的标引,也就不可能有正确的检索。科技论文应按照叙词的标引方法标引关键词,并尽可能将自由词规范为叙词。 3 标引关键词应遵循的基本原则 3.1 专指性原则 一个词只能表达一个主题概念为专指性。只要在叙词表中找到相应的专指性叙词,就不允许用词表中的上位词(S项)或下位词(F项);若找不到与主题概念直接对应的叙词,而上位词确实与主题概念相符,即可选用。例如:“飞机防火”在叙词表中可以找到相应的专指词“专机防火”,那么就必须优先选用。不得用其上位词“防火”标引,也不得用“飞机”与“防火”这两个主题词组配标引。 3.2 组配原则 叙词组配应是概念组配。概念组配包括2种类型: 交叉组配。系指2个或2个以上具有概念交叉关系的叙词所进行的组配,其结果表达一个专指概念。例如:“喷气式垂直起落飞机”,可用“喷气式飞机”和“垂直起落飞机”这2个泛指概念的词确切地表达叙词表中没有的专指概念;“肾结石”可用“肾疾病”和“结石”这2个叙词表示一个专指概念。 方面组配。系指一个表示事物的叙词和另一个表示事物某个属性或某个方面的叙词所进行的组配,其结果表达一个专指概念。例如:“信号模拟器稳定性”可用“信号模拟器”与“稳定性”组配,即用事物及其性质来表达专指概念;“彩色显像管荧光屏涂履”,可用“ 彩色显像

相关文档
最新文档