信息检索复习整理讲解

信息检索复习整理讲解
信息检索复习整理讲解

一、什么是信息(Information)?

在西方英文中information一词有情报、资料、消息、报道之意,我国大陆曾译为情报或信息,后经国家有关部门核准,统一译成“信息”。在我国台湾、香港地区,该词被译为“资讯”。

信息是被反映物的属性再现,信息的属性在于表现它物。也就是说,信息不是事物的本身,而是由事物发出的消息、情报、指令、数据、信号中所包含的内容,是对客观世界中各种事物发出的特征、变化及其相互联系的最新反映。一切事物包括自然界和人类社会都会产生信息。一个完整的信息过程,包括信息的传递、接收、贮存、加工和利用。

2、信息具有以下特征:

1)普遍性

(2)时效性:信息在一定的时间内是有效的信息,在此时间之外就是无效信息。而且任何信息从信源传播到信宿都需要经过一定的时间,都有其时滞性。

(3)传递性

(4)可转换性:信息是可以由一种形态转换成另一种形态。信息一般有4种形态:数据、文本、声音、图像。这4种形态可以相互转化,例如,照片被传送到计算机,就把v图像转化成了数字。

(5)可再生性

(6)共享性:同一信源可以供给多个信宿,因此信息是可以共享的,且不因共享而减少(7)可识别性:信息是可以识别的,识别又可分为直接认别和间接识别,直接认别是指通过感官的识别,间接识别是指通过各种测试手段的识别。不同的信息源有不同的识别方法。(8)可存储性:信息是可以通过各种方法存储的。

二、信息检索

广义:将信息按一定的方式组织和存储起来,并根据用户需要找出相关文献的过程。其中包括存与取两个环节,存即信息存储,是对信息进行收集、标引、描述、及组织,并对其特征化表达集加以整序,形成信息检索工具或检索系统的过程。取即信息查找,是通过某种查询机制从检索工具或检索系统中查找出用户所需的特定信息或获取其线索的过程。

狭义:仅仅指信息查找的过程。即取的环节。

三、信息检索的发展

1、第一阶段:完全手工检索阶段

2、第二阶段:半机械检索系统-机电、光电检索系统的发展阶段

3、第三阶段:计算机检索系统的发展阶段

4、第四阶段:基于Internet 的网络化检索系统阶段

信息资源的分类:

1、信息源可分为自然信息源和社会信息源。

2、按信息资源所依附的载体划分(不用全背)

(1)体裁信息资源:以人体为载体并能为他人识别的信息资源。按其表述方式又可分为口语信息源和体语信息源。口语信息源是人类以口头方式表述但未被记录下来的口语信息,如:谈话、讲课、讲演、讨论、唱歌等。体语信息源是以人的体态为载体表述出来的信息资源,如:表情、手势、姿态等方式表述的体语信息。

(2)实物信息资源:以实物为载体的信息资源。又分为自然实物信息源与人工实物信息源。如:化石、产品、样品等。

(3)文献信息资源:以文字、图形、符号、声频、视频等发生记录在各种载体上的知识和信息资源。

(4)网络信息资源:以网络为纽带连接起来的信息资源和以网络为主要交流、传递、存储

的手段与形式的信息资源。

3、按信息资源传递的范围划分:

(1)公开信息资源:又称共享信息资源或白色信息资源(white information),指公开发行、流通和传递的信息资源,其蕴涵的信息人人可以使用。一般来说,公开信息资源的数量最大,而且能够作为信息商品进行流通领域。

(2)半公开信息资源:又称灰色信息资源(grey information),指非公开发行、流通和传递,从常规途径难以获取的信息(内部信息)。这类信息出版量小,发行渠道复杂,流通传递范围有限,不易收集。例如:内部的刊物、技术报告、会议资料等。

(3)非公开信息资源:又称黑色信息资源(black information),指人们未破译或未被识别的,也指处于保密状态的信息。例如:考古发现的古老文字、未解密的政府文件、内部档案、个人日记、私人信件等。

自然信息均属于不可检信息。

超文本型(Hypertext):是用超链结的方法,将各种不同空间的文字信息组织在一起的网状文本。

文献信息资源1、按信息资源所依附的载体的物质形态划分

(1)刻写型:包括手稿、日记、信件、原始档案、碑刻等。

(2)印刷型:主要是指以纸张为载体,以印刷为记录手段,把信息内容固化在纸张上的形式。其优点是便于直接阅读、使用方便,其缺点是较笨重、存储密度低、收藏占用空间大、加工保存等花费人力物力大、识别和提取难以实现机械化和自动化。

(3)缩微型:以感光材料为载体,以缩微照相为记录手段而产生的一种载体形式,如缩微胶卷、缩微胶片等。其优点是存储密度较大、体积小、便于收藏保存和远距离传递。缺点是不能直接阅读、需借助缩微阅读机或阅读复印机才能使用。

缩微型一般针对于数量大、利用率低但又有较大保存和利用价值的信息资源。(4)声像型:以磁性和感光材料为载体,借助特殊的机械装置(如复录机、摄像机、录像机等)直接记录声音、图像信号的信息载体,又称视听资料,如唱片、录音带、录像带、幻灯片、电影片、多媒体资料等。

其优点是可以闻其声、观其形,直观而真切,给人以生动鲜明的印象。其缺点是制造成本较高,且需要借助于一定的设备才能使用。

2、按信息资源的加工深度和结构等级划分

(1)零次文献:指未经过任何加工的原始文献。如:实验记录、手稿、日记、原始录音、原始录像、谈话记录。

(2)一次文献:未经加工或粗略加工的原始信息资源,以本人的研究成果为基本素材而创作的文献,具体、详尽和系统化。如期刊论文、专利文献、科技报告、会议录、学位论文等等。

(3)二次文献:它是将大量分散、零乱、无序的一次文献进行进行加工、整理、标引、著录、浓缩,并按照一定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利用。如:目录、题录、索引、文摘。具有报道和检索功能。

(4)三次文献:通过二次信息资源提供的线索,对某一范围内的一次信息资源进行分析、研究、加工而成的信息资源,它包括综述、述评、专题情报研究报告、百科全书、年鉴、

指南、手册、词典等。

特点:

一次文献是最重要的文献,是全部文献的基础。数量庞大、内容分散、无系统性,不便于管理和传播。

二次文献作为寻找一次文献的指南与向导,能提供多种检索途径(分类、主题、著者、团体著者、会议名称等)。

三次文献可以充分利用反映某一领域研究动态的综述类文献信息,在短时间内了解其历史、动态、水平等。

一次文献是二次文献和三次文献的基础,是文献检索的主要对象;二次文献具有浓缩性,是一次文献的简略及有序化,是文献检索的工具;三次文献具有综合性,既是检索对象,又可提供一定的检索途径与检索手段。

总之,文献经过加工、压缩,从零次信息到三次信息,使科技信息由分散到集中,由无序到有序,由无组织到系统化,由博而精的对知识信息进行不同层次的加工的过程。

信息的不同出版类型划分为:

图书期刊科技报告会议文献[C]论题集中、新颖、丰富、专深、学术性强,是了解各国科技发展水平和动向的重要文献来源。

(5)专利文献[P]:(6)技术标准和规范[S]:7)政府出版物(8)学位论文[D]:

(9)产品资料(10)技术档案(11)报纸[N]

3)科技报告[R] (理解)scientific and technical report :报道(记录)研究工作和开发调查工作的成果或进展情况的一种文献类型。又称研究报告、报告文献。出现于20世纪初,第二次世界大战后迅速发展,成为科技文献中的一大门类。大多与政府的研究活动、国防及尖端科技领域有关,发表及时,课题专深,内容新颖、成熟,数据完整,且注重报道进行中的科研工作,是一种重要的信息源。查寻科技报告有专门的检索工具。

特点:①反映新的科研成果迅速。以科技报告形式反映科研成果比这些成果在期刊上发表,一般要早一年左右,有的则不在期刊上发表。②内容多样化。它几乎涉及整个科学、技术领域和社会科学、行为科学以及部分人文科学领域。③保密性。大量科技报告都与政府的研究活动、高新技术有关,使用范围控制较严。④报告质量参差不齐。大部分科技报告是合同研究计划的产物,由工程技术人员编写,由于撰写受时间限制、因保密需要以工作文件形式出现等因素影响,使报告的质量相差很大。⑤每份报告自成一册,装订简单,一般都有连续编号,出版发行不规则。通常载有主持单位、报告撰写者、密级、报告号、研究项目号和合同号等。

附:美国四大科技报告(AD,PB,NASA ,DOE )

按检索对象的内容区分:

(1)文献检索(document retrieval)

(2)数据检索(data retrieval)

(3)事实检索(fact retrieval)

手工检索:以手工操作的方式,利用检索工具书进行信息检索。手工信息检索是信息检索的传统方式,已经历经了一个多世纪的发展历程。

检索效率高;直接性灵活性好,浏览功能差

附:查全率:是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。

查全率=(检出相关文献量/系统中相关文献总量)*100%

查准率:是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度。

查准率=(检出相关文献量/检出文献总量)*100%

三、按检索对象区分:

(1)文本检索:查找含有特定信息的文本文献的检索,其结果是以文本形式反映特信息反映的文献。这是一种传统的信息检索类型,在信息检索中至今占据主要地位。

(2)多媒体检索:多媒体是指将声音、图像、通信等在内的多种媒体的功能有机结合在一起,并用某种新媒体代替传统媒体的多种媒体。

多媒体检索是指根据用户的需求,对文字、声音、图像、图形等多种媒体信息进行组织、存储从而识别、查找并获取所需信息的过程。

在因特网上存在着大量的多媒体文献,用户常常需要查找特定的声音、图像、动画等。多媒体文献的信息组织与处理传统文本的处理截然不同,其检索要求和检索途径也别具特色,这是现代信息检索的新课题。

(3)超媒体检索(hyper media retrieval)

如果超文本节点中的信息除文本块以外,还有图形、图像、声音、视频等多媒体信息,则称为超媒体(hyper media )。即存储对象超出了文本范畴,融入了静、动态图像(形)以及声音等多种媒体信息。

(同样具有超文本检索的优点,并且检索内容与形式更为丰富)

(1)强相关检索:

强调检索的准确性,也称作特性检索。这种检索注重查准率。只要检索得到的文献信息能满足用户的需求就行,对于检索结果的数量多少不作要求。

(2)弱相关检索:

强调检索的全面性,向用户提供系统完整的信息的检索。也称族性检索。这种检索注重查全性,要求检索出一段时间期限内有关特定主题的所有信息。为了尽可能避免漏检相关信息,对于检索的准确性相对要求较低。

要注意的是,这是两种检索要求比较极端的检索类型。实际上是介于两者之间,保证一定的查全率和查准率。

按时间跨度

(1)定题检索SDI (selective dissemination of information)查找有关特定主题最新信息的检索。

(2)回溯检索RS (retrospective search)查找一段时期内有关特定主题信息的检索。

文献检索是以文献作为检索对象,查找含有用户所需信息内容的文献,文献是一种相关性检索而非确定性检索,系统不直接解答用户所提出的问题本身,只提供与之相关文献或文

献的属性信息与来源指示供用户参考和取舍。所以其检索对象是包含特定信息的各种文献

七、按检索途径的特点区分

(1) 常用法,工具法,利用检索工具或系统中常设的检索入口查找文献信息的方法。如主题、分类、著者、题名等。其具体操作分为顺查,倒查,抽查

顺查方式是根据有关课题的起始年代利用选定的检索工具由远及近的进行逐年查找。

倒查方式则相反。从最新时间查找起,直到满足检索要求为止。

抽查是针对有关学科的发展特点,抽查某些特定时期的文献信息。通常抓住学科专业发展兴旺的时期,此时的不仅文献发表的数量多,质量也高。

分类语言(大体了解):用分类号和类名来表达信息的内容主题概念,并按知识门类的逻辑次序将信息资源系统地加以划分和组织的语言。其意义在于根据文献信息的内容特征和分类表,把相同内容的文献、信息集中在一起,同时又把不同内容的文献信息区别开来,以实现相关集中的功能。

分类语言的主要特点:按学科、专业集中相关文献信息,从知识分类的角度揭示文献信息之间的区别和联系,提供从学科专业领域检索文献信息的途径。

(大体了解)事实检索是检索关于某些客体(如机构、人物等)的指示性描述,或关于某一事件发生的时间、地点、经过等信息并将其查找出来的检索。如:名词术语、概念、定义、理论、方法、公式、事件等。事实检索属于数据,因为事实也是一种数据,即非数值性数据。

数据检索是将经过选择、整理、鉴定的数值存入数据库中,根据需要查出可回答某一问题的数据的检索。数据检索是一种确定性的检索,即直接提供用户所需要的确切数据。而且检索结果一般也是确定性的,要么是有,要么是没有;要么是对,要么是错。有些数据检索系统不仅能查出数据,还提供一定的运算、推导能力。

信息检索语言(retrieval language)又称为情报语言、情报存储和检索语言、信息组织语言,是用来描述文献特征,表达主题提问的一种专门的人工语言,是由给定领域中的一切可用来描述信息内容和信息需求的词汇或符号,及其使用规则构成的供标引和检索的工具。是沟通信息存储与检索两个过程,标引人员与检索人员的桥梁。

信息检索语言是检索系统的语言基础,主要作用是:表达描述信息内容和信息需求;用于信息的组织和整序;用于对检索系统中索引标识或提问标识的规范和控制。

根据结构原理划分:(大体了解)

1)分类语言

(2)主题语言

(3)分类主题一体化语言

(4)代码语言

(5)引文语言

分类语言主要可分为等级体系型分类语言和分面组配型分类语言两种。

目前我国广泛采用《中国图书馆分类法》(简称《中图法》)进行分类,该分类法由5大部类、22个大类组成

主题语言:以主题词来表达信息主题概念的语言,它按事物对文献信息进行浓缩、描述和整序,借用自然语言的语词,作为文献信息和检索提问的内容标示。

特点:按特定的事物集中文献信息,有较强的直接性。

构成原理:利用自然语言中的名词术语,经过一定程度的规范化处理,作为表达文献和提问内容的主题词;利用参照系统中的各种手段,显示主题标识之间的各种关系,并以此把主题词表中的众多主题词相互联系起来,构成多维的主题词体系;利用主题词的字顺序列,按事物的名称来排列和检索文献信息。

①标题语言:采用规范化了的自然语言,即经过标准化处理的名词术语作为标识,来表达文献所论述或涉及的事物--主题,并将全部标识按字顺排列。

例:一篇文章用“微型计算机”这个术语来叙述它的研究对象,另一篇文章用“微型电脑”这个术语来叙述它的研究对象,第三篇文章用“微机”这个术语来叙述,虽然都表示同一概念,这时就不能直接用“微型电脑”或“微机”来作标题词了,这三篇文章都必须用“微型计算机”作标题词(根据词表决定)。因为这三个术语是等同概念,如果同时用三个术语来标引,便会导致文献被分散。当然,读者若从“微型电脑”或“微机”入手检索时,都可以在标题词表中看到“见:微型计算机”的参照指示。

关键词语言(keyword):以关键词(从文献题名或文摘以及正文中抽取的,能够表达文献主题并具有实质意义的未经规范化处理的自然语言词汇)作为文献内容标识和检索依据的一种信息检索语言。

关键词与其他主题语言的区别在于:前者是没有经过规范处理的自然语言。属于非受控语言。后者是经过规范处理的自然语言,属于受控语言。

③元词语言:④叙词语言

检索途径及其选择

1、内容特征检索途径:内容特征是指表征文献实质意义的特征,如主题词、关键词、分类号、内容摘要等。

(1)分类途径

(2)主题途径

(3)分类主题途径

2、外部特征检索途径:外部特征是指文献上显而易见的,一般情况下不反映文献实质意义的那些特征,如书名(题名、篇名)、人名、各种符号标识(专利号、标准号、报告号等)、机构名、文献出处等

(1)责任者途径

(2)题名途径

(3)序号途径

(4)引文途径

西文词典一般都是按本国文字的字母顺序排列,查询时按字顺查找;日文字典大多按五十音顺排列,查找时按音顺查找;中文字典排列方法较多,有部首法、笔画笔顺法、汉语拼音法、四角号码法等。

百科全书可按收录范围分为综合性百科全书(如:《中国百科全书》、专业性百科全书(如:《化工百科全书》;还可按编辑规模分为:大百科全书(20卷以上)、小百科全书(10卷以下)、百科词典(单卷)。

编排方式有三种:按字顺编排、按分类编排和分类与字顺相结合编排。目前,按字顺编排条目已成为百科全书编排方式的主流,也有采用分类与字顺相结合的形式编排的。

百科全书一般都有各种索引,其中最主要的是主题索引

(了解)《中国大百科全书》是中国第一部大型综合性百科全书,也是世界上规模较大的几部百科全书之一。美国百科全书》名为Encyclopedia Americana,简称EA

《不列颠百科全书(Encyclopedia Britannica)》(又称《大英百科全书》,简称EB)

科利尔百科全书(Collier' Encyclopedia)简称EC

世界ABC三大百科全书:美国百科全书、不列颠百科全书、科利尔百科全书

年鉴大体可分为综合性年鉴和专业性年鉴两大类,前者如百科年鉴、统计年鉴等;后者如经济年鉴、历史年鉴、文艺年鉴、出版年鉴等。

名录可分为人名录、地名录和机构名录

文献检索工具是用于报道、存贮和查找文献线索的工具,它通过对文献特征的描述,并按一定的科学方法排列、提供多种检索途径,使我们能从文献的汪洋大海里找到特定的文献。

检索工具必须具备四个条件:

第一,必须详细描述文献的外部特征和内容特征。

第二,每条描述记录都必须具有各种检索标识。(所谓检索标识是指描述文献外部特征和内容特征的专门用于信息检索的词、词组或代码,如主题词、分类号、著者姓名、文献序号等。)

第三,全部描述记录要科学地组织成一个有机的整体

第四,能够提供多种检索途径。

按著录方式分,有目录型、题录型和文摘型。

其中按著录方式划分体现了检索工具对文献内容揭示的深浅程度,体现了检索工具的性质,这是检索工具最主要的划分方法。

目录是以出版物(如一本图书、一种期刊等)为报道对象,揭示出版物外部特征的检索工具。所以目录对文献的描述比较浅显,一般只描述文献的外部特征,有时也通过简单的内容提要介绍文献的内容,但它不涉及文献中的具体章节或具体文献。目录主要用于报道、登记出版物的出版发行情况,揭示其收藏情况,供人们选购、查阅和获取文献时使用。目录的著录项目通常包括出版物名称、责任者(著者、编者或译者)、出版项(出版者、出版地、出版时间、版次等)和稽核项(页数、开本、价格等)。

目录型检索工具主要有图书馆馆藏目录、联合目录、出版社目录、国家书目等。

题录是以单篇文献作为报道单位,揭示文献外部特征的检索工具。由于它是以单篇文献为单位来报道和存储文献的,所以对文献的揭示程度比目录要具体、深入。

但题录与文摘相比,对文献内容的揭示又相对较浅,不过,它也因此具有加工容易、可以缩短报道的时差、文体简短、可以增加检索刊物的容量的优点。题录的著录项目一般包括题录号、文献题目、作者及其工作单位、出处、原文文种、主题词、文中所附图表数及参考文献数等。

文摘(abstract)是指对一份文献或一个文献单元的内容所做的简略、准确的描述,通常不包含对原文的补充、解释和评论。文摘的报道对象与题录相同,但它对文献内容的揭示程度较题录更深入具体,它不仅描述文献的外部特征,还进一步描述文献的主题内容。对内容的介绍主要由其中的“文摘”部分完成。文摘是最常用的文献检索工具。

原文出处。指刊载原文的地方。

(材料题)文摘的主要著录项目为:

(1)文摘号、入藏号(abstract number ,reference number , accession number )。它是在文献处理完以后,为每条文摘编的号码,起排序并帮助读者识别特写文摘的作用。它可以是简单的顺序号,也可以是含有某种情报内容的代码符号。

(2)文献名称(document title)。即文献的题目(篇名),它是读者识别特定文献的重要标志之一。文献名称一般是逐字照录,有时也可以删去某些引导性的词,或对含义不清及不完整的名称加以改写、补充。外文文献一般要同时著录译名和原名。有些英文检索工具对非拉丁文字的文献一般不著录原名,而著录原名的音译名。

(3)著者(author)及其工作单位(affiliation)。是读者迅速鉴别文献的依据之一,著录著者姓名可以用全称,也可以用简称。许多国家的人名表述是名在前,姓在后,一般姓用全称,名可以缩写。但大多数检索工具都采用姓在前、名在后的形式。英文检索工具对非拉丁文姓名用音译法著录。

4)合同号(contract number)或拨款号(grant number)。如果该文献是在某项合同或拨款的支持下进行的,一般都要标明该项合同的编号或拨款文件的编号。科技报告都有这一项目。

(5)原文出处。指刊载原文的地方。原文如果是某种期刊中的论文,出处包括该刊的刊名、出版地、卷期号、出版日期和起讫页码;如果是图书或其中的一部分,出处就是书名、编著者、出版地、出版者、出版时间和起讫页码。科技报告的出处就是入藏号、订购号或原来的报告号。专利说明书的出处就是专利申请书或专利说明书的编号。原文出处的著录是读者顺利找到原文的重要线索。

(6)原文文别和译文来源。原文文别一般用某种语言的简称标明,放在文献出处之后,有的放在文献的译名之后。若所摘录的文献是一篇译文,应给出译文的来源(被译文献的出处),如“译自X刊X卷X期X页”。此项的用处是免得使读者去找他所不能阅读的东西。

(7)主题词或索引词。指用来描述该文献的主题内容的若干个词或词组。该项的用途很多,既可以帮助读者了解原文主题,也可以用以查找其他相关文献,或供计算机识别和进行逻辑组配检索。

(8)文摘正文。对文献内容所做的简略描述。可以有报道性文摘和指示性文摘之分。前者需概述原文的内容要点,特别是创新点,向读者提供原文中的定量信息(如距离、最大值、最小值、公式等)和定性信息(如发现、结果、新方法、新设备、结论等)。它是原文内容的浓缩,基本上能反映原文的技术内容、信息量大,字数也较多。后者则是为了把原文的主

题范围、目的和方法概略地指示给读者的一种文摘,一般不包含具体的数据、方法、设备、结论等内容。它指示读者将在原文中发现什么,帮助读者判断原文是否与自己的需要相关以及是否需要阅读原文,字数也相对较少。

例:《计算机应用文摘》

9609321 ①复杂的混合信号集成电路的参量成品率预测②[刊,英]③/Oleary,M. …④//Int.J.Electron. —1995,78(2)⑤. —267-394⑥

借助图象处理技术能从硅片图象提取……⑦

①文摘号②文献篇名③文献类型、文种④著者姓名⑤文献出处:刊名缩写、年卷期⑥起讫页码⑦文献摘要

索引通常不提供文献内容本身,只指明文献的物理位置,是一种检索文献的系统指南,使读者能准确地找出文献或文献集合体中的特定信息。

最常用的索引有著者索引、主题索引、分类索引、题名索引。

被抽选出来的关键词都可以作为标引词在索引中进行轮排,作为检索词进行检索

主题索引可分为四种:

1、标题索引

2、关键词索引

3、单元词索引

4、叙词索引

1、布尔逻辑组配检索技术(问答)

布尔逻辑组配检索是现行计算机检索的基本技术,它利用布尔逻辑运算符表示两个检索词之间的逻辑关系,将检索提问转换成逻辑表达式。常用的运算符有:

①逻辑“与”—AND

②逻辑“或”—OR

③逻辑“非”—NOT

练习:

头孢菌素钠Ⅴ或磺胺甲恶唑治疗呼吸道感染的引起的副作用研究

检索式:(头孢菌素钠ⅤOR 磺胺甲恶唑) AND 呼吸道感染AND 副作用

美国DIALOG系统是目前世界上最强大的国际联机检索系统,也是目前运作最成功的联机商业数据库系统之一,

截断方式也有后截、中截、前截等

截词检索具有隐含的OR运算特性

(2) (N)算符和(nN)算符

(N)是Near的缩写,它表示:在算符两侧的检索词必须紧密相连,所连接的词间不允许插入任何其他单词或字母,但词序可以颠倒。

(nN)表示允许在连接的两个词之间夹插入至少n个单词,且这两个检索词的词序任意。例如:Railway(2N)Bridge,可以表示

Railway Bridge,

Bridge of Railway,

Bridge of the Railway

(3)(S)算符

在某些情况下,特别是对查全率有较高要求时,可放松词位置检索要求,改用同句检索。所谓同句检索是要求参加检索运算的两个词必须在同一自然句中出现,其先后顺序不受限制。同句检索的位置算符是(S)。S是sentence的缩写。

例如:electronic(S)optical ,可以检索出题名为Cutting and polishing optical and electronic materials的文献。

计算机信息检索的一般步骤为:

1、根据检索课题,选择适用的数据库;

2、确定检索词;

3、编制检索式;

4、显示及判断检索结果;

5、修改检索策略。

6、索取原文

控制词汇来源于特定的受控检索语言,因此在选词时必须使用相应的词表。受控语言主要有规范化的主题语言和分类语言

非控制词汇是极为灵活有效的检索词。对于自由文本检索和全文检索而言,关键词更是最重要的检索词。

用以进行检索效果评价的参数主要有:查全率(recall factor)、查准率(也称适中率,precision factor)、漏检率(omission factor)、误检率(也叫检索噪音,noise factor)以及新颖率、检索速度等。

(1)查全率:是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度,可用下面的公式表示:

查全率=(检出相关文献量/系统中相关文献总量)*100%

2)查准率:是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度,可用以下公式表示:

查准率=(检出相关文献量/检出文献总量)*100%

查全率和查准率是评价信息检索系统检索效果的主要指标,理想状态是检索系统中的全部相关文献都被检出,并且检出的文献全部是相关文献。然而,由于受许多因素的影响,在实际检索中,查全率和查准率是不可能达到100%,而是存在着一种互逆关系,即在同一检索系统中提高查全率,查准率就会降低;反之,提高查准率,查全率则会下降。

信息检索与利用复习重点

一、工具书概念:根据一定的查阅需要,系统汇集有关的知识资料,以特定的编排方式和检索方法,为人们迅速提供知识信息或资料线索,专供查阅的图书(文献)。工具书的特点:①信息密集②资料性强③查考为主④方便检索工具书类型:1 检索工具书又称线索性工具书,主要提供查找文献的线索:书目、索引、文摘。2 参考工具书主要向读者提供可资参考的知识内容,如数据、史实、结论、定义、人物简介等数据和事实信息:字典、词典、百科全书、年鉴、手册、名录、数表统计资料、表谱、图录等类型。3 边缘工具书——形式上不是工具书但具有查考检索作用的图书。丛书、总集、汇编、综述、史志、学科史及要籍等。工具书的结构:①序、跋②凡例③目录④正文⑤辅助索引⑥附录、参考文献工具书的鉴别与选择原则:1)看其主流,考察内容材料,看内容是否完备、材料新颖可靠,解释引证准确2)客观、正确,有无立场、观点问题3)了解编制体例,编排方式、检索方法、印刷规则、文体。4)同一种工具书的不同版本。鉴别与选择的方法1)查考编辑者与出版者2)编纂和出版的年代、审察版本3)查考序跋、凡例和目次4)辨别正文——选条试查、定条比较 5)参阅书评二、机器检索及光盘、联机与网

络检索计算机检索:人们在计算机或计算机检索网络终端机上,使用特定检索指令、检索词和检索策略,从计算机检索系统数据库中检索出需要的信息,继而再有终端设备显示或打印的过程。信息检索工具:指用以报道、存储和查找文献线索的工具。它是附有检索标识的某一范围文献条目的集合,是二次文献,如书目数据库、搜索引擎、索引、文摘。检索工具的分类:1)(文献检索工具)提供线索的指示型检索工具(二次文献):书目、馆藏目录;索引;文摘;工具书指南2)(事实与数据检索工具)提供具体信息的参考工具(三次文献):1词典2类书、政书、百科全书3、年鉴4传记资料5表谱、图录6、政府文献7名录、手册8数表、统计集9丛集汇要10地理资料信息检索途径:1)外部特征途径:题名途径,著者途径,序号途径2)文献内容特征途径:分类途径,主题途径,关键词途径,分类主题途径,其他途径。信息检索步骤:1)分析检索课题,明确检索要求(2)制定检索策略:确定检索工具、方法、途径、用词及逻辑关系、位置关系(3)实验性查找,调整检索策略,正式查找;(4)辅助性查找(最新期刊、年鉴);(5)整理答案或索取原文。信息检索步骤:1)分析检索课题,明确检索要求2)制定检索策略:

信息检索考试题库

一、单项选择题 在每小题列出的四个备选项中只有一个是符合题目要求的,请将其代码填写在题后的括号内。错选、多选或未选均无分。 知识是指人类对客观世界的认识。知识可分为(C) A.有用知识和无用知识 B.基础知识和高级知识 C.感性知识和理性知识 D.理论知识和实践知识 文献按载体形式可分为:印刷型、缩微型、声像型和(D)A.甲骨型 B金石型 C.电脑型 D.机读型 信息检索系统的功能为:报道文献信息、存储文献信息和(B) A.揭示文献信息 B.检索文献信息 C.宣传文献信息 D.介绍文献信息 检索系统的结构由几个部分组成:编辑使用说明、索引、附录、词表和(D) A.目次 B.题录 C.附图 D.正文(主文档) 为便于计算机识别记录的各个字段,每个字段都设有字段标识符,下列哪个字段的标识叙述是正确的(A) 是题名的标识符 是关键词的标识符 是摘要的标识符 是著者的标识符 以下不是布尔逻辑算符的是(B) B.Near 布尔逻辑算符通常的运算顺序是(A) A.有括号时,括号内的先执行;无括号时 NOT > AND > OR B.有括号时,括号内的先执行;无括号时 NOT > OR >AND C.有括号时,括号内的先执行;无括号时 AND >NOT > OR D.有括号时,括号内的先执行;无括号时 AND > OR > NOT 限定词“in”是为了缩小检索范围,提高检索速度和命中率的。下列检索表述式正确的是(B) A.“信息in OCLC” B.信息in AB” C. 信息in CNKI” D.信息in Calis” 我国高校与公共图书馆的文献资料,一般采用的分类法分类的是(A) A.《中国图书馆图书分类法》 B.《国际十进分类法》 C.《人大法》 E.《科图法》 信息检索的方法有追溯法、综合法和(C) A.须查法 B.倒查法 C.工具法 D.抽查法 CNKI数据库的全文数据输出文件的格式为(D) 和TXT 和VIP 和PDF 和PDF 超星电子图书提供快速检索和高级检索两种检索方式,利用快速检索可以按图书的单项模糊查询,这些单项包括(A) A.书名、作者、索书号和出版日期 B.书名、作者、索书号和出版社 C.书名、作者、分类号和出版社 D.书名、版本、索书号和出版社 读秀知识库是由海量全文数据及元数据组成的超大型 数据库。其提供的中文图书有(B) 万种 万种 万种 D400万种 SCienCe DireCt数据库收录2000多种期刊,其中被ISI 收录期刊种类为(C) SD数据库常用字段中“TITLE-ABSTR-KEY”字段是表示: ( D ) A.题名-作者-关键词 B.题名--作者-摘要 C.作者- 摘要-关键词 D.题名-摘要-关键词 Dialog数据库于1972年正式开始提供商用联机服务, 是世界上最大、历史最悠久的联机检索系统。目前数据 库有( A ) 多种 多种 多种 多种 网络信息资源的一次出版信息包括:网上图书、期刊、 报纸、专利、政府出版物和( D ) A.电子邮件 B.新闻 C.博客 D.会议资料 Google检索框中的两个关键词之间用空格隔开则默认 的连接是( A ) A.“AND”(“与”运算) B.“OR”(“或“运算) C.“NOT”(“非”运算) D.“W”(位置运算) 下列哪个是Google指定文件类型检索(B) A.检索词site: B.检索词filetype: C.检索词insite: D.检索词innurl 百度搜索中能实现精确匹配查询的是(C) A.单引号‘’ B.中括号[] C.双引号“” D.逗号 下列开哪个开放存取学术资源利用平台的名称是正确 的(D) :中图链接服务 : OA资源一站式检索服务平台 :开放存取期刊仓库 J – GATE:开放存取期刊门户 论文摘要的文字必须十分简炼,内容亦需充分概括,字 数一般不超过论文字数的( B ) A.6%, %, %, % 制定检索策略首先要弄清用户的提问要求,并确定要查 找的文献学科范围、类型、文种和(C) A.地点 B.样式 C.时间 D.方位 搜索引擎的由哪几个部分组成(A) A.搜索器、索引器、检索器和用户接口 B.搜索器、编辑器、检索器和用户接口 C.搜索器、索引器、整理器和用户接口 D.查询器、索引器、检索器和用户接口 下列文献哪个“参考文献”的格式著录是正确的(D) A.[1]刘付芬. 黄银安,青少年网瘾对家庭经济危害的 分析及对策,《消费导刊》,2010年第8期,25-28页 B.(1)刘付芬. 黄银安,青少年网瘾对家庭经济危害 的分析及对策,消费导刊,2010(8):25-28 C.<1>刘付芬, 黄银安.青少年网瘾对家庭经济危害的 分析及对策.消费导刊,2010(8):25-28 D.[1] 刘付芬, 黄银安.青少年网瘾对家庭经济危害 的分析及对策.消费导刊,2010(8):25-28 每个被收录的网页,在百度上都存有一个纯文本的备 份,称为:(C) A.百度文档 B.百度相似搜索 C.百度快照 D.百度百科 在百度中如果在特定站点“新浪网中搜索关于“公司治 理”方面的文献信息的检索式为:(B) A. 公司治理intitle:公司治理site: 公司治理inurl: 公司治理filetype:开放存取期刊门户”的网址为:(C) 文献综述的写作步骤包括:选题、查阅文献资料、加 工处理,拟定提纲,撰写成文,反复修改和(A) A.定稿成文 B.定题名称 C.定稿打印 D.定稿腾写 判断一篇文献综述质量高下的分界线是:(D) A.评论 B.综合归纳 C.总结 D.描述 二、多项选择题 (在每小题的备选答案中,可能有一个或多个正确的答 案,请将其代码分别填在题干的括号内,多选、少选、 错选、均无分。) 信息是事物存在的方式和运动状态及其规律的表征,是 事物的一种普遍属性。信息的特征有(A、B、C、D、E) A.客观性 B.时效性 C.传递性 D、共享性 E.中介性 以信息所依附的载体为依据,信息可分为(A、C、D) A.文献信息 B.自然信息 C.口头信息 D.电子信息 E.社会信息 文献是记录有知识的一切载体。构成文献的要素为(A、 B、D、E) A.知识、信息内容 B.信息符号 C.信息类型 D.载体材料 E.记录方式 文献按出版形式区分,可分为十大文献情报源,除图书、 期刊和报纸外下列哪些文献属于十大文献情报源(C、D、 E) A.研究报告 B.宣传手册 C.会议文献 D.政府出版物 E.专利文献 下列属于四大科技报告的有(B、C、D、E) 报告 报告 报告 报告 报告 下列属于零次文献的有(A、B、C、D) A.书信 B.手稿 C.记录 D.笔记 E.研究报告 下列属于一次文献的有(B、C、E) A.论文手稿

信息检索复习资料

文献的定义 最简明的定义:记录有知识的一切载体。 定义:记录知识的一切载体,即用文字、图形、符号或声频等技术手段记录知识的物质载体,或固化在物质载体上的知识。 二次文献 将大量分散、无序的一次文献经过筛选、分析、整理,按其内容特征和外部特征进行提炼、浓缩,并按照一定的逻辑顺序和科学体系编制而成的系统化的文献。 特种文献 会议文献、学位论文、专利文献、标准文献、科技报告、政府出版物、产品资料、档案8种类型文献是一种介于图书与期刊之间的文献类型,通常在出版发行方面或获取途径方面比较特殊,因而也被称为特种文献或灰色文献。 文献检索式 或:A or B 或 A + B;用于扩大检索范围,增加命中文献数量,有利于提高检索结果的查全率。 与:A and B 或 A * B; 用于对检索词进行限定,从而缩小检索范围,有利于提高检索结果的查全率。 非:A not B 或 A – B;表示检索记录中凡含有A不含B的记

录被检出。能够缩小命中文献的范围,增强检索的准确性。 网上的文献格式 期刊、专著、论文集、学位论文、报告、专利论文、[国际、国家标准]、报纸文章、电子文献。 文献信息源 用一定的记录手段将系统化的信息内容存储在各类载体上而形成的一类信息源。文献信息源是信息源的主体部分,是信息搜集、存储、检索和利用的主要对象。 CA美国化学文摘数据库收录文献 期刊论文、会议论文、图书、学位论文、专利、技术报告。 什么数据库能检索会议文献 国外:ISI会议录数据库、会议论文索引数据库、OCLC PapersFirst 与ProceedingsFirst、STN联机系统中的CONF会议论文数据库、美国物理所电子会议录数据库、美国光学工程师学会会议文献数据库、美国航空航天协会电子图书馆。 国内:中国重要会议论文全文数据库、万方数据知识服务平台会议论文数据库、中国国家科技图书文献中心会议论文数据库、中国学术会议文献通报、上海图书馆会议资料数据库。

信息检索考试重点

第一章 知识含义:是人们通过实践对客观事物及其运动过程和规律的认识。 文献含义:是记录有知识的一切载体。 文献基本要素:知识、载体和记录 信息资源含义:是可供人们直接或间接开发利用的各种信息集合的总称。 信息的类型:按信息的表现形式:文字信息图像信息数值数据信息语音信息 连续出版物含义:是一种具有统一名称、固定版式、统一开本、连续编号,汇集多位著者的多篇著述,定期不定期编辑发行的出版物。 学位论文含义:是大学生或研究生为取得学位资格而提交的学术论文。 会议文献含义:主要是指在国内外各类会议上宣读或交流的论文、报告或其他有关资料。专利文献含义:是实行专利制度的国家和地区及国际性专利组织在审批专利过程中产生的官方文件及其出版物的总称。 标准含义:是为了在一定范围内获得最佳秩序,经协商一致制定并由公认机构批准,共同使用和重复使用的一种规范性文件 信息素质含义:利用大量的信息工具及主要信息源使问题得到解答的技术和技能。 信息素质内涵:信息意识、信息能力、信息道德。 Internet应用:信息获取、交流沟通、网络娱乐、商务交易 第二章 信息检索过程:(1)明确信息检索需求;(2)选择检索系统;(3)确定检索词;(4)构造检索表达式;(5)索取原始信息。 信息检索类型:对象内容划分:文献检索、数据检索、事实检索、多媒体检索 组织方式划分:全文检索、超文检索、超媒体检索 信息检索发展历史:1、手工信息检索2、单机信息检索3、联机信息检索4、网络信息检索信息检索发展趋势:信息检索智能化、信息检索可视化、信息检索集成化、信息检索个性化信息检索语言功能:是组织与存储信息的依据、是信息检索的依据、是联系信息存储与信息检索的桥梁 信息检索语言种类:按检索语词的规范化程度分、按内容性质和结构原理分 分类语言含义:是一种按学科范畴和体系来划分事物的语言,它是以数字、字母符号对类目进行标识的一种语言体系,也称分类法。 分类语言类型:体系分类语言、组配分类语言 《中图法》基本类目表5个基本部类,22个大类。 主题检索语言含义:主题检索语言是指描述文献主题的语词标识并按字顺序列排检的检索语言。 主题检索语言类型:标题词语言、单元词语言、叙词语言、关键词语言 标题词语言含义:是用规范化的自然语言词做标题,直接表达文献主题概念,按照标题字顺排列,并用参照系统显示标题之间关系的一种主题法。 叙词语言含义:又称主题词语言,是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组配的一种主题语言。 布尔逻辑检索(是逻辑检索的基础)运算符:逻辑“或”(OR)、逻辑“与”(AND) 、逻辑“非”(NOT)。 位置检索:(1)(W)—With (W)表示在此算符两侧的检索词必须按此前后的顺序排列,顺序不许颠倒,而且两个检索词之间不许有其他的词或字母,但允许有空格和标点符号。 (2)(nW)—nWord

2020年信息检索心得优秀范文合集

信息检索心得(一): 透过这段时间的检索学习,我发现自己的专业知识还很贫乏,需要在日后的学习生活中加强。 文献检索是件枯燥的事情,但它同时也是一个十分重要的学习搜索手段。我们学习检索文献需要耐心,需要超多时间的投入,要熟悉各种数据库的使用方法,有的时候还要求一点软件方面的知识。 以前在要查阅资料的时候就明白百度,google了,文献检索给我开辟了一个新的空间,新的领域,让我很容易得到精确有用的材料。比如,之前我们做课程设计的时候,要查阅超多专业的相关资料,如今就不需要到处超多的借阅那么多的书籍,报告或者期刊什么的了,只要将相关信息输入数据库就能得到精确有用的资料,多么快捷方便阿。 在学习过程中,我发现自己很容易烦躁。每当查不到或不能快速掌握查阅技巧的时候,我就变的很不冷静,这点要在日后的学习中慢慢加以锻炼改善.对于一个即将踏入社会参加工作或科研工作的大学生来说,这是不就应出现的状况,我要严格的要求自己,为日后的工作学习打好坚实的基础。 文献检索是一门很重要很有用的学问,也是一门很高深的学问,我此刻学到的还只是一点皮毛。但是透过不断的学习积累,借助老师教过的方法,我相信自己能够一点点的进步,直到能够很熟练的掌握它。 持之以恒,就必须能学好,学精,学通! 信息检索心得(二): 在不知不觉中,已经上了一个学期的“文献检索”的课程了,透过这一个学期的学习,我学到了很多对今后生活很有用处的知识。我前后一共学到了CNKI、维普数据、万方、超星数字图书馆、中国专利信息网、中国标准全文数据库这十一个数据库的应用,学会使用这些数据库对我以后在查找文献方面带给了很大的便利。 此刻是一个信息爆炸的时代,我们身边有着成千万上亿的信息,而且这些信息的更新速度是十分快速的。我们如何能准确而快速地找到我们想要查找的信息呢?透过所学习的数据库就能够到达这个目的。 数据库虽然给我们带给了很多方便,但是想要熟练地使用它还是要进行认真学习的,因为我们在查找有用信息的同时还要摒弃那些无用的信息。在学习之前,我也在“百度”等搜索引擎上搜索过一些东西,认为搜索文献很简单,但是经过了一个学期的学习后,我明白我先前的想法是错误的。利用数据库检索文献是要了解很多事情的。例

信息检索模拟试题

《INTERNET信息检索》模拟试题(一) 一、填空 1.小王在某个数据库中检索到了50篇文献,查准率和查全率分别为40%、80%,则全部 相关文档有25 篇。 2.INTERNET是基于TCP/IP 协议的。 3.文件ABC.001.TXT的后缀名是TXT 。文件类型是文本文件。 4.多数网页采用HTML编写,这里的HTML指的是:超文本标识语言。 5.目录型搜索引擎主要提供族性检索模式,索引型搜索引擎主要提供特性检索模 式。 6.在使用搜索引擎检索时,URL:ustc可以查到网址中带有ustc的网页。 7.根据索引编制方式的不同,可以将搜索引擎分为索引型搜索引擎和网络目录型 搜索引擎。 8.按文献的相对利用率来划分,可以把文献分为核心文献、相关文献、边缘文 献。 9.定期(多于一天)或不定期出版的有固定名称的连续出版物是期刊。 10.检索工具具有两个方面的职能:存储职能、检索职能。 11.以单位出版物为著录对象的检索工具为:目录。 12.将文献作者的姓名按字顺排列编制而成的索引称为:作者索引。 13.利用原始文献所附的参考文献,追踪查找参考文献的原文的检索方法称为追溯法, 又称为引文法。 14.已知一篇参考文献的著录为:”Levitan, K. B. Information resource management. New Brunswick: Rutgers UP,1986”,该作者的姓是:Levitan 。 15.检索语言可分为两大类:分类语言、主题词语言。 16.LCC指的是美国国会图书馆分类法。 17.当检索关键词具有多个同义词和近义词时,容易造成漏检,使得查全率较低。 18.主题词的规范化指的是词和概念一一对应,一个词表达一个概念。 19.国际上通常根据内容将数据库划分为:参考数据库、源数据库、混合数据 库。 20.查询关键词为短语"DA TA OUTPUT",可以用位置算符(W)改写为:DATA (W) OUTPUT 。 21.著录参考文献时,对于三个以上的著者,可以在第一著者后面加上et al. ,代表"等 人"的意思。 22.国家图书馆默认的检索方式是多库检索。 二、单项选择 使用PING命令探测远方主机时,得到的响应是"TIMED OUT",这个信息的含义是:【B】 A.无法解析DNS B.连接超时,在指定的时间内,远方主机没有响应 C.无法识别远方主机的响应信号 D.其他

信息检索复习资料

信息检索复习要点 第一章 一、情报和文献 1.情报(P4 1.2.3) 情报就是为了解决一个特定问题从一定文献资料中提取或经过传递获得的知识。 知识性、传递性、针对性是情报的3个基本属性。 2.文献(P5 1.2.5) 记录有知识的一切载体叫文献。 知识内容、信息符号、载体材料、记录方式是文献的4个基本要素。 二、文献按载体划分(P5~6 1.3.1) 1.印刷型 2.微缩型 3.视听型 4.电子型 三、文献级次划分(P6 1.3.2) 1.零次文献:非正式出版物或非正式渠道交流的最原始的文献。如手稿、演讲、听取经验交流,甚至包括口头言论。 2.一次文献:依据作者本人的研究或成果制作成果创作的文献,即通常所说的“原始文献”、“第一手资料”。如图书、期刊论文、科技报告、学位论文、专利说明书等。 (原创性) 3.二次文献:按一定的方法对一次文献进行加工,使之有序化而形成文献。如目录、索引、文摘等。(有序性) 4.三次文献:一般是围绕某个专题或出于特定目的,根据二次文献提供的线索,选用大量一次文献的内容,经过筛选、分析、综合和浓缩等深度加工而形成的文献。 如各种评述、进展报告、教科书、词典、年检、百科全书等。(综合性) 四、ISBN和ISSN(P7~9 1.3.3) 1.ISBN(国际标准书号)

(1)它是由国际标准化组织1972年公布的一项国际通用的出版物统一编码。它是由10位数字组成,共分4段【组号、出版社号、书序号、校验码(1位数,ISBN最后一位数值)】。 (2)校验方式:将ISBN 1~9位数字顺序乘以10、9、8、7、6、5、4、3、2这9个数字,将这些乘机之和再加上校验码,如果能被11整除,则这个ISBN号是正确的。2.ISSN(国际标准连续出版物编号) (1)实现对全世界文献的管理。由8位数字组成分2段,每段4位数字。中间用“-”隔开前7位是刊名代号,最后一位是计算机检验位。 (2)检验方式:将ISSN 1~7位数字顺序乘以8、7、6、5、4、3、2这7个数字,将这些乘机之和再加上检验号,假如能被11整除,则这个ISSN号是正确的。 第二章 一、信息检索(P12) 从广义的角度讲,文献检索是指把文献按一定方式组织和存储起来,并针对用户的需求找出所需的文献过程,亦叫信息检索。而人们一般所指的文献检索,是指狭义的文献检索,即最后一个过程——信息检索,文献的查找过程。 二、信息检索的类型(P13 2.1.2) 1.按照检索的对象的不同,人们将信息检索分为文献检索、数据检索和事实检索。2.按照检索的方式的不同,人们还常将它分为手工检索和计算机检索。 三、图书的四大常用检索点(P20 2.3.1) 1.书名 2.作者 3.主题词 4.分类号 四、检索语言的基本种类(P19 2.3) 检索语言是文献检索中用了描述文献特征和表达信息提问内容的一种专门化的人工语言,是信息组织和文献检索共同使用的语言。 检索语言大致分为分类语言(P19)和主题语言(P24)两种。 (1)最早的图书分类法(P20 2.3.1 2) 我国西汉刘向、刘歆父子所著的《七略》。它首创的“七分法”对后世我国的分类思想的形成和发展影响极大。 (2)四库全书(P21 小资料) 纂修与清乾隆年间的《四库全书》,从收集编纂到成本,共用10年(1173-1782),集我国古代文献典籍之大成。共著录图书3461种,79309卷,36000余册。《四库》将各种书籍分为经部、史部、子部、集部。各部下分若干类,类下细分为属。 (3)全球使用最广的分类法(P21 2.3.1 3) 《杜威十进分类法》(DDC)是当今世界上影响最大、用户最多的图书馆分类法。

信息检索考试重点

名词解释4*4’ 1.信息素质: 个体在现实需求的驱动下,能有效地发现、获取、评价和利用信息。 2.信息检索 广义的信息检索 全称是“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。 狭义的信息检索 “信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。 3.登记性目录(概念) 也叫国家书目,它是出版物国家登记制度的产物,反映国家出版的全部图书,实际上也反映了一个国家的文化、科学和出版业的水平。 4.联合目录(概念) 汇总若干个单位馆藏而形成的目录,是馆藏目录的放大。 5.年鉴(概念) 年鉴是汇辑一年内的重要时事文献、学科进展,汇辑各种统计资料和重要信息,并按年度出版的连续性出版物。 6.OPAC(公共联机书目查询系统) 利用计算机终端来查询基于图书馆局域网内的馆藏数据资源的一种现代化检索方式,通过联机查找为读者提供馆藏文献的线索。 7.引文索引(概念) 根据美国科学信息研究所(Institute for Scientific Information,简称ISI)的定义: 对于文献A和B:若文献B提到或引用了文献A,则A是B的引文。这里,文献A被文献B 提到或引用,A是被引用文献或参考文献。同时由于B引用了A,故B又称为引用文献。 8.垂直搜索引擎(概念) 也被称为专业搜索引擎,或主题搜索引擎。它专门收录某一方面、某一行业或某一主题内的信息,专为查询某一个学科或某一主题的信息提供检索服务,在解决某些实际查询问题的时候比综合搜索引擎更有效。 简答4*9’ 信息素质包含四个层面的含义: 第一,用户有一定的信息需求,即在某个时候需要了解某方面信息。 第二,掌握了主要的信息源和信息工具的知识及技能。 第三,能够分析评价选择相关信息。 第四,利用信息的目的是为了有效地解决具体问题。 信息素质主要表现为信息理论素养和信息的实践能力,包括信息意识、信息知识、信息能力

医药信息检索作业重点归纳

检索作业:基础知识 1.按信息的产生次序和加工整理的程度不同,可将信息源划分为四个层次,分别是哪四个层次,并举例?按信息的产生次序和加工整理的程度不同可将信息划分为以下四个层次结构:零次信息,一次信息,二次信息,三次信息。零次信息如比较原始的素材、底稿、手稿、书信、工作文稿、工作图纸、考察记录、调查稿、原始统计数据以及各种口头交流的知识、经验或意见论点。平时的课堂笔记、聊天记录等就是零次信息,其特点是:直接、真实、内容新颖。一次信息又称原始文献,包括图书、期刊和报纸、科学考察报告、研究报告、会议论文、学位论文、专利说明书、技术标准、政府出版物、产品样本等。其特点是:经过一定的加工整理,可以大范围传播;创造性原始性和多样性。二次信息有书目、题录、索引和文摘。简化有序化特定范围内的一次信息,具有集中性、工具性和系统性。三次信息包括专题述评、动态总数、系统评价、进展报告、学科年度总结、年鉴、指南和百科全书。它通过二次信息提供的线索,选用一次信息的内容重新加工整理形成的信息。 2.按信息的出版类型划分,可将信息源分为十种类型,分别是哪十种类型?按信息的出版类型或分为以下十种类型:图书、期刊论文、科技报告、专利文献、会议文献、政治出版物、学位论文、标准文献、产品样本、科技档案。 3.在信息的存储和检索中,可采用有自然语言和人工语言,各自的优缺点有哪些?自然语言:情报检索中的自然语言是指文献作者或文摘提要的作者原来使用的语言,即出现在文献题名、摘要或正文中的语词。优点:贴近人们的日常生活表达,按照社会约定俗成的流行用法,简便较为随意。缺点:(1)不能简明专指表达文献及检

索课题的主题概念(2)语词与概念不能一一对应(3)不能显示概念之间的关系(4)不能系统排列概念(5)检索时不能将标引用语和检索用语进行相符性比较。人工语言:情报检索语言是根据情报检索的需要而创制的人工语言,专门用于各种手工和计算机化的情报检索系统,表达文献主题概念和检索课题概念。优点:知识的组织功能,可保证较高的检索效率。(1)加以标引(2)聚类功能(3)系统化组织化(4)标识用语和检索用于进行相符性比较缺点:标引用语同检索用语必须是同一种语言,否则影响检索的相符性,规则要求高。 4. 什么是主题词?常用的医学主题词表有哪些?主题词又称叙词,在标引和检索中用以表达文献主题的规范化的词或词组。主题词是规范化的检索语言,它对文献中出现的同义词、近义词、多义词以及同一概念的不同书写形式等进行严格的控制和规范,使每个主题词都含义明确,以便准确检索,防止误检、漏检。常用的医学主题词表有:《美国医学主题词表》(MeSH)、荷兰医学文摘的主题词表(EMTree)和《中国中医药学主题词表》、(pubmed)主题词表。 5. 什么是题录数据库?什么是全文数据库? - 1 - 题录数据库是用各种索引方法制作的二次文献数据库,又称题录数据库或篇名数据库,以简略的形式向用户提供文献的信息。如维普资讯公司的《中文科技期刊数据库》、《中国生物医学文献数据库》等全文数据库是不仅记录数目信息,如题名、著者、关键词、文摘等,同时还储存了一定数量的文献全文或其中主要部分。传递的信息是完整的,是一种源数据库。 6. 计算机检索的方法有哪些?包括布尔逻辑检索、位置逻辑

《信息检索》模拟精彩试题

《信息检索》模拟试题(一) 一、填空 1.小王在某个数据库中检索到了50篇文献,查准率和查全率分别为40%、80%,则全部 相关文档有 25 篇。 2.INTERNET是基于 TCP/IP 协议的。 3.文件ABC.001.TXT的后缀名是 TXT 。文件类型是文本文件。 4.多数网页采用HTML编写,这里的HTML指的是:超文本标识语言。 5.目录型搜索引擎主要提供族性检索模式,索引型搜索引擎主要提供特性检索模 式。 6.在使用搜索引擎检索时,URL:ustc可以查到网址中带有ustc的网页。 7.根据索引编制方式的不同,可以将搜索引擎分为索引型搜索引擎和网络目录型 搜索引擎。 8.按文献的相对利用率来划分,可以把文献分为核心文献、相关文献、边缘文 献。 9.定期(多于一天)或不定期出版的有固定名称的连续出版物是期刊。 10.检索工具具有两个方面的职能:存储职能、检索职能。 11.以单位出版物为著录对象的检索工具为:目录。 12.将文献作者的姓名按字顺排列编制而成的索引称为:作者索引。 13.利用原始文献所附的参考文献,追踪查找参考文献的原文的检索方法称为追溯法, 又称为引文法。 14.已知一篇参考文献的著录为:”Levitan, K. B. Information resource management. New Brunswick: Rutgers UP,1986”,该作者的姓是: Levitan 。 15.检索语言可分为两大类:分类语言、主题词语言。 16.LCC指的是美国国会图书馆分类法。 17.当检索关键词具有多个同义词和近义词时,容易造成漏检,使得查全率较低。 18.主题词的规范化指的是词和概念一一对应,一个词表达一个概念。 19.国际上通常根据内容将数据库划分为:参考数据库、源数据库、混合数据 库。 20.查询关键词为短语"DATA OUTPUT",可以用位置算符(W)改写为: DATA (W) OUTPUT 。 21.著录参考文献时,对于三个以上的著者,可以在第一著者后面加上 et al. ,代表" 等人"的意思。 22.国家图书馆默认的检索方式是多库检索。 二、单项选择 1. 使用PING命令探测远方主机时,得到的响应是"TIMED OUT",这个信息的含义是:【B】 A.无法解析DNS B.连接超时,在指定的时间内,远方主机没有响应 C.无法识别远方主机的响应信号 D.其他 2. 一般来说,关键词出现在文献的不同字段表达的相关性不同,以表达的相关性从强到弱排序如下:【C】 A.关键词>标题>文摘>正文

信息检索复习资料

第一部分:基本常识 1.文献按照出版形式可分为哪几种类型?举例。 图书、期刊、报纸、特种文献。 图书:专著、文集、教科书、普及读物、百科全书、年鉴、手册、词典等 期刊:化学学报、煤炭学报、电工技术学报、高等教育研究、建筑工程与科学在CNKI期刊全文数据库中检到共209条记录:国际城市规划、建筑结构学报、交通运输工程学报、建筑经济、土木工程学报、岩土工程学报、岩土力学、空间结构、地震工程与工程振动、中国给水排水、工程力学世界建筑工业建筑工程勘察中外建筑工程建设等。 报纸:人民日报 特种文献:科技报告、会议文献、专利文献、学位论文、政府出版物、标准文献、产品资料、科技档案 美国政府的四大报告1、国防部的AD报告2、商业部的PB报告3、国家航空及宇航局的NASA 报告4、能源部的DOE报告。 2现代科技文献具有的特点哪些? 答:(1)数量多、增长快, (2)出版形式多、文种多,(3)文献异常分散, (4)文献失效加快, (5)报道内容重复交叉, (6)文献总体质量下降 3什么是核心文献、相关文献和边缘文献? 答:核心文献通常是指与本学科发展水平、发展动向密切相关的一些文献。如核心期刊等。相关文献和边缘文献是指内容与学科的关系相对疏远一些的文献。相关文献和边缘文献是本学科和其它学科相互渗透、互相结合的结果。 4 什么是文献?构成文献的有哪四个要素? 答:文献的定义是记录有知识的一切载体称为文献。构成文献的四要素是:知识内容,信息符号,载体材料,记录方式。 5 电子文献的主要类型和文件格式是什么? 答: (1)按照载体的形态,电子文献可以有软磁盘(FD)、只读光盘(CD-ROM)、可擦写光盘(CD-RW )等之分; (2)按照文献的电子格式,电子文献有文本格式的txt文件、doc文件、pdf文件,图像格式的gif文件、jpg文件以及标记文件格式的html文件和xml文件之分; (3)按照出版周期和内容特点,电子文献可以有电子期刊,电子图书,电子报纸以及数据库等之分; (4)按照内容的性质和时效性,电子文献可以有论文文献和动态消息之分; (5)按照版权状况,电子文献又可分为有版权电子文献和无版权电子文献两类; (6)从文献信息利用的角度来看,可分为有版权的电子期刊、电子图书、报告的学术价值相对较高,而单篇论文和动态性的电子文献有时虽然没有注明版权,也有相当的参考价值。 6 如何针对不同时间要求的文献信息,选用不同的文献信息源? 答:以信息利用者的观点,针对不同时间要求的文献信息应该使用不同的文献信息类型。例如,查找当前最新的信息(一、两个月之内的信息),应该通过互联网以及当前最新的报纸、期刊、广播、电视等媒体;两个月之前到十年之内的信息应主要通过网上图书、期刊类的数据库解决;5~20年前的信息应除了期刊之外,还可以通过印刷版的图书和手册性工具书来查找。 7什么是ISSN和ISBN?

2018年成人高考文献检索末复习材料知识点复习考点归纳总结

《文献检索期末复习题》 一、选择题 1.( C )年,国内检索刊物编辑出版工作走上有领导、有组织、有计划的发展道路。C.1956 2.国际联机信息检索是在20世纪的哪个年代发展起来的?( C ) C.80年代 3.《科学引文索引》的检索途径包括(A)A 引文途径来源途径团体途径主题途径 4.《全国报刊索引》属于( B ) B.题录型检索工具 5.《中国医学文摘》的主体部分采用下列哪些形式报道文献?( B ) B.文摘、简介、题录 6.《中国专利公报》当前的出版频率为( D )。 D.周刊 7.《中目》(医药卫生)的分类途径是以( B )为检索标识检索文献的. B分类号、类目名 8.《中文科技资料目录》《医药卫生》的分类途径是以下列哪项为检索标识的途径?( D) D.分类号、类目名 9.下列对学位论文描述不正确的是( D ) D.学位论文是公开出版的,全文获取比较容易 10.2005年,国际专利分类法已经出版到第几版?( C ) C.第七版 11.AIDS与MeSH主题词‘‘Acquired Immunodeficiency Syndrom”(获得性免疫缺陷综合的关系在MeSH中应反映为( B) B. Acquired Immunodeficiency Syndrom X AIDS 12.IM主题索引部分采用哪种检索语言标引文献?( D ) D.叙词语言 13.Internet通过统一的通信协议才实现全球计算机的互通互连,这个协议是( D )D.TCP/IP 14.MEDLINE光盘数据库的每一条记录大约是由26个字段组成的,其中又分为默认字段和限制性字段两种,默认字段是指( C ) C.如果不加限 制,系统默认进行检索的字段 15.MEDLINE是当今世界上最大也是最权威的生物医学文献数据库,它收录了(C) C仅仅全世界生物医学校心期刊的文献 16.MeSH词表中反映词间相关关系所采用的符号为( B )。B.“see related”和“XR” 17.Meta分析法是属于下列哪种文献信息调砑方法?( C ) C定量和定性相结合 18.PUBMED中的预检索功能的目的在于( A ) A.显示检索结果前先显示检索结果的数量,节省调整检索策略的时间 19.SCI中文献类型代码B表示( B )。 B.书评 20.WinSpirs检索软件中规定邻近度算符With表示( C ) C.运算符前后两词出现在同一字段中,后顺序不固定 21.WWW服务主要是通过( C )模式提供服务的。 C.客户/服务器 22.WWW是Internet上最常用的服务方式,其精髓在于(A ) A.超文本 23.按照国际上通用的分类方法,下列哪个数据库属于源数据库?( B )B.期刊全文数据库 24.-般来说,在检索工具严重短缺的情况下,可采用( D )检索方法。 D.引文法 25.-般情况下,数据库的顺排文档是按记录的( D )顺序排列的。 D.流水号(或存取号)的大小 26.查找“2003年我国居民病伤死亡原因排名在前三位的是哪几项?”,这一检索提问属于 ( C ) C.事实检索 27.调研报告的类型多种多样,以下哪项不属于调研报告?( D ) D.技术报告 28.二次文献是指( B )。 B.对一次文献进行收集、分析、整理并加以编排的文献 29.发明专利自申请之只起满( B ).即可向公众公开. B18个月 30.分段法是查找文献的一种方法.是指( D ). D-将引文法和常用法两种检索方法结合起来,交咎使用的方法 31.关于因特网上的FTP服务描述不正确的是( C ) C.所有FTP服务器都可以匿名访问 32.光盘存储技术的研究始于( C )。C.1980年 33.光盘类型CD-RW属于(C)C第三代光盘产品 34.国际专利分类法每个一段时间会再版一次,到1974年为第几版(A)A 第二版 35.计算机信息检索系统的构成从本质上主要包括( A ) A.信息存储与检索 36.计算机用于信息检索的研究始于( C )。 C.20世纪50年代初 37.检索工具的时差是指( D )。 D.检索工具收摘报道文献的时间与该原始文献发表的时间之差 38.检索式“leukemie neard etilogy”表示前后两个检索词之间可以出现(B) B 少于4个单词 39.检索式A near3 B表示A和B之间最多可允许插入( A )个其他单词. A.2 40.检索语言中的标题词语言是一种( A ). A.先组式规范语言 41.截词算符可使多个词根一致的检索词之间实现(B)”B逻辑“或”C 逻辑“非” 42.目前,因特网上的倍息服务大多都是基于( C )工作模式。 C.客户机/服务器 43.目前世界上生物医学方面最著名的四大检索刊为(C) C IM BA CA EM 44.目前世界上最大的国际联机信息检索系统是(B ) B.DIALOG 45.如果检索课题所涉及的内容比较专深,往往采用( B )的检索方法.B.主题途径 46.使用《中目》(医药卫生)检索课焉“心血管疾病”时,首选的检索途径应为( C ).C分类途径 47.使用《中文科技资料目录》(医药卫生)检索“帕金森病人伴发的精神病”的文献时,首先主择的检索途径应为( A ) A.主题途径 48.使用《中文科技资料目录》《医药卫生》检索“肿瘤患者伴发疲劳综合症”的文献时,首先选择的检索途径应为(A)A主题途径 49.世界上第一台计算机诞生于( B ). B.1946年 50.世界上第一种光盘数据库出现于1985年,它是( C ) C BIBLIOFILE 51.世界上最大的联机信息检索系统是(B)B DIALOG系统 52.市面上出售的DVD电影光盘属于下列哪种类型的光盘?( A ) A.只读光盘 53.特尔裴法属于(C)的文献信息调研方法?C 定量和定性相结合 54.通常ISBN号的定长为(D)位数字A 7 B 8 C 9 D10 55.位置算符又称邻近度算符,它是( A )运算符的延伸。 A. and 56.文献特征包括外表特征和内容特征,他们对应于数据库中的(C) C 字段 57.我国的文献检索刊物出现比较晚,在哪一年之后才逐渐形成了一定的规模?( C )C.1978年 58.我国的专利制度是从哪一年开始实施的?( B) B 1985年 59.我国文献检索刊物出现较晚,直到哪年才开始有文摘性检索刊物?( B ) B.1934 60.下列对“信息”描述正确的是( C ) C.信息是“熵” 61.下列关于综述的说法中错误的是( A ) A.以多种文献情报源为素材或原料 62.下列获取文献信息的途径中,哪种途径属于非正规获取途径?( B ) B.参加学术会议

信息检索心得10篇

信息检索心得10篇 信息检索心得(一): 信息检索学习心得、文献检索心得、信息检索、学习心得 一、对科技信息检索的熟悉 科技信息检索能帮忙人们快捷、正确、全面地获取所需知识,最大限度地节省查找时间,使我们的信息检索过程变得事半功倍,更使信息能够得到充分的利用。 我们目前面临的是一个崭新的信息社会。信息技术迅速发展,信息高速公路的飞快建设,使得信息产品已经渗透到各个学科领域,信息的产出量呈指数级增长,信息技术已经成为人类熟悉世界和改造世界不可缺少的手段。 在当今社会生活的人,几乎天天每时每刻都与信息打交道。可能我们已经感觉到有的人做事往往轻易成功,而有些人则不易成功,这在很大程度上是由于前者有较强的信息意识,能够把握较多的信息,对所做的事情能够作出正确的判定,因而他们的成功率也就比较高。反之若信息意识差,不能及时收集信息,作出的决策往往会有偏差,成功率也就不会很高。 信息检索方法是为实现检索目的而采取的具体操纵方法或手

段。检索信息的方法主要有两种,即直接检索和间接检索。事实上,此刻的很多图书馆仍然在使用这样的分类层次来对收躲的资料进行分类。此刻,计算机技术的发展使得自动构建大型索引成为可能。也就产生了两种不同的检索策略,既以计算机为中心的和以人为中心的信息检索。在此刻人们的生活中,计算机已是普遍,人们用计算机网络检索的多些。 信息检索的发展是随着科学技术进步而发展的。信息检索的发展阶段可分为四个阶段:低级阶段我国最早出现的检索工具书是汉代的《别录》,而当时检索工具书主要是以图书目录为主,而且只为极少一部分人服务。第二是手工检索阶段,信息检索的真正发展是在18世纪以后。科学技术不断发展,各种信息超多增加,同时产生了各种类型的文献,如图书、报纸、期刊、会议纪录等等。以后随着社会的发展需要,逐渐构成了完整的手工检索工具目录、索引和文摘。第三是计算机检索阶段,随着科学技术的发展,信息检索也在发生变革。1946 年第一台电子计算机诞生以后,不久就被用来进行信息的存储和检索。第四阶段是网络检索时代,网络的出现,使我们的学习、工作及生活都发生了变化,使人们真正进进了信息社会。 二、对科技信息检索的收获 信息检索是查找信息的方法和手段,它能使人们在浩如烟海

信息检索题库 答案(终极版)分析

四川师范大学信息检索课后作业 1.(第1章?单选)联合国教科文组织分别于2003年和2005年召开了以(A)为主题的世界性大会,并发布了《布拉格宣言》和《亚历山大宣言》。 A、信息素养 B、信息安全 C、信息检索 D、信息评价 2.(第1章?多选)信息素养的基本构成具体包括(ABCD) A、信息知识 B、信息意识 C、信息能力 D、信息伦理 3.(第1章?多选)信息意识具体包括(ABCD)。 A、充分认识到信息在学习、工作和生活中的重要作用,遇到问题时首先应该想到通过信息的获取和利用来解决所遇到的问题; B、对信息具有敏锐的感知力和洞察力,能高效、快速识别有价值的信息,善于从所获取的信息中找出解决问题的思路、线索或方案; C、对信息具有积极的内在需求,善于根据社会需要主动发现自身的信息需求; D、具有通过获取信息强化自身学习能力的想法和观念,遇到不懂的东西能积极主动的通过获取信息找寻答案。 4.(第1章?多选)关于信息素养教育,下列说法正确的是(ABCD)。 A、信息素养教育的第一个层次是拓展视野,使人们知道这个世界上原来还有这么多信息资源。 B、信息素养教育的第二个层次是训练信息获取能力,使人们知道如何获取所需要的信息。 C、信息素养教育的第三个层次是培养信息利用能力,使人们具有敏锐的信息意识和利用信息解决问题的能力。 D、信息素养教育的目标是培养终身学习能力,而信息素养教育自身也是一个终身学习的过程,信息素养教育与终身学习能力是一个相互促进、螺旋提升的关系。 5.(第1章?多选)信息素养是指:基于(ABC),通过确定、检索、获取、评价、管理、应用信息解决所遇到的问题并以此重构自身知识体系的综合能力和基本素质。 A、信息意识 B、信息知识 C、信息伦理 D、信息评价 6.(第1章?多选)2000年1月18日,美国大学与研究图书馆协会(ACRL)标准委员会审议通过了《高等教育信息素养能力标准》,其中包含5项标准和22项具体指标。下列属于5项标准的是(ABCD)。 A、具有信息素养的学生能够确定所需信息的性质和范围 B、具有信息素养的学生能够有效和高效地获取所需信息 C、具有信息素养的学生能评价信息及其来源并将选取的信息整合入其知识基础和价值体系中 D、具有信息素养的学生,不论是个人或作为小组成员,都能够有效地利用信息达到特定的目的 7.(第1章?单选)"information literacy "一般翻译为(B)。 A、信息检索 B、信息素养 C、信息安全 D、信息评价 8.(第1章?单选)(D)是指在信息的生产、存储、获取、传播和利用等信息活动各个环节中,用来规范相关主体之间相互关系的法律关系和道德规范的总称。 A、信息知识 B、信息能力 C、信息意识 D、信息伦理

相关文档
最新文档