信息检索复习整理课件

信息检索复习整理课件
信息检索复习整理课件

一、什么是信息(Information)?

在西方英文中information一词有情报、资料、消息、报道之意,我国大陆曾译为情报或信息,后经国家有关部门核准,统一译成“信息”。在我国台湾、香港地区,该词被译为“资讯”。

信息是被反映物的属性再现,信息的属性在于表现它物。也就是说,信息不是事物的本身,而是由事物发出的消息、情报、指令、数据、信号中所包含的内容,是对客观世界中各种事物发出的特征、变化及其相互联系的最新反映。一切事物包括自然界和人类社会都会产生信息。一个完整的信息过程,包括信息的传递、接收、贮存、加工和利用。

2、信息具有以下特征:

1)普遍性

(2)时效性:信息在一定的时间内是有效的信息,在此时间之外就是无效信息。而且任何信息从信源传播到信宿都需要经过一定的时间,都有其时滞性。

(3)传递性

(4)可转换性:信息是可以由一种形态转换成另一种形态。信息一般有4种形态:数据、文本、声音、图像。这4种形态可以相互转化,例如,照片被传送到计算机,就把v图像转化成了数字。

(5)可再生性

(6)共享性:同一信源可以供给多个信宿,因此信息是可以共享的,且不因共享而减少(7)可识别性:信息是可以识别的,识别又可分为直接认别和间接识别,直接认别是指通过感官的识别,间接识别是指通过各种测试手段的识别。不同的信息源有不同的识别方法。(8)可存储性:信息是可以通过各种方法存储的。

二、信息检索

广义:将信息按一定的方式组织和存储起来,并根据用户需要找出相关文献的过程。其中包括存与取两个环节,存即信息存储,是对信息进行收集、标引、描述、及组织,并对其特征化表达集加以整序,形成信息检索工具或检索系统的过程。取即信息查找,是通过某种查询机制从检索工具或检索系统中查找出用户所需的特定信息或获取其线索的过程。

狭义:仅仅指信息查找的过程。即取的环节。

三、信息检索的发展

1、第一阶段:完全手工检索阶段

2、第二阶段:半机械检索系统-机电、光电检索系统的发展阶段

3、第三阶段:计算机检索系统的发展阶段

4、第四阶段:基于Internet 的网络化检索系统阶段

信息资源的分类:

1、信息源可分为自然信息源和社会信息源。

2、按信息资源所依附的载体划分(不用全背)

(1)体裁信息资源:以人体为载体并能为他人识别的信息资源。按其表述方式又可分为口语信息源和体语信息源。口语信息源是人类以口头方式表述但未被记录下来的口语信息,如:谈话、讲课、讲演、讨论、唱歌等。体语信息源是以人的体态为载体表述出来的信息资源,如:表情、手势、姿态等方式表述的体语信息。

(2)实物信息资源:以实物为载体的信息资源。又分为自然实物信息源与人工实物信息源。如:化石、产品、样品等。

(3)文献信息资源:以文字、图形、符号、声频、视频等发生记录在各种载体上的知识和信息资源。

(4)网络信息资源:以网络为纽带连接起来的信息资源和以网络为主要交流、传递、存储

的手段与形式的信息资源。

3、按信息资源传递的范围划分:

(1)公开信息资源:又称共享信息资源或白色信息资源(white information),指公开发行、流通和传递的信息资源,其蕴涵的信息人人可以使用。一般来说,公开信息资源的数量最大,而且能够作为信息商品进行流通领域。

(2)半公开信息资源:又称灰色信息资源(grey information),指非公开发行、流通和传递,从常规途径难以获取的信息(内部信息)。这类信息出版量小,发行渠道复杂,流通传递范围有限,不易收集。例如:内部的刊物、技术报告、会议资料等。

(3)非公开信息资源:又称黑色信息资源(black information),指人们未破译或未被识别的,也指处于保密状态的信息。例如:考古发现的古老文字、未解密的政府文件、内部档案、个人日记、私人信件等。

自然信息均属于不可检信息。

超文本型(Hypertext):是用超链结的方法,将各种不同空间的文字信息组织在一起的网状文本。

文献信息资源1、按信息资源所依附的载体的物质形态划分

(1)刻写型:包括手稿、日记、信件、原始档案、碑刻等。

(2)印刷型:主要是指以纸张为载体,以印刷为记录手段,把信息内容固化在纸张上的形式。其优点是便于直接阅读、使用方便,其缺点是较笨重、存储密度低、收藏占用空间大、加工保存等花费人力物力大、识别和提取难以实现机械化和自动化。

(3)缩微型:以感光材料为载体,以缩微照相为记录手段而产生的一种载体形式,如缩微胶卷、缩微胶片等。其优点是存储密度较大、体积小、便于收藏保存和远距离传递。缺点是不能直接阅读、需借助缩微阅读机或阅读复印机才能使用。

缩微型一般针对于数量大、利用率低但又有较大保存和利用价值的信息资源。(4)声像型:以磁性和感光材料为载体,借助特殊的机械装置(如复录机、摄像机、录像机等)直接记录声音、图像信号的信息载体,又称视听资料,如唱片、录音带、录像带、幻灯片、电影片、多媒体资料等。

其优点是可以闻其声、观其形,直观而真切,给人以生动鲜明的印象。其缺点是制造成本较高,且需要借助于一定的设备才能使用。

2、按信息资源的加工深度和结构等级划分

(1)零次文献:指未经过任何加工的原始文献。如:实验记录、手稿、日记、原始录音、原始录像、谈话记录。

(2)一次文献:未经加工或粗略加工的原始信息资源,以本人的研究成果为基本素材而创作的文献,具体、详尽和系统化。如期刊论文、专利文献、科技报告、会议录、学位论文等等。

(3)二次文献:它是将大量分散、零乱、无序的一次文献进行进行加工、整理、标引、著录、浓缩,并按照一定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利用。如:目录、题录、索引、文摘。具有报道和检索功能。

(4)三次文献:通过二次信息资源提供的线索,对某一范围内的一次信息资源进行分析、研究、加工而成的信息资源,它包括综述、述评、专题情报研究报告、百科全书、年鉴、

指南、手册、词典等。

特点:

一次文献是最重要的文献,是全部文献的基础。数量庞大、内容分散、无系统性,不便于管理和传播。

二次文献作为寻找一次文献的指南与向导,能提供多种检索途径(分类、主题、著者、团体著者、会议名称等)。

三次文献可以充分利用反映某一领域研究动态的综述类文献信息,在短时间内了解其历史、动态、水平等。

一次文献是二次文献和三次文献的基础,是文献检索的主要对象;二次文献具有浓缩性,是一次文献的简略及有序化,是文献检索的工具;三次文献具有综合性,既是检索对象,又可提供一定的检索途径与检索手段。

总之,文献经过加工、压缩,从零次信息到三次信息,使科技信息由分散到集中,由无序到有序,由无组织到系统化,由博而精的对知识信息进行不同层次的加工的过程。

信息的不同出版类型划分为:

图书期刊科技报告会议文献[C]论题集中、新颖、丰富、专深、学术性强,是了解各国科技发展水平和动向的重要文献来源。

(5)专利文献[P]:(6)技术标准和规范[S]:7)政府出版物(8)学位论文[D]:

(9)产品资料(10)技术档案(11)报纸[N]

3)科技报告[R] (理解)scientific and technical report :报道(记录)研究工作和开发调查工作的成果或进展情况的一种文献类型。又称研究报告、报告文献。出现于20世纪初,第二次世界大战后迅速发展,成为科技文献中的一大门类。大多与政府的研究活动、国防及尖端科技领域有关,发表及时,课题专深,内容新颖、成熟,数据完整,且注重报道进行中的科研工作,是一种重要的信息源。查寻科技报告有专门的检索工具。

特点:①反映新的科研成果迅速。以科技报告形式反映科研成果比这些成果在期刊上发表,一般要早一年左右,有的则不在期刊上发表。②内容多样化。它几乎涉及整个科学、技术领域和社会科学、行为科学以及部分人文科学领域。③保密性。大量科技报告都与政府的研究活动、高新技术有关,使用范围控制较严。④报告质量参差不齐。大部分科技报告是合同研究计划的产物,由工程技术人员编写,由于撰写受时间限制、因保密需要以工作文件形式出现等因素影响,使报告的质量相差很大。⑤每份报告自成一册,装订简单,一般都有连续编号,出版发行不规则。通常载有主持单位、报告撰写者、密级、报告号、研究项目号和合同号等。

附:美国四大科技报告(AD,PB,NASA ,DOE )

按检索对象的内容区分:

(1)文献检索(document retrieval)

(2)数据检索(data retrieval)

(3)事实检索(fact retrieval)

手工检索:以手工操作的方式,利用检索工具书进行信息检索。手工信息检索是信息检索的传统方式,已经历经了一个多世纪的发展历程。

检索效率高;直接性灵活性好,浏览功能差

附:查全率:是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。

查全率=(检出相关文献量/系统中相关文献总量)*100%

查准率:是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度。

查准率=(检出相关文献量/检出文献总量)*100%

三、按检索对象区分:

(1)文本检索:查找含有特定信息的文本文献的检索,其结果是以文本形式反映特信息反映的文献。这是一种传统的信息检索类型,在信息检索中至今占据主要地位。

(2)多媒体检索:多媒体是指将声音、图像、通信等在内的多种媒体的功能有机结合在一起,并用某种新媒体代替传统媒体的多种媒体。

多媒体检索是指根据用户的需求,对文字、声音、图像、图形等多种媒体信息进行组织、存储从而识别、查找并获取所需信息的过程。

在因特网上存在着大量的多媒体文献,用户常常需要查找特定的声音、图像、动画等。多媒体文献的信息组织与处理传统文本的处理截然不同,其检索要求和检索途径也别具特色,这是现代信息检索的新课题。

(3)超媒体检索(hyper media retrieval)

如果超文本节点中的信息除文本块以外,还有图形、图像、声音、视频等多媒体信息,则称为超媒体(hyper media )。即存储对象超出了文本范畴,融入了静、动态图像(形)以及声音等多种媒体信息。

(同样具有超文本检索的优点,并且检索内容与形式更为丰富)

(1)强相关检索:

强调检索的准确性,也称作特性检索。这种检索注重查准率。只要检索得到的文献信息能满足用户的需求就行,对于检索结果的数量多少不作要求。

(2)弱相关检索:

强调检索的全面性,向用户提供系统完整的信息的检索。也称族性检索。这种检索注重查全性,要求检索出一段时间期限内有关特定主题的所有信息。为了尽可能避免漏检相关信息,对于检索的准确性相对要求较低。

要注意的是,这是两种检索要求比较极端的检索类型。实际上是介于两者之间,保证一定的查全率和查准率。

按时间跨度

(1)定题检索SDI (selective dissemination of information)查找有关特定主题最新信息的检索。

(2)回溯检索RS (retrospective search)查找一段时期内有关特定主题信息的检索。

文献检索是以文献作为检索对象,查找含有用户所需信息内容的文献,文献是一种相关性检索而非确定性检索,系统不直接解答用户所提出的问题本身,只提供与之相关文献或文

献的属性信息与来源指示供用户参考和取舍。所以其检索对象是包含特定信息的各种文献

七、按检索途径的特点区分

(1) 常用法,工具法,利用检索工具或系统中常设的检索入口查找文献信息的方法。如主题、分类、著者、题名等。其具体操作分为顺查,倒查,抽查

顺查方式是根据有关课题的起始年代利用选定的检索工具由远及近的进行逐年查找。

倒查方式则相反。从最新时间查找起,直到满足检索要求为止。

抽查是针对有关学科的发展特点,抽查某些特定时期的文献信息。通常抓住学科专业发展兴旺的时期,此时的不仅文献发表的数量多,质量也高。

分类语言(大体了解):用分类号和类名来表达信息的内容主题概念,并按知识门类的逻辑次序将信息资源系统地加以划分和组织的语言。其意义在于根据文献信息的内容特征和分类表,把相同内容的文献、信息集中在一起,同时又把不同内容的文献信息区别开来,以实现相关集中的功能。

分类语言的主要特点:按学科、专业集中相关文献信息,从知识分类的角度揭示文献信息之间的区别和联系,提供从学科专业领域检索文献信息的途径。

(大体了解)事实检索是检索关于某些客体(如机构、人物等)的指示性描述,或关于某一事件发生的时间、地点、经过等信息并将其查找出来的检索。如:名词术语、概念、定义、理论、方法、公式、事件等。事实检索属于数据,因为事实也是一种数据,即非数值性数据。

数据检索是将经过选择、整理、鉴定的数值存入数据库中,根据需要查出可回答某一问题的数据的检索。数据检索是一种确定性的检索,即直接提供用户所需要的确切数据。而且检索结果一般也是确定性的,要么是有,要么是没有;要么是对,要么是错。有些数据检索系统不仅能查出数据,还提供一定的运算、推导能力。

信息检索语言(retrieval language)又称为情报语言、情报存储和检索语言、信息组织语言,是用来描述文献特征,表达主题提问的一种专门的人工语言,是由给定领域中的一切可用来描述信息内容和信息需求的词汇或符号,及其使用规则构成的供标引和检索的工具。是沟通信息存储与检索两个过程,标引人员与检索人员的桥梁。

信息检索语言是检索系统的语言基础,主要作用是:表达描述信息内容和信息需求;用于信息的组织和整序;用于对检索系统中索引标识或提问标识的规范和控制。

根据结构原理划分:(大体了解)

1)分类语言

(2)主题语言

(3)分类主题一体化语言

(4)代码语言

(5)引文语言

分类语言主要可分为等级体系型分类语言和分面组配型分类语言两种。

目前我国广泛采用《中国图书馆分类法》(简称《中图法》)进行分类,该分类法由5大部类、22个大类组成

主题语言:以主题词来表达信息主题概念的语言,它按事物对文献信息进行浓缩、描述和整序,借用自然语言的语词,作为文献信息和检索提问的内容标示。

特点:按特定的事物集中文献信息,有较强的直接性。

构成原理:利用自然语言中的名词术语,经过一定程度的规范化处理,作为表达文献和提问内容的主题词;利用参照系统中的各种手段,显示主题标识之间的各种关系,并以此把主题词表中的众多主题词相互联系起来,构成多维的主题词体系;利用主题词的字顺序列,按事物的名称来排列和检索文献信息。

①标题语言:采用规范化了的自然语言,即经过标准化处理的名词术语作为标识,来表达文献所论述或涉及的事物--主题,并将全部标识按字顺排列。

例:一篇文章用“微型计算机”这个术语来叙述它的研究对象,另一篇文章用“微型电脑”这个术语来叙述它的研究对象,第三篇文章用“微机”这个术语来叙述,虽然都表示同一概念,这时就不能直接用“微型电脑”或“微机”来作标题词了,这三篇文章都必须用“微型计算机”作标题词(根据词表决定)。因为这三个术语是等同概念,如果同时用三个术语来标引,便会导致文献被分散。当然,读者若从“微型电脑”或“微机”入手检索时,都可以在标题词表中看到“见:微型计算机”的参照指示。

关键词语言(keyword):以关键词(从文献题名或文摘以及正文中抽取的,能够表达文献主题并具有实质意义的未经规范化处理的自然语言词汇)作为文献内容标识和检索依据的一种信息检索语言。

关键词与其他主题语言的区别在于:前者是没有经过规范处理的自然语言。属于非受控语言。后者是经过规范处理的自然语言,属于受控语言。

③元词语言:④叙词语言

检索途径及其选择

1、内容特征检索途径:内容特征是指表征文献实质意义的特征,如主题词、关键词、分类号、内容摘要等。

(1)分类途径

(2)主题途径

(3)分类主题途径

2、外部特征检索途径:外部特征是指文献上显而易见的,一般情况下不反映文献实质意义的那些特征,如书名(题名、篇名)、人名、各种符号标识(专利号、标准号、报告号等)、机构名、文献出处等

(1)责任者途径

(2)题名途径

(3)序号途径

(4)引文途径

西文词典一般都是按本国文字的字母顺序排列,查询时按字顺查找;日文字典大多按五十音顺排列,查找时按音顺查找;中文字典排列方法较多,有部首法、笔画笔顺法、汉语拼音法、四角号码法等。

百科全书可按收录范围分为综合性百科全书(如:《中国百科全书》、专业性百科全书(如:《化工百科全书》;还可按编辑规模分为:大百科全书(20卷以上)、小百科全书(10卷以下)、百科词典(单卷)。

编排方式有三种:按字顺编排、按分类编排和分类与字顺相结合编排。目前,按字顺编排条目已成为百科全书编排方式的主流,也有采用分类与字顺相结合的形式编排的。

百科全书一般都有各种索引,其中最主要的是主题索引

(了解)《中国大百科全书》是中国第一部大型综合性百科全书,也是世界上规模较大的几部百科全书之一。美国百科全书》名为Encyclopedia Americana,简称EA

《不列颠百科全书(Encyclopedia Britannica)》(又称《大英百科全书》,简称EB)

科利尔百科全书(Collier' Encyclopedia)简称EC

世界ABC三大百科全书:美国百科全书、不列颠百科全书、科利尔百科全书

年鉴大体可分为综合性年鉴和专业性年鉴两大类,前者如百科年鉴、统计年鉴等;后者如经济年鉴、历史年鉴、文艺年鉴、出版年鉴等。

名录可分为人名录、地名录和机构名录

文献检索工具是用于报道、存贮和查找文献线索的工具,它通过对文献特征的描述,并按一定的科学方法排列、提供多种检索途径,使我们能从文献的汪洋大海里找到特定的文献。

检索工具必须具备四个条件:

第一,必须详细描述文献的外部特征和内容特征。

第二,每条描述记录都必须具有各种检索标识。(所谓检索标识是指描述文献外部特征和内容特征的专门用于信息检索的词、词组或代码,如主题词、分类号、著者姓名、文献序号等。)

第三,全部描述记录要科学地组织成一个有机的整体

第四,能够提供多种检索途径。

按著录方式分,有目录型、题录型和文摘型。

其中按著录方式划分体现了检索工具对文献内容揭示的深浅程度,体现了检索工具的性质,这是检索工具最主要的划分方法。

目录是以出版物(如一本图书、一种期刊等)为报道对象,揭示出版物外部特征的检索工具。所以目录对文献的描述比较浅显,一般只描述文献的外部特征,有时也通过简单的内容提要介绍文献的内容,但它不涉及文献中的具体章节或具体文献。目录主要用于报道、登记出版物的出版发行情况,揭示其收藏情况,供人们选购、查阅和获取文献时使用。目录的著录项目通常包括出版物名称、责任者(著者、编者或译者)、出版项(出版者、出版地、出版时间、版次等)和稽核项(页数、开本、价格等)。

目录型检索工具主要有图书馆馆藏目录、联合目录、出版社目录、国家书目等。

题录是以单篇文献作为报道单位,揭示文献外部特征的检索工具。由于它是以单篇文献为单位来报道和存储文献的,所以对文献的揭示程度比目录要具体、深入。

但题录与文摘相比,对文献内容的揭示又相对较浅,不过,它也因此具有加工容易、可以缩短报道的时差、文体简短、可以增加检索刊物的容量的优点。题录的著录项目一般包括题录号、文献题目、作者及其工作单位、出处、原文文种、主题词、文中所附图表数及参考文献数等。

文摘(abstract)是指对一份文献或一个文献单元的内容所做的简略、准确的描述,通常不包含对原文的补充、解释和评论。文摘的报道对象与题录相同,但它对文献内容的揭示程度较题录更深入具体,它不仅描述文献的外部特征,还进一步描述文献的主题内容。对内容的介绍主要由其中的“文摘”部分完成。文摘是最常用的文献检索工具。

原文出处。指刊载原文的地方。

(材料题)文摘的主要著录项目为:

(1)文摘号、入藏号(abstract number ,reference number , accession number )。它是在文献处理完以后,为每条文摘编的号码,起排序并帮助读者识别特写文摘的作用。它可以是简单的顺序号,也可以是含有某种情报内容的代码符号。

(2)文献名称(document title)。即文献的题目(篇名),它是读者识别特定文献的重要标志之一。文献名称一般是逐字照录,有时也可以删去某些引导性的词,或对含义不清及不完整的名称加以改写、补充。外文文献一般要同时著录译名和原名。有些英文检索工具对非拉丁文字的文献一般不著录原名,而著录原名的音译名。

(3)著者(author)及其工作单位(affiliation)。是读者迅速鉴别文献的依据之一,著录著者姓名可以用全称,也可以用简称。许多国家的人名表述是名在前,姓在后,一般姓用全称,名可以缩写。但大多数检索工具都采用姓在前、名在后的形式。英文检索工具对非拉丁文姓名用音译法著录。

4)合同号(contract number)或拨款号(grant number)。如果该文献是在某项合同或拨款的支持下进行的,一般都要标明该项合同的编号或拨款文件的编号。科技报告都有这一项目。

(5)原文出处。指刊载原文的地方。原文如果是某种期刊中的论文,出处包括该刊的刊名、出版地、卷期号、出版日期和起讫页码;如果是图书或其中的一部分,出处就是书名、编著者、出版地、出版者、出版时间和起讫页码。科技报告的出处就是入藏号、订购号或原来的报告号。专利说明书的出处就是专利申请书或专利说明书的编号。原文出处的著录是读者顺利找到原文的重要线索。

(6)原文文别和译文来源。原文文别一般用某种语言的简称标明,放在文献出处之后,有的放在文献的译名之后。若所摘录的文献是一篇译文,应给出译文的来源(被译文献的出处),如“译自X刊X卷X期X页”。此项的用处是免得使读者去找他所不能阅读的东西。

(7)主题词或索引词。指用来描述该文献的主题内容的若干个词或词组。该项的用途很多,既可以帮助读者了解原文主题,也可以用以查找其他相关文献,或供计算机识别和进行逻辑组配检索。

(8)文摘正文。对文献内容所做的简略描述。可以有报道性文摘和指示性文摘之分。前者需概述原文的内容要点,特别是创新点,向读者提供原文中的定量信息(如距离、最大值、最小值、公式等)和定性信息(如发现、结果、新方法、新设备、结论等)。它是原文内容的浓缩,基本上能反映原文的技术内容、信息量大,字数也较多。后者则是为了把原文的主

题范围、目的和方法概略地指示给读者的一种文摘,一般不包含具体的数据、方法、设备、结论等内容。它指示读者将在原文中发现什么,帮助读者判断原文是否与自己的需要相关以及是否需要阅读原文,字数也相对较少。

例:《计算机应用文摘》

9609321 ①复杂的混合信号集成电路的参量成品率预测②[刊,英]③/Oleary,M. …④//Int.J.Electron. —1995,78(2)⑤. —267-394⑥

借助图象处理技术能从硅片图象提取……⑦

①文摘号②文献篇名③文献类型、文种④著者姓名⑤文献出处:刊名缩写、年卷期⑥起讫页码⑦文献摘要

索引通常不提供文献内容本身,只指明文献的物理位置,是一种检索文献的系统指南,使读者能准确地找出文献或文献集合体中的特定信息。

最常用的索引有著者索引、主题索引、分类索引、题名索引。

被抽选出来的关键词都可以作为标引词在索引中进行轮排,作为检索词进行检索

主题索引可分为四种:

1、标题索引

2、关键词索引

3、单元词索引

4、叙词索引

1、布尔逻辑组配检索技术(问答)

布尔逻辑组配检索是现行计算机检索的基本技术,它利用布尔逻辑运算符表示两个检索词之间的逻辑关系,将检索提问转换成逻辑表达式。常用的运算符有:

①逻辑“与”—AND

②逻辑“或”—OR

③逻辑“非”—NOT

练习:

头孢菌素钠Ⅴ或磺胺甲恶唑治疗呼吸道感染的引起的副作用研究

检索式:(头孢菌素钠ⅤOR 磺胺甲恶唑) AND 呼吸道感染AND 副作用

美国DIALOG系统是目前世界上最强大的国际联机检索系统,也是目前运作最成功的联机商业数据库系统之一,

截断方式也有后截、中截、前截等

截词检索具有隐含的OR运算特性

(2) (N)算符和(nN)算符

(N)是Near的缩写,它表示:在算符两侧的检索词必须紧密相连,所连接的词间不允许插入任何其他单词或字母,但词序可以颠倒。

(nN)表示允许在连接的两个词之间夹插入至少n个单词,且这两个检索词的词序任意。例如:Railway(2N)Bridge,可以表示

Railway Bridge,

Bridge of Railway,

Bridge of the Railway

(3)(S)算符

在某些情况下,特别是对查全率有较高要求时,可放松词位置检索要求,改用同句检索。所谓同句检索是要求参加检索运算的两个词必须在同一自然句中出现,其先后顺序不受限制。同句检索的位置算符是(S)。S是sentence的缩写。

例如:electronic(S)optical ,可以检索出题名为Cutting and polishing optical and electronic materials的文献。

计算机信息检索的一般步骤为:

1、根据检索课题,选择适用的数据库;

2、确定检索词;

3、编制检索式;

4、显示及判断检索结果;

5、修改检索策略。

6、索取原文

控制词汇来源于特定的受控检索语言,因此在选词时必须使用相应的词表。受控语言主要有规范化的主题语言和分类语言

非控制词汇是极为灵活有效的检索词。对于自由文本检索和全文检索而言,关键词更是最重要的检索词。

用以进行检索效果评价的参数主要有:查全率(recall factor)、查准率(也称适中率,precision factor)、漏检率(omission factor)、误检率(也叫检索噪音,noise factor)以及新颖率、检索速度等。

(1)查全率:是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度,可用下面的公式表示:

查全率=(检出相关文献量/系统中相关文献总量)*100%

2)查准率:是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度,可用以下公式表示:

查准率=(检出相关文献量/检出文献总量)*100%

查全率和查准率是评价信息检索系统检索效果的主要指标,理想状态是检索系统中的全部相关文献都被检出,并且检出的文献全部是相关文献。然而,由于受许多因素的影响,在实际检索中,查全率和查准率是不可能达到100%,而是存在着一种互逆关系,即在同一检索系统中提高查全率,查准率就会降低;反之,提高查准率,查全率则会下降。

网络资源与信息检索课件word格式

网络资源与信息检索 文献检索教研室 一、课程目的、性质、任务 课程目的:帮助学生建立信息意识,培养训练和提升信息素质。 课程性质:目标管理课程 课程类型:全校本科必修课24学时 所属学科:图书馆学与情报学 授课对象:大学二至四年级 课程任务: ?了解计算机信息检索技术的发展概况; ?掌握有关科技信息检索的基本概念、基础知识; ?认识科技信息检索对于科技人员的重要意义; ?了解信息检索系统的存贮和检索; ?掌握信息检索系统的主要结构、内容和特点; ?利用计算机检索工具查找相关文献信息; ?掌握文献信息检索与利用的基本方法; ?熟练使用几种典型的信息检索系统(如CNKI、维普、万方、超星、书生、EI、ELSIVER等)。教学目标: ?了解当代复杂而迅速发展变化的信息环境的特点,增加对信息和信息检索的理性认识; ?掌握信息检索的基础理论、知识和技能; ?树立敏锐的情报意识和开拓创新意识; ?学会独立科学主动系统地获取知识信息、分析评价信息和有效加工利用信息; ?有效地解决在学习和工作中遇到的有关问题,增强自学能力、研究能力和创造性多思路分析问题和解决问题的能力; ?具备未来科技人员必备的科研素质,并为终身学习打下基础。 二、教学的基本要求 熟练掌握计算机基本操作技术; 能够运用布尔逻辑代数; 掌握计算机检索基本知识; 具有一定的外语水平(汉译英); 按时听课、上机实习; 按实习指导书的要求完成实习报告; 准时提交报告。 三、教学的重点、难点及应注意的问题 重点:帮助学生掌握权威检索系统(印刷版、光盘版、网络版)及查找原始文献的方法等。

难点:分析检索课题的主题概念,确定检索策略;选择检索数据库和检索途径、方法;找出原始文献。 教学中应注意的问题: ?注重实用性、实践性和可操作性。 ?通过教学演示、课堂讲授和举例分析,提高学生获取文献信息的意识以及自如地利用各种图书馆资源和网络学术资源的能力。 四、教学方式 1.理论与实践紧密结合。 2.运用多媒体电子课件讲授(7次)。 3.组织利用电子阅览室分组集中指导实习(4次) (其它时间可自行到电子阅览室检索)。 4.网上提交作业、网上考试,网上批改试卷并公布成绩。 5.实习时参考实习指导书,先完成老师的例子,然后做自己的,完成后提交作业并保存到u盘,作为考试资源。 五、考核方式 1.满分100分。其中,平时占20%;考试占80%。 2.平时每缺勤一次扣5分,缺勤4次取消考试资格。 作业提交方式:通过图书馆主页―教学研究‖栏下的―作业提交系统‖任课教师下提交。 输入学号、姓名、密码进行注册、登录、提交。做到项目完整,格式正确、简明扼要。 海湾战争与石油 第一讲概述 本章具体内容安排: 1.1 信息素质 1.2 信息、知识、情报与文献 1.3 信息检索 1.4 数字信息资源 1.1 信息素质 1.1.1 信息素质的涵义: 指个体对信息及其特点、价值的认识、获得、利用和开发信息等方面的能力,包括信息知识、信息能力、信息观念(意识)、信息道德(伦理)等方面。 信息素质专家会议布拉格宣言 信息素质概念的提出和认识是随着社会的发展而与时俱进的。进入21世纪以来,国际社会对信息素质的认识有新的突破,达到前所未有的水平。根据2003年9月20至23日,由UNESCO 和美国图书情报学委员会(NCLIS)联合召开的信息素质专家会议和所发表的布拉格宣言:?信息素质:包括人们对信息关注和需求的知识,以及确定、查找、评估、组织和有效地创造、使用和交流信息,并用来解决面临问题的能力。信息素质是人们有效参与信息社会的一个先决条件,是终身学习的一种基本人权。 亚历山大宣言: 根据2005年11月6日至9日在埃及亚历山大城,由UNESCO,IFLA 和美国全国信息素质论坛联合召开的国际高级信息素质和终身学习研讨会上发表的亚历山大宣言:信息素质是终身学习的核心。它能使人们在整个一生中有效地寻求、评价、利用和创造信息,以便达到其个人的、社会的、职业的和教育的目标。它是数字社会的一种基本人权,能促

信息检索期末论文

本科生课程论文基于网络爬虫的房产信息平台原型 学生姓名杨宇帆 所在专业信息管理与信息系统 所在班级信管1111

目录 摘要 ................................................................. I 1项目背景.. (1) 1.1收集房东信息 (1) 1.2收集房客信息 (1) 1.3通过房源管理软件查看信息 (1) 1.4方便移动办公查阅 (1) 2平台原型的实现 (1) 2.1信息收集与整理 (2) 2.2数据库设计 (2) 2.2.1概念结构设计 (2) 2.2.2逻辑结构设计 (3) 2.2.3数据库的实施 (3) 2.3下载页面信息到本地计算机 (4) 2.4提取网页信息并保存至数据库 (4) 3总结 (5) 鸣谢 (6) 参考文献 (7) 附录 (8)

摘要 本房产信息平台原型基于网络爬虫技术和数据库技术,模拟了从目标网页采集数据、在本地进行信息提取并分类存入数据库的整个流程,体现了网络爬虫技术在信息收集和资源整合方面的独特优势。 本平台主程序采用Java语言进行编写,选用MySQL作为平台的关系型数据库。 关键词:网络爬虫;房产信息;数据提取

基于网络爬虫的房产信息平台原型 信息管理与信息系统,201111671130,杨宇帆 1项目背景 目前房地产为中国的支柱性产业,买卖房产是人们关注的一个重要问题。中家房产公司为一家立足广州市场的房产中介公司,主营业务为买房、卖房、租房、房东提供房产中介服务。为了能够在激烈的市场竞争中取得长远的发展,目前需要开发一套房产信息综合管理平台,实现以下四项目标: 1.1收集房东信息 从赶集网、58同城、安居客、搜房网四大平台中,搜集整理其中房东发布的出租房屋、出售房屋信息,保存到MySQL数据库(或sqlite数据库)。 1.2收集房客信息 从赶集网、58同城、安居客、搜房网四大平台中,搜集整理其中想购买二手房、租赁房屋的需求,保存到MySQL数据库(或sqlite数据库)。 1.3通过房源管理软件查看信息 需要借助一套房源管理软件,查看保存在MySQL数据库中的房源信息,和购买二手房/租赁房屋的需求,供中介从业人员使用,提高交易量,从而创造更多的利润。 1.4方便移动办公查阅 移动办公已在现今社会的各行各业变得十分普遍。由于中介从业人员经常需要带领客户实地看房,因此为了满足工作人员移动办公的需求,仍需开发一套房源管理的安卓版APP。 2平台原型的实现 基于网络爬虫的房产信息平台原型的实现有4个主要步骤:信息收集与整理、数据库设计与建立、下载页面信息到本地计算机、提取网页信息并保存至数据库。 由于从各大平台中提取信息的做法在很大程度上是相同的,故本论文中的数据来源仅从赶集网进行获取,介绍本房产信息平台的实现。

信息检索论文范本

信息检索结课论文 题目:网络信息资源检索、技巧及问题研究学院:艺术与设计学院 专业:多媒体技术动画 学生姓名:****** 学号:*********** 授课教师:李凤英

收稿日期: 2004-01-12 基金项目:国家自然科学基金项目(2002A1030405) 作者简介: ******(1975-),男,安徽马鞍山人,桂林电子科技大学硕士生,主要研究方向为移动通信理论与技术。 网络信息资源检索、技巧及问题研究 ****** (桂林电子科技大学 艺术与设计学院,广西 桂林 541004) 摘 要 :互联网已经成为全球最大的信息资源库,这对于网络信息资源的检索提出了更高要求从网络信息资源的发展及探讨检索的意义入手,分析网络信息资源检索工具的类型内容和作用,探讨网络信息资源检索的若干技巧,指出网络信息资源在检索过程中存在着诸如信息质量网络检索工具信息用户等方面的问题,并提出了相应的解决对策,重点为网络用户介绍了一些常用的网络信息检索途径方法和技巧。 关键词:网络信息资源;检索途径;检索方法;检索技巧 中图分类号:G354 文献标识码.A Techniques and problems of the network information resources retrieval ****** (College of art and design of Guilin University of Electronic Technology, Guangxi Guilin 541004) Abstract: the Internet has become the world's largest information resource database, theretrievalof network information resources put forward higher requirements from the development of network information resourcesandto explorethe significance ofanalysis of the types of retrieval,content and function of the network information resource retrieval, researches on Techniques of network information resource retrieval, and points out that network information resources in the the retrieval process such as the existence of information quality of network information retrieval tools users and other issues, and the corresponding countermeasures are put forward, mainly introduces the retrieval methods and skills of some commonly used network information for Internet users. Keywords: network information resources; search; retrieval; Search Tips 1.网络信息资源及检索 网络信息资源是指以电子数据形式的文字图像、声音、动画等,以光磁等非纸质为载体存储,通过网络和计算机等方式再现的信息资源。或者说,是网络和计算机交流 利用所有

信息检索与应用论文范文

信息检索与应用论文 姓名:XXX 学号:XXXXX 班级:XXXXXXXX 摘要:文章主要研究了信息检索的重要性,信息检索的含义和要素,以及常见的信息检索方法的介绍和信息检索过程中应当注意的问题以及解决方法这几个方面,采用有文献法、个案法、统计法、比较法、行动研究法、调查法和经验总结法等研究方法,来阐述信息检索及其应用。详细全面的介绍,可以让部分不了解信息检索的人能通俗易懂的了解并应用一些常见的信息检索工具。从事实和实际出发,有力的论证了信息检索的重要性以及它的实用性。 关键字:信息;检索;信息检索;事实检索;检索语言;文献语言 通过学习信息检索这门课,我学会了如何利用web这个庞大的资源库快速便捷地找到自己所需要的信息。信息检索与应用涉及的领域广阔,从中文数据库搜索的介绍到外文数据库搜索的介绍,在这个快速发展的21世纪,各种信息数据在不断的增加,怎样更快速便捷的查找到我们需要的信息,显得日益重要。 我们为什么要进行信息检索呢?通过什么方法进行快速的检索来应用检索显得日益重要。 我们为什么要进行信息检索呢?一方面,信息检索是获取知识的捷径。美国普林斯顿大学物理系一个年轻大学生名叫约瀚·菲利普,在图书馆里借阅有关公开资料,仅用四个月时间,就画出一张制造原子弹的设计图。他设计的原子弹,体积小(棒球大小)、重量轻(7.5公斤)、威力大(相当广岛原子弹3/4的威力),造价低(当时仅需两千美元),致使一些国家(法国、巴基斯坦等)纷纷致函美国大使馆,争相购买他的设计拷贝。另一方面,信息检索是科学研究的向导。美国在实施“阿波罗登月计划”中,对阿波罗飞船的燃料箱进行压力实验时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题,事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇中加入2%的水即可,检索这篇文献的时间是10多分钟。在科研开发领域里,重复劳动在世界各国都不同程度地存在。据统计,美国每年由于重复研究所造成的损失,约占全年研究经费的38%,达20亿美元之巨。日本有关化学化工方面的研究课题与国外重复的,大学占40%、民间占47%、国家研究机构占40%,平均重复率在40%以上;我国的重复率则更高。此外,信息检索还是终身教育的基础。学校培养学生的目标是学生的智能:包括自学能力、研究能力、思维能力、表达能力和组织管理能力。 UNESCO提出,教育已扩大到一个人的整个一生,认为唯有全面的终身教育才能够培养完善的人,可以防止知识老化,不断更新知识,适应当代信息社会发展的需求 那么,什么是信息检索呢?通过“百度”搜索引擎可以得到解释是:“:信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息

信息检索论文格式

查找有关“三氯氰胺”方面的相关资料 班级:精化3102班姓名:李欣蓉学号:13号 时间:2012 年11 月8 日一、课题概述 (所检索的课题的简要介绍) 三氯氰胺的生产工艺 三氯氰胺的制备过程 三氯氰胺的生产方法 二、检索步骤: 1.课题分析: ①学科范围:精细化学 ②文献类型: ③主题(关键词): ④时间: ⑤语种: ⑥地域: 2.确定检索方法:(例如:直接法,间接法,综合法) 直接发间接法综合法 3.制定检索策略 1)检索工具的选择(要求3----4种)(纸质工具、网络工具) ①利用“”检索工具查找文献。 ②利用“”检索工具检索文献。

③利用“”检索工具查找文献。 ④利用“”检索工具查找文献等。 2)检索式的构建:(例如:“文献检索”的检索式是文献and 检索或者“文献检索”) ① ② ③ ④ ⑤ 4.输入检索式,检索结果输出并做记录: 1)利用“”查找篇文献。 ① ② ③ 2)利用“”检索条文献。 ① ② ③ 3)利用“”查找篇文献。 ① ② ③

4)利用“”查条文献。 ① ② ③ 5.获取原文资料 (按下列格式列出原文资料: A期刊类:【格式】[序号]作者.篇名[J].刊名,出版年份,卷号(期号):起止页码. B专著类:【格式】[序号]作者.书名[M].出版地:出版社,出版年份:起止页码. C报纸类:【格式】[序号]作者.篇名[N].报纸名,出版日期(版次). D论文集:【格式】[序号]作者.篇名[C].出版地:出版者,出版年份:起始页码. E学位论文:【格式】[序号]作者.篇名[D].出版地:保存者,出版年份:起始页码. F研究报告:【格式】[序号]作者.篇名[R].出版地:出版者,出版年份:起始页码. G专利:【格式】[序号]专利所有者.题名[P].国别:专利号,发布日期. H标准:【格式】[序号]标准编号,标准名称[S]. I条例:【格式】[序号]颁布单位.条例名称.发布日期 J电子文献:【格式】[序号]主要责任者.电子文献题名.电子文献出

文献检索报告范文

科技信息检索检索报告 级专业班学号 姓名

说明 利用所学的文献信息检索知识和检索方法,结合自己的专业,自定检索课题,从多方面广泛收集有关资料,并完成该课题的综合检索报告。 一、数据库选择要求 1.中文数据库:CNKI系列资源库、中国期刊全文数据库、维普科技期刊数据库、超星数 据图书馆。 2.外文数据库:EBSCO、springer等。 3.搜索引擎:读秀、google、百度等。 4.专利数据库:国家知识产权局、中国专利信息中心。 二、条目解释 1.“检索年限”:范围限定在最近十年以内,各种数据库(检索工具)尽量选用同等年限, 以便之后根据检索结果进行比较,从而加深对各类数据库(检索工具)的认识。 2.“检索词”:列出与课题内容相关的关键词或主题词。 3.“检索式”:运用布尔逻辑运算符来表达检索词与检索词之间逻辑关系,以及检索项(如: 题名、主题、关键词、摘要、作者、作者单位、来源、全文、参考文献、基金等)。如:题名=汽车 and 尾气 and 排放and 控制。请注意各数据库检索式不一定相同。 4.每种检索系统检索完毕后,记录检索结果(检出文献篇数),按规定条数列出与课题密 切相关的文献(只需列出5条最相关的,不足5条请注明原因),注:中外文数据库列出题名、作者、出处、摘要;专利列出专利名称、申请号、申请人和摘要;搜索引擎列出标题、网址、摘要。 三、其它要求 检索课题概况 1、检索课题名称(中英文) 有机电致发光器件的最新进展 2、分析研究课题 随着计算机技术的不断发展,计算机在教育中的作用愈发突出。在中学物理教育 中,同样可以引入计算的先进技术,改进教育方法,提高教学效率。如今,计算机在

信息检索论文

中英文数据库信息检索策略比较的案例分析 -----以“金融资产”为例 The analysis of the cases about comparing retrieval strategies of database information in Chinese with that in English -----take financial assets as the example 摘要 检索策略的优劣,直接关系到信息检索的效果。因此,深入探讨信息检索策略,是非常重要并有现实意义的研究课题。以“金融资产(Financial assets)”词条为例去中外数据库中检索,来分析一下中外数据库的相同点和不同点。通过比较得出相应的结论,从而更进一步的认识中外数据库。主要从网络信息检索工具的性质进行中外文数据库的对比分析以及其质量评价,并根据以上内容提出一些看法和建议。 Abstract: The quality of retrieval strategies directly decide the effect of information retrieval. Therefore, discussing the information retrieval strategies thoroughly is very important and has the practical significance. Taking "financial assets" as an example to retrieve the database in China and foreign countries, to analyze the similarities and differences between

2019年信息检索论文范文

信息检索论文范文 伴随着计算机进入多媒体时代,信息科技也步入了多媒体发展时期。那么怎么写一篇论文呢?下面和一起来看看吧! 摘要:本文通过对纸质文献和电子文献的比较分析,指出纸质文献与电子文献各具特点,认为纸质文献和电子文献在未来的时间内会相互补充,共同存在。 关键词:信息时代纸质文献电子文献比较 当今时代,人类已经步入了一个的飞速发展的信息时代,在信息时代,信息也已成为人类社会发展必不可少的资源。它与能源、物质一起被认为是人类社会的三大支柱。在信息时代,计算机网络技术也遍及了全球的每一个角落。于此同时信息时代也给我们的工作、学习和生活带来了许多变化,例如文献的发展与变化就是极其明显的。最开是的时候是纸质文献到后来信息时代的发展又给我们带来了电 子文献。同纸质文献相比,它具有轻便等等的优越性。 ⒈纸质文献(paperdocument) 以纸张为载体,用书写或印刷等方式记录知识的文献。纸质文献最早出现在中国,4世纪以后逐渐在世界各地传播和应用。 1.1纸质文献的优点 1.1.1纸质文献目前仍呈呈现着增长强势 现在在我们学习生活中大量纸质文献如影随形,从目前看,全世界每年出版图书370万种,期刊13万种,会议文献100多万篇,

专利文献、技术标准、产品资料100万件以上,其中至少90%以上仍然是以印刷型为主的纸质文献。 1.1.2人们的已习惯阅读纸质文献 长期以来,人们一直与纸质文献相伴,纸质文献的生产和利用已经形成了一个相1 当完善和稳固的体系,且长时间阅读,只要光线自然柔和,对视力影响不大,阅读效果较好。因此,纸质文献在今后相当长的时间内仍将继续存在。 1.1.3纸质文献具有较强的权威性 纸质文献已经经历了上千年的洗礼,已建立了完善的编辑、生产、发行体制。各个书刊部门都建立了健全机构来保证图书文献的科学学术水平,所以发表的文献基本上都是得到科学权威认可的,因而具有一定的权威性。 1.1.4纸质文献更容易受到知识产权的保护 目前纸质文献的知识产权的颁布与实施已取得较理想的效果,但是对于电子文献的相关保护却依然被动。现代信息技术使得数字信息很容易被复制、修改,为侵权行为带来了极大方便。纸质文献有利于知识产权的保护,因为纸质文献在知识产权方面已有较完备的法规法律体系。 1.1.5保存方面 纸质文献更利于保存。 1.1.6纸质文献更符合当下情况

相关文档
最新文档