中外搜索引擎研究的现状与发展

中外搜索引擎研究的现状与发展
中外搜索引擎研究的现状与发展

中外搜索引擎研究的现状与发展

夏旭李健康

(第一军医大学图书馆广州510515)

摘要:

以WWW网络搜索引擎的发展历程为基础,综述了WWW网络搜索引擎的定义、检索机制、检索规则、词表应用、分类研究、比较研究等方面取得的新进展,探讨搜索引擎发展走向与思路。同时就目前中外搜索引擎普遍存在的问题进行分析,希能对国内中文搜索引擎的开发和准确、快速、全面检索WWW网络乃至因特网信息资源有所启示。

关键词:搜索引擎研究进展综述信息资源管理

由于因特网上信息资源内容广泛、时效性强、访问快速、网络交互搜寻、动态更新,而且还提供快速访问网上信息资源的各种搜索引擎(Search Engines),用于快速搜索WWW网络乃至因特上的有用信息,使得通过WWW网络获取网络信息资源成为国内外研究的一大热点。基于网络的搜索引擎的研制与开发应用成为当前网络信息资源开发应用研究领域的热点。英文搜索引擎“GOOGLE”和中文搜索引擎“百度搜索”的推出,拉开了搜索引擎核心技术争夺战的序幕。可以预言,在今后一段相当长的时间里,搜索引擎还将有长足的发展和进步,检索功能将更趋向于集成化和更具亲和力、更显人性化。

1 搜索引擎的定义、检索机制、检索规则和词表应用

1.1 定义

搜索引擎,Search engines,又称搜索机,Web搜索器,是伴随WWW网络出现的检索网上信息资源的新工具。实质上是一种网页网址检索系统,有的提供分类和关键词检索途径,有的仅提供关键词检索途径。它根据检索规则和从其他信息服务器上得到数据并对数据进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,能够自动对WWW资源建立索引或进行主题分类,并通过查询语法为用户返回匹配资源的系统。搜索引擎主要是由Crawler、Spider、Worm、Robot等计算机软件程序自动在因特网上漫游,不断搜集各类新网址及网页,形成数以千万甚至上亿条记录的数据库。它是通过采集标引众多网络站点来提供全局性网络资源控制与检索机制、将全球WWW网络中所有信息资源作一完整的集合、整理和分类、方便用户查找所需信息的网络检索软件。具有检索面广、信息量大、信息更新速度快,特定主题的检索专指性强等特点。

1.1.1 常规搜索引擎和元搜索引擎

自带索引数据库的搜索引擎通常被称为常规搜索引擎或独立搜索引擎,相应地,集多种常规搜索引擎于一体的搜索引擎则称为(多)元搜索引擎。元搜索引擎是国外搜索引擎开发者新设计的一种集成型搜索引擎,与独立搜索引擎的区别在于:它是通过一个统一的用户界面帮助用户在多个独立搜索引擎中选择和利用合适的搜索引擎,甚至是同时利用多个搜索引擎来实现检索操作。元搜索引擎没有自己独立的数据库,却更多地提供统一界面,形成一个由多个搜索引擎构成的具有独立功能的虚拟逻辑体,通过元搜索引擎的功能实现对这个虚拟逻辑体中各搜索引擎数据库的查询等一切操作。由于元搜索引擎预先配置好多个搜索引擎,每条检索指令都自动通过预先配置的搜索引擎执行,免去了用户逐一记忆和单独使用每个搜索引擎的麻烦。主要的元搜索引擎有ALL-IN-ONE、CUSI、Fun City Web Search、HyperNews、Linksearch、Savvysearch、Metacrawler、Best Search、W3Search Engines、WebSearch、Profusion、Mamma、Avenuesearch、Dogpile、Kwikseek、Findspot、Bytesearch、Webferret、Bluesquirrel Webseeker等。Metacrawler (http://www. https://www.360docs.net/doc/1c720130.html,)能同时调用6个搜索引擎;Savvysearch (http://www. https://www.360docs.net/doc/1c720130.html,)可有选择地调用21个独立的搜索引擎,检索Web、Usenet 新闻组、软件、参考工具、技术报告等信息,每次最多并行检索5个搜索引擎的数据库。Profusion (http://www. https://www.360docs.net/doc/1c720130.html,)最多同时调用9个独立的搜索引擎,调用方式有全部调用、系统自动选择最好的3个、系统自动选择最快的3个、用户从中选取任意个搜索引擎。最新出现的桌面型离线式搜索引擎如Webcompass、WebSeeker、WebFerret、Echosearch、Copernic98等也是元搜索引擎。

1.1.2 集中式搜索引擎和分布式搜索引擎

基于搜索机器人的搜索引擎如AltaVista和目录式搜索引擎Yahoo从体系结构上看都是集中式的,从因特网上取回Web页,经过处理后将所有这些信息集中存到某个站点,用户通过访问该站点实现查询,通常它们之间没有协作,各自独立地搜集和处理信息,造成了大量重复工作,也浪费了网络带宽和CPU资源,给各Web站点带来了严重的负担,这种集中式的体系结构难以适应网络规模的日益扩大。分布式搜索引擎则可弥补这方面的不足。其基本思想是根据地域、主题、IP地址或其它的划分标准将全网划分成若干自治域,在每个自治域内分设检索服务器(Index server),每个检索服务器由信息搜集软件(Gather)、索引数据库(Index database)和代理(Broker)三部分组成,信息搜索软件负责本自治域信息的搜集,并建立索引信息存入索引数据库,代理则负责向用户提供查询接口,并与其它代理进行交互,实现检索服务器之间的中间信息交换。关于分布式搜索引擎,目前主要以理论研究为主,还没有出现实际营运的研究成果。国内有文献提出建立分布协作式搜索引擎的设想,其主要思想是以CERNET为依托,在其不同域内分别建立搜索引擎,并通过引擎注册机制和引擎间数据交换机制相结合的方法实现网络搜索引擎之间的协作,达到降低资源消耗,提高搜索引擎效率的目的。

1.2 搜索引擎的检索机制

搜索引擎定期自动搜寻有关Web站点、采集关于这些站点上的各类信息,自动对这些资源进行标引、编制目录和文摘,自动将这些数据整合到数据库,并能提供以Web为基础的包括布尔检索、短语或词组检索、自然语言检索和各种限制检索在内的数据检索,按相关度输出检索结果。搜索引擎的主体部分包括了数据采集模块、数据组织模块和数据检索模块。对应地,其资源组织和检索机制包括了数据采集标引机制、数据组织机制和用户检索机制,见图一。

图一搜索引擎的检索机制示意图

1.3 检索规则研究

由于Web资源的特殊性,搜索引擎的检索语法和检索规则与传统的光盘检索和联机检索等有所不同。Medscape、Oncolink等医学搜索引擎通过AltaVista完成搜索任务。AltaVista的检索语法规则较为复杂,基本上囊括了医学搜索引擎的检索规则。Medscape和Oncolink为代表的搜索引擎检索规则主要包括:布尔逻辑操作符。包括:AND(;、&)、OR(,、|)、NOT(—、!),此外逗号“,”类似于OR,空格和分号(;)类似于AND。

短语检索使用双引号,如“radiation enteritis”。如要查找数字信息,如“1 800 555 1212”,可用破折号“—”连接“1—800—555—1212”作为短语进行检索。

大小写有别(case-sensitivity),如输入brca1,可查找brca1,Brca1和BRCA1,如输入Brca1,则只能查找“Brca1”的网页,不能查找brca1、BRCA1的网页。

+/-号,如要查找乳腺癌治疗但非放射疗法的信息,输入breast+treatment-radiation进行精细检索。同样,如要查找异基因骨髓移植而非自体骨髓移植的信息,输入“bone marrow+allogeneic-autologous”即可。

截词检索,使用通配符“*”,也有使用“$”或“?”;英文句点“.”的作用正好与通配符相反,用于禁止单词扩展,如gene.不能检索genetics、genetic、general等词;限定范围,如新闻title;/n,

如digital/100 television二者的间隔不超过100个单词的网页。

t、u的使用,t(TITLE)加关键词前,搜索引擎只检索网站名称,u(URL)加于关键词前面,仅查网址。

精细检索:在特定主机或特定域名中查找网页、查找包含指向自己Web链接的全部网页,如查找包含一类特定Java语言的全部网页。超链和锚关键词在查找有关“jump”信息方面的作用相似。Link关键词查找URL带有跳跃性的网页如:https://www.360docs.net/doc/1c720130.html,/help.html,而anchor关键词查找用户能在页面中看见的超链文本,如click here,文本和标题标记用于查找网页内容。Text关键词查找网页内任何可见的文本词(非标记、链接、URLs),而标题关键词仅限于作者编码为title标记的文本,题目出现在Web浏览器的旗标窗口中。

禁用词的使用。在MedHunt等搜索引擎中,检索时规定了一些禁用词,如冠词、代词、介词和连词,此外还有一些其它禁用词:如back、top、up、down、net。医学术词中带有禁用词的术语MedHunt可识别,如“Vitamin A”,不视其为禁用词(http://www.hon.ch/MedHunt)。

此外,还可将检索词的间隔范围限定在句子或段落中(如)、限定检索信息范围(每页显示信息条数,显示的语种、显示模式、匹配模式)等。

相关性排序。Oncolink主要依据下列规则进行结果排序:检索词或短语是否在网页的前几行(如Web页的标题);在一个三个词的检索提问中,包含三个检索词的网页将比只包含一个词或两个词的网页远远排在前面;不常出现在索引中的检索词较普通词的权重更大,每个网页的权重值是出现在网页中所有检索词的权重和,权重值最高的网页在结果表中排在最前面;一个词在网页中出现次数的多少不影响排序,检索词只出现一次的网页与检索词在其中出现50次的网页权重相等。WWW网络搜索引擎试图以检索词的词频、在文中的位置、以及检索词的相邻程度等依据判断检索结果的相关性,Magellan使用的“personal library software”除依据这三条标准判断检索结果的相关性外,还考虑检索词在数据库中的独特性及每个检索提问包含独特检索词的数量。

1.4 词表应用

据《叙词表指南》的统计,叙词表有500多种。由于目前标识HTML文件题目的词一般都是使用自由词,随意性大又不受控制,所以搜索引擎无法定位和鉴别,造成网络信息查全率、查准率低。随着信息资源的迅速增加,信息资源的组织控制发生了一些新的变化,Dublin Core和URC等一系列元数据格式在Web资源组织和控制上得到了应用。词表在搜索引擎的应用,提高了检索针对性、准确性,且使搜索引擎趋向智能化。搜索引擎是WWW网络信息资源组织和检索的最主要方式,其理想的知识组织模式应当是建立一个结构简明的知识分类体系和智能化控制词表,实现对作者语言和用户语言的控制转换,实现自然语言检索和控制性语言检索一体化。美国著名情报学家兰开斯特(Lancaster)提出,采用一个较粗泛的控制词表,也许只包含几百个词,提供系统的全部上层结构,文献标引在一个或几个这种粗泛的叙词之下。自然语言可以使检索有一定的专指度,而粗泛控制词表可提供族性检索,并可给出自然语言的上下文。因此,最好是把控制词汇同自然语言结合起来。

美国国立医学图书馆(NLM)研制的一体化医学语言系统UMLS在IGM中的应用使得IGM对MEDLINE 数据库的检索趋向智能化。UMLS由超级叙词表、语义网络、情报源图谱和专家词典组成,是NLM主持研究开发的生物医学检索语言集成系统,它不仅可以克服不同系统检索语言的差异,而且实现了跨数据库检索的词汇转换,帮助用户对计算机化的病案系统、书目数据库、事实数据库、图像数据库和专家系统等各种联机情报源中的生物医学信息作一体化检索。目前UMLS已在Medical World Search和CliniWeb International两个医学专业搜索引擎中得到应用。

2 搜索引擎的分类研究

WWW网络搜索引擎不仅数量增长快,而且种类也比较多。但目前尚无统一的分类标准。以下是一些主要的分类方法:

2.1 按索及资源内容的详略划分,有目录型、全文索引型、文摘型。

2.2 按索及资源的来源划分,有万维网和非万维网检索工具。

2.3按覆盖范围划分,有通用查询引擎和专业查询引擎。

2.4 按检索方式划分,主要有关键词索引、主题指南和元搜索引擎,或按范畴层次查询的搜索引擎和词语查询引擎。有的将医学搜索引擎划分为目录型、检索型、评价型和汇集型,此外,还有作者将搜索引擎划分为分类主题目录、搜索引擎、主题索引、多种合一的集成检索工具。也有文献将其划分为检索型、目录型和混合型检索工具;或浏览式、按主题指南分类目录查询方式、利用检索软件进行关键词或自然语言的查询

方式、集成式和多线索的查询。

2.5 按检索机制划分,有常规搜索引擎和元搜索引擎,或单独型和集合型检索工具;或人工分类式、自动搜寻式和混合式搜索引擎;或基于目录的搜索引擎、基于机器人的搜索引擎、基于客户的搜索引擎、元搜索引擎、分布式搜索引擎。离线式搜索软件需下载后安装运行方可进行检索,这类离线式搜索引擎多为元搜索引擎,主要有TURBOSTA T、WEBSEEKER,飓风搜索通、小猎狗、SEARCHX等中外离线式元搜索引擎。以上各类型搜索引擎,除分布式搜索引擎尚无实际营运的研究成果外,其他类型的搜索引擎均已有较多的实际应用。

3 搜索引擎的比较研究

搜索引擎的功能在于将分散的网址集中起来,分类提供给用户,以便快速查找到所需的信息。常规搜索引擎一般都带有数据库资源,因此对搜索引擎的比较主要集中在数据库资源和搜索引擎的性能两个方面。数据库资源方面的比较研究主要包括:数据库规模、索引方式、以及资源内容(如声音、图像、Usenet、FTP、Newsgroup、Gopher、Email等其它资源)。检索性能的比较,主要有布尔检索、复杂布尔检索、相邻和相邻and/or检索(NEAR、ADJ、FAR、BEFORE、FOLLOWED BY、)、截词检索、检索范围限定、出版日期限定、多语种检索、多种版本选择、大小写有别、概念检索、词语加权、词语限定、自然语言检索、特定字段检索、缺省值、检索结果显示方式、显示数量选择、相关排序、站点评价、相似性检索、结果过滤、用户界面、查准率、响应时间等方面的比较研究。

3.1 国外的比较研究

国外学者对Alta Vista、Excite、Lycos从检索方式、响应时间、准确性等方面进行比较与评价,Alta Vista 检索功能较强,Lycos的覆盖范围较广,Alta Vista真正地支持词语检索。不同搜索引擎的检索结果有很大差别,由于医学搜索引擎的检索功能不够强大,在解决临床提问时所获得的相关文献不多,平均仅解决了1个提问,医学搜索引擎出现了相关检索结果为0的现象,检索的相关网页数明显少于通用搜索引擎,医学搜索引擎提供信息的质量有待提高。有研究认为,权威医学医学数据库(Medline、EM)仍然是卫生专业人员和其他人员的第一选择。此外,即使功能最完善的搜索引擎也只能找到Web上大约1/3的网页,1998年6种主要搜索引擎的Web网页搜索覆盖率:HotBot 34%;AltaVista 28%;Northen Light 20%;Excite 14%;Infoseek 10%;Lycos 3%。1999年被测试的11种搜索引擎中查询到网页最多的前三名是NorthernLight、Snap、AltaVista,没有任何一种搜索引擎可以包罗超过16%的网上信息资源,搜索引擎的覆盖能力与一年前相比明显萎缩。近些年来陆续出现了许多比较网络检索工具的研究和报道,绝大多数研究是就一些检索提问,比较和评价多个检索工具,采用的比较和评价标准不统一。随后,又出现了专门汇集此类研究和报道的联网书目,http://www.ub2.lu.se/desire /radar/lit-about-search-services和https://www.360docs.net/doc/1c720130.html,/ agencies/dpi/www/srch_bib.html,它们为用户比较和评价国际互联网检索工具提供了方便。

3.2 国内的比较研究

国内对于搜索引擎的比较研究主要在两个方面:一是对搜索引擎的基本检索性能和数据库内容进行比较;二是通过一定的检索提问进行上网测试。已有作者从数据库的内容和结构、检索方式及特点、检索结果的显示、?数据库的更新及有无扩展功能等方面四个方面加以比较,发现目录型检索工具Yahoo、Librarians'的检索功能相对较弱,检索型检索工具的检索功能则相对较强。在布尔逻辑检索方面,仅仅少数搜索引擎做得比较好。Infoseek和Open Text为检索结果提供了很好的描述,Open Text是唯一支持全文检索的引擎,Lycos、Excite、Open Text是覆盖面较广的数据库,Yahoo是较完整的目录。国内作者对多种搜索引擎的比较测试表明,对同一检索式,不同检索引擎的检索结果相互交叉的现象不多,各搜索引擎检索出的条数有较大差别,元搜索引擎检索出的结果不一定比单一搜索引擎多。有作者发现,Alta Vista、Excite、HotBot、Infoseek、Lycos、Open Text、Webcrawler、Yahoo以及中文搜索引擎Goyoyo在索引资源、用户界面、功能设置、检索速度、检索数量以及准确率等方面各有所长。也有人对中文搜索引擎进行了网络测试。与传统的光盘数据库检索相比,因特网信息缺乏深度、质量和可靠性不稳定,搜索引擎查询和光盘检索在用户服务方面均有优势和不足。国外知名通用搜索引擎Yahoo、AltaVisat、医学搜索引擎HealthAtoZ、Medical Matrix、Biomednet、MedWeb、Cliniweb和MedWebplus等都有其各自的特色与优点,但都是互相补充,而不能彼此替代。

表一国内外常用WWW网络搜索引擎一览表

搜索引擎及网址开发公司运行时间网页数检索功能结果显示

Google(https://www.360docs.net/doc/1c720130.html,) 1998 33亿网页简单、高级检索、精

确检索、网站定位标准、相关性排序、页显示结果数可选择

Altavista(http://www. https://www.360docs.net/doc/1c720130.html,) 美国数字

设备公司

1995.12 1亿多网页简单、高级检索、精

确检索

标准、压缩、详细格式、

页显示条数可选择

Lycos(http://www.lycos. com) 美国卡内基??

梅隆大学

1994.5 6600万余网

自然语言、布尔、截

词检索

结果显示可选择

Excite(https://www.360docs.net/doc/1c720130.html,) Architext

软件公司1995 5500万网页自然语言,布尔检索、

概念查询,精确检索

检索结果带文摘,数量和

质量均较理想。

Yahoo(http://www.yahoo. com)美国斯坦福大学1994 5000万

网页

主题,关键词检索、布

尔、精确检索

简短描述,检索结果较

好,但数量不多。

Infoseek(https://www.360docs.net/doc/1c720130.html, https://www.360docs.net/doc/1c720130.html,) 美国Infoseek公

1995 5000万

网页

主题分类、关键词

查询

相关性排序,结果有描

述、较详细。收费

Webcrawler(http://www.webcrawl https://www.360docs.net/doc/1c720130.html,) 华盛顿大学1994 200万网页自然语言、布尔检索

NEAR、ADJ检索

相关性排序,简单、详细

格式结果数量大

Magellan(http://www.magellan.co m) 美国Magellan公

自然语言、布尔检索详细的信息描述结果显

示网站打分

HotBot(http://www.hot https://www.360docs.net/doc/1c720130.html,)Lycos network 5400万网页布尔运算、关键词无相关排序

Inktomi(http://inktomi.berkeley.e du) Inktomi公司1996.2 280万网页关键词、词根检索;

+/-表必用或禁用词

智能相关排序,有描述:

无摘要

Medicalmatrix(http://www https://www.360docs.net/doc/1c720130.html,) Healthitel

公司

5000多个医

学站点

分类、关键词检索简单、详细格式

搜狐(http://www.sohu com) 爱特信公司1998.2 200万网页分类查询、关键词标准、简要格式

百度(https://www.360docs.net/doc/1c720130.html,) 百度网络公司1999 4500万网页分类浏览、简单、高

级检索详细格式、有描述,相关性排序

天网(http://pccms.pku https://www.360docs.net/doc/1c720130.html,:8000/gbindex.htm) 北京大学

计算机系

100万网页简单、高级查询、查

词串查询率高

命中率高,重复网页多相

关性排序,标准/简要

Goyoyo(https://www.360docs.net/doc/1c720130.html,. cn) 香港优联克、

北京联克公司

1997 24万中文

网页

关键词、分类主题网页过滤、详细格式

4 存在的问题

WWW搜索引擎的分类方法不统一,缺乏权威的分类标准,国内有关WWW搜索引擎的分类研究更显薄弱。

无论从评价标准、评价方法和评价范围来看,目前的研究还不够深入,尽管有大量的搜索引擎比较研究论文,由于缺乏统一的标准和权威的评价指标体系,还要从理论上进行深入探讨,并开展更具规模和系统性的分析和评价工作,形成权威的评价站点和搜索引擎性能评价指标体系。目前国内还没有出现WWW网上的权威评价站点,?国内的搜索引擎评价标准多是综合或借鉴了国外的研究成果,有所创新的评价研究和评价指标并不多见,网络中文信息资源和搜索引擎性能评价也还刚刚起步。当然,网上中文信息匮乏也是带普遍性的问题。在国际数据库市场中,数据库产品的地区分布为北美占64%、西欧占28%、亚洲占4%、?澳洲占2%、非洲和南美洲1%;发展中国家对数据库的占有量不到5%,在亚洲只有日本、韩国有100种以上的数据库产品进入国际数据库市场,各为143、132种,中国只有4种。在国际各类数据库中,11.26%的数据库在100万条记录以上,其中超过1亿条记录的占0.36%,2.78%的数据库在1000万-1亿条之间,8.03%的

数据在100万-1000?万条间。除了大型数据库外,其余数据库平均记录在11.3万条左右;国内29家单位142个数据库的调查表明,10万条以下的数据库占72.32%,大型数据库仅占5.6%,尚无超过1000万条记录的数据库。中文信息不全,质量不高,也是制约中文搜索引擎进一步发展并推向国际市场的重大障碍。

WWW搜索引擎的选择也是仁者见仁,智者见智,多是根据经验的初步选择,?还没有形成一套固定的选择原则和方法。WWW信息查询还不可能取代技术成熟的联机检索和光盘检索。据估计,因特网上目前有3000万URL和35亿页文件,而且文件数量每年增加一倍,迄今搜索引擎尚存在以下主要的问题:即使最强有力的搜索引擎也只能覆盖其中的1/3;查准率不高,检索精度不如传统检索系统;更新速度慢而且无法控制网络信息的动态变化;此外对信息内容的表达和格式的多样化难于控制和管理。

WWW中文搜索引擎带有的数据库容量小,尚未形成大型的检索系统,大型、综合、?集成的元搜索引擎还没有开发出来,专业性和专题性中文搜索引擎亟需研究开发。基于WWW的因特网检索越来越普遍,?信息过载成为日益紧迫的研究问题;电子期刊全文数据库提供的信息时滞参差不齐、蕴含的信息量少于印刷本期刊。

信息组织的局部有序性与整体无序性。各搜索引擎和站点目录都收集大量的站点,并按专业和文献信息类型分类,实现了信息组织的局部有序化,但仍有大量信息被湮灭在信息的海洋里,这种无序性导致了网络信息检索的系统性和完整性不如商用联机检索系统,此外,有害信息(黄色、吸毒、暴力宣扬)多,不安全因素有增无减,缺少一个统一的监督机构,信息泛滥造成了信息污染和资源、时间的浪费。多媒体信息需要巨大的空间开销,而许多编写WWW文档的人员并非专业的WWW开发人员,因而文档中包含了大量的图像连接,使用户在将入全部图像前不可能在起页作任何访问连接。WWW用户依赖文档或服务器的提供者去修改自制的信息,当没有对信息进行修改时,?信息可能过时或出错。加上网上收集资料的经济条件限制、设备条件限制更多,带宽和传输速度的限制,用户要花大量的时间去等待,效率低下。此外,WWW搜索引擎在数据库、检索功能和应用上也存在一些局限性,?与传统数据库人工搜集、人工标引相比,WWW数据库中数据主要由计算机自动搜集、标引,准确性和可靠性差,数据错误、遗漏、过时等问题较为常见。国内的中文搜索引擎尽管也有不少,但质量参差不齐,检索途径较为单一。此外,通用的搜索引擎采用的相关排序技术往往只是利用了一种排序方法,检索精度不高,国内网络信息资源匮乏,中文搜索引擎的研究开发和中文权威数据库的建设仍是国内的当务之急。

5 搜索引擎发展走向

因特网搜索引擎既是一门技术,又是一项服务,因此搜索引擎的发展应该包括搜索引擎产品技术的研发及其服务方式的改进与发展。但是,不管搜索引擎技术如何发展,服务方式如何改进,都不应偏离用户快速、准确、方便查找信息的主导方向。提供经过甄别、筛选、评价和专家推荐的网站信息无疑是高质量搜索引擎永恒不懈的追求,是搜索引擎智能化与专家系统交汇融合的结果。基于问题的搜索技术可能将成为未来搜索引擎发展的新趋势。从1994年Yahoo的运行到现在,搜索引擎取得了长足的发展与进步,无论是从数量上看还是从检索性能来看,都已经基本趋于成熟。虽然中文搜索引擎在产业化发展道路上还存在一些距离,但在搜索技术方面已不亚于国外搜索引擎。特别是在处理汉字上运用的切分标引技术、内码转换、词典标引技术、单汉字标引技术等独特技术与方法,使中文网络信息检索成为因特网上的一道亮丽的风景线。综合国内外搜索引擎研究与开发利用情况,搜索引擎的发展主要有以下趋势:

5.1大型综合性的搜索引擎与小型专业专题性搜索引擎协调发展

开发大型搜索引擎像Google、Yahoo和Altavista需要大量的人力、物力和财力,不是一般信息开发机构所能做到的,网上已有许多大型的优秀搜索引擎,中小型的信息开发机构和信息应用单位可充分利用网上现有的大型搜索引擎,经二次检索建立符合自己需要的小型专业性搜索引擎,来满足本行业本单位和本专业的需要。如可以搜集网上的医学图像,建立影像搜索引擎,也可以通过人工方式和利用搜索引擎结果,将因特网上的医学网站集中起来建立一个生物医学专题导航系统或生物医学搜索引擎。

5.2方便使用与查全率、查准率的协调发展

网络用户没有经过网络信息检索知识与技能的培训,对网络信息检索知识不了解,对为提高查全率和查准率而设置的各种检索句法和规则很难理解,因此,设计搜索引擎时要充分考虑各层次网络用户的使用水平,既要做到满足一定的查全与查准,又要尽量做到简化查询句法,查询界面清晰、有层次,给用户以更多的选

择。

5.3概念检索、自然语言检索与精确检索、主题词语言检索协调发展

自然语言检索和概念检索是检索语言的两个不同的发展方向,可以分别满足不同用户对查全和查准的要求,自然语言检索则考虑的是方便用户的使用。国外已有不少医学搜索引擎使用了医学主题词表来支撑网络信息检索,能够实现由关键词或文本词向规范化主题词的自动转换(如PubMed),从而大大提高了医学搜索引擎的智能化程度。主题词语言与自然语言的协调发展和相互兼容也是大势所趋。

5.4制定分编网页内容的标准语言和格式并倡导实行

要提高网络信息资源的查全率和查准率,必须对网上最基本的资源单位如网页内容进行规范化和标准化处理,每个网页在发布之前,由网页的制作者或专门的人员,对该网页按照一定的标准进行规范,如网页的标题必须能够反映网页的内容,提取能反映网页内容的关键词放在特殊位置,编写网页摘要等。这样做不仅可以大大地提高网络资源的查全率与查准率,而且可以极大地降低搜索引擎加工网页的成本和时间。网上医学信息的规范化处理和标准化编目著录尤其重要,对医学专业网站和相关网页的标准化处理可以让用户放心大胆地使用这些医学信息。

5.5多途径检索

网上检索工具最初只是提供类目浏览和关键词检索,发展至今已成为能够检索多种类型信息的检索工具。医学图像信息的获取与利用,对于开展教育培训与继续医学教育有着非常重要的作用,国外一些大型搜索引擎提供了图像搜索的功能,生物医学搜索引擎特别要在提供图像搜索功能方面加大研究力度。

5.6多语种检索、本土化服务

随着上网用户的不断增加,世界各地上网人数不断增多,英语已无法满足所有用户的需要,语言障碍越来越明显。许多搜索引擎认识到这一点,正在相继加入多语种检索。与此同时,为解决信道拥挤、上网速度慢等问题,一些搜索引擎提供了本土化的检索服务,增加服务器,分流用户,提高上网查询速度。生物医学搜索引擎在本地化、本土化服务方面较大型通用搜索引擎还有很大一段距离,能够提供多语种检索的生物医学搜索引擎为数不多,以建立分站点或不同语言站点的方式来提供本土化服务的搜索引擎还很少。

5.7增加个性化服务与特色服务

个性化服务是指满足用户的特定需要。搜索引擎通过长期观察用户的搜索行为,能够从中识别用户的信息需求偏好,并且能够根据用户对搜索结果的评价,自觉调整搜索策略;在某些时候如用户所关心的信息发生变化时,自动发送电子邮件通知用户,保证用户能在第一时间获取最新的信息。搜索引擎的个性化服务可以帮助用户更快、更准确地找到所需信息,还可以避免无关信息的干扰,这其实也是搜索引擎智能化的一个方面。网上检索工具已不仅仅是单纯意义上的检索工具,正在向其它服务范畴扩展,提供站点评论、天气预报、新闻报道、股票点评、各种黄页(如电话号码、航班和列车时刻表、地图等)。那些主动向有关用户提供信息的服务项目具有较强的主动性和针对性,信息质量较高,用户不必在网络中漫无边际地查询,有些类似目前流行的信息推送技术。

5.8收费型与免费型搜索引擎并存

自搜索引擎出现以来,其提供的检索服务多为免费。但是随着因特网市场的发展壮大,搜索引擎作为一种网络服务,如同电子邮件一样,也会出现一些有偿的搜索服务。从长远发展来看,搜索引擎的部分有偿服务将有利于它的发展:技术开发商可以有更多的资金投入到技术研究与开发中,加快搜索引擎产品的更新换代;服务提供商可以通过与数据库厂商合作,有偿使用其数据库产品,从而加强自身数据库的建设。继Northernlight实行一头免费、一头收费的部分收费服务机制之后,Medical World Search这一医学搜索引擎也开始了收费服务。虽然目前大多数搜索引擎仍提供免费型服务,主要靠网路广告和提供搜索技术等来维持网站的运转,但收费型搜索引擎以其高质量的全文信息服务和低于联机检索和光盘检索的收费标准,使用户检索的信息在质量上有明显提高。因此,收费型与免费型搜索引擎还将同时存在,并彼此展开竞争,从而推动搜索引擎技术的发展和检索性能的改善。

5.9搜索引擎广泛吸纳信息技术人员参与,加强对搜索引擎检索信息质量的评价

对于搜索引擎的质量评价,更多的应依靠信息技术人员与图书馆人员,通过他们的参与制定具体、操作

性强的量化指标体系来综合评价搜索引擎的质量,同时开展因特网医学信息的评价与评价标准的研究,使搜索引擎提供的检索结果更可信,质量更高。

5.10搜索引擎索及网页的质量控制将成为制约其发展的重要因素

随着网络信息资源的爆炸性增长,任何一个搜索引擎都不可能不加选择地从网上搜索新的网页和网站,制定网页质量评价指标及网页入选标准,并公诸于世。只有能满足用户信息需求的搜索引擎,才能更快速地发展。

5.11大型元搜索引擎的发展将格外引人注目,分布式搜索引擎研发市场前景看好

研建以多个搜索引擎甚至是多个元搜索引擎为主体的大型元搜索引擎,必将在提高网络信息覆盖率方面更胜一筹,同时也能包容更多的检索型搜索引擎,从而更大程度地满足网络用户查全率的要求。而分地区、分专题的分布式搜索引擎研发在降低网络带宽资源和其他设备资源方面有其优势和特色,因此对于分布式搜索引擎的研发将提上议事日程。随着国际大型资源合作编目组织如OCLC和中国CALIS中心的范围扩大,分布式搜索引擎的研发将变为现实。

6 开发中文搜索引擎的几点建议

必须大力提高中文搜索引擎自动搜索软件的智能化程度包括自然语言检索、概念查询和冗余检测能力,同时自动去除搜索站点不可链接的无效站点,确保网络站点的及时更新。经测试,网上中文搜索引擎都还不具备冗余检测功能,对于网址https://www.360docs.net/doc/1c720130.html,/index.html和https://www.360docs.net/doc/1c720130.html,/,很明显这两个网址是一样的,这类冗余通常很容易被忽略,又如个人主页网址经常含有“~”,而该符号可用代码%7E代表,如https://www.360docs.net/doc/1c720130.html,/~jsmith和https://www.360docs.net/doc/1c720130.html,/%7Ejsmith是同一网址,但这种冗余也检测不出,从我们的测试中也发现,所有的医学搜索引擎基本上还不具备概念检索或智能检索的功能,由于缺乏对关键词的规范控制,以致于单个搜索引擎很难查全相关的信息,因此需要一种智能化的冗余检测技术和进一步增强智能检索功能,实现自动剔除那些形式上不同但实质上相同的链接,真正实现自然语言的检索和概念检索。Internet上的变化迅速,但一些中文搜索引擎检索出的相关网站中还有不少无效的或过时的链接,或已更换了新的名称,或文档已转移至新的网站,搜索引擎还必须具备链接校验功能,能检测出这些无效的链接并将它们及时过滤或给出无效标记,方便网络用户使用,同时节省用户的上网时间。

国外一些搜索引擎和主题指南的多种文字版本已经出现,国内的网络指南针、万纬搜索等虽可实现中英语语种的检索,但对于不懂中文的网民来说,这一功能也和只能检索英文关键词的搜索引擎功能一样,没有更吸引人的服务方式。我们既要方便我国用户利用英文搜索引擎和主题指南,同时也要方便国外用户利用我国的中文搜索引擎和主题指南,因此有必要研制中外主要自然语言之间的对应转换工具。

搜索引擎和主题指南实质上是一种网页网址检索系统,其数据库中收录了几十万乃至数百万个网页网址,因此检索结果往往输出几千个乃至数十万个网址,虽可按相关性排序输出,但检准率较低。关键问题是标引用语和标引方法,大有改进的必要,同时有必要实现标引规范化和标准化。

规范网络资源的组织与控制,大力挖掘网络医学信息资源。由于网络资源的动态性、多样化及提取使用上的复杂性,网络界开发了一系列以检索资源为目标的元数据(metadata)格式(如Dublin core、URC),建立了一系列以详细描述资源为目标的元数据格式TEI header、GILS element standard、SGML-DTD;网络资源组织控制则以搜索引擎方式为重点,此外还有Z39.50方式、GILS方式和X.500方式等,为此,我们必须重新分析设计信息组织的概念、内容、方式,尽快将信息组织和资源控制新技术新方法引入信息资源管理和信息服务工作实践,培训和培养大批适应未来信息组织与控制环境的专业人员与管理干部。

总之,从目前的研究来看,改善搜索引擎的检索效果主要使用的是两大方法,提高信息标引质量和改进检索机制,但收效并不明显。为此,一些研究人员陆续提出了改善信息检索效果的新方法,如智能检索软件的研制、自动数字图书馆员,主要是通过智能代理帮助用户制定选择检索工具、检索策略、进行检索操作、搜集并整理检索结果。Ask Jeeves 和Inquizit都能把用户的自然语言提问自动转换成检索提问,Inference Find 能自动把检索结果根据其内容加以整理,归入相应的类别。国外一些学者的研究表明,一些专业搜索引擎的网页覆盖率和信息检准率较综合性搜索引擎为低,我们在对医学搜索引擎和通用搜索引擎检索医学信息方面的差异进行了比较研究,发现通用搜索引擎和医学搜索引擎的查准率都不高,但通用搜索引擎提供的有用信息却多于医学搜索引擎.。因此有必要进一步增加专业搜索引擎的网页覆盖范围,同时加强标引语言规范化和检索智能化的研究,通过精细检索和自然语言检索等方法提高查准率,并进一步开发出专业领域元搜索引擎,实现多个独立搜索引擎的并行检索,以提高网络信息的查全和查准率。搜索引擎网络化和加快其商业运作的步伐也是推动我国IT发展的重要措施,必须走优势互补、扬长避短、发挥特色和学科专业特长的合作开发、强强联合道路,才能蹄造中文搜索引擎的世界级门户网络通道,才能争取中文搜索引擎的持续发展。

参考文献

[1]储荷婷,张晓林,王芳.Internet网络信息检索-原理工具.北京:清华大学出版社,1999

[2]曾民族.网络信息检索现状和性能评价.见:第十二届全国计算机情报管理学术讨论会会议论文

集.1996:18-27

[3]孟广均,沈英, 郭志明等.信息资源管理导论.北京:科学出版社,1998

[4]方平,胡德华.一体化医学语言系统在医学科技信息检索中的应用.湖南医科大学学报(社会科学

版),2000;(1):32-36

[5]张琪玉.情报语言学领域亟待研究且潜藏较富的课题.图书馆杂志,1998;(增刊):149-155

[6]秦耕,白庆华,王亭.WebLight:构筑在WWW信息塔尖上的信息检索系统.情报科

学,2000;18(5):444-447

[7]万跃华,王卫国.因特网最热门的检索工具:AltaVista搜索引擎.中国信息导报,1998;(11):43-46

[8]朱建军.如何获取因特网中的生物医学信息资源.情报探索,1998;(2):30-31

[9]张颖,陈志农.因特网三大检索工具的比较研究.图书情报工作,1999;(10):39-42,58

[10]Gatlin L.How to make Internet searches easier:tips for effective use of web search engines. Am J Orthod

Dentofacial ORthop, 1998; 114(3): 355-357

[11]王芳,张晓林.元搜索引擎:原理与应用.现代图书情报技术, 1998,(6):18-21

[12]翁惠玉,马范援,朱义军,等.网络搜索引擎的现状分析.情报学报,1999;18(增刊):100-102

[13]沈红芳.互联网搜索引擎及其功能优化模型.情报科学,2000;18(1):7-9

[14]朱义军,马范援,白英彩.分布式网络搜索引擎与Z39.50协议.世界网络与多媒体;1999;7(1):46-47,58

[15]张晓林.网络环境下信息资源组织与控制的新问题和新方向.图书馆杂志,1998;(增刊):200-212

[16]吴校连,夏旭,黄开颜.生物医学搜索引擎与网络信息资源建设.上海:第二军医大学出版社,2002

互联网起源-发展-历程-历史

国际互联网,始于1969年的美国,又称因特网,是全球性的网络,是一种公用信息的载体,是大众传媒的一种。互联网是由一些使用公用语言互相通信的计算机连接而成的网络,即广域网、局域网及单机按照一定的通讯协议组成的国际计算机网络。组成互联网的计算机网络包括小规模的局域网(LAN)、城市规模的区域网(MAN)以及大规模的广域网(WAN)等等。这些网络通过普通电话线、高速率专用线路、卫星、微波和光缆等线路把不同国家的大学、公司、科研部门以及军事和政府等组织的网络连接起来。 各行各业的人需要运用互联网来工作、生活、娱乐、消费,互联网本身是一个产业,同时它也带动了其他所有的产业的发展。计算机网络仅仅是传输信息的媒介,是一个狭义的硬件网。而互联网是个广义的网,它的精华则是它能够为你提供有价值的信息和令人满意的服务。互联网也是一个面向公众的社会性组织。世界各地数以万计的人们可以利用互联网进行信息交流和资源共享。互联网是人类社会有史以来第一个世界性的图书馆和第一个全球性论坛。它为用户提供了高效工作环境,入网的电脑终端可以调阅各种信息资料。人民可以通过互联网进行娱乐与消费,听歌、看视频、购物。随着通讯技术的发展,上网终端已经不限于台式电脑和移动电脑,智能手机、平板电脑、掌上游戏机,甚至谷歌开发出来的眼镜、手表都可以上网。网络无处不在,网络无所不能。 一、从互联网的发展历程来看,从最初的ARPANET到如今的万维网。 1、互联网的起源。这一时期推动互联网发展的推动力是美国的冷战思维。 作为对前苏联1957年发射的第一颗人造地球卫星Sputnik的直接反应,以及由苏联的卫星技术潜在的军事用途所导致的恐惧,美国国防部组建了高级研究项目局(ARPA)。当时,美国国防部为了保证美国本土防卫力量和海外防御武装在受到前苏联第一次核打击以后仍然具有一定的生存和反击能力,认为有必要设计出一种分散的指挥系统:它由一个个分散的指挥点组成,当部分指挥点被摧毁后,其它点仍能正常工作,并且这些点之间,能够绕过那些已被摧毁的指挥点而继续保持联系。为了对这一构思进行验证,1969 美国国防部委托开发ARPANET,进行联网的研究。同年,美军在ARPA制定的协定下将美国加利福尼亚大学、斯坦福大学研究学院加利福尼亚大学和犹他州大学的四台主要的计算机连接起来。这个协定由剑桥大学的BBN和MA执行,在1969年12月开始联机。它的目的就是重新树立美国在军事科技应用开发方面的领导地位。当时的网络传输能力只有50Kbps,按标准来说就是非常的低。 从1970年开始,加入ARPANET的节点数不断的增加。当时ARPANET使用的是NCP协议,它允许计算机相互交流,从1970年开始,加入ARPANET的节点数不断的增加。最初的NCP 协议下的ARPANET上连接了15个节点共23台主机。到1972年时,ARPANET网上的网点数已经达到40个,这40个网点彼此之间可以发送小文本文件(当时称这种文件为电子邮件,也就是我们现在的E-mail)和利用文件传输协议发送大文本文件,包括数据文件(即现在Internet中的FTP),同时也发现了通过把一台电脑模拟成另一台远程电脑的一个终端而使用远程电脑上的资源的方法,这种方法被称为Telnet。由此可看到,E-mail,是Internet 上较早出现的重要工具,特别是E-mail仍然是目前Internet上最主要的应用。但在NCP 协议下,目的地之外的网络和计算机却不分配地址,从而限制了未来增长的机会。但无论如何,ARPANET成为了第一个简单的纯文字系统的Internet。可以说,最早促使互联网最初起源的推动力是冷战时期的军备角力思维。 2、TCP/IP协议的产生。 由于最初的通信协议下对于节点以及用户机数量的限制,建立一种能保证计算机之间进行通信的标准规范(即“通信协议”)显得尤为重要。1973年,美国国防部也开始研究如何实现各种不同网络之间的互联问题。作为Internet的早期骨干网,ARPAnet的试验并奠定了Internet存在和发展的基础,ARPAnet在技术上的另一个重大贡献是TCP/IP协议簇的

当今搜索引擎技术及发展趋势

当今搜索引擎技术及发展趋势 随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。 搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海捞针”无功而返。搜索引擎正是为了解决这个“迷航”问题而出现的技术。 搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。 一、分类 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: 1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:“天网”、悠游、OpenFind等。 3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。 二、性能指标 我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB网页组成的文档库中检索出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率(Recall)和精度(Pricision)衡量一个搜索引擎的性能。 召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。所以常常用11种召回率下11种精度的平均值(即11点平均精度)来衡量一个检索系统的精度。对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。目前的搜索引擎系统都非常关心精度。 影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制

中外搜索引擎研究的现状与发展

中外搜索引擎研究的现状与发展 夏旭李健康 (第一军医大学图书馆广州510515) 摘要: 以WWW网络搜索引擎的发展历程为基础,综述了WWW网络搜索引擎的定义、检索机制、检索规则、词表应用、分类研究、比较研究等方面取得的新进展,探讨搜索引擎发展走向与思路。同时就目前中外搜索引擎普遍存在的问题进行分析,希能对国内中文搜索引擎的开发和准确、快速、全面检索WWW网络乃至因特网信息资源有所启示。 关键词:搜索引擎研究进展综述信息资源管理 由于因特网上信息资源内容广泛、时效性强、访问快速、网络交互搜寻、动态更新,而且还提供快速访问网上信息资源的各种搜索引擎(Search Engines),用于快速搜索WWW网络乃至因特上的有用信息,使得通过WWW网络获取网络信息资源成为国内外研究的一大热点。基于网络的搜索引擎的研制与开发应用成为当前网络信息资源开发应用研究领域的热点。英文搜索引擎“GOOGLE”和中文搜索引擎“百度搜索”的推出,拉开了搜索引擎核心技术争夺战的序幕。可以预言,在今后一段相当长的时间里,搜索引擎还将有长足的发展和进步,检索功能将更趋向于集成化和更具亲和力、更显人性化。 1 搜索引擎的定义、检索机制、检索规则和词表应用 1.1 定义 搜索引擎,Search engines,又称搜索机,Web搜索器,是伴随WWW网络出现的检索网上信息资源的新工具。实质上是一种网页网址检索系统,有的提供分类和关键词检索途径,有的仅提供关键词检索途径。它根据检索规则和从其他信息服务器上得到数据并对数据进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,能够自动对WWW资源建立索引或进行主题分类,并通过查询语法为用户返回匹配资源的系统。搜索引擎主要是由Crawler、Spider、Worm、Robot等计算机软件程序自动在因特网上漫游,不断搜集各类新网址及网页,形成数以千万甚至上亿条记录的数据库。它是通过采集标引众多网络站点来提供全局性网络资源控制与检索机制、将全球WWW网络中所有信息资源作一完整的集合、整理和分类、方便用户查找所需信息的网络检索软件。具有检索面广、信息量大、信息更新速度快,特定主题的检索专指性强等特点。 1.1.1 常规搜索引擎和元搜索引擎 自带索引数据库的搜索引擎通常被称为常规搜索引擎或独立搜索引擎,相应地,集多种常规搜索引擎于一体的搜索引擎则称为(多)元搜索引擎。元搜索引擎是国外搜索引擎开发者新设计的一种集成型搜索引擎,与独立搜索引擎的区别在于:它是通过一个统一的用户界面帮助用户在多个独立搜索引擎中选择和利用合适的搜索引擎,甚至是同时利用多个搜索引擎来实现检索操作。元搜索引擎没有自己独立的数据库,却更多地提供统一界面,形成一个由多个搜索引擎构成的具有独立功能的虚拟逻辑体,通过元搜索引擎的功能实现对这个虚拟逻辑体中各搜索引擎数据库的查询等一切操作。由于元搜索引擎预先配置好多个搜索引擎,每条检索指令都自动通过预先配置的搜索引擎执行,免去了用户逐一记忆和单独使用每个搜索引擎的麻烦。主要的元搜索引擎有ALL-IN-ONE、CUSI、Fun City Web Search、HyperNews、Linksearch、Savvysearch、Metacrawler、Best Search、W3Search Engines、WebSearch、Profusion、Mamma、Avenuesearch、Dogpile、Kwikseek、Findspot、Bytesearch、Webferret、Bluesquirrel Webseeker等。Metacrawler (http://www. https://www.360docs.net/doc/1c720130.html,)能同时调用6个搜索引擎;Savvysearch (http://www. https://www.360docs.net/doc/1c720130.html,)可有选择地调用21个独立的搜索引擎,检索Web、Usenet 新闻组、软件、参考工具、技术报告等信息,每次最多并行检索5个搜索引擎的数据库。Profusion (http://www. https://www.360docs.net/doc/1c720130.html,)最多同时调用9个独立的搜索引擎,调用方式有全部调用、系统自动选择最好的3个、系统自动选择最快的3个、用户从中选取任意个搜索引擎。最新出现的桌面型离线式搜索引擎如Webcompass、WebSeeker、WebFerret、Echosearch、Copernic98等也是元搜索引擎。 1.1.2 集中式搜索引擎和分布式搜索引擎

浅析各类搜索引擎之间的联系与区别

浅析各类搜索引擎之间的联系与区别 摘要internet上蕴藏着非常丰富的信息资源,但是要从浩如烟海的信息 中准确、及时、方便、迅速的找到自己所需要的信息,却并不是一件容易的事情.为此应对重点网络搜索引擎的检索技术和功能作一全面的介绍.使学生在网络信息检索中选择了好的搜索引擎,才能快速、准确地找到所需要信息.本文主要对百度和google两个典型搜索引擎之间的检索技术、各自特点进行全面的比较和分析,从而得出各类搜索引擎之间的联系与区别。 关键字google 百度搜索引擎比较分析 Google是世界上最大的搜索引擎,通过对200多亿网页信息的整理,每天为世界各地提供1.5亿次以上的网上信息查询服务。百度是全球最大的中文搜索引擎, 拥有超过10多亿的中文网页数据库, 每天响应超过亿次的网络信息搜索请求。在这两大搜索引擎之间, 搜索的结果平均有85%的不同,因此,有网站把两者结合建立了百Google度。然而,这两大搜索引擎之间究竟有什么特点和区别,本文将根据数据加以分析、比较研究。 Google与百度的特点 Google的特点 google秉持着开发“确解用户之意, 切返用户之需”的“完美的搜索引擎” , 使得搜索方式发生了根本性变化, 在业界独树一帜, 其强大的功能和独到的特点就在于: (1)“网页快照”功能。能从google服务器里直接取出缓存的网页。如果原地址打开很慢, 那么可以直接查看google缓存页面, 因为google服务器速度极快;如果原链接已经死掉或者因为网络的原因暂时链接不通, 那么可以通过google快照看到该页面信息;如果打开的页面信息量巨大, 一下子找不到关键词所在位置, 那么可以通过google快照, 因为快照中google用黄色表明关键字位置。 (2)“单词英文解释”功能。写英文文章的时候, 最头疼的事情就是对某个英文单词的用法不确定。现在有了google, 一切就迎刃而解了!无论你是想查找某个生词的意思还是想了解某个单词的用法, 均可使用在线词典。 (3)“网页翻译”功能。google提供了网页翻译功能, 虽然目前只支持有限的拉丁语、法语、西班牙语、德语和葡萄牙文, 但是不得不承认, 这是个杰出功能, 只要你点击“Translate this page ”按钮, google为你提供了人工智能的机器翻译, 翻译出来的结果让你大致能够看得明白。 (4)“搜索结果过滤”功能。网络上的成人信息浩如烟海, 而且很多站点具有欺骗或者其他不良企图, 浏览者很容易掉入其中的陷阱。为此google新设立了成人内容过滤功能, 见google的设置页面,不过, 中文状态下的尚没有这个功能。 (5)“超文本匹配分析”功能。google的搜索引擎, 同时也分析网页内容,

搜索引擎原理及发展趋势

1 南昌航空大学 Nanchang Hangkong University 毕 业 论 文 题目 _搜索引擎原理及发展趋势__________________ 学院 _江西工业工程职业学校 _____________________ 专业 __________计算机网络________________________ 姓名 周文飞___________学号 036811100078 指导老师 李国忠______________职称________________ __2012__年_5__月_5_ 日 _

目录 第一章搜索引擎的概述 3 1.1 搜索引擎3 1.2 搜索引擎的发展史3第二章搜索引擎基本常识9 2.1 搜索引擎工作原理9 2.2 搜索引擎分类9 2.3 全文搜索引擎10第三章使用搜索引擎的一些基本规则和技巧12 3.1 搜索引擎的一些基本规则12 3.2 搜索引擎的一些基本技巧12第四章搜索引擎的评测16 4.1搜索引擎缺陷16 4.2搜索速度16第五章搜索引擎的未来发展动向及趋势18 5.1搜索引擎的未来发展动向18 5.2搜索引擎趋势19 结束语23致谢24参考文献25 2

第一章搜索引擎的概述 1.1 搜索引擎 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。 1.2搜索引擎的发展史 互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。 1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。 起源 所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。发展(1) Excite 的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目,他们还发布了一个供 3

搜索引擎在电子商务中的应用

搜索引擎在电子商务中的运用

搜索引擎在电子商务中的运用 摘要:20世纪互联网的出现和飞速发展,商务信息爆炸式的增长以及网络环境的日益复杂,搜索引擎作为信息检索的重要工具在网络经济中的作用变得越来越重要,搜索引擎与电子商务的结合是未来电子商务的发展趋势,因此本文以搜索引擎现状、面向电子商务的智能搜索引擎技术及在网络营销中的应用以及搜索引擎在今后的发展趋势做出简单的介绍. 关键词:电子商务;信息检索;搜索引擎;应用研究;发展趋势 一、对电子商务和搜索引擎的理解 从总体上来看,电子商务是指给整个贸易活动实现电子化。应用计算机与网络技术与现代信息化通信技术,按照一定标准,利用电子化工具来实现包括电子交易在内的商业交换和行政作业的商贸活动的全过程。 搜索引擎(SearchEngine):通过运行一个软件,该软件在网络上通过各种链接,自动获得大量站点页面的信息,并按照一定规则进行归类整理,从而形成数据库,以备查询。这样的站点(获得信息——整理建立数据库——提供查询)我们就称之为“搜索引擎”。 1.2 搜索引擎在我国的发展现状 (8) 1.2.1我国搜索引擎的背景 (8) 1.2.2 搜索引擎的现状 (9) 1.3本文的研究内容 (10) 第一章搜索引擎的原理…………………………………………………………… 11 2.1搜索引擎的原理概述…………………………………………………………… 11 2.2搜索引擎的实现原理…………………………………………………………… 12

2.2.1从互联网上抓取网页……………………………………………………… 12 2.2.2建立索引数据库…………………………………………………………… 12 2.2.3在索引数据库中搜索……………………………………………………… 13 2.2.4对搜索结果进行处理排序………………………………………………… 13 1.2搜索引擎的现状 1.2.1 我国搜索引擎的背景 百度上市后,我国的搜索市场一下子热了起来。越来越多的企业围绕着搜索市场作起了文章。而且,在搜索大战的同时,一些企业也抛出了一些惊人言论。近日,记者从专业做人脉交际的联络家(https://www.360docs.net/doc/1c720130.html,)技术总监冉征处了解到,联络家正在加紧研发人脉相关领域的专业垂直,联络家之所以涉足专业垂直搜索引擎领域,是看到未来垂直专业搜索引擎市场的巨大商机,他认为未来搜索市场将进一步细分,象Google、百度等主张大而全的全球式搜索引擎将会面临垂直专业搜索引擎更大的竞争与挑战,他们的市场分额将会被逐渐瓜分,专业的行业性垂直搜索将受到网民的青睐。 那么缘何能得出如此结论呢?CNNIC第十四次互联网调查显示,搜索以71.9%的绝对优势成为用户从互联网上获得信息的主要方式。几乎在全球所有的调查中,搜索引擎都是互联网上使用程度仅次于电子邮箱的服务,搜索引擎服务能成为最受欢迎的服务是因为他解决了用户在浩瀚的互联网海量快速定位信息屏颈问题,在海量的网页里找信息按照传统方式需要用户一个网站一个网站一级目录一级目录下找,要耗费大量的精力和时间,几乎是不可能实现的任务。 1.2.2 搜索引擎的现状 随着互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量

中国搜索引擎服务市场的现状及发展

中国搜索引擎服务市场的现状及发展 ① 黄建莲② (华北科技学院管理系,北京东燕郊 101601) 摘 要:针对当前我国的搜索引擎服务市场分析该市场的规模、商业模式及发展前景,并从加强技术创新,提高服务质量,实现服务的垂直化和个性发展方面进行了探讨。 关键词:搜索引擎;搜索引擎服务;市场规模;服务市场;搜索引擎技术 中图分类号:F76416 文献标识码:A 文章编号:1672-7169(2005)03-0113-03 搜索引擎是一个传递企业网络营销信息的基本工具,它具有用户数量多、营销定位强的特点。对于企业能实现网站推广、产品推广、提升企业品牌等多方面的作用。因此搜索引擎服务商更应抓住机遇,挖掘商机,实现搜索引擎的服务价值。 1 中国搜索引擎服务市场的现状分析 111 中国搜索引擎服务市场的规模 11111 中国使用搜索引擎的用户和企业数量变化 根据CNN IC互联网用户调查数据显示,随着互联网用户的逐年增加,搜索引擎作为用户使用互联网的主要工具使用率呈现逐年上涨趋势。2004年中国互联网用户使用搜索引擎的用户比例占到80%,预计未来两年使用搜索引擎的用户仍呈现稳定增长态势。 从当前企业使用搜索引擎的服务来看,搜索引擎作为连接企业和用户的一座桥梁,也越来越受到企业的重视,越来越多的企业选择使用搜索引擎作为企业的推广方式。在2001年仅有7万家企业使用搜索引擎技术作为企业的推广方式,而2003年企业数量达到26万家,2004年企业数量达到49万家。 11112 中国搜索引擎行业市场规模现状 中国的搜索引擎市场格局基本稳定,目前主要以百度、雅虎、搜狐、G oogle、新浪、网易、中国搜索等几家厂商为主;据IResearch调查,2004年中国搜索引擎市场中,百度、雅虎、G oogle分别以36129%、22172%、21122%的用户占有率占据着国内搜索引擎市场的前三位,形成了国内搜索市场的“第一阵营”。紧随其后,新浪、搜狐、网易、Tom、中国搜索、 中华网等国内厂商形成了“第二阵营”。 IResearch统计数据显示,2003年中国搜索引擎市场规模为619亿元人民币,年增长率为147%。2004年中国搜索引擎市场规模将达到1215亿元人民币,年增长率为81%。如图1所示: 图1 中国搜索引擎行业市场规模 综上,目前中国的搜索引擎网络营销仍处于快速发展阶段,中国的搜索引擎市场无论是企业广告主的数量,还是整个搜索引擎行业市场规模都迅速发展。 112 搜索引擎服务市场的商业模式 搜索引擎是企业实施网络营销的重要工具之 311 ① ②作者简介:黄建莲(1977—),女,福建顺昌人,大学毕业,华北科技学院管理系助教。 收稿日期:2005206221

搜索引擎的发展史:从网址簿进化到个人门户

如果说有什么发明拯救了互联网?那一定是搜索引擎,否则互联网中的信息越多,它本身崩溃得越快,因为人们找到自己需要的信息也就越难,使用体验也就越差。搜索的早期形态是啥?搜索经历的多少次变革?未来的搜索引擎将变成怎样?不妨总结一下搜索引擎发展的历史,发现其中的脉络。 其实,搜索的需求——从众多东西(主要是信息)中寻找自己要的,人类一直都有,只不过在IT技术发展之前,所有信息都没有数字化,搜索唯一可行的表现形式是纸质的目录、索引、电话簿。广域网产生以后,搜索的需求存在,但技术没有对应的迅速发展,因此互联网搜索的最早形式是网址簿。具体形式和电话簿、黄页相似,记录很多知名网站网址的一本书,大小视专业程度而定。笔者自己就买过一本普通网民适用的,大小薄厚类似一本新华字典,按网站内容的不同分类。 纸质的有了,网络版的很快跟上。1994年,杨致远创建雅虎,并开始人工搜集各类网站的网址,并将它们按一定规律分类、排序,网民可以只记住雅虎的网址,之后通过雅虎进入各个门类的网站,纸质的网址簿立即变得多余。部分互联网业内人士将雅虎用人工搜集网址并分类呈现的目录式搜索称为第一代搜索引擎,也有部分互联网专家认为雅虎这类做法并不能严格称为搜索引擎,而应算作最早的网址导航。笔者倾向于将其算作搜索实现形式中的一种,甚至包括网址导航也是如此。 但雅虎毕竟只是将纸质目录搬到了互联网网页上,肉眼查找和不同人对网站分类的理解都降低了这类搜索的使用效率。于是根据关键词进行自动查找的功能也被应用进搜索引擎,这其实并不难实现,因为根据关键词进行全文检索的技术甚至早在计算机刚刚被发明的上世纪50年代就已经出现(国内的中文全文检索技术最早被作为748工程的一部分,于80年代后期基本完成,但被广泛应用已经是90年代的事了)。 第一代搜索引擎唯一的问题是,网址仍然由人工收集,效率低、易出错、不全面。于是互联网急需一种替代人工收集网址的技术,而说到替代人工,人们必然会联想到的是机器人,于是第二代搜索引擎所依仗

搜索引擎的现状和发展趋势

期末课程论文 论文标题:搜索引擎的现状与发展趋势 课程名称:信息检索技术 课程编号:1220500 学生姓名:潘飞达 学生学号:1100310120 所在学院:计算机科学与工程学院 学习专业:计算机科学与技术 课程教师:王冲 2013年7月1 日

【摘要】 搜索引擎包括图片搜索引擎、全文索引、目录索引等,其发展历史可分为五个阶段,目前企业搜索引擎和网站运营搜索引擎运用范围较广。在搜索引擎的未来发展中,呈现出个性化,多元化,智能化,移动化,社区化等多个趋势。 【关键词】 发展过程、发展趋势、检索技巧、个性化、智能化 1 搜索引擎简介 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。 其工作作原理分为抓取网页,处理网页和提供检索服务。 抓取每个独立的搜索引擎都有自己的网页抓取程序,它顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。 搜索引擎是根据用户的查询请求,按照一定算法从索引数据中查找信息返回给用户。为了保证用户查找信息的精度和新鲜度,搜索引擎需要建立并维护一个庞大的索引数据库。一般的搜索引擎由网络机器人程序、索引与搜索程序、索引数据库等部分组成。 系统结构图 2搜索引擎的工作原理 第一步:爬行 搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛WWW 文档 网络机器人程序 建立Lucence 索引 从数据库中搜索信息 Tomcat 服务器 Lucence 索引数据库 WWW 浏览器 WWW 浏览器 JSP 网络机器人程序

不同搜索引擎的搜索结果之区别

不同搜索引擎的搜索结果之区别 11新闻吴雅静1117409059 关键词:媒体 使用的搜索引擎:百度、Google、搜狗 媒体 1、百度 搜索用时:未显示,小于0.5秒 词语解释:所谓媒体,是指传播信息的媒介,通俗的说就是宣传的载 体或平台,能为信息的传播提供平台的就可以称为媒体了,至于媒体 的内容,应该根据国家现行的有关政策,结合广告市场的实际需求不 断更新,确保其可行性、适宜性和有效性。它是指人借助用来传递信 息与获取信息的工具、渠道、载体、中介物或技术手段。也可以把媒 体看作为实现信息从信息源传递到受信者的一切技术手段。媒体有两 层含义,一是承载信息的物体,二是指储存、呈现、处理、传递信息 的实体。 2、Google 搜索时间:0.1秒 词语解释:媒体(Media)一词来自拉丁语“Medium”(意为两者之间), 即传播媒介、传播媒体,是指信息传播过程中,信息与信息的接收者 之间的中介物,即存载并传递信息的载体和物质工具。从广义的角度 播、录音机、录像机、录像带、计算机与各种软件等,都属于媒体范 畴。人类的生活离不开信息的传播,也离不开媒体。 3、搜狗 搜索时间:未显示,约0.3秒 词语解释:所谓媒体,是指传播信息的媒介,通俗的说就是宣传的载 体或平台,能为信息的传播提供平台的就可以称为媒体了,至于媒体

的内容,应该根据国家现行的有关政策,结合广告市场的实际需求不断更新,确保其可行性、适宜性和有效性。解释同百度搜索。 通过对比百度、Google以及搜狗,这三个搜索引擎,可以发现这三种搜索引擎均具备百度百科对“媒体”这一关键词的解释。相对而言,Google的搜索结果比较详细,具备维基百科和互动百科对媒体的不同解释,信息量较其他两种搜索引擎更为丰富。其次搜狗的搜索结果比较省略。就搜索速度而言,Google比百度和搜狗要更快。 建议:百度和搜狗应该在搜索关键词时显示搜索用时。三种搜索引擎都应该将有价值的搜索结果放在第一页,并且就信息的价值而言,有待提高。应该要排除一些与关键词没有直接关联的信息,让阅览者一目了然。最后,百度,Google,搜狗都应该减少搜索结果中的商业推广信息,提高搜索结果的价值。

搜索引擎论文

搜索引擎发展状态及未来趋势 【摘要】 搜索引擎包括图片搜索引擎、全文索引、目录索引等,其发展历史可分为五个阶段,目前企业搜索引擎和网站运营搜索引擎运用范围较广。在搜索引擎的未来发展中,呈现出个性化,多元化,智能化,移动化,社区化等多个趋势。 【关键词】 发展起源、索引、数据库、网站运营、未来趋势 【参考文献】 《个性化搜索引擎原理与技术》《搜索引擎的设计与实现》搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。其工作作原理分为抓取网页,处理网页和提供检索服务。抓取每个独立的搜索引擎都有自己的网页抓取程序,它顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。 搜索引擎的发展起源可以追溯到第一个Gopher搜索工具Veronica。后来的搜索引擎的发展分为五个阶段。第一阶段,出现World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统

计互联网上的服务器数量,后来则发展为也能够捕获网址。第二阶段,出现了以概念搜索闻名的Excite以及元搜索引擎Dogpile。第三阶段,即yahoo的出现。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。Yahoo以后陆续有Google等提供搜索引擎服务,但不可否认的是,Yahoo几乎成为20世纪90年代的因特网的代名词。第四阶段,一种新的搜索引擎形式出现了,即元搜索引擎。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第五阶段的代表是智能检索的产生:它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面或者说概念层面上辅助查询,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。 搜索引擎目前包括图片搜索引擎、全文索引、目录索引、元搜索引擎、垂直搜索引擎等。全文索引引擎是名副其实的搜索引擎,国外代表有Google,国内有百度、搜狐等。它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。搜索引擎的自动信息搜集功能分为定期搜索和提交网站搜索。它的特点是搜全率比较高。目录索引,就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。其次,搜索引擎收录网站时,只要网站本身

国内外搜索引擎的特征及其比较

国内搜索引擎的特征及其比较 摘要随着信息的剧增,Internet的进一步普及,在浩如烟海的信息高速公路上,根据自己的需求快速准确地需找所需要的信息越来越依赖于借助多种多样的Internet信息检索工具,而搜索引擎是我们平时使用最多的一种。下面就国内的四个著名搜索引擎来探究它们的特征和区别。 关键字引擎检索查询 一百度(http://WWW.baidu.corn) 百度由百度网络技术有限公司于1999年底在美国硅谷创建,是目前全球最大的中文搜索引擎。数据库中收录约3亿个中文网页,平均2周更新一次,对部分网页每天更新。搜索方式以关键词检索为主,同时可结合分类目录限定检索范围,分基本检索和高级检索两种,支持布尔算符和字段限制符。特设百度快照功能,供用户迅速查看每条检索结果的内容。检索时不区分英文字母的大小写,检索结果依相关度排列。 二中文Goog1.(hap://WWW.google.corn) Gcog1.由两位斯坦福大学的博士I丑rry Page和SergeyBrin在1998年创立,是目前世界上最大的搜索引擎。数据库中收录约1O亿多个中文网页,采用高级的网页级别技术,用户界而出色,有新闻组、图像、新闻等搜索,以搜索相关性高闻名。检索方式为关键词检索,分为基本检索和高级检索,基本检索以布尔检索为主,高级检索中包括: (1)排除某些站点; (2)限定检索结果于某一特定网站; (3)限定语言类型; (4)相关网页检索,检索结果依检索式相关性排列。 三新浪(http://WWW.sina.com) 新浪搜索引擎是面向华人的网上资源查询系统。提供网站、网页、新闻、软件、游戏等查询服务。共有16大类目录,1万多个细目和数十万个网站。搜索方式包括关键词查询和分类目录检索两种。除基本检索以外,还具备“重新查询”“在结果中再查”和“在结果中去除”三种高级检索,支持布尔逻辑检索,用

浅谈搜索引擎的研究现状

科 技 天 地 38 INTELLIGENCE ························浅谈搜索引擎的研究现状 西安外事学院计算机中心 李艳红 摘 要:文章分析了搜索引擎的发展历史及国内外搜索引擎的发展现状,采用了 对比的方法对特色搜索引擎的进行了阐述,并详尽的指出了各种搜索引擎的现状、特点及发展趋势。 关键词:搜索引擎 爬虫 网页快照 搜索引擎(Search Engine)正是帮助人们从网上检索信息的重要工具,是为了解决网上信息查询困难的问题应运而生的,它可以有效地帮助用户在网络上查找到自己需要的信息。它是在互联网产生后伴随着网上用户快速查询信息的需求的产物,即提供信息检索服务的计算机系统,检索的对象包括互联网上的站点,新闻组中的文章,软件存放的地址及作者,某个企业和个人的主页等。 当用户通过Archie 检索文件时,所要进行的全部工作就是对该数据库进行检索。尽管Archie 还不是真正的搜索引擎,但工作原理与现在的搜索引擎己经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者查询。1994年初,Internet 上出现了包括Lycos 在内的第一批Web 搜索引擎。第二代搜索引擎以1998年出的Google 和Directhit 为代表。它们是“根据以往用户实际访问一个网站并在该网站上所花费的时间来确定一个网站的重要性,或者根据一个网站被其他网站链接的数量来确定网站的重要性” ,“这种根据用户忠诚度的评判方法更具备客观性,因而,用户所获得的信息也就更准确”。如Directhit 以被大多数用户访问的情况认定一个网站的重要性;Google 以被其他网站链接的情况认定一个网站的重要程度。在发展过程中更强调了人的因素,主要表现在以下三个方面: (1)能利用自然语言查找信息。第二代搜索引擎可以将自然语言自动翻译成系统能理解的专业术语,进行精确查找。 (2)有判断地收集信息,根据众多网络用户行为特征来取舍信息。(3)人工分类。引入大量的人工对信息进行分类。强调人工分类的重要性。 此外,第二代的搜索引擎还有一个特点,他们只做后台技术,将技术提供给Yahoo 等门户网站。其中Google(https://www.360docs.net/doc/1c720130.html,)是表现最为突出的。Google 于1998年9月发布测试版,是目前人们使用最广泛的搜索引擎。 Google 现为全球80多家门户和终级网站提供支持。Google 的优势是易用性和返回结果的高相关性。Google 提供一系列革命性的新技术,包括完善的文本对应技术和先进的PageRank 排序技术,后者可以保证重要的搜索结果排列在结果列表的前面。Google 还提供一项很有用的服务:“网页快照”功能。 目前,新一代的搜索引擎也己经进入了研制阶段,其最大特点就是大量智能化信息处理的引入,网络信息检索将步入知识检索和知识服务的领域。它的一个特征是能够解决文件格式问题,这就要求搜索引擎不仅能识别TXT 文件,也要能够识别PPT, Word, PDF,电子邮件等文件;另一个特征是把P2P 技术应用到网页的检索中,这样通过共享所有硬盘上的文件,目录乃至整个硬盘,用户搜索时无需通过Web 服务器,不受信息文档格式的限制,即可达到把散落在互联网上的不相关的人们关心的知识搜集起来,经过筛选,组织和分析返回给用户所需的信息。 国内目前已有很多关于搜索引擎的研究。百度搜索引擎[6]收录中文网页接近2亿,是全球最大的中文数据库。Baidu 搜索引擎的其它特色包括:网页快照,网页预览/预览全部网页,相关搜索词,错别字纠正提示,新闻搜索,Flash 搜索和信息快递搜索等。北大天 网搜索引擎是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,有强大的搜索功能。除了WWW 主页检索外,天网还提供FTP 站点搜索(“天网文件”),为高级用户查找特定文件提供方便。同时,天网将FTP 文件分为电影和动画片,MP3音乐,程序下载,文档资源共四大类,用户可以像目录导航式搜索引擎那样层层点击,查找自己需要的FTP 文件。天网提供的服务还包括“天网目录”和“天网主题”。搜狐分类目录设有独立的目录索引,并采用百度搜索引擎技术,提供网站,网页,类目,新闻黄页,中文网址,软件等多项搜索选择。搜狐搜索范围以中文网站为主,支持中文域名。慧聪搜索引擎拥有超过2亿网页的中文信息库,提供网页,网站,新闻,地域,行业,MP3, Flash 等多种检索方式,具有互联网实时新闻搜索,高精度检索,分类查询,网站导航,企业与产品查询等功能。 目前的搜索引擎,每天使用爬虫在互联网上获取大量网页,这花去了大量的时间,对于面向大量用户的商业搜索引擎是非常合理的,但是对于只面向某一类型的网络,如校园网的搜索引擎,这无疑需要大量的计算资源和存储空间,这往往是得不偿失的。因此,对于校园网内搜索引擎,需要设计一种对资源要求低,灵活机动的方法。 参考文献: [1] 刘建国:《搜索引擎概述》,北京大学计算机与科学技术,1999年。 [2] 李晓明、刘建国:《搜索引擎技术及趋势》,《大学图书馆学报》,2000年第16期。

搜索引擎简史

随着互联网的发展,搜索引擎的出现是必然的。就像传统的图书馆一样,收藏的书籍、文件多了,必然出现管理、查找困难,搜索引擎就成为必须的了。实际 上,搜索引擎原理在很大程度上源于传统文件检索技术。 网上资源数量远超过我们个人所能想象与掌控的,没有搜索引擎,我们几乎无法有效利用这些资源,也就没有互联网的今天。 当今社会化媒体如日中天,诸如Facebook、TWitter等应用的使用人次、网站流量、社会影响力已经达到甚至 超过Yahoo!、Google等互联网巨人。有这样一种倾向和观点,网民现在寻找信息更多地是靠Facebook、Twitter,而不是搜索引擎。也许搜索引擎已经过时了? 其实大可不必担心。也许Google、百度会没落,会消失,但搜索引擎不会。就是依靠Facebook、Twitter,或者以后出现的什么新网络服务寻找信息,用户要寻找 信息时,一样要在搜索框输入关键词,这还是搜索,只不过搜索信息来源可能从搜索引擎收录的页面数据库变成Facebook、TWitter内部数据库,排名算法从页面相关性 、链接变成会员、好友的推荐程度,但数据来源及算法的改变都不能改变用户对搜索的需要,也不会改变搜索的基本形式。 只要搜索存在,就有哪条信息排在前面的问题,就有SEO的存在。也许搜索引擎这个名字变了,SEO也只是需要改个名字而已。 搜索是近20年的互联网变化最快的领域之一,这种变化不仅体现在搜索技术突飞猛进和对网络经济的巨大推动上,搜索引擎本身的合纵连横、兴衰起伏也是精 彩纷吴,常令人有眼花缭乱、瞠目结舌之感。 了解搜索引擎的发展历史有助于SEO的人员理解搜索引擎营销的发展、变革,对未来有更准确的预期。本节就简要列出搜索引擎发展史上的重要事件,其中很 多事件对今天搜索以及SEO行业的形态有至关重要的影响。 1990年 第一个互联网上的搜索引擎Archie出现,用于搜索FTP服务器上的文件。当时基于HTTP协议的Web还没有出现。 1993年 6月,第一个Web搜索引擎World Wide Web Wanderer出现,它只收集网址,并没有索引文件内容。 10月,第二个Web搜索引擎ALIWEB的出现,开始索引文件元信息(也就是标题标签等信息),也还没有索引文件主体内容。 1994年 1月,Infoseek创立,其搜索服务稍后才正式推出。Infoseek是早期最重要的搜索引擎之一,也许站长提交网址是从Infoseek开始的。百度创始人李彦宏就是Infoseek 的核心工程师之一。 4月,Yahoo!由David Filo和Jerry Yang(杨致远)创立。当时还没有注册https://www.360docs.net/doc/1c720130.html, 域名,网站建在斯坦福大学的域名上。Yahoo!最初不是真正的搜索引擎,而是

相关文档
最新文档