中国国家数字图书馆工程总体设计

中国国家数字图书馆工程总体设计

魏大威孙一钢/ 国家图书馆北京100081

摘要本文分析了我国数字图书馆建设的基本情况,在总结国家数字图书馆工程建设特点的基础上,以服务、资源、标准、技术四个方面作为总体设计中的出发点,详细论述了在国家数字图书馆中基础支撑环境、标准规范体系、应用支撑平台、业务应用系统、网管安全保障、数字资源建设的总体设计内容,最后笔者根据工作的实践提出了对于总体设计工作中所遇到问题的思考。

关键词数字图书馆总体设计服务数字资源

1 设计背景

数字图书馆这个概念上个世纪八十年代由美国提出已经二十余载,在这二十多年中,数字图书馆迅速成为图书馆界一个热点和前沿的话题,国内外的专家和学者和相关机构在数字图书馆的研究上投入了大量的精力并建立了完善的理论体系。进入21世纪后,信息技术的快速发展为数字图书馆的实践提供了机会,国内开始出现数字图书馆建设热潮,并逐渐升温,一些全国性、地区性的数字图书馆项目纷纷进行规划或立项建设,许多图书馆作为独立的个体也进行了数字图书馆建设的有益探索,而商业机构的介入则进一步推动了我国数字图书馆事业的发展。自2001年起,由中央财政陆续投入建设的数字图书馆项目有国家数字图书馆工程、全国文化信息资源共享工程、全国高等教育数字图书馆、国家科学数字图书馆工程、全国党校系统数字图书馆工程等。这些国家级数字图书馆项目是我国数字图书馆建设的核心,为其它数字图书馆系统建设提供支持。其中一些行业特征明显的国家级数字图书馆在推动行业数字图书馆建设,加强行业性数字资源建设与服务方面发挥着重要作用。

中国高等教育数字图书馆(CADLIS)是由“中国高等教育文献保障系统”(CALIS)二期工程和基于“中美百万册图书计划”(CADAL)的文献数字化工程两个专题项目构成的行业性数字图书馆系统。CADLIS包括数字资源体系、软硬件平台和运行服务体系。数字资源体系建设除了继续扩大原有的联合目录、学位论文、期刊篇名数据库外,加大了全文文献库的建设。

国家科学数字图书馆(CSDL)是中国科学院知识创新工程的重大项目,其建设目标是为中国科学院全院科研人员提供远程访问的信息资源和服务体系。CSDL提出了“资源到所、服务到人”的服务理念,CSDL的随易通服务,使用户在任何地点上网,均可查询用户所在单位购买开通的数据库,并且为用户提供权威、可靠的目录导航。

2004年9月,《中共中央党校数字图书馆工程可行性研究报告》通过审批,目前正在进行初步设计。通过党校数字图书馆的建设,在全国县以上党校建设数字图书馆,并实现联网,形成全国党校系统数字图书馆网络,从而达到为党校的教学科研服务,为干部教育服务,为建设因特网上的马克思主义阵地服务的目的。

以国防大学为主的全军院校数字图书馆建设自2001年开始起步,其建设的目标是, 为了适应军队院校教育信息化的需求,创建信息化教学环境、数字化园区,为军队院校的现代化建设提供信息服务,实现资源共享和“全军院校一个馆”的目标。自2001年开始,分别在国防大学、南京政治学院、西安政治学院和装备指挥技术学院等4所院校建设军事理论科学数字图书馆、政治理论数字图书馆、军队政治工作数字图书馆和公共数字图书馆。

各个地方的公共图书馆也踊跃的投身于数字图书馆的建设中,辽宁省数字图书馆选用了IBM公司的数字图书馆系统,将馆内原有的60万册古籍转换为数字化形式进行保存,以便通过互联网向全球用户提供使用。广东省是我国数字图书馆建设投资力度较大、数字图书馆建设卓有成效的省份之一。以上海图书馆为主体的上海数字图书馆建设是国内较早进行的数

字图书馆建设项目,初步建成上海数字图书馆。形成了包括上海图典、上海文典、点曲台、古籍善本、科技会议录、中国报刊、民国图书、西文期刊目次、科技百花园在内的九个资源库。此外,上海图书馆还与上海音乐学院联合建设推出了上海音乐数字图书馆。地区性数字图书馆系统对于促进本地区数字图书馆建设,加强地方特色数字资源建设与服务具有重要意义。

2004年底,国家发改委批复了国家图书馆二期工程暨国家数字图书馆工程初步设计方案及投资概算,这是一项具有战略意义的民族文化工程,是融入人们社会生活、不局限于图书馆场馆的社会化、专业化、个性化的信息提供基础设施。国家数字图书馆建成后,将极大地拓展国家图书馆的服务外延。国家数字图书馆将全面履行国家图书馆的职能,有重点地收藏、建设和长期保存中文数字信息,在互联网上形成超大规模的、高质量的中文数字资源库群,建构数字资源采集、加工、保存的技术支撑平台,并通过国家骨干通信网向全国以及全球提供中文数字信息服务,使国家数字图书馆成为世界最大的中文数字信息保存基地与服务基地,成为国家重要的信息基础设施。

由于职能定位不同,国家数字图书馆工程的建设与其他行业的数字图书馆建设有很大的不同:

(1)在资源建设方面,需要履行国家图书馆的职能,在全面的收藏中文文献信息的基础上,作为全球最大的中文文献提供中心,负有重点收藏和长期保存中文

数字资源,建立中文数字资源保障中心,建设中文数字资源查询基地的责任。

(2)在数字资源服务方面,国家图书馆是公益性文化单位,具有社会知识传播与信息服务中枢的核心地位,担负着为“构筑终身教育体系、创建学习型社会”

服务、最大限度地满足读者全方位、多渠道获取信息与知识需求的重任(3)在数字图书馆技术方面,国家数字图书馆构建数字资源采集、加工、保存的技术支撑平台时,无论在体系结构设计、网络平台与硬件设施搭建,还是在软

件研制方面的建设都不同于一般的数字图书馆,它不是独立和封闭的系统,

而是要保持与其它各数字图书馆系统之间的兼容性、可互操作性和开放性,

同时最大可能使得建设的相关成果可以在其他图书馆以更低的价格使用,为

全国数字图书馆建设的共建共享提供支撑。

(4)在资源框架与标准规范方面,实现以内容管理框架为基础技术、硬件体系结构面对框架、应用软件面对框架接口的数字图书馆系统。在标准规范研制方面,

将采用数字图书馆相关国际、国家及行业标准,对于急需且必须要制定的标

准在工程建设过程中进一步建立和完善,致力于为全国数字图书馆建设提供

统一的标准规范。

为了便于投资决策,在国家数字图书馆工程的初步设计中,是以文献数字化中心、网络管理中心等八大中心机构组成作为国家数字图书馆建设和运行的实体,以各种软件和硬件平台作为最终的建设目标。总体设计要在初步设计的基础上,根据国家数字图书馆的职能定位和信息技术变化发展的趋势,以服务为引导,以实施为目的,根据“边建设、边服务”的实施原则,全面考虑软件、硬件、资源、标准的建设内容,最终形成国家数字图书馆工程建设的总体设计方案。

2 设计方向

服务、资源、标准、技术是国家数字图书馆总体设计的四个重要方向,这四个方向相辅相成,构成了国家数字图书馆的有机整体。

服务

资源技术 图1 国家数字图书馆设计方向

2.1 服务

与实际生活中的图书馆不同,数字图书馆不是一个物理存在的实体,它是存在于IT 基础架构上的一种知识组织和服务的体系,国家数字图书馆的建设成果最终需要通过服务来展现,因此服务的设计是总体设计过程中首要考虑的问题。服务在总体设计中主要考虑:一是拓展服务渠道,在原有的到馆服务和互联网服务的模式上,增加新的服务渠道,使用户能够通过更加便捷的方式随时获得数字图书馆的资源;二是延伸服务范围,形成为中央国家机关立法决策服务、为全国重点教育、科研及企事业单位服务、为社会公众服务、为图书馆和信息机构服务的多层次的服务格局;三是深化服务内容,形成以国家图书馆为服务中心,以国内各大公共图书馆为服务节点的数字资源传递、服务体系,构建国家数字图书馆与国内各大公共图书馆数字资源的无缝传递和服务,形成行业分馆和地区分馆的服务格局;四是提高服务质量,进一步提高国家图书馆自身数字化建设和管理的水平,为到馆读者提供现代化的服务手段和阅读环境,重点进行包括数字资源服务中心,数字资源加工中心等的八大中心的建设,使国家图书馆成为国内最大中文文献信息生产和服务中心。

2.2 资源

没有数字资源的支撑,数字图书馆就成了无源之水和无本之木。国家数字图书馆将构建基于互联网的数字资源组织和服务体系。在《信息网络传播权保护条例》的框架下,把国家数字图书馆建设成为超大规模的、高质量的中文数字资源库群,通过互联网上弘扬和传播民族文化和先进文化,满足公众利用互联网获取文献信息资料的要求。在实现这个目标的过程中,同时还需要重点解决两个问题。一是如何解决数字资源的重复建设的问题,目前许多图书馆进行了馆藏特色资源及大众所需数字资源的建设。在建设过程当中,缺乏有效的协调机制,造成了比较严重的重复建设。仅《四库全书》在国内就有四个数字化扫描版本,包括民国文献,目前各馆都将其作为数字化加工的重要内容,在音视频数字资源各个图书馆重复建设的情况也屡见不鲜。数字资源的特点决定了如果缺乏规划,就会造成重复建设,出现同一种资源进行多次数字化加工的情况。二是数字资源的长期保存问题,在信息化建设过程中,

我国已经引进和生产了大量有价值的数字资源,这些数字资源既包括图书馆、博物馆、研究机构、高等院校等公益性机构产生的数字资源,也包括政府机构产生的政务信息,以及商业机构生产的商业性资源。这些数字资源如果不妥善加以保存管理,将很快面临消失的窘境,最终很可能会造成在网络环境下数字文化遗产,甚至是战略性数字信息资源遗失的后果。保存和传承一个国家的文化信息本身就是国家图书馆的职责所在,更是国家数字图书馆数字资源建设和管理的重要内容。

2.3 标准

数字图书馆建设必须建立和遵循关于数字资源加工、描述、组织、服务和互操作方面的标准规范,才能保证数字图书馆系统的长期可使用性、互操作性和可持续性。各个行业和地方的图书馆都制定了本馆的数字图书馆建设的相关的标准规范,但是这些标准规范还没有得到充分和完全的应用。标准制定的目的就是为了在行业内部形成共同遵守的应用模式,但如此多的标准规范的制定恰恰反映了我国数字图书馆建设中标准规范的应用并没有得到统一,在直接指导实践上仍然存在一定的欠缺。由于各个馆的数字资源建设情况不一,已经建设完成的数字资源如果强制性的遵从后来标准,势必对于前期的投资造成一定的浪费,因此在国家数字图书馆工程标准的总体设计上要在现有数字图书馆标准规范研究的基础上进行补充,同时在标准的制定过程中既要保证其可操作性,使其既能够直接的指导实际工作,又能与现有的主要的标准规范体系保证兼容和互操作性,使各数字图书馆系统能够实现共建共享、互联互通,从而降低我国数字图书馆的建设成本,提高数字资源的利用率。

2.4 技术

国家数字图书馆需要管理海量的数字资源,需要提供高带宽、多链路的接入方式、需要满足来自互联网的高并发的检索压力、需要建立能够保证内部多个应用系统之间无缝融合的消息传递平台、需要形成针对不同用户、个性化的服务体系、需要在建立满足数字资源生命周期管理的工作流,因此其必然成为先进的信息技术展示的平台。但是作为一个工程项目,必须满足工程建设和实施的特点。国家数字图书馆建成后绝不是硬件和软件的简单堆砌,而是要通过总体设计把来自不同厂商的设备,不同开发伙伴的软件产品有机的结合在一起。这些孤立的系统建设自不同的时期,发挥不同的作用,面向不同的服务对象,但都是国家数字图书馆的组成中不可或缺的一部分。在总体设计的过程中需要分析各个系统的特点,采用合理的方式使其组成一个运行稳定的数字图书馆整体架构,使各个系统能够在这个架构中发挥更大的作用,实现1+1>2的目标。

3 设计内容

3.1 基础支撑环境设计

基础支撑系统主要由通信系统、存储系统、计算系统等主要部分组成。

通信系统主要用来建立和保持国家数字图书馆工程内部和外部系统之间信息的连接和传递。本地局域网主要考虑三个馆区网络的接入和融合,在古籍馆和新馆之间形成1000M 的网络光纤直连,在新馆利用核心网络设备的虚拟交换技术提高本地局域网的性能,达到“万兆上连、千兆桌面”的性能;外部接入网络通过光纤与教育网、科技网、中央党校数字图书馆等系统实现1000M高速互联,缓解目前几大系统之间网络不畅的问题,使国家数字图书馆成为全国图书馆网络中心,同时建立与中国下一代互联网的IPV6的连接,建立域名解析等相关网络服务;国家图书馆三个馆区全部采用无线网覆盖,使读者可以在馆区内部方便的接入到局域网中,直接使用各种数字资源。由于在无线网的使用上国内标准和国际标准不兼容,为了满足各个方面的需要,在接入点应用了两种协议兼容的设计,保证无论是国内设备还是国外设备都可以正常使用;为了实现基于手机“掌上国图”服务,国家图书馆申请了106988106988全国短信服务号码,通过移动服务运营商的前端平台,开通了国家图书馆WAP

网站,使公众利用手机等移动通信设备访问国家图书馆;与数字电视运营商建立国家数字图书馆频道,利用数字电视覆盖面广、普及率高的特点使数字图书馆服务到每一个家庭;建立双向卫星系统,拓展国家图书馆的数据广播服务范围,通过卫星系统把数据资源发布到全国各地。国家数字图书馆工程的通信系统建立后,将形成一个跨越传统IPV4网络、下一代IPV6网络、移动通信网络、数字电视网络、卫星网络等全方位、多媒体的信息传播通道,为服务的开展打下良好的基础,为社会公众和各个行业利用国家数字图书馆提供方便的条件。

存储系统主要实现海量数字资源的调度、备份、服务、存储、长期保存的功能。国家图书馆采用在线、近线、离线相结合的策略进行数据存储。在线存储主要采用FCSAN的技术路线,它吸收传统通道技术和传统网络技术的优势,具备高速、低延迟、高数据一致性、大数据传输等特性,可以实现路由管理、广泛连接性、远距离支持、灵活管理等。在线存储容量将达到150T,对于数据库、实时产生的书目记录、数字资源发布与服务过程中需要使用的数据及数字加工过程中的临时数据应采用在线保存的方式。近线存储主要采用SATASAN 的技术路线,与FCSAN相比价格比较低廉,可以满足性能以及可靠性要求都不高的应用,对于数字资源发布与服务过程中访问频度较低的数据、数字资源加工后的数据、国内资源供应商保存的数据、互联网采集到的资源、文化信息共享的资源、购买的资源等数据采用近线存储的保存方式,近线存储容量将达到150T。离线存储主要采用大容量磁带库和光盘库,完成数字资源的长期保存和备份工作,离线存储容量将达到340T。通过以上三级存储,实现数据从在线、到近线再到离线的迁移,实现完整的数据生命周期管理。

计算系统需要处理大规模资源检索、大并发的访问接入以及海量数字资源的封装、管理等工作。检索服务是图书馆最基本的服务职能之一,国家数字图书馆建成后,将实现2亿条以上结构化元数据的检索能力, 平均100,000次检索请求/分钟能力,峰值10,000次检索请求/秒能力,可以进行1亿页全文检索,可以进行古籍全文检索等,这都对计算系统提出了较高的要求。因此在计算系统的选择上,一方面采用多处理器的UNIX主机,保障服务的稳定性,提高抗攻击能力,另一方面采用计算机集群技术,在提供高计算能力的同时使计算节点可以随着需求的增加平滑的扩展,满足发展的需要。

3.2 标准规范体系设计

标准规范体系设计主要围绕国家数字图书馆的数字资源进行,包括中文、外文、各类期刊、古籍文献、图片、音频和视频等信息等等,这些信息构成了整个数字图书馆的数据集。在这个统一的数据集下,通过定义数据的标准和规范,既可以保证数据的一致性、规范性和互操作性,又能够指导应用系统的开发,对于工程建设起到约束作用。

汉字是国家数字图书馆文献信息的最基本组成,针对数字图书馆文献类型复杂,使用汉字字符数量大等特点,需要建立汉字属性字典,需要能够处理汉字范围为GB18030-2005(UNICODE、ISO10646-2003)所包括的全部汉字,尤其是在大量的古籍中包含生僻字、避讳字的处理,需要建立生僻字、避讳字的处理规范。为了保证实时再现中文文献原貌,提供全文检索所需信息,对于古籍文献需要中文文献全文版式还原和全文输入XML规范。

元数据标准体系是数字图书馆所采用的信息描述的方法,是整个数字图书馆系统的基础规范,在数字图书馆的资源描述、组织、管理、保存与服务等各个环节中都起着十分重要的作用。建立国家图书馆核心元数据标准,是为了确定国家图书馆信息资源组织的基本数据要求,即确定国家图书馆各类信息资源描述、管理和保存所必备的要素集合。同时,国家图书馆核心元数据标准也是各种专门元数据规范在功能、数据结构、格式、语义、语法等方面保持一致性和整体性的保证,其目的是为国家图书馆信息资源提供一套通用的描述元素和规范,从而在不同层面上为资源的检索、整合、交换及其他应用提供支持。对于古文献、电子图书、网络以及多媒体资源等具有中国特色和广泛应用的数字资源还需要建立专门的元数据规范。

数字对象管理标准规范主要用来管理国家数字图书馆自建以及购买、采集、缴送等多种来源渠道的数字资源,内容包括在采集过程中制定对象数据制定采集原则,应考虑资源的采集范围、文献类型、版权解决情况、数据结构、数据格式、应用级别;在加工过程中的加工设备、处理技术的选择,数字化中文献的保护手段,文献加工范围和级别的界定等;在检验的过程中规范数字资源建设的检验和监督管理机制,制定自建数字资源和购买、采集、缴送的数字资源检验标准;规范数字对象的封装逻辑模型,制定具有可操作性的SIP封装包操作规范;确定数字对象存储的技术路线和方针,选择正确的应用介质和灾害备份策略,实现业务连续性。

数字资源的长期保存是国家数字图书馆的重要职能,这些数字资源包括自建数字资源、外购数字资源、互联网采集的数字资源以及全国文化信息共享工程的数字资源等,长期保存规范的制定既可以实现这些资源有效的保存管理,又能够确保未来的利用。数字资源长期保存标准规范的内容包括三个方面:确定国家图书馆数字资源长期保存的战略机制、保存的策略和方法、保存的内容和范围;制定数字资源长期保存采用的技术标准和技术措施, 建立数字资源电子帐管理规范以及其他与数字资源长期保存相关的规范;制定数字资源长期保存涉及的元数据规范

3.3 应用支撑平台设计

应用支撑平台是指依据国家数字图书馆的业务需求,依据制订的规范化标准化体系创建的,用于支撑各业务子系统开展业务协同、互访,功能调用,数据交换的通用运行、管理环境,实现了国家数字图书馆内部各个异构的系统之间无缝的融合。应用支撑平台的设计主要考虑SOA(Service-Oriented Architecture)和ESB(Enterprise Service Bus)。

SOA是一个组件模型,它将应用程序的不同功能单元通过这些服务之间定义良好的接口和契约联系起来。接口是采用中立的方式进行定义的,它独立于实现服务的硬件平台、操作系统和编程语言。这使得构建在各种这样的系统中的服务可以以一种统一和通用的方式进行交互。采用了SOA架构实现了各个服务应用之间的松耦合,当组成整个应用系统的每个服务的内部结构发生改变时不影响整体,这使得国家数字图书馆在服务应用上变得非常的灵活,即使是发生了组织机构的调整也可以在短时间内完成应用系统的变更。基于SOA的应用支撑平台可以非常好的利用原有的业务系统,通过对现有的应用进行合理的封装,就可以将其集成到未来的服务架构中而不必重新开发。从一个长远的目标来看,SOA实现了系统的模块化重用,可以根据需要实现应用的组合,减少了总体投资成本。

SOA本质上是服务的集合,这些服务在国家数字图书馆中并不是孤立的,而是互相影响和互相制约的,因此服务之间必须能够通过一种完善的机制进行通信,这种通信可能是简单的数据传送,也可能是两个或更多的服务协调进行某些活动,服务间需要某些方法进行有效的连接,而ESB正是服务间有效连接的技术实现方法,它自身也是以服务的方式进行构建。

ESB是SOA集成中最普遍采用的方法,ESB是传统中间件技术与XML、Web服务等技术结合的产物,可提供比传统中间件产品更为廉价的解决方案。ESB提供了一种开放的、基于标准的消息机制,通过简单的标准适配器和接口,来完成粗粒度服务和其他组件之间的互操作,能够满足大型异构环境的集成需求①。

应用支撑平台由以下几部分组成:数据引擎,数据引擎的目的就是通过数据总线实现各个业务子系统之间的数据互访、交换、共享与集成。数据引擎不仅提供数据库数据的访问接口,还提供不同的业务模块之间的数据访问和路由识别;业务引擎,业务引擎的目的是通过业务配置,利用业务总线使各个业务子系统间的业务运转起来,并沟通不同业务子系统的业务流,实现整个数字图书馆的业务协同和业务集成。业务引擎能够将位于不同业务子系统中

①Chinaunix.什么是ESB(企业服务总线)[EB/OL].[2008-5-25].

https://www.360docs.net/doc/4615888091.html,/software_zone/2007/1004/535458.shtml

处理过程联系起来,并自动执行;安全引擎,安全引擎的目的是通过提供用户认证、权限认证、日志等手动,保证业务子系统在平台内进行数据访问、数据交换和业务流程执行时的安全;业务总线和数据总线,平台通过业务总线和数据总线提供的业务流和数据流,从而支撑不同子系统间的业务互访和数据交换。业务应用模块是通过业务适配器和数据适配器同这两条总线进行连接;管理和监控服务,管理和监控服务的目的是对平台框架中运行的各类引擎提供基础的配置定义和管理,对其运行情况进行监控。

图2 国家数字图书馆企业服务总线结构图

3.4 业务应用系统设计

在数字资源生命周期全过程管理的理念下,业务应用系统主要包括了用户管理系统、资源采集与获取系统、数字资源加工系统、数字资源的发布与服务系统、数字资源的组织与管理系统。

用户管理系统主要负责与数字图书馆用户以及应用之间的交互,是集用户注册、认证、管理合为一体的读者信息综合管理平台。通过建立一个身份管理的联邦模式,实现跨系统、跨域的身份信息管理和认证,促进不同的应用系统之间的互操作性。数字图书馆的用户在用户层管理层可以完成:国家数字图书馆用户的登记注册,使用国家图书馆网上资源的统一认证,简化目前存在的多系统分别认证,实现单点登录。在内部的管理上,实现网上资源分类管理及网上读者权限的统一管理,扩大国家图书馆的服务范围,为不到馆的读者提供国家图书馆网上资源使用的可能与便利,提高国家图书馆网上资源的利用率。实现本系统与国内外其它集团、企事业单位认证中心的互联。针对不同的用户要求,提供个性化的服务是国家数字图书馆服务设计的重点,用户管理系统可以通过门户、智能代理等为用户提供个性体验,提供定制内容和页面外观及版式的表现形式,还可利用相应的工具,使用户可以编制个性化的内容,满足国家数字图书馆平台各类用户的需求和兴趣。用户对于国家数字图书馆的使用信息将通过知识发掘系统以恰当的形式表现出来,为国家数字图书馆的决策者提供决策依据。

资源采集与获取系统主要是将各种类型的资料转化为有序的数字资源,文献数字化加工是将各种形式的文献资料进行数字化加工,并在加工过程中对生产流程进行管理和控制,其

相关文档
最新文档