信息资源目录企业管理应用

用信息资源目录实现企业数据的全生命周期管理

[ 2012-12-18 23:56:00 | By: 于向东 ]

相信百度和谷歌是大家经常用的搜索引擎，就象我们小时候的十万个为什么，遇到问题第一个念头就是问一问搜一搜，不同的是小时候我们问大人，大人让我们查十万个为什么，现在我们可以找百度，百度帮了我们很大的忙。

可是我们知道互联网的WEB信息是巨大的，用户查找自己所需的信息，就象大海捞针一样，百度和谷歌是怎么做到这点的呢？

和一个大家都听过的故事类似，有八个步骤，前面4个步骤是打开冰箱、带大象进冰箱、关上冰箱门，做上记号，后面4个步骤找到记号，打开冰箱门，让大象出来，关闭冰箱门。这个记号就是信息资源目录。当然谷歌做的比这个稍微复杂一点点：

通过网络爬虫将网上大量网站的页面信息收集到本地；网络爬虫，唯一任务就是获取网上的信息。爬虫利用主页中的链接遍历互联网，通过从一个HTML 文档爬行到另一个HTML文档，抓下数据。

加工处理建立信息数据库和索引数据库；索引库大家好理解，是记号，索引技术也是搜索引擎的核心技术，搜索引擎要对所收集到的信息进行解析、索引以产生索引库，并生成从关键词到URL的关系索引表。信息数据库怎么理解呢？

用百度不知道用没用过百度快照，你网上发帖子，过几天觉得不妥，删除了，你会发现快照里还有，这个快照就是一份信息数据库。

对我们提出的各种检索作出响应，提供我们所需的信息或相关指针。检索器的主要功能是根据用户输入的关键词在索引中进行检索。通过搜索引擎获得的检索结果往往成百上千，为了得到有用的信息，常用的方法是按网页的重要性或相关性给网页评级，进行排序。相关性是指搜索关键字在文档中出现的次数。当次数越高时，则认为该文档的相关程度越高。重要性是指网页被其他网页引用链接的次数。

搜索引擎是我们现在经常的一种信息获取途径，主要特点就是信息量特别大。之所以能迅速根据关键词得到检索结果是因为系统内部建立了目录索引，这个目录索引是系统基于网页内容自动进行分解的。

我们再看看另一种知识获取途径，几十年前，对美国家庭来说，拥有一套大英百科全书是件相当自豪的事，这套看上去有着冷冰冰的权威感、封面烫金印字的已经244岁的大英百科全书今年3月份宣布停版了，导致大英百科全书停止纸质印刷的原因是有几千套卖不出去，为什么卖不出去呢，因为01年1月创建的维基百科已经取代大英百科全书的地位。大英百科全书源于资本主义启蒙运动，从那时起，人类知道知识就是力量，知识就是财富，商人们通过出版业兜售经典的、精英的知识资源获得经济回报，这样按照资本主义市场准则运转了两百多年。维基百科呢，则象征着另一个时代的到来，它超越资本主义，昭示知识共享时代的到来。其一，它由网民自愿上传自己编辑的知识资源，无偿贡献；其二，它的主要经费最初的来源是网民捐献，也就是说，人们获得维基提供的知识，不

用付出费用。

维基百科的内容是经过组织的，事先做了分类、已经梳理了知识目录，人们很容易从中得到完整的知识，不像谷歌和百度那么凌乱，这个目录索引是基于标题和关键词的。

这两种信息组织结构，一个像头脑风暴，一个像整理归纳，一个完全由机器编目，一个人工编目，一个理解成信息、一个理解成知识，它适应人们的不同的需求。

商人是最精明的，为了更好地把自己的商品推送给客户，我们看看淘宝，采用混搭方式，既有人工的分类编目，又有机器的检索统计。

这四个企业都很好地利用了信息资源目录，在自己的领域做了老大，我们再看看一般的企业，比较凌乱，每个企业都有自己的客户、供应商、组织机构、业务流程等等，为了提升市场竞争力加强管理，我们大力建设IT系统，各种各样的信息系统，不同时期、不同业务部门、不同供应商、不同的信息系统，基本都缺少统一的规划，复杂的关系让信息系统管理员很抓狂，让业务员工很抓狂，也领导也很抓狂。

为什么抓狂呢？我们看看常见现象，不敢相信报表的数据、互相冲突的报表数据、找不到想要的数据、今天查和明天查数据不一致好像不稳定、数据不及时、分散缺少整合的数据、数据表现形式单调、分散的应用重复采集的数据，总之一个字，乱，有数据使用的困难、呈现的问题、管控治理的问题，我们认为问题的本质是缺少一个手段实现数据的全生命周期管理。

这个手段是信息资源目录，它主要回答了数据的全生命周期管理的四类问题：信息从哪里来、在哪里、到哪里去；谁提供、谁加工、谁发布；有什么信息？格式是什么？；如何发布、如何使用、如何呈现、如何使用。我们认为如果整理好企业数据这些问题就很好地实现了全生命周期的管理，从而帮助解决前面乱的问题。

怎么理解信息资源目录呢？它怎么帮助完成数据全生命周期管理的呢？我们看两个生活中的例子。

我们先看图书馆，记得几十年前我上大学的时候是这个模样，自己想看什么类型的书，就到卡片柜找卡片，抄下号码，然后拿自己的借书证给图书管理员，图书管理员根据索引号码，取出书，拿下书卡登记我的借书证，在我的借书证上登记书，还书时在书卡和借书证上分别盖个章，虽然后来引入计算机管理了，但本质流程没变，只是手工变成机器了。这是个信息资源目录完成全生命周期管理的鲜活的例子，图书的采购入库就要编目编卡片，卡片是不是放到索引大厅即目录是不是对普通学生发布是个权限管理，看到卡片是不是对普通学生外界也是个权限管理，借书的过程是个信息系统根据目录进行数据交换的过程，最后，图书破损折旧是数据归档的过程。

图书馆这种方式是手工根据行业知识进行分门别类管理建立目录的过程，也是图书全生命周期管理的过程。

另一个例子，是卫星定位导航，借助自动化技术对机场、飞机进行登记、跟踪、监测资源的变化情况，这是利用先进技术自动进行目录数据监控更新的过程。

在这两个例子中，目录是索引，卡片没有书的完整内容，卫星定位导航没有飞机具体乘员完整内容。

惠普信息资源目录就是参考这两种方式分别在业务领域和技术领域实现信息资源的管理和监控。

说到这里，有个问题是，这个信息资源目录与前面说到搜索引擎以及维基百科有什么关联，惠普信息资源目录也利用到前面的技术，但我们可以发现搜索引擎基本都用于网页，维基百科也是基于文本的，对于日常我们常见的文档和数据库就没有涉及，而这些却是企业信息的最主要内容。

还有一个问题，很多企业都有文档中心，知识库，还需要你这个资源目录干嘛，这个问题首先是文档中心、知识库解决不了全生命周期管理的问题，其次无法解决文档和数据库数据综合索引管理的问题。

惠普信息资源目录最常用的功能是这样一个模样，左边按多种方式做分类目录，可以是组织机构，可以按产品主题，还可以有自己的收藏，有热点推送的目录，中间是企业资源的宏观视图，一个多维立方矩阵的目录我们正在开发，在不久可以替换现在这种方式，这种多维3D的信息目录可以用手势旋转控制查找，打开看目录具体内容，利用数据交换平台看原始表单内容。

具体功能我们不一一介绍了，总的来说就是信息的定位检索，、其次是数据交换和分析决策，特点是全生命周期管理和实时监测。

我们看一下信息资源目录的具体内容，这是我们系统中的几个样表，登记了资源的来龙去脉：采集路径是来龙、共享范围是去脉，还登记了当前位置：资源

责任方、数据库。

我们的信息资源目录引申一点，还可以管理企业的业务流程和对外服务，从而将企业的规划及其流程管理落到实处。

对于这些信息我们还会登记他们的详细描述信息，例如，员工信息我们不仅要在目录中登记员工信息在哪里，还要描述员工信息有哪些关键索引，即图书卡片上不仅要登记图书在哪里，还要登记描述这类图书需要哪些信息，例如：出版社还是杂志社或者报社，最后是自动抽取这些员工内容。

总结一下，惠普信息资源目录有什么用处呢？全生命周期管理是最基础的，是中层管理比较关注的，大视野大局观是最有特色的，也是CIO们是最喜欢的，现在问他们建了那么多年系统，攒了那么多年的数据了，大家都知道数据是企业财富啊，那么企业有哪些有多少数据呢？估计CIO们自己也糊涂，有个信息资源目录就不一样了，资源目录可是看得见摸得着的东西。对一线人员而言，检索、获取数据是主要用处。对整个企业的用处也很好理解：有利于信息资源的揭示和发现，组织管理，规范管理，规范采集和共享，围绕主题的信息整合。总结可以这12个字：领导决策、中层管理、基层使用。

通过惠普信息资源目录我们会发现我们能解决或帮助解决前面的一系列困惑的问题。

惠普信息资源目录的体系由三大部分内容组成：数据编目及管理、数据共享和交换、数据重组和利用，这很好理解，首先对现有企业数据进行登记、在登记基础上进行交换共享，在数据共享基础上完成数据重组和利用，前两者通过产品

实施实现，后者可以通过BI项目实施达成。

技术特点：基于全生命周期管理实现血统分析影响分析、通过资源的登记以及系统的信息挖掘关联分析，我们可以找到系统数据的关联关系，对将来企业的信息化建设提供依据，血统分析是儿子找老子，影响分析是老子找儿子，常说牵一发动全身，这个怎么牵动的，就是通过这个血统分析影响分析得到；采用智能挖掘技术实现实时抓取、实时分析、实时推送，自动抓取目录变化数据、分析、根据需要推送给定制的用户；利用TOGAF架构梳理流程、业务落实到资源业务目录中从而将企业应用推向新高度。

最后说说信息资源目录与其他概念的关系，基于这些关系的分析，我们认为信息资源目录投资回报最大的是那些已经建立了好多信息系统，但没规划过，也没有一个统一的ERP系统，还没有建成数据仓库的企业，当然信息资源目录和这些概念都不冲突，不矛盾，互为补充。