基于计数型布隆过滤器的文本检索模型

————————————

基金项目基金项目：：山东省自然科学基金资助项目(ZR2009GM021)

作者简介作者简介：：冯加军(1981－)，男，工程师、硕士研究生、CCF 会员，主研方向：信息处理；王晓琳，副教授；田青，高级工程师收稿日期收稿日期：：2012-12-28 修回日期修回日期：：2013-02-26 E-mail ：fjjln0818@https://www.360docs.net/doc/4714419822.html,

基于计数型布隆过滤器的文本检索模型

冯加军冯加军，，王晓琳王晓琳，，田青

(山东大学计算机科学与技术学院，济南 250101)

摘要：分布式文本检索系统难以兼顾高效率的数据检索和低成本的索引维护。为此，提出一种基于计数型布隆过滤器的文本检索模型CBFTRM 。该模型将物理节点分为数据节点和索引节点，分别采用结构化P2P 进行网络覆盖。每个数据节点负责存储文档数据并维护与之相应的倒排索引，同时通过倒排索引中的关键词集合计算出计数型布隆过滤器值，发送给相应的索引节点。每个索引节点建立一棵以部分数据节点的特征信息(包括过滤器值)为叶节点、以过滤器值运算结果为内部节点的搜索树，并在叶节点发生变化时对搜索树进行维护。仿真实验结果表明，该模型文档定位快，索引维护通信量小，而且具有较高的查准率。关键词关键词：：计数型布隆过滤器；搜索树；结构化P2P ；文本检索；倒排索引

Text Retrieval Model Based on Counting Bloom Filter

FENG Jia-jun, W ANG Xiao-lin, TIAN Qing

(College of Computer Science and Technology, Shandong University, Jinan 250101, China)

【Abstract 】The distributed text retrieval system is difficult to take both high retrieval efficiency and low cost of index maintenance into account, so this paper proposes a Text Retrieval Model based on Counting Bloom Filter(CBFTRM) to solve the problems above. This model divides the physical node into the data node and the index node, both of which are overlaid with structured P2P network. Each data node is responsible for storing documents, and maintaining the inverted index of the documents. It also transmits the values of Counting Bloom Filter(CBF) which are computed by the inverted index’s keywords to the corresponding index node. Each index node builds a search tree and maintains it when the tree’s leaf node changes. The search tree is built by leaf nodes with the data node’s character(including their counting bloom filter’s value), and its internal nodes with the result computed by the values of counting bloom filter. Simulation result shows that this model locates the document faster, and has less traffic doing index maintenance and higher precision. 【Key words 】Counting Bloom Filter(CBF); search tree; structured P2P; text retrieval; inverted index DOI: 10.3969/j.issn.1000-3428.2014.02.013

计算机工程 Computer Engineering 第40卷第2期 V ol.40 No.2 2014年2月

February 2014

·体系结构体系结构与软件技术与软件技术与软件技术·· 文章编号文章编号：：1000—3428(2014)02—0058—04 文献标识码文献标识码：：A

中图分类号中图分类号：：TP311.13

1 概述

分布式环境下文档资源的存储和共享是P2P 技术的一个重要应用领域，如何通过关键词快速定位文档资源且以较小的开销对其索引进行维护是该领域的一个重要研究方向[1-3]。

近年来，基于Bloom Filter [4](BF)的文本检索系统将关键词检索转换为BF 匹配，具有检索效率高、网络开销小等特点，从而受到业界的普遍关注。文献[5]基于物理节点的关键词BF 值建立查询路由，该方法每个节点需要保存多个其他节点的BF 值，路由表维护开销较大。文献[6]提出了一种基于BF 的B-树检索(BFBT)模型，该模型在物理节点的加入、退出或BF 发生变化时需要通知多个节点进行B-树更新，开销相对较大。

本文提出一种基于改进型BF ——Counting Bloom Filter [7](CBF)的文本检索模型CBFTRM ，该模型将物理节点按照功能分为数据节点和索引节点，分别以结构化P2P [8]进行网络覆盖。数据节点用于存储文档数据并建立相关文档的倒排索引[9]，同时根据倒排索引的关键词集合计算本节点的CBF 值；索引节点收集所管理的数据节点CBF 值，并按照本文中所定义的CBF 运算规则逐层构建搜索树，同时随时根据CBF 值变化对搜索树进行更新。

2 CBFTRM 模型

CBFTRM 模型的目的是以较小的索引维护成本实现P2P 环境下文本资源的快速检索，其核心是构建搜索树，从而利用搜索树完成关键词检索的节点定位，其中，CBF 技术是模型建立的基础。

文本挖掘模型

文本挖掘模型：本特征提取文本挖掘模型结构示意图 1. 分词分词实例：提高人民生活水平：提高、高人、人民、民生、生活、活水、水平分词基本方法：最大匹配法、最大概率法分词、最短路径分词方法 1.1 最大匹配法中文分词在中文信息处理中是最最基础的，无论机器翻译亦或信息检索还是其他相关应用，如果涉及中文，都离不开中文分词，因此中文分词具有极高的地位。正向最大匹配法算法如下图：

实例：S1="计算语言学课程是三个课时"，设定最大词长MaxLen= 5，S2= " " （1）S2=“”；S1不为空，从S1左边取出候选子串W="计算语言学"；（2）查词表，“计算语言学”在词表中，将W加入到S2中，S2=“计算语言学/ ”，并将W从S1中去掉，此时S1="课程是三个课时"；（3）S1不为空，于是从S1左边取出候选子串W="课程是三个"；（4）查词表，W不在词表中，将W最右边一个字去掉，得到W="课程是三"；（5）查词表，W不在词表中，将W最右边一个字去掉，得到W="课程是"；（6）查词表，W不在词表中，将W最右边一个字去掉，得到W="课程" （7）查词表，W在词表中，将W加入到S2中，S2=“计算语言学/ 课程/ ”，并将W从S1中去掉，此时S1="是三个课时"；（8）S1不为空，于是从S1左边取出候选子串W="是三个课时"；（9）查词表，W不在词表中，将W最右边一个字去掉，得到W="是三个课"；（10）查词表，W不在词表中，将W最右边一个字去掉，得到W="是三个"；

（11）查词表，W不在词表中，将W最右边一个字去掉，得到W="是三" （12）查词表，W不在词表中，将W最右边一个字去掉，得到W=“是”，这时W是单字，将W加入到S2中，S2=“计算语言学/ 课程/ 是/ ”，并将W从S1中去掉，此时S1="三个课时"；。。。。。。。。。。。。（21）S2=“计算语言学/ 课程/ 是/ 三/ 个/ 课时/ ”，此时S1=""。（22）S1为空，输出S2作为分词结果，分词过程结束。代码如下： [cpp]view plaincopy 1.#include 2.#include 3.#include 4.#include 5.#include https://www.360docs.net/doc/4714419822.html,ing namespace std; https://www.360docs.net/doc/4714419822.html,ing namespace stdext; 8. 9.class CDictionary 10.{ 11.public: 12. CDictionary(); //将词典文件读入并构造为一个哈希词典 13. ~CDictionary(); 14.int FindWord(string w); //在哈希词典中查找词 15.private: 16. string strtmp; //读取词典的每一行 17. string word; //保存每个词 18. hash_map wordhash; // 用于读取词典后的哈希 19. hash_map::iterator worditer; // 20.typedef pair sipair; 21.}; 22. 23.//将词典文件读入并构造为一个哈希词典 24.CDictionary::CDictionary() 25.{ 26. ifstream infile("wordlexicon"); // 打开词典 27.if (!infile.is_open()) // 打开词典失败则退出程序 28. { 29. cerr << "Unable to open input file: " << "wordlexicon" 30. << " -- bailing out!" << endl; 31. exit(-1); 32. }

关于过滤器压力降的计算公式

关于设计过滤器压力降的具体计算数据关于设计过滤器压力降的具体计算数据 1．根据用户提供该过滤器具体数据如下：压力：30000Pa 通径：DN400 介质：瓦斯丝网：30目流量：80m3/分钟 2．根据表中查得，粘度μ=0.023厘泊(1厘泊=0.001公斤/米?秒)，即得：μ=2.3*10-5公斤/米?秒瓦斯比重p=570kg/米3 首先求得流量: W=80m3/分钟=80*570kg/分钟=2.73×106kg/小时求得流速:V=W//3600P?A米/秒=0.002947306米/秒注:A为管道截面积A=0.7854*D2=0.7854*0.42=0.1256m2 再求得雷诺数:Re.根据公式得: Vdp 0.002947306*0.4*570 Re=--------------=----------------------------=2978.2 64273 μ?g 2.3*10-5*9.81 再求得摩擦系数,根据公式得: f=64/Re=64/2978.264273=0.021489026 根据压力降公式计算如下: △Pf=6.38*10-13fLw2/d5p=6.38*10-13*0.021489026*80*456002/0.45*570 =6.38*10-13*0.021489026*80*2.097*109/5.8368=3.9*10-4 Kg/CM2 注为当量直管段长度DN400 丝网为30目时,L取最小值即 L=80*103mm=80m 再根据HGJ532-91规定过滤器有效过滤面积为相连管道的截面积三倍以上,即得0.125664*4倍=0.502656 根据提供30目丝网标准过滤器面为50%,得 0.502656+0.251328=0.753984m2+滤筒阻力损失 0.2m2=0.953984m2

过滤器选择

过滤器选择系列——恒压载量测试实验Vmax（一）从本期开始，我们将会逐步介绍如何选择符合工艺要求的过滤器。本期的内容是介绍最常用的恒压载量测试实验Vmax ，该实验是一种加速实验。它在很短的时间内用小量体积料液即可确定过滤器的载量，并根据该载量确定在要求的工艺时间内完成一定规模料液过滤的过滤器配置。因此，该实验可以在最短的时间内用最少的成本(包括滤器和料液)，高效的完成预过滤和终端过滤器的配置。但该实验方法仅适用于膜过滤器和表面过滤器，不适用于以吸附机理为主的深层过滤器的放大。通常对于恒定流速的过滤，存在两种堵塞模型(图一，见下期)。一种是压力随时间呈线性上升，我们称之为滤饼过滤。这种堵塞模型通常发生在料液中存在刚性颗粒时，在滤膜上方会形成一个滤饼层，这种堵塞模型不会引起滤膜的完全堵塞，只要提高过滤压力就会不断有滤液滤出。另一种堵塞模型是逐渐堵塞模型，对于这种堵塞情况，会引起滤膜的完全堵塞，在后期增加压力不能使更多滤液滤出。在绝大多数的情况下，特别是对于含生物大分子的料液，膜过滤器和表面过滤器均符合逐渐堵塞模型。对于不符合逐渐堵塞模型的工艺，需要用另一种载量测试实验进行(Pmax 恒流实验)。

图1. 两种堵塞模式下面以一个实际例子来说明如何进行滤膜面积的确定某未经充分预过滤含细小颗粒的原料液直接进行除菌过滤，批量为1000L，要求的工艺时间为2 小时。我们用Millipore Express SHF 0.2μm 膜片进行小规模实验，用时间和t/V 作图，可以做出如下图线。

我们可以从该直线求出Vmax 和Qi Vmax = 1/0.0008 =1250ml 由于该滤膜面积为13.8cm2,所以单位面积Vmax 为1.25L/0.00138 m2= 905.8 L/m2 Qi = 1/0.0056 = 178.6ml/min = 10.7 L/h 单位面积Qi 为10.7L/h / 0.00138 m2 = 7765.2 LMH 因此，在无时间要求时，所需Millipore Express SHF 最小面积为 Amin = Vb/Vmax = 1000L / 905.8 L/ m2= 1.10m2 要求在2 小时内完成过滤，所需Millipore Express SHF 最小面积为 Amin = Vb/Vmax + Vb/(QiTb) = 1000/905.8 + 1000/(7765.2X2) = 1.17m2 在通常情况下，需要在最小面积基础上设定一个1.2~1.5 左右的安全系数。所以在该工艺中一个30”的Millipore Express SHF 滤芯过滤器(实际过滤面积为1.62)，可以满足过滤工艺的要求，安全系数为1.38。过滤器选择系列——恒压载量测试实验Vmax（五）下面以一个实际例子来说明如何进行滤膜面积的确定。某未经充分预过滤含细小颗粒的原料液直接进行除菌过滤，批量为1000L，要求的工艺时间为2 小时。我们用Millipore Express SHF 0.2μm 膜片进行小规模实验，用时间和t/V 作图，可以做出如下图线。我们可以从该直线求出Vmax 和Qi Vmax = 1/0.0008 =1250ml 由于该滤膜面积为13.8cm2,所以单位面积Vmax 为 1.25L/0.00138 m2= 905.8 L/m2

基于布隆过滤器的海量数据查询技术的优化与应用

基于布隆过滤器的海量数据查询技术的优化与应用随着信息技术、数据库和数据仓库技术等的飞速发展,每时每刻都会有海量的数据产生,对于这些数据的采集、清洗、存储、查询等一系列问题得到了越来越多学者和公司的重视,由此一些数据处理系统,如海量数据查询系统也就产生出来。在这个系统中,查找就是确定一个具有特定值的元素是不是一个特定集合的成员。分布式环境下,随着数据量的增加,为保证系统性能,元素的表示、查找方法常常需要从空间存储、查找效率及准确性等方面来进行考虑。本文基于一个用户行为数据分析的案例,搭建海量用户行为数据查询系统来进行分析与说明。首先对海量数据查询系统进行了需求分析,为获得清晰的数据血缘关系、减少重复开发,从理论上对系统数据仓库进行了分层, 对每一层的特点及功能进行了分析,针对每一层的数据流向,设计并实现了原始数据接入模块、原始数据提取模块、付费用户筛选模块等。在整个系统之中,对输入的原始数据进行了采集清洗存储后,在筛选与付费用户筛选模块中,需要在海量数据中判断某账号是否属于付费用户的数据集,布隆过滤器算法提供了一种快速、有效的实现方法。首先简述了直接使用Hive来级联查询的方案,其操作简洁,但解析HiveQL,调用MapReduce程序的过程耗时较长,然后提出使用MongoDB 内存数据库存储付费用户的解决方案,其搜索效率很高;如果使用分布式缓存的方法,把付费用户通过合适的数据结构读入内存,这时需要一对一存取,将不同的数据结构HashSet与布隆过滤器算法的时间复杂度、空间复杂度进行了对比,通过分析及实验知,布隆过滤器占用

少量的存储开销、查找时间复杂度为常数,解决本类问题极为合适,针对其可能产生的错误数据(“假阳性”)提出消除方案,并进行了实验验证。

基于Indri的检索模型

基于Indri 的检索模型研究王莉军（渤海大学辽宁锦州121013）摘要：基于Indri 是开源的检索工具，针对以往单纯的语言模型无法支持结构化查询的目的，我们采用推理网络模型和语言模型两种模型相结合的方法，结合推理网络模型支持比较复杂的结构化查询（结构化通常指查询语言中的用来表达检索文档中词与词之间联系的operators ），和语言模型及平滑技术对推理网络中的一些节点进行有效的预估的优势使查询得到比较好的效果，提出了一套Indri 检索模型。关键词：Indri ；检索；模型；查询中图分类号：N3 文献标识码：A 文章编号：1674－6236（2012）24-0005-03 Indri -based retrieval model WANG Li -jun （Bohai University ，Jinzhou 121013，China ） Abstract:Based on Indri is open source search tools ，according to the previous simple language models cannot support structured query purposes ，we use the inference network model and language model two kinds of model combining method ，combined with the inference network to support more complex SQL （structured query language usually refers to the expression of words and word retrieval document links between operators ），and the language model and smoothing technology to inference network in some node evaluate advantages make the query to get better effect ，put forward a set of Indri retrieval model.Key words:Indri ；search ；model ；query 收稿日期：2012-08-18 稿件编号：201208081 基金项目：辽宁省教育厅项目（2008005）作者简介：王莉军（1975—），女，辽宁锦州人，硕士，讲师。研究方向：计算机教育教学。 Indri 是开源的信息检索工程Lemur 的一个子项目。Indri 是一个完整的搜索引擎，支持各种不同格式文本的索引创建，提出了优秀的文档检索模型，支持结构化查询语言，在研究和实际应用领域都有比较高的价值。Indri 系统采用C++语言编写，提供了方便的API 供使用者调用，由于项目本身开源，对于开发者而言，也可以方便的对其进行二次开发。 1Indri 检索模型 Indri 结合了推理网络模型（Inference net ）和语言模型（language modeling ）的优点，提出了一套检索模型，其利用推理网络模型的优势来支持比较复杂的结构化查询（结构化通常指查询语言中的用来表达检索文档中词与词之间联系的 operators ），又利用语言模型及平滑技术对推理网络中的一些节点进行有效的预估，从而使查询得到比较好的效果[1]。这之前，单纯的推理网络模型节点的预估采用的是规格化的tf.idf （这个值与词在文档中出现的频率称正比，与包含该词的文档数成反比）权重，而单纯的语言模型则无法支持结构化查询。所以Indri 检索模型采用了两种模型相结合的方式[2]。推理网络模型网络图如图1所示，实际上是一个贝叶斯网络（Bayesian networks ）。贝叶斯网络是一个有向，无环图。网络中每个节点代表一个事件，有一个连续或者离散的结果集。每个非根节点存储了一个条件概率表，这个条件概率表完全描述了与给定父节点的情况下该节点出现相关联的结果集的概率。每个与根节点相关联的结果集被指派了一个先验概率。这样在已知网络图，先验概率，条件概率表和节点代表的事件之后，就可以通过网络计算出检索文档中出现查询的概率，并按照这个概率值的大小进行排序输出。主要包含有以下几类节点[3]：电子设计工程 Electronic Design Engineering 第20卷Vol.20第24期No.242012年12月Dec.2012 图1 推理网络模型网络图 Fig.1 Inference network network diagram

过滤器常用计算公式

过滤器常用计算公式缠丝管过水面积计算公式： P:缠丝面孔隙率 d 1：垫筋宽度或直径（mm ） d 2：缠丝直径或宽度（mm ） m 1：垫筋中心距离（mm ） m 2：缠丝中心距离（mm ）石英砂滤料水头损失： 2014m 11h H ））（γ γ（--= γ1：滤料的相对密度（石英砂为） γ：水的相对密度 m 0：滤料膨胀前的孔隙率（石英砂为） H 2：滤层膨胀前厚度（m ）滤料高度为直筒高度的2/3；筒体高度=膨胀高度+填料高度膨胀率：单层石英砂：45%；双层滤料：50%；三层滤料：55% 清洁滤层水头损失： V l d m m g h 02030200)1()1(180φν-= ν：运动粘滞系数（cm 2 /S ）（）

g ：水的重力加速度（981cm/s 2 ） m 0：滤料孔隙率（） d 0：与滤料体积相同的球体直径（cm ） l 0：滤层深度（cm ） v ：滤速（cm/s ） φ：滤料球度系数（）过滤器反冲洗强度计算：单位时间单位滤池面积通过的反冲洗水量称为反冲洗强度q ，通常用L/（）表示，其值与滤料粒径水温孔隙率和要求的膨胀率有关，可用下式进行计算，也可以用试验方法确定。）（） ε（）（）ε（μs .m /11e e 100254.0077.1231054.0131L d q c +++= d c :滤料当量直径(cm) μ：水的动力粘度，g/ ε0:干净滤层的孔隙率根据经验，过滤一般的悬浮物时，要求q 约为12-15L/（）之间，如果过滤油质悬浮物，则要求q 增大至20L/（）或更大。反洗强度测定：）冲洗时间（）滤池面积（）冲洗水量（s m 2?=L w

空气过滤器的能耗计算模型

空气过滤器的能耗计算模型摘要：文章介绍了三种计算空气过滤器能耗的模型，用于估算过滤器的耗能情况,并进行了模拟计算。关键词: 空气过滤器, 压力损失, 能耗 Abstract: The paper introduces three kinds of calculation model of the air filter energy consumption, used to estimate the energy dissipation filter, and by simulation calculation. Key Words: air filter, loss of pressure, energy consumption 引言：在通风系统中，空气过滤器用于过滤空气中的尘粒。普通集中空调系统中，过滤器能耗约占风机总能耗的10％（办公建筑）～30％（制药厂等洁净空调中）[1]。过滤器的能耗与以下几个因素有关：过滤器的数量、类型、气流速度、尘粒的积累程度和过滤器的更换状况等。 River(1996)提出了过滤器压力损失模型，即过滤器总压力损失为空气进出口压力损失和通过过滤器压力损失之和。该模型假定通过过滤器的气流形式为层流，空气进出口压力损失与气流的动压头成比例，通过过滤媒介的压力损失与空气流速成比例[2]。River和Murphy在2000年的研究中又进一步考虑到空气通过过滤媒介被压缩的因素[3]。过滤器的压力损失模型可以利用生产厂家提供的数据建立，当安装日期和气流状况确定后，这个模型理论上可以得到压力损失的精确解。然而在这些模型中都假设气流的温度和压力是恒定的，而许多通风和空调系统的实际运行状况，空气流速是随时间变化的。尽管我们可以根据过滤器寿命期空气的平均流速和平均压力来大致估算过滤器的能耗，但是由于变量之间的非线性关系，得出的结果可能与实际情况相去甚远。本文介绍了三种计算空气过滤器能耗的方法，这些方法可以克服以前的压力损失模型存在的不足，后两种方法还可用来估算过滤器寿命周期和能耗，进行寿命周期成本分析的研究。 1．压力损失模型对于一个选定的过滤器，压力损失模型应该反映空气流速和过滤器尘粒积累程度的影响。为了建立压力损失模型，进行以下假定：对于固定的过滤器尘粒积累度，过滤器的有效面积A，压力损失Δp和空气质量流速m的关系为：

文本信息检索模型

文本信息检索模型齐向华 (山西大学信息管理系　太原　030006) 【摘要】　介绍了目前流行的三种文本信息检索模型(布尔检索模型、概率推理模型、空间向量模型)的基本原理和各自较重要的实用系统,最后对三种模型的优缺点进行了比较。【关键词】　文本信息　检索模型文本信息检索是一个文本与用户提问比较的过程。在各种媒体的信息检索中,文本信息检索是信息用户最主要的需求,也是各类信息检索的基础。目前,主要有三种模型来描述这一过程,即布尔检索模型、概率推理模型、空间向量模型。在具体论述这三种检索模型之前,我们先说明在文本信息检索中所主要处理的问题,既下文所说的检索模型三要素。1　文本信息检索模型三要素 1.1　文本集所谓文本集是指作为检索对象的检索单元的集合。早期文本信息检索基本局限于对二次文献的检索。众所周知,二次文献的建立是由标引人员手工对文献信息进行加工处理,给出检索标识的,其中最具代表性的是现今应用广泛的M A RC磁带。在这种处理过程中,标引的工作量很大,标引质量也因人而异,带有很大的局限性。随着大量且不断变化的各类信息的出现以及相关技术和硬件设备的发展,人们对全文检索系统的需求越来越大,对检索的要求也越来越高。全文检索系统是将全文信息作为检索对象,建立文本集,利用计算机抽取标识符,建立索引,再用全文检索技术实现检索。 1.2　用户提问用户提交问题给检索系统,系统将其作为处理目标,搜寻文本集,得出相匹配的检索结果。用户的问题包括用户感兴感的关键词、自然语言、逻辑关系式等。 1.3　文本与用户提问相匹配文本信息检索过程可以分为三步:首先,根据文本集,生成每一对象内容的表示;其次,根据用户提问,生成用户意见提问表示;最后,比较这两种表示,从文本集中选择最大匹配用户提问的对象。 2　布尔检索模型 2.1　基本原理布尔检索模型是最早也是最简单的一种检索模型,其理论已基本成熟,过去以及现在的许多检索系统,特别是在我国,很多都是采用这种检索模型为工作原理的。在布尔检索模型中,将用户提问表示成布尔表达式,使用逻辑运算符将提问词连接起来,其中每个提问词表达了用户的一个兴趣。其文档组织形式分为两种:顺排文档和倒排文档。顺排文档是检索系统的主文档,它是将规范化的文献记录顺序存储在存储介质(一般是磁带)上,数据量非常大,对它进行检索处理的算法以菊池敏典算法为代表;倒排文档是将文献记录中所有的检索点抽出,经过排序、整理后形成类似索引的文件,对它进行检索处理的算法以逆波兰算法为代表。检索时,检索系统将提问式与文档进行逻辑匹配操作,得出命中文献集合为检索结果。检索结果一般不进行相关性排序。在检索策略的使用方面,以布尔逻辑为基础的文本检索系统可能提供位置检索、截断检索以及自然语言检索等检索手段。除了传统的书目型检索系统外,目前有很多成功的全文检索系统也是采用布尔逻辑模型为其基本的检索技术的。 2.2　WA IS系统 1989年,由A pple Co mputer等美国四家公司联合开发了广域信息服务器WA IS,它是因特网上广泛使用的最强有力的全文检索系统。国际上一些著名的研究机构都采用W A IS建立了各自的全文数据库及检索系统。目前,采用WA IS系统在因特网上建立的全文数据库及检索系统有500多个,涉及到生物、天文、地理等各类信息。 WA IS系统软件在程序结构上由建立索引、实现检索和服务器三部分组成。建立索引时,首先对原始信息进行分析、抽提、整理、归纳,并建成字典库。根据字典库中的所有字、词,建立一个大的倒排档。然后,再根据不同的格式对原始信息集合抽提一个文档以及相应的标题、文字等信息,建立标题文件、资源描述文件、目录文件等多级索引结构。检索时,根据资源描述文件向服务器提交连接请求。 2.3　中文文本信息检索系统中文信息检索的出现大约只有10年的历史,就信息检索技术而论还处于初期发展阶段,市场上已

注意理论之过滤器理论和衰减理论

注意理论之过滤器理论和衰减理论从20世纪60年代以来，心理学家对注意的选择功能进行了大量的研究，提出了一系列理论模型。这些理论解释了注意的选择作用的实质，以及人脑对信息的选择究竟发生在信息加工的哪个阶段上。 1.过滤器理论 1958年，英国心理学家布罗德本特( Broadbent，1958)根据双耳分听的一系列实验结果，提出了解释注意的选择作用的一种理论：过滤器理论。布罗德本特认为：神经系统在加工信息的容量方面是有限度的，不可能对所有的感觉剌激进行加工。当信息通过各种感觉通道进入神经系统时，要先经过一个过滤机制。只有一部分信息可以通过这个机制，并接受进一步的加工;而其他的信息就被砠断在它的外面，而完全丧失了。布罗德本特把这种过滤机制比喻为一个狭长的瓶口，当人们往瓶内灌水时部分水通过瓶颈进入瓶内，而另一部分水由于瓶颈狭小，通道容量有限，而留在瓶外了。这种理论有时也叫瓶颈理论或单通道理论(见下图)。

2.衰减理论过滤器理论得到了某些实验事实的支持，但进一步研究发现，这种理论并不完善。例如，在双耳分听的研究中，有研究发现来自非追随耳的信息仍然受到了加工。基于日常生活观察和实验研究的结果，特瑞斯曼( Treisman，1964)提出了衰减理论。衰减理论主张，当信息通过过滤装置时，不被注意或非追随的信息只是在强度上减弱了，而不是完全消失。特瑞斯曼指出，不同刺激的激活阈限是不同的。有些刺激对人有重要意义，如自己的名字、火警信号等，它们的激活阈限低，容易激活。当它们出现在非追随的通道时，容易被人们所接受(见下图)。

特瑞斯曼的理论与布罗德本特的理论对过滤裝置的具体作用有不同的看法，但两种理论又有共同的地方:①两种理论有相同的出发点，即主张人的信息加工系统的容量有限，因此，对外来的信息必须经过过滤或衰减装置加以调节;②两种理论都假定信息的选择发生在对信息的充分加工之前。只有经过选择以后的信息，才能受到进一步的加工、处理。

过滤器选型计算

精心整理篮式粗过滤器选型计算粗过滤器工艺计算 1.总则本工艺计算依据石油化工管道、泵用过滤器标准计算，参考标准SH/T3411-1999《石油化工泵用过滤器选用、检验及验收》、HG-T21637-1991《化工管道过滤器》。本计算仅适用于过滤器内过滤面积及起始压降计算，过滤器壳体执行GB150标准，不在本计算内。 2.过滤面积计算依据SH/T3411-1999标准，其规定的有效过滤面积定义为：过滤器内支撑结构开孔总面积减去开孔处滤网占据面积的净面积。因此计算有效过滤面积时考虑支撑结构的有效面积以及滤网的有效面积。根据标准要求，永久性过滤器的有效过滤面积与管道截面积之比不小于1.5。本项目的过滤器按照临时过滤器要求，有效过滤面积与管道截面积之比取不小于3.0。 2.1管道截面积计算S1：本项目过滤器进出口管道工程直径DN200，S1=（0.2/2）2×3.14=0.0314m2 2.2过滤器有效过滤面积计算S2：按照标准要求面积比取3，即S2/S1=3，即S2=S1×3=0.0314×3=0.0942m2 2.3过滤器过滤网面积计算按照项目要求，过滤网要求0.8mm，表面积0.45m2。本过滤器选择蓝式滤芯的表面积为0.56m2，滤篮支撑结构开孔率取50%，滤网选24目（可拦截0.785mm以上颗粒），其有效开孔率为56%。因此本项目所选过滤器滤篮的有效过滤面积为S=0.56×0.5×0.56=0.157m2，有效过滤面大于2.2计算结果0.0942m2，因此在过滤面积上满足要求。 3.起始压降计算压降计算按照标准所提供的参考公式计算，其中涉及到的物理量有雷诺数、当量长度、流体密度、黏度等。计算公式：符号说明：

过滤器选型标准

过滤器选型标准 IMB standardization office【IMB 5AB- IMBK 08- IMB 2C】

1. 过滤器（英文filter）介绍根据过滤器的使用位置以及用途，可以分为两类：粗过滤器（英文strainer）和精细过滤器粗过滤器主要应用于泵、流量计、阀门前，以保护设备不受大的金属颗粒磨碎，其精度基本是几百微米以上。精细过滤主要是净化流体，保护工艺安全。其精度范围基本在1微米到30微米之间。按照制造设计要求可以分：压力容器和非压力容器按照压力容器设计和制造的过滤器壳体执行GB150或者ASME标准。非压力容器执行 SH/T3411或HGT 21637标准执行。根据使用介质可分为：气体过滤器和液体过滤器气体过滤器适用于气-固分离流域，可用于气体净化、分成回收等。液体过滤器适用于液-固分离领域，如润滑油过滤、石油化工行业过滤以及污水处理等。 2. 精细过滤器过滤面积：粗过滤器国内有三部行业标准，因此，只要按照标准选型既可满足要求。精细过滤器的过滤面积计算基本上不用公式计算，选形时主要依据的是实验数据，因此，过滤器的选择建议还是让生产厂家来选。

过滤三大曲线：流量压差曲线（ΔP-Q），粒径与过滤比曲线（μ-β），时间与压将曲线（T-ΔP）因此，计算过滤面积时要依据这三个曲线，其中最主要的的是流量压差曲线，这个曲线由有实力的过滤器制造厂进行试验测得。目前最权威的测试方法是多次通过试验：ISO 4572 多次通过试验标准。此试验台价格昂贵，目前国内仅有2-3台。目前国内的小厂家过滤器公司滤芯检测是单次通过实验。过滤面积计算步骤： 1. 确定过滤精度为25微米的过滤比，如200（过滤效率），确定何时滤材 2. 根据给定压降，对滤材进行流量压差测试。得出合适流量（L/min） 3. 根据所得流量，除以试验滤材的面积，计算流速（L/）。 4. 根据流速，和实际应用的流量，确定过滤面积，流量/流速=过滤面积 5. 根据所选用的过滤面积和滤材确定滤芯结构形式，折叠式或圆筒卷绕式篮式粗过滤器选型计算粗过滤器工艺计算 1. 总则本工艺计算依据石油化工管道、泵用过滤器标准计算，参考标准SH/T 3411-1999《石油化工泵用过滤器选用、检验及验收》、HG-T 21637-1991 《化工管道过滤器》。本

运用TRIZ理论提高过滤器的性能

运用TRIZ理论提高过滤器的性能运用TRIZ理论，对某化工厂的糖苷物料过滤器进行组件功能分析、矛盾分析，并使用矛盾矩阵、分离原理等创新工具对问题进行求解，最后给出解决方案。标签：TRIZ理论；过滤器；提高某化工厂生产糖苷，糖和醇在反应釜中反应，生成糖苷及杂质。为了获得糖苷产品，需要对糖苷的产品纯化，对杂质进行过滤得到产品。由于糖苷产品中含有小粒径的不溶性悬浮颗粒物杂质，因此需要在物料纯化的阶段设置过滤装置，用于除去杂质，实现固液分离。在实际运行过程中发现，物料进入过滤器以后，在不锈钢筛网中实现固液分离，物料滤液从过滤器底部通过泵打入储罐，固体杂质留在滤网上。由于杂质颗粒细小，容易堵塞滤网，导致过滤速度降低。过滤器在使用过程中需要频繁拆卸，清洗滤网；物料中有挥发性的组分，会散发气味，物料本身有一定温度，气味随温度的升高而增大；频繁的拆卸清洗会浪费大量的物料。因此，企业提出，希望对过滤装置进行技术改造。 1 TRIZ理论 TRIZ是发明问题的解决理论，是指导人们进行发明创新、解决工程问题的系统化的方法学体系。它是苏联发明家根里奇·阿奇舒勒（G.S.Altshuller）为首的研究团队通过对250万件高水平发明专利进行分析和提炼以后总结出来的。 TRIZ 的核心思想包括：（1）不同行业遇到的问题，采用相同的原理加以解决；（2）产品和技术系统的发展不是随机的，而是按照一定的规律在发展和进化。 TRIZ的核心是消除矛盾和技术系统的进化原理，并建立料基于知识消除矛盾的逻辑化方法，用系统化的解题流程来解决特殊问题或矛盾。运用TRIZ解决问题的一般流程是：首先将一个待解决的实际问题转化为问题模型；然后针对不同的问题模型，应用不同的TRIZ工具，得到解决方案的模型；最后将解决方案模型应用到具体的问题之中，得到问题的解决方案。 TRIZ的问题模型可划分为四种形式：技术矛盾、物理矛盾、物场问题、知识使能问题。 TRIZ中的技术问题可以定义为技术矛盾和物理矛盾。技术矛盾是指为了改善系统的一个参数，导致了另一个参数的恶化。物理矛盾是针对系统的某个参数，提出了两种不同的要求。在解决问题时，最有效的解决方案就是解决技术难题中的矛盾。对于技术矛盾，阿奇舒勒给出了一个矛盾矩阵，矛盾矩阵是一个（40×40）的矩阵，其中第1列为39个可改善的工程参数，第1行为39个会导致恶化的工

信息检索的概率模型-

信息检索的概率模型一、综述一、信息检索技术由于以因特网为主体的信息高速公路的不断普及和发展，信息技术已经渗透到我们社会生活的各个角落，正以前所未有的速度和能力改变着我们的生活的工作方式，我们真正处于一个“信息爆炸”的时代。一方面，因特网上面蕴含的海量信息远远超过人们的想象；另一方面，面对信息的汪洋大海，人们往往感到束手无策，无所适从，出现所谓的“信息过载”和“信息迷向”的现象。于是一个极富挑战性的课题：如何帮助人们有效地选择和利用所感兴趣的信息，尽量剔除不相关的信息。同时保证人们在信息选择方面的个人隐私权利？成为学术界和企业界所十分关注的焦点。随着在线文本的日益增多，其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆。如此众多的信息，仅仅依靠大脑来收集和整理所需要的信息显然是不够的。所以，自动收集和整理所需要的各类信息成为信息产业面临新的挑战和新的发展契机。根据不同的应用背景和不同的使用目的，信息处理技术已经演化信息检索、信息过滤、信息分类、问题回答等方向。由于目前网上信息的表现形式大多数为文本，而且文本也是广大用户所习惯接收的形式。因此我们在下面主要讨论中文文本检索和相关的评价方案。 1、信息检索技术的发展信息检索（Information Retrieval）是指信息按一定的方式组织起来，并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分，即从信息集合中找出所需要的信息的过程。信息检索起源于图书馆的参考咨询和文摘索引工作，从19世纪下半叶首先开始发展，至20世纪40年代，索引和检索成已为图书馆独立的工具和用户服务项目。1945年，Vannevar Bush的论文《就像我们可能会想的……》第一次提出了设计自动的，在大规模的存储数据中进行查找的机器的构想。这被认为是现在信息检索技术的开山之作。进入50年代后，研究者们开始为逐步的实现这些设想而努力。在50年代中期，在利用电脑对文本数据进行检索的研究上，研究者

有关过滤设备的计算实例

过滤设备的计算实例一、前言过滤设备是利用过滤介质（滤布、滤纸、多孔滤材或者砂层等）把含有固体细粒子的悬浮中的液体的固体分开的设备。在过滤介质上推积起来的细小粒子称为滤饼，通过过滤介质的液体称作为滤液，本文简单介绍了过滤没备的分类和有关过滤设备的计算实例。二、过滤设备的分类过滤设备的种类很多，分类方法也有多种，本文以过滤压力来进行分类可以分为以下四类：1、重力式含固体颗粒是悬浮液进入过滤介质的上部，在重力的作用下，液体在过滤介质间流过而固体颗粒被介质捕集在过滤介质的上部（或者在介质内部被捕）形成滤饼。 2、加压式工业上经常使用的板框式压滤机和加压叶片式过滤机均属此种类型。一般过滤介质固定在滤板上，具有一定压悬浮液体进入过滤介质的一侧，液体在压力作用下通过过滤介质的滤板的沟槽流出，固体被截留在过滤介质的另一侧。通常这类滤设备是间歇操作的，但是也有连续操作的加压过滤设备，如连续机械挤压式滤机、连续加压旋转叶片式过滤机等。 3、真空式真空式过滤机一般在滤板的外侧包有过滤介质，而内侧处于真空状态，液体在板的外侧，常常它的过滤面有一部分浸在液体中，如转鼓式真空滤机和旋转叶片真空过滤机，它们在转动中经过了过滤，洗涤，吸干和卸料过程。但也有一类滤机它们的过滤面是水平放置的，如连续水平真空带式过滤机，倾覆盘式过滤机，转台式过滤机等。 4、离心式在一个转动的圆筒内固定有过滤介质，悬浮液进入转鼓，在离心力的作用下滤液通过过滤介质流出转鼓，滤饼留在转鼓内。滤饼的排出可以是间歇的（上悬式三足离心机）也可以是连续的（刮刀卸料的离心过滤机），所发离心式过滤机也可以分为间歇式和边续式两大类。

基于计数型布隆过滤器的文本检索模型

———————————— 基金项目基金项目：：山东省自然科学基金资助项目(ZR2009GM021) 作者简介作者简介：：冯加军(1981－)，男，工程师、硕士研究生、CCF 会员，主研方向：信息处理；王晓琳，副教授；田青，高级工程师收稿日期收稿日期：：2012-12-28 修回日期修回日期：：2013-02-26 E-mail ：fjjln0818@https://www.360docs.net/doc/4714419822.html, 基于计数型布隆过滤器的文本检索模型冯加军冯加军，，王晓琳王晓琳，，田青 (山东大学计算机科学与技术学院，济南 250101) 摘要：分布式文本检索系统难以兼顾高效率的数据检索和低成本的索引维护。为此，提出一种基于计数型布隆过滤器的文本检索模型CBFTRM 。该模型将物理节点分为数据节点和索引节点，分别采用结构化P2P 进行网络覆盖。每个数据节点负责存储文档数据并维护与之相应的倒排索引，同时通过倒排索引中的关键词集合计算出计数型布隆过滤器值，发送给相应的索引节点。每个索引节点建立一棵以部分数据节点的特征信息(包括过滤器值)为叶节点、以过滤器值运算结果为内部节点的搜索树，并在叶节点发生变化时对搜索树进行维护。仿真实验结果表明，该模型文档定位快，索引维护通信量小，而且具有较高的查准率。关键词关键词：：计数型布隆过滤器；搜索树；结构化P2P ；文本检索；倒排索引 Text Retrieval Model Based on Counting Bloom Filter FENG Jia-jun, W ANG Xiao-lin, TIAN Qing (College of Computer Science and Technology, Shandong University, Jinan 250101, China) 【Abstract 】The distributed text retrieval system is difficult to take both high retrieval efficiency and low cost of index maintenance into account, so this paper proposes a Text Retrieval Model based on Counting Bloom Filter(CBFTRM) to solve the problems above. This model divides the physical node into the data node and the index node, both of which are overlaid with structured P2P network. Each data node is responsible for storing documents, and maintaining the inverted index of the documents. It also transmits the values of Counting Bloom Filter(CBF) which are computed by the inverted index’s keywords to the corresponding index node. Each index node builds a search tree and maintains it when the tree’s leaf node changes. The search tree is built by leaf nodes with the data node’s character(including their counting bloom filter’s value), and its internal nodes with the result computed by the values of counting bloom filter. Simulation result shows that this model locates the document faster, and has less traffic doing index maintenance and higher precision. 【Key words 】Counting Bloom Filter(CBF); search tree; structured P2P; text retrieval; inverted index DOI: 10.3969/j.issn.1000-3428.2014.02.013 计算机工程 Computer Engineering 第40卷第2期 V ol.40 No.2 2014年2月 February 2014 ·体系结构体系结构与软件技术与软件技术与软件技术·· 文章编号文章编号：：1000—3428(2014)02—0058—04 文献标识码文献标识码：：A 中图分类号中图分类号：：TP311.13 1 概述分布式环境下文档资源的存储和共享是P2P 技术的一个重要应用领域，如何通过关键词快速定位文档资源且以较小的开销对其索引进行维护是该领域的一个重要研究方向[1-3]。近年来，基于Bloom Filter [4](BF)的文本检索系统将关键词检索转换为BF 匹配，具有检索效率高、网络开销小等特点，从而受到业界的普遍关注。文献[5]基于物理节点的关键词BF 值建立查询路由，该方法每个节点需要保存多个其他节点的BF 值，路由表维护开销较大。文献[6]提出了一种基于BF 的B-树检索(BFBT)模型，该模型在物理节点的加入、退出或BF 发生变化时需要通知多个节点进行B-树更新，开销相对较大。本文提出一种基于改进型BF ——Counting Bloom Filter [7](CBF)的文本检索模型CBFTRM ，该模型将物理节点按照功能分为数据节点和索引节点，分别以结构化P2P [8]进行网络覆盖。数据节点用于存储文档数据并建立相关文档的倒排索引[9]，同时根据倒排索引的关键词集合计算本节点的CBF 值；索引节点收集所管理的数据节点CBF 值，并按照本文中所定义的CBF 运算规则逐层构建搜索树，同时随时根据CBF 值变化对搜索树进行更新。 2 CBFTRM 模型 CBFTRM 模型的目的是以较小的索引维护成本实现P2P 环境下文本资源的快速检索，其核心是构建搜索树，从而利用搜索树完成关键词检索的节点定位，其中，CBF 技术是模型建立的基础。

水处理设备常用计算公式

水处理设备常用计算公式基础数据：直径(D)、填高(H)、流速(S)、比重(ρ)、体积(V)、重量(G)、出水量(Q)、原水硬度(C)、原水含盐量(Y)、再生周期(T)、再生剂耗量[工业盐(F1)、盐酸(F2)、氢氧化钠(F3) ] 活性炭9元/公斤，石英砂0.7元/kg，树脂9元/kg 机械过滤器一般流速S=8m/h 活性炭过滤器一般流速S=8-10m/h 钠床、阳床、阴床一般流速S=15-20m/h 混床一般流速S=30-40m/h 石英砂比重ρ＝1800Kg/m3 活性炭比重ρ＝450Kg/m3 阳树脂比重ρ＝820Kg/m3(漂莱特) 阴树脂比重ρ＝700Kg/m3(漂莱特) 阳树脂交换容量800mmol/m3 阴树脂交换容量300mmol/m3 1、过滤器：滤料体积V=0.785×D2×H 滤料重量G=V×ρ 出水量Q=0.785×D2×S 2、钠床：(阳树脂) 滤料体积V=0.785×D2×H 滤料重量G=V×ρ 出水量Q=0.785×D2×S 再生周期T＝V×800×50÷C÷Q 再生剂耗量－工业盐F1＝V×800×1.8×0.0585

3、阳床：(阳树脂) 滤料体积V=0.785×D2×H 滤料重量G=V×ρ 出水量Q=0.785×D2×S 再生周期T＝V×800×58.5÷Y÷Q 再生剂耗量－盐酸F2＝V×800×3×0.0365÷0.35 4、阴床：(阴树脂) 滤料体积V=0.785×D2×H 滤料重量G=V×ρ 出水量Q=0.785×D2×S 再生周期T＝V×300×58.5÷Y÷Q 再生剂耗量－氢氧化钠F3＝V×300×4×0.04 5、混床： (阳、阴树脂比例为1：2；筒体直径<500mm填料高度为1350；筒体直径>500 mm 填料高度为1800：) 阳树脂体积V1=0.785×D2×H÷3 阳树脂重量G1=V1×ρ 阴树脂体积V2=0.785×D2×H×2÷3 阴树脂重量G2=V2×ρ 出水量Q=0.785×D2×S 再生周期T＝V2×300×58.5÷Y÷Q 再生剂耗量－盐酸F2＝V1×800×3×0.0365÷0.35 再生剂耗量－氢氧化钠F3＝V2×300×4×0.04