语义查询扩展中词语-概念相关度的计算

语义查询扩展中词语-概念相关度的计算
语义查询扩展中词语-概念相关度的计算

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.360docs.net/doc/334658867.html,

Journal of Software, Vol.19, No.8, August 2008, pp.2043?2053 https://www.360docs.net/doc/334658867.html, DOI: 10.3724/SP.J.1001.2008.02043 Tel/Fax: +86-10-62562563

? 2008 by Journal of Software. All rights reserved.

?

语义查询扩展中词语-概念相关度的计算

田萱1,2,3, 杜小勇1,2+, 李海华1,2

1(教育部数据工程与知识工程重点实验室,北京 100872)

2(中国人民大学信息学院,北京 100872)

3(北京林业大学信息学院,北京 100083)

Computing Term-Concept Association in Semantic-Based Query Expansion

TIAN Xuan1,2,3, DU Xiao-Yong1,2+, LI Hai-Hua1,2

1(Key Laboratory of Data Engineer and Knowledge Engineer for the Ministry of Education, Renmin University of China, Beijing 100872,

China)

2(School of Information, Renmin University of China, Beijing 100872, China)

3(School of Information Science & Technology, Beijing Forestry University, Beijing 100083, China)

+ Corresponding author: E-mail: duyong@https://www.360docs.net/doc/334658867.html,

Tian X, Du XY, Li HH. Computing term-concept association in semantic-based query expansion. Journal of

Software, 2008,19(8):2043?2053. https://www.360docs.net/doc/334658867.html,/1000-9825/19/2043.htm

Abstract: In semantic-based query expansion, computing term-concept association is a key step in finding

associated concepts to describe the needed query. A method called K2CM (keyword to concept method) is proposed

to compute the term-concept association. In K2CM, the attaching relationship among term, document and concept

together with term-concept co-occurrence relationship are introduced to compute term-concept association. The

attaching relationship derives from the fact that a term is attached to some concepts in annotated corpus, where a

term is in some documents and the documents are labeled with some concepts. For term-concept co-occurrence

relationship, it is enhanced by the text distance and the distribution feature of term-concept pair in corpus.

Experimental results of semantic-based search on three different corpuses show that compared with classical

methods, semantic-based query expansion on the basis of K2CM can improve search effectiveness.

Key words: semantic-based query expansion; concept; ontology; term-concept association

摘要: 在基于语义的查询扩展中,为了找到描述查询需求语义的相关概念,词语-概念相关度的计算是语义查询

扩展中的关键一步.针对词语-概念相关度的计算,提出一种K2CM(keyword to concept method)方法.K2CM方法从词

语-文档-概念所属程度和词语-概念共现程度两个方面来计算词语-概念相关度.词语-文档-概念所属程度来源于标

注的文档集中词语对概念的所属关系,即词语出现在若干文档中而文档被标注了若干概念.词语-概念共现程度是

在词语概念对的共现性基础上增加了词语概念对的文本距离和文档分布特征的考虑.3种不同类型数据集上的语

义检索实验结果表明,与传统方法相比,基于K2CM的语义查询扩展可以提高查询效果.

关键词: 语义查询扩展;概念;本体;词语-概念相关度

? Supported by the National Natural Science Foundation of China under Grant Nos.60496325, 60573092 (国家自然科学基金)

Received 2007-02-14; Accepted 2007-08-24

2044 Journal of Software软件学报 V ol.19, No.8, August 2008 中图法分类号: TP311文献标识码: A

在信息检索领域,查询扩展(query expansion,简称QE)早在20世纪60年代以前就有人提出[1],是公认的能够有效提高查全率的技术之一.其基本思想是利用与查询关键词相关的词语对查询进行修正,以找到更多相关文档,提高查全率.然而,基于关键词的传统查询扩展方式常常会带来许多语义理解错误,文献[2]中称其为词语问题(vocabulary problems),如,同义词问题(synonyms)、歧义问题(polysemy)、异体问题(lemmas)、准同义问题(quasi-synonyms)等,在提高查全率的同时难以保证查准率.

产生词语问题的根本原因在于,人们在现实生活中描述同样的对象或事件的用词存在着多样性,例如,单车和脚踏车都是对自行车这一概念的称谓.为解决这个问题,人们提出了基于概念的语义查询扩展(semantic- based QE),用概念来描述查询主旨,找到与查询语义相关的概念对查询进行扩展[3,4],因为概念是专门用来描述现实世界对象的,概念、词语和现实世界对象三者具有如图1所示的对应关系.基于概念,可以消除现实世界中人们对同一真实对象的不同表达方式之间的差异.

Fig.1 Relationships of words/terms, concepts and objects

图1 词语、概念和对象三者之间的关系

在基于概念的语义查询扩展中,查询通常采用自然语言来描述,因此,如何找到语义相关的概念集描述查询主旨成为一个主要问题.词语-概念相关度词典(association thesaurus)[5]是一个以词语(word/term)和概念(concept)语义相关程度为元素的矩阵,是找到描述查询主旨相关概念的基础.其中,词语-概念语义相关程度的确立是一个中心环节,这就是语义查询扩展中词语-概念相关度的计算问题.针对这个问题,本文提出一种K2CM (keyword- to-concept method)方法,从两个角度描述词语-概念相关度:一方面,针对当前基于本体对文档进行标注的资源组织形式,考虑词语通过文档和概念构成的所属关系,利用词语-文档-概念所属程度描述词语-概念相关度;另一方面,在利用传统词语-概念共现程度描述词语-概念相关度时,考虑词语概念对(term-concept pair)的文本距离和分布特征的影响,以找到与查询语义主旨匹配的概念.

本文第1节介绍相关研究工作.第2节介绍K2CM方法.第3节将K2CM与其他词语-概念相关度计算方法进行对比分析.第4节描述基于K2CM的语义查询扩展在概念检索中的具体实现.第5节给出实验结果和分析.第6节对本研究工作进行总结.

1 相关研究工作

1.1 语义查询扩展

按照来源的不同,语义查询扩展的方法主要分为两类,一类是基于语义关系/语义结构的方法,另一类是基于大规模语料库的方法.

基于语义关系/语义结构的方法常常依据已有的词典/本体,如WordNet(https://www.360docs.net/doc/334658867.html,/), HowNet(https://www.360docs.net/doc/334658867.html,/),以及领域词典/本体,如医学领域的MeSH(medical subject headings, https://www.360docs.net/doc/334658867.html,/mesh/)、计算机科学领域的ACMCCS(ACM computer classification system, https://www.360docs.net/doc/334658867.html,/class/)等.这类方法忽略了用户使用查询关键词存在多样性,查询关键词可能在词典/本体之

田萱等:语义查询扩展中词语-概念相关度的计算2045

外这一事实,前提条件假设查询关键词都来源于词典/本体,即都属于受控词(controlled words)范畴.

基于语料库的方法不存在上面的问题,因为用户查询关键词和语料库词源都来源于现实生活,因而可以认为来源一致.语料库方法的基本思想源于语料库中共现性大的词语往往相关性也很大[6].共现性分析往往基于对文档整体或对文档片断(snippet)的分析,主要分为3种:局部分析(local analysis)、局部上下文分析(local context analysis,简称LCA)和全局分析(global document analysis)[4,7].局部分析是从检索结果集的top-k文档中找到出现频率最大的词语(the most frequent term)作为扩展词语;局部上下文分析是从检索结果集的top-k文档中找到与查询词语共现度最大的top-n个词语作为扩展词语;全局分析是从检索文档集中找到与查询共现程度大的词语作为扩展词语.

局部分析和局部上下文分析同属于伪反馈(pseudo feedback)的情况,即假设检索结果集的top-k文档与查询相关.然而,若这个假设条件并不满足,则查询扩展的结果往往有很大偏差,会带来“查询漂移”(query drift)问题,即查询扩展后的主旨偏离了原本的查询意图[8].

全局分析方法计算量较大,但可以在预处理阶段完成,因此并不影响检索效率.本文提出的K2CM方法即是一种全局分析方法.

另外,用户反馈是一种公认的效果较好的查询扩展来源[9],如点击浏览过的文档、保存打印的网页、查询日志[10]等,尤其是用户对检索结果相关程度的判断.

1.2 词语-概念相关度的计算

为了找到相关概念,局部上下文分析和全局分析都需要计算词语-概念相关度[5,7].有的研究则是利用相似性来代替相关性[11,12].必须指明的是,查询扩展的目的是尽可能同时提高查全率和查准率,利用与查询语义相关度大的概念是主要途径,而相似度大的概念往往相关度也很大,因此也有助于提高查全率和查准率.计算相似性的方法有很多,如余弦相似度、Dice相似度等,这些方法的前提假设是词语之间是完全独立的.

相关度计算的主要途径是利用文档集中词语间共现性的统计数据.这种方法来源于这样一种直觉,即在语料库中经常共同出现的词语往往相关度很大.分析共现性时,可以采用词语粒度、短语粒度[7]、概念粒度[4,13]等.在语义查询扩展中,概念粒度是最为常见的方式.概念可以来源于文档中的词语聚类[3,4,14]或是本体上已有的概念[15].

另外,信息熵[16]、句法上下文[17,18]等也是相关度计算的依据.然而,这些方法大都是利用文档或文档片断中包含的内容信息,忽略了从文档外部观察文档、概念、词语之间的关系.例如,经过语义标注后的文档(如语义Web)成为概念的实例,词语通过文档和概念构成一种所属关系,这种所属关系从另一个角度说明了词语与概念的相关程度.

2 K2CM方法

随着语义Web和本体技术的发展,大家普遍认为按照本体标注和组织资源可以方便计算机之间基于语义的交换和处理[19].人们根据本体为越来越多的文档资源添加语义信息,对文档内容中的概念进行标注,以及把文档标注到1个或多个概念类别下作为实例是其中最为常见的操作[12,20].针对经过标注的这类文档,K2CM方法在计算词语-概念相关度时从两个角度考虑,一方面基于词语-文档-概念的所属关系;一方面基于有效窗口的局部共现性,用两者的相互作用来衡量词语-概念相关度.

为便于下面进行说明,先进行以下假设表示:设文档集为D,其中的文档数目为M;用来标注该文档集的本体概念集合为C,其中有N个概念.d j(j=1,…,M)表示文档集D中第j个文档,c i(i=1,…,N)表示概念集合中第i个概念.Q=(q1,…,q K)表示给定的查询,q k(k=1,…,K)表示查询中的一个关键词.

2.1 基于词语-文档-概念的所属关系的考虑

经过本体标注后,文档被标注到1个或多个概念类别下,成为本体概念下的实例.这时,文档到概念存在所属关系,同时文档中的词语到概念也存在所属关系,这种所属关系蕴含着词语-概念的相关关系,如图2所示.

2046

Journal of Software 软件学报 V ol.19, No.8, August 2008

Fig.2 Attaching relationships of words/terms, documents and concepts

图2 词语、文档、概念之间的所属关系

在词语-文档-概念的所属关系中,一个词语可能被包含在多个文档中,而每个文档又属于1个或多个概念类别,通过统计包含词语的文档所属的概念类别,可以统计出这个词语对不同概念类别的所属程度,这种所属程度从另外一个角度说明了词语-概念间的相关关系.

下面我们给出3个直觉假设,来说明一个词语对一个概念的所属关系.

假设1:一个词语通过文档映射到的概念个数越多,它对单个概念的所属程度越低.

假设2:一个词语在一个概念下属文档中的词频越高,它对这个概念的所属程度越高.

假设3:一个词语在一个概念下属的越多文档中存在,它对这个概念的所属程度越高.

假设1是从词语在概念空间的分布情况来分析.根据直觉,一个词语与越多的概念关联,它对概念的区分性就越不明显,它与概念的关联程度也就越低.

假设2是从词语在一个概念下的文档空间中出现的频率来分析.这里,我们选择基于词语的统计粒度,而不是基于文档的统计粒度,即把词语在一个概念下的文档空间的词频作为统计量,而不是把一个概念下的文档空间出现该词语的文档数目作为统计量.这样考虑的原因在于,如果只考虑文档数目,粒度太粗,词语对概念的所属程度区分性不强;而如果按照词语在该概念下的文档空间的词频统计,粒度细,区分性强,则可以更准确地刻画这个词对概念的所属程度.例如,如图3所示,两个词语k 1和k 2,它们属于概念c 1的文档数目相等(都是2个),如果按文档粒度统计,它们对这个概念的所属程度相同;但如果按照词频统计,k 1的词频比k 2大,则k 1对c 1的所属程度比k 2对c 1的所属程度要大,这样,不同词语对相同概念的所属程度更具区分性.

Fig.3 An example of two terms in the same amount documents of a concept

图3 一个概念下属于相同数目文档的两个词语举例

假设3从词语在一个概念下的文档空间中的分布情况来分析.直觉上,词语在概念下属的越多文档中存在,说明它在这个概念中分布得越均匀,也就是说,它与概念的所属关系被越多的文档承认,因而它对这个概念的所属程度也就越高.

基于以上3个假设,我们给出词语对概念所属程度权值(attaching weight)的计算方法.

设d m ∝c i 表示文档d m 是概念c i 的实例;D i 表示概念c i 下的文档空间,即D i ={d m |d m ∈D ∧d m ∝c i };count (q k ;d m )表示

词语q k 在文档d m 中出现的次数;len (d m )表示文档d m 的长度;,(;)()m i

k m k i d D m count q d tf len d ∈=∑表示词语q k 通过文档

田萱 等:语义查询扩展中词语-概念相关度的计算 2047 映射到概念c i 的词频统计量;n k 表示q k 根据文档-概念关系映射到概念上的概念数目;l i 表示c i 概念下文档的数目,即c i 概念下的文档空间大小;l k ,i 表示词语q k 出现在c i 概念下文档空间中的文档数目.根据上面3个假设,我们给出公式(1)来计算词语q k 对概念c i 所属程度的权值aw k ,i .

, ,,log 1.0log 1.0k i k i k i k i l N aw tf n l ???=+??+?????????

(1) 2.2 基于有效窗口内共现性的考虑

有许多基于共现性发现词语-概念相关度的研究,如在每篇文档中的共现性,段落中的共现性以及句子中窗口中的共现性等[21].这里,我们把整个文档集看作一篇大的文档,在尽量短而又有意义的窗口(文献[22]称之为有效窗口)内扫描词语-概念在这篇文档中的共现性.有效窗口的确定可以采用文献[22]的建议,即以词语为核心,汉语语料库中位置为[?8,9]和英语语料库中位置为[?16,13]的窗口.

用cw k ,i 表示词语q k 和概念c i 的共现程度权值(co-occurrence weight).根据直觉,给出以下3个假设来计算cw k ,i .

假设4:一个词语-概念对在整个文档集中出现的次数越多,它们的共现程度越强.

假设5:一个词语-概念对在文档中出现的物理位置越近,它们的共现程度越强.

假设6:一个词语-概念对分布于越多的不同文档中,它们的共现程度越强.

根据这3个假设,我们给出公式(2).

,,,,log 1.0log( 1.0)k i k i k i k i m tpf M cw avgdist ???+???=+? (2) 其中,, 1...(,;),Max ((,;))

k i k i j N k j count q c W tpf count q c W ==表示词语-概念对(q k ,c i )在文档集中出现的频率(term-concept pair frequency),count (q k , c j ; W )表示词语-概念对(q k ,c i )在文档集中按W 大小的窗口扫描出现的次数;m k ,i 表示词语-概念对(q k ,c i )在文档集中出现的文档数目;avgdist k ,i 表示词语-概念对在W 大小窗口中位置距离的平均值.

然而,文档是由词语构成的,并不是概念.如果单纯统计概念c i 自身的词语,会产生许多误差.例如,“他昨天在中关村买了台PC 机”这句话中实际也包含了词语“中关村”和概念“计算机”的共现关系(假设某本体中PC 机不是概念).因此,在统计词语-概念共现度时不能只包含概念c i 自身的词语,要尽可能包含概念c i 的同义词、入口词(entry item)等.据此,对公式(2)进行如下改进:

假设Γi 为概念c i 的同义词集,t ij ∈Γi ,j =1,...,|Γi |,其中t ij 是概念c i 的同义词或入口词(entry item).词语q k 和概念c i 的共现程度权值cw k ,i 可按如下公式进行计算:

,,,1,...,||,log 1.01.0||log( 1.0)

i k ij k ij k i j i k m tpf M cw avgdist ΓΓ=???+???=+∑ij ? (3) 其中,,1,...,,1,...,||(,;),Max ((,;))

h k ij k ij h N k hp p count q t W tpf count q t W Γ===表示(q k ,t ij )在文档集中出现的频率(term-concept pair frequency),

count (q k ,t ij ;W )表示(q k ,t ij )在文档集中按W 大小的窗口扫描出现的次数;m k ,ij 表示(q k ,t ij )在文档集中出现的文档数目;avgdist k ,ij 表示词语-概念对(q k ,t ij )在W 大小窗口中位置距离的平均值.

2.3 词语-概念相关度的计算

对于一个词语q k 和一个概念c i 的相关度,aw k ,i 从q k 经过文档映射到c i 的所属关系中分析,cw k ,i 从两者在有效窗口的共现性角度分析.下面,我们把这两个因素综合起来评价词语-概念相关度.

这里我们忽略共现性与所属性对词语-概念相关度的贡献性差别,即认为两者对词语-概念相关度具有相同的影响力.同时,考虑到共现性和所属性都是对相关性的一种描述,两种因素相互作用的结果更能有效说明词语

2048 Journal of Software 软件学报 V ol.19, No.8, August 2008 与概念相关程度的强弱.所以,我们采用两种因素直接相乘的方式来定义词语-概念相关度(term-concept association)tca k ,i ,如公式(4)所示.

k i k i k i tca cw aw =?,,, (4)

值得强调的是,计算词语-概念相关度的目的是找到那些与查询关键词语义相关的概念,从而用来描述整个查询的语义主旨.因此,采用两个因素相乘的方法可以突出和查询关键词语义相关度大的那些概念,即关键词和它们的共现度与所属度都相对较大的概念.

3 K2CM 和其他方法的对比

表1对K2CM 和其他几种具有代表性的词语-概念相关度计算方法进行了对比分析.与其他方法相比, K2CM 最显著的特点是,一方面根据被标注文档中存在的词语-文档-概念所属关系,一方面根据有效窗口的全局共现性,把两者结合起来计算词语-概念相关度.

Table 1 Comparisons of K2CM with other methods of computing term-concept association

表1 K2CM 与其他词语-概念相关度计算方法的对比

Title of referring paper

Expansion source Granularity of analysis Expansion method Concept based query

expansion [3]

Whole document sets Co-Occurrence of documents “within” terms Constructing term-term similarity thesaurus Improving the effectiveness of

information retrieval with local

context analysis [7,23]

Top-ranked documents Local co-occurrence of terms and clusters (concepts) Constructing term-cluster co-occurrence thesaurus automatically generated query

concepts from a document space [4]

sets, retrieved documents Term clusters in sentences similarity of term-cluster by cosine method This paper Whole annotated document sets,

ontology Global co-occurrence of term-concept pair, attaching relationship of term- document-concept Constructing association thesaurus of term-concept

4 查询-文档相关度的计算

语义查询扩展的目的是找到与查询整体语义主旨相关的概念进行扩展[3].K2CM 方法计算的是一个词语和本体中一个概念的语义相关度,目的是构建出词语-概念相关度词典(association thesaurus)[5],应用于语义查询扩展中.这里,我们还必须要考虑到如何根据词语-概念相关度词典计算查询整体和概念的语义相关程度(即查询-概念相关度).因为如果只单纯把一个词语的相关概念引入查询扩展,而忽略查询中其他词语的影响,反而会使查询需求描述变得模糊,发生查询漂移之类的问题.例如,在英语中,“program”与“computer”紧密相关,但对“TV program”这一有关电视节目查询,就不适合把“computer”加入到查询扩展中.

检索过程是文档与查询一一匹配的过程.概念检索中,文档按照概念索引,同时查询用概念来描述.因此,如何基于概念计算查询与文档相关的程度(即查询-文档相关度)是检索过程中的主要环节.需要指出的是,传统向量空间模型中的余弦相似度方法并不适合基于概念的查询-文档相关度计算,因为向量空间模型的前提假设在于词语之间是正交无关的,而概念的最大特点是概念之间具有语义相关性.

下面介绍语义查询扩展在概念检索中的实现过程,主要包括查询-概念相关度(query-concept relevance)的计算和查询-文档相关度(query-document relevance)的计算.

4.1 查询-概念相关度的计算

根据K2CM 建立的词语-概念相关度词典,对查询Q =(q 1,…,q K ),可以得到相应的一个查询关键词-概念相关度矩阵(keyword-concept correlation matrix,简称KC-CM),如公式(5)所示.其中,一个行向量(keyword-concept correlation vector,简称KC-CV)描述了一个查询关键词和本体中所有概念的相关度,tca i ,j 描述了关键词q i 与概念c j 的相关度.

田萱 等:语义查询扩展中词语-概念相关度的计算

2049

N N ?k i (5) 1,11,,1,,1,......-......N k k K K tca tca tca tca KC CM tca tca ??????????=???????????

对查询-概念相关度(query-concept relevance)的计算,可以按照线性组合把查询看成一个整体,表示成各个词语的概念向量的线性组合(,)i qcr Q c [3,7],如公式(6)所示.

, 1..(,)i k k K qcr Q c w tca ==

∑ (6)

其中,w k 表示关键词q k 在查询Q 中的权重.设置w k 的方法有许多,如经典的Rochio 方法、Ide 方法等[1].本文实验中采用了Rochio 方法.

根据查询与N 个概念的查询-概念相关度qcr (Q ,c i ),可选择出top-n 个概念作为对查询Q 的概念描述.对n 的确定、按阈值选择或指定个数是研究中常采用的方法[4,24],本文实验中采用指定个数的方法.

4.2 查询-文档相关度的计算

由于本体中概念之间具有语义相关性,所以,基于概念计算查询-文档相关度时必须考虑到概念两两之间的相关性.假设已知概念c i 和c j 之间相关度(concept-concept association)cca (c i ,c j ),查询Q 由N 维概念向量(c 1,c 2,…,

c N )描述,文档

d m 由N 维概念向量12(,...,,...,)N c c c ′′′描述.我们按照公式(7)计算查询-文档相关度(query-document

relevance)qdr (Q ,d m ).

1,...,1,...,(,)(,)m i j i N j N qdr Q d cca c c γη==i j ′=

∑∑ (7)

其中,γi 表示概念c i 在查询Q 中的权重,本文实验中令γI =qcr (Q ,c i ).ηj 表示概念j c ′在文档d m 中的权重,可以按照 传统的求词语在文档中权重的方法(如TF ×IDF,Okapi BM250方法)来获得[1].但计算ηj 的前提是文档已经按照本体概念建立概念索引,或文档内容已经按照本体概念被标注过.本文实验中按照本体中概念词自身、同义词和入口词来标注文档内容,建立概念索引,ηj 的设置采用了经典的TF ×IDF 方法.

这种基于概念相关度计算查询-文档相关度方法的关键前提是需要事先知道本体上任意两个概念c i 和c j 之间的相关度cca (c i ,c j ).关于这个问题有许多公开方法和相关应用,如文献[15,25?27],鉴于这不是本文研究的重点,这里不再进行介绍,本文实验中采用了文献[27]的方法.

5 实验评价

5.1 实验设置

为了便于考察不同本体规模对K2CM 的影响,实验中采用了3个不同规模的本体,一个是通用本体WordNet,另外两个是领域本体―― 经济学领域本体EO(economic ontology)和计算机科学领域本体ACMCCS98(ACM Computer Classification 98).WordNet 是为大家所广泛采纳的通用本体,WordNet 的读取采用了SourceForge 开放源码社区提供的JWNL 接口(https://www.360docs.net/doc/334658867.html,/projects/jwordnet);EO 是NSFC 资助项目“通用网上知识编辑器及示范主题语义网研究”的一部分成果,基本涵盖了经济学领域的重要概念和关系;ACMCCS98 (https://www.360docs.net/doc/334658867.html,/class/1998/)是ACM 推荐的计算机科学领域的分类体系(是经历了ACMCCS64,ACMCCS91后的最新版本,ACM 2006年推荐版本),也包括了基本的同义和关联关系,因此,这里把它作为计算机科学的领域本体.3个本体的统计信息详见表2.

2050

Journal of Software 软件学报 V ol.19, No.8, August 2008

Table 2 Statistic data of the three ontologies

表2 3个本体的统计数据

Ontology Name # of Concepts

WordNet 145 104

EO 9 470

ACMCCS98 1 433

对应于3种不同的本体,相应采用的检索文档集/语料库有3个,一个是美国国家标准技术局(National Institute of Standards and Technology,简称NIST)于2004年公开发布的TREC2001 Filtering Track 中使用的Reuters 数据集(https://www.360docs.net/doc/334658867.html,/papers/volume5/lewis04a/lyrl2004_rcv1v2_README.htm),另一个是来源于人民大学数字图书馆中部分被标注的有关经济学的文档资源(只有论文标题),还有一个是经过ACM 数字图书馆元数据(https://www.360docs.net/doc/334658867.html,/portal.cfm)标注后的DBLP 数据库(http://dblp.uni-trier.de/xml/)的资源(只有论文摘要).3个文档集的统计信息详见表3.

Table 3 Statistic data of the three corpuses

表3 3个文档集的统计数据

Corpus name

# of documents Average # of words per Doc Average # of annotated concepts per Doc Language DLPers 785 426 8.2 5.3 Chinese

DBLP 19 229 169.7 80.5 English 我们在3个数据集上分别构建了10个查询进行检索,人工对返回的前20个结果文档的相关性进行评价,评价原则和结果的评测指标参见第5.3节.

5.2 实验对比方法

鉴于K2CM 方法适用于基于概念的语义检索,因此,我们选择未经查询扩展的概念检索作为基线对比方法(baseline).另外,我们选择LCA 作为另一种对比方法.LCA 是一种经典的语义查询扩展方法,由Xu 和Croft 提出来

[7],它最主要的贡献在于通过计算初始检索结果集的top-k 文档中词语和查询中词语的共现度,以找到查询相关词语作为扩展词语[7].两个词语共现度的计算如公式(8)所示.

_(,)log((,) 1.0)()/log()co degree c w co c w idf c n =+× (8) 其中,,?tf (c ,d )表示词语c 在文档d 中出现的频率,S 是初

始检索结果集中的top-k 文档集,N (,)(,)(,)d S co c w tf c d tf w d ∈=

∑()min(1.0,log(/)/5.0)c idf n N N =c 是文档集中含有词语c 的文档数目.

在查询扩展过程中,加入的词语/概念个数、查询扩展后的结构以及查询扩展词语/概念的权值分配都是需要研究的重要问题.这里,对查询扩展加入的词语个数采用常见的个数限定法,即限定查询扩展中加入的词语个数.20~30是许多研究中给出的个数限定范围,因此,实验中统一把查询扩展的词语/概念最大个数限定为30.

5.3 实验评测标准和实验结果分析

主要从查询准确率方面进行评价,分别采用Precision @n 和AP @k 来衡量.Precision @n 是前n 个结果文档中查询准确率,常用来衡量大多数用户关注的前n 个结果文档的准确率[1].由于实验中采用多个本体进行测试,标准TREC 数据集难以支撑,所以,我们自己选择了本体对应的文档集.根据文档规模,要从人力上判断文档集中所有文档与查询的相关性是难以完成的.因此借鉴标准指标MAP(mean average precision)定义了AP @k ,目的是描述前k 个结果文档中相关文档的准确率平均值,以衡量前k 个结果文档中相关文档的排序情况.这样,AP @k 和Precision @n 在一起能够更全面地对top-k 检索结果进行评价,而这也符合大多数检索用户的习惯,因为大多数用户在检索过程中主要关注top-k 检索结果.

Precision @n 的计算方式是:Precision @n =# of relevant docs in top-n retrieved/n ,其中n 表示前n 个结果文档.

AP 的计算方式是:1@j rank k j

j AP k r rank ≤=∑,其中,r 表示前k 个结果文档中相关文档的个数,j 表示前k 个结果文档

田萱 等:语义查询扩展中词语-概念相关度的计算 2051 中第j 个相关文档;rank j 表示第j 个相关文档在结果文档中的排序.考虑到用户往往只关注前20个检索结果, 这里我们取n =k =20.

在判断查询结果相关性时,为了避免人工判断的倾向性,我们将每种方法得到的前20个查询结果混合在一起,经过去重后,再人工判断每个结果是否相关,最后统计出每种方法下的相关查询结果的数量.图4中给出了不同方法在不同数据集上的检索效果,表4中列出了3种方法在3个文档集上的检索结果的具体指标值.

Precsion @20 Baseline LCA K2CM AP @20 Baseline LCA K2CM 0.4

0.3

0.2

0.1

0 Fig.4 Comparisons on different methods

图4 不同方法的比较

Table 4 Search result evaluation on the three corpuses

表4 3个文档集上的检索结果评价 Metric Document set Baseline

LCA K2CM Reuters 0.257

0.294(↑14.40%)0.317(↑23.35%) DLPers 0.293

0.332(↑13.31%)0.359(↑22.53%) Precision @20DBLP 0.301

0.324(↑7.64%)0.356(↑18.27%) Reuters 0.182

0.191(↑4.95%)0.197(↑8.24%) DLPers 0.189

0.213(↑12.70%)0.226(↑19.58%) AP @20 DBLP 0.196 0.228(↑16.33%)0.274(↑39.80%)

我们先从总体上分析本体规模和构建粒度对语义查询扩展的影响.从图4中的基本数据可以看出,虽然Reuters 数据集中文档数量最多,采用的也是含有最多概念的WordNet 本体,但其整体的检索效果比其他两种采用领域本体的数据集都差.因为文档数量对检索效果几乎没有影响[28],因此可知通用本体对查询扩展的作用不如领域本体.这个结论与其他一些研究的结论一致[29].另外,通过表4,可以观察到DBLP 上Precision @n 的提高水平(7.64%,18.27%)比Reuters 和DLPers 上相应要低,这说明领域本体ACMCCS 在提高检索准确率方面不如其他本体.分析其原因,由于ACMCCS 本质上是个计算机科学领域的分类体系,粒度比较粗,因此查询扩展过程中概念扩展的粒度也比较粗,导致检索效果的提高有限.

我们再来分析K2CM 方法在检索效果中表现的特点.首先,可以看出,K2CM 在两个指标上提高的程度都比LCA 要大,这一点原因比较明显,与单纯基于共现关系的LCA 相比,K2CM 通过语料库分析找到的相关概念更准确,因而对查询扩展更有效.其次,可以看出,K2CM 在DBLP 数据集的AP @20指标上提高得尤其明显(↑39.80%),究其原因,DBLP 数据集的平均文档长度最长,说明K2CM 在表达长文档的语义主旨方面更有效,因而特别有助于提升相关文档的排序效果.从这一点也可以推测出,越长的查询,K2CM 的检索效果应该越好.有关这方面的研究和实验将在我们下一步的工作中进行.

6 总 结

现实生活中存在的查询表达多样性常常给基于关键词的传统查询扩展带来许多语义理解错误——词语问题,基于概念的语义检索已经是一种公认的解决方法.在基于概念的语义查询扩展中,词语-概念语义相关度的确立是个中心环节.随着语义Web 和本体技术的发展,越来越多的文档按照本体来标注和组织.针对这类文档,本文提出一种K2CM 方法,从两个角度描述词语-概念相关度,一方面基于词语-文档-概念所属程度,一方面基于词语-概念共现程度,以找到与查询语义主旨匹配的概念,进而提高查询效果.实验结果表明,与未经查询扩展的概念检索方法和基于LCA 的概念检索方法相比,本文提出的K2CM 方法更有助于提高查询效果.

2052 Journal of Software软件学报 V ol.19, No.8, August 2008

References:

[1] Baeza-Yates R, Ribeiro-Neto B. Modern Information Retrieval. New York: Addison-Wesley-Longman, 1999.

[2] Furnas GW, Landauer TK, Gomez LM, Dumais ST. The vocabulary problem in Human-System communication. Communications

of the ACM, 1987,30(11):964?971.

[3] Qiu YG, Frei HP. Concept based query expansion. In:Korfhage R, Rasmussen E, Willett P, eds. Proc. of the 16th annual Int’l

ACM SIGIR Conf. on research and development in information retrieval. Pittsburgh: ACM Press, 1993. 160?169.

[4] Chang Y, Ounis I, Kim M. Query reformulation using automatically generated query concepts from a document space. Information

Processing and Management, 2006,42:453?468.

[5] Jing YF, Croft WB. An association thesaurus for information retrieval. Technical Report, UM-CS-1994-017, Amherst: University

of Massachusetts, 1994.

[6] van Rijsbergen CJ. Information retrieval. Department of Computing Science, University of Glasgow, 1979. http://www.dcs.gla.ac.

uk/Keith/Preface.html.

[7] Xu JX, Croft WB. Improving the effectiveness of information retrieval with local context analysis. ACM Trans. on Information

Systems, 2000,18(1):79?112.

[8] Mitra M, Singhal A, Buckley C. Improving automatic query expansion. In:Croft W B, Moffat A, Wilkinson R, Zobel J, eds. Proc.

of the 21st Annual Int’l ACM SIGIR Conf. on Research and Development in Information Retrieval. Melbourne: ACM Press, 1998.

206?214.

[9] Salton G, Buckley C. Improving retrieval performance by relevance feedback. Journal of the American Society for Information

Science, 1990,41(4):288?297.

[10] Cui H, Wen JR, Li MQ. A statistical query expansion model based on query logs. Journal of Software, 2003,14(9):1593?1599 (in

Chinese with English abstract). https://www.360docs.net/doc/334658867.html,/1000-9825/19/9.htm

[11] Ido D, Lillian L, Fernando CNP. Similarity-Based models of word cooccurrence probabilities. Machine Learning, 1999,34(1-3):

43?69.

[12] Zazo áF, Figuerola CG, Berrocal JLA, Rodriguez E. Reformulation of queries using similarity thesauri. Information Processing

and Management, 2005,41(5):1163?1173.

[13] Zhang M, Song RH, Ma SP. Document Refinternet based on semantic query expansion. Chinese Journal of Computers, 2004,

27(10):1395?1401 (in Chinese with English abstract).

[14] Lin DK. Automatic retrieval and clustering of similar words. In: Boitet C, Whitelock P, eds. Proc. of the 17th Int’l Conf. on

Computational Linguistics. Montreal: Association for Computational Linguistics, 1998. 79?112.

[15] Kim JW, Candan KS. CP/CV: Concept similarity mining without frequency information from domain describing taxonomies. In:

Yu PS, Tsotras VJ, Fox EA, Liu B, eds. Proc. of the 15th ACM Int’l Conf. on Information And Knowledge Management. Arlington: ACM Press, 2006. 483?492.

[16] Jang MG, Myaeng SH, Park SY. Using mutual information to resolve query translation ambiguities and query term weighting. In:

Dale R, Church K, eds. Proc. of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics. College Park: Association for Computational Linguistics, 1999. 223?229.

[17] Gao JF, Zhou M, Nie JY, He HZ, Chen WJ. Resolving query translation ambiguity using a decaying Co-Occurrence model and

syntactic dependence relations. In:J?rvelin K, Chairs P, Baeza-Yates R, Myaeng SH, eds. Proc. of the 25th Annual Int’l ACM SIGIR Conf. on Research and Development in Information Retrieval. Tampere: ACM Press, 2002. 183?190.

[18] Gregory G. Use of syntactic context to produce term association lists for text retrieval. In:Belkin N, Ingwersen P, Pejtersen AM,

eds. Proc. of the 15th Annual Int’l ACM SIGIR Conf. on Research and Development in Information Retrieval. Copenhagen: ACM Press, 1992. 89?97.

[19] Loh S, Wives LK, de Oliveira JPM. Concept-Based knowledge discovery in texts extracted from the Web. ACM SIGKDD

Explorations Newsletter, 2000,2(1):29?39.

[20] Fraenkel AS, Klein ST. Information retrieval from annotated texts. Journal of the American Society for Information Science, 1999,

50(10):845?854.

[21] Sun RX, Ong CH, Chua TS. Mining dependency relations for query expansion in passage retrieval. In:Efthimiadis EN, Dumais ST,

田萱等:语义查询扩展中词语-概念相关度的计算2053

Hawking D, J?rvelin K, eds. Proc. of the 29th Annual Int’l ACM SIGIR Conf. on Research and Development in Information Retrieval. Seattle: ACM Press, 2006. 382?389.

[22] Lu S, Bai S. Quantitative analysis of context field in natural language Processing. Chinese Journal of Computers, 2001,24(7):

742?747 (in Chinese with English abstract).

[23] Xu JX, Croft WB. Query expansion using local and global document analysis. In:Frei HP, Harman D, Sch?ble P, Wilkinson R, eds.

Proc. of the 19th Annual Int’l ACM SIGIR Conf. on Research and Development in Information Retrieval. Zürich: ACM Press, 1996. 4?11.

[24] Martin T, Ralf S, Gerhard W. Efficient and self-tuning incremental query expansion for Top-K query Processing. In:Baeza-Yates

R, Ziviani N, eds. Proc. of the 28th Annual Int’l ACM SIGIR Conf. on Research and Development in Information Retrieval.

Salvador: ACM Press, 2005. 242?249.

[25] Green SJ. Building hypertext links by computing semantic similarity. IEEE Trans. on Knowledge and Data Engineering,

1999,11(5): 713?730.

[26] Kandola JS, Shawe-Taylor J, Cristianini N. Learning semantic similarity. In:Becker S, Thrun S, Obermayer K, eds. Advances in

Neural Information Processing Systems 15 (Neural Information Processing Systems, NIPS 2002). Vancouver: MIT Press, 2002.

657?664.

[27] Varelas G, Voutsakis E, Raftopoulou P, Petrakis EGM, Milios EE. Semantic similarity methods in WordNet and Their Application

to Information Retrieval on the Web. In:Bonifati A, Lee D, eds. Proc. of the 7th Annual ACM Int’l Workshop on Web Information and Data Management. Bremen: ACM Press, 2005. 10?16.

[28] Fang H, Tao T, Zhai CX. A formal study of information retrieval heuristics. In:Sanderson M, J?rvelin K, Allan J, Bruza P, eds.

Proc. of the 27th annual Int’l ACM SIGIR Conf. on Research and Development in Information Retrieval. Sheffield: ACM Press, 2004. 49?56.

[29] Lin J, Demner-Fushman D. The role of knowledge in conceptual retrieval: A study in the domain of clinical medicine. In:

Efthimiadis EN, Dumais ST, Hawking D, J?rvelin K, eds. Proc. of the 29th Annual Int’l ACM SIGIR Conf. on Research and Development in Information Retrieval. Seattle: ACM Press, 2006. 99?106.

附中文参考文献:

[10] 崔航,文继荣,李敏强.基于用户日志的查询扩展统计模型.软件学报,2003,14(9):1593?1599. https://www.360docs.net/doc/334658867.html,/1000-9825/14/

1593.htm

[13] 张敏,宋睿华,马少平.基于语义关系查询扩展的文档重构.计算机学报,2004,27(10):1395?1401.

[22] 鲁松,白硕.自然语言处理中词语上下文有效范围的定量描述.计算机学报,2001,24(7):742?747.

田萱(1976-),女,山东济宁人,博士生,CCF 学生会员,主要研究领域为智能信息检索,知识工程,高性能数据库.

李海华(1971-),女,博士生,CCF学生会员,主要研究领域为语义Web,知识工程,智能信息检索

.

杜小勇(1963-),男,博士,教授,博士生导

师,CCF高级会员,主要研究领域为高性能

数据库,智能信息检索,知识工程.

编译原理概念_名词解释

编译过程的六个阶段:词法分析,语法分析,语义分析,中间代码生成,代码优化,目标代码生成 解释程序:把某种语言的源程序转换成等价的另一种语言程序——目标语言程序,然后再执行目标程序。 解释方式是接受某高级语言的一个语句输入,进行解释并控制计算机执行,马上得到这句的执 行结果,然后再接受下一句。 编译程序:就是指这样一种程序,通过它能够将用高级语言编写的源程序转换成与之在逻辑上等价的低级语言形式的目标程序(机器语言程序或汇编语言程序)。 解释程序和编译程序的根本区别:是否生成目标代码 句子的二义性(这里的二义性是指语法结构上的。):文法G[S]的一个句子如果能找到两种不同的最左推导(或最右推导),或者存在两棵不同的语法树,则称这个句子是二义性的。 文法的二义性:一个文法如果包含二义性的句子,则这个文法是二义文法,否则是无二义文法。 LL(1)的含义:(LL(1)文法是无二义的; LL(1)文法不含左递归) 第1个L:从左到右扫描输入串第2个L:生成的是最左推导 1:向右看1个输入符号便可决定选择哪个产生式 某些非LL(1)文法到LL(1)文法的等价变换: 1. 提取公因子 2. 消除左递归 文法符号的属性:单词的含义,即与文法符号相关的一些信息。如,类型、值、存储地址等。 一个属性文法(attribute grammar)是一个三元组A=(G, V, F) G:上下文无关文法。 V:属性的有穷集。每个属性与文法的一个终结符或非终结符相连。属性与变量一样,可以进行计算和传递。 F:关于属性的断言或谓词(一组属性的计算规则)的有穷集。断言或语义规则与一个产生式相联,只引用该产生式左端或右端的终结符或非终结符相联的属性。 综合属性:若产生式左部的单非终结符A的属性值由右部各非终结符的属性值决定,则A的属性称为综合属继承属性:若产生式右部符号B的属性值是根据左部非终结符的属性值或者右部其它符号的属性值决定的,则B的属性为继承属性。 (1)非终结符既可有综合属性也可有继承属性,但文法开始符号没有继承属性。 (2) 终结符只有综合属性,没有继承属性,它们由词法程序提供。 在计算时:综合属性沿属性语法树向上传递;继承属性沿属性语法树向下传递。 语法制导翻译:是指在语法分析过程中,完成附加在所使用的产生式上的语义规则描述的动作。 语法制导翻译实现:对单词符号串进行语法分析,构造语法分析树,然后根据需要构造属性依赖图,遍历语法树并在语法树的各结点处按语义规则进行计算。 中间代码(中间语言) 1、是复杂性介于源程序语言和机器语言的一种表示形式。 2、一般,快速编译程序直接生成目标代码。 3、为了使编译程序结构在逻辑上更为简单明确,常采用中间代码,这样可以将与机器相关的某些实现细节置于代码生成阶段仔细处理,并且可以在中间代码一级进行优化工作,使得代码优化比较容易实现。 何谓中间代码:源程序的一种内部表示,不依赖目标机的结构,易于代码的机械生成。 为何要转换成中间代码:(1)逻辑结构清楚;利于不同目标机上实现同一种语言。 (2)便于移植,便于修改,便于进行与机器无关的优化。 中间代码的几种形式:逆波兰记号,三元式和树形表示,四元式 符号表的一般形式:一张符号表的的组成包括两项,即名字栏和信息栏。 信息栏包含许多子栏和标志位,用来记录相应名字和种种不同属性,名字栏也称主栏。主栏的内容称为关键字(key word)。 符号表的功能:(1)收集符号属性(2) 上下文语义的合法性检查的依据:检查标识符属性在上下文中的一致性和合法性。(3)作为目标代码生成阶段地址分配的依据

词语含义及作用

词语含义及作用 阅读理解能力是衡量我们语文素养的一个重要指标,历年来在中考所占的比重也比较大。对于文章,我们都能看得见,感觉得到,但做起 题来总有点抓不住、摸不着,心里没底。其实,也不用害怕,所谓锁再 坚固,也总有能打开它的钥匙,只要你愿意去找,善于去找,就一定能 找到这把钥匙。今天我就带领大家一起来寻找阅读理解解题的钥匙。当然,也不可能一口吃成个胖子,需要我们走一步,再走一步,一小步一 小步地去积累,那就离成功不远了。好了,今天我们就一起学习《体味 词语在语境中的意义和作用》。 中考阅读考核要求: 1、整体感知文章的主要内容,理清文章的思路。 2、体味和推敲重要词句在语言环境中的意义和作用。 3、运用基本的语法知识理解文章,借助常用的修辞知识体会文中 重要语句的表达效果,理解记叙、说明、议论、抒情等表达方式在文中 的作用。 4、对文章的内容和表达有自己的心得,能提出自己的看法。 现代文阅读指导——体味词语在语境中的意义和作用考查角度:1、理解词语的浅表含义(词汇义),2、结合语境理解词语的深沉含义(如:语境义、比喻义、引伸义等);3、品味词语的运用之妙或说明选用词语的理由。

下面我们就一起来进行活题巧解,方法提炼。活题巧解: 【例题1】李时珍是大家所熟悉的著名医学家,他一生奔波于祖国 的大江南北,耗尽毕生精力才著出对世界医学有极大贡献的《本草纲目》。今天,那些有巨大成就的科学家也无不是依靠“勤”才为人类做出贡献的。我国的数学家陈景润攀登数学峰巅摘取数学皇冠明珠的事迹, 早在人们中间广为传颂。他的成就不也是靠“勤”吗?那整整六麻袋的稿纸就是他“勤”的最有力的见证。可见,任何一项成就的取得都是与勤奋 分不开的。这一点,古今中外,概莫能外。最后一句中“这一点”指的是什么?“概莫能外”的意思是什么? 【解析】这两题都是考查对词语浅表意义的理解。任何一项成就的取得都是与勤奋分不开的;一概都不能例外。 【方法提炼】理解浅表含义可用“词义替换法”或“分解合并法”。 【例题2】古人云:“腹有诗书气自华。”读书对于人来说,就像吃饭喝水一样不可缺少,我们可以从书中汲取无尽的精神力量——一种激荡在我们的血管,充盈于我们的周身,又从我们的每一个毛孔里散发出来的气。文中“从毛孔里散发出来的气”中的“气”具体指的是什么? 【解析】这也是一道考查对词语特定含义理解能力的考题。“气”说起来虽然是很玄妙的,但句中给了我们很明显的提示,只要细细一下破折号前后的句子就能很快得出答案。精神力量 【方法提炼】理解特定含义,要根据上下文词句间对应关系。

地址相似度算法

一、计算过程: 1、根据输入一个地址,生成一个地址每个字的数组: T1={w1,w2,w3..wn}; 比如:有两个地址广东省梅州市江南彬芳大道金利来步街xx号和广东省梅州市梅江区彬芳大道金利来步行街xx号,会生成 T1={广,东,省,梅,州,市,江,南,彬,芳,大,道,金,利,来,步,街,xx,号}; T2={广,东,省,梅,州,市,梅,江,区,彬,芳,大,道,金,利,来,步,行,街,xx,号}; 2、这两个地址的并集,对出现多次的字只保留一次 比如:T={广,东,省,州,市,梅,江,南,区,彬,芳,大,道,金,利,来,步,行,街,xx,号}; 3、求出每个t中每个词在t1和t2中出现的次数得到m和n m={m1,m2,m3..mn}; n={n1,n2,n3.nn}; 比如:t1和t2可以得到两个出现次数的数组 m={1,1,1,1,1,1,1,1,1,0,1,1,1,1,1,1,1,1,0,1,1,1}; n={1,1,1,1,1,2,1,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1}; 4、计算相似度 Sim=m1*n1+m2*n2+..mn*nn/sqrt(m1*m1+m2*m2+..mn*mn)* sqrt(n1*n1+n2*n2+..nn*nn) 二、计算原理: 假如这两个数组是只有{x1,y1}和{x2,y2}的数组,这两个数组可以在平面直角坐标系中用两个由原点出发的向量来表示,我们可以通过向量的夹角的大小来判断向量的相似度,夹角越小,相似度越高。计算向量的夹角,我们可以使用余弦定理,余弦定理用坐标表示的公式: 余弦的这种计算方法不止对于2维向量成立,对n维向量也成立,n维向量表示为: 所以我们可以使用这个公式得出余弦的值,值越接近1,夹角越小,两个向量越相似,这种计算方式叫做余弦相似性。

热力学概念名词解释

热力学概念名词解释

传热学名词解释 一、绪论 1.热流量:单位时间内所传递的热量 2.热流密度:单位传热面上的热流量 3.导热:物体各部分之间不发生相对位移时,依靠物质微粒(分子、原子或自由电子)的热运动而产生的热能传递,称为导热。 4.对流传热:流体流过固体壁时的热传递过程,就是热对流和导热联合用的热量传递过程,称为表面对流传热,简称对流传热。5.辐射传热:物体间通过热辐射而进行的热量传递,称辐射传热。6.总传热过程:热量从温度较高的流体经过固体壁传递给另一侧温度较低流体的过程,称为总传热过程,简称传热过程。 7.对流传热系数:单位时间内单位传热面当流体温度与壁面温度差为1K是的对流传热量,单位为W/(m2·K)。对流传热系数表示对流传热能力的大小。 8.辐射传热系数:单位时间内单位传热面当流体温度与壁面温度差为1K是的辐射传热量,单位为W/(m2·K)。辐射传热系数表示辐射传热能力的大小。 9.复合传热系数:单位时间内单位传热面当流体温度与壁面温度差为1K是的复合传热量,单位为W/(m2·K)。复合传热系数表示复合传热能力的大小。 10.总传热系数:总传热过程中热量传递能力的大小。数值 上表示传热温差为1K时,单位传热面积在单位时间内的传 热量。

二、热传导 1.温度场:某一瞬间物体内各点温度分布的总称。一般来说,它是空间坐标和时间坐标的函数。 2.等温面(线):由物体内温度相同的点所连成的面(或线)。3.温度梯度:在等温面法线方向上最大温度变化率。 4.热导率:物性参数,热流密度矢量与温度降度的比值,数值上等于1 K/m的温度梯度作用下产生的热流密度。热导率是材料固有的热物理性质,表示物质导热能力的大小。 5.导温系数:材料传播温度变化能力大小的指标。 6.稳态导热:物体中各点温度不随时间而改变的导热过程。 7.非稳态导热:物体中各点温度随时间而改变的导热过程。 8.傅里叶定律:在各向同性均质的导热物体中,通过某导热面积的热流密度正比于该导热面法向温度变化率。 9.保温(隔热)材料:λ≤0.12W/(m·K)(平均温度不高于350℃时)的材料。10.肋效率:肋片实际散热量与肋片最大可能散热量之比。 11.接触热阻:材料表面由于存在一定的粗糙度使相接触的表面之间存在间隙,给导热过程带来额外热阻。 12.定解条件(单值性条件):使微分方程获得适合某一特定 问题解的附加条件,包括初始条件和边界条件。 三、对流传热 1.速度边界层:在流场中壁面附近流速发生急剧变化的薄层。2.温度边界层:在流体温度场中壁面附近温度发生急剧变化的薄层。

从算法角度去了解关键词与文章的相关性

从算法角度去了解关键词与文章的相关性 一般来说,一个词语或短语能否成为文章的关键词,主要取决于这个词语或短语反应文章中心思想能力的大小。关键词与文章之间的相关性,也主要是为了说明任选的一个词语和短语,对于指定的文章,它反应这篇文章的中心思想或主题意思的能力有多少。关键词的抽取受到词语在文章中出现的位置,出现的频率以及词语的语义特征的影响。那么,搜索引擎到底是如何判断关键词和文章之间的相关性呢?在这里,笔者从自己的一些观点出发,产生了一些想法,应该抛砖引玉,得到大家的指点。个人认为,搜索引擎应该是从以下几步来如何分析关键词和文章性的: 第一:搜索引擎首先对要要分析的网页进行净化处理 网页净化主要是去掉网页中大量无用的广告、导航栏等网页模板噪声以及无意义的内容,如Javascript脚本,CSS标记等内容。至于搜索引擎采用的是何 种算法,则不为我们所知,但是个人估计应该是对网页进行划分为不同的快,通过衡量网页块的重要程度来判断出包含主题内容的块,然后提取出该块的内容,至于搜索引擎如何判别网页快的重要程度,那是另外一个课题。 第二:针对提取出的内容进行分词处理 个人认为,搜索引擎可能采用了某种算法,对内容先进行了词语粗分阶段,先得出N个概率最大的切分结果;然后,利用角色标注方法识别未登录词,并计算其概率,将未登录词加入到切分词图中,之后视其为普通词处理,最终进行动态规划优选出N个最大概率切分标注结果。并进行记录。 第三:对初步分词的结果进行去除无意义的词语 搜索引擎通过对第二步的分词结果进行分析,去除一些语气词和形容词等非实意词和一些单词,同时还考虑到单字词所表达的信息不够完整也应当滤除。去除停用词通过建立一个停用词列表来实现。这样,通过去除这些无意义的词之后,剩下的就是有意义的,值得分析的词汇了。 第四:对关键词的权重进行确定分析 在完成对文章分词切分和净化工作之后,就要将文章所有关键词进行分析了,笔者的想法是搜索引擎将文本表示成Ⅳ维特征向量,每一维分量由关键词及其权重组成。一般认为,关键词在文中的权重的确定,主要由三部分组成,词频,位置和词义共同影响决定。而词频和位置对词语或短语的影响可以通过确定的算法加以确定,词义权重也有固定的算法进行分析计算。搜索引擎利用设定好的算法对上述关键词进行了计算和分析。从而得到最后的结果。 笔者认为,搜索引擎通过上面的步骤进行分析后,得到最后的结果,而笔者在这里谈谈自己对搜索引擎具体的分析方式,只是个人见解:

文本相似度算法

1.信息检索中的重要发明TF-IDF 1.1TF Term frequency即关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则 (公式1.1-1) 为该关键词在这篇文章中的词频。 1.2IDF Inverse document frequency指逆向文本频率,是用于衡量关键词权重的指数,由公式 (公式1.2-1) 计算而得,其中D为文章总数,Dw为关键词出现过的文章数。2.基于空间向量的余弦算法 2.1算法步骤 预处理→文本特征项选择→加权→生成向量空间模型后计算余弦。 2.2步骤简介 2.2.1预处理 预处理主要是进行中文分词和去停用词,分词的开源代码有:ICTCLAS。 然后按照停用词表中的词语将语料中对文本内容识别意义不大但出

现频率很高的词、符号、标点及乱码等去掉。如“这,的,和,会,为”等词几乎出现在任何一篇中文文本中,但是它们对这个文本所表达的意思几乎没有任何贡献。使用停用词列表来剔除停用词的过程很简单,就是一个查询过程:对每一个词条,看其是否位于停用词列表中,如果是则将其从词条串中删除。 图2.2.1-1中文文本相似度算法预处理流程 2.2.2文本特征项选择与加权 过滤掉常用副词、助词等频度高的词之后,根据剩下词的频度确定若干关键词。频度计算参照TF公式。 加权是针对每个关键词对文本特征的体现效果大小不同而设置的机制,权值计算参照IDF公式。 2.2.3向量空间模型VSM及余弦计算 向量空间模型的基本思想是把文档简化为以特征项(关键词)的权重为分量的N维向量表示。

这个模型假设词与词间不相关(这个前提造成这个模型无法进行语义相关的判断,向量空间模型的缺点在于关键词之间的线性无关的假说前提),用向量来表示文本,从而简化了文本中的关键词之间的复杂关系,文档用十分简单的向量表示,使得模型具备了可计算性。 在向量空间模型中,文本泛指各种机器可读的记录。 用D(Document)表示文本,特征项(Term,用t表示)指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,要求满足1<=k<=N。 下面是向量空间模型(特指权值向量空间)的解释。 假设一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为 D(a,b,c,d) 对于其它要与之比较的文本,也将遵从这个特征项顺序。对含有n 个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度,即 D=D(T1,W1;T2,W2;…,Tn,Wn) 简记为 D=D(W1,W2,…,Wn) 我们把它叫做文本D的权值向量表示,其中Wk是Tk的权重,

计算文本相似度几种最常用的方法,并比较它们之间的性能

计算文本相似度几种最常用的方法,并比较它们之间的性能 编者按:本文作者为Yves Peirsman,是NLP领域的专家。在这篇博文中,作者比较了各种计算句子相似度的方法,并了解它们是如何操作的。词嵌入(word embeddings)已经在自然语言处理领域广泛使用,它可以让我们轻易地计算两个词语之间的语义相似性,或者找出与目标词语最相似的词语。然而,人们关注更多的是两个句子或者短文之间的相似度。如果你对代码感兴趣,文中附有讲解细节的Jupyter Notebook地址。以下是论智的编译。 许多NLP应用需要计算两段短文之间的相似性。例如,搜索引擎需要建模,估计一份文本与提问问题之间的关联度,其中涉及到的并不只是看文字是否有重叠。与之相似的,类似Quora之类的问答网站也有这项需求,他们需要判断某一问题是否之前已出现过。要判断这类的文本相似性,首先要对两个短文本进行embedding,然后计算二者之间的余弦相似度(cosine similarity)。尽管word2vec和GloVe等词嵌入已经成为寻找单词间语义相似度的标准方法,但是对于句子嵌入应如何被计算仍存在不同的声音。接下来,我们将回顾一下几种最常用的方法,并比较它们之间的性能。 数据 我们将在两个被广泛使用的数据集上测试所有相似度计算方法,同时还与人类的判断作对比。两个数据集分别是: STS基准收集了2012年至2017年国际语义评测SemEval中所有的英语数据 SICK数据库包含了10000对英语句子,其中的标签说明了它们之间的语义关联和逻辑关系 下面的表格是STS数据集中的几个例子。可以看到,两句话之间的语义关系通常非常微小。例如第四个例子: A man is playing a harp. A man is playing a keyboard.

相似度算法比较

图像相似度计算主要用于对于两幅图像之间内容的相似程度进行打分,根据分数的高低来判断图像内容的相近程度。 可以用于计算机视觉中的检测跟踪中目标位置的获取,根据已有模板在图像中找到一个与之最接近的区域。然后一直跟着。已有的一些算法比如BlobTracking,Meanshift,Camshift,粒子滤波等等也都是需要这方面的理论去支撑。 还有一方面就是基于图像内容的图像检索,也就是通常说的以图检图。比如给你某一个人在海量的图像数据库中罗列出与之最匹配的一些图像,当然这项技术可能也会这样做,将图像抽象为几个特征值,比如Trace变换,图像哈希或者Sift特征向量等等,来根据数据库中存得这些特征匹配再返回相应的图像来提高效率。 下面就一些自己看到过的算法进行一些算法原理和效果上的介绍。 (1)直方图匹配。 比如有图像A和图像B,分别计算两幅图像的直方图,HistA,HistB,然后计算两个直方图的归一化相关系数(巴氏距离,直方图相交距离)等等。 这种思想是基于简单的数学上的向量之间的差异来进行图像相似程度的度量,这种方法是目前用的比较多的一种方法,第一,直方图能够很好的归一化,比如通常的256个bin条的。那么两幅分辨率不同的图像可以直接通过计算直方图来计算相似度很方便。而且计算量比较小。 这种方法的缺点: 1、直方图反映的是图像像素灰度值的概率分布,比如灰度值为200的像素有多少个,但是对于这些像素原来的位置在直方图中并没有体现,所以图像的骨架,也就是图像内部到底存在什么样的物体,形状是什么,每一块的灰度分布式什么样的这些在直方图信息中是被省略掉得。那么造成的一个问题就是,比如一个上黑下白的图像和上白下黑的图像其直方图分布是一模一样的,其相似度为100%。 2、两幅图像之间的距离度量,采用的是巴氏距离或者归一化相关系数,这种用分析数学向量的方法去分析图像本身就是一个很不好的办法。 3、就信息量的道理来说,采用一个数值来判断两幅图像的相似程度本身就是一个信息压缩的过程,那么两个256个元素的向量(假定直方图有256个bin条)的距离用一个数值表示那么肯定就会存在不准确性。 下面是一个基于直方图距离的图像相似度计算的Matlab Demo和实验结果. %计算图像直方图距离 %巴氏系数计算法 M=imread('1.jpg'); N=imread('2.jpg'); I=rgb2gray(M); J=rgb2gray(N); [Count1,x]=imhist(I); [Count2,x]=imhist(J); Sum1=sum(Count1);Sum2=sum(Count2); Sumup = sqrt(Count1.*Count2); SumDown = sqrt(Sum1*Sum2); Sumup = sum(Sumup); figure(1); subplot(2,2,1);imshow(I); subplot(2,2,2);imshow(J);

认知心理学~各章概念、名词解释

自考《认知心理学》复习材料 各章概念、名词解释 (名词解释回答方法:和简答题一样,如实验应回答实验者,实验设计,实验结论,实验说明问题) 第一章绪论 1. 认知:是一种心理活动,它包括知识的获得、贮存、转化和使用。P2 2. 认知心理学:代表心理学研究的一种特定的理论定向、角度和途径。这种途径强调心理结构和过程。P2 3. 认知路径:强调心理结构和过程。P2 4. 内省:指被训练过的观察者仔细的、小心地注意他们自己的感觉,精确的辨别这些感觉,并尽可能客观地报 告这些感觉。p4 5. 信息加工途径:来自计算机科学和通讯科学。由两部分组成;p9 第一是心理过程能够通过计算机的操作相比较,而得到最好的理解。 第二是心理过程可以解释为,系统从刺激到反应的一系列阶段中,所完成的信息加工。 6. 生态学效度:研究所获得的结果也应该能够适用于现实世界中自然发生的行为。P11 7. 认知科学:当今试图回答有关心的问题的一个领域,它考察知识的性质、组成、发展和运用。P12 8. 认知神经学:着重考察大脑的结构和功能如何解释认知过程。P12 9. 脑损伤:涉及到组织的破坏,通常由中风、肿瘤或事故引起。P13 10. PET扫描:是指正电子发射断层摄影术;这种扫描技术能够通过测量血流模式,得到脑活动图。PET扫描能 够用来研究象注意、表象和阅读这样的认知过程。P13 11. MRI:磁共振成像;让无害的强磁场穿过头部,采集来自集结在不同组织的不同部位中的分子的射线,来为 脑解剖学提供详细的图像。P14 12. fMRI:功能性磁共振成像;只需5秒便能做出一个血流改变图像,而MRI需要90秒,相比PET,其产生的 图像更加精确,费用低。P14 13. ERP:事件相关电位;此技术能够记录被试在对刺激进行反应时,脑电活动的微小变动(持续时间不到1秒)。 这种技术又称诱发反应电位技术。P14 14. 单细胞记录技术:此技术不能安全用于人类;研究者通过将微电极插在单个神经元旁边或者甚至插进单个神 经元,来研究动物和神经系统的特征。这个研究对视觉模式识别有重要意义。P14 15. 人工智能:是计算机科学的分支,这种计算机科学关心如何通过创建计算机程序,来让计算机显示出典型地 只和人类相联系的智能行为。纯粹的人工知能是一种探索尽可能高效地完成任务的途径。P15

基于HowNet的词汇语义相关度计算方法研究

基于HowNet的词汇语义相关度计算方法研究 摘要:本文在充分挖掘词汇间隐含语义关系的基础上,基于语义关系对语义关联度的影响,将语义相似度以及语义关联度相结合提出了语义相关度算法,并通过实验证明,使用该计算方法得出的语义相关度,能够更精确地区分词汇间的细微语义差别,计算结果更趋于合理化。 关键词:HowNet 语义相似度语义相关度语义关系 1、引言 词汇相似度反映了两个词汇相互关联的程度,即词汇间的组合特点,可以利用两个词汇在同一语言环境中的可替换程度来衡量。目前,词汇相似度的计算方法主要有基于统计的方法和基于语义词典的方法两种,但这两种方法在实现中都存在不足。本文充分挖掘出HowNet中丰富的语义关系,在计算了词汇的语义相关度以及语义关联度的基础上,提出一种基于HowNet的词汇语义相关度计算方法,使计算结果更趋于合理化。 2、基础知识 2.1 HowNet简介 HowNet是一个以中英文词汇所代表的概念为描述对象,以揭示概念之间以及概念的属性之间的关系为基本内容的常识知识库。它采用知识词典的描述语言(Knowledge Dictionary Mark-up Language,KDML),将词语表示为几个“概念”,即利用“概念”对词汇的语义进行描述。组成“概念”的最小意义单位称为义原语义描述式,由义原以及某些表达概念语义的符号组成,有基本义原描述式和关系义原描述式两种形式。 2.2 概念之间的隐含语义关系 概念的基本义原描述式展示了概念的基本信息,而关系义原描述式则表达了概念与其它义原间的复杂关系,我们可以根据这些关系挖掘出隐含在两个概念之间的复杂语义关系。笔者对HowNet关系以及关系义原描述式进行了仔细研究比较,概括出了概念之间的八个语义关系,如表1所示。 3、语义相关度计算 两个词汇语义相似度高,它们的语义相关度必定较高,如“医生”与“患者”;反之两个语义相关度高的词语,却不一定有很高的相似度,如“医生”与“医治”。因此词汇间语义相关度是由语义关联度以及语义相似度两方面共同决定。 5、结语 本文提出的基于HowNet的词汇语义相关度计算的方法,充分利用了HowNet中隐含的语义信息,结合语义相似度的算法来进行词汇间的关联度计算。此算法更符合实际情况,实用性强,可对自动问答系统中的文本聚类、文本分类、信息检索等研究工作提供有效的支持。 参考文献 [1] 田萱,杜小勇,李海华.语义查询扩展中词语-概念相关度的计算[J].软件学报,2008,19(8):2043-2053. [2] 刘群,李素建.基于《知网》的词汇语义相似度计算[J].计算语言学及中文信息处理,2002(7):59-76. [3] 江敏,肖诗斌,王弘蔚.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89.

词语相似度算法的分析与改进

词语相似度算法的分析与改进 摘要:对现有的词语相似度算法进行分析,提出一种基于知网,面向语义、可扩展的词语相似度计算方法,通过对实验结果进行分析,所提出的词语语义相似度计算方法比以前的方法更好,在计算词语相似度时,准确率更高。 关键词:词语相似度算法;义原相似度计算;概念词的相似度计算;非概念词的相似度计算 在建立主观题评分模型时,要判断句子的相似度,计算句子的相似度时,首先要处理的就是词语的相似度计算工作。目前对词语的相似度计算人们已经做了大量的研究,提出了一些较有代表性的计算方法。主要包括以下几种: 1)基于字面信息的词语相似度计算 这种算法的核心内容是:中文词语的构成句子中,一般较核心的内容都放在句子的后面。句子后面的词语在句子中所起到的作用比靠前的词语大。因此在对句子进行分析时需要给后面的字或词赋予较高的权值。 假设a和b分别代表两个词语,按照此算法,词语之间的相似度计算公式可以表示为公式1。 使用字面信息作为相似度计算的算法较简单,实现起来也方便。但该算法准确率不高,尤其是对于语义相似的词语更是难于处理。2)基于词林的词语相似度计算 对于以同义词词林作为语义分类体系进行词语相似度计算的研

究,王斌和章成志都曾作了相关探讨[1]。其核心思想是使用两个词语的语义距离来表示词语间相似度。当处理对象是一个词组或短语时,首先将其切分为义类词,并将义类词在词林的树状结构中提取出相关的语义编码,并对两个词语的语义编码进行相似度计算。基于词林的词语相似度计算较好的解决了语义相似、词形不同的词语相似度计算,但由于语义词典的完备性问题,必然会存在部分不在语义词典中的词语而无法处理。 3)基于知网的词语相似度计算 知网以概念作为描述对象,从关系层次上揭示词语的概念含义,并建立了概念关系网络,包含词语属性以及属性间关系[2]。刘群、李素建从知网的关系描述出发,研究了同一个词义所具有的多个义原间的关系,并试图计算出这些义原在计算相似度时所起到的作用,并根据这种思想提出了使用知网的语义信息来计算词语相似度的算法。 该算法在计算概念词的相似度时较准确,但在计算概念词与非概念词,非概念词与非概念词的相似度时,准确率不高。 为克服这些问题,我们采用知网作为语义资源,结合信息论中的相关理论,提出了一种面向语义的、可扩展的、多策略混合的词语相似度计算模型。 1 义原相似度计算 词语的相似度计算,最终还是要计算各词语的义源相似度。在知网中,所有词语都包含义原信息,应用知网进行相似度计算时,第

材料科学基础基本概念-名词解释

材料科学基础基本概念-名词解释 单晶体:是指在整个晶体内部原子都按照周期性的规则排列。 多晶体:是指在晶体内每个局部区域里原子按周期性的规则排列,但不同局部区域之间原子的排列方向并不相同,因此多晶体也可看成由许多取向不同的小单晶体(晶粒)组成 点缺陷(Point defects):最简单的晶体缺陷,在结点上或邻近的微观区域内偏离晶体结构的正常排列。在空间三维方向上的尺寸都很小,约为一个、几个原子间距,又称零维缺陷。包括空位vacancies、间隙原子interstitial atoms、杂质impurities、溶质原子solutes等。 线缺陷(Linear defects):在一个方向上的缺陷扩展很大,其它两个方向上尺寸很小,也称为一维缺陷。主要为位错dislocations。 面缺陷(Planar defects):在两个方向上的缺陷扩展很大,其它一个方向上尺寸很小,也称为二维缺陷。包括晶界grain boundaries、相界phase boundaries、孪晶界twin boundaries、堆垛层错stacking faults等。 空位:晶体中点阵结点上的原子以其平衡位置为中心作热振动,当振动能足够大时,将克服周围原子的制约,跳离原来的位置,使得点阵中形成空结点,称为空位vacancies 肖脱基(Schottky)空位:迁移到晶体表面或内表面的正常结点位置,使晶体内部留下空位。 弗兰克尔(Frenkel)缺陷:挤入间隙位置,在晶体中形成数目相等的空位和间隙原子。 晶格畸变:点缺陷破坏了原子的平衡状态,使晶格发生扭曲,称晶格畸变。从而使强度、硬度提高,塑性、韧性下降;电阻升高,密度减小等。 热平衡缺陷:由于热起伏促使原子脱离点阵位置而形成的点缺陷称为热平衡缺陷(thermal equilibrium defects),这是晶体内原子的热运动的内部条件决定的。 过饱和的点缺陷:通过改变外部条件形成点缺陷,包括高温淬火、冷变形加工、高能粒子辐照等,这时的点缺陷浓度超过了平衡浓度,称为过饱和的点缺陷(supersaturated point defects) 。 位错:当晶格中一部分晶体相对于另一部分晶体发生局部滑移时,滑移面上滑移区与未滑移区的交界线称作位错 刃型位错:当一个完整晶体某晶面以上的某处多出半个原子面,该晶面象刀刃一样切入晶体,这个多余原子面的边缘就是刃型位错。 刃型位错线可以理解为已滑移区和未滑移区的分界线,它不一定是直线 螺型位错:位错附近的原子是按螺旋形排列的。螺型位错的位错线与滑移矢量平行,因此一定是直线 混合位错:一种更为普遍的位错形式,其滑移矢量既不平行也不垂直于位错线,而与位错线相交成任意角度。可看作是刃型位错和螺型位错的混合形式。 柏氏矢量b: 用于表征不同类型位错的特征的一个物理参量,是决定晶格偏离方向与大小的向量,可揭示位错的本质。 位错的滑移(守恒运动):在外加切应力作用下,位错中心附近的原子沿柏氏矢量b方向在滑移面上不断作少量位移(小于一个原子间距)而逐步实现。 交滑移:由于螺型位错可有多个滑移面,螺型位错在原滑移面上运动受阻时,可转移到与之相交的另一个滑移面上继续滑移。如果交滑移后的位错再转回到和原

基于《知网》的词语相似度计算

基于《知网》的词语相似度计算 [摘要]词语相似度计算是计算机中文处理中的基础和重要环节,目前基于《知网》的词语相似度计算是一种常见的方法,本文将对该方法做系统介绍。 [关键词]《知网》词语相似度计算 一、《知网》的结构 《知网》(HowNet)是我国著名机器翻译专家董振东先生和董强先生创建的,是一个常识知识库,它含有丰富的词汇语义知识以及世界知识,内部结构复杂。 《知网》中两个最基础的概念是“概念”和“义原”。“概念”是用来描述词语语义。因为一个词可以含有多个语义,所以一个词需要多个概念来描述。使用“知识表示语言”对概念进行描述,“知识表示语言”使用的“词汇”便是义原。《知网》中的不可再分的、最小的意义单位是“义原”,义原用来描述“概念”。 《知网》采用的义原有1500个,它们一共可以分为十类,具体见图1。 知网反映了概念之间、概念属性之间各种各样的关系,总体来说知网描述了16种关系: 上下位关系;同义关系、反义关系、对义关系;部件-整体关系;属性-宿主关系;材料-成品关系;施事/经验者/关系;主体-事件关系;受事/内容/领属物等事件关系;工具-事件关系;场所-事件关系;时间-事件关系;值-属性关系;实体-值关系;事件-角色关系;相关关系。 由《知网》的结构得知义原之间组成的不是一个树状结构,而是一个复杂的网状结构。然而义原关系中最重要的是上下位关系。所有的“基本义原”以这种上下位关系为基础构成了义原层次体系,叫做义原分类树。在义原分类树中,父节点义原和子节点义原之间具有上下位关系。可以通过义原分类树来计算词语和词语之间的语义距离。 二、知网的知识词典 知识词典是知网中最基本的数据库。在知识词典中,每一个概念(概念又称为义项)可以用一条记录来描述。一条记录含有八项信息,每一项由用“=”连接的两个部分组成,等号左边表示数据的域名,右边是数据的值。比如下面就是一条描述概念的记录: NO=017114

词语间相关度计算算法

这是我在完成毕业设计的过程中使用的一种算法,主要功能是判断两个词的相关度,使用的工具是搜索引擎。用搜索引擎对该词语的统计结果来最后判断词与词之间的相关度。这是一篇转载文章,下面是具体内容: 通常我们对于文本信息之间得相关性得计算都是采用向量的办法,我在以前的PPT里曾经提到过。然而对于文本信息更深层次的分析不能单纯从字面上分析一篇文章的关键词,更重要的是它隐含的扩展的意义。 传统的关于计算文本相关度和【网页和查询的相关性】的计算都是采用匹配的方式进行的,然而这只能是基于字面意义上的统计计算。这里介绍的做法是采用关键词相关性扩展的做法从而得到更加精确的相关度计算。 例子: 文章A: 谈论的是大学教育,最高频的关键词是:学生[3],学习[2],大学[2] 文章B: 谈论的是普通教育,最高频的关键词是:教育[5],教师[1],进修[1] []里是相对的权重,可以理解成TF*IDF 根据传统的相关性计算,我们会得到如下的结果: 1. 文章A 与文章B 不相关 2. 查询学生,学习,大学只能返回文章A,不能返回文章B 3. 查询教育,教师,进修只能返回文章B,不能返回文章A 分析: 这个显然是有一定的问题的,问题的出现在于我们通常将"字面"的意思做为分析的来源而且依靠和仅仅依靠这些"字面"的关键词做为文章相关性和查询相关性判断的唯一要素。 如何避免? 我在以前的文章中提到过【关键词相关度】的概念,举例说明: 当出现:{学习}这个词汇的时候,真实的表达的意义往往是这样的: {W1*学习,W2*教育,W3*教师,W4*大学。。。。。。} 其中W1,W2...是学习和相关词汇的相关权重。 基于这样一个矩阵,我们就能够将一个词扩展成为一组词汇,因而也同时可以将文章所对应的向量扩展成一个更多词汇的集合。 这里的计算需要一个完整的相关度矩阵:M M(i,j) = {关键词i,j的相关度} 而两篇文章的相关度的计算,也由简单的 R= Sigma Vi*Vi 变为 R= Sigma Vi*M(i,j)*Vj 查询关键词和文章的相关度也由简单的 R(i)=TF(i)*IDF(i) 变为 R(i)=Sigma TF(j)*IDF(j)*M(i,j) 下面碰到一个核心问题就是:关键词之间的相关度如何计算? 例如:学校和学生的相关度是多少? 计算方法: 假设一个文章集合{C},总文章数目为N,其中含有单词A的文章总数为Na,含有单词B 的文章总数是Nb,含有{A+B}的文章总数是Nab,那么相关性这么计算 CorrAB= Nab/(Na+Nb-Nab)-(Na*Nb)/(N*N)

题型:词语含义及作用

题型:能理解文中富有表现力的词语的含义并分析其作用。 能力目标:能了解在特定语境中的特定语义——特定语境既指上下文语境,也指情境语境。能推断生词语的语义——推断的依据大体上来自两个方面,一是上下文,二是词语中所含的语素。 类型:词语填空、词语指代、理解含义、分析词语作用等等。 1.词语填空 (1)有备选词语 例1、很显然,这个窗户俯瞰着一座公园,公园里面有一泓湖水,湖面上照例漫游着一群群野鸭、天鹅。公园里的孩子们有的扔面包喂这些水禽,有的摆弄游艇模型。一对对年轻的情侣手挽着手在树阴下散步。公园里鲜花盛开,主要有玫瑰花,但四周还有五彩斑斓、的牡丹花和金盏草。在公园那端的一角,有一块网球场。有时那儿进行的比赛确实精彩,不时也有几场板球赛,虽然球艺够不上正式决赛的水平,但是,有得看总比没有强。那边还有一块用于玩滚木球的草坪,公园的尽头是一排商店。在这些商店的后边,闹市区隐约可见。躺着的那位病人地听着这一切。这个时刻的每一分钟对他来说都是一种享受。描述仍在继续:一个孩童怎样差一点跌入湖中,身着夏装的姑娘是多么美丽动人。接着,又是一场的网球赛。他听着这的描述,仿佛亲眼看到了窗外所发生的一切。 (选自《窗》)(年江苏南通市中考试题) 根据语境,将下列成语的序号分别填入文中的空格里。 ①栩栩如生②津津有味③扣人心弦④争相斗妍 答题指导: 这是一类比较简单的选词填空:一是有备选词语;二是所选词语的意思差异性大,不易混淆;三是一空一词,一一对应,非此即彼。答这一类的题目,只要理解词语的意思,再分析一下词语的搭配,问题很容易解决。上面四个成语应该说是我们比较熟悉的。再看搭配:第一个词语是用来修饰花草的,当然应选“争相斗妍”;第二个词语是来描绘听的神态的,所以该填“津津有味”;第三个词语要修饰的是一场比赛,激烈的比赛无疑是“扣人心弦”;第四个词语用来形容描述的情景,能让听者感到“津津有味”的描述肯定是“栩栩如生”的。 填入以后读一读,是否顺口很重要。 例2、紧张忙乱的现代生活,常使人沉迷名利,忘了自己。能抽空到山涯水滨,A (扔、投、放)一丝钓线在浩渺迷茫的烟波,体会一下俭素安闲的渔父生涯,会觉心胸开朗宁静,“渔父之意”,固也不必在“鱼”也。而张志和的名句“青箬笠,绿蓑衣,斜风细雨不须归”,又是多么潇洒!能够B (领悟、领受、领略)在斜风细雨中垂钓之乐的人,他的胸襟是多么飘逸!(选自《垂钓》) 根据文章内容,分别在以上两段的括号内选择最恰当的词填在“A”、“B”两处。(2003年江西南昌市中考试题) 答题指导 解题的要点是:一认真区分词义的不同,二明确各个词语的运用范围,三结合语境看词语搭配。第一

图像相似度计算

图像相似度计算 图像相似度计算主要用于对于两幅图像之间内容的相似程度进行打分,根据分数的高低来判断图像内容的相近程度。 可以用于计算机视觉中的检测跟踪中目标位置的获取,根据已有模板在图像中找到一个与之最接近的区域。然后一直跟着。已有的一些算法比如BlobTracking,Meanshift,Camshift,粒子滤波等等也都是需要这方面的理论去支撑。 还有一方面就是基于图像内容的图像检索,也就是通常说的以图检图。比如给你某一个人在海量的图像数据库中罗列出与之最匹配的一些图像,当然这项技术可能也会这样做,将图像抽象为几个特征值,比如Trace变换,图像哈希或者Sift特征向量等等,来根据数据库中存得这些特征匹配再返回相应的图像来提高效率。 下面就一些自己看到过的算法进行一些算法原理和效果上的介绍。 (1)直方图匹配。 比如有图像A和图像B,分别计算两幅图像的直方图,HistA,HistB,然后计算两个直方图的归一化相关系数(巴氏距离,直方图相交距离)等等。 这种思想是基于简单的数学上的向量之间的差异来进行图像相似程度的度量,这种方法是目前用的比较多的一种方法,第一,直方图能够很好的归一化,比如通常的256个bin条的。那么两幅分辨率不同的图像可以直接通过计算直方图来计算相似度很方便。而且计算量比较小。 这种方法的缺点: 1、直方图反映的是图像像素灰度值的概率分布,比如灰度值为200的像素有多少个,但是对于这些像素原来的位置在直方图中并没有体现,所以图像的骨架,也就是图像内部到底存在什么样的物体,形状是什么,每一块的灰度分布式什么样的这些在直方图信息中是被省略掉得。那么造成的一个问题就是,比如一个上黑下白的图像和上白下黑的图像其直方图分布是一模一样的,其相似度为100%。 2、两幅图像之间的距离度量,采用的是巴氏距离或者归一化相关系数,这种用分析数学向量的方法去分析图像本身就是一个很不好的办法。 3、就信息量的道理来说,采用一个数值来判断两幅图像的相似程度本身就是一个信息压缩的过程,那么两个256个元素的向量(假定直方图有256个bin条)的距离用一个数值表示那么肯定就会存在不准确性。 下面是一个基于直方图距离的图像相似度计算的Matlab Demo和实验结果.

词语相似度计算方法

词语相似度计算方法分析 崔韬世麦范金 桂林理工大学广西 541004 摘要:词语相似度计算是自然语言处理、智能检索、文档聚类、文档分类、自动应答、词义排歧和机器翻译等很多领域的基础研究课题。词语相似度计算在理论研究和实际应用中具有重要意义。本文对词语相似度进行总结,分别阐述了基于大规模语料库的词语相似度计算方法和基于本体的词语相似度计算方法,重点对后者进行详细分析。最后对两类方法进行简单对比,指出各自优缺点。 关键词:词语相似度;语料库;本体 0 引言 词语相似度计算研究的是用什么样的方法来计算或比较两个词语的相似性。词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用,它是一个基础研究课题,正在为越来越多的研究人员所关注。笔者对词语相似度计算的应用背景、研究成果进行了归纳和总结,包括每种策略的基本思想、依赖的工具和主要的方法等,以供自然语言处理、智能检索、文本聚类、文本分类、数据挖掘、信息提取、自动应答、词义排歧和机器翻译等领域的研究人员参考和应用。词语相似度计算的应用主要有以下几点: (1) 在基于实例的机器翻译中,词语相似度主要用于衡量文本中词语的可替换程度。 (2) 在信息检索中,相似度更多的是反映文本与用户查询在意义上的符合程度。 (3) 在多文档文摘系统中,相似度可以反映出局部主题信息的拟合程度。 (4) 在自动应答系统领域,相似度的计算主要体现在计算用户问句和领域文本内容的相似度上。 (5) 在文本分类研究中,相似度可以反映文本与给定的分类体系中某类别的相关程度。 (6) 相似度计算是文本聚类的基础,通过相似度计算,把文档集合按照文档间的相似度大小分成更小的文本簇。1 基于语料库的词语相似度计算方法 基于统计方法计算词语相似度通常是利用词语的相关性来计算词语的相似度。其理论假设凡是语义相近的词,它们的上下文也应该相似。因此统计的方法对于两个词的相似度算建立在计算它们的相关词向量相似度基础上。首先要选择一组特征词,然后计算这一组特征词与每一个词的相关性(一般用这组词在实际的大规模语料中在该词的上下文中出现的频率来度量),于是,对于每一个词都可以得到一个相关性的特征词向量,然后计算这些向量之间的相似度,一般用向量夹角余弦的计算结果作为这两个词的相似度。 Lee利用相关熵,Brown采用平均互信息来计算词语之间的相似度。李涓子(1999)利用这种思想来实现语义的自动排歧;鲁松(2001)研究了如何利用词语的相关性来计算词语的相似度。PBrownetc采用平均互信息来计算词语之间的相似度。基于统计的定量分析方法能够对词汇间的语义相似性进行比较精确和有效的度量。基于大规模语料库进行的获取受制于所采用的语料库,难以避免数据稀疏问题,由于汉语的一词多义现象,统计的方法得到的结果中含有的噪声是相当大的,常常会出现明显的错误。 2 基于本体库的词语相似度计算方法 2.1 常用本体库 关于Ontology的定义有许多,目前获得较多认同的是R.Studer的解释:“Ontology是对概念体系的明确的、形式

相关文档
最新文档