基于多媒体信息检索的有监督词袋模型

2018年9月计算机工程与设计Sept.2018

第 39 卷第 9 期 COMPUTER ENGINEERING ANDDESIGN Vol.39 No.9

基于多媒体信息检索的有监督词袋模型

袁桂霞周先春2

#.江苏开放大学信息与机电工程学院，江苏南京210017% 2.南京信息

工程大学电子与信息工程学院，江苏南京210017)

摘要"词袋模型的复杂度高，且区分能力较弱，为解决这一问题，在经典词袋模型的基础上，提出一种有监督的词袋模型。在训练过程中对训练样本类别进行标记，在此基础上构建直方图总体能量目标函数，依据能量最小准则学习码本。通过文本检索和图像检索两组多媒体信息检索实验进行对比，对比结果表明，有监督词袋模型比经典词袋模型的检索精确度高、检索耗时少。

关键词：词袋模型％多媒体信息检索％文本检索％图像检索％能量最小准则

中图法分类号#T P391 文献标识号：A文章编号：1000-7024 (2018) 09-2873-06

doi： 10. 16208/.. issnl000-7024. 2018. 09. 031

Supervised bag of word model for multimedia information retrieval

YU A N Gui-xia1!ZHOU Xian-chun2

(1.School of Information and Mechanical and Electrical Engineering,Jiangsu Open University,Nan

2.School of Electronic and Information Engineering, Nanjing University of Information

Science and Technology，Nanjing 210017，China)

Abstract：The training and coding process of the classic bag of word model i s though the adaptability of this approach i s strong,the bag of word model i s highly complex and To solve this problem, a supervised bag of word model based on the classical one was put forward.The to mark the category of samples in the training process.O n this basis, the objective function of the overall energy of histogram was constructed, and the codebook was learned according to the minimum energy criterion.Through experimental comparison on two groups of multimedia information retrieval experiments including text retrieval and image retrieval, the results show that the supervised bag of word model i s more accurate and less time-consuming than the classical Key word s： bag of word model； multimedia information retrieval； text retrieval； image retrieval； minimum energy criterion

?引言

多媒体信息的突出特点是信息量大、结构化程度较低, 目前大量多媒体信息没有得到有效利用，这给多媒体信息检索带来了很大挑战12]。多媒体信息检索是信息技术的重要研究课题之一，涉及人工智能、计算机视觉、信号处理、模式识别、数据库、人机交互等许多学科领域，其目标是有效描述、存储、组织和查找用户所需的多媒体信息，帮助人们更方便、更快捷和更准确地找到需要的多媒体资源%3]。文本检索是研究最早的多媒体检索技术，早期的基于文本的图像检索技术实质上也是基于文本检索间接实现的[4]。词袋模型在文本检索领域应用非常广泛，该模型忽略了文本中的词序、语法和句法信息，将文本看作是许多词的集合，集合中的每个词的出现都是独立的，不依赖于其它词是否出现。这一模型在文本检索领域取得了极大成功％]。借鉴词袋模型的设计思想和应用价值，在基于内容的图像检索领域也开始使用词袋模型，这里的词袋模型是由视觉特征组成的，因此也称为视觉词袋模型%]。鉴于词袋模型与对象无关，仅仅是对对象表述特征的聚类组合,因此音频检索和视频检索也都可以使用词袋模型，只是不同对象的多媒体检索在使用词袋模型之前对对象的特征选择所作的处理不同。然而，经典词袋模型的训练和编码过

收稿日期：2017-07-18；修订日期：2017-09-27

基金项目：国家创新基金项目（435012C26244104350)

作者简介：袁桂霞（1978-),女，江苏如皋人，硕士，副教授，研究方向为人工智能、云计算；周先春（1974-),男，安徽合肥人, 博士，副教授，研究方向为信号与信息处理。E-mail: nyuanguixia@https://www.360docs.net/doc/0b15358878.html,