基于隐马尔科夫模型和卷积神经网络的图像标注方法

基于隐马尔科夫模型和卷积神经网络的图像标注方法
基于隐马尔科夫模型和卷积神经网络的图像标注方法

Computer Science and Application 计算机科学与应用, 2018, 8(9), 1309-1316

Published Online September 2018 in Hans. https://www.360docs.net/doc/e318656813.html,/journal/csa

https://https://www.360docs.net/doc/e318656813.html,/10.12677/csa.2018.89141

Automatic Image Annotation Based on

Hidden Markov Model and Convolutional

Neural Network

Haijiao Xu, Qionghao Huang, Fan Wang, Yao Wen, Meihua Zhao

School of Information Technology in Education, South China Normal University, Guangzhou Guangdong

Received: Aug. 6th, 2018; accepted: Aug. 21st, 2018; published: Aug. 28th, 2018

Abstract

Automatic image annotation is becoming increasingly important in order to develop algorithms that are able to search and browse large-scale image databases. In this paper, we propose a novel annotation approach termed HMM + CNN, which is based on Hidden Markov Model (HMM) and Convolutional Neural Network (CNN). First, a multi-label CNN is trained as a concept classifier.

Then, through a first-order HMM, image content and semantics correlation is combined to refine the predicted semantic scores. Finally, to improve the performance of labeling rare concepts, the gradient descent algorithm is applied for compensating the varying frequencies of concepts de-rived from imbalanced image datasets. Experiments have been carried out on IAPR TC-12 image annotation database. The results show that our proposed approach performs favorably compared with several conventional methods.

Keywords

Automatic Image Annotation, Hidden Markov Model, Convolutional Neural Network, Multi-Label Learning

基于隐马尔科夫模型和卷积神经网络的

图像标注方法

徐海蛟,黄琼浩,汪凡,文瑶,赵美华

华南师范大学教育信息技术学院,广东广州

徐海蛟 等

收稿日期:2018年8月6日;录用日期:2018年8月21日;发布日期:2018年8月28日

开发大规模图像库的搜索和浏览算法,使得图像自动标注的重要性日益增强。基于隐马尔科夫模型(HMM)与卷积神经网络(CNN),我们提出了一种新的图像标注方法HMM + CNN 。首先,训练一个多标签学习的CNN 网络作为概念分类器;其次,通过一阶HMM 模型把图像内容与语义相关性相结合以精炼该CNN 的预测分数;最后,为改善对稀疏概念的标注性能,应用梯度下降算法来补偿在真实应用中不平衡图像集上标注概念的频率差。在IAPR TC-12标准图像标注数据集上对比了其他传统方法,结果表明我们的标注方法在查准率和查全率上性能更优。

关键词

图像自动标注,隐马尔可夫模型,卷积神经网络,多标签学习

Copyright ? 2018 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY). https://www.360docs.net/doc/e318656813.html,/licenses/by/4.0/

1. 引言

随着互联网技术与多媒体共享社区的不断发展,大量的多媒体内容已进入我们的日常生活,如何高效准确地对海量的未标注图像等媒体内容进行搜索、浏览、管理变得尤为重要,这也使得图像自动标注的重要性日益增强。近年来众多学者对图像自动标注方法做了大量的研究,取得了若干阶段性成果,例如浅度学习方法:支持向量机SVM [1]、核典型相关分析KCCA-2PKNN [2]、稀疏核学习SKL-CRM [3]、快速标注FastTag [4]、离散多重伯努利模型SVM-DMBRM [5]、图像距离尺度学习NSIDML [6]、生成判别联合模型GDM [7];以及最近流行的深度学习方法:渐进式深度自动图像标注ADA [8]、图像标签对齐模型SEM [9]和图拉普拉斯正则化深度神经网络HQ-III [10]等。这些传统的图像标注方法考虑了视觉特征与语义概念之间的关联,而在标注概念之间语义关联方面还存在诸多未得到很好解决的问题。很多方法仅在平衡的小概念字典上完成,而在带有大概念字典的数据集上,语义概念分布或者语义概念出现频率呈现较大差异(即概念的不平衡性),这大大影响了标注方法的效果。因此,研究在不平衡图像库上的自动图像标注很有必要也很有意义。

在图像标注领域,深度学习方法(如卷积神经网络CNN)比传统浅度学习方法在性能上大大提升,然而,其并未很好考虑语义概念之间的关联,这影响了其性能的进一步改善。本文针对该问题,提出了一种基于隐马尔科夫模型(HMM)与卷积神经网络(CNN)的自动图像标注方法HMM + CNN ,该方法使用HMM 模型来校正语义标签:把图像标注过程视为检索有相互关联的隐藏语义概念序列过程,它提高了高度关联的相关概念语义分数而弱化了毫无关联的概念语义分数,提高了标注精度。在HMM 模型里,所有的隐状态可以构成一条一阶马尔可夫链,而每个隐状态代表一个隐藏语义概念,两个隐状态之间的边权重表示它们的语义相关性,隐状态到可观测状态之间的边表示由CNN 分类器产生的视觉语义分数。在学习过程中,考虑到真实图像集上语义概念分布的不均衡性,引入了语义概念的权重学习,其在计算发射概率和转移概率的过程中减弱了频繁概念的权重,而提升稀疏概念的权重,于是大大提高了稀疏概

Open Access

徐海蛟等

念标注的性能。最后,把我们的标注方法HMM + CNN应用于标准标注图像集IAPR TC-12 [11],结果表明我们提出的标注方法HMM + CNN标注精度比较高,是自动图像标注的一种有效方法。

2. 隐马尔科夫模型

隐马尔可夫模型(Hidden Markov Model,简称HMM) [12]可表达离散时间序列状态数据,它的隐状态X i(隐变量)不能直接观察到,但能通过观测向量O i序列间接观察到。每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程——具有一定隐状态数的马尔可夫链和随机函数集,即两个状态集合与三个矩阵。两个状态集合是指隐状态集{X1, X2, …}和观察状态集{O1, O2, …}。HMM的假设是隐状态X1之间是一个马尔可夫链,对应一个初始状态矩阵π、隐藏状态转移矩阵A = (a ij)和发射矩阵B = (b ij)。如图1所示,虚线箭头与实线箭头分别表示转移概率a ij与发射概率b ij,当前隐状态X1 (隐变量)不是独立被确定出来,而是依赖于前x个观测向量的隐藏状态X i-1。通过使用双重随机过程,HMM模型可以寻找到最合适的隐藏变量序列。在本模型HMM + CNN中,为了简化求解,仅考虑x = 1时候的一阶情况。

假若分别使用隐语义标注w和未标注测试图像I替换HMM模型中的隐状态与可观测向量,则转移矩阵A与发射矩阵B分别体现了语义概念信息与视觉内容信息。我们提出的标注方法HMM + CNN把图像标注过程视为一个关联隐语义检索过程,与经典的标准HMM模型相比较,HMM + CNN不需要传统的复杂的维特比算法,也不需要估算观测向量I的概率分布。

3. 基于HMM与CNN的自动图像标注方法

3.1. 问题描述

我们的标注方法HMM + CNN将一个图像标注过程看作是一个图像隐语义的检索过程。设训练集为? = {I1, ???, I|?|},其中I i表示一副含有若干语义标注的图像。语义标注w i来自于包含|D|个不同语义概念的概念字典D,如“dance”、“horizon”和“flower”。测试集?中的图像没有包含任何语义概念标注。给定测试图像I ∈?,图像自动语义标注(隐语义检索)的目标是在概念字典D中,检索出最相关的语义概念集{w1, w2, ???, w K},以描述I的视觉内容。

在检索的过程中,HMM + CNN标注方法能够同时结合视觉内容的相关性与语义概念的相关性,在一个用户查询概念字典D的时候,其目标是希望检索到与未标注图像内容相一致的语义概念。一般情况

……

Latent variables

……Observations

Figure 1.The graphical illustration of hidden Markov model

图1.隐马尔可夫模型示例图

徐海蛟等

下,用户提交的检索图像I在一次检索过程中是不变的,于是,未标注图像I ∈?可以看做是一个可观测向量,随着检索返回语义概念数的增加,该图像I可重复地构成一个可观测序列{I(1), I(2), ???, I(K)}。

对于转移概率矩阵A= (a ij)中的每一个元素a ij表示两个隐状态间的转移数据,在我们的标注方法HMM + CNN中将a ij视为两个语义概念w i和w j的关联性。而CNN分类器产生的视觉相关分数可看做是相应隐状态的发射概率b ij∈B,该发射概率b ij表示了CNN分类器把图像I映射到语义概念w j的过程。

根据上述的转移概率矩阵A和发射矩阵B,第t ?1步被检索的隐藏语义概念w i可以关联概率值a ij转移到第t步被检索隐藏语义概念w j,被检索隐藏语义概念w j与图像I以发射概率值b ij关联。由于I是固定不变的,所以b ij简记为b j。第t步隐藏语义概念检索w j依赖两个因素,即t ?1步检索到的隐语义概念w i到该隐语义概念w j的内关联转移概率a ij以及视觉关联产生的发射概率b j。从上述分析可知,检索序列中相邻隐藏语义概念w i与w j具有相关的视觉内容与语义概念,整个相互关联的语义概念序列可以描述I 的“故事”线索。

图2中给出了HMM + CNN标注方法的结构,矩形框表示一个未标注的检索图像I,圆形框表示被检索的隐语义概念w j(隐状态)。虚线箭头表示隐状态之间的转移概率a ij即语义关联性,而实线箭头表示每个隐藏状态的发射概率即视觉相关性b j。每一个隐状态w j可以提供语义概念关联性数据a ij与视觉内容相关性数据b j,然后基于HMM + CNN算法实现了对隐语义概念的排序输出。为了叙述方便,表1定义了HMM + CNN标注方法所使用的主要符号标记。

3.2. 发射概率估算

CNN分类器产生的视觉相关性分数可视为相应隐状态的发射概率b j,该发射概率表示了CNN分类器把图像I映射到语义概念w j的过程。任何CNN网络都可融入我们的标注模型,不失一般性,我们选择了近年来一个有影响力的高效CNN模型ResNet [13]来作为我们的CNN分类器。

传统CNN网络聚焦于单概念分类,而我们的标注任务是一个多概念分类任务,因此为ResNet模型

w i

Figure 2.The HMM + CNN framework

图2.HMM + CNN结构图

徐海蛟 等

Table 1. List of main notations 表1. 符号标记表

符号 含义 D 概念字典

N 被检索隐语义概念集的大小,N = |D | K 返回隐藏语义标注的数量,K ≤ |D | I 被检索的未标注图像,I ∈ ? S (w ) 出现语义概念w 的图像集合

a ij 语义概念w i 和w j 之间的转移概率,即二者的语义关联概率

A 概念词典D 的状态转移矩阵,A = {a ij |i ,j = 1, ???, N } b j 语义概念w j 的发射概率,即w j 与I 的视觉内容相关概率

B 概念词典D 的发射概率矩阵,B = {b j |j = 1, ???, N }

R (w i ) 语义概念w i 的语义邻居集 K R

语义邻居集R (w i )的大小,即K R = |R (w i )|

定义了一个新的多概念softmax 损失函数使之适应多概念标注任务。首先,第i 张图片I 与第j 个概念w j 的归一化关联概率可定义为:

()()()

()()

x xp |e p e j j k k q I p w I q I =

∑, (1)

其中,()j q I 是图像I 在第j 个概念w j 的离散概率分布,它由ResNet 分类器产生。为最小化ResNet 预测概率与真实概率的KL 距离,我们使用如下多概念softmax 损失函数:

()(),softmax 1log |i j j i j f p w I N

p =?

∑∑, (2)

其中,,i j p 是一个图片I 的指示器函数:当概念w j 在图片I 中存在则,1i j p =否则,0i j p =。

3.3. 转移概率估算

两个语义概念之间的转移概率a ij 可视为二者的语义关联概率。共现概念是指以一定频率共同出现于文档中的语义概念。对于共现于图像I 中的两个关联语义概念,由于它们共同描述了一副图像的主题或者“故事”线索,所以,可以依据共现率来估算二者的语义关联。

给定隐语义概念w i 和w j ,在训练图像集?上考虑使用如下共现度量来计算二者的语义关联概率,HMM + CNN 标注模型以此作为两概念的转移概率a ij :

()()()

i j ij i S w S w a S w =

∩ (3)

该公式描述了概念w i 和w j 共现的频率,然后被语义概念w i 的频率归一化。它可以被理解为给定含有标注w i 的图像I ,其包含语义概念w i 的概率有多大,其值范围是[0.0, 1.0]。

如果隐语义概念w i 是w j 的语义近邻,即w i ∈ R (w j ),那么转移概率a ij 的值为二者的语义关联性,否则,该值被设置为0。由于自转移的概率值很大(a jj = 1),这导致被检索的隐语义概念可能会一直自循环在某个隐状态,导致输出无效的隐藏语义检索结果,所以自转移的概率值a jj 被设置为0。综上所述,我们的HMM + CNN 标注方法可以抽象为∧ = (N , K , I , S (w ), A , B , R (w i ), K R )。

徐海蛟 等

3.4. HMM + CNN 图像标注算法

给定一个测试集?,若任意的一副图像I ∈ ?被看做是检索对象,那么概念词典D 中的全部语义概念w j ∈ D 可构成被检索数据集。给定一个由检索对象I 所构成的一个固定观测序列,HMM + CNN 标注方法的目标是返回能恰当描述图像I 的最佳隐语义概念序列O = {O 1, ???, O j , ???, O K },

Oj ∈ D 的选择取决于a ij 和b j 两个元素,算法1总结了HMM + CNN 隐语义标注的检索方法。其中,p 1和p 2是待优化参数,且满足约束条件:p 1 + p 2 = 1,它们表示发射概率(视觉相关性)与转移概率(语义关联性)二者的权重。考虑到真实图像集的概念词典D 是不平衡的,即不同语义概念w 上的图像集合S (w )的大小是有差异的,不同语义概念的权重p 1和p 2需要通过在训练图像集上以交叉验证方法获取,

而不是直接经验设定为某个固定值。 算法1 HMM + CNN 自动图像标注

输入:训练集?,概念字典D ,未标注图片I ∈ ?; 输出:标注结果集O = {O 1, O 2, ???, O K }。 1 构建状态转移矩阵A = {a ij |i ,j = 1, ???, N }; 2 构建发射概率矩阵B = {b j |j = 1, ???, N };

3 初始化标注结果集()

111max ,O

j N j O b O ≤≤==; 4 for k = 2 to K do

5 设上一步检索概念O k ?1 = w i ,则()

112max j

j N j ij O p b p a ≤≤=+; 6 j O O O =∪; 7 end for

8 返回结果集O 。

4. 实验和评价

4.1. 数据集

评价实验采用了公开标注数据集IAPR TC-12 [11]。它包含有19,627张图像,每张图像含有1~23个标注,单词表D 含有291个语义概念。采用随机抽样,17,665张图像作为训练集,余下1962张图像作为测试集,约75%概念频率低于平均概念频率。我们采用与文献[8]相同的评价指标:平均准确率P 、平均召回率R 、调和均值F1与正召回概念数N +。所有指标值越高表示标注性能越好。

4.2. 实验结果与分析

为观测发射概率和转移概率的语义权重{p 1, p 2}的影响,考虑使用交叉验证方法:训练图像被随机分成等份5组,当每组图像集交替构成验证集时,其余4组图像集则组成一个训练集。

首先,考虑第一种情况:忽略图像集上语义概念的不平衡性,直接给权重参数{p 1, p 2}赋经验值,观测其对于标注性能的影响。该方法记为HMM + CNN (without weight learning)。在第二种情况,考虑语义概念分布并非是平衡的,对不同出现频次的语义概念给予相同的经验权重会导致标注性能的下降,因此,对于不同的语义概念w i ∈ D 给予不同权重{p 1, p 2},全部概念权重组成不同的发射概率向量P1与转移概率向量P2,{P1, P2}可在验证集上用如下方法求出来。

1) 初始化权重向量,即P1 = 0, P2 = 1 ? P1; 2) 对于任意的i (1 ≤ I ≤ N ):

2a) 对于不同的权重p 1 ∈ {0, 0.1, ???, 1}执行算法1获得标注结果集O 并记录最大F1性能分数,写入相对应的权重值pm i :P1i = pm i , P2i = 1 ? P1i ;

徐海蛟等Table 2.Performance comparisons of multi-label image annotation

表2.多标签图像标注性能比较

标注方法平均准确率P 平均召回率R 调和均值F1 正召回概念数N+

SVM [1]0.27 0.31 0.29 157 KCCA-2PKNN [2]0.59 0.30 0.39 259

SKL-CRM [3]0.47 0.32 0.38 274

FastTag [4]0.47 0.26 0.34 280 SVM-DMBRM [5]0.56 0.29 0.38 283

NSIDML [6]0.57 0.37 0.45 282

GDM [7]0.32 0.29 0.30 252

ADA [8]0.42 0.30 0.35 280

SEM [9]0.41 0.39 0.40 -

HQ-III [10]0.43 0.41 0.42 281 HMM + CNN (Ours) 0.64 0.45 0.53 285

2b) i值加一,即i = i + 1;

3) 输出权重向量P1, P2。

显然,上述权重提升方法的时间复杂度是O(11 × N)。从实验结果见,第二种情况下的基于权重学习方法的HMM + CNN图像标注方法效果优于第一种情况下的HMM + CNN (without weight learning)标注方法。

表2列出了与最新图像标注方法的对比实验结果。

从表2中可见,我们的HMM + CNN方法超越了其他对比方法,获得了更好的标注性能。与表中最好的对比标注方法NSIDML比较,HMM + CNN方法的平均准确率、平均召回率、调和均值F1分别提高了12%、22%、18%。一方面,视觉内容的相关性(发射概率)可以挖掘视觉内容与语义概念的相关性,另一方面,语义关联性(转移概率)反映出隐标注概念之间的语义关联,其更准确地描述了图像的“故事”线索。在图像标注任务中,这两种类型的相关性都提供了有用的信息,具有一定的互补性,从这个角度上说我们的HMM + CNN方法可提高图像标注的性能。此外,在隐语义标注检索中使用了语义权重学习方法来获得合理的语义权重,所以,在不平衡数据集上,我们的HMM + CNN方法具有更好的标注效果。

参考文献

[1]Chang, C.C. and Lin, C.J. (2011) LIBSVM: A Library for Support Vector Machines. ACM Transactions on Intelligent

Systems and Technology, 2, 1-27. https://https://www.360docs.net/doc/e318656813.html,/10.1145/1961189.1961199

[2]Ballan, L., Uricchio, T., Seidenari, L. and Bimbo, A.D. (2014) A Cross-Media Model for Automatic Image Annotation.

International Conference on Multimedia Retrieval, 73. https://https://www.360docs.net/doc/e318656813.html,/10.1145/2578726.2578728

[3]Moran, S. and Lavrenko, V. (2014) Sparse Kernel Learning for Image Annotation. International Conference on Mul-

timedia Retrieval, 113-120. https://https://www.360docs.net/doc/e318656813.html,/10.1145/2578726.2578734

[4]Chen, M., Zheng, A. and Weinberger, K. (2013) Fast Image Tagging. International Conference on Machine Learning,

1274-1282.

[5]Murthy, V.N., Can, E.F. and Manmatha, R. (2014) A Hybrid Model for Automatic Image Annotation. International

Conference on Multimedia Retrieval, 369-376. https://https://www.360docs.net/doc/e318656813.html,/10.1145/2578726.2578774

[6]Jin, C. and Jin, S.W. (2016) Image Distance Metric Learning Based on Neighborhood Sets for Automatic Image An-

notation. Journal of Visual Communication and Image Representation, 34, 167-175.

徐海蛟等

https://https://www.360docs.net/doc/e318656813.html,/10.1016/j.jvcir.2015.10.017

[7]Ji, P., Gao, X. and Hu, X. (2017) Automatic Image Annotation By Combining Generative and Discriminant Models.

Neurocomputing, 236, 48-55. https://https://www.360docs.net/doc/e318656813.html,/10.1016/j.neucom.2016.09.108

[8]周铭柯, 柯逍, 杜明智. 基于数据均衡的增进式深度自动图像标注[J]. 软件学报, 2017, 28(7): 1862-1880.

[9]Ma, Y., Liu, Y., Xie, Q. and Li, L. (2018) CNN-Feature Based Automatic Image Annotation Method. Multimedia

Tools & Applications, 1-14. https://https://www.360docs.net/doc/e318656813.html,/10.1007/s11042-018-6038-x

[10]Mojoo, J., Kurosawa, K. and Kurita, T. (2017) Deep CNN with Graph Laplacian Regularization for Multi-Label Image

Annotation. International Conference on Image Analysis and Recognition, 19-26.

https://https://www.360docs.net/doc/e318656813.html,/10.1007/978-3-319-59876-5_3

[11]Grubinger, M., Clough, P. and Müller, H. (2006) The IAPR Benchmark : A New Evaluation Resource for Visual In-

formation Systems. International Conference on Language Resources and Evaluation, 13-23.

[12]Saini, R., Roy, P. and Dogra, D. (2018) A Segmental HMM Based Trajectory Classification Using Genetic Algorithm.

Expert System Application, 93, 169-181. https://https://www.360docs.net/doc/e318656813.html,/10.1016/j.eswa.2017.10.021

[13]He, K., Zhang, X., Ren, S. and Sun, J. (2016) Deep Residual Learning for Image Recognition. IEEE Conference on

Computer Vision and Pattern Recognition, 770-778.

1. 打开知网页面https://www.360docs.net/doc/e318656813.html,/kns/brief/result.aspx?dbPrefix=WWJD

下拉列表框选择:[ISSN],输入期刊ISSN:2161-8801,即可查询

2. 打开知网首页https://www.360docs.net/doc/e318656813.html,/

左侧“国际文献总库”进入,输入文章标题,即可查询

投稿请点击:https://www.360docs.net/doc/e318656813.html,/Submission.aspx

期刊邮箱:csa@https://www.360docs.net/doc/e318656813.html,

基于深度卷积神经网络的图像分类

SHANGHAI JIAO TONG UNIVERSITY 论文题目:基于卷积神经网络的自然图像分类技术研究 姓名: 高小宁 专业:控制科学与工程

基于卷积神经网络的自然图像分类技术研究 摘要:卷积神经网络已在图像分类领域取得了很好的效果,但其网络结构及参数的选择对图像分类的效果和效率有较大的影响。为改善卷积网络的图像分类性能,本文对卷积神经网络模型进行了详细的理论分析,并通过大量的对比实验,得出了影响卷积网络性能的因素。结合理论分析及对比实验,本文设计了一个卷积层数为8层的深度卷积网络,并结合Batch Normalization、dropout等方法,在CIFAR-10数据集上取得了%的分类精度,有效地提高了卷积神经网络的分类效果。 关键词:卷积神经网络,图像分类,Batch Normalization,Dropout Research on Natural Image Classification Based on Convolution Neural Network Abstract: Convolution neural network has achieved very good results in image classification, but its network structure and the choice of parameters have a greater impact on image classification efficiency and efficiency. In order to improve the image classification performance of the convolution network, a convolutional neural network model is analyzed in detail, and a large number of contrastive experiments are conducted to get the factors that influence the performance of the convolution network. Combining the theory analysis and contrast experiment, a convolution layer depth convolution network with 8 layers is designed. Combined with Batch Normalization and dropout, % classification accuracy is achieved on CIFAR-10 dataset. Which improves the classification effect of convolution neural network. Key Words: Convolution neural network(CNN), image classification, Batch Normalization, Dropout

基于神经网络的图像分割

基于遗传神经网络的图像分割 摘要 针对图像分割的复杂性,利用遗传算法对BP神经网络的权值和阈值进行优化,设计出误差最小的神经网络,然后再对图像的像素进行分类识别,实现并提高了图像分割性能。仿真实验表明,与传统的图像分割方法相比,取得了比传统方法更好的图像分割效果。 关键词:图像分割;神经网络;遗传算法;遗传优化 A Study of Genetic Neural Network Used in Image Segmentation ABSTRACT Because of the complexity of image segmentation, the optimization of the weights and thresholds of BP neural network are realized by genetic algorithm, and a BP neural network with minimum error is designed. It classify the image pixels, implement and improve the performance of image segmentation. The results of simulation show that the algorithm neuralnetwork can better achieve the image segmentation, compared with the traditional method. Key word :Image segmentation;Neural Network;Genetic algorithm;Genetic optimization 一、遗传算法 1.1基本概念 遗传算法(Genetic Algorithm)是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法。它是由美国的J.Holland教授1975年首先提出,其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,不需要确定的规则。遗传算法的这些性质,已被人们广泛地应用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域。它是现代有关智能计算中的关键技术。 对于一个求函数最大值的优化问题(求函数最小值也类同),一般可以描述为下列数学规划模型:

【CN110020684A】一种基于残差卷积自编码网络的图像去噪方法【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910276255.3 (22)申请日 2019.04.08 (71)申请人 西南石油大学 地址 610500 四川省成都市新都区新都大 道8号 (72)发明人 罗仁泽 王瑞杰 张可 李阳阳  马磊 袁杉杉 吕沁  (51)Int.Cl. G06K 9/62(2006.01) G06N 3/04(2006.01) G06T 5/00(2006.01) (54)发明名称 一种基于残差卷积自编码网络的图像去噪 方法 (57)摘要 本发明公开了一种基于残差卷积自编码网 络的图像去噪方法,为了克服传统浅层线性结构 特征提取能力有限,现有基于深度学习的图像去 噪模型存在泛化能力弱等问题。以残差块、批归 一化层和自编码器组成的残差卷积自编码块为 基本去噪网络结构,提出了多功能去噪残差卷积 自编码神经网络。本发明公开的图像去噪方法, 在保持较高去噪质量和去噪精度的同时,不仅拥 有盲去噪能力,还能去除与训练集类型不相同的 噪声。权利要求书2页 说明书5页 附图2页CN 110020684 A 2019.07.16 C N 110020684 A

1.一种基于残差卷积自编码网络的图像去噪方法,其特征在于包括如下步骤: 步骤1、将预处理后的原图和对应含噪声的图像作为训练集和测试集,具体步骤如下: (1)将m*m像素的三通道原图预处理为单通道灰度图像,并对图像进行切割; (2)将预处理切割后的灰度图像加入相应噪声; (3)将原图的灰度图像及其对应的加噪图像作为一组数据,以原图像的灰度图像作为标签,制作训练集和测试集; 步骤2、构建残差卷积自编码块,主结构由n+2层卷积层组成,恒等映射部分由卷积自编码结构组成,残差卷积自编码块输出为: x n+2=f(x)+x cae x cae 为输入x经过卷积自编码器提取的潜在特征,f(x)为输入x经过n+2层卷积层输出的结果,n为大于1的正整数,其中,主结构第1层卷积核大小为1*1,激活函数为Swish;第2到第n+1层结构相同,均添加批归一化层,卷积核大小为3*3,激活函数为Relu;第n+2层卷积核大小为1*1,激活函数为Swish; 其中Relu激活函数为: Swish激活函数为: 式中β为x的缩放参数,β>0; 步骤3、网络结构主要由步骤2提出的残差卷积自编码块组成,网络共(n+2)*a+8层,a为大于2的正整数,第一层是一个用来降维的卷积层,中间层由残差卷积自编码块和残差卷积块组成,最后一层为一个全连接层; 步骤4、将步骤1预处理后的训练集,通过列队输入到步骤3搭建的网络模型中,采用误差反向传播,并以均方误差损失函数来衡量真实值与预测值的距离,通过数据集的每次迭代,使用梯度下降来调整神经元之间的权重以降低代价函数,进而优化网络,并以定量的峰值信噪比和定性的视觉感受判断网络去噪效果,初次保存网络模型的各个参数; 均方误差损失函数为: 式中,y i 为通过列队读入的标签数据,z i 为输出去噪后的数据,均方误差越小代表去噪后的数据与标签数据越接近,网络准确率越高; 峰值信噪比公式为: 其中M MSE 是原图和处理图像之间的均方误差,PSNR数值越大表示失真越小; 步骤5、将步骤1预处理后的测试集,输入到步骤4优化训练好的网络模型中,并通过定 权 利 要 求 书1/2页2CN 110020684 A

使用卷积神经网络的图像样式转换

《使用卷积神经网络的图像样式转换的研究》 院系信息工程学院 专业电子与通信工程 班级信研163 提交时间:2016年11月28日

使用卷积神经网络的图像样式转换的研究 湖北省武汉,430070 摘要:以不同的风格样式渲染图像的内容一直都是一个十分困难的图像处理任务。也可以说,以前主要限制因素是不知如何明确表示内容信息。在这里我们使用图像表示导出优化的能够识别对象的卷积神经网络,这使得高级图像信息显示。我们引入了一种可以分离和重组自然图像的图像内容和艺术风格的神经算法。这个算法允许我们生成高质量的新目标图像,它能将任意照片的内容与许多众所周知的艺术品的风格相结合。我们的结果提供了对卷积神经网络学习的深度图像表示的新理解,并且展示了他们的高水平图像合成和操纵的能力。 关键词:卷积神经网络;图像处理;神经算法 The Study of Image Style Transfer Using Convolutional Neural Networks LiWenxing School of Science,Wuhan University of Technology,Wuhan 430070,China Abstract: Rendering the content of an image in a different style has always been a difficult image processing task. It can also be said that the main limiting factor in the past is that I do not know how to clearly express the content information. Here we use an image representation to derive an optimized, object-aware convolutional neural network, which allows advanced image information to be displayed. We introduce a neural algorithm that can separate and reconstruct the image content and artistic style of natural images. This algorithm allows us to generate high-quality new target images that combine the content of any photo with the style of many well-known works of art. Our results provide a new understanding of the depth image representation of convolution neural network learning and demonstrate their ability to synthesize and manipulate high-level images. Keywords: Convolutional Neural Network;Image Processing;Neural algorithm

一种基于卷积神经网络的图像分类方法

F 福建电脑 UJIAN COMPUTER 福建电脑2018年第2期 基金项目:国家级大学生创新训练计划项目(201610719001);陕西省大学生创新训练计划项目(1495)。 0引言 图像分类就是利用计算机模拟人类对图像的理解和认知,自动根据图像的内容将图片划分到合适的类别中,它在智能识别、目标检测和信息搜索等计算机视觉领域有着广泛的应用,图像分类问题也一直是计算机视觉的基本问题。目前,关于图像分类的研究大多集中在医学图像、遥感图像等专业领域,而对于自然图像分类的研究较少,虽然分类的算法如K 最近邻算法[1]、决策树算法[2]、神经网络算法[3]、支持向量机算法[4]和一些混合算法[5]能达到较可观的分类效果,但对大数据库的分类,存在训练时间长,准确度低、易出现过拟合等缺点。 由于卷积神经网络[6](Convolutional Neural Network,CNN )具有输入图像不需预处理;特征提取和模式分类同时在训练中产生;权重共享减少了网络训练参数;很强的抗干扰能力等优点。本文首先分析探讨了卷积神经网络结构、原理,提出了一种改进的卷积神经网络,设计了基于该模型的图像分类算法,实验结果表明该模型能提取出大数据库中图像明显特征,可精确地对图像集进行分类。 1卷积神经网络及其改进 CNN 是将卷积运算引入到深度学习模型,属于多层前馈神经网络模型,但与传统不同的是它的输入是二维模式,可以直接处理二维模式,其连接权是二维权矩阵,称为卷积核,基本操作是二维离散卷积和池化。简单地说,CNN 就是能够自动的对于一张图片学习出最好的卷积核以及这些卷积核的组合方式。 1.1CNN 结构 CNN 一般由卷积层、池化层、全连接层和一个输出层(或分类器)组成。每层由多个二维平面块组成,每个平面块由多个独立神经元组成,如图1所示。 卷积层通过卷积运算提取图像的不同特征,包含若干组CNN 训练的参数,即进行学习的卷积核,当前层的卷积核对输入的一组图片做卷积运算,再经过激活函数得到新的特征图像,通常采用卷积离散型将输入原始图像的像素输出为新的像素点,可由公式(1)计算得出: (1) 其中,M β表示输入特征图像的子集;W γαβ表示卷积核;γ表 示网络层数;b γβ表示输出特征映射的偏置,f 表示激活函数,最常用的是sigmoid 函数与双曲正切函数。 卷积层后一般接入池化层来减小数据量,通过池化把输入的特征图像分割为不重叠的矩形区域,而对相应的矩形区域做运算,常见的有最大池化和均值池化。经过交替的卷积层和池化层之后,已经获得了高度抽象的特征图像,全连接层把得到的多个特征映射转化为一个特征向量以完全连接的方式输出,最后对提取的特征进行分类。 1.2CNN 工作原理 在CNN 中,通过神经网络的梯度反向传播算法实现对参数的学习训练,属于有监督学习。在进行学习训练过程中,输入信号的训练输出和实际输出会有一定误差,误差在梯度下降算法中逐层传播,逐层更新网络参数。假设样例(x ,y )的损失函数为C (W ,b ;x ,y ),如式(2)。 (2)为防止过拟合,需增加,L 2范数,如式(3)。 (3) 其中,h W ,b (x )为输入样本x 经过CNN 后的输出,y 为样本的标签真值,λ为控制强度。为了使代价函数尽可能的小,因此需要不断更新每一层的权重W 和偏置项b ,任意一层(假设为γ层)的权重更新如式(4)。 (4) 1.3CNN 的改进 在处理大数据集方面,由于卷积层和池化层数较少,获得的特征图相对不足,因此达不到较好的分类效果。针对该缺点,依据CNN 的卷积层和池化层设置灵活性,不同的结构设置会得到不同结果的特点,对传统CNN 进行了两方面的改进,一方面将卷积层和池化层层数分别增至3层,提高了各层提取图像特征的能力,使分类效果得到改善;另一方面设置卷积核大小为5×5,扫描的步长为2,在提高训练效率的同时也保证了分类精确度。 2基于改进CNN 的图像分类 一种基于卷积神经网络的图像分类方法 张琳林,曹军梅 (延安大学计算机学院陕西延安716000) 【摘要】利用卷积神经网络是深度学习的一种高效识别模型的思想, 将卷积神经网络应用于图像分类中,避免对图像进行复杂的预处理的同时也提高了图像分类的准确度。在分析卷积神经网络结构、 原理及特点的基础上,提出了一种改进的卷积神经网络模型,设计了基于该模型的图像分类算法, 并在大数据库CIFA R-10下进行实验验证,表明图像分类的准确度高,总结了网络模型对图像分类结果的影响因素。 【关键词】卷积神经网络;图像分类;卷积;池化;特征图像图1CNN 的基本结 构 DOI:10.16707/https://www.360docs.net/doc/e318656813.html,ki.fjpc.2018.02.021 46··

基于卷积神经网络的图像识别研究

第14期 2018年7月No.14July,2018 1 算法原理 卷积神经网络的卷积层最重要部分为卷积核[1-2]。卷积核不仅能够使各神经元间连接变少,还可以降低过拟合误 差[3]。 子采样过程就是池化过程。进行卷积过程是将卷积核与预测试图像进行卷积,子采样能够简化网络模型,降低网络模型复杂程度,从而缩减参数。 在图像识别时,首先需要对输入图像初始化,然后将初始化后图像进行卷积和采样,前向反馈到全连接层,通过变换、即可计算进入输出层面,最终通过特征增强效果和逻辑之间的线性回归判断是否符合图像识别期望效果,往复循环,每循环一次就迭代一次,进而对图像进行识别。流程如图1所示。 图1 卷积神经网络模型流程 2 卷积神经网络 卷积神经网络主要包括3个层次[4],它由输入层、隐藏 层、输出层共同建立卷积神经网络模型结构。2.1 卷积层 卷积层的作用是提取特征[2]。卷积层的神经元之间进行 局部连接,为不完全连接[5]。 卷积层计算方法公式如下。()r array M a λ+ 其中λ为激活函数,array 是灰度图像矩阵, M 表示卷积核, 表示卷积, a 表示偏置值大小。G x 方向和G y 方向卷积核。 本文卷积神经网络模型中设定的卷积核分为水平方向和竖直方向。卷积层中卷积核通过卷积可降低图像边缘模糊程度,使其更为清晰,效果更好、更为显著。经过S 型函数激活处理之后,进行归一化后图像灰度值具有层次感,易于突出目标区域,便于进一步处理。2.2 全连接层 该层主要对信息进行整理与合并,全连接层的输入是卷积层和池化层的输出。在视觉特征中,距离最近点颜色等特征最为相似,像素同理。全连接如图2所示。 图2 全连接 3 实验结果与分析 本文采用数据集库是MSRA 数据集,该数据集共包含1 000张图片。实验环境为Matlab2015a 实验环境,Windows 7以上系统和无线局域网络。本文从MSRA 数据集中选取其中一张进行效果分析。卷积神经网络模型识别效果如图3所示。 作者简介:谢慧芳(1994— ),女,河南郑州人,本科生;研究方向:通信工程。 谢慧芳,刘艺航,王 梓,王迎港 (河南师范大学,河南 新乡 453007) 摘 要:为降低图像识别误识率,文章采用卷积神经网络结构对图像进行识别研究。首先,对输入图像进行初始化;然后,初 始化后的图像经卷积层与该层中卷积核进行卷积,对图像进行特征提取,提取的图像特征经过池化层进行特征压缩,得到图像最主要、最具代表性的点;最后,通过全连接层对特征进行综合,多次迭代,层层压缩,进而对图像进行识别,输出所识别图像。与原始算法相比,该网络构造可以提高图像识别准确性,大大降低误识率。实验结果表明,利用该网络模型识别图像误识率低至16.19%。关键词:卷积神经网络;卷积核;特征提取;特征压缩无线互联科技 Wireless Internet Technology 基于卷积神经网络的图像识别研究

卷积神经网络

卷积神经网络 摘要:卷积神经网络是近年来广泛应用于模式识别、图像处理等领域的一种高效识别算法,它具有结构简单、训练参数少和适应性强等特点。本文从卷积神经网络的发展历史开始,详细阐述了卷积神经网络的网络结构、神经元模型和训练算法。在此基础上以卷积神经网络在人脸检测和形状识别方面的应用为例,简单介绍了卷积神经网络在工程上的应用,并给出了设计思路和网络结构。 关键字:模型;结构;训练算法;人脸检测;形状识别 0 引言 卷积神经网络是人工神经网络的一种已成为当前语音分析和图像识别领域的研究热点,它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。 1 卷积神经网络的发展历史 1962年Hubel和Wiesel通过对猫视觉皮层细胞的研究,提出了感受野(receptive field)的概念,1984年日本学者Fukushima基于感受野概念提出的神经认知机(neocognitron)可以看作是卷积神经网络的第一个实现网络,也是感受野概念在人工神经网络领域的首次应用。神经认知机将一个视觉模式分解成许多子模式(特征),然后进入分层递阶式相连的特征平面进行处理,它试图将视觉系统模型化,使其能够在即使物体有位移或轻微变形的时候,也能完成识别。神经认知机能够利用位移恒定能力从激励模式中学习,并且可识别这些模式的变化形,在其后的应用研究中,Fukushima将神经认知机主要用于手写数字的识别。随后,国内外的研究人员提出多种卷积神经网络形式,在邮政编码识别和人脸识别方面得到了大规模的应用。 通常神经认知机包含两类神经元,即承担特征抽取的S-元和抗变形的C-元。S-元中涉及两个重要参数,即感受野与阈值参数,前者确定输入连接的数目,后者则控制对特征子模式的反应程度。许多学者一直致力于提高神经认知机的性能的研究:在传统的神经认知机中,每个S-元的感光区中由C-元带来的视觉模糊量呈正态分布。如果感光区的边缘所产生的模糊效果要比中央来得大,S-元将会接受这种非正态模糊所导致的更大的变形容忍性。我们希望得到的是,训练模式与变形刺激模式在感受野的边缘与其中心所产生的效果之间的差异变得越来越大。为了有效地形成这种非正态模糊,Fukushima提出了带双C-元层的改进型神经认知机。 Trotin 等人提出了动态构造神经认知机并自动降低闭值的方法[1],初始态的神经认知机各层的神经元数目设为零,然后会对于给定的应用找到合适的网络规模。在构造网络过程中,利用一个反馈信号来预测降低阈值的效果,再基于这种预测来调节阈值。他们指出这种自动阈值调节后的识别率与手工设置阈值的识别率相若,然而,上述反馈信号的具体机制并未给出,并且在他们后来的研究中承认这种自动阈值调节是很困难的【8】。 Hildebrandt将神经认知机看作是一种线性相关分类器,也通过修改阈值以使神经认知机成为最优的分类器。Lovell应用Hildebrandt的训练方法却没有成功。对此,Hildebrandt解释的是,该方法只能应用于输出层,而不能应用于网络的每一层。事实上,Hildebrandt没有考虑信息在网络传播中会逐层丢失。 Van Ooyen和Niehuis为提高神经认知机的区别能力引入了一个新的参数。事实上,该参数作为一种抑制信号,抑制了神经元对重复激励特征的激励。多数神经网络在权值中记忆训练信息。根据Hebb学习规则,某种特征训练的次数越多,在以后的识别过程中就越容易

相关文档
最新文档