基于显著增强分层双线性池化网络的细粒度图像分类

2023年12月2日发(作者：买轩逸十大忠告)

第33卷第2期

2021年2月

计算机辅助设计与图形学学报

Journal of Computer-Aided Design & Computer Graphics

Vol.33

No.2

Feb. 2021

基于显著增强分层双线性池化网络的细粒度图像分类

陈珺莹, 陈莹*

(江南大学轻工过程先进控制教育部重点实验室无锡 214122)

(*********************.cn)摘要: 分层双线性池化网络考虑了中间卷积层的特征交互, 对细粒度图像起到了良好的分类效果, 但它对一幅图像包括无关背景在内的所有区域激活都进行了特征交互, 会影响分类性能. 针对该问题, 提出一种显著增强的分层双线性池化方法. 该方法在分层双线性池化网络的基础上, 结合显著性检测网络生成注意力图, 使用注意力图与特征提取网络进行交互实现对显著区域的信息增强, 减少了背景等无关信息的影响, 提高了分类性能. 在3个常用的细粒度图像数据集CUB-200-2011, Stanford Cars和FGVC-Aircraft上均进行了实验, 分类准确率分别为86.5%, 92.9%和90.8%, 与当前其他主流方法相比, 取得了良好的分类效果.

关键词: 细粒度图像分类; 显著性检测; 区域信息增强; 分层双线性池化

中图法分类号: TP391.41 DOI: 10.3724/SP.J.1089.2021.18399

Saliency Enhanced Hierarchical Bilinear Pooling for Fine-Grained Classification

Chen Junying and Chen Ying*

(Key Laboratory of Advanced Process Control for Light Industry (Ministry of Education), Jiangnan University, Wuxi 214122)

Abstract: Hierarchical bilinear pooling network considers the feature interaction in middle convolutional lay-ers and works well in the classification of fine-grained images. However, it carries out feature interaction on all

activated image regions including irrelevant background, which affects the classification performance. To ad-dress this problem, a saliency enhanced hierarchical bilinear pooling method is proposed, which combines with

the saliency detection network to generate an attention map, and uses the attention map to interact with the

feature extraction network to enhance the information of the salient regions. As the result, it can reduce the

impact of background and other irrelevant information, and improve the classification performance. The classi-fication accuracy on three commonly used fine-grained image datasets CUB-200-2011, Stanford Cars and

FGVC-Aircraft is 86.5%, 92.9% and 90.8%, respectively, which is excellent compared with other mainstream

methods.

Key words: fine-grained classification; saliency detection; regional information enhancement; hierarchical bi-linear pooling

细粒度图像分类是近年来计算机视觉领域的一个研究热点, 其目的是对粗粒度的大类进行更加精细的子类划分. 随着深度学习的发展, 许多计算机视觉任务取得了不错的进展, 但是细粒度图

像分类仍然面临较大的困难. 其难点有2点: (1)

同一个子类中的物体之间存在个体的差异, 并且还受到遮挡、尺度、姿态等的影响, 造成图像中的外观差异可能会很大; (2) 同一个大类下不同的子

收稿日期: 2020-05-22; 修回日期: 2020-11-13. 基金项目: 国家自然科学基金(61573168). 陈珺莹(1996—), 女, 硕士研究生, 主要研究方向为计算机视觉; 陈莹(1976—), 女, 博士, 教授, 博士生导师, CCF会员, 论文通讯作者, 主要研究方向为计算机视觉、信息融合.

242 计算机辅助设计与图形学学报第33卷

类物体可能具有相似的外观和组成结构, 只存在细微的差异, 且细节特征不易捕捉.

针对细粒度图像分类的难点, 往往需要定位到图像中起区分作用的微小区域. 很多方法使用额外人工标注来对这些微小区域做信息增强, 即基于强监督信息的分类方法. 然而, 由于人工标注信息的获取代价十分昂贵, 并且人工标定的特定的标注框或标注点并非最适合模型分类的区域,

因此基于弱监督信息的方法逐渐成为主流. Liu等[1]提出过滤蒸馏学习注意力模型, 用于增强细粒度视觉分类中的区域注意力. Zheng等[2]提出三线注意力采样网络, 利用三线注意力模块模型化通道间的关系产生注意力图, 基于注意力的采样器将关注区域通过高分辨率显示. Zhang等[3]提出一种基于空间显著性提取的细粒度图像分类方法, 由图像的显著性信息获得物体的位置, 将物体裁剪出来, 忽略掉背景的影响, 提高了分类性能. 除此之外, 对高阶特征编码的方式也取得了良好的分类效果. Lin等[4]提出双线性卷积神经网络(bilinear

convolutional neural networks, BCNN), 通过对最后一个卷积层的输出特征进行外积操作, 以平移不变的方式, 对局部对级特征交互进行建模, 取得了优秀的性能. Yu等[5]在BCNN的基础上, 提出分层双线性池化(hierarchical bilinear pooling, HBP),

HBP网络对中间卷积层的特征也进行了交互, 提高了分类性能.

虽然HBP有效地提高了分类准确率, 但是它对一幅图像的所有区域都进行了特征交互, 包括了一些无关的背景或不相干的物体区域, 这些区域会破坏特征交互, 从而影响分类性能. 所以, 需要对这些无关的背景区域进行过滤, 增强对感兴趣区域的关注.

针对上述问题, 本文提出了显著增强分层双线性池化(saliency enhanced HBP, SE-HBP)网络.

显著性检测可以获取一幅图像中的感兴趣区域,

与文献[3]不同, 本文并不对显著区域进行裁剪,

而是通过显著性检测得到一幅图像的显著性特征,

在此基础上得到注意力图; 再将注意力图与特征提取网络中的特征进行乘积融合实现显著区域的信息增强, 然后进行后续的特征提取及增强特征HBP操作. 本文分别在3个常用的细粒度图像数据集CUB-200-2011[6], Stanford Cars[7]和FGVC-Aircraft[8]上进行了实验, 实验结果表明, 本文方法取得了较好的分类性能, 证明了显著性增强的有效性.

1 本文方法

本文基于显著性增强改进HBP, 具体而言, 先利用显著性检测网络得到一幅图像的显著性特征,

再由显著性特征生成注意力图, 通过注意力图实现显著区域的信息增强, 以此增强对显著区域即判别区域的关注, 从而减少对背景等无关信息的关注. 下面分别介绍HBP的问题所在以及SE-HBP.

1.1 HBP及其问题分析

BCNN[4]实现了端到端的细粒度图像分类; Yu等[5]指出, BCNN只考虑了最后一个卷积层的特征交互, 忽视了卷积层之间的特征交互与细粒度特征的学习是可以相互加强的, 所以提出HBP来捕获层间的特征交互, 并集成了多个分层双线性特征, 提高了特征的表示能力.

本文使用ResNet-34构建HBP网络, 对ResNet-34最后一组(即第4组)块(block)的3个特征进行HBP操作, 这3个特征分别表示为X4?1,

X4?2和X4?3, 如图1所示选取2幅图像, 对这3个特征激活进行了可视化. 图1中, 第1列是从数据集中选取的图像, 其他3列是ResNet-34最后一组block的3个特征激活的热力图, 红色区域表示网络更加关注的区域, HBP模型对这2幅图像分类错误, 最后一列是错误类别中的示例图像.

图1 最后一组block的3个特征激活的

热力图及错误分类的类别

图1a选取的是CUB-200-2011数据集中的一幅类别为鱼鸭的鸟类图像, 被错误分类成宽尾拟八哥. 从特征激活的热力图可以看出, 网络只关注到了鱼鸭的头部和飞羽部位区域, 这些区域与宽尾拟八哥没有明显的不同; 鱼鸭的背部通常是纯黑色的, 而宽尾拟八哥的背部呈现亮蓝色或亮绿色, 但是HBP并没有关注到这部分区域, 导致分类错误. 图1b选取的是Stanford Cars数据集中的一幅车辆图像, 是阿斯顿马丁敞篷车的车身尾部,

被错误分类为宝马敞篷车. 从阿斯顿马丁敞篷车第2期

陈珺莹, 等: 基于显著增强分层双线性池化网络的细粒度图像分类 243

的尾部来看, 其与宝马敞篷车的最大不同在于车尾灯区域, 而HBP没有关注到这部分区域, 反而关注到了无关的背景(车旁的人), 导致分类错误.

所以, 对于HBP网络, 一些感兴趣区域(即判别区域)没有得到关注, 而一些无关的背景或不相关的区域在特征激活中有较高的响应, HBP网络对这些区域进行了特征交互, 影响了分类性能. 需要考虑如何减少无关背景的影响、如何更好地关注感兴趣区域, 从而实现更好的特征交互. 显著性检测网络可以获取到一幅图像中的感兴趣区域, 针对上述问题, 本文结合显著性检测网络来增强对感兴趣区域即判别区域的关注, 减少背景等无关信息的影响.

1.2 SE-HBP

为了更好地关注感兴趣区域, 文献[9-11]均通过物体标注框或部位标注点等额外人工标注对物体整体或局部区域进行定位, 实现区域信息的增

强; 但是这些方法依赖的人工标注成本较高, 在实际应用中有局限性. 由于显著性检测可以模拟人的视觉注意力机制, 提取图像中的感兴趣区域, 本文结合显著性检测网络实现感兴趣区域的信息增强. 即通过显著性检测网络得到的显著性特征, 以注意力图的形式来增强感兴趣区域的信息, 同时减少背景等无关区域的信息.

整体的网络结构如图2所示, 分为显著性检测、注意力生成以及增强特征HBP 3个部分. 首先经过显著性检测网络获得显著性特征, 再由此得到注意力图; 该注意力图的取值范围为0~1. 对于显著区域, 即感兴趣区域, 注意力图中相应区域的值接近1; 对于背景等无关区域, 注意力图中相应区域的值很小. 采用ResNet-34构建SE-HBP网络,

将注意力图与ResNet-34第3组block最后输出的特征进行乘积融合, 再进行后续的特征提取以及增强特征HBP操作.

图2 本文网络结构

1.2.1 显著性检测

显著性检测旨在提取图像中的显著区域, 即感兴趣区域. 本文使用的显著性检测网络是循环残差优化网络(recurrent residual refinement net-works, R3Net)[12], 其网络结构如图2的橙色区域所示, 它包含很多个残差优化块(residual refinement

block, RRB). RRB可以交替利用全卷积网络的低层集成特征和高层集成特征来学习中间显著性预测和真实值之间的残差, 低层集成特征可以捕获更多的显著性细节, 高层集成特征可以减少中间预测的非显著区域.

首先, 通过特征提取网络(这里用ResNeXt101)

生成一组特征图, 其中包含了不同尺度的低层细节和高级语义信息. 然后, 浅层特征通过集成生成低层集成特征, 深层特征聚合成高层集成特征. 提取特征后, 从高层集成特征生成一个初始的显著图, 然后交替利用低层集成特征和高层集成特征生成RRB, 逐步完善中间显著图. RRB执行的具体操作为: 将前一个循环得到的显著性预测图交替地与低层或高层集成特征相连接, 经过卷积得到当前循环的残差, 再将残差与前一个循环的显著性预测图相加, 得到当前循环的显著性预测图.

1.2.2 注意力生成

在R3Net的训练过程中, 高层集成特征首先在244

计算机辅助设计与图形学学报第33卷

真实值的监督下生成一个初始的显著图, 然后用一系列的RRB对其进行完善. 所以, 使用R3Net[12]模型, 采用其中的高层集成特征作为显著性特征.

对于低层集成特征, 其在训练时不直接接受真实卷积特征通过层叠多个HBP模块进行合并, 利用了层间的特征交互关系, 增强了特征的描述能力.

对于每个空间位置, SE-HBP模型的输出为

οSE-HBP=PTconcat(UTx4?1?VTx4?2,UTx4?1?TTT值的监督, 所以低层集成特征包含的显著性信息 Sx4?3,Vx4?2?Sx4?3).

不如高层集成特征的好. 本文在实验部分比较了分别使用高层和低层集成特征作为显著性特征得到的分类准确率, 验证了高层集成特征比低层集成特征更有效.

通过显著性检测网络R3Net得到显著性特征Xsal??h1?w1?c1, 其中,

h1为高,

w1为宽,

c1为通道数; 再经过降维以及Sigmoid函数生成1通道的注意力图Xatt??h1?w1?1.

1.2.3 增强特征HBP

HBP网络(网络结构如图2中的蓝色区域所示)是在因式分解双线性池化(factorized bilinear pool-ing, FBP)[13]网络基础上改进的. 假设一幅图像经过卷积神经网络进行特征提取后得到的输出特征为X??h?w?c. 其中,

h为高,

w为宽,

c为通道数; 输出特征可以看做由c个大小为h?w的二维特征组成, 用X:,:,k??h?w表示第k个通道的特征图; 也可以看做由h?w个c维描述符组成, 用Xi,j,:??c表示一个特定位置(i,j)上的描述符; 其中,

i??1,?,h?,

j??1,?,w?. FBP模型定义为每个空间位置的低秩外积操作, 即οFBP?PT(UTx?VTx). 其中,

x?Xi,j,:为特定位置(i,j)的c维描述符;

P??d?d?为分类矩阵;

d为特征向量的维数;

d?为图像的类别数;

U??c?d和V??c?d为投影矩阵;

?表示对应元素相乘;

οFBP??d?为输出向量.

与文献[14]的基础网络一致, 本文使用ResNet-34构建SE-HBP网络. 假设图像经过ResNet-34第3组block后得到的特征为X3??h1?w1?c2; 其中,

h1为高,

w1为宽,

c2为通道数. 因为经过ResNet-34第3组block后的特征与经过R3Net得到的显著性特征仅通道数不同, 特征的高与宽是相同的, 所以不需要对注意力图的高和宽进行处理. 将注意力图与ResNet-34第3组block得到的特征相乘, 得到X3??X3?Xatt. 对X3?进行后续的特征提取, 经过ResNet-34最后一组block得到的3个特征分别为X4?1??h?w?c,

X4?w?c?2??h?w?c和X4?3??h, 它们都融入了显著性特征, 实现了显著增强. 这3个显著增强后的

其中,

x4?1=X4,j,:?1i,

x4,j,:?2=X4?2i,

x4?3=X4i,j,:?3分别为3个卷积特征的特征描述符;

U??c?d,

V??c?d,

S??c?d分别为3个投影矩阵;

P??3d?d?为分类矩阵, 在实际中分类采用全连接层(fully connected layer, fc)来实现,

d?为图像的类别数;

concat( )为通道级联操作;

οSE-HBP??d?为输出向量.

得到输出向量之后, 使用Softmax函数将分类预测的输出标准化, 得到输入图像归属于各个类别的概率分布; 然后使用交叉熵作为损失函数计算预测分类与真实结果之间的相似度. 在实验部分, 本文还比较了将注意力图与X4?1以及X4?2相乘的分类准确率, 验证当注意力图与第3组block的输出特征X3相乘时能获得最优的识别效果.

2 实验及结果分析

2.1 数据集

在3个常用的细粒度图像数据集上进行了实验, 分别是CUB-200-2011, Stanford Cars和FGVC-Aircraft. CUB-200-2011是加利福尼亚理工学院创建的鸟类数据集, 包括了11 788幅鸟类图像, 共有200个子类; Stanford Cars数据集包含了196种车型, 共有16 185幅图像; FGVC-Aircraft数据集包含10 000幅飞机图像, 共100个子类. 每个数据集的详细信息如表1所示.

表1 数据集信息

数据集类别数训练集/幅测试集/幅

CUB-200-2011 200 5 994 5 794

Stanford Cars 196 8 144 8 041

FGVC-Aircraft 100 6 667 3 333

2.2 参数设置

实验采用了开源Linux内核的Ubuntu14.04桌面应用系统, PyTorch深度学习框架, Python编程语言.

在训练R3Net时, 使用了在ImageNet数据集[15]上预训练的ResNeXt101初始化特征提取网络; 然后将ResNeXt101的前3层特征聚合构成低层集成特征, 后2层特征聚合构成高层集成特征, 权衡时第2期

陈珺莹, 等: 基于显著增强分层双线性池化网络的细粒度图像分类 245

间性能以及检测精度, 使用了6个RRB. 在MSRA10K数据集[16]上进行训练, 每个循环中的显著性预测都与真实值计算交叉熵损失, 这些交叉熵损失的和构成总的损失函数. 训练过程使用了随机梯度下降(stochastic gradient descent, SGD),

权重衰减(weight decay)为5?10?4, 动量(momentum)为0.9, 学习率初始化为0.001, 使用了poly策略[17]调整学习率, 在6 000次迭代后训练完成.

与文献[14]一致, 使用在ImageNet数据集上预训练的ResNet-34构建SE-HBP网络, 去除ResNet-34最后的全连接层. 训练过程分为2步:

Step1. 只训练在原始ResNet-34基础上新增加的层.

Step2. 微调整个网络. 显著性检测网络R3Net的权重始终固定.

献[14]也是投影到8 192维, 所以, 本文将ResNet-34最后一组block得到的3个特征都由512维投影到8 192维. 使用的优化器为SGD, weight decay为1?10?5, momentum为0.9. 第1步训练中学习率初始化为1, 第2步训练中学习率初始化为0.01, 每隔40个周期学习率下降90%.

对于图进行预处理, 数据集CUB-200-2011,

Stanford Cars和FGVC-Aircraft的图像像素大小分别固定为600?600,

500?500以及500?480, 将图像裁剪到448?448, 在训练过程中使用了随机裁剪, 测试过程中使用的是中心裁剪. 对于投影层的维数, 文献[5]验证了投影到8 192维效果最好, 文

2.3 显著增强的效果

从上述3个细粒度图像数据集中选取一些图像, 比较SE-HBP以及HBP网络的特征, 可视化结果如图3所示. 图3前4列含义与图1中前4列含义相同, 最后3列是进行了显著增强的特征激活的热力图.

图3a选取的是CUB-200-2011中的2幅图像,

上下2行分别是丽色凤头燕鸥和鱼鸭的热力图,

HBP网络关注到丽色凤头燕鸥图像中的树干、海水等无关背景, 而显著增强后, 对无关背景的关注减弱. 对于鱼鸭, HBP网络将其错误分类成了宽尾拟八哥, 是因为HBP网络没有关注到鱼鸭和宽尾拟八哥起区分作用的背部, 而显著增强后的网络可以关注到背部. 图3b是本田雅阁轿车和阿斯顿

图3 热力图对比

246 计算机辅助设计与图形学学报第33卷

马丁敞篷车的热力图, HBP网络关注到了本田雅阁轿车旁的无关背景, 而SE-HBP可以关注到更多的车身部分且过滤掉了无关背景, HBP网络将阿斯顿马丁敞篷车误判成宝马敞篷车, 改进后的网络关注到了阿斯顿马丁敞篷车的车尾灯区域, 这是与宝马敞篷车尾部最大的不同, 并且对旁边的行人等无关背景的关注减弱. 图3c是机型分别为波音737-400和波音767-200的2架飞机, SE-HBP关注到波音737-400更多的机身部分, 忽略了对天空、地面等无关背景的关注; 对于波音767-200,

SE-HBP也关注到其引擎以及机顶等起区分作用的关键区域. HBP网络会关注到一些无关的背景区域, 对这些区域进行特征交互会影响分类性能, 且其关注到的局部区域可能不是最具判别性的区域,

而SE-HBP网络对这几幅图像均可以分类正确, 其可以关注到HBP网络没有关注到的起区分作用的关键区域, 并且可以减弱对背景或不相关区域的关注, 从而获得更好的分类性能.

2.4 分类性能

2.4.1 卷积层选择

本文首先通过显著性特征得到注意力图, 然后将注意力图与ResNet-34第3组block后的特征进行点乘加权增强处理, 经过ResNet-34第3组block后的特征表示为X3, 再将相乘后的特征送入ResNet-34最后一组block进行特征提取. Res-Net-34最后一组block共有3个残差块, 经过这3个残差块得到的特征分别表示为X4?1,

X4?2和X4?3. 本文在CUB-200-2011, Stanford Cars,

FGVC-Aircraft这3个数据集上, 将注意力图与不同卷积层的特征相乘, 对比其分类准确率, 结果如表2所示.

表2 与不同卷积层相乘的分类准确率对比 %

数据集

X4?1

X4?2

CUB-200-2011 86.5 86.0 85.9

Stanford Cars 92.9 92.5 92.2

FGVC-Aircraft 90.8 90.6 90.3

注意力图与特征X4?1相乘时, 将相乘后的特征送入ResNet-34最后一组block的后2个残差块继续进行特征提取, 再将相乘前的特征与后2个残差块的输出特征进行双线性池化操作. 同理, 注意力图与特征X4?2相乘时, 先经过了最后一组block的前2个残差块得到X4?1和X4?2, 再将注意力图与X4?2相乘, 然后相乘后的特征送入最后一个残差块, 最后将相乘前的特征与前后2个残差块的输

出进行双线性池化操作. 注意力图与X4?1,

X4?2相乘时, 高和宽为X4?1,

X4?2的2倍, 所以需要将注意力图的高和宽调整为原来的1/2.

由表2可知, 在3个数据集上, 当注意力图与ResNet-34第3组block最后输出的特征X3相乘时,

均能得到最高的分类准确率. 这是因为当注意力图与X3相乘时, 相乘后的特征送入ResNet-34最后一组block, 得到的X4?1,

X4?2,

X4?3都融入了显著性特征; 而与X4?1相乘时, 只有X4?2和X4?3融入了显著性特征, 与X4?2相乘时, 只有X4?3进行了显著增强. 以下实验都建立在注意力图与X3相乘的基础上.

2.4.2 显著性特征的选择

在R3Net中, 首先是高层集成特征在真实值的监督下生成一个初始的显著图, 然后RRB交替地利用高层和低层集成特征对其进行完善. 在CUB-200-2011, Stanford Cars, FGVC-Aircraft这3个数据集上, 比较了使用高层和低层集成特征分别作为显著性特征生成注意力图的分类准确率,

如表3所示.

表3 高低层集成特征作为显著性特征的

分类准确率对比 %

数据集高层集成特征低层集成特征

CUB-200-2011 86.5 86.3

Stanford Cars 92.9 92.5

FGVC-Aircraft 90.8 90.4

表3中, 显著性特征生成的注意力图均是与ResNet-34第3组block最后输出的特征X3相乘.

高层集成特征生成的注意力图的高和宽与X3的高和宽一致, 所以不需要作额外的处理; 而低层集成特征生成的注意力图的高和宽是X3的4倍, 需要对其作下采样处理. 实验结果显示, 在3个数据集上, 高层集成特征作为显著性特征得到的分类准确率均比低层集成特征作为显著性特征高.

为进一步验证高层集成特征的分类优势, 利用Python的Matplotlib库分别对高层和低层集成特征生成的注意力图进行可视化, 结果如图4所示. 图4中第1列是选自3个数据集的图像, 第2列和第3列分别是高层和低层集成特征生成的注意力图, 显示了不同颜色所对应值.

由图4可知, 高层集成特征生成的注意力图能够更好地过滤掉背景等无关信息, 更好地保留了第2期

陈珺莹, 等: 基于显著增强分层双线性池化网络的细粒度图像分类 247

准确率, 结果如图5所示.

由图5可知, SE-HBP在CUB-200-2011, Stan-ford Cars和FGVC-Aircraft这3个数据集上的分类准确率分别为86.5%, 92.9%和90.8%, 基线方法的分类准确率分别为85.8%, 92.2%和90.2%, 可以看出, 本文方法在这3个数据集上的分类准确率都优于基线方法.

图4 注意力图比较

感兴趣区域, 以下实验的显著性特征均采用高层集成特征.

2.4.3 与基线方法比较

本文的基线方法是使用ResNet-34重新构建的HBP网络(HBP-RNet)[14], 本文在CUB-200-2011,

Stanford Cars和FGVC-Aircraft这3个数据集上都进行了实验, 并比较了SE-HBP网络和基线网络的

图5 本文方法与基线方法准确率对比

2.4.4 与其他方法比较

表4列出了在3个细粒度图像数据集上的分类实验结果, 并与相关方法做了比较. 本文方法只使用了图像的类别标签, 没有使用额外人工标注.

分类

基于部件且使用额外的人工标注

表4 本文方法与相关方法的准确率对比 %

方法

SPDA-CNN[18]

PC-CNN[19]

MA-CNN[20]

基于部件只使用图像类别标签

额外人工标注 CUB-200-2011Stanford Cars FGVC-Aircraft√ 85.1

√ 84.1

86.5

92.8 89.9

89.9 RP-CNN[21] 84.5

93.0

UPM[22] 85.4 92.3 90.0

BCNN[4] 84.1 91.3 84.1

CBP[23] 84.0

84.2 90.1 87.3 LRBP[24]

基于双线性网络及其改进

KP[25] 86.2 92.4 86.9

85.8 92.8 89.8 GP[26]

HBP-RNet[14] 85.8 92.2 90.2

92.9

90.8

85.3 92.4 Dai等[27]

SE-HBP

86.5

注. 粗体表示精度最高.

表4中, 基于部件且使用额外的人工标注的方法, 分别是联合语义部件检测和提取的卷积神经网络(unifying semantic part detection and abstraction

convolutional neural networks, SPDA-CNN)[18], 以及

基于深度协同卷积网络的细粒度分类(part-colla-

boration convolutional neural networks, PC-

CNN)[19], 后者在每个手工标注的部件上训练定制的子网络. 248 计算机辅助设计与图形学学报第33卷

基于部件只使用图像类别标签的方法分别有多注意力卷积神经网络(multi-attention convolutional

neural networks, MA-CNN)[20], 其利用通道分组子网络生成多个部件; 随机部件定位模型(random

part localization convolutional neural networks,

RP-CNN)[21]使用显著图提取前景物体; 部件挖掘(unsupervised part mining, UPM)[22]方法利用模式挖掘算法来获取判别区域.

还有一些基于双线性网络以及在其基础上改进的方法, 如紧凑的双线性池化方法(compact bi-linear pooling, CBP)[23]、低秩双线性池化(low-rank

bilinear pooling, LRBP)[24]、通用的池化框架(kernel

pooling, KP)[25]、格拉斯曼池化(Grassmann pooling,

GP)[26], HBP[5]和基于子类别相似性度量的双线性池化[27], 都是在BCNN[4]的基础上改进的.

由表4结果可知, 本文方法(SE-HBP)在3个数据集上都取得了较好的分类性能, 都优于基线方法(HBP-RNet). 注意, 本文的基线方法为使用ResNet-34重新构建的HBP网络(HBP-RNet)[14], 因为ResNet-34是一个轻量级的网络, 与构建HBP网络[5]的VGG-Net[28]相比, ResNet-34的计算效率更高. 由表4可知, 本文方法比双线性网络以及在其基础上改进方法的分类准确率都要高. 由此可见, SE-HBP可以实现对显著区域即感兴趣区域的信息增强, 减少背景等无关信息的影响, 使网络关注到更具判别性的区域, 从而获得表述能力更好的特征; 本文方法比使用了额外人工标注信息的局部信息增强方法的准确率高, 因为人工标注的区域并非是最适合模型分类的区域, 证明了本文使用显著性检测网络可以获取到比人工标注更为合理的感兴趣区域, 从而获得良好的分类性能, 同时避免了使用成本较高的人工标注; 本文方法比大多数不使用额外人工标注的局部信息增强的方法的分类效果好, 证明了本文使用显著增强来获取感兴趣区域的做法可以与一些复杂的部件检测方法达到类似的效果.

3 结语

本文提出了适用于细粒度图像分类的SE-HBP网络, 使用显著性检测网络得到图像的显著性特征, 并将显著性特征以注意力图的形式与原来的特征相结合, 以此增强显著区域的信息, 减少背景等无关信息的影响, 实现网络的显著性增强. 本文在3个常用的细粒度图像数据集上都进行了实验,

在CUB-200-2011, Stanford Cars和FGVC-Aircraft上分别取得了86.5%, 92.9%和90.8%的分类准确率, 均优于基线方法, 与其他对比方法相比, 取得了具有竞争力的分类准确率, 得到了良好的分类性能, 验证了本文方法的有效性.

参考文献(References):

[1] Liu C B, Xie H T, Zha Z J, et al. Filtration and distillation: en-hancing region attention for fine-grained visual categoriza-tion[C] //Proceedings of the AAAI Conference on Artificial In-telligence. Palo Alto: AAAI Press, 2020: 11555-11562

[2] Zheng H L, Fu J L, Zha Z J, et al. Looking for the devil in the

details: learning trilinear attention sampling network for

fine-grained image recognition[C] //Proceedings of the IEEE

Conference on Computer Vision and Pattern Recognition. Los

Alamitos: IEEE Computer Society Press, 2019: 5007-5016

[3] Zhang J T, Sun F W, Song J, et al. Fine-grained image classifi-cation via spatial saliency extraction[C] //Proceedings of the

17th IEEE International Conference on Machine Learning and

Applications. Los Alamitos: IEEE Computer Society Press,

2018: 249-255

[4] Lin T Y, RoyChowdhury A, Maji S. Bilinear CNN models for

fine-grained visual recognition[C] //Proceedings of the IEEE

International Conference on Computer Vision. Los Alamitos:

IEEE Computer Society Press, 2015: 1449-1457

[5] Yu C J, Zhao X Y, Zheng Q, et al. Hierarchical bilinear pooling

for fine-grained visual recognition[C] //Proceedings of the Eu-ropean Conference on Computer Vision. Heidelberg: Springer,

2018: 574-589

[6] Wah C, Branson S, Welinder P, et al. The Caltech-UCSD

birds-200-2011 dataset[R]. California: California Institute of

Technology. Computer Neural System, 2011

[7] Krause J, Stark M, Deng J, et al. 3D object representations for

fine-grained categorization[C] //Proceedings of the IEEE In-ternational Conference on Computer Vision Workshops. Los

Alamitos: IEEE Computer Society Press, 2013: 554-561

[8] Maji S, Rahtu E, Kannala J, et al. Fine-grained visual classifi-cation of aircraft[OL]. [2020-05-22]. /abs/1306.

5151

[9] Zhang N, Donahue J, Girshick R, et al. Part-based R-CNNs for

fine-grained category detection[C] //Proceedings of the Euro-pean Conference on Computer Vision. Heidelberg: Springer,

2014: 834-849

[10] Wei X S, Xie C W, Wu J X, et al. Mask-CNN: localizing parts

and selecting descriptors for fine-grained bird species categori-zation[J]. Pattern Recognition, 2018, 76: 704-714

[11] Zhao Yili, Xu Dan. Joint semantic parts for fine-grained bird

images recognition[J]. Journal of Computer-Aided Design &

Computer Graphics, 2018, 30(8): 1522-1529(in Chinese)

(赵毅力, 徐丹. 联合语义部件的鸟类图像细粒度识别[J].

计算机辅助设计与图形学学报, 2018, 30(8): 1522-1529)

[12] Deng Z J, Hu X W, Zhu L, et al. R3Net: recurrent residual re-finement network for saliency detection[C] //Proceedings of the 第2期陈珺莹, 等: 基于显著增强分层双线性池化网络的细粒度图像分类 249

27th International Joint Conference on Artificial Intelligence.

California, 2018: 684-690

[13] Kim J H, On K W, Kim J, et al. Hadamard product for low-rank

bilinear pooling[OL]. [2020-05-22]. /

abs/1610.04325

[14] Tan M, Wang G J, Zhou J, et al. Fine-grained classification via

hierarchical bilinear pooling with aggregated slack mask[J].

IEEE Access, 2019, 7: 117944-117953

[15] ORussakovsky O, Deng J, Su H,, et al. ImageNet large scale

visual recognition challenge[J]. International Journal of Com-puter Vision, 2015, 115(3): 211-252

[16] Chen M M, Mitra N J, Huang X L, et al. Global contrast based

salient region detection[J]. IEEE Transactions on Pattern Anal-ysis and Machine Intelligence, 2015, 37(3): 569-582

[17] Liu W, Rabinovich A, Berg A C. ParseNet: looking wider to see

better[OL]. [2020-05-22]. /abs/1506.04579

[18] Zhang H, Xu T, Elhoseiny M, et al. SPDA-CNN: unifying se-mantic part detection and abstraction for fine-grained recogni-tion[C] //Proceedings of the IEEE Conference on Computer Vi-sion and Pattern Recognition. Los Alamitos: IEEE Computer

Society Press, 2016: 1143-1152

[19] Liao Q Y, Holewa H, Xu M, et al. Fine-grained categorization

by deep part-collaboration convolution net[C] //Proceedings of

the International Conference on Digital Image Computing:

Techniques and Applications. Los Alamitos: IEEE Computer

Society Press, 2018: 1-8

[20] Zheng H L, Fu J L, Mei T, et al. Learning multi-attention con-volutional neural network for fine-grained image recogni-tion[C] //Proceedings of the IEEE International Conference on

Computer Vision. Los Alamitos: IEEE Computer Society Press,

2017: 5219-5227

[21] Xin Q, Lv T J, Gao H. Random part localization model for

fine-grained image classification[C] //Proceedings of the IEEE

International Conference on Image Processing. Los Alamitos:

IEEE Computer Society Press, 2019: 420-424

[22] Zhang J, Zhang R S, Huang Y P, et al. Unsupervised part min-ing for fine-grained image classification[OL]. [2020-05-22].

/abs/1902.09941

[23] Gao Y, Beijbom O, Zhang N, et al. Compact bilinear pool-ing[C] //Proceedings of the IEEE Conference on Computer Vi-sion and Pattern Recognition. Los Alamitos: IEEE Computer

Society Press, 2016: 317-326

[24] Kong S, Fowlkes C. Low-rank bilinear pooling for fine-grained

classification[C] //Proceedings of the IEEE Conference on

Computer Vision and Pattern Recognition. Los Alamitos: IEEE

Computer Society Press, 2017: 7025-7034

[25] Cui Y, Zhou F, Wang J, et al. Kernel pooling for convolutional

neural networks[C] //Proceedings of the IEEE Conference on

Computer Vision and Pattern Recognition. Los Alamitos: IEEE

Computer Society Press, 2017: 3049-3058

[26] Wei X, Zhang Y, Gong Y H, et al. Grassmann pooling as com-pact homogeneous bilinear pooling for fine-grained visual clas-sification[C] //Proceedings of the European Conference on

Computer Vision. Heidelberg: Springer, 2018: 365-380

[27] Dai X H, Gong S R, Zhong S, et al. Bilinear CNN model for

fine-grained classification based on subcategory-similarity

measurement[J]. Applied Sciences, 2019, 9(2): 301

[28] Simonyan K, Zisserman A. Very deep convolutional networks

for large-scale image recognition[OL]. [2020-05-22].

/abs/1409.1556

更多推荐

特征,区域,网络