基于改进YOLOv3的人体行为检测

2023年12月6日发(作者：奔驰b级车有哪些)

计算机系统应用?ISSN?1003-3254,?CODEN?CSAOBNComputer?Systems?&?Applications,2021,30(6):197?202?[doi:?10.15888/.007507]?中国科学院软件研究所版权所有.E-mail:?:?+86-10-62661041?基于改进YOLOv3的人体行为检测①李啸天1,??黄　进1,??李剑波2,??杨　旭1,??秦泽宇1,??付国栋112(西南交通大学?电气工程学院,?成都?611756)(西南交通大学?信息科学与技术学院,?成都?611756)通讯作者:?黄　进摘　要:?针对人体行为检测中相同行为差异大,?不同行为相似度高,?以及视觉角度、遮挡、不能实时检测等问题,?提出Hierarchical?Bilinear-YOLOv3人体行为检测网络.?该网络采用YOLOv3在3个不同尺度上进行预测,?抽取YOLOv3金字塔特征提取网络中特定层作为Hierarchical?Bilinear的输入,?捕获特征图的层间局部特征关系,?并在3个不同尺度上进行预测,?最后将YOLOv3和Hierarchical?Bilinear两种预测结果融合.?实验结果显示,?改进后的模型相比于原网络仅增加了少量参数,?在保证检测效率的同时提高原算法的检测精度,?并在一定程度上优于当前行为检测算法.关键词:?人体行为检测;?YOLOv3算法;?Hierarchical?Bilinear-YOLOv3网络;?特征提取引用格式:??李啸天,黄进,李剑波,杨旭,秦泽宇,付国栋.基于改进YOLOv3的人体行为检测.计算机系统应用,2021,30(6):197–202.?/1003-3254/man Behavior Detection Based on Improved YOLOv3LI?Xiao-Tian1,?HUANG?Jin1,?LI?Jian-Bo2,?YANG?Xu1,?QIN?Ze-Yu1,?FU?Guo-Dong112(School?of?Electrical?Engineering,?Southwest?Jiaotong?University,?Chengdu?611756,?China)(School?of?Information?Science?and?Technology,?Southwest?Jiaotong?University,?Chengdu?611756,?China)Abstract:?This?study?proposes?a?neural?network?named?Hierarchical?Bilinear-YOLOv3?for?human?behavior?detection?dueto?a?large?disparity?in?the?same?behavior?and?high?resemblance?between?different?behaviors?in?human?behavior?detection,as?well?as?problems?such?as?visual?angle,?occlusion,?and?incapability?of?continuous?real-time?monitoring.?YOLOv3?is?firstdesigned?for?prediction?on?three?scales,?and?certain?layers?in?its?feature?pyramid?networks?are?used?as?inputs?forHierarchical?Bilinear?to?capture?local?feature?relationships?between?layers?in?the?feature?maps?and?predict?the?results?onthree?scales.?The?integrated?results?of?both?YOLOv3?and?Hierarchical?Bilinear?show?that?the?improved?network?only?addsa?few?parameters?compared?to?the?original?one.?It?improves?the?detection?accuracy?of?the?original?algorithm?withoutlowering?the?detection?efficiency?and?thus?is?superior?to?the?current?behavior?detection? words:?human?behavior?detection;?YOLOv3?algorithm;?Hierarchical?Bilinear-YOLOv3?network;?feature?extraction?人体行为检测是计算机视觉领域的热点之一,?其目的是检测图片或者视频中的人体行为.?传统的检测算法可以分为3个步骤:?首先采用多尺度、不同长宽比的滑动窗口[1]选取图片中感兴趣区域.?其次,?从选取①?基金项目:?成都市科学技术局项目(2018-YF05-01424-GX)区域中提取SIFT[2]、HOG[3]以及?Haar-like[4]等人工特征.?最后,?对选取的特征进行分类.?由于滑动窗口会产生大量冗余窗口计算量大,?人工特征进行分类只能提取物体的部分特征,?鲁棒性较差,?传统的目标检测算法Foundation?item:?Project?of?Science?and?Technology?Bureau,?Chengdu?Municipality?(2018-YF05-01424-GX)收稿时间:?2019-12-16;?修改时间:?2020-01-14;?采用时间:?2020-01-21;?csa在线出版时间:?2021-06-01197计算机系统应用2021?年?第?30?卷?第?6?期有待改进.近几年来,?基于深度学习的目标检测算法得到快速发展,?这些算法主要分为两类:?非端到端检测和端到端检测.?以Faster-RCNN[5]为代表的非端到端类算法首先采用区域建议网络(RPN)筛选可能含有目标的候选框,?然后通过深度卷积神经网络提取图像特征进行分类.?端到端类算法通过深度卷积网络提取特征,?然后采用回归方式输出图像中目标的位置和类别,?代表性的算法有SSD[6]、YOLO?[7–9].相比于传统人体行为检测算法,?基于深度学习的行为检测算法使用神经网络自动提取更深层次的图像特征,?避免了人工特征易受干扰的缺陷,?检测效果明显优于传统方法.?在两类深度学习目标检测算法中,?非端到端检测网络产生大量候选框,?然后对每一个候选框进行预测,?检测精度高,?但是比较耗时.?端到端检测网络采用回归方式直接预测,?具有良好的实时性,?但是不能很好的分割图片中的前景区域和背景区域,?容易产生误检和漏检.?因此如何在保证检测效率的前提下提升端到端检测算法的精度具有重要意义.1???行为检测研究现状目前在行为检测方面主要采用深度卷积神经网络提取特征,?经过特征融合后进行检测.?Ji等[10]采用三维卷积神经网络,?提出3-D?卷积神经网络?(3-D?ConvolutionalNeural?Networks,?3-D?CNN),?提取视频中时空信息.?在KTH人体行为数据库上测试,?获得了90.2%?的识别正确率.?Gkioxari等[11]利用卷积神经网络对人体姿势和行为进行检测,?在?PASCAL?VOC?数据集该方法取得了很好的检测效果,?并对已有的方法进行了对比.?Gkioxari等?[12]通过研究人体部件的动作和属性,?提出了一种基于人体部件的行为检测方法.?实验结果表明,?该方法能够对人体动作较好的分类.?Feichtenhofer等?[13]提出一种时空域上的人体行为检测方法.?该方法将双流卷积神经网络和残差网络?ResNet?进行结合,?采用运动流和外观流进行检测,?在?HMDB51数据库和?UCF101?数据库取得了较高检测的精度.?莫宏伟等[14]将Faster?R-CNN与OHEM算法结合,?提出在线难例挖掘算法.?该算法包含两个?RoI?网络,?在VOC?2012?Action数据集上实验结果表明,?改进后Faster?R-CNN?算法具有识别精度高的特点.?黄友文等[15]提出基于卷积神经网络与长短期记忆神经网络的多特征融合人体行为识别算法.?该198算法将不同层次的特征进行连接,?通过卷积融合后输入LSTM单元,?在KTH和UCF?Sports数据集实验结果表明,?模型有效地提高了行为识别精度.同时,?朱煜等[16]对传统行为识别方法和基于深度学习的人体行为识别方法进行了分析总结.?向玉开等[17]对主流人体行为数据集进行对比,?分析了基于可见光波段、传统方法、深度学习等人体行为检测研究现状及趋势,?并总结面临的挑战.虽然基于深度学习的行为检测算法在各种数据集上取得了不错的检测效果,?但仍然存在一些问题,?如基于3D?CNN、双流网络、Faster?R-CNN的行为检测算法网络参数量巨大无法实现实时性检测.?由于相同行为差异大,?不同行为相识度高,?检测过程中需要更加注重行为的细粒度特征,?基于人体部件的检测方法虽然能够提取局部和全局特征但额外增加数据标注成本.端到端目标检测算法YOLOv3在COCO数据集上的测试结果mAP为57.9%?,?比SSD算法高出7.5%,?并且满足实时性检测要求,?因此本文选择YOLOv3作为行为检测的基本网络并改进,?在保证检测效率的前提下提高网络对细粒度特征的提取能力,?从而提升检测的精度.2???网络模型介绍2.1 Hierarchical Bilinear Pooling网络模型在早期的研究中,?基于Bilinear?CNN?模型的细粒度分类网络[18]的有效性已经在实验中得到验证.Hierarchical?Bilinear?Pooling网络模型[19]在BilinearCNN?模型的基础上提出分层双线性池化结构,?增加不同层之间的交互,?对多个分层双线性池化模块进行集成,?从网络中间的卷积层中提取细粒度互补信息,?其网络框架如图1所示.该模型选取3个不同层、大小相同的特征图作为的输入,?如采用VGG-16[20]的relu5_1,?relu5_2,?relu5_3层.?然后相互作元素积(Hadamard?product[21])进行层间信息互补,?采用和池化操作降维,?经过非线性变换和L2正则化提升网络模型表达能力,?最后将3个特征图进行维度拼接,?通过全连接层进行分类.2.2 YOLOv3网络模型YOLOv3网络结构可以分为两个部分:?Darknet-53特征提取网络和特征金字塔预测网络.?Darknet-53采用全卷积层和残差结构提取图像特征,?每个卷积层包括2021?年?第?30?卷?第?6?期计算机系统应用二维卷积、归一化、LeakyReLU三个操作.?特征金字塔预测网络中高分辨率的特征图通过低分辨率特征图上采样并与Darknet-53网络中的特征图拼接得到,?每一个尺度上的特征图都融合了不同分辨率、不同语义强度的特征.?YOLOv3预测过程如图2所示.?Feature_map_1Feature_map_2Feature_map_3Element_wise_1Element_wise_2Element_wise_3Sumpool_1Sumpool_2Sumpool_3Signed_sqrt_Signed_sqrt_Signed_sqrt_layer_1layer_2layer_3L2_normalization_L2_normalization_L2_normalization_layer_2layer_1layer_3ConcatFc_layer?Output图1????Hierarchical?Bilinear?Pooling网络框架图??第 75 层13×13 预测第 62 层上采样35-26×26 预测te第 37 层nk上采样raD52×52 预测?图2????YOLOv3预测结构图?416×416的原始图像经过YOLOv3网络后产生13×13、26×26、52×52三个尺度上的网格区域,?每个网格区域预测3个边框,?每个边框对应四个边框预测值、一个网格区域置信度值和n个类别值,?每个预测框输出向量y如式(1)所示:y=(t)+Px+ty+tw+th0+(P1+P2+···+Pn)(1)3???Hierarchical?Bilinear-YOLOv3网络3.1 改进Hierarchical Bilinear Pooling网络原Hierarchical?Bilinear?Pooling网络主要用于图片的分类,?即单张图片上只有一个目标的情况.?为了使网络能够检测多个目标,?实现目标定位,?对原网络进行以下两个方面的改进:?(1)省去原网络中的和池化操作,保留特征图的每一个像素特征;?(2)采用1×1卷积分类层代替原网络中的的L2归一化层和全连接分类层,?直接输出目标的类别和坐标信息.?改进之后的HierarchicalBilinear?网络如图3所示.Feature_map_1Feature_map_2Feature_map_3Element_wise_1Element_wise_2Element_wise_3Signed_sqrt_Signed_sqrt_Signed_sqrt_layer_1layer_2layer_3ConcatConv2D 1×1?Output图3????改进后的Hierarchical?Bilinear网络结构图?将选取的3个大小为W×H×C的特征图相互作元素积进行层间信息互补得到3个大小为W×H×C的特征图,?其中W、H、C分别为特征图的宽、高、深度.经过非线性变换,?其表达式为:y=sign(x)×√|x|+b(2)其中,?x为输入特征向量,?b为浮点数常量.?将经过非线性变换后的特征图相加,?通过1×1卷积分类,?其表达式为:ZHB=PTconcat(x,y,z)=(t+t)xy+tw+th+P0+(P1+P2+···+Pn)(3)其中,?ZHB为分类结果矩阵,?PT是分类矩阵,?x、y、z为特征矩阵,?tx、ty、tw、th为目标坐标信息,?P0置信度值,P1,?…,?Pn为n个类别值.每个边框的预测坐标值计算公式如下:bx=Sigmoid(tx)+Cx(4)by=Sigmoid(ty)+Cy(5)bw=Pw×etw(6)bh=Ph×eth(7)其中,?tx、ty、tw、th为网络预测输出值,?Cx和Cy是网格区域相对于图片左上角的偏移量,?Ph和Pw表示预设边界框的长和宽,?bx和by表示预测边界框的中心坐标,bh和bw是预测边界框的长和宽.199计算机系统应用2021?年?第?30?卷?第?6?期置信度P0的计算公式如下:P0=Sigmoid(P)(8)其中,?P表示的是物体处于预测框中的输出值.对预测框所在网格区域进行物体类别得分计算时采用逻辑分类,?计算公式如下:Pi=Sigmoid(xi)(9)其中,?xi表示预测该网格区域为某一类别的输出值.3.2 改进后的YOLOv3网络为了增强YOLOv3网络层间局部特征交互,?提升网络对细粒度特征的提取能力,?在特征金字塔分类网络中选取3个3×3卷积特征图作为改进后的HierarchicalBilinear网络的输入,?经过层间信息互补后,?采用回归方式直接在3个尺度输出预测结果,?1×1分类卷积核的深度为(4+1+类别)×3.?改进后的YOLOv3网络如图4所示.?第 75层Feature_Extraction_layerConv2D 1×113×13×(4+1+类别)×3Improved_Hierarchical Bilinear_layerUp_Sampling_layer35-第 62ten层Feature_Extractionk类别)×3r_layerConv2D 1×126×26×(4+1+aDImproved_Hierarchical Bilinear_layerUp_Sampling_layer第 37层Feature_Extraction_layerConv2D 1×152×52×(4+1+类别)×3Improved_Hierarchical Bilinear?_layer图4????改进后的YOLOv3网络结构图?原网络和改进后的Hierarchical?Bilinear网络均会在3个不同尺度上输出预测结果,?将输出结果进行融合,?计算公式如下:y=αyyolo+(1?α)yhb(10)其中,?y为融合结果,?yyolo指原YOLOv3网络输出,yhb代表细粒度分类结果,?α为调节参数,?取值为0.6.3.3 损失函数设计改进后YOLOv3的损失函数计算公式如下:loss=αlossyolo+(1?α)losshb(11)其中,?loss为函数总损失,?lossyolo为原YOLOv3网络的损失,?losshb为改进后的Hierarchical?Bilinear网络损失,200α为权重调节参数,?取值为0.6.改进后的Hierarchical?Bilinear网络损失包括xy损失、wh损失、置信度损失、分类损失,?其中wh损失采用误差平方和损失函数,?剩余的使用交叉熵损失函数,?计算公式如下:10loss∑647xy=λIobjij(2?wtruth×htruth)∑i=1binary_crossentropy(t,t?)(12)t∈x,y10loss∑647∑wh=λcoordIobj(ij(2?wtruth×htruth)t?t?)2i=1t∈(w,h)(13)10lossconf=∑647Iobjij×binary_crossentropy(P0,P?)0i=110λ∑647(1?Iobj)ij×binary_crossentropy(P0,P?)0i=1(14)10loss∑647class=Iobj∑ijbinary_crossentropy(Pi(c),Pi?(c))i=1c∈class(15)其中,?Iobjij表示该网格中是否存在物体,?如果有目标则为1,?否则为0.?λcoord、λ为权重调节参数,?取值为0.5.?wtruth,htruth,?t,?P0,?Pi(c)为真实值,?t?,?P?0,?Pi?(c)为预测值.4???实验分析4.1 实验数据集与参数设置本文选用PASCAL?VOC?2012?action数据集,?该数据集包含10种不同的行为:?跳、打电话、弹奏乐器、阅读、骑车、骑马、跑步、拍照片、使用电脑、走路,每张图片包含类别信息、位置信息和语义分割信息.数据集包含3448张图像,?分为训练集、验证集、测试集,?三者的比例为6:2:2,?标签采用类别信息和标注框信息.实验平台采用Ubuntu?16.04系统,?Intel(R)?Xeon(R)?Silver?4116?CPU,?主频2.10?GHz,?48内核,?使用NVIDIA?Tesla?K80?GPU进行加速.网络输入大小固定为416×416,?初始化方法采用He等[22]所提出的?MSRA?Initialization,?实验训练迭代次数为200轮,?参数更新方法采用Adam,?初始学习率2021?年?第?30?卷?第?6?期计算机系统应用为0.001,?L2权重衰减设置为0.0005.4.2 实验结果分析本文提出的Hierarchical?Bilinear-YOLOv3网络模型与原YOLOv3模型检测结果对比如图5所示.??(a) 原模型检测效果图(b) 改进后模型检测效果图图5????两种模型检测结果对比图?当IOU=0.5时,?两种模型在测试集上的AP?(AveragePrecision)结果如图6所示.上述实验结果表明,?通过加入改进后的HierarchicalBilinear网络增强特征图的层间交互,?能够提升原网络的细粒度提取能力和小目标检测率,?从而提高行为检测精度.?本文使用平均准确率均值(mean?Average?Precision,mAP)和每秒帧率(Frame?Per?Second,?FPS)这两个指标来评价模型的检测效果,?并选择当前行为检测领域比较有代表性的模型进行对比,?实验结果如表1所示.?实验结果表明,?本文提出的Hierarchical?Bilinear-YOLOv3网络模型相比原YOLOv3网络、文献[23]、文献[24]在行为检测上的性能指标均有所提升,?改进后的模型虽然在mAP指标上没有文献[12]、文献[25]高,?但检测精度已经非常接近,?同时FPS性能指标上大幅度优于这些算法,?能够实现实时行为检测.?1.00.8P0.6A0.40.20跳话器读车马步片脑路电乐阅骑骑跑照电走打奏拍用弹使?YOLOv3Hierarchical Bilinear-YOLOv3图6????两种模型AP测试结果??表1?????各种行为检测模型实验结果对比数据算法mAPFPSYOLOv30.743712Hierarchical?Bilinear-YOLOv30.758312文献[23]0.70201文献[24]0.75601文献[12]0.77001文献[25]0.78641??5???结论与展望本文针对YOLOv3网络在人体行为检测中精度低等问题,?提出一种基于Hierarchical?Bilinear模型的YOLOv3改进算法.?该模型在YOLOv3原特征金字塔分类网络上选取一些特征输出层作为改进后HierarchicalBilinear网络的输入,?增强层间局部信息交互,?进行细粒度分类,?然后与YOLOv3网络分类结果进行融合.?实验结果表明改进模型的参数量仅增加了0.4%,?相比于原YOLOv3网络检测精度提升了1.5%mAP,?在保证检测效率的前提下提高了检测精度.参考文献1Sermanet?P,?Eigen?D,?Zhang?X,?et al.?Overfeat:?Integratedrecognition,?localization?and?detection?using?convolutionalnetworks.?arXiv:?1312.6229,?2013.2Lowe?DG.?Distinctive?image?features?from?scale-invariantkeypoints.?International?Journal?of?Computer?Vision,?2004,60(2):?91–110.?[doi:?10.1023/B:VISI..99615.94]3Wang?XY,?Han?TX,?Yan?SC.?An?HOG-LBP?human?detector201计算机系统应用2021?年?第?30?卷?第?6?期with?partial?occlusion?handling.?Proceedings?of?the?2009IEEE?12th?International?Conference?on?Computer?,?Japan.?2009.?32–39.4Viola?P,?Jones?M.?Rapid?object?detection?using?a?boostedcascade?of?simple?features.?Proceedings?of?2001?IEEEComputer?Society?Conference?on?Computer?Vision?andPattern?Recognition.?Kauai,?HI,?USA.?2001.?I.5Ren?SQ,?He?KM,?Girshick?R,?et al.?Faster?R-CNN:?Towardsreal-time?object?detection?with?region?proposal??Transactions?on?Pattern?Analysis?and?MachineIntelligence,?2017,?39(6):?1137–1149.?[doi:?10.1109/TPAMI.2016.2577031]6Liu?W,?Anguelov?D,?Erhan?D,?et al.?SSD:?Single?shotmultibox?detector.?Proceedings?of?the?14th?EuropeanConference?on?Computer?Vision.?Amsterdam,?theNetherlands.?2016.?21–37.7Redmon?J,?Divvala?S,?Girshick?R,?et al.?You?only?look?once:Unified,?real-time?object?detection.?Proceedings?of?2016IEEE?Conference?on?Computer?Vision?and?PatternRecognition.?Las?Vegas,?NV,?USA.?2016.?779–788.8Redmon?J,?Farhadi?A.?YOLO9000:?Better,?faster,?dings?of?2017?IEEE?Conference?on?Computer?Visionand?Pattern?Recognition.?Honolulu,?HI,?USA.?2017.6517–6525.9Redmon?J,?Farhadi?A.?YOLOv3:?An?incrementalimprovement.?arXiv:?1804.02767,??SW,?Xu?W,?Yang?M,?et al.?3D?convolutional?neuralnetworks?for?human?action?recognition.?EEE?Transactions?onPattern?Analysis?and?Machine?Intelligence,?2013,?35(1):221–231.?[doi:?10.1109/TPAMI.2012.59]Gkioxari?G,?Hariharan?B,?Girshick?R,?et al.?R-CNNs?for?poseestimation?and?action?detection.?arXiv:?1406.5212,?ri?G,?Girshick?R,?Malik?J.?Actions?and?attributes?fromwholes?and?parts.?Proceedings?of?2015?IEEE?InternationalConference?on?Computer?Vision.?Santiago,?Chile.?2015.2470–enhofer?C,?Pinz?A,?Wildes?RP.?Spatiotemporal?residualnetworks?for?video?action?recognition.?Proceedings?of?the30th?International?Conference?on?Neural?InformationProcessing?Systems.?Barcelona,?Spain.?2016.?3468–3476.莫宏伟,?汪海波.?基于Faster?R-CNN的人体行为检测研究.智能系统学报,?2018,?13(6):?967–973.20215黄友文,?万超伦,?冯恒.?基于卷积神经网络与长短期记忆神经网络的多特征融合人体行为识别算法.?激光与光电子学进展,?2019,?56(7):?071505.16朱煜,?赵江坤,?王逸宁,?等.?基于深度学习的人体行为识别算法综述.?自动化学报,?2016,?42(6):?848–857.17向玉开,?孙胜利,?雷林建,?等.?基于计算机视觉的人体异常行为识别综述.?红外,?2018,?39(11):?1–6,?33.?[doi:?10.3969/.1672-8785.2018.11.001]18Lin?TY,?RoyChowdhury?A,?Maji?S.?Bilinear?CNN?models?forfine-grained?visual?recognition.?Proceedings?of?2015?IEEEInternational?Conference?on?Computer?Vision.?Santiago,Chile.?2015.?1449–1457.19Yu?CJ,?Zhao?XY,?Zheng?Q,?et al.?Hierarchical?bilinearpooling?for?fine-grained?visual?recognition.?Proceedings?ofthe?15th?European?Conference?on?Computer?Vision.?Munich,Germany.?2018.?595–610.20Simonyan?K,?Zisserman?A.?Very?deep?convolutionalnetworks?for?large-scale?image?recognition.?arXiv:1409.1556,?2014.21Kim?JH,?On?KW,?Lim?W,?et al.?Hadamard?product?for?low-rank?bilinear?pooling.?Proceedings?of?the?5th?InternationalConference?on?Learning?Representations.?Toulon,?France.2017.22He?KM,?Zhang?XY,?Ren?SQ,?et al.?Delving?deep?intorectifiers:?Surpassing?human-level?performance?on?ImageNetclassification.?Proceedings?of?2015?IEEE?InternationalConference?on?Computer?Vision.?Santiago,?Chile.?2015.1026–1034.23Oquab?M,?Bottou?L,?Laptev?I,?et al.?Learning?andtransferring?mid-level?image?representations?usingconvolutional?neural?networks.?Proceedings?of?2014?IEEEConference?on?Computer?Vision?and?Pattern?us,?OH,?USA.?2014.?1717–1724.24Cimpoi?M,?Maji?S,?Vedaldi?A.?Deep?filter?banks?for?texturerecognition?and?segmentation.?Proceedings?of?2015?IEEEConference?on?Computer?Vision?and?Pattern?,?MA,?USA.?2015.?3828–3836.25Zhang?Y,?Cheng?L,?Wu?JX,?et al.?Action?recognition?in?stillimages?with?minimum?annotation?efforts.?IEEE?Transactionson?Image?Processing,?2016,?25(11):?5479–5490.?[doi:?10.1109/TIP.2016.2605305]1011121314

更多推荐

检测,网络,行为,特征,进行,算法,人体,采用