基于改进FPN的输送带异物识别方法_吴守鹏.pdf
Vol.50No.12 Dec. 2019 第 50 卷第 12 期 2019 年 12 月 Safety in Coal Mines 井下带式运输机在煤炭运输中起着至关重要的 作用,由于带式运输机输送带自身的强度问题, 在 生产中很容易出现断带、纵向撕带等重大事故, 并 且其价格昂贵[1-2]。输送带发生撕裂断带等事故的出 现不仅会影响安全生产,而且会造成十分惨重的经 济损失[3-5]。而带式运输机输送带纵向撕裂大部分是 由大块矸石或铁器等异物进入输送带运输系统造成 的。图像识别是利用图像分析的方式实现煤和异物 的识别, 因其安装维护简单, 应用成本低, 利用图像 实现异物识别受到了国内外学者的广泛研究[6-12]。 针对大块矸石或铁器等非煤异物进入运煤输送 带系统易造成输送带损伤、 撕裂, 而且非煤异物尺寸 形状不一的问题, 以深度学习目标检测 Faster-RC- NN 为基础框架,在分析总结现有特征多尺度利用 的基础上, 基于 FPN 结构, 提出了双向特征金字塔 网络 DSFPN, 提升 Faster-RCNN 模型在多尺度非煤 异物的检测性能。 1Faster-RCNN 算法分析 Faster-RCNN 为 Ross B. Girshick 在 2015 年提 出[13], 在结构上, Faster-RCNN 将特征提取、 候选区 域提取、 边框回归、 前后景分类都整合在一个网络之 中, 在目标检测方面表现出强大的综合性能, 在检测 速度方面尤为明显。图像数据集通过卷积神经网络 DOI10.13347/ki.mkaq.2019.12.029 基于改进 FPN的输送带异物识别方法 吴守鹏 1, 2, 丁恩杰1, 2, 俞 啸 1, 2, 3 (1.中国矿业大学 物联网 (感知矿山) 研究中心, 江苏 徐州 221008; 2.中国矿业大学 信息与控制工程学院, 江苏 徐州 221008; 3.徐州医科大学 医学信息学院, 江苏 徐州 221009) 摘要 针对大块矸石或铁器等进入运煤输送带系统易造成输送带损伤、 撕裂等问题, 提出了一 种 Faster-RCNN双向特征金字塔网络 (Double-sided Feature Pyramid Networks, DSFPN) 的运煤输 送带异物识别模型, 模型以深度学习目标检测框架 Faster-RCNN 为基础, 对 FPN 结构改进提出 了 DSFPN, DSFPN 通过自底向上和自顶向下 2 个多尺度特征融合过程来解决输送带异物的多尺 度问题。 测试结果表明, DSFPN 可以有效的提升小块矸石等小尺寸异物的检测能力, 并且提升了 类似锚杆、 大矸石等大尺寸异物的识别精度。 关键词 带式输送机; 目标检测; 特征金字塔; FPN; Faster-RCNN 中图分类号 TD679文献标志码 A文章编号 1003-496X (2019 ) 12-0127-04 Foreign Body Identification of Belt Based on Improved FPN WU Shoupeng1,2, DING Enjie1,2, YU Xiao1,2,3 (1.IOT Perception Mine Research Center, China University of Mining and Technology, Xuzhou 221008, China; 2.School of Ination and Control Engineering, China University of Mining and Technology, Xuzhou 221008, China; 3.School of Medicine Ination, Xuzhou Medical University, Xuzhou 221009, China) Abstract Aiming at the problems of belt damage and tear caused by large-scale gangues or irons entering the coal belt system, a kind of Faster-RCNN double-sided feature pyramid networksDSFPN coal-transport belt foreign object recognition model is proposed. Based on the deep learning target detection framework Faster-RCNN, the model proposes DSFPN for the improvement of FPN structure. DSFPN solves the multi-scale problem of belt foreign objects through the bottom-up and top-down multi-scale feature fusion process. The test results show that the DSFPN proposed in this paper can effectively improve the detection ability of small-sized foreign bodies such as small pieces of gangues, and improve the recognition accuracy of large-sized foreign objects such as bolts and large gangues. Key words belt conveyor; object detection; feature pyramid; FPN; Faster-RCNN 基 金 项 目 “ 十 三 五 ” 国 家 重 点 研 发 计 划 资 助 项 目 (2017YFC0804400) 127 ChaoXing 第 50 卷第 12 期 2019 年 12 月 Safety in Coal Mines Vol.50No.12 Dec. 2019 图 2特征使用结构 图 1RPN 网络结构图 进行特征提取得到图像的特征图 Feature Maps, 常 用的提取网络有 VGG16、 ZFNet 等。 然后利用区域建 议网络 (Region Proposal Network, RPN, RPN) 来生成 候选区域框 即 Proposals,随后使用感兴趣区域池 化 Region of Interest Pooling, 即 ROI Pooling将候选 区域框映射到特征图对应位置,最后用 Softmax 分 类器进行前景、 背景分类, 并且使用目标框回归 (B- Box Regression及非极大值抑制 (NMS)实现选框调 整和筛选, 最终实现目标检测。 Faster R-CNN 结构中首先采用卷积神经网络 对图片进行特征提取,其最早采用的是在 ImageNet 上训练的 ZFNet 和 VGG,以 VGG16 结构为例。 VGG16 将网络层比常用的网络结构扩展了 2 倍, Faster-RCNN 中的特征图采用的是 VGG16 中卷积 层 conv5/conv5_1 的输出。 网络逐层训练以由浅入深的学习图像的各级特 征,最终输出得到卷积特征图,相当于卷积特征图 对原始图片的数据进行了编码,其同时保存了相对 于原始图片的各目标的位置。 区域建议网络是 Faster-RCNN 的核心,用来提 取目标候选框, 相比于选择性搜索 (Selective Search) 等传统的候选框提取方法, RPN 的引入,可以说是 真正意义上把物体检测整个流程融入到一个网络 中, 并且在速度方面有一定的提升。 RPN 结构图如图 1,图像的特征图一方面经过 中间层生成 256 维特征,另一方面通过滑动框得到 预选框的锚点。生成 256 维特征的再经过 2 个全连 接层, 结合锚点预选框得到每个锚点的 2k 个 cls 分 数和 4k 个 reg 坐标。其中 k 是由锚点 (anchor) 产生 的预选框的个数, 在本文中, 每个锚点确定 9 个框, 即 k9,预选框设定大小为 128、 256、 512 的 3 种尺 寸, 长宽比为 21、 11、 12 的 3 种比例共 9 种组合。 在 RPN 后端,对 cls 分支和 reg 分支的的结果 进行汇总, 先去除越过界的预选框, 然后根据 cls 分 数通过非极大值抑制 (Non-Maximum Suppression, NMS) 来实现对预选框的初步筛除,再跟进 reg 结果 对预选框进行初步偏移, 最后输出目标后选框。 2图像的多尺度检测 在目标检测中, 同样类型的目标在形状、 大小可 能会有很大差异,不同类型的目标在形状上又可能 存在一定的相似性,多尺度目标检测一直是图像处 理领域中一个基础并具有挑战性的课题。截止目 前, 目标检测领域常用 4 种特征使用结构[12], 4 种特 征使用结构如图 2。 1) 利用卷积神经网络最后 1 层的输出特征图。 其结构如图 2 (a) , fast-rcnn、 SPP net、 Faster-RCNN 均采用的这种方式。由卷积神经网络的特征提取特 性可知, 其浅层的特征分辨率高, 具有较强的细节信 128 ChaoXing Vol.50No.12 Dec. 2019 第 50 卷第 12 期 2019 年 12 月 Safety in Coal Mines 图 4DSFPN 在 RPN 中的表征 图 3双向特征金字塔 息, 目标定位准确, 但语义特征较弱; 深层的特征含 有较强的语义信息,但目标定位较为粗略。只采用 最深层的特征图,检测速度较快,但定位准确定较 差。Faster-RCNN 在检测图像中小尺寸目标方面有 一定的局限性。 2) 图像金字塔。结构如图 2 (b) , 将图像缩放到 不同尺寸,然后根据不同尺寸的图像生成对应的不 同的特征,利用图像金字塔构建的特征金字塔是多 尺度特征的传统思路,具有一定意义的尺度不变性, 但是图像金字塔的每层处理中存在一定的局限性, 较为明显的是其运算的时间成本会成比例增加。 3 ) SSD 的多层特征检测。结构如图 2 (c) , 直接 利用特征网络的不同尺度的特征图实现目标预测, 但在 SSD 算法中没有用到较低层的特征, 不同尺度 特征层图的也对预测结果存在一定的影响,而较低 层的特征在检测小尺寸目标方面有较好的效果。 4) FPN 的多层特征融合检测。结构如图 2 (d) , 顶层特征通过上采样和低层特征做融合,然后在每 一个融合层中进行独立的预测,逐级下采样向下融 合实现多尺寸目标的预测,但在逐级下采样融合的 过程中,会有一定多层特征的冗余,而且下采样融 合只提升了小目标检测的性能,对大物体检测的精 度没有明显的提升。 3双向特征金字塔网络 井下水汽粉尘大,运煤输送带监测图像较为模 糊,而且输送带运输中存在煤炭对非煤异物掩埋, 遮挡,非煤异物在尺寸形状方面也有较大差异, 考 虑到以上因素,为提高运煤输送带异物识别的鲁棒 性, 受 FPN 网络的启发, 提出双向特征金字塔网络 (DSFPN) , 在 DSFPN 中, 改进了 FPN 的向下融合过 程,并增加向上融合过程,提升了大目标检测的性 能, 双向特征金字塔网络结构如图 3。 DSFPN 主要有 3 个过程, 1 个特征图前向过程, 1 个自底向上融合过程, 1 个自顶向下融合过程。 1) 特征图前向。 该过程实质为 CNN 特征提取的 过程, 抽取每个 Stage 最后 1 层的输出, 构造图像特 征金字塔。 2) 自顶向下融合。使用语义信息丰富的最高层 特征图来融合底层位置信息丰富的特征图提升小目 标的检测精度。该过程采用上采样来实现,高层特 征图通过上采样到融合层的尺寸,通过横向连接将 上采样的特征图和前向生成的特征图进行叠加, 前 向特征图在叠加前经过 1*1 的卷积核进行通道匹 配, 叠加后利用 3*3 的卷积核对各层的叠加结果进 行卷积以消除上采样带来的特征混叠。 3) 自底向上融合。使用位置信息丰富的最底层 特征图来融合底层语义信息丰富的特征图提升大目 标的检测精度。该过程采用下采样来实现,底层特 征图通过下采样到融合层的尺寸,通过横向连接将 下采样的特征图和前向生成的特征图进行叠加, 同 自底向上融合过程, 也需要通道匹配和去混叠操作。 自顶向下融合的特征层表示为{D5, D4, D3, D2, D1} ,自底向上融合的特征层表示为 {U5, U4, U3, U2, U1}。在 RPN 中, 传统模式是输出特征图上采用 9 种 不同的 anchor, 本文为多尺度特征图, 各层特征图之 间本就存在着尺寸对应关系,所以固定每层特征图 的 anchor 尺寸, DSFPN 在 RPN 中的表征如图 4, {D5, D4, D3, D2, D1} 、 {U5, U4, U3, U2, U1}对应的 anchor 尺寸为 {512 512, 256 256, 128 128, 64 64, 32 32 } , 每个尺寸仍采用{1 2, 1 1, 2 1}3 种比例,因此, DSFPN 中共存在 30 中 anchor。ROI Pooling 层的输 入策略参考 FPN中的方法。 4试验数据及结果分析 所用的试验数据来自某煤矿带式运输机机头监 控视频。共标注了 130 张包含不同异物的带式运输 机运行图像作为模型训练数据, 数据格式符合 Pas- cal VOC2007 数据集标准,其中包含大块矸石的图 像 105 张,锚杆进入带式运输机系统的图像 25 张。 根据数据集标准将本文数据分为训练及验证集 129 ChaoXing 第 50 卷第 12 期 2019 年 12 月 Safety in Coal Mines Vol.50No.12 Dec. 2019 表 1试验测试结果 (trainval) 、 训练 集(train) 、 验证 集(val)和测 试 集 (test) 共 4 个部分, 其中 trainval 集占整个数据集的 70, train 集占 trainval 集的 70, val 集占 trainval 集的 30, test 集占整个数据集的 30, 设置学习率 为 0.01, 迭代次数为 70 000 次。 涉及的识别模型的训练是在搭载 Ubtuntu16.04 NVIDIA Quadro P4000 的 GPU 服务器上完成,其中 Faster-RCNN 采用端到端 (end2end) 的训练方式。 基于 VGG 和 ZF 这 2 种特征提取网络,训练了 Faster-RCNN、 Faster-RCNNFPN 和 Faster-RCNN DSFPN 共 6 个运煤输送带异物识别模型, 分别对各 训练模型进行异物识别测试,计算并整理的测试结 果见表 1, 表中 mAP 表示平均识别准确率。 由表 1 中数据可知, 以 VGG 作为基础特征提取 网络时, Faster-RCNNFPN 模型相比于 Faster-RC- NN 模型, mAP 提高了 0.4,在矸石的检测精度上 提高了 0.8, 而对于锚杆的检测精度没有明显的提 升;提出 的 Faster -RCNN DSFPN 模 型 相 比 于 Faster-RCNNFPN 模型, mAP 提高了 1.6, 在矸石 和锚杆的检测精度上分别提高了 1.1和 2.1, 在 矸石和锚杆的识别精度上都有较为明显的提升。 5结语 以Faster-RCNN 为基础目标检测框架,提出了 双向特征金字塔网络 DSFPN, 通过自底向上和自顶 向下 2 个多尺度特征融合过程来实现目标的多尺度 表征。针对运煤输送带的多尺度异物检测, 提出的 Faster -RCNN DSFPN 模 型 相 比 于 Faster -RCNN、 Faster-RCNNFPN 模型, 在多尺度目标识别方面有 较好的性能,在识别矸石、锚杆等非煤异物方面展 现出较高的识别准确率。 参考文献 [1] 胡瑞.煤矿机电运输撕带故障与应对策略 [J] .能源与 节能, 2016 (12) 28-29. [2] Wang L H, Gao H Q, Hong-Xuan L I, et al. Design and Research of Middle Unload Device for Belt Con- veyor [J] . Coal Mine Machinery, 2016, 37 (2) 106. [3] 曹虎奇.煤矿带式输送机撕带断带研究分析 [J] .煤炭 科学技术, 2015, 43 (S2) 130-134. [4] Petrikova I, Marvalova B, Samal S, et al. Digital Image Correlation as a Measurement Tool for Large Dea- tions of a Conveyor Belt [J] . Applied Mechanics & Ma- terials, 2015, 732 77-80. [5]Zimroz R, Stefaniak P K, Bartelmus W, et al. Novel TechniquesofDiagnosticDataProcessingforBelt Conveyor Maintenance [C] ∥Proceedings of the 12th International Symposium Continuous Surface Mining - Aachen.Springer, 201431-40. [6] 刘富强, 钱建生, 王新红, 等.基于图像处理与识别技 术的煤矿矸石自动分选 [J] .煤炭学报, 2000 (5) 534. [7] 于国防, 邹士威, 秦聪.图像灰度信息在煤矸石自动分 选中的应用研究 [J] .工矿自动化, 2012, 38 (2) 36. [8] 谭春超, 杨洁明.煤与矸石图像灰度信息和纹理特征 的提取研究 [J] .工矿自动化, 2017, 43 (4) 27-31. [9] Sun X, Wu P, Hoi S C H. Face Detection using Deep Learning An Improved Faster RCNN Approach[J] . Neuro computing, 2018, 299 42-50. [10]Song Shuran, Xiao Jianxiong.Deep Sliding Shapes for Amodal 3D Object Detection in RGB-D Images [EB/OL]. [2019- 01- 19]. https / / www . re- searchgate . net / publication / 283659100_Deep_Slid - ing_Shapes_for_Amodal3D_Object_Detection_in_RGB- D_Images. [11] 李伟山, 卫晨, 王琳.改进的 Faster RCNN 煤矿井下 行人检测算法 [J] .计算机工程与应用, 2019, 55 (4) 200-207. [12] Lin Tsung-Yi,Dollr Piotr,Girshick Ross, et al. Fea- ture Pyramid Networks for Object Detection [C] ∥2017 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2017 936-944. [13] Ren S, He K, Girshick R B, et al. Faster R-CNN to- wards real-time object detection with region proposal networks [J] . IEEE Trans Pattern Anal Mach Intell, 2017, 39 (6) 1137-1149. 基础 网络 模型mAP/ 矸石识别准 确率/ 锚杆识别准 确率/ VGG Faster-RCNN Faster-RCNN FPN Faster-RCNN DSFPN 91.1 91.5 93.1 93.5 94.3 95.4 88.7 88.7 90.8 ZF Faster-RCNN Faster-RCNN FPN Faster-RCNN DSFPN 91.0 91.4 93.0 93.6 94.1 95.3 88.4 88.7 90.7 作者简介 吴守鹏 (1994) , 山东泰安人, 在读硕士研 究生, 主要研究方向为图像识别、 机器学习。 (收稿日期 2019-03-19; 责任编辑 李力欣) 130 ChaoXing