改进YOLOX网络的轴承缺陷小目标检测方法

李亚东,马 行,2,穆春阳,李建东

1.北方民族大学 电气信息工程学院,银川 750021

2.北方民族大学 宁夏智能信息与大数据处理重点实验室,银川 750021

3.北方民族大学 机电工程学院,银川 750021

工业缺陷目标检测是计算机视觉检测中的特殊任务之一,在实际的工程项目中具有广泛的应用价值。轴承是大型列车和小型家用车转动关节的重要零件,在生产过程中不可避免地对其表面造成划痕、凹槽等缺陷,严重影响其在使用过程中的机械性能。当轴承表面存在多缺陷,轴承与轴承之间相互重叠和遮挡时,导致小目标漏检率高,因此应用计算机视觉完成检测任务至关重要。

传统的检测方法依赖人工提取缺陷特征,比如陈金贵等人[1]采用背光源在轴承侧面打光的方式,获取缺陷区域图像,再利用阈值分割和改进的Niblack算法将缺陷区域从原图像中提取出来。该方法的识别精度受光强度的影响,需要人工补光才能获取缺陷图像。魏利胜等人[2]先对轴承图像进行增强处理,然后对该区域的SIFT特征与轴承滚子模板SIFT特征进行匹配,最后用融合单应性约束策略对匹配点进行筛选,得到轴承滚子的检测结果。该方法的识别精度依赖匹配模板的质量,若检测环境存在多个缺陷目标以及小目标密集的情况时,特征模板的提取较为困难,小目标的漏检率高。陈硕等人[3]提出一种轴承套圈端面检测方法。首先对轴承套圈图像进行边缘检测,定位套圈端面区域,并利用最小二乘法拟合端面轮廓以判别外形缺陷,再根据提取到的图像特征完成缺陷的识别。该方法的应用场景单一,边缘检测方法不能满足轴承与轴承之间存在重叠与遮挡情况下的识别。

随着人工智能技术的发展,卷积神经网络(convolutional neural network,CNN)[4]算法不断被提出,并被应用于各种场景的检测任务。比如徐镪等人[5]基于YOLOv3[6]算法进行钢板表面的缺陷检测,首先使用轻量级网络代替原模型的密集连接网络,然后加入空洞卷积提高缺陷的检测能力,最后使用并行结构进一步减少模型参数量。该方法的实时性有较大提升,但模型过于轻量化导致钢板表面小目标缺陷识别精度较低。程婧怡等人[7]基于YOLOv3算法用于金属表面缺陷识别,为解决小目标漏检问题设计了一条新的特征通道,然后使用K-means++算法重新聚类金属表面缺陷的锚框,最后引入DIoU损失函数。该方法相比于原模型,小目标识别率有所提升,但数据集缺陷目标过于单一,对于其他的缺陷检测任务鲁棒性较差,而且模型参数量较大,实时性较低。王紫玉等人[8]基于YOLOv4[9]算法进行铜带表面的缺陷识别,针对缺陷形式多样和位置随机导致定位难的问题,提出基于IOU的K-means改进算法,检测精度和速度有一定提升。若环境中存在多个重叠和遮挡的小目标时,其相交区域的IOU值计算并不准确,导致小目标的定位精度不理想。石振华等人[10]基于YOLOv3算法进行工件缺陷检测,改进特征融合方式以减少冗余候选框的数量,该方法对于单一的缺陷目标识别精度较高,在小目标较为密集的情况下,改进的特征融合方法仍存在特征融合不充分的问题,且小目标的识别率需进一步提升。

现有的卷积神经网络在工业缺陷检测中取得良好的检测效果,但也存在以下不足:(1)针对工业缺陷目标的检测任务,过度依赖锚框聚类。(2)模型整体参数量较大,实时性较低。(3)轴承缺陷目标过于单一,对于重叠和遮挡下的小目标,识别率较低,无法满足实际应用场景中的需求。(4)模型特征融合方法需进一步加强。

针对以上问题,本文基于无锚机制的YOLOX[11]模型提出一种多注意力特征加权融合算法。(1)引入更细粒度的特征提取模块,增加模型对小目标的表达能力,并嵌入自注意力模型,进一步增加模型对浅层小目标的特征描述。(2)设计了一种内嵌坐标注意力机制的加权特征金字塔融合网络,使模型对浅层特征和深层高级语义特征融合更充分,再通过注意力提高模型对显著区域目标的关注度。(3)在检测头网络中,设计并行的信息传输模块,使高维特征并行化,提高模型推理速度。(4)模型后处理阶段,引入解决正负样本不平衡的Focal Loss损失函数,提高模型对高阈值正样本特征的学习能力,进一步提高小目标识别率。实验结果表明,本文提出的多注意力特征加权融合算法在面对轴承表面重叠和遮挡的小目标时,检测精度和速度均有提升,满足工业中对缺陷目标的检测需求。

基于YOLOX算法,本文提出如图1所示多注意力特征加权融合算法,该算法结构由特征提取骨干模块、特征融合模块、检测头模块三部分组成。输入宽高为416×416的RGB三通道图像,首先通过改进的自注意力特征提取骨干模块(Res2Block+COT)生成尺度为13×13、26×26、52×52的三条聚合细粒度信息的特征通道,其次将三个多尺度通道中的特征信息输入改进的注意力加权特征金字塔融合模块(CA-BiFPN),进行浅、深层细节信息和高级语义信息的交互融合,然后将融合后含有丰富语义信息的特征图输入改进的并行传输模块(inception),最后送入检测头模块进行后处理,得到最终的优化模型。

图1 多注意力特征加权融合模型结构Fig.1 Structure of multi-attention feature weighted fusion model

1.1 改进的骨干网络

骨干网络用于提取图像中的目标特征,包含边缘特征、纹理特征等。原YOLOX模型中骨干网络使用CSPDarknet53模块,通过查阅文献[12]以及后续对模型结构的深入了解,该种组合方式会导致模型在反向传播过程中,神经元节点之间梯度重复,大大降低模型的学习表达能力。对于小样本缺陷目标来说,模型的学习表达能力直接影响目标的识别精度,因此使用提取特征更细粒度的Res2Net[13]网络重新构建新的骨干网络模型。Res2Block能够在更细粒度级别表示多尺度特征,不但缓解了梯度重复的问题,还使网络具备更大的感受野,进一步增加浅层和深层特征的语义表达能力。Res2Block结构如图2所示。

图2 Res2Block模块Fig.2 Res2Block module

该结构将输入特征图X分成s份分别进行处理,并且将不同分支间的特征再进行空间重构,Ki表示融合第i块特征图,Yi表示融合Xi分支的特征。其中Yi定义为式(1):

改进后的骨干网络信息参数如表1所示。

表1 骨干网络参数信息结构Table 1 Structure of backbone network parameter information

1.2 自注意力模块

Li等人[14]针对全局上下文特征信息设计了自注意力网络(contextual transformer network,COTNet)。自注意力模型不但开启了自然语言处理的新时代,在计算机视觉任务中也取得不错的成果,相比视觉领域具有代表性的通道和空间注意力,如SENet[15]、CBAM[16]等,具有长距离信息建模和全局感知能力。针对轴承表面小缺陷目标和区域缺陷目标密集的问题,正确描述前景正样本特征,能够显著提升缺陷目标的识别率。本文使用COT block自注意力模块增加网络对目标特征的关注程度,捕获更加丰富的上下文信息,生成更具判别性的有用特征。COT block自注意力模块如图3所示。

图3 COT block模块Fig.3 COT block module

该模块针对输入特征X,定义query=X,key map=X,value map=X×Wv。在key map上进行k×k的分组卷积,来获得静态建模的上下文信息K1,然后将query和K1通道拼接的结果进行两次连续的卷积得到具备丰富上下文信息的attention map,如式(2)。再将A(attention map)和V(value map)进行点积,得到具备动态上下文建模的K2,如式(3):

添加自注意力模型至Res2Block模块中,用以增加骨干网络的感受野以及轴承缺陷目标的动静态上下文建模,进一步提高模型的表达能力。

1.3 改进的注意力加权特征金字塔融合网络

在原始YOLOX模型中,特征融合使用的是路径聚合网络(path aggregation network,PANet)[17],该结构虽然构建了自底向上和自上而下的双路结构,但是网络层级之间特征利用率低,出现过多的冗余信息,导致模型特征融合不充分,丢失对浅层边缘小目标和区域密集目标的特征描述。针对上述问题,EfficientDet[18]提出加权双向特征金字塔网络(bidirectional feature pyramid network,BiFPN),基于BiFPN结构,重新设计了适用于本文改进模型的三通道加权双向特征金字塔融合网络,如图4所示。该结构将不同层级之间的特征交错连接,同一层级保留原始特征,充分利用了浅层细节信息和深层高级语义信息,并且减少了节点之间的计算。

图4 CA-BiFPN加权特征融合模块Fig.4 CA-BiFPN weighted feature fusion module

如图4所示,将52×52的特征图进行卷积核大小为3×3,步长为1的卷积,得到26×26大小的特征图,并将其与原该尺度大小的特征信息进行融合。再将融合后26×26的特征图进行相同的卷积,得到13×13的特征图,再与原尺度大小的特征信息进行融合。最后,将总的融合信息进行2倍和4倍的上采样,再次将不同尺度的特征进行融合。

1.4 加权注意力

本文中采用嵌入坐标注意力(coordinate attention,CA)[19]的方式给CA-BiFPN特征融合模块的多尺度通道分配不同分数的权值。嵌入坐标注意力的加权方式相比于传统的随机分配权值的方式,可以进一步增加模型的感受野,以及感兴趣目标的关注度和小目标的位置敏感性。坐标注意力将输入特征“分而治之”,结构如图5所示。

(1)在偏好表达上 文献[9]研究了得分偏好信息下的双边匹配问题,文献[12]考虑了语言偏好信息下的双边匹配问题,二者均未考虑匹配主体的心理行为因素。本文针对具有得分和语言两种形式偏好信息的双边匹配问题,考虑了匹配主体的心理行为因素,提出一种基于前景理论的双边匹配方法。与文献[9,12]的方法相比,一方面本文将基于单一形式偏好信息的双边匹配模型拓展到多种形式情形,发展和完善了双边匹配理论;
另一方面在实际匹配决策中,匹配主体是有限理性的,即匹配主体并非总是追求效用最大化,而表现为参照依赖和损失规避等,本文通过引入前景理论来描述匹配主体的心理行为,更加符合实际匹配情况。

图5 坐标注意力结构图Fig.5 Diagram of CA attention structure

利用(H,1)和(1,W)的池化核将输入特征图分割并压缩,沿水平方向和垂直方向对每个通道进行平均池化(average pool),产生两个独立方向感知注意力特征图zH和zW,大小分别是C×H×1和C×1×W。再将带有方向信息的特征图进行拼接,使用共享的1×1卷积生成过程特征图f∈RC/r×1×(W+H),r代表通道下采样的比例系数。将过程特征图在水平方向和垂直方向拆分成两个独立的向量f h、f w,然后分别通过卷积层调整维度大小得到f h∈RC×H×1和f w∈RC×1×W,最终经过激活函数Sigmoid(x)得到两个独立空间方向的注意力权值gh、gw,再对其进行拓展,作用于原输入特征信息后得到对目标空间维度位置信息敏感的注意力模块。

1.5 改进的特征并行传输模块

Inception[20]结构改善了模型的宽度和深度,解决了大的卷积核难以训练的问题。在检测头模块中,三条检测支路的特征向量都具有高纬度特点,为提升模型的推理速度,将串行传输的CBS结构设计为Inception并行传输,如图6所示。其中CBS为标准卷积、批量标准化(batch normalization,BN)和SiLU激活函数。

图6 改进Inception并行传输结构图Fig.6 Diagram of improved Inception parallel transmission structure

首先利用1×1卷积将输入特征分为并行结构,每条路径的通道数各为原始通道数的;
然后利用空间的1×3和3×1卷积提取特征;
最后通过通道拼接恢复原始通道数。该设计使特征在空间维度上高效传输,并减少了部分计算量。

1.6 损失函数

轴承缺陷目标与轴承背景相似,当多缺陷目标之间存在重叠和遮挡时,前景正样本和背景负样本难以区分。在模型训练过程中,背景负样本数量过多,导致模型对前景正样本目标的学习不够。虽然精度很高但是召回率很低,模型性能不稳定。为解决这一问题,本文引入Focal Loss[21]损失函数替换置信度损失的交叉熵函数,Focal Loss函数定义如式(4)和(5):

其中α∈是解决正负样本比例不均的平衡系数,λ为控制难易分类样本权重的平衡系数。pt为难易分类样本的概率。

2.1 实验平台

本实验在Ubuntu 18.04操作系统下完成,服务器的GPU型号为NVIDIATesla P40,显存为24 GB,4显卡并行训练,并通过CUDA 10.1对GPU进行加速。

2.2 数据集处理

图7 部分数据集展示Fig.7 Partial dataset presentation

本次实验以YOLOX-S为基准模型。自制数据集以8∶1∶1的比例随机划分为训练集、验证集和测试集,并设置多组消融实验验证每个改进策略对初始模型的效果,进而得到最优模型。

本次实验使用目标召回率(recall)、单个目标类别检测精度(average precision,AP)、平均检测精度(mean average precision,mAP)和检测速度(frame per second,FPS)作为评价指标。

3.1 模型训练

每个模型从零开始训练,epoch设置为160轮,其中前20轮为模型热身,即只进行前向推理,不进行梯度的反向传播。优化器使用随机梯度下降法(SGD),初始学习率为0.01,动量为0.937,并采用余弦退火学习策略,动态调整学习率。根据实验室的硬件平台,将一次输入网络的图片量(batch size)设置为64。模型训练过程loss曲线如图8所示。

图8 模型损失曲线Fig.8 Model loss curve

由图8的损失曲线可得,随着训练次数不断增加,模型的loss值逐步下降。本文改进算法模型的loss如图8中曲线B所示,相比于原模型的loss曲线A,收敛速度更快,改进前与改进后模型损失分别收敛于3.45和2.50左右,证明本文提出的改进策略及参数设置合理,对提升模型识别精度有效。

3.2 消融实验

在实景采集的轴承缺陷数据集上对各改进策略进行训练和评估,不同改进策略对基准模型的影响如表2所示。

表2对本文中的改进策略进行实验分析,其中实验2~5为改进策略对基准模型(实验1)的影响,可以看出改进策略使原模型的识别精度均有不同程度的提高。实验2中使用Res2Block+COT模块增强骨干网络,mAP提高1.05个百分点,召回率提升了1.11个百分点,表明引入该优化策略可以有效增加模型对小感受野目标和大感受野目标边缘信息的特征提取。实验3改进CA-BiFPN加权特征融合模块对网络识别率提升贡献最大,mAP提高1.84个百分点,召回率提升了2.56个百分点,表明该优化策略在一定程度上改善了原模型特征融合不充分的问题。浅层细节特征和深层语义特征存在更优的融合方式,也证明抛弃传统的随机加权方式,引入坐标注意力加权作用于改进特征融合网络可以显著提升模型的整体性能。实验4改进特征并行传输模块,mAP和recall与原模型持平,但其FPS提高了1 frame/s,参数量降低了0.2 MB,说明增加网络的宽度,使高维特征并行传输可以有效提高模型的推理速度,具备更高的实时性。实验5改进损失函数,mAP值提高0.26个百分点,检测精度提升较少,但召回率提高1.67个百分点,说明该优化策略可以有效增加模型对前景正样本目标的学习。

表2 消融实验Table 2 Ablation experiments

实验6~8对Res2Block中引入SE、CBAM、COT模块对整体的优化策略进行比较分析,实验结果显示,Res2Block中引入COT自注意力模型对总的改进算法影响最大,这也充分说明自注意力将目标全局和局部信息结合起来,可以有效提升模型的识别率。此外,对于一些边缘分辨率低且有用信息有限的小目标来说,自注意力能够聚焦到隐藏特征下的有用信息,提高对目标的关注度。如实验6、7所示,分别添加SE和CBAM到Res2Block中,在通道和空间维度上分别对目标进行加权关注,提升的mAP值相比较COT模块较低,但模型的FPS较高。本文提出的改进策略(实验8)有效提升了模型的平均检测精度,mAP值提高4.04个百分点,并具有较高的检测速度,值为73 frame/s。

为进一步证明改进自注意力模块(实验2)和本文提出的改进算法(实验8),在轴承表面小目标检测中的检测效果,分别从特征图可视化、recall、AP及漏检率等方面进行评价分析。

(1)为证明改进Res2Block+COT模块对骨干网络特征提取性能的影响,将骨干网络输出通道维度大小为52×52的征图进行可视化展示,如图9所示。改进后的模型对轴承缺陷目标的全局关注度更显著,对一些复杂的小目标表达能力更强。

图9 特征图可视化Fig.9 Feature map visualization

(2)在自制的轴承缺陷数据集中,凹槽类缺陷作为显著性的小目标,在阈值(score threhold)都为0.5的情况下,本文提出的多注意力特征加权融合算法比原模型在凹槽缺陷上的recall值提升了6.78个百分点(如图10),AP值提高了3.21个百分点(如图11)。

图10 凹槽类缺陷recall评价Fig.10 Recall evaluation of groove defects

图11 凹槽类缺陷AP评价Fig.11 AP evaluation of groove defects

(3)如图12则展示了改进前后模型在每类缺陷目标中的漏检率。可以看出改进后的模型在凹槽小目标、特征浅显的划痕和擦伤目标中的漏检率分别降低了6、9和7个百分点。

图12 目标漏检率对比Fig.12 Comparison of target missed detection rate

3.3 对比实验

为进一步验证本文提出的多注意力特征加权融合算法的有效性,将相同研究领域提出的算法进行比较分析,如表3所示。

表3中,Ours(S)为本文基于YOLOX-S提出的改进算法,Ours(L)为应用于本文策略提出的YOLOX-L改进算法。可以发现,Ours(S)算法相比于主流的二阶段检测算法Faster RCNN和一阶段检测算法YOLOv3、YOLOv4,平均检测精度分别高出3.15个百分点、9.47个百分点、3.92个百分点,并且在检测速度方面也分别高出65 frame/s、51 frame/s、48 frame/s。Ours(L)模型的mAP比原YOLOX-L模型提高2.31个百分点,达到95.42%,但模型参数量增加了27 MB,FPS降低了7 frame/s,相比于其他主流大型网络算法仍具备较高的识别率和检测实时性。通过对比实验分析得到,本文基于YOLOX-S提出的改进算法具有更为均衡的检测精度和检测速度,部署到移动端,更能满足工业检测的需求。

表3 对比实验Table 3 Contrast experiment

3.4 模型检测效果分析

如图13展示了原模型与本文改进模型在真实工作台场景的检测效果。每组图中,左侧均为原模型检测效果图,右侧均为改进后的模型检测效果图。每张图中绿色框表示擦伤缺陷、红色框为凹槽缺陷、蓝色框为划痕缺陷。

在图13中,(a)组检测图为轴承表面存在隐藏小目标场景,可以看出原模型未识别出轴承间的夹缝和轴承边缘隐藏的小目标,而本文的改进模型则没有出现隐藏小目标的漏检。说明本文的改进策略Res2Block+COT和CA-BiFPN对隐藏小目标具有更高的敏感性。(b)组检测图为轴承表面存在浅显小目标场景。浅显的划痕缺陷易受光强度的影响,原模型的检测性能对外界因素的影响不具有鲁棒性,而改进模型则将浅显目标都识别出来,说明引入多注意力策略可以显著增加模型对浅显目标的关注度。(c)组检测图为缺陷目标重叠的场景,原模型在小区域内出现很多漏检情况,而本文的改进模型则将漏检的小目标都检测出来,具有更强的检测性能。通过对改进前后模型的检测效果进行分析,本文提出的改进策略显著提高了原模型对小目标的检测性能,改进后的模型在隐藏目标场景、密集目标场景以及重叠目标场景具有更好的识别率和鲁棒性。

图13 模型检测效果展示Fig.13 Model detection effect display

针对深度学习模型在工业缺陷目标检测中存在的不足,基于YOLOX算法,本文提出的多注意力特征加权融合算法,共涉及四点可行性的改进策略:(1)使用特征提取更细粒度的Res2Block模块和自注意力模块构建新的骨干特征提取网络,增加模型对特征的表达能力;
(2)提出坐标注意力加权的金字塔特征融合网络,提高不同层间特征信息的利用率,增加边缘目标和特征不明显目标的细节信息;
(3)利用Inception的并行结构改进检测头的高维特征串行传输模块,提升模型的推理速度;
(4)使用Focal Loss改进置信度损失函数,降低模型对背景无用信息的学习,提升目标的检测率。

实验结果表明,与原始YOLOX和目前一些主流算法相比,本文提出的改进算法检测精度和实时检测速度分别达到94.71%和73 frame/s。虽然改进策略有效提升了算法的精度,但是模型参数量增加了6.7 MB,检测速度下降了8 frame/s。在未来的工作中,将继续研究并不断优化改进策略,使其能够在最小化参数量的前提下,具备更优的识别率和实时性。

猜你喜欢 轴承注意力特征 根据方程特征选解法中学生数理化·中考版(2022年9期)2022-10-25轴承知识哈尔滨轴承(2022年2期)2022-07-22轴承知识哈尔滨轴承(2022年1期)2022-05-23离散型随机变量的分布列与数字特征中学生数理化(高中版.高考数学)(2022年3期)2022-04-26让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09轴承知识哈尔滨轴承(2021年2期)2021-08-12轴承知识哈尔滨轴承(2021年1期)2021-07-21不忠诚的四个特征当代陕西(2019年10期)2019-06-03“扬眼”APP:让注意力“变现”传媒评论(2017年3期)2017-06-13A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21

推荐访问:轴承 缺陷 检测方法