Wise-IoU:基于动态聚焦机制的边界框回归损失
文章目录
- 摘要
- 简介
- A. ln−norm损失
- B.交集/并集
- C.聚焦机制
- 相关工作
- A. BBR的损失函数
- B.带FM的损失函数
- 方法
- 仿真实验
- B.梯度消失问题的解决方法
- C.提出的方法
- 实验
- A.实验设置
- B.消融实验
- 结论
摘要
论文地址:https://arxiv.org/abs/2301.10051
GitHub:https://github.com/Instinct323/wiou
边界盒回归(BBR)的损失函数是目标检测的关键。它的良好定义将为模型带来显著的性能改进。现有的大部分工作都假设训练数据中的样例质量较高,侧重于加强BBR损失的拟合能力。如果盲目地在低质量的实例上加强BBR,将会危及本地化性能。为了解决这一问题,提出了Focal-EIoU v1,但由于其静态聚焦机制(FM),非单调FM的潜力没有得到充分发挥。在此基础上,我们提出了一种基于动态非单调调频的Wise-IoU (WIoU)欠条损失算法。动态非单调调频算法用离群度代替借据来评价锚盒的质量,并提出了一种明智的梯度增益分配策略。这种策略降低了高质量锚盒的竞争力,同时也减少了低质量示例产生的有害梯度。这使得WIoU可以专注于普通质量的锚盒,并提高探测器的整体性能。当WIoU应用于最先进的实时探测器YOLOv7时,MS-COCO数据集上的AP75从53.03%提高到54.50%。代码可从https://github.com/Instinct323/wiou获得。
简介
YOLO系列的实时探测器自问世以来已得到大多数研究人员的认可,并应用于许多场景[1]-[6]。如YOLOv1[7],构造了一个以BBR损失、分类损失和客体性损失为加权的损失函数。到目前为止,该结构仍然是目标检测任务中最有效的损失函数范式[7]-[14],其中BBR损失直接决定了模型的定位性能。为了进一步提高模型的定位性能,设计良好的BBR损耗是必不可少的
A. ln−norm损失
对于锚框B⃗=[xywh]\vec{B}=\left[\begin{array}{llll}x & y & w & h\end{array}\right]B=[xywh],其中的值对应于包围框的中心坐标和大小。类似地,Bgt→=[xgtygtwgthgt]\overrightarrow{B_{g t}}=\left[\begin{array}{lllll}x_{g t} & y_{g t} & w_{g t} & h_{g t}\end{array}\right]Bgt=[xgtygtwgthgt]描述了目标框的属性。
YOLOv1[7]和YOLOv2[8]在BBR损失的定义上非常相似。YOLOv2将BBR损失定义为:
L(B⃗,Bgt→)=∣∣B⃗−Bgt→∣∣(1)L\left(\vec{B}, \overrightarrow{B_{g t}}\right)=|| \vec{B}-\overrightarrow{B_{g t}}|| \tag{1} L(B,Bgt)=∣∣B−Bgt∣∣(1)
但是这种形式的损失函数并不能屏蔽包围盒大小的干扰,使得YOLOv2[8]对于小目标的定位性能较差。虽然YOLOv3[9]构造了2−wgthgt2−w_{gt}h_{gt}2−wgthgt试图减少模型对大物体的关注,但这种BBR损失给模型带来的定位性能仍然非常有限。
B.交集/并集
在目标检测任务中,利用交并比[15] (IoU)度量锚框与目标框的重叠程度。它以比例的形式有效屏蔽了包围盒大小的干扰,使得模型在使用LIoU\mathcal{L}_{I o U}LIoU(公式2)作为BBR损失时能够很好地平衡大目标和小目标的学习。
LIoU=1−IoU=1−WiHiSu(2)\mathcal{L}_{I o U}=1-I o U=1-\frac{W_{i} H_{i}}{S_{u}} \tag{2} LIoU=1−IoU=1−SuWiHi(2)
然而,LIoU\mathcal{L}_{I o U}LIoU有另一个致命的缺陷,可以在等式3中观察到,当∂LIoU∂Wi=0\frac{\partial \mathcal{L}_{I o U}}{\partial W_{i}}=0∂Wi∂LIoU=0当边界框之间没有重叠时(Wi=0W_i = 0Wi=0或Hi=0H_i = 0Hi=0),由LIoU\mathcal{L}_{I o U}LIoU反向传播的梯度消失。因此,重叠区域Wi的宽度(图1)无法在训练过程中更新。
∂LIoU∂Wi={−HiIoU+1Su,Wi>00,Wi=0(3)\frac{\partial \mathcal{L}_{I o U}}{\partial W_{i}}=\left\{\begin{aligned} -H_{i} \frac{I o U+1}{S_{u}}, W_{i} & >0 \\ 0, W_{i} & =0 \end{aligned}\right. \tag{3} ∂Wi∂LIoU=⎩⎨⎧−HiSuIoU+1,Wi0,Wi>0=0(3)
现有的工作[16]-[19]考虑了与边界框相关的许多几何因素,并构造了惩罚项Ri\mathcal{R}_{i}Ri来解决该问题。现有的BBR损失如下:
Li=LIoU+Ri(4)\mathcal{L}_{i}=\mathcal{L}_{I o U}+\mathcal{R}_{i} \tag{4} Li=LIoU+Ri(4)
C.聚焦机制
图2显示了训练数据中一些质量较低的例子。当一个性能良好的模型为低质量的示例生成高质量的锚框时,它将产生较大的LIoU\mathcal{L}_{I o U}LIoU。如果单调FM为这些锚框分配较大的梯度增益,则模型的学习将受到损害。
在[18]中,Zhang等人提出了使用非单调FM的Focal-EIoU v1。Focal-EIoU v1的FM f(LIoU)f(\mathcal{L}_{I o U})f(LIoU)是静态的,它指定了锚盒的边界值,使得LIoU\mathcal{L}_{I o U}LIoU等于边界值的锚盒具有最高的梯度增益。Focal-EIoU v1没有注意到锚盒的质量评价体现在相互比较中。它没有充分利用非单调FM的潜力。
通过估计锚框的离群程度,定义动态FM f(β)f(β)f(β)为β=LIoULIoUβ =\frac{\mathcal{L}_{I o U}}{\mathcal{L}_{I o U}}β=LIoULIoU。FM通过将较小的梯度增益分配给具有较小β的高质量锚框,使BBR能够专注于普通质量的锚框。同时,该机制将较小的梯度增益分配给具有较大β的低质量锚框,有效削弱了低质量样本对BBR的危害。
我们将这种wise FM与基于iou的损失相结合,称之为wise - iou (WIoU)。为了评估所提出的方法,将WIoU融入到最新的实时检测器YOLOv7[11]中。本文的主要贡献总结如下:
- 本文提出了基于注意力机制的损失函数WIoU v1用于BBR,在仿真实验中取得了比SOAT的SIoU[19]更低的回归误差。
- 设计了具有单调FM的WIoU v2和具有动态非单调FM的WIoU v3。得益于动态非单调FM的明智梯度增益分配策略,WIoU v3取得了优越的性能。
- 对低质量样本的影响进行了一系列详细的研究,证明了动态非单调FM的有效性和效率。
相关工作
A. BBR的损失函数
为了弥补l2-范数损失的尺度敏感性,YOLOv1[7]通过对边界框大小进行平方根变换来削弱大边界框的影响。YOLOv3[9]提出构建一个惩罚项来降低大盒子的竞争力。然而,l2-范数损失忽略了边界框属性之间的相关性,使得这类BBR损失效果较差。
为解决IoU损失的梯度消失问题,GIoU[16]采用最小包围盒构造的惩罚项。DIoU[17]使用由距离度量构造的惩罚项,CIoU[17]在DIoU的基础上加入长宽比度量得到。Gevorgyan构造了具有角度代价、距离代价和形状代价的SIoU[19],具有更快的收敛速度和更好的性能。
B.带FM的损失函数
交叉熵损失被广泛应用于二分类任务中。然而,这个损失函数的一个显著特性是,即使是简单的示例也会产生很大的损失值,与困难的示例竞争。Lin等人提出了基于单调FM的focal loss[20],有效降低了简单样本的竞争力。
在[18]中,Zhang等人提出了非单调FM的Focal-EIoU v1和单调FM的Focal-EIoU。在他们的实验中,单调调频比非单调调频是一个更好的选择。
Focal-EIoU v1的FM是静态的,它规定了锚框的质量划分标准。当锚框的IoU损失等于约束值时,它给锚框提供最高的梯度增益。由于没有注意到锚框的质量评价体现在相互比较中,因此没有充分挖掘非单调FM的潜力。
方法
仿真实验
为了初步比较各种损失函数对BBR的影响,我们使用Zheng等人提出的模拟实验[17]进行评估。我们在(0.5,0.5)处生成具有7个宽高比(即1:4,1:3,1:2,1:1,2:1,3:1,4:1)的目标框(所有区域为1/32)。在以(0.5,0.5)为中心,半径为r的圆形区域内均匀生成20000r2个定位点。每个锚点放置49个锚盒,7个比例(1/32、1/24、3/64、1/16、1/12、3/32、1/8)和7个宽高比(1:4、1:3、1:2、1:1、2:1、3:1、4:1)。每个锚框需要与每个目标框拟合,回归情况为6860000r2。为了比较不同时期的收敛速度,我们设置了以下实验环境:
1)r = 0.5时,锚框分布在目标框覆盖区域内外(图4a),对应于BBR内的所有情况。
2)r = 0.1时,在目标框的覆盖范围内生成锚框(图4b),对应于BBR中的主要情况
我们还将损失值定义为Li‾\overline{\mathcal{L}_{i}}Li整体回归案例,并使用学习率为0.01的梯度下降算法对其进行优化。
B.梯度消失问题的解决方法
现有的BBR损失[16]-[19]是基于加法的,遵循公式4所示的范式。
Distance IoU:Zheng等人定义RDIoU[17]为两个边界框中心点之间的归一化距离:
RDIoU=(x−xgt)2+(y−ygt)2Wg2+Hg2(5)\mathcal{R}_{D I o U}=\frac{\left(x-x_{g t}\right)^{2}+\left(y-y_{g t}\right)^{2}}{W_{g}^{2}+H_{g}^{2}} \tag{5} RDIoU=Wg2+Hg2(x−xgt)2+(y−ygt)2(5)
该项不仅解决了LIoU\mathcal{L}_{IoU}LIoU的梯度消失问题,而且作为一个几何因子。RDIoU\mathcal{R}_{D I o U}RDIoU允许DIoU在面对具有相同LIoU\mathcal{L}_{IoU}LIoU的锚框时做出更直观的选择。
∂RDIoU∂Wg=−2Wg(x−xgt)2+(y−ygt)2(Wg2+Hg2)2<0∂RDIoU∂Hg=−2Hg(x−xgt)2+(y−ygt)2(Wg2+Hg2)2<0(6)\begin{array}{l} \frac{\partial \mathcal{R}_{D I o U}}{\partial W_{g}}=-2 W_{g} \frac{\left(x-x_{g t}\right)^{2}+\left(y-y_{g t}\right)^{2}}{\left(W_{g}^{2}+H_{g}^{2}\right)^{2}}<0 \\ \frac{\partial \mathcal{R}_{D I o U}}{\partial H_{g}}=-2 H_{g} \frac{\left(x-x_{g t}\right)^{2}+\left(y-y_{g t}\right)^{2}}{\left(W_{g}^{2}+H_{g}^{2}\right)^{2}}<0 \end{array} \tag{6} ∂Wg∂RDIoU=−2Wg(Wg2+Hg2)2(x−xgt)2+(y−ygt)2<0∂Hg∂RDIoU=−2Hg(Wg2+Hg2)2(x−xgt)2+(y−ygt)2<0(6)
同时,RDIoU\mathcal{R}_{D I o U}RDIoU为最小包围盒的大小提供了负梯度,这会使WgW_gWg和HgH_gHg增大,阻碍锚框和目标框的重叠。但不可否认的是,距离度量确实是一种非常有效的解决方案,成为BBR、[18]、[19]的必要度量。在此基础上,Zhang等人增加了对距离度量的惩罚,提出了EIoU [18]:
REIoU=RDIoU+(x−xgt)2Wg2+(y−ygt)2Hg2(7)\mathcal{R}_{E I o U}=\mathcal{R}_{D I o U}+\frac{\left(x-x_{g t}\right)^{2}}{W_{g}^{2}}+\frac{\left(y-y_{g t}\right)^{2}}{H_{g}^{2}} \tag{7} REIoU=RDIoU+Wg2(x−xgt)2+Hg2(y−ygt)2(7)
Complete IoU: Zheng等人在RDIoU的基础上增加了对长宽比的考虑,提出了RCIoU [17]:
RCIoU=RDIoU+αv,α=vLIoU+v(8)\mathcal{R}_{C I o U}=\mathcal{R}_{D I o U}+\alpha v, \alpha=\frac{v}{\mathcal{L}_{I o U}+v} \tag{8} RCIoU=RDIoU+αv,α=LIoU+vv(8)
其中vvv表示长宽比的一致性:
v=4π2(tan−1wh−tan−1wgthgt)2(9)v=\frac{4}{\pi^{2}}\left(\tan ^{-1} \frac{w}{h}-\tan ^{-1} \frac{w_{g t}}{h_{g t}}\right)^{2} \tag{9} v=π24(tan−1hw−tan−1hgtwgt)2(9)
∂v∂w=8π2(tan−1wh−tan−1wgthgt)2hh2+w2∂v∂h=−8π2(tan−1wh−tan−1wgthgt)2wh2+w2(10)\begin{array}{l} \frac{\partial v}{\partial w}=\frac{8}{\pi^{2}}\left(\tan ^{-1} \frac{w}{h}-\tan ^{-1} \frac{w_{g t}}{h_{g t}}\right)^{2} \frac{h}{h^{2}+w^{2}} \\ \frac{\partial v}{\partial h}=-\frac{8}{\pi^{2}}\left(\tan ^{-1} \frac{w}{h}-\tan ^{-1} \frac{w_{g t}}{h_{g t}}\right)^{2} \frac{w}{h^{2}+w^{2}} \end{array} \tag{10} ∂w∂v=π28(tan−1hw−tan−1hgtwgt)2h2+w2h∂h∂v=−π28(tan−1hw−tan−1hgtwgt)2h2+w2w(10)
Zhang等[18]认为CIoU的不合理性在于∂v∂h=−wh∂v∂w\frac{\partial v}{\partial h}=-\frac{w}{h} \frac{\partial v}{\partial w}∂h∂v=−hw∂w∂v,这意味着v不能为锚框的宽度w和高度h提供同符号的梯度。在之前对DIoU的分析中,可以看到RDIoU会产生一个负梯度∂RDIoU∂Wg\frac{\partial \mathcal{R}_{D I o U}}{\partial W_{g}}∂Wg∂RDIoU(等式6)。当这个负梯度正好抵消LIoU在锚框上生成的梯度时,锚框将不会被优化。CIoU对纵横比的考虑将打破这一僵局(图3b)。
Scylla IoU: Gevorgyan[19]证明了向中对齐的锚框具有更快的收敛速度,并从角度成本、距离成本和形状成本3个方面构建SIoU。
角度成本描述了中心点(图1)与x-y轴之间的最小角度:
Λ=sin(2sin−1min(∣x−xgt∣,∣y−ygt∣)(x−xgt)2+(y−ygt)2+ϵ)(11)\Lambda=\sin \left(2 \sin ^{-1} \frac{\min \left(\left|x-x_{g t}\right|,\left|y-y_{g t}\right|\right)}{\sqrt{\left(x-x_{g t}\right)^{2}+\left(y-y_{g t}\right)^{2}}+\epsilon}\right) \tag{11} Λ=sin2sin−1(x−xgt)2+(y−ygt)2+ϵmin(∣x−xgt∣,∣y−ygt∣)(11)
当中心点对齐于x轴或y轴时,Λ\LambdaΛ = 0。当中心点的连接在x轴的45°处时,Λ\LambdaΛ = 1。该项可以引导锚框向目标框的最近轴线漂移,减少BBR的总自由度。
距离代价描述中心点之间的距离,其惩罚值与角度代价正相关。距离代价定义为:
Δ=12∑t=w,h(1−e−γρt),γ=2−Λ(12)\Delta=\frac{1}{2} \sum_{t=w, h}\left(1-e^{-\gamma \rho_{t}}\right), \gamma=2-\Lambda \tag{12} Δ=21t=w,h∑(1−e−γρt),γ=2−Λ(12)
{ρx=(x−xgtWg)2ρy=(y−ygtHg)2(13)\left\{\begin{array}{l} \rho_{x}=\left(\frac{x-x_{g t}}{W_{g}}\right)^{2} \\ \rho_{y}=\left(\frac{y-y_{g t}}{H_{g}}\right)^{2} \end{array}\right. \tag{13} ⎩⎨⎧ρx=(Wgx−xgt)2ρy=(Hgy−ygt)2(13)
形状成本描述了边界框之间的大小差异。当边界框的大小不一致时,Ω≠0\Omega \neq 0Ω=0。它的定义如下:
Ω=12∑t=w,h(1−eωt)θ,θ=4(14)\Omega=\frac{1}{2} \sum_{t=w, h}\left(1-e^{\omega_{t}}\right)^{\theta}, \theta=4 \tag{14} Ω=21t=w,h∑(1−eωt)θ,θ=4(14)
{ωw=∣w−wgt∣max(w,wgt)ωh=∣h−hgt∣max(h,hgt)(15)\left\{\begin{aligned} \omega_{w} & =\frac{\left|w-w_{g t}\right|}{\max \left(w, w_{g t}\right)} \\ \omega_{h} & =\frac{\left|h-h_{g t}\right|}{\max \left(h, h_{g t}\right)} \end{aligned}\right. \tag{15} ⎩⎨⎧ωwωh=max(w,wgt)∣w−wgt∣=max(h,hgt)∣h−hgt∣(15)
RSIoUR_{SIoU}RSIoU与RCIoUR_{CIoU}RCIoU类似,它们都由距离代价和形状代价组成:
RSIoU=Δ+Ω(16)\mathcal{R}_{S I o U}=\Delta+\Omega \tag{16} RSIoU=Δ+Ω(16)
由于RSIoU\mathcal{R}_{S I o U}RSIoU对距离度量的惩罚随着形状代价的增加而增加,因此使用SIoU训练的模型具有更快的收敛速度和更低的回归误差。
C.提出的方法
由于训练数据中不可避免地包含低质量样本,距离、长宽比等几何因素会加重对低质量样本的惩罚,从而降低模型的泛化性能。一个好的损失函数应该在锚框与目标框重合较好的情况下削弱几何因素的惩罚,较少的训练干预会使模型获得更好的泛化能力。在此基础上,构建了距离注意力(Eq. 17),得到了具有两层注意力机制的WIoU v1:
- RWIoU∈[1,e)\mathcal{R}_{W I o U} \in[1, e)RWIoU∈[1,e),将显著放大普通质量锚框的LIoU\mathcal{L}_{I o U}LIoU。
- LIoU∈[0,1]\mathcal{L}_{I o U} \in[0,1]LIoU∈[0,1],当锚框与目标框重合较好时,将显著减少高质量锚框的RWIoU\mathcal{R}_{W I o U}RWIoU,并减少其对中心点之间距离的关注。
LWIoUv1=RWIoULIoURWIoU=exp((x−xgt)2+(y−ygt)2(Wg2+Hg2)∗)(17)\begin{array}{l} \mathcal{L}_{W I o U v 1}=\mathcal{R}_{W I o U} \mathcal{L}_{I o U} \\ \mathcal{R}_{W I o U}=\exp \left(\frac{\left(x-x_{g t}\right)^{2}+\left(y-y_{g t}\right)^{2}}{\left(W_{g}^{2}+H_{g}^{2}\right)^{*}}\right) \end{array} \tag{17} LWIoUv1=RWIoULIoURWIoU=exp((Wg2+Hg2)∗(x−xgt)2+(y−ygt)2)(17)
其中WgW_gWg;HgH_gHg为最小包围盒的尺寸(图1)。为了防止RWIoU\mathcal{R}_{W I o U}RWIoUU产生阻碍收敛的梯度,WgW_gWg;HgH_gHg与计算图形分离(上标∗表示这种操作)。因为它有效地消除了阻碍收敛的因素,所以没有引入新的指标,如宽高比。
通过III-A中提到的仿真实验,我们比较了不使用FMs时BBR损耗的性能。从图6的结果可以得出如下结论:
- 在现有工作中提到的一系列BBR损失中,SIoU[19]收敛速度最快。
- 对于BBR中的主要情况,所有BBR损失具有极其相似的收敛速度。由此可见,收敛速度的差异主要来自于不重叠的边界框。提出的基于注意力机制的WIoU v1在这方面效果最好。
从focal loss中学习:Lin et al.[20]为交叉熵设计了一个单调FM,有效地降低了容易的样本对损失值的贡献。因此,该模型可以专注于极端的例子,获得分类性能的提升。为LWIoUv1\mathcal{L}_{W I o U v1}LWIoUv1构造了单调聚焦系数LIoUγ∗\mathcal{L}_{I o U}^{\gamma *}LIoUγ∗。
LWIoUv2=LIoUγ∗LWIoUv1,γ>0(18)\mathcal{L}_{W I o U v 2}=\mathcal{L}_{I o U}^{\gamma *} \mathcal{L}_{W I o U v 1}, \gamma>0 \tag{18} LWIoUv2=LIoUγ∗LWIoUv1,γ>0(18)
由于聚焦系数的加入,WIoU v2反向传播的梯度也发生了变化:
∂LWIoUv2∂LIoU=LIoUγ∗∂LWIoUv1∂LIoU,γ>0(19)\frac{\partial \mathcal{L}_{W I o U v 2}}{\partial \mathcal{L}_{I o U}}=\mathcal{L}_{I o U}^{\gamma *} \frac{\partial \mathcal{L}_{W I o U v 1}}{\partial \mathcal{L}_{I o U}}, \gamma>0 \tag{19} ∂LIoU∂LWIoUv2=LIoUγ∗∂LIoU∂LWIoUv1,γ>0(19)
注意,梯度增益是r=LIoUγ∗∈[0,1]r=\mathcal{L}_{I o U}^{\gamma *} \in[0,1]r=LIoUγ∗∈[0,1]。在模型训练过程中,梯度增益随着LIoU\mathcal{L}_{I o U}LIoU的减小而减小,导致在训练后期收敛速度慢。因此,引入LIoU\mathcal{L}_{I o U}LIoU的均值作为归一化因子:
LWIoUv2=(LIoU∗L‾IoU)γLWIoUv1(20)\mathcal{L}_{W I o U v 2}=\left(\frac{\mathcal{L}_{I o U}^{*}}{\overline{\mathcal{L}}_{I o U}}\right)^{\gamma} \mathcal{L}_{W I o U v 1} \tag{20} LWIoUv2=(LIoULIoU∗)γLWIoUv1(20)
其中LIoU‾\overline{\mathcal{L}_{I o U}}LIoU是动量m\mathrm{m}m的运行平均值。动态更新归一化因子使梯度增益r=(LLoU ∗LIoU‾)γr= \left (\frac{\mathcal{L}_{\text {LoU }}^{*}}{\overline{\mathcal{L}_{I o U}}}\right)^ {\gamma}r=(LIoULLoU ∗)γ整体保持在较高水平,解决了训练后期收敛速度慢的问题。
动态非单调FM:锚框的离群度由LIoU\mathcal{L}_{I o U}LIoU与LIoU‾\overline{\mathcal{L}_{I o U}}LIoU的比值表征:
β=LIoU∗LIoU‾∈[0,+∞)(21)\beta=\frac{\mathcal{L}_{I o U}^{*}}{\overline{\mathcal{L}_{I o U}}} \in[0,+\infty) \tag{21} β=LIoULIoU∗∈[0,+∞)(21)
小的离群度意味着锚框是高质量的。为其分配一个小的梯度增益,以便将BBR集中在普通质量的锚框上。此外,将小的梯度增益分配给离群度大的锚框,将有效防止来自低质量示例的大的有害梯度。我们利用β构造了一个非单调聚焦系数,并将其应用于WIoU v1:
LWIoUv3=rLWIoUv1,r=βδαβ−δ(22)\mathcal{L}_{W I o U v 3}=r \mathcal{L}_{W I o U v 1}, r=\frac{\beta}{\delta \alpha^{\beta-\delta}} \tag{22} LWIoUv3=rLWIoUv1,r=δαβ−δβ(22)
当β=δ\beta = \deltaβ=δ时,δ\deltaδ使r=1r=1r=1。如图8所示,锚点框的离群度满足β=C\beta =Cβ=C (C为常数值)时,梯度增益最大。由于LIOU‾\overline{\mathcal{L}_{I O U}}LIOU是动态的,所以锚框的质量划分标准也是动态的,这使得WIoU v3可以在每一个时刻做出最符合当前情况的梯度增益分配策略。
为防止在训练早期阶段留下低质量的锚框,初始化LIoU‾=1\overline{\mathcal{L}_{I o U}}=1LIoU=1,使LIoU=1\mathcal{L}_{I o U}=1LIoU=1的锚框享有最高的梯度增益。
为了在训练初期保持这种策略,需要设置一个较小的动量m,以延迟LIoU‾\overline{\mathcal{L}_{I o U}}LIoU接近真实值LIoU−real \mathcal{L}_{I o U-\text { real }}LIoU− real 的时间。对于数据批次数为n的训练,我们建议将动量设置为:
m=1−0.5tn,tn>7000(23)m=1-\sqrt[t n]{0.5}, t n>7000 \tag{23} m=1−tn0.5,tn>7000(23)
这样的设置使得LIoU‾=0.5(1+LIoU−real‾)\overline{\mathcal{L}_{I o U}}=0.5\left(1+\overline{\mathcal{L}_{I o U-\text {real}}}\right)LIoU=0.5(1+LIoU−real)在t次训练之后。
在训练中后期,WIoU v3将较小的梯度增益分配给低质量的锚框,以减少有害梯度。同时,重点介绍了普通质量的锚框,以提高模型的定位性能。
实验
A.实验设置
为了公平的比较,我们所有的实验都是在PyTorch框架[21]上执行的。对于数据集,我们在MS-COCO数据集[22]中选择了20个类别,并选择28474张图像作为训练数据,1219张图像作为验证数据。对于模型,我们选择层通道倍数为0.75的YOLOv7-w6[11]进行训练。对模型进行了120个不同BBR损失的训练。
YOLOv7探测头生产的锚箱主要由两部分组成:先导头锚箱(ABLH)和辅助头锚箱(ABAH)。ABLH拟合结果更好,信息更少,ABAH则相反。如果只计算ABLH的均值,会导致ABAH的梯度增益逐渐消失,使得FM忽略了ABAH丰富的信息量。因此,我们的平均统计量包括ABLH和ABAH。
B.消融实验
我们将FMs应用于BBR损失,以研究FMs对基于加法的损失的影响。版本2的这些BBR损失使用γ = 0.5的设置,以对准Focal-EIoU[18]的单调FM。他们的版本3使用了本文提出的动态非单调调频。
结论
在本文中,我们观察到训练数据中的低质量示例会阻碍目标检测模型的泛化。现有的研究大多局限于静态调焦机构,没有充分发挥非单调调焦机构的潜力。虽然他们提倡的单调调频可以提高定位性能,但并不能解决这个问题。我们提出了一种动态非单调调频,可以降低高质量锚盒的竞争力,并掩盖低质量示例的影响。
在消融研究中,我们表明动态非单调调频能使模型具有更好的泛化性能。由于WIoU v1具有注意机制对惩罚项的调整,因此WIoU v1与动态非单调FM之间的相互作用可以使模型获得显著的性能提升。
在对比研究中,WIoU v3训练的模型在某些类别的精度上取得了显著的提高。同时,由于数据标注质量较低,也降低了一些类别的精度。
在有限的参数下学习合适的知识是实时探测器成功的关键。WIoU v3通过权衡低质量示例和高质量示例的学习,提高了检测器的整体性能。