[MOT学习笔记]JDE损失函数详解

正好最近写论文,整理到JDE算法.JDE原论文中损失函数部分写的有些模糊.

(一)损失函数

与YOLO v3不同的是,JDE采用双阈值分割法判断目标为前景或背景。即如果目标和某真值框的IoU大于0.5,则认为匹配;若IoU小于0.4,则认为不匹配。经过实验,
认为这种方式能够抑制虚警(FP)。对于前景和背景的分类损失 L α \mathcal{L}_{\alpha} Lα采用交叉熵损失,对于边界框的回归损失 L β \mathcal{L}_{\beta} Lβ采用平滑L1损失,
如式(4-1)、(4-2)所示。
L α ( x , y ) = 1 N ∑ n = 1 N [ − ∑ c = 1 C log ⁡ e x n , c ∑ i = 1 C e x n , i ] y n , c \mathcal{L}_{\alpha}(x,y) =\frac{1}{N} \sum_{n=1}^N[ -\sum_{c=1}^C \log \frac{e^{x_{n,c}}}{\sum_{i=1}^Ce^{x_{n,i}}}]y_{n,c} Lα(x,y)=N1n=1N[c=1Clogi=1Cexn,iexn,c]yn,c
L β ( x , y ) = 1 N ∑ n = 1 N [ 1 2 ( x n − y n ) 2 I ( ∣ x n − y n ∣ < 1 ) + ( ∣ x n − y n ∣ − 0.5 ) I ( ∣ x n − y n ∣ ≥ 1 ) ] \mathcal{L}_{\beta}(x,y) =\frac{1}{N} \sum_{n=1}^N[\frac{1}{2}(x_n-y_n)^2 \mathbb{I}(|x_n-y_n|<1) + (|x_n-y_n| - 0.5)\mathbb{I}(|x_n-y_n|\ge 1)] Lβ(x,y)=N1n=1N[21(xnyn)2I(xnyn<1)+(xnyn0.5)I(xnyn1)]
其中 x x x表示预测结果, y y y表示真值, N N N表示批大小, e e e为自然对数。式(4-1)中的 x n , c x_{n,c} xn,c表示预测的 x n x_n xn属于类别 c c c的概率, y n , c ∈ { 0 , 1 } y_{n,c}\in\{0,1\} yn,c{ 0,1}表示标签 y y y是否属于类别 c c c.式(4-2)中的 I ( ⋅ ) \mathbb{I}(·) I()为指示函数。

对于外观特征学习任务,期望的效果是对于不同的目标,距离度量要足够大。JDE将此问题视作分类问题。假设整个视频序列中不同实例的目标个数为 n I D nID nID,则算法应通过
嵌入向量对目标进行 n I D nID nID类别的分类。

假设某批样本中一个锚实例为 f T f^T fT,正样本(也即真值类别)为 f + f^+ f+,其与锚 f T f^T fT有关;负样本(也即其他类别)为 f − f^- f. 在损失计算时,关注所有的负样本分类。以 f T f + f^Tf^+ fTf+表示该锚实例被
认为是正样本的概率, f T f j − f^Tf_j^- fTfj表示锚被认为是第 j j j个类别的概率,采用与交叉熵函数相近的形式计算损失:
L γ ( x , y ) = 1 N ∑ i = 1 N [ − log ⁡ e f i T f i + e f i T f i + + ∑ j e f i T f i , j − ] \mathcal{L}_{\gamma}(x,y) =\frac{1}{N}\sum_{i=1}^N[-\log \frac{e^{f_i^Tf_i^+}} {e^{f_i^Tf_i^+} + \sum_j{e^{f_i^Tf_{i,j}^-}}}] Lγ(x,y)=N1i=1N[logefiTfi++jefiTfi,jefiTfi+]
其中下标 i i i表示第 i i i个样本。

(二)损失平衡

JDE同时学习三个任务:分类、边界框回归和外观特征学习。因此如何平衡三个任务是很重要的问题。其他多数算法是将各部分损失函数进行加权和,然而JDE采取了自动调整多任务重要性的方式来选择各部分损失的权重。具体地,参照文献[39]中提出的任务无关不确定性概念来将各部分损失权重当做网络参数学习。
因此总损失函数如式(4-4)所示:
L t o t a l = ∑ i = 1 M ∑ j = α , β , γ 1 2 ( 1 e s j i L j i + s j i ) \mathcal{L}_{total} = \sum_{i=1}^M \sum_{j=\alpha,\beta,\gamma} \frac{1}{2} (\frac{1}{e^{s_j^i}}\mathcal{L}_j^i+s_j^i) Ltotal=i=1Mj=α,β,γ21(esji1Lji+sji)
其中 s j i s_j^i sji为任务无关的不确定度,是可学习的参数。 M M M为任务个数,由于具有分类、边界框回归和外观特征学习三个任务,因此 M = 3 M=3 M=3.

猜你喜欢

转载自blog.csdn.net/wjpwjpwjp0831/article/details/124538565
今日推荐