机器学习算法评估指标——2D目标跟踪

在2D目标跟踪任务中,我们需要从精度、鲁棒性、运行速度等方面对算法进行综合评估。首先介绍单目标跟踪(SOT)算法的常用评估指标;其次介绍多目标跟踪(MOT)算法的常用评估指标。

单目标跟踪

APE(Average Pixel Error)

  • 定义:平均像素误差,一般指中心距离,即预测框与真实框中心位置的像素距离取帧平均
  • 用途:用来判断两个矩形框的靠近程度。该值越大,说明误差越大

AOR(Average Overlap Rate)

  • 定义:平均重叠率,即两个矩形框交集的面积与并集的面积之比取帧平均
  • 范围:0~100%
  • 用途:判断两个矩形框的重叠程度,值越高则重叠程度越高,即两个框越靠近,跟踪精度越高
  • Overlap Rate和 IoU 定义是完全相同的,只不过在检测任务中常写作IoU,在跟踪任务中常写作 Overlap Rate

Pixel Error threshold

  • 定义:需要人为设定的像素误差的阈值,Pixel Error低于该阈值的矩形框被认为是命中目标,反之则被认为未命中
  • 用途:作为区分矩形框是否命中目标的指标,阈值越小则要求矩形框与真值像素误差越小

Overlap Rate threshold

  • 定义:需要人为设定的重叠率的阈值,重叠率高于该阈值的矩形框被认为是命中目标,反之则被认为未命中
  • 范围:0~100%
  • 用途:作为区分矩形框是否命中目标的指标,阈值越高则要求矩形框与真值重叠程度越高

Success plot

定义:序列中跟踪成功的帧数占总帧数的比例定义为跟踪成功率,选取不同的阈值,则可以得到各阈值下的成功率,连接各点形成success曲线

以Pixel Error threshold为横坐标,以跟踪成功率为纵坐标:像素误差-成功率图
以Overlap Rate threshold为横坐标,以跟踪成功率为纵坐标:重叠率-成功率图

用途:根据曲线下的面积来衡量tracker的跟踪精确度

TRE(Temporal Robustness Evaluation)

  • 定义:时间鲁棒性评估。从整个序列中截取若干段(可以重复),每段的初始帧利用ground truth进行初始化,在每一段上分别运行跟踪算法,对每一段分别进行评估,最后对总体信息进行统计。
以OTB对时间鲁棒性的测试为例:
1)将视频序列在时间轴上平均找出20个点作为起点,终点还是原来的最后一帧,形成20段视频序列
2)对20段视频序列运行算法(使用ground-truth进行初始化),得到每段视频的APE或AOR
3)绘制平均像素误差(APE)图或者平均重叠率(AOR)图
4)时间鲁棒性测试完成

SRE(Spatial Robustness Evaluation)

  • 定义:空间鲁棒性评估。对起始帧的ground truth进行shift或scale操作形成若干段测试序列,在每一段上分别运行跟踪算法,对每一段分别进行评估,最后对总体信息进行统计。
以OTB对空间鲁棒性的测试为例:
1)将一段视频在第一帧以真实位置稍作偏移,即测试初始化位置有偏差的目标序列。具体方法是:以8个方向(8种空间位置上的偏移,包括4种中心偏移和4种角偏移)、4个尺度(4种尺度变化)形成12段测试序列
2)对12段视频序列运行算法,得到每段视频的跟踪成功率
3)将这12段序列的成功率绘制成曲线
4)空间鲁棒性测试完成

EAO(Expect Average Overlaprate)图

  • 定义:以AOR作为精度的衡量标准,以跟踪算法跟丢目标的次数作为鲁棒性的衡量标准。假设一个视频序列总帧数为N,跟丢帧数为SF。以 exp(-SF/N) 为横坐标,以AOR为纵坐标,绘制出EAO图。

  • 范围:0~100%(横坐标),0~100%(纵坐标)
  • 用途:在一张图中同时反映精度和鲁棒性。越靠近坐标轴右上角,即AOR趋于1,SF趋于0,说明该算法精度和鲁棒性越好

EFO(Equivalent Filter Operations)

  • 定义:首先测试该机器在600×600图像上,对每个像素进行30×30滤波的时间。然后将跟踪算法耗时除以该机器上进行以上滤波操作的时间,这样得到的值就是EFO值。
  • 用途:是用来衡量跟踪速度的指标,通过EFO指标可以减少硬件差异带来的影响

 

多目标跟踪

 

对于多目标跟踪问题,一个理想的评价指标应该满足下述三点要求:

  1. 所有出现的目标都要能够及时找到
  2. 找到目标位置要尽可能可真实目标位置一致
  3. 保持追踪一致性,避免跟踪目标的跳变

为了满足上述要求,论文提出了一种系统、客观的评价过程。假设每一帧图像中有目标O={o1,o2,...,on},tracker在该帧输出的假设为H={h1,h2,...,hm},那么评价过程包含以下步骤:

1.  建立目标和假设间的最优一一对应关系

在目标和假设间,采取最近邻的方法,将相互距离最小的假设匹配给对应的目标。如果在H中假设hi与目标oj的距离最近,且两者的距离dij<T(T为距离阈值),则应该视假设hi和目标oj存在对应关系;反之若dij>T,则视假设hi和目标oj不存在对应关系,此时oj为一个漏检目标。

注:(1)若以IoU作为衡量假设与目标是否匹配的标准,则IoU应该越大越好,即IoU大于阈值时视为匹配。
(2)为了降低错误率,减少对应发生跳变的次数,可以在同一目标存在多个合理对应时,选择已经存在的对应。

 

2.  对所有的目标-假设对应,计算位置偏移误差

3.  计算累积误差:误检、漏检、跟踪目标发生跳变等

  • 具体过程
    1. 对t帧,考虑Mt-1映射中的每一个对应(oi, hj),验证其是否依然有效;
    2. 对于那些上一步没有找到对应假设的目标,在新的假设集中寻找最佳匹配,即让总的目标-假设距离最小。在这个过程中可以统计匹配发生跳变的次数mmet,作为t帧的mismatch errors;
    3. 至此可以找到所有的目标-假设对应,所有的对应个数记为c-t,计算每一个对应的距离;
    4. 剩下的未找到对应的目标和假设个数分别记为mt和fpt,并用gt表示t帧真正目标的个数;
    5. 从第一帧开始逐帧计算上述变量,第一帧没有mme。

由此可以定义以下评估指标。

MOTP(Multiple Object Tracking Precision)

  • 定义:算法输出与目标真值的平均偏差

  • 用途:综合漏检率、误检率以及 ID 跳变率来评估跟踪准确度

MT(Mostly Tracked)

  • 定义:满足目标真值至少在80%的时间内都匹配成功的track,在所有追踪目标中所占的比例。

ML (Mostly Lost)

  • 定义:满足目标真值在小于20%的时间内匹配成功的track,在所有追踪目标中所占的比例。
注:这里的MT和ML与当前track的ID是否发生变化无关,只要算法输出与目标真值匹配上即可。

FM(Fragmentation)

  • 定义:每当轨迹将其状态从跟踪状态改变为未跟踪状态,并且在稍后的时间点跟踪相同的轨迹时,就会对FM进行计数。
注:(1)FM与ID是否发生变化无关
(2)FM计数时要求目标的状态需要满足:tracked->untracked->tracked
  • 用途:用来评估跟踪完整性

 

 

 

 

猜你喜欢

转载自blog.csdn.net/graviti/article/details/106255292